10 Evaluationsverfahren

Evaluation

Planung der Evaluation

Datensammlung

Dantenanalyse

Analysierte in grafischen Daten Anzeigen (Ergebnisse)

Ergebnisse Präsentieren

Toolbox of Methods

Randomisierung

Lating Square

Proband 1 macht erste Spalte,
Proband 2 macht zweite Spalte,
…

Daten Analyse

Examination

How many participants
Age, gender, experience
Are there corrupt data
Descriptive statistics

Filtering and transformation

Remove corrupt data points
Remove outliers
Transform e.g. aggregate question items to scales

Hypothesen Testing

Statistical Significance

A statistical significant effect exists if the probability that the difference occurred is below a certain significance level

Significance level (α)

Lower significance level means higher evidence
Arbitrary, but typical significance level: α = 0.05

Significant results (p < α)

Null hypothesis can be rejected
There is a statistical significant difference

Non-Significant results (p >= α)

Null hypothesis cannot be rejected
We cannot conclude anything!

Statistical Tests

Correlation

Bestimmt den Faktor, wie die Variablen linear miteinander verbunden sind

Regression

modelliert die funktionale beziehung zwischen abhängigen und unabhängigen variablen

Cluster

Statistische gruppierung

Variance

Equivalence

Daten

Quantiattiv

Alles was man zählen kann
Nachteil
- Dinge werden stark vereinfacht
- Dinge werden schnell aus dem Kontext gerissen
  Wir kenne die Hintergründe zu den Ergebnissen nicht

Arten von Variablen

Nominal
- mehr als eine Kategorie
Dichotomous
- Variablen, welche nur 2 Kategorien haben
Ordinal
- zwei oder mehr Kategorien, welche geordnet werden können
Interval
- variablen, welche anhand eines continuum gemessen werden können (numerisch)
Ratio
- Interval variablen, mit dem einschub, dass ein Nullwert erlaubt ist

Qualitativ

Daten die eine Qualität beschreiben. Es geht nicht um die Qualität der Daten.

Können nicht (oder nur sehr schwer/eingeschränkt) statistisch ausgewertet werden

Erzählen warum etwas ist
Inhalt -> Kommentare, Interviews, Beobachtungen

Subjektiv

Daten sind Subjektiv und können nicht genormt werden.

Die Frage nach Gefühlen ist immer subjektiv

Standartisierte Fragebögen

Objektiv

Daten können fest

Rationalism

Karl Popper

Theorien müssen nicht bestätigt, sondern falsifiziert werden

Error #important

α: is the probability of a significant result when H0 is true (Type 1 error rate)
β is the probability of a non-significant result, given that H1 is true (Type 2 error)
1-β is the probability of a significant result when H1 is true (statistical power)

Type 1 Error

False positive

Type2 Error

False negative

Type 3 Error

Wrong Hypothesis, right answer

Type 4 Error

Right Hypothesis, wrong anwer
Kann passieren, durch störeinflüsse

Type 1 & 2 Error

Beispielaufgabe #important

Result

in 2,5% der Fälle finden wir einen False positive  

in 40% der Fälle finden wir ein True-Positive  

In 47,5% der Fälle finden wir einen True-Negative

Familywise Error Rate (FWER)

Zu viele Conditions erhöhen die Wahrscheinlichkeit dass Typ 1 error auftauchen
Lösung: Man send das Signifikantsnivea
- Bonofonerri correction

Experiment Design

Between-groups

Zufällig auswählen, welche Person welche Aufgabe macht
Pro
- meistens leichter zu analysieren
- Studie ist kürzer, weil jeder Proband nur eine Sache machen muss
Contra
- benötigt mehr Probanden

Within-Groups

Ein Proband durchläuft alle Varianten
Beispielsweise geht ein Proband durch alle Designs
Pro
- Probanden können verschiedene Varianten vergleichen
- Es ist effizienter, da man mehr und schneller Daten sammeln kann
- Varianzen sind geringer
Contra
- Studie daurn länger
- Probanden ermüden
- Priming effekt -> Da Probanden schon etwas kennen, verhalten sie sich in den anderen Varianten anders

Decisions

Validity

Konnten die Daten bestätigt werden?
Internal Validity
- Wie sauber arbeiten wir? Wie gut kann man messen
External Validity
- Wie gut lassen sich die herausgefundenen Daten in der echten Welt nachbilden?

Reliable

Sind die Daten über mehrere Versuche konsistent?

Effect Size

Wie groß ist der Effekt, welcher herausgefunden worden ist

Hypothesen

The Null Hypothesis (H_0)

No-Effekt Hypothesis
There is no difference between two possibilities

The Alternative Hypothesis (H_1)

One of the alternative hypothesis

Statistical Power

Statistical power is the probability that the test correctly rejects the null hypothesis (H0) when the alternative hypothesis (H1) is true

Aspects that increase the statistical power

control all factors
increasing the sample size
increasing the effect size
increasing the number of conditions
increasing the number of measures
increasing the statistical significance criterion (α = 0.05)

Increasing Statistical Power

Statistical power (1-β) is the probability that the test correctly rejects the null hypothesis (H0) when the alternative hypothesis (H1) is true

Increasing the sample size
More subjects
More trials
Increasing the effect size
Reduce noise as much as possible
- Task repetition (e.g., ask participants to enter 100 phrases instead of 1 and take the average)
- Similar tasks (e.g., use phrases with the same difficulty instead of random phrases)
Remove outliers (only works under certain criteria)
Build something really good

Familywise Error Rate (FWER)

Too many conditions increase the probability that Type I errors occur. An estimation of FWER is

$F \leq 1 - (1 - \alpha)^c$

α = alpha level for an individual test (e.g., 0.05)
c = number of tests

10 Evaluationsverfahren

Evaluation​

Planung der Evaluation​

Datensammlung​

Dantenanalyse​

Analysierte in grafischen Daten Anzeigen (Ergebnisse)​

Ergebnisse Präsentieren​

Toolbox of Methods​

Methods borrowed from HCI, psychology, social sciences​

Randomisierung​

Lating Square​

Daten Analyse​

Examination​

Filtering and transformation​

Hypothesen Testing​

Statistical Significance​

Significance level (α)​

Significant results (p < α)​

Non-Significant results (p >= α)​

Statistical Tests​

Correlation​

Regression​

Cluster​

Variance​

Equivalence​

Daten​

Quantiattiv​

Arten von Variablen​

Qualitativ​

Subjektiv​

Objektiv​

Rationalism​

Karl Popper​

Theorien müssen nicht bestätigt, sondern falsifiziert werden​

Error #important​

Type 1 Error​

Type2 Error​

Type 3 Error​

Type 4 Error​

Type 1 & 2 Error​

Beispielaufgabe #important​

Familywise Error Rate (FWER)​

Experiment Design​

Between-groups​

Within-Groups​

Decisions​

Validity​

Reliable​

Effect Size​

Hypothesen​

The Null Hypothesis (H_0)​

The Alternative Hypothesis (H_1)​

Statistical Power​

Aspects that increase the statistical power​

Increasing Statistical Power​

Familywise Error Rate (FWER)​

Evaluation

Planung der Evaluation

Datensammlung

Dantenanalyse

Analysierte in grafischen Daten Anzeigen (Ergebnisse)

Ergebnisse Präsentieren

Toolbox of Methods

Methods borrowed from HCI, psychology, social sciences

Randomisierung

Lating Square

Daten Analyse

Examination

Filtering and transformation

Hypothesen Testing

Statistical Significance

Significance level (α)

Significant results (p < α)

Non-Significant results (p >= α)

Statistical Tests

Correlation

Regression

Cluster

Variance

Equivalence

Daten

Quantiattiv

Arten von Variablen

Qualitativ

Subjektiv

Objektiv

Rationalism

Karl Popper

Theorien müssen nicht bestätigt, sondern falsifiziert werden

Error #important

Type 1 Error

Type2 Error

Type 3 Error

Type 4 Error

Type 1 & 2 Error

Beispielaufgabe #important

Familywise Error Rate (FWER)

Experiment Design

Between-groups

Within-Groups

Decisions

Validity

Reliable

Effect Size

Hypothesen

The Null Hypothesis (H_0)

The Alternative Hypothesis (H_1)

Statistical Power

Aspects that increase the statistical power

Increasing Statistical Power

Familywise Error Rate (FWER)