10 Evaluationsverfahren
Evaluation​
Planung der Evaluation​
Datensammlung​
Dantenanalyse​
Analysierte in grafischen Daten Anzeigen (Ergebnisse)​
Ergebnisse Präsentieren​
Toolbox of Methods​
Methods borrowed from HCI, psychology, social sciences​
Randomisierung​
Lating Square​
Proband 1 macht erste Spalte,
Proband 2 macht zweite Spalte,
…
Daten Analyse​
Examination​
How many participants
Age, gender, experience
Are there corrupt data
Descriptive statistics
Filtering and transformation​
Remove corrupt data points
Remove outliers
Transform e.g. aggregate question items to scales
Hypothesen Testing​
Statistical Significance​
- A statistical significant effect exists if the probability that the difference occurred is below a certain significance level
Significance level (α)​
- Lower significance level means higher evidence
- Arbitrary, but typical significance level: α = 0.05
Significant results (p < α)​
- Null hypothesis can be rejected
- There is a statistical significant difference
Non-Significant results (p >= α)​
- Null hypothesis cannot be rejected
- We cannot conclude anything!
Statistical Tests​
Correlation​
- Bestimmt den Faktor, wie die Variablen linear miteinander verbunden sind
Regression​
- modelliert die funktionale beziehung zwischen abhängigen und unabhängigen variablen
Cluster​
- Statistische gruppierung
Variance​
Equivalence​
Daten​
Quantiattiv​
Alles was man zählen kann
Nachteil
Dinge werden stark vereinfacht
Dinge werden schnell aus dem Kontext gerissen
Wir kenne die Hintergründe zu den Ergebnissen nicht
Arten von Variablen​
Nominal
- mehr als eine Kategorie
Dichotomous
- Variablen, welche nur 2 Kategorien haben
Ordinal
- zwei oder mehr Kategorien, welche geordnet werden können
Interval
- variablen, welche anhand eines continuum gemessen werden können (numerisch)
Ratio
- Interval variablen, mit dem einschub, dass ein Nullwert erlaubt ist
Qualitativ​
Daten die eine Qualität beschreiben. Es geht nicht um die Qualität der Daten.
Können nicht (oder nur sehr schwer/eingeschränkt) statistisch ausgewertet werden
Erzählen warum etwas ist
Inhalt -> Kommentare, Interviews, Beobachtungen
Subjektiv​
Daten sind Subjektiv und können nicht genormt werden.
Die Frage nach Gefühlen ist immer subjektiv
- Standartisierte Fragebögen
Objektiv​
Daten können fest
Rationalism​
Karl Popper​
Theorien müssen nicht bestätigt, sondern falsifiziert werden​
Error #important​
- α: is the probability of a significant result when H0 is true (Type 1 error rate)
- β is the probability of a non-significant result, given that H1 is true (Type 2 error)
- 1-β is the probability of a significant result when H1 is true (statistical power)
Type 1 Error​
- False positive
Type2 Error​
- False negative
Type 3 Error​
- Wrong Hypothesis, right answer
Type 4 Error​
Right Hypothesis, wrong anwer
Kann passieren, durch störeinflüsse
Type 1 & 2 Error​
Beispielaufgabe #important​
Result
in 2,5% der Fälle finden wir einen False positive
in 40% der Fälle finden wir ein True-Positive
In 47,5% der Fälle finden wir einen True-Negative
Familywise Error Rate (FWER)​
Zu viele Conditions erhöhen die Wahrscheinlichkeit dass Typ 1 error auftauchen
Lösung: Man send das Signifikantsnivea
- Bonofonerri correction
Experiment Design​
Between-groups​
Zufällig auswählen, welche Person welche Aufgabe macht
Pro
meistens leichter zu analysieren
Studie ist kürzer, weil jeder Proband nur eine Sache machen muss
Contra
- benötigt mehr Probanden
Within-Groups​
Ein Proband durchläuft alle Varianten
Beispielsweise geht ein Proband durch alle Designs
Pro
Probanden können verschiedene Varianten vergleichen
Es ist effizienter, da man mehr und schneller Daten sammeln kann
Varianzen sind geringer
Contra
Studie daurn länger
Probanden ermüden
Priming effekt -> Da Probanden schon etwas kennen, verhalten sie sich in den anderen Varianten anders
Decisions​
Validity​
Konnten die Daten bestätigt werden?
Internal Validity
- Wie sauber arbeiten wir? Wie gut kann man messen
External Validity
- Wie gut lassen sich die herausgefundenen Daten in der echten Welt nachbilden?
Reliable​
- Sind die Daten über mehrere Versuche konsistent?
Effect Size​
- Wie groß ist der Effekt, welcher herausgefunden worden ist
Hypothesen​
The Null Hypothesis (H_0)​
No-Effekt Hypothesis
There is no difference between two possibilities
The Alternative Hypothesis (H_1)​
- One of the alternative hypothesis
Statistical Power​
Statistical power is the probability that the test correctly rejects the null hypothesis (H0) when the alternative hypothesis (H1) is true
Aspects that increase the statistical power​
- control all factors
- increasing the sample size
- increasing the effect size
- increasing the number of conditions
- increasing the number of measures
- increasing the statistical significance criterion (α = 0.05)
Increasing Statistical Power​
Statistical power (1-β) is the probability that the test correctly rejects the null hypothesis (H0) when the alternative hypothesis (H1) is true
- Increasing the sample size
- More subjects
- More trials
- Increasing the effect size
- Reduce noise as much as possible
- Task repetition (e.g., ask participants to enter 100 phrases instead of 1 and take the average)
- Similar tasks (e.g., use phrases with the same difficulty instead of random phrases)
- Remove outliers (only works under certain criteria)
- Build something really good
Familywise Error Rate (FWER)​
Too many conditions increase the probability that Type I errors occur. An estimation of FWER is
- α = alpha level for an individual test (e.g., 0.05)
- c = number of tests