Skip to main content

10 Evaluationsverfahren

Evaluation​

Planung der Evaluation​

Datensammlung​

Dantenanalyse​

Analysierte in grafischen Daten Anzeigen (Ergebnisse)​

Ergebnisse Präsentieren​

Toolbox of Methods​

Methods borrowed from HCI, psychology, social sciences​

Randomisierung​

Lating Square​

Proband 1 macht erste Spalte,
Proband 2 macht zweite Spalte,
…

Daten Analyse​

Examination​

  • How many participants

  • Age, gender, experience

  • Are there corrupt data

  • Descriptive statistics

Filtering and transformation​

  • Remove corrupt data points

  • Remove outliers

  • Transform e.g. aggregate question items to scales

Hypothesen Testing​

Statistical Significance​

  • A statistical significant effect exists if the probability that the difference occurred is below a certain significance level

Significance level (α)​

  • Lower significance level means higher evidence
  • Arbitrary, but typical significance level: α = 0.05

Significant results (p < α)​

  • Null hypothesis can be rejected
  • There is a statistical significant difference

Non-Significant results (p >= α)​

  • Null hypothesis cannot be rejected
  • We cannot conclude anything!

Statistical Tests​

Correlation​

  • Bestimmt den Faktor, wie die Variablen linear miteinander verbunden sind

Regression​

  • modelliert die funktionale beziehung zwischen abhängigen und unabhängigen variablen

Cluster​

  • Statistische gruppierung

Variance​

Equivalence​

Daten​

Quantiattiv​

  • Alles was man zählen kann

  • Nachteil

    • Dinge werden stark vereinfacht

    • Dinge werden schnell aus dem Kontext gerissen

      Wir kenne die Hintergründe zu den Ergebnissen nicht

Arten von Variablen​

  • Nominal

    • mehr als eine Kategorie
  • Dichotomous

    • Variablen, welche nur 2 Kategorien haben
  • Ordinal

    • zwei oder mehr Kategorien, welche geordnet werden können
  • Interval

    • variablen, welche anhand eines continuum gemessen werden können (numerisch)
  • Ratio

    • Interval variablen, mit dem einschub, dass ein Nullwert erlaubt ist

Qualitativ​

Daten die eine Qualität beschreiben. Es geht nicht um die Qualität der Daten.

Können nicht (oder nur sehr schwer/eingeschränkt) statistisch ausgewertet werden

  • Erzählen warum etwas ist

  • Inhalt -> Kommentare, Interviews, Beobachtungen

Subjektiv​

Daten sind Subjektiv und können nicht genormt werden.

Die Frage nach Gefühlen ist immer subjektiv

  • Standartisierte Fragebögen

Objektiv​

Daten können fest

Rationalism​

Karl Popper​

Theorien müssen nicht bestätigt, sondern falsifiziert werden​

Error #important​

  • α: is the probability of a significant result when H0 is true (Type 1 error rate)
  • β is the probability of a non-significant result, given that H1 is true (Type 2 error)
  • 1-β is the probability of a significant result when H1 is true (statistical power)

Type 1 Error​

  • False positive

Type2 Error​

  • False negative

Type 3 Error​

  • Wrong Hypothesis, right answer

Type 4 Error​

  • Right Hypothesis, wrong anwer

    Kann passieren, durch störeinflüsse

Type 1 & 2 Error​

Beispielaufgabe #important​

  • Result

    in 2,5% der Fälle finden wir einen False positive  

    in 40% der Fälle finden wir ein True-Positive

    In 47,5% der Fälle finden wir einen True-Negative

Familywise Error Rate (FWER)​

  • Zu viele Conditions erhöhen die Wahrscheinlichkeit dass Typ 1 error auftauchen

  • Lösung: Man send das Signifikantsnivea

    • Bonofonerri correction

Experiment Design​

Between-groups​

  • Zufällig auswählen, welche Person welche Aufgabe macht

  • Pro

    • meistens leichter zu analysieren

    • Studie ist kürzer, weil jeder Proband nur eine Sache machen muss

  • Contra

    • benötigt mehr Probanden

Within-Groups​

  • Ein Proband durchläuft alle Varianten

    Beispielsweise geht ein Proband durch alle Designs

  • Pro

    • Probanden können verschiedene Varianten vergleichen

    • Es ist effizienter, da man mehr und schneller Daten sammeln kann

    • Varianzen sind geringer

  • Contra

    • Studie daurn länger

    • Probanden ermüden

    • Priming effekt -> Da Probanden schon etwas kennen, verhalten sie sich in den anderen Varianten anders

Decisions​

Validity​

  • Konnten die Daten bestätigt werden?

  • Internal Validity

    • Wie sauber arbeiten wir? Wie gut kann man messen
  • External Validity

    • Wie gut lassen sich die herausgefundenen Daten in der echten Welt nachbilden?

Reliable​

  • Sind die Daten über mehrere Versuche konsistent?

Effect Size​

  • Wie groß ist der Effekt, welcher herausgefunden worden ist

Hypothesen​

The Null Hypothesis (H_0)​

  • No-Effekt Hypothesis

  • There is no difference between two possibilities

The Alternative Hypothesis (H_1)​

  • One of the alternative hypothesis

Statistical Power​

Statistical power is the probability that the test correctly rejects the null hypothesis (H0) when the alternative hypothesis (H1) is true

Aspects that increase the statistical power​

  • control all factors
  • increasing the sample size
  • increasing the effect size
  • increasing the number of conditions
  • increasing the number of measures
  • increasing the statistical significance criterion (α = 0.05)

Increasing Statistical Power​

Statistical power (1-β) is the probability that the test correctly rejects the null hypothesis (H0) when the alternative hypothesis (H1) is true

  • Increasing the sample size
  • More subjects
  • More trials
  • Increasing the effect size
  • Reduce noise as much as possible
    • Task repetition (e.g., ask participants to enter 100 phrases instead of 1 and take the average)
    • Similar tasks (e.g., use phrases with the same difficulty instead of random phrases)
  • Remove outliers (only works under certain criteria)
  • Build something really good

Familywise Error Rate (FWER)​

Too many conditions increase the probability that Type I errors occur. An estimation of FWER is

F≤1−(1−α)cF \leq 1 - (1 - \alpha)^c

  • α = alpha level for an individual test (e.g., 0.05)
  • c = number of tests