Skip to content

Konfidenzintervalle in der Quantifizierung von User Experience

by - 21. September 2014

Abstract

Usability Engineers und UX Researcher werden mit der Erwartung konfrontiert, auch bei kleinen Fallzahlen nicht nur qualitative, sondern auch quantitative Ergebnisse zu liefern. Hier hilft das aus der Statistik bekannte Konstrukt des Konfidenzintervalls, das die korrekte Verallgemeinerung von in Stichproben-Tests oder durch Logfiles ermittelten Parametern auf diejenigen der Population erlaubt.

Im Artikel wird anhand von Fallbeispielen dargelegt, wie die Konfidenzgrenzen zum Mittelwert der Zielerreichung ermittelt werden und wie die quantitative Interpretation einer Bewertung zweier Naming-Alternativen durch Probanden eines Usability-Testes erfolgt.

1 Nur Tendenzen…?

UX Researcher, die im Bereich Usability tätig sind, kennen das Problem: Ergebnisse aus im Labor durchgeführten Tests werden vom Product Owner oder Management als nicht verallgemeinerbar angezweifelt. Der Zweifel: da es bei den für Labortest typischen geringen Probandenzahlen sehr gut möglich sei, dass einige wenige Individuen aufgrund von Fähigkeiten, Vorlieben, Kenntnissen, Interessenlagen die Ergebnisse so stark beeinflussen (in der Statistik-Sprache „verzerren“), könne von den im Test gewonnenen quantitativen Ergebnissen nicht auf die gesamte Nutzergruppe geschlossen werden. Auch sorgfältigstes Screening der Probanden und deren repräsentative Zusammensetzung nach Zielgruppen kann den Verweis auf die geringe Stichproben-Zahl nicht entkräften.

Ergänzend zu diesen Zweifeln ist mir in den vergangenen Jahren eine ähnliche skeptische Sichtweise auch bei einigen Marktforschungsabteilungen und Usability-Laboren begegnet, die sowohl im Gespräch als auch im Ergebnisbericht vor der Verallgemeinerung von ermittelten quantitativen Kennzahlen warnten und betonten, dass die gewonnenen Ergebnisse immer nur Tendenzen seien!

 

Achtung: Aufgrund geringer Fallzahl (n=20) nur Tendenzen

Abb. 1: Aus einem Ergebnisbericht eines Usability-Labors: Warnung vor Schlüssen aus quantitativen Ergebnissen bei n=20.

Diese vorsichtige und mahnende Haltung ist wohl auch eine Reaktion auf den gerade im Management verbreiteten – und durchaus nachvollziehbaren – Wunsch, harte „facts and figures“ als Bewertungs-, Entscheidungs- und Argumentationsgrundlage verfügbar zu haben. Aber durch die ständige Mahnung der Researcher, die gewonnenen Ergebnisse seien nicht quantitativ verallgemeinerbar, manövrieren die Researcher allerdings sich selbst und ihre Ergebnisse in eine defensive Ecke, in der sie Gefahr laufen, an Argumentationskraft und Wertschätzung für ihre Untersuchungsergebnisse zu verlieren.

… oder geht es auch genauer?

Unnötigerweise! – muss ich an dieser Stelle hinzufügen. Denn die Statistik liefert dem UX Research die Begriffe, Methoden und Tools nicht nur für große Fallzahlen, sondern auch für die bei Labortests typischen kleinen Fallzahlen. Meine eigenen Usabilitytests hatten Teilnehmerzahlen zwischen 8 und 22 und ich kenne Kollegen, die viele Tests mit weniger als 10 Teilnehmern durchführen müssen. Jedenfalls liegt der typische Usability-Test im Labor deutlich unter n=30, was in der Statistik die magische Grenze für die Anwendung verschiedener Gesetzmäßigkeiten und Formeln ist. Aber auch für n < 30 hat die Statistik ausreichend Methoden und Formeln bereit, um klare Aussagen zur Verallgemeinerbarkeit der durch die Testteilnehmer erhaltenen quantitativen Daten auf die Population treffen zu können.

Auch in der – bislang sehr spärlichen – Literatur zu quantitativen Ergebnissen des UX Researchs wird betont, dass – entgegen der allgemein verbreiteten Ansicht – auch bei geringen Fallzahlen quantitative Datenanalysen und valide statistische Aussagen getroffen werden können: „There is an incorrect perception that sample sizes must be large to use statistics and interpret quantitative data … Don’t let the size of your sample (even if you have as few as 2 – 5 users) preclude you from using statistics to quantify your data and inform your design decisions.“ (Sauro & Lewis 2012, S. 10)

Zusätzlich müssen wir uns im UX Research darauf einrichten, dass unsere Auftraggeber über qualitative Ergebnisse hinaus quantifizierbare Ergebnisse zunehmend erwarten: „Quantitative usability data are becoming an industry expectation.“ (Molich, R. et al 2009, S.9)

Quantitative usability data are becoming an industry expectation (Rolf Molich et al.)

 

2   Fallstudie Naming Alternativen

 

Im Jahre 2010 ließen wir zwei Varianten einer webbasierten Suche auf Usability und Akzeptanz testen. Zweck der Applikation ist, dass die Nutzer deutschlandweit sich zu einem (einzugebenen) Ort innerhalb Deutschland die nächstliegenden Standorttypen (Filiale, Briefkasten, Packstation usw) des Logistik-Unternehmens anzeigen lassen können und zu jedem einzelnen Standorttypen weitere Detailinformationen wie Öffnungszeit, Leistungsspektrum, Adresse etc. erhalten.

Ein (sehr kleiner) Teil des Usability-Testes bestand darin, zu ermitteln, welcher Begriff die folgende Zeitbestimmung am griffigsten und am verständlichsten wiedergibt: Vor allem Geschäftskunden, die ihre Briefe und Pakete (in der Logistik-Sprache als „Sendungen“ bezeichnet) gesammelt in einer Filiale abgeben, interessiert der Zeitpunkt, bis zu dem garantiert ist, dass die abgegebenen Sendungen noch am selben Tag aus der Filiale heraus weiter befördert werden. In der Offline-Welt der Logistik gab es für diesen Termin bis dahin den seit vielen Jahren verwendeten Begriff „Annahmeschluss“.  Als – aus konzeptioneller Sicht treffendere – Alternative wurde „Versandschluss“ ins Spiel gebracht. Für beide Begriffe gab es aus unserer internen Sicht Pros und Cons. Aber welcher der beiden Begriffe wäre für die Nutzer der Suchapplikation unterm Strich verständlicher und passender? Und gäbe es einen deutlichen quantitative Unterschied in der Präferenz?

Wir ließen die Probanden nach Präferenz und Gründen in Einzelgesprächen telefonisch kurz befragen. n = 20, Privatkunden und Geschäftskunden, Nutzer und (bisherige) Nicht-Nutzer der Applikation. Alle Probanden waren potentielle Nutzer. Das Ergebnis: 7 pro „Annahmeschluss“, 13 pro „Versandschluss“.

Umfrageergebnis: Welchen Begriff finden Sie passender?

Abb. 2: Umfrage im Usabilitytest zur Präferenz zweier Naming-Alternativen: klare Präferenz für „Versandschluss“ – aber was schließt man daraus für die Population aller Nutzer?

Die Probanden nannten als Gründe zu ihrer jeweiligen Präferenz:

Pro „Versandschluss“:

  • Versandschluss ist verständlicher, weil klar ausgedrückt wird, das eine Sendung nicht nur angenommen, sondern auch verschickt wird. „Versandschluss zeigt mir klar, dass die Post  bis zu diesem Zeitpunkt versendet wird.“ (O-Ton w/GK)
  • für Normalverbraucher leicht zu merken.

Pro „Annahmeschluss“:

  • Begriff ist bereits bekannt und geläufig (gilt für diejenigen, die die spezifische Bedeutung im Kontext von Geschäftspost kennen)

Die Mehrheitsverhältnisse waren deutlich und so entschieden wir, in der Applikation künftig den Begriff „Versandschluss“ zu verwenden. Für die Entscheidung war auch relevant, dass alle 3 befragten Geschäftskunden – also solche User, die am ehesten von dem Informations-Feature betroffen sind – für „Versandschluss“ waren.

Punktschätzung für die Population

Betrachten wir nun, inwieweit die aus der Befragung gewonnenen Daten verallgemeinert werden können. Aus statistischer Sicht handelt es sich bei der Befragung der 20 Probanden um eine Stichprobe, von der aus auf die Population aller potenziellen Nutzer der Applikation geschlossen wird. Die gewonnenen Daten sind diskret-binär, da die Präferenz für den einen Begriff gleichzeitig die Ablehnung des anderen Begriffs bedeutet; die Daten verhalten sich wie Daten zur Aufgabenerfüllung (erfüllt – nicht erfüllt) oder wie beim Münzwurf (Erfolg – Misserfolg).

Sauro & Lewis machen den zur Punktschätzung verwendete Algorithmus nicht nur von der Fallzahl, sondern auch von der Größenordnung der Erfolgsrate abhängig. Eine Untersuchung zu den verschiedenen Rechenverfahren und ihre Tauglichkeit zur Punktschätzung siehe Sauro & Lewis 2012.

Im vorliegenden Fall (n = 20, und 0,5 < p(x)  < 0,9) ist der beste Punktschätzer die Erfolgsrate der Stichprobe ohne Korrektur (Sauro & Lewis 2010, S.25). Mit den Werten aus der Befragung (x = 13, n = 20) erhalten wir 0,65. 65% aller Nutzer werden also „Versandschluss“ besser finden als „Annahmeschluss“ – so die Schlussfolgerung. Der wahre Wert wird allerdings daneben liegen. Wie weit er daneben und innerhalb welcher Spanne er um 65%  streuen kann, bestimmen wir mit dem Konfidenzintervall.

Das Konfidenzintervall

Vereinfacht gesagt, kennzeichnet das Konfidenzintervall denjenigen Bereich, innerhalb dessen der Parameter der Population sich befinden kann – auf der Grundlage einer gegebenen Wahrscheinlichkeit (genannt „Konfidenzniveau“). Standardmäßig wird ein Konfidenzniveau von 95% angesetzt. Andersherum betrachtet: das Konfidenzintervall zeigt, wo der Populationsparameter sich höchstwahrscheinlich NICHT befinden wird. Da das Konfidenzintervall die Stichprobengröße in seinen Wert mit einbezieht, enthält es Informationen zur Präzision der Schätzung, die wir aus den Stichprobendaten vornehmen – große Stichproben führen zu einem schmalen Intervall, kleine Stichproben zu einem breiten.

Die Grenzen eines Konfidenzintervall für binomiale Daten werden mittels Wald-Verfahren berechnet (Lewis & Sauro 2012, S. 23)

Formel für Konfidenzintervall für binomiale Daten mittels Wald-Verfahren

Formel 1: Konfidenzintervall für binomiale Daten mittels Wald-Verfahren

Im vorliegenden Fall wollen wir ein Konfidenzniveau von 95%, der entsprechende kritische Wert beträgt 1,96. Daraus ergeben sich für das Konfidenzintervall folgende gerundete Werte:

Untere Grenze: 0,65 – 0,21 = 0,44.
Obere Grenze: 0,65 + 0,21 = 0,86

Konfidenzgrenzen bei 95% Wahrscheinlichkeit

Abb. 3: Geschätzter Mittelwert und Konfidenzintervallgrenzen (Konfidenzniveau 95%) für Präferenz des Begriffs „Versandschluss“. Berechnung mittels Wald-Verfahren. Die unterhalb der Kurve gefüllte blaue Fläche zeigt die Wahrscheinlichkeitsdichte von 95%; die beiden ausserhalb liegenden kleinen weissen Fläche repräsentieren jeweils 2,5% .

Wir können jetzt folgende Aussage zusätzlich zur geschätzten Erfolgsquote von 65% treffen: mit 95%er Wahrscheinlichkeit liegt der Anteil derjenigen User, die „Versandschluss“ besser finden zwischen 44 und 86%. (Ich gehe an dieser Stelle nicht darauf ein, ob die Aussage über die Realität oder über das Verfahren getroffen wird.)

Adjusted Wald-Verfahren

Lewis und Sauro haben nachgewiesen, dass für kleine Stichprobenumfänge das Wald-Verfahren zu ungenau ist (Lewis & Sauro 2012, S. 21). Zu empfehlen ist das adjustierte Wald-Verfahren, das für kleine Stichproben treffendere Ergebnisse liefert. Hierzu wird im Zwischenschritt ein adjustierte Punktschätzer ermittelt. Einen gut angenäherten Wert für 95% Konfidenzniveaus erhalten wir, indem zwei Erfolge und zwei Misserfolge hinzuzählen. Dieser angepasster Punktschätzer wird in die Wald-Formel eingesetzt, mit der das adjustierte Konfidenzintervall berechnet wird.

Formel 2: Konfidenzintervall für binomiale Daten mittels adjustiertem Wald-Verfahren für geringe Stichprobenumfänge

Formel 2: Konfidenzintervall für binomiale Daten mittels adjustiertem Wald-Verfahren für geringe Stichprobenumfänge

 

Adjustierter Punktschätzer p_adj = 15/24 = 0,625  –  Untere Grenze: 0,625-0,194 = 0,431  –  Obere Grenze: 0,625+0,194 = 0,819

Nach dem angepassten Wald-Verfahren können wir folgende zusammen gehörenden Schlussfolgerungen aus unserem Test ziehen: Der Anteil der Nutzer (aus der Grundgesamtheit, nicht derjenigen aus dem Usabilitytest), die „Versandschluss“ besser finden, liegt mit 95%iger Wahrscheinlichkeit zwischen 43 und 82%.  Der geschätzte Punkt des Mittelwertes liegt bei 62,5%.

Präferenz Wording: Konfidenzintervall adj_Wald

Abb. 4: Konfidenzintervalle und Punktschätzer für Präferenz zweier Naming-Alternativen,  Konfidenzniveau 95%, Datenerhebung: Befragung innerhalb Usabilitytest mit n = 20, Berechnung: Adjusted Wald-Verfahren

 

Der Nutzen für den UX Researcher

Nun mag es übertrieben erscheinen, wenn im vorliegenden Fall zweier Alternativen, bei dem doppelt so viele Teilnehmer für eine Alternative gestimmt haben wie für die andere, Punktschätzungen vorgenommen werden und Konfidenzintervalle bestimmt werden. Die Alternativen sind ja klar und einfach und die Mehrheitsverhältnisse in der Stichprobe evident, so dass die Entscheidung zwischen beiden Alternativen offensichtlich und zwingend ist. Wozu also einem Entscheider, der die Dinge in der Regel eher einfach als wissenschaftlich korrekt erklärt haben will, mit Punktschätzern und Konfidenzintervallen kommen, wenn in der Stichprobe alles klar zu sein scheint?

Nun – um beim Entscheider auf den sachlich richtigen Punkt zu kommen. Statt wie bislang zu sagen: „Die Tendenz ist, dass mehr User „Versandschluss“ treffender als „Annahmeschluss“ finden.“ können wir nunmehr sagen: „Mit 95%iger Wahrscheinlichkeit liegt der Anteil derjenigen Nutzer, die „Versandschluss“ besser finden, zwischen 43 und 83% mit der größten Wahrscheinlichkeit bei 62,5%.  Die geschätzte Anteil derjenigen, die Annahmeschluss bevorzugen, beträgt dagegen lediglich 37,5%, ebenfalls mit einer Toleranz von ±20% bei einer 95% igen Wahrscheinlichkeit.“ Die Empfehlung des UX Researchers ist in beiden Situationen die gleiche („Implementiere Versandschluss“), die zweite Begründung ist aber präziser und mit „hard figures“ hinterlegt.

Die Wege des quantitativen UX Research sind nicht immer intuitiv. Was wäre die intuitive Schlussfolgerung für die Aufgabenerfüllungsrate, wenn in einem Usability-Test 10 von 10 Probanden die Aufgabe erfüllt haben? Nun…? Die richtige Antwort  lautet: 92%  (nach Laplace-Verfahren (x+1)/(n+2) = 11/12=0,9167 (Lewis & Sauro 2012, S. 25). Und die untere Grenze des zugehörigen  Konfidenzintervalls auf dem 95%-Niveau beläuft sich immerhin noch auf 77% ! Diese Informationen sind deutlich schärfer als eine Warnung „Dies ist nur eine Tendenz“ und präzisieren unsere Vorstellungen über die Welt ausserhalb des Usability-Testes.

Und genau deswegen gilt es, sauber und  sachgerecht zu argumentieren. Die Konfidenzintervalle erlauben uns einzuschätzen, wie gut / wie präzise die KPI-Werte sind, die wir von den Stichprobendaten auf die Population übertragen. Denn die KPIs der Population sind ja das, was letztlich interessiert. Konfidenz-Intervalle beziehen die Komponente der Stichprobengröße in ihre Aussage mit ein: Je größer unsere Stichprobe, je größer also n, desto kleiner wird die Unsicherheit und desto kleiner ist das Intervall für ein gewähltes Konfidenzniveau.

Online-Helferlein

Es ist nicht notwendig, die Rechnungen für den Punktschätzer und das Konfidenzintervall selber durchzuführen: Jeff Sauro stellt auf seiner Website einen webbasierten Kalkulator für verschiedene Berechnungsverfahren zur Verfügung. Dabei sind auch unterschiedliche Konfidenzniveaus möglich. Der Kalkulator ist auf die Berechnung der für UX wichtigen Metrik <Anzahl der erfüllten Aufgaben> ausgelegt; man kann mit ihm jedoch auch andere binäre Daten ermitteln. Sehr hilfreich sind ebenfalls die dort vorhandenen Hinweise, unter welchen Randbedingungen welches Verfahren genutzt werden sollte.

 

3   Fallbeispiel Messung der Zielerreichung bei einer webbasierten Umkreissuche

 

In der Definition von Usability ( = Gebrauchstauglichkeit) in der Norm ISO 9241, Teil 210, werden drei Leitkriterien bestimmt, die eine Quantifizierung von Usability erlauben:

  • Effektivität: „Vollständigkeit und Genauigkeit der Zielerreichung“
  • Effizienz: „zur (effektiven) Aufgabenerfüllung benötigter Aufwand“
  • Zufriedenstellung: „Freiheit von Beeinträchtigung und positive Grundeinstellung zum Produkt“
Definition von Usability (= Gebrauchstauglichkeit) Gebrauchstauglichkeit ist das Ausmaß, in dem ein Produkt, System oder eine Dienstleistung durch bestimmte Benutzer in einem bestimmten Nutzungskontext genutzt werden kann, um festgelegte Ziele effektiv, effizient und zufriedenstellend zu erreichen.

Definition von Usability nach DIN ISO 9241, Teil 210. Zum besseren Verständnis visuell strukturiert.

 

Ich betrachte innerhalb dieses Artikels über Konfidenzintervalle  ausschließlich das Kriterium der Effektivität anhand des Fallbeispiels derselben Suchapplikation wie zuvor.

Das Erreichen eines festgelegten Zieles ist in Usability-Testing eine wesentliches Kriterium: können User mittels der benutzten Software nicht die vorgesehenen oder beabsichtigten Aufgaben / Ziele erreichen, so gilt die Software als nicht benutzbar.

Im laborgestützten Usability-Test von Software/ Websites wird die Aufgabenerfüllung in der Regel durch die Testleiter nach festgelegten Kriterien in den einzelnen Abschnitten bejaht oder verneint. Sind mehrere Probanden nicht in der Lage, eine bestimmte Aufgabe zu erfüllen, so wird der entsprechende Teil der Software mit der höchste Prioritätsstufe für notwendige Verbesserungen bewertet.

Im vorliegenden Fallbeispiel des User Feedbacks zur Suchapplikation ging es mir darum, einen Key Performance Indicator für eine webbasierte Suche über einen langen Zeitraum verfügbar zu haben, der die Effektivität der oben bereits genannten Umkreissuche misst. Diese Suche erstreckt sich auf alle Standorte und Standorttypen eines Logistik-Unternehmens, das in ganz Deutschland operiert.

Untersuchte Applikation:

Zweck der untersuchten Applikation ist, dass die Nutzer deutschlandweit sich zu einem (einzugebenen) Ort innerhalb Deutschland die nächstliegenden Standorttypen (Filiale, Briefkasten, Packstation usw) anzeigen und zu jedem einzelnen Standorttypen weitere Detailinformationen wie Öffnungszeit, Leistungsspektrum, Adresse etc. darstellen lassen können. Typischerweise muss der Nutzer ein bis drei Bedienschritte durchlaufen, bis er die Detailinformationen erhält: Aufruf der Applikation -> Eingabe des eigenen Standortes, ggf. mit zusätzlichen Filtern -> Auswahl aus Suchergebnissen -> Detailinformationen

Methode:

Die Nutzer erhielten unterhalb der Suchergebnisse einen Kasten „Kurzbewertung“ mit der Frage „Haben Sie die von Ihnen gesuchten Informationen gefunden?“ Die Antwortmöglichkeiten waren „ja“ oder „nein“. Wurde einer der Radiobuttons angeklickt, so konnten zusätzliche Informationen in ein Freitextfeld eingegeben werden, bevor die Antwort an den Server gesendet wurde. Um die Teilnahmehürde möglichst gering zu halten, wurde auf weitere differenzierende Fragen verzichtet. Uns war wichtig, den Nutzungsprozess der Suche in ihren verschiedenen Schritten nicht durch die Umfrage zu stören, sondern diese als „nicht-invasiven“ Feedback-Kanal zu positionieren.

Daher wurde darauf verzichtet, durch Animationen, Gestaltung als Popup oder ähnliche aufmerksamkeitsfordernde Maßnahmen den Kurzbewertungs-Kasten dem Nutzer aufzudrängen.

Abb. 6: Suchergebnis mit anhängender Bewertung der Applikation durch den User

Abb. 6: Suchergebnis mit anhängender Bewertung der Applikation (links unten) durch den User.

 

Wir müssen „im Feld“ es dem einzelnen Nutzer es überlassen, zu definieren, ob er seine Ziele erreicht hat, da nur er diese kennt.  Es ist nicht ganz auszuschließen, dass einzelne Nutzer Informationen suchen, die die Umkreissuche weder bieten kann noch soll. Jedoch wissen wir aus mit der Umkreissuche durchgeführten Usability-Tests, dass in aller Regel Nutzer den eigenständigen Charakter der Standortsuche erkennen und auch entsprechend abgrenzbare Erwartungen an die von dieser Suche gelieferten Informationen haben.

Die gelieferten Ergebnisse sind in folgender Weise interpretierbar: Die Summe aller Ja und Nein-Antworten liefert uns die Stichprobenanzahl n. Die Summe  x aller Ja-Antworten ist die Teilmenge derjenigen Nutzer, die die gesuchten Informationen mittels der Such-Applikation erhalten hatten, d.h. sein Ziel erreichen konnte. Auf der Rohdaten-Ebene haben wir also binäre Daten.

Um sinnvolle Muster erkennen zu können, aggregiere ich die Daten auf Tagesebene; ich betrachte also jeden Tag eine Stichprobe von Nutzern n, die Feedback gegeben haben. Darüber gibt es eine Anzahl von Nutzern, die ihr Informationsziel erreicht haben. Die beiden Werte werden auf der Primärachse aufgetragen. Der Quotient beider Werte bezeichnet den entsprechenden Anteil (in %); der Wert wird auf der Sekundärachse aufgetragen. Ebenso werden die zur jeweiligen Stichprobe errechneten Konfidenzgrenzen zum genannten Wert dargestellt.

Einschränkung: Die beschriebene Meßmethode mit der „nicht-invasiven“ Feedback-Platzierung lässt diejenigen Nutzer aussen vor, die auf dem Weg zur Zielerreichung scheitern oder abbrechen, also nicht bis zum Schritt der Suchergebnisse vordringen können, und daher keine Möglichkeit haben, ihr Feedback in die Kurzbewertung einzubringen. Das aus den Daten gewonnene Ergebnis x ist streng genommen zu verstehen als „x% der Nutzer haben bei der Umkreissuche ihr Ziel erreicht, abzüglich des unbekannten Prozentsatzes derjenigen, die gescheitert sind oder abgebrochen haben“. In der Diskussion zur Methodik der Quantifizierung von Software-Effizienz gibt es eine ähnliche Diskussion darüber, ob die Zeiten von abgebrochenen oder falsch gelösten Aufgaben in die auszuwertenden Daten mit einfließen oder außen vor bleiben. Hierzu hat Bernard Rummel auf der Konferenz „Mensch und Computer 2014“ ein ausführliches Tutorial gehalten (Rummel, B. 2014)

 

Zielerreichung in webbasierter Umkreissuche

Abb. 7: Zielerreichung in webbasierter Umkreissuche (Vergrösserte Darstellung mittels Klicken)

 

Die Daten wurden vom 1. März bis zum 22.Oktober des Folgejahres erhoben, insgesamt 600 Tage. Bei starker Schwankung der Teilnehmerzahlen an der Umfrage  (Mittelwert (n) = 163,4   –    Standardabweichung σ(n) = 45,1   –  Variationskoeffizient  V(n) =  27,2%) ist der Zielerreichungsanteil im wesentlichen konstant: Mittelwert (z) = 0,769  –  Standardabweichung σ(z) = 4,8   –  Variationskoeffizient V(z) = 6,3%.

Muster der Teilnehmerzahl

Betrachten wir den Graphen der Teilnehmerzahl, so können anhand der erkannten Muster mit Blick auf die zugrundeliegenden Rohdaten einige Aussagen treffen:

Die Schwankungen  in der Teilnehmerzahl korrelieren mit bereits bekannten Nutzungsfrequenz-Mustern der Dienstleistungen des Unternehmens:

  • Die Wochentage bilden eine starke saisonale Komponente. Dabei werden die Dienstleistungen an den Werktagen stark frequentiert; am Wochenende deutlich weniger. Dies führt im Graphen zur Gruppenbildung der Strichsäulen im gleichmäßigen Rhythmus.
  • An den in Deutschland wichtigsten Feiertagen wie Ostern, Weihnachten und Sylvester geht die Teilnehmerzahl sehr stark zurück, stellenweise bis auf Null. Die entsprechenden Stellen in den Graphen wirken wie Ausreisser; sie sind aber nicht in der Qualität der Umkreissuche begründet.
  • Im Herbst steigt die Häufigkeit der Teilnahme allmählich immer weiter an und erreicht ihr Maximum kurz vor den Weihnachtstagen.

Die diesen Mustern zugrundeliegende Nutzungsfrequenzen sind auch aus dem Offline-Geschäft des Logistik-Unternehmens bekannt. Eine detailiertere Analyse wäre aufgrund dieser Datenlage möglich; ist aber nicht Gegenstand dieses Artikels.

Muster der relativen Zielerreichung

Die relative Zielerreichung bewegt sich über den gesamten Zeitraum auf hohem Niveau von im Mittel knapp 77%. Fast 4 von 5 Teilnehmern haben nach ihrer eigenen Einschätzung die gesuchten Informationen erhalten und damit ihr Ziel erreicht. Zur über den gesamten Zeitraum von 600 Tagen hinweg relativ konstanten Zielerreichungsquote passt, dass während des Datenerhebungszeitraumes die Applikation keine wesentliche Veränderung in der Benutzerführung, dem Pageflow oder der Funktionalität stattfand; es wurden lediglich ständig Aktualisierungen in dem der Applikation zugrundeliegenden Datenbestand vorgenommen. Ich persönlich finde die Stabilität der Zielerreichungsquote über solch einen langen Zeitraum bemerkenswert; die Werte dieser Langzeitbeobachtung zeigt auch, dass kürzere Beobachtungszeiträume ebenfalls zuverlässige Daten liefern können, wenn nicht neu hinzukommende Variablen die Systemperformanz stören.

Ausreisser der relativen Zielerreichung

Aufgrund der vorhandenen Konstanz über den Beobachtungszeitraum sind die wenigen Ausreisser um so auffälliger:

 

Datum Teilnehmerzahl n Zielerreichungsquote Z Tag
19.04. 2011 260 51% Dienstag vor Ostern
22.04.2011 101 57% Karfreitag
13.06.2011 129 60% Pfingstmontag
24.12.2011 84 56% Heiligabend
22.04.2012 12 100% Sonntag
23.06.2012 21 38% Samstag

Tabelle 1: Ausreisser und zeitliche Lage der zugehörigen Tage.

 

Meine hypothetische Erklärung für die ersten 4 Ausreisser ist, dass vor den wichtigen und oftmals mit Urlaub verbundenen Feiertagen die noch zu erledigende Post Stress und Belastung beim Nutzer auslöst und damit verbunden die Ungeduld steigt und die Toleranzschwelle sinkt. Die Ausreisser bilden gewissermaßen einen Nervositätsausschlag der Nutzer ab.

Das Positive aus Sicht des Product Owners (und des UX Designers) ist, dass diese die Performanz der Applikation senkenden Ursachen ausserhalb der Applikation liegen. Bei dieser Interpretation gehen wir von aussergewöhnliche Belastungen von außen aus, die auf die Usability-Performanz durchschlagen. Dabei verstehen wir  die Feiertage als ein Faktor des in der o.g. Usability-Definition genannten „konkreten Nutzungskontext“. Wäre das zu evaluierende System eines, das unfallkritisch ist (z.B. System zur Ampelregelung), so müsste das System dringend robuster gebaut werden – in diesem Fall würde man aber als Usability Engineer ohnehin eine Zielerreichungsquote von 77% niemals akzeptieren.

Den vorletzten (positiven) Aussreisser mit 100% Zielerreichungsquote erkläre ich mir durch – Zufall. In diesem Fall nahmen nur sehr wenige Nutzer an der Bewertung teil und zufälligerweise erhielten (!) alle 12 die gesuchten Informationen. Die Wahrscheinlichkeitslehre sagt uns, dass in einer langen Beobachtungsreihe irgendwann auch diese Konstellation mal vorkommen muss.

Gleiches, nur mit gegenteiligem Vorzeichen, gilt für den letzten Ausreisser, bei dem die geringe Teilnehmerzahl und die zufällige geringe Zielerreichungsquote von 38% zu einem Ausreisser nach unten führt. Mögliche Ursachen sind systemeigene wie z.B. ein zeitweiser Ausfall der Datenbank, oder auch der reine Zufall, dass 8 Nutzer just an demjenigen Tag die gesuchten Informationen nicht erhielten als ohnehin nur 21 an der Umfrage teilnahmen.

Konfidenzintervall der Zielerreichungsquote

Wir können die Ergebnisse jeden Tages betrachten als eine Stichprobe aus der Population. Die der Zielerreichung zugrunde liegenden Daten sind binäre Daten; bis auf sehr wenige Ausnahmen (siehe oben) ist n > 30.  Wir können entsprechend die Konfidenzgrenzen mittels des Wald-Verfahrens berechnen und damit den Bereich definieren, in dem die Zielerreichungsquote der Population mit einer definierten Wahrscheinlichkeit (hier mit 95%) liegt  (im Chart durch die hellblauen whisker visualisiert).

Ein genauerer Blick auf die Breite der tagesbasierten Konfidenzintervalle zeigt den Einfluss von n: je größer n ist, desto schmaler ist das Konfidenzintervall. Das verweist auf die grundlegende Konstruktion des Konfidenzintervalls: Je größer unsere Stichprobe, desto näher liegt der aus der Stichprobe errechnete Parameter an dem wahren – uns aber unbekannten – Wert der Population.

Auf der Grundlage der tagesbasierten Werte beträgt der Mittelwert der Konfidenzintervalle 2 × 6,63 = 13,26 (Konfidenzniveau 95%). Dies ist die Intervallbreite um die mittlere Zielerreichungsquote von 76,9%.

Berechnen wir hingegen das Konfidenzintervall auf der Grundlage des gesamten Stichprobenumfangs von n = 98.197, so erhalten wir einen um mehr als eine Größenordnung präziseren Wert für das 95%-Niveau nämlich 2 × 0,26 = 0,52. Damit können wir reporten, dass im beobachteten Zeitraum die Zielerreichungsquote in der Population bei durchschnittlich 76,9% ±0,26% lag; diese Aussage können wir mit 95%iger Sicherheit treffen.

Wir können sogar das Konfidenzniveau auf 99,9% anheben; das Intervall erweitert sich – als Folge des gestiegenen kritischen Faktors von 3,2 – auf ±0,43%. Gemessen an typischen Untersuchungsgegenständen der User Experience erlaubt dies folgende ungewöhnlich präzise Aussage über den Populationswert: mit 99,9%iger Sicherheit lag die Zielerreichungsquote bei den Nutzern der Umkreissuche bei durchschnittlich 76,9%  ±0,43%.

Konfidenzintervalle ersetzen keinen breiten Stichprobenumfang

Ich habe die Gelegenheit einer langfristigen Stichprobe genutzt und anhand der empirischen Daten geprüft, wie sich das KI auf Tagesbasis zu demjenigen über 600 Tage verhält. Beim Konfidenzintervall schlussfolgert man von Ergebnissen der Stichprobe auf die Population. Ich nehme mal die Daten von 600 Tagen stellvertretend für die Population und die Daten eines jeden Tages als Stichprobe. Die obere und untere Grenze des Konfidenzintervalls der jeweiligen Zielerreichungsquote sagt auf der Grundlage einer definierten Wahrscheinlichkeit voraus, ob sich der Populationswert innerhalb oder ausserhalb dieses Intervalls befindet.

 

Die Analyse der empirischen Daten ergibt folgene Werte für die Niveaus von 95% und 99,9%:

MW_langfrist ausserhalb KI Vorhergesagter Anteil gemäß Niveau
95% Niveau 70 30
99,9% Niveau 16 6

Tabelle 2: Vorhergesagte und tatsächliche Zahl der Mittelwerte, die ausserhalb des tagesbasierten Konfidenzintervalls lagen.

 

Die Anzahl der empirischen festgestellten Abweichungen liegen um mehr als Faktor 2 über derjenigen, die gemäß den Konfidenzniveaus zu erwarten wären. Darüber hinaus ist zu schlussfolgern, dass eine Verallgemeinerung der Zielerreichungsquote auf der Basis eines einzigen Tages nicht mehr valide Ergebnisse liefern kann; insbesondere, wenn man einen Tag erwischt, der nicht repräsentativ ist – siehe oben! Die Variablen „Wochentag“ oder „Tag im Jahresablauf unter Einfluss eines wichtigen Feiertages“ können ja erst im Versuchsaufbau berücksichtigt werden, wenn ihr Einfluss auf Nutzerverhalten und -erwartungen identifiziert wurde.

Also: Konfidenzintervall ist gut und schafft präzisere Aussagen. Trotzdem sollte man auf Umfang und Repräsentativität der Stichprobe achten. Sonst liegt man trotz Konfidenzintervallen in der Schätzung der Populationswerte daneben!

Epilog

Ich habe im Artikel erläutert, wie Konfidenzintervalle beitragen können, die Schlussfolgerungen von den aus Usabilitytests und Logfiles gewonnenen Werten auf die Population genauer zu beschreiben.

Dies gilt sowohl für die Betrachtung des User Researchers auf die eigene Arbeit am Untersuchungsgegenstand als auch für das Reporting gegenüber Auftraggeber, Produktowners oder Management.  Die eigenen Ergebnisse werden weniger angreifbar, wenn die statistischen Kennwerte mit entsprechenden Konfidenzintervallen berichtet werden. Sauro und Lewis empfehlen dies. Dagegen habe ich von einem deutschen Experten gehört, dass er Konfidenzintervalle ermittelt, aber nicht reportet, da in der Präsentation die Zeit fehlt, um das notwendige statistische Verständnis beim Productowner / Management zu schaffen. Es würde mich freuen, wenn hierzu andere UX Researcher Erfahrungen beitragen könnten.

 

4   Literatur (online & offline)

Molich, R. et al, Comparative Usability Measurement in: Journal of Usability Studies, Vol. 6, Issue 1, November 2010, letzter Zugriff Sept 2014 http://www.dialogdesign.dk/tekster/cue8/CUE-8_JUS.pdf

Sauro, J. & Lewis, J: Quantifying the User Experience, Morgan Kaufmann, 2012

Rummel, Bernard: Tutorial Bummler und Schummler auf der MuC 2014. Wesentliche Inhalte des Tutorials sind publiziert in: Probability Plotting: A Tool for Analyzing Task Completion Times in: Journal of Usability Studies, Vol. 9, Issue 4, August 2014, letzter Zugriff Oktober 2014

Literatur-Hinweis zur Bestimmung des Punktschätzers bei kleinen Stichprobenumfängen:

Lewis, J.R. & Sauro, J. (2006) When 100% Really Isn’t 100%: Improving the Accuracy of Small-Sample Estimates of Completion Rates in Journal of Usability Studies Issue 3, Vol. 1, May 2006, pp. 136-150

Websites mit Berechnung von Konfidenzintervallen von Jeff Sauro

Berechnung von Konfidenzintervallen direkt aus Daten

Berechnung von Konfidenzintervallen zur Zielerreichung Erhellend sind die auf der Webseite dargelegten Erläuterungen, unter welchen Umständen welcher Algorithmus geeigneter ist.

From → Allgemein

3 Kommentare
  1. Frederik permalink

    Sehr guter Artikel und schöne Beispiele!

  2. @Frederik: Freut mich, wenn’s gut ankommt.

    Ich habe erst vor kurzem Konfidenzintervalle entdeckt und denke, dass diese Metrik im UX-Bereich noch ziemlich unentwickelt ist.

  3. BernardR permalink

    Danke für diesen Artikel! Konfidenzintervalle sind in der Tat ein wichtiges Konzept – bei unseren kleinen Stichproben oft entscheidend. Wer kennt nicht den idiotischen Satz „Trau keiner Statistik, die Du nicht selbst gefälscht hast“ – wir können sehr wohl und sehr genau sagen, welchen Aussagen wir trauen können und welchen nicht.
    Eine weitere wichtige Anwendung ist die Abgrenzung solider Testarbeit von Scharlatanerie. Ein „UX-Score“ bzw. etwas, das danach aussieht, ist leicht und billig zu generieren, und Laien können nicht leicht beurteilen, ob die zugrundegelegte Methodik wirklich valide ist. Sobald man aber genug Daten hat, Konfidenzintervalle zu schätzen – bei Normalverteilungen reichen ja Stichprobengröße und Standardabweichung – kann man sehr schön zeigen, wo der Unterschied liegt zwischen Zufallszahlen und Daten.
    Wer’s genau wissen will: der Blog von Jeff Sauro, measuringusability.com, bietet einen exzellenten und praxisorientierten Einstieg in die wichtigsten statistischen Methoden im Usability-Bereich.

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: