Skip to content

Konfidenzintervalle in der Quantifizierung von User Experience

Abstract

Usability Engineers und UX Researcher werden mit der Erwartung konfrontiert, auch bei kleinen Fallzahlen nicht nur qualitative, sondern auch quantitative Ergebnisse zu liefern. Hier hilft das aus der Statistik bekannte Konstrukt des Konfidenzintervalls, das die korrekte Verallgemeinerung von in Stichproben-Tests oder durch Logfiles ermittelten Parametern auf diejenigen der Population erlaubt.

Im Artikel wird anhand von Fallbeispielen dargelegt, wie die Konfidenzgrenzen zum Mittelwert der Zielerreichung ermittelt werden und wie die quantitative Interpretation einer Bewertung zweier Naming-Alternativen durch Probanden eines Usability-Testes erfolgt.

1 Nur Tendenzen…?

UX Researcher, die im Bereich Usability tätig sind, kennen das Problem: Ergebnisse aus im Labor durchgeführten Tests werden vom Product Owner oder Management als nicht verallgemeinerbar angezweifelt. Der Zweifel: da es bei den für Labortest typischen geringen Probandenzahlen sehr gut möglich sei, dass einige wenige Individuen aufgrund von Fähigkeiten, Vorlieben, Kenntnissen, Interessenlagen die Ergebnisse so stark beeinflussen (in der Statistik-Sprache “verzerren”), könne von den im Test gewonnenen quantitativen Ergebnissen nicht auf die gesamte Nutzergruppe geschlossen werden. Auch sorgfältigstes Screening der Probanden und deren repräsentative Zusammensetzung nach Zielgruppen kann den Verweis auf die geringe Stichproben-Zahl nicht entkräften.

Ergänzend zu diesen Zweifeln ist mir in den vergangenen Jahren eine ähnliche skeptische Sichtweise auch bei einigen Marktforschungsabteilungen und Usability-Laboren begegnet, die sowohl im Gespräch als auch im Ergebnisbericht vor der Verallgemeinerung von ermittelten quantitativen Kennzahlen warnten und betonten, dass die gewonnenen Ergebnisse immer nur Tendenzen seien!

 

Achtung: Aufgrund geringer Fallzahl (n=20) nur Tendenzen

Abb. 1: Aus einem Ergebnisbericht eines Usability-Labors: Warnung vor Schlüssen aus quantitativen Ergebnissen bei n=20.

Diese vorsichtige und mahnende Haltung ist wohl auch eine Reaktion auf den gerade im Management verbreiteten – und durchaus nachvollziehbaren – Wunsch, harte “facts and figures” als Bewertungs-, Entscheidungs- und Argumentationsgrundlage verfügbar zu haben. Aber durch die ständige Mahnung der Researcher, die gewonnenen Ergebnisse seien nicht quantitativ verallgemeinerbar, manövrieren die Researcher allerdings sich selbst und ihre Ergebnisse in eine defensive Ecke, in der sie Gefahr laufen, an Argumentationskraft und Wertschätzung für ihre Untersuchungsergebnisse zu verlieren.

… oder geht es auch genauer?

Unnötigerweise! – muss ich an dieser Stelle hinzufügen. Denn die Statistik liefert dem UX Research die Begriffe, Methoden und Tools nicht nur für große Fallzahlen, sondern auch für die bei Labortests typischen kleinen Fallzahlen. Meine eigenen Usabilitytests hatten Teilnehmerzahlen zwischen 8 und 22 und ich kenne Kollegen, die viele Tests mit weniger als 10 Teilnehmern durchführen müssen. Jedenfalls liegt der typische Usability-Test im Labor deutlich unter n=30, was in der Statistik die magische Grenze für die Anwendung verschiedener Gesetzmäßigkeiten und Formeln ist. Aber auch für n < 30 hat die Statistik ausreichend Methoden und Formeln bereit, um klare Aussagen zur Verallgemeinerbarkeit der durch die Testteilnehmer erhaltenen quantitativen Daten auf die Population treffen zu können.

Auch in der – bislang sehr spärlichen – Literatur zu quantitativen Ergebnissen des UX Researchs wird betont, dass – entgegen der allgemein verbreiteten Ansicht – auch bei geringen Fallzahlen quantitative Datenanalysen und valide statistische Aussagen getroffen werden können: “There is an incorrect perception that sample sizes must be large to use statistics and interpret quantitative data … Don’t let the size of your sample (even if you have as few as 2 – 5 users) preclude you from using statistics to quantify your data and inform your design decisions.” (Sauro & Lewis 2012, S. 10)

Zusätzlich müssen wir uns im UX Research darauf einrichten, dass unsere Auftraggeber über qualitative Ergebnisse hinaus quantifizierbare Ergebnisse zunehmend erwarten: “Quantitative usability data are becoming an industry expectation.” (Molich, R. et al 2009, S.9)

Quantitative usability data are becoming an industry expectation (Rolf Molich et al.)

 

2   Fallstudie Naming Alternativen

 

Im Jahre 2010 ließen wir zwei Varianten einer webbasierten Suche auf Usability und Akzeptanz testen. Zweck der Applikation ist, dass die Nutzer deutschlandweit sich zu einem (einzugebenen) Ort innerhalb Deutschland die nächstliegenden Standorttypen (Filiale, Briefkasten, Packstation usw) des Logistik-Unternehmens anzeigen lassen können und zu jedem einzelnen Standorttypen weitere Detailinformationen wie Öffnungszeit, Leistungsspektrum, Adresse etc. erhalten.

Ein (sehr kleiner) Teil des Usability-Testes bestand darin, zu ermitteln, welcher Begriff die folgende Zeitbestimmung am griffigsten und am verständlichsten wiedergibt: Vor allem Geschäftskunden, die ihre Briefe und Pakete (in der Logistik-Sprache als “Sendungen” bezeichnet) gesammelt in einer Filiale abgeben, interessiert der Zeitpunkt, bis zu dem garantiert ist, dass die abgegebenen Sendungen noch am selben Tag aus der Filiale heraus weiter befördert werden. In der Offline-Welt der Logistik gab es für diesen Termin bis dahin den seit vielen Jahren verwendeten Begriff “Annahmeschluss”.  Als – aus konzeptioneller Sicht treffendere – Alternative wurde “Versandschluss” ins Spiel gebracht. Für beide Begriffe gab es aus unserer internen Sicht Pros und Cons. Aber welcher der beiden Begriffe wäre für die Nutzer der Suchapplikation unterm Strich verständlicher und passender? Und gäbe es einen deutlichen quantitative Unterschied in der Präferenz?

Wir ließen die Probanden nach Präferenz und Gründen in Einzelgesprächen telefonisch kurz befragen. n = 20, Privatkunden und Geschäftskunden, Nutzer und (bisherige) Nicht-Nutzer der Applikation. Alle Probanden waren potentielle Nutzer. Das Ergebnis: 7 pro “Annahmeschluss”, 13 pro “Versandschluss”.

Umfrageergebnis: Welchen Begriff finden Sie passender?

Abb. 2: Umfrage im Usabilitytest zur Präferenz zweier Naming-Alternativen: klare Präferenz für “Versandschluss” – aber was schließt man daraus für die Population aller Nutzer?

Die Probanden nannten als Gründe zu ihrer jeweiligen Präferenz:

Pro “Versandschluss”:

  • Versandschluss ist verständlicher, weil klar ausgedrückt wird, das eine Sendung nicht nur angenommen, sondern auch verschickt wird. “Versandschluss zeigt mir klar, dass die Post  bis zu diesem Zeitpunkt versendet wird.” (O-Ton w/GK)
  • für Normalverbraucher leicht zu merken.

Pro “Annahmeschluss”:

  • Begriff ist bereits bekannt und geläufig (gilt für diejenigen, die die spezifische Bedeutung im Kontext von Geschäftspost kennen)

Die Mehrheitsverhältnisse waren deutlich und so entschieden wir, in der Applikation künftig den Begriff “Versandschluss” zu verwenden. Für die Entscheidung war auch relevant, dass alle 3 befragten Geschäftskunden – also solche User, die am ehesten von dem Informations-Feature betroffen sind – für “Versandschluss” waren.

Punktschätzung für die Population

Betrachten wir nun, inwieweit die aus der Befragung gewonnenen Daten verallgemeinert werden können. Aus statistischer Sicht handelt es sich bei der Befragung der 20 Probanden um eine Stichprobe, von der aus auf die Population aller potenziellen Nutzer der Applikation geschlossen wird. Die gewonnenen Daten sind diskret-binär, da die Präferenz für den einen Begriff gleichzeitig die Ablehnung des anderen Begriffs bedeutet; die Daten verhalten sich wie Daten zur Aufgabenerfüllung (erfüllt – nicht erfüllt) oder wie beim Münzwurf (Erfolg – Misserfolg).

Sauro & Lewis machen den zur Punktschätzung verwendete Algorithmus nicht nur von der Fallzahl, sondern auch von der Größenordnung der Erfolgsrate abhängig. Eine Untersuchung zu den verschiedenen Rechenverfahren und ihre Tauglichkeit zur Punktschätzung siehe Sauro & Lewis 2012.

Im vorliegenden Fall (n = 20, und 0,5 < p(x)  < 0,9) ist der beste Punktschätzer die Erfolgsrate der Stichprobe ohne Korrektur (Sauro & Lewis 2010, S.25). Mit den Werten aus der Befragung (x = 13, n = 20) erhalten wir 0,65. 65% aller Nutzer werden also “Versandschluss” besser finden als “Annahmeschluss” – so die Schlussfolgerung. Der wahre Wert wird allerdings daneben liegen. Wie weit er daneben und innerhalb welcher Spanne er um 65%  streuen kann, bestimmen wir mit dem Konfidenzintervall.

Das Konfidenzintervall

Vereinfacht gesagt, kennzeichnet das Konfidenzintervall denjenigen Bereich, innerhalb dessen der Parameter der Population sich befinden kann – auf der Grundlage einer gegebenen Wahrscheinlichkeit (genannt “Konfidenzniveau”). Standardmäßig wird ein Konfidenzniveau von 95% angesetzt. Andersherum betrachtet: das Konfidenzintervall zeigt, wo der Populationsparameter sich höchstwahrscheinlich NICHT befinden wird. Da das Konfidenzintervall die Stichprobengröße in seinen Wert mit einbezieht, enthält es Informationen zur Präzision der Schätzung, die wir aus den Stichprobendaten vornehmen – große Stichproben führen zu einem schmalen Intervall, kleine Stichproben zu einem breiten.

Die Grenzen eines Konfidenzintervall für binomiale Daten werden mittels Wald-Verfahren berechnet (Lewis & Sauro 2012, S. 23)

Formel für Konfidenzintervall für binomiale Daten mittels Wald-Verfahren

Formel 1: Konfidenzintervall für binomiale Daten mittels Wald-Verfahren

Im vorliegenden Fall wollen wir ein Konfidenzniveau von 95%, der entsprechende kritische Wert beträgt 1,96. Daraus ergeben sich für das Konfidenzintervall folgende gerundete Werte:

Untere Grenze: 0,65 – 0,21 = 0,44.
Obere Grenze: 0,65 + 0,21 = 0,86

Konfidenzgrenzen bei 95% Wahrscheinlichkeit

Abb. 3: Geschätzter Mittelwert und Konfidenzintervallgrenzen (Konfidenzniveau 95%) für Präferenz des Begriffs “Versandschluss”. Berechnung mittels Wald-Verfahren. Die unterhalb der Kurve gefüllte blaue Fläche zeigt die Wahrscheinlichkeitsdichte von 95%; die beiden ausserhalb liegenden kleinen weissen Fläche repräsentieren jeweils 2,5% .

Wir können jetzt folgende Aussage zusätzlich zur geschätzten Erfolgsquote von 65% treffen: mit 95%er Wahrscheinlichkeit liegt der Anteil derjenigen User, die “Versandschluss” besser finden zwischen 44 und 86%. (Ich gehe an dieser Stelle nicht darauf ein, ob die Aussage über die Realität oder über das Verfahren getroffen wird.)

Adjusted Wald-Verfahren

Lewis und Sauro haben nachgewiesen, dass für kleine Stichprobenumfänge das Wald-Verfahren zu ungenau ist (Lewis & Sauro 2012, S. 21). Zu empfehlen ist das adjustierte Wald-Verfahren, das für kleine Stichproben treffendere Ergebnisse liefert. Hierzu wird im Zwischenschritt ein adjustierte Punktschätzer ermittelt. Einen gut angenäherten Wert für 95% Konfidenzniveaus erhalten wir, indem zwei Erfolge und zwei Misserfolge hinzuzählen. Dieser angepasster Punktschätzer wird in die Wald-Formel eingesetzt, mit der das adjustierte Konfidenzintervall berechnet wird.

Formel 2: Konfidenzintervall für binomiale Daten mittels adjustiertem Wald-Verfahren für geringe Stichprobenumfänge

Formel 2: Konfidenzintervall für binomiale Daten mittels adjustiertem Wald-Verfahren für geringe Stichprobenumfänge

 

Adjustierter Punktschätzer p_adj = 15/24 = 0,625  –  Untere Grenze: 0,625-0,194 = 0,431  –  Obere Grenze: 0,625+0,194 = 0,819

Nach dem angepassten Wald-Verfahren können wir folgende zusammen gehörenden Schlussfolgerungen aus unserem Test ziehen: Der Anteil der Nutzer (aus der Grundgesamtheit, nicht derjenigen aus dem Usabilitytest), die “Versandschluss” besser finden, liegt mit 95%iger Wahrscheinlichkeit zwischen 43 und 82%.  Der geschätzte Punkt des Mittelwertes liegt bei 62,5%.

Präferenz Wording: Konfidenzintervall adj_Wald

Abb. 4: Konfidenzintervalle und Punktschätzer für Präferenz zweier Naming-Alternativen,  Konfidenzniveau 95%, Datenerhebung: Befragung innerhalb Usabilitytest mit n = 20, Berechnung: Adjusted Wald-Verfahren

 

Der Nutzen für den UX Researcher

Nun mag es übertrieben erscheinen, wenn im vorliegenden Fall zweier Alternativen, bei dem doppelt so viele Teilnehmer für eine Alternative gestimmt haben wie für die andere, Punktschätzungen vorgenommen werden und Konfidenzintervalle bestimmt werden. Die Alternativen sind ja klar und einfach und die Mehrheitsverhältnisse in der Stichprobe evident, so dass die Entscheidung zwischen beiden Alternativen offensichtlich und zwingend ist. Wozu also einem Entscheider, der die Dinge in der Regel eher einfach als wissenschaftlich korrekt erklärt haben will, mit Punktschätzern und Konfidenzintervallen kommen, wenn in der Stichprobe alles klar zu sein scheint?

Nun – um beim Entscheider auf den sachlich richtigen Punkt zu kommen. Statt wie bislang zu sagen: “Die Tendenz ist, dass mehr User “Versandschluss” treffender als “Annahmeschluss” finden.” können wir nunmehr sagen: “Mit 95%iger Wahrscheinlichkeit liegt der Anteil derjenigen Nutzer, die “Versandschluss” besser finden, zwischen 43 und 83% mit der größten Wahrscheinlichkeit bei 62,5%.  Die geschätzte Anteil derjenigen, die Annahmeschluss bevorzugen, beträgt dagegen lediglich 37,5%, ebenfalls mit einer Toleranz von ±20% bei einer 95% igen Wahrscheinlichkeit.” Die Empfehlung des UX Researchers ist in beiden Situationen die gleiche (“Implementiere Versandschluss”), die zweite Begründung ist aber präziser und mit “hard figures” hinterlegt.

Die Wege des quantitativen UX Research sind nicht immer intuitiv. Was wäre die intuitive Schlussfolgerung für die Aufgabenerfüllungsrate, wenn in einem Usability-Test 10 von 10 Probanden die Aufgabe erfüllt haben? Nun…? Die richtige Antwort  lautet: 92%  (nach Laplace-Verfahren (x+1)/(n+2) = 11/12=0,9167 (Lewis & Sauro 2012, S. 25). Und die untere Grenze des zugehörigen  Konfidenzintervalls auf dem 95%-Niveau beläuft sich immerhin noch auf 77% ! Diese Informationen sind deutlich schärfer als eine Warnung “Dies ist nur eine Tendenz” und präzisieren unsere Vorstellungen über die Welt ausserhalb des Usability-Testes.

Und genau deswegen gilt es, sauber und  sachgerecht zu argumentieren. Die Konfidenzintervalle erlauben uns einzuschätzen, wie gut / wie präzise die KPI-Werte sind, die wir von den Stichprobendaten auf die Population übertragen. Denn die KPIs der Population sind ja das, was letztlich interessiert. Konfidenz-Intervalle beziehen die Komponente der Stichprobengröße in ihre Aussage mit ein: Je größer unsere Stichprobe, je größer also n, desto kleiner wird die Unsicherheit und desto kleiner ist das Intervall für ein gewähltes Konfidenzniveau.

Online-Helferlein

Es ist nicht notwendig, die Rechnungen für den Punktschätzer und das Konfidenzintervall selber durchzuführen: Jeff Sauro stellt auf seiner Website einen webbasierten Kalkulator für verschiedene Berechnungsverfahren zur Verfügung. Dabei sind auch unterschiedliche Konfidenzniveaus möglich. Der Kalkulator ist auf die Berechnung der für UX wichtigen Metrik <Anzahl der erfüllten Aufgaben> ausgelegt; man kann mit ihm jedoch auch andere binäre Daten ermitteln. Sehr hilfreich sind ebenfalls die dort vorhandenen Hinweise, unter welchen Randbedingungen welches Verfahren genutzt werden sollte.

 

3   Fallbeispiel Messung der Zielerreichung bei einer webbasierten Umkreissuche

 

In der Definition von Usability ( = Gebrauchstauglichkeit) in der Norm ISO 9241, Teil 210, werden drei Leitkriterien bestimmt, die eine Quantifizierung von Usability erlauben:

  • Effektivität: “Vollständigkeit und Genauigkeit der Zielerreichung”
  • Effizienz: “zur (effektiven) Aufgabenerfüllung benötigter Aufwand”
  • Zufriedenstellung: “Freiheit von Beeinträchtigung und positive Grundeinstellung zum Produkt”
Definition von Usability (= Gebrauchstauglichkeit) Gebrauchstauglichkeit ist das Ausmaß, in dem ein Produkt, System oder eine Dienstleistung durch bestimmte Benutzer in einem bestimmten Nutzungskontext genutzt werden kann, um festgelegte Ziele effektiv, effizient und zufriedenstellend zu erreichen.

Definition von Usability nach DIN ISO 9241, Teil 210. Zum besseren Verständnis visuell strukturiert.

 

Ich betrachte innerhalb dieses Artikels über Konfidenzintervalle  ausschließlich das Kriterium der Effektivität anhand des Fallbeispiels derselben Suchapplikation wie zuvor.

Das Erreichen eines festgelegten Zieles ist in Usability-Testing eine wesentliches Kriterium: können User mittels der benutzten Software nicht die vorgesehenen oder beabsichtigten Aufgaben / Ziele erreichen, so gilt die Software als nicht benutzbar.

Im laborgestützten Usability-Test von Software/ Websites wird die Aufgabenerfüllung in der Regel durch die Testleiter nach festgelegten Kriterien in den einzelnen Abschnitten bejaht oder verneint. Sind mehrere Probanden nicht in der Lage, eine bestimmte Aufgabe zu erfüllen, so wird der entsprechende Teil der Software mit der höchste Prioritätsstufe für notwendige Verbesserungen bewertet.

Im vorliegenden Fallbeispiel des User Feedbacks zur Suchapplikation ging es mir darum, einen Key Performance Indicator für eine webbasierte Suche über einen langen Zeitraum verfügbar zu haben, der die Effektivität der oben bereits genannten Umkreissuche misst. Diese Suche erstreckt sich auf alle Standorte und Standorttypen eines Logistik-Unternehmens, das in ganz Deutschland operiert.

Untersuchte Applikation:

Zweck der untersuchten Applikation ist, dass die Nutzer deutschlandweit sich zu einem (einzugebenen) Ort innerhalb Deutschland die nächstliegenden Standorttypen (Filiale, Briefkasten, Packstation usw) anzeigen und zu jedem einzelnen Standorttypen weitere Detailinformationen wie Öffnungszeit, Leistungsspektrum, Adresse etc. darstellen lassen können. Typischerweise muss der Nutzer ein bis drei Bedienschritte durchlaufen, bis er die Detailinformationen erhält: Aufruf der Applikation -> Eingabe des eigenen Standortes, ggf. mit zusätzlichen Filtern -> Auswahl aus Suchergebnissen -> Detailinformationen

Methode:

Die Nutzer erhielten unterhalb der Suchergebnisse einen Kasten “Kurzbewertung” mit der Frage “Haben Sie die von Ihnen gesuchten Informationen gefunden?” Die Antwortmöglichkeiten waren “ja” oder “nein”. Wurde einer der Radiobuttons angeklickt, so konnten zusätzliche Informationen in ein Freitextfeld eingegeben werden, bevor die Antwort an den Server gesendet wurde. Um die Teilnahmehürde möglichst gering zu halten, wurde auf weitere differenzierende Fragen verzichtet. Uns war wichtig, den Nutzungsprozess der Suche in ihren verschiedenen Schritten nicht durch die Umfrage zu stören, sondern diese als “nicht-invasiven” Feedback-Kanal zu positionieren.

Daher wurde darauf verzichtet, durch Animationen, Gestaltung als Popup oder ähnliche aufmerksamkeitsfordernde Maßnahmen den Kurzbewertungs-Kasten dem Nutzer aufzudrängen.

Abb. 6: Suchergebnis mit anhängender Bewertung der Applikation durch den User

Abb. 6: Suchergebnis mit anhängender Bewertung der Applikation (links unten) durch den User.

 

Wir müssen “im Feld” es dem einzelnen Nutzer es überlassen, zu definieren, ob er seine Ziele erreicht hat, da nur er diese kennt.  Es ist nicht ganz auszuschließen, dass einzelne Nutzer Informationen suchen, die die Umkreissuche weder bieten kann noch soll. Jedoch wissen wir aus mit der Umkreissuche durchgeführten Usability-Tests, dass in aller Regel Nutzer den eigenständigen Charakter der Standortsuche erkennen und auch entsprechend abgrenzbare Erwartungen an die von dieser Suche gelieferten Informationen haben.

Die gelieferten Ergebnisse sind in folgender Weise interpretierbar: Die Summe aller Ja und Nein-Antworten liefert uns die Stichprobenanzahl n. Die Summe  x aller Ja-Antworten ist die Teilmenge derjenigen Nutzer, die die gesuchten Informationen mittels der Such-Applikation erhalten hatten, d.h. sein Ziel erreichen konnte. Auf der Rohdaten-Ebene haben wir also binäre Daten.

Um sinnvolle Muster erkennen zu können, aggregiere ich die Daten auf Tagesebene; ich betrachte also jeden Tag eine Stichprobe von Nutzern n, die Feedback gegeben haben. Darüber gibt es eine Anzahl von Nutzern, die ihr Informationsziel erreicht haben. Die beiden Werte werden auf der Primärachse aufgetragen. Der Quotient beider Werte bezeichnet den entsprechenden Anteil (in %); der Wert wird auf der Sekundärachse aufgetragen. Ebenso werden die zur jeweiligen Stichprobe errechneten Konfidenzgrenzen zum genannten Wert dargestellt.

Einschränkung: Die beschriebene Meßmethode mit der “nicht-invasiven” Feedback-Platzierung lässt diejenigen Nutzer aussen vor, die auf dem Weg zur Zielerreichung scheitern oder abbrechen, also nicht bis zum Schritt der Suchergebnisse vordringen können, und daher keine Möglichkeit haben, ihr Feedback in die Kurzbewertung einzubringen. Das aus den Daten gewonnene Ergebnis x ist streng genommen zu verstehen als “x% der Nutzer haben bei der Umkreissuche ihr Ziel erreicht, abzüglich des unbekannten Prozentsatzes derjenigen, die gescheitert sind oder abgebrochen haben”. In der Diskussion zur Methodik der Quantifizierung von Software-Effizienz gibt es eine ähnliche Diskussion darüber, ob die Zeiten von abgebrochenen oder falsch gelösten Aufgaben in die auszuwertenden Daten mit einfließen oder außen vor bleiben. Hierzu hat Bernard Rummel auf der Konferenz “Mensch und Computer 2014″ ein ausführliches Tutorial gehalten (Rummel, B. 2014)

 

Zielerreichung in webbasierter Umkreissuche

Abb. 7: Zielerreichung in webbasierter Umkreissuche (Vergrösserte Darstellung mittels Klicken)

 

Die Daten wurden vom 1. März bis zum 22.Oktober des Folgejahres erhoben, insgesamt 600 Tage. Bei starker Schwankung der Teilnehmerzahlen an der Umfrage  (Mittelwert (n) = 163,4   –    Standardabweichung σ(n) = 45,1   –  Variationskoeffizient  V(n) =  27,2%) ist der Zielerreichungsanteil im wesentlichen konstant: Mittelwert (z) = 0,769  –  Standardabweichung σ(z) = 4,8   –  Variationskoeffizient V(z) = 6,3%.

Muster der Teilnehmerzahl

Betrachten wir den Graphen der Teilnehmerzahl, so können anhand der erkannten Muster mit Blick auf die zugrundeliegenden Rohdaten einige Aussagen treffen:

Die Schwankungen  in der Teilnehmerzahl korrelieren mit bereits bekannten Nutzungsfrequenz-Mustern der Dienstleistungen des Unternehmens:

  • Die Wochentage bilden eine starke saisonale Komponente. Dabei werden die Dienstleistungen an den Werktagen stark frequentiert; am Wochenende deutlich weniger. Dies führt im Graphen zur Gruppenbildung der Strichsäulen im gleichmäßigen Rhythmus.
  • An den in Deutschland wichtigsten Feiertagen wie Ostern, Weihnachten und Sylvester geht die Teilnehmerzahl sehr stark zurück, stellenweise bis auf Null. Die entsprechenden Stellen in den Graphen wirken wie Ausreisser; sie sind aber nicht in der Qualität der Umkreissuche begründet.
  • Im Herbst steigt die Häufigkeit der Teilnahme allmählich immer weiter an und erreicht ihr Maximum kurz vor den Weihnachtstagen.

Die diesen Mustern zugrundeliegende Nutzungsfrequenzen sind auch aus dem Offline-Geschäft des Logistik-Unternehmens bekannt. Eine detailiertere Analyse wäre aufgrund dieser Datenlage möglich; ist aber nicht Gegenstand dieses Artikels.

Muster der relativen Zielerreichung

Die relative Zielerreichung bewegt sich über den gesamten Zeitraum auf hohem Niveau von im Mittel knapp 77%. Fast 4 von 5 Teilnehmern haben nach ihrer eigenen Einschätzung die gesuchten Informationen erhalten und damit ihr Ziel erreicht. Zur über den gesamten Zeitraum von 600 Tagen hinweg relativ konstanten Zielerreichungsquote passt, dass während des Datenerhebungszeitraumes die Applikation keine wesentliche Veränderung in der Benutzerführung, dem Pageflow oder der Funktionalität stattfand; es wurden lediglich ständig Aktualisierungen in dem der Applikation zugrundeliegenden Datenbestand vorgenommen. Ich persönlich finde die Stabilität der Zielerreichungsquote über solch einen langen Zeitraum bemerkenswert; die Werte dieser Langzeitbeobachtung zeigt auch, dass kürzere Beobachtungszeiträume ebenfalls zuverlässige Daten liefern können, wenn nicht neu hinzukommende Variablen die Systemperformanz stören.

Ausreisser der relativen Zielerreichung

Aufgrund der vorhandenen Konstanz über den Beobachtungszeitraum sind die wenigen Ausreisser um so auffälliger:

 

Datum Teilnehmerzahl n Zielerreichungsquote Z Tag
19.04. 2011 260 51% Dienstag vor Ostern
22.04.2011 101 57% Karfreitag
13.06.2011 129 60% Pfingstmontag
24.12.2011 84 56% Heiligabend
22.04.2012 12 100% Sonntag
23.06.2012 21 38% Samstag

Tabelle 1: Ausreisser und zeitliche Lage der zugehörigen Tage.

 

Meine hypothetische Erklärung für die ersten 4 Ausreisser ist, dass vor den wichtigen und oftmals mit Urlaub verbundenen Feiertagen die noch zu erledigende Post Stress und Belastung beim Nutzer auslöst und damit verbunden die Ungeduld steigt und die Toleranzschwelle sinkt. Die Ausreisser bilden gewissermaßen einen Nervositätsausschlag der Nutzer ab.

Das Positive aus Sicht des Product Owners (und des UX Designers) ist, dass diese die Performanz der Applikation senkenden Ursachen ausserhalb der Applikation liegen. Bei dieser Interpretation gehen wir von aussergewöhnliche Belastungen von außen aus, die auf die Usability-Performanz durchschlagen. Dabei verstehen wir  die Feiertage als ein Faktor des in der o.g. Usability-Definition genannten “konkreten Nutzungskontext”. Wäre das zu evaluierende System eines, das unfallkritisch ist (z.B. System zur Ampelregelung), so müsste das System dringend robuster gebaut werden – in diesem Fall würde man aber als Usability Engineer ohnehin eine Zielerreichungsquote von 77% niemals akzeptieren.

Den vorletzten (positiven) Aussreisser mit 100% Zielerreichungsquote erkläre ich mir durch – Zufall. In diesem Fall nahmen nur sehr wenige Nutzer an der Bewertung teil und zufälligerweise erhielten (!) alle 12 die gesuchten Informationen. Die Wahrscheinlichkeitslehre sagt uns, dass in einer langen Beobachtungsreihe irgendwann auch diese Konstellation mal vorkommen muss.

Gleiches, nur mit gegenteiligem Vorzeichen, gilt für den letzten Ausreisser, bei dem die geringe Teilnehmerzahl und die zufällige geringe Zielerreichungsquote von 38% zu einem Ausreisser nach unten führt. Mögliche Ursachen sind systemeigene wie z.B. ein zeitweiser Ausfall der Datenbank, oder auch der reine Zufall, dass 8 Nutzer just an demjenigen Tag die gesuchten Informationen nicht erhielten als ohnehin nur 21 an der Umfrage teilnahmen.

Konfidenzintervall der Zielerreichungsquote

Wir können die Ergebnisse jeden Tages betrachten als eine Stichprobe aus der Population. Die der Zielerreichung zugrunde liegenden Daten sind binäre Daten; bis auf sehr wenige Ausnahmen (siehe oben) ist n > 30.  Wir können entsprechend die Konfidenzgrenzen mittels des Wald-Verfahrens berechnen und damit den Bereich definieren, in dem die Zielerreichungsquote der Population mit einer definierten Wahrscheinlichkeit (hier mit 95%) liegt  (im Chart durch die hellblauen whisker visualisiert).

Ein genauerer Blick auf die Breite der tagesbasierten Konfidenzintervalle zeigt den Einfluss von n: je größer n ist, desto schmaler ist das Konfidenzintervall. Das verweist auf die grundlegende Konstruktion des Konfidenzintervalls: Je größer unsere Stichprobe, desto näher liegt der aus der Stichprobe errechnete Parameter an dem wahren – uns aber unbekannten – Wert der Population.

Auf der Grundlage der tagesbasierten Werte beträgt der Mittelwert der Konfidenzintervalle 2 × 6,63 = 13,26 (Konfidenzniveau 95%). Dies ist die Intervallbreite um die mittlere Zielerreichungsquote von 76,9%.

Berechnen wir hingegen das Konfidenzintervall auf der Grundlage des gesamten Stichprobenumfangs von n = 98.197, so erhalten wir einen um mehr als eine Größenordnung präziseren Wert für das 95%-Niveau nämlich 2 × 0,26 = 0,52. Damit können wir reporten, dass im beobachteten Zeitraum die Zielerreichungsquote in der Population bei durchschnittlich 76,9% ±0,26% lag; diese Aussage können wir mit 95%iger Sicherheit treffen.

Wir können sogar das Konfidenzniveau auf 99,9% anheben; das Intervall erweitert sich – als Folge des gestiegenen kritischen Faktors von 3,2 – auf ±0,43%. Gemessen an typischen Untersuchungsgegenständen der User Experience erlaubt dies folgende ungewöhnlich präzise Aussage über den Populationswert: mit 99,9%iger Sicherheit lag die Zielerreichungsquote bei den Nutzern der Umkreissuche bei durchschnittlich 76,9%  ±0,43%.

Konfidenzintervalle ersetzen keinen breiten Stichprobenumfang

Ich habe die Gelegenheit einer langfristigen Stichprobe genutzt und anhand der empirischen Daten geprüft, wie sich das KI auf Tagesbasis zu demjenigen über 600 Tage verhält. Beim Konfidenzintervall schlussfolgert man von Ergebnissen der Stichprobe auf die Population. Ich nehme mal die Daten von 600 Tagen stellvertretend für die Population und die Daten eines jeden Tages als Stichprobe. Die obere und untere Grenze des Konfidenzintervalls der jeweiligen Zielerreichungsquote sagt auf der Grundlage einer definierten Wahrscheinlichkeit voraus, ob sich der Populationswert innerhalb oder ausserhalb dieses Intervalls befindet.

 

Die Analyse der empirischen Daten ergibt folgene Werte für die Niveaus von 95% und 99,9%:

MW_langfrist ausserhalb KI Vorhergesagter Anteil gemäß Niveau
95% Niveau 70 30
99,9% Niveau 16 6

Tabelle 2: Vorhergesagte und tatsächliche Zahl der Mittelwerte, die ausserhalb des tagesbasierten Konfidenzintervalls lagen.

 

Die Anzahl der empirischen festgestellten Abweichungen liegen um mehr als Faktor 2 über derjenigen, die gemäß den Konfidenzniveaus zu erwarten wären. Darüber hinaus ist zu schlussfolgern, dass eine Verallgemeinerung der Zielerreichungsquote auf der Basis eines einzigen Tages nicht mehr valide Ergebnisse liefern kann; insbesondere, wenn man einen Tag erwischt, der nicht repräsentativ ist – siehe oben! Die Variablen “Wochentag” oder “Tag im Jahresablauf unter Einfluss eines wichtigen Feiertages” können ja erst im Versuchsaufbau berücksichtigt werden, wenn ihr Einfluss auf Nutzerverhalten und -erwartungen identifiziert wurde.

Also: Konfidenzintervall ist gut und schafft präzisere Aussagen. Trotzdem sollte man auf Umfang und Repräsentativität der Stichprobe achten. Sonst liegt man trotz Konfidenzintervallen in der Schätzung der Populationswerte daneben!

Epilog

Ich habe im Artikel erläutert, wie Konfidenzintervalle beitragen können, die Schlussfolgerungen von den aus Usabilitytests und Logfiles gewonnenen Werten auf die Population genauer zu beschreiben.

Dies gilt sowohl für die Betrachtung des User Researchers auf die eigene Arbeit am Untersuchungsgegenstand als auch für das Reporting gegenüber Auftraggeber, Produktowners oder Management.  Die eigenen Ergebnisse werden weniger angreifbar, wenn die statistischen Kennwerte mit entsprechenden Konfidenzintervallen berichtet werden. Sauro und Lewis empfehlen dies. Dagegen habe ich von einem deutschen Experten gehört, dass er Konfidenzintervalle ermittelt, aber nicht reportet, da in der Präsentation die Zeit fehlt, um das notwendige statistische Verständnis beim Productowner / Management zu schaffen. Es würde mich freuen, wenn hierzu andere UX Researcher Erfahrungen beitragen könnten.

 

4   Literatur (online & offline)

Molich, R. et al, Comparative Usability Measurement in: Journal of Usability Studies, Vol. 6, Issue 1, November 2010, letzter Zugriff Sept 2014 http://www.dialogdesign.dk/tekster/cue8/CUE-8_JUS.pdf

Sauro, J. & Lewis, J: Quantifying the User Experience, Morgan Kaufmann, 2012

Rummel, Bernard: Tutorial Bummler und Schummler auf der MuC 2014. Wesentliche Inhalte des Tutorials sind publiziert in: Probability Plotting: A Tool for Analyzing Task Completion Times in: Journal of Usability Studies, Vol. 9, Issue 4, August 2014, letzter Zugriff Oktober 2014

Literatur-Hinweis zur Bestimmung des Punktschätzers bei kleinen Stichprobenumfängen:

Lewis, J.R. & Sauro, J. (2006) When 100% Really Isn’t 100%: Improving the Accuracy of Small-Sample Estimates of Completion Rates in Journal of Usability Studies Issue 3, Vol. 1, May 2006, pp. 136-150

Websites mit Berechnung von Konfidenzintervallen von Jeff Sauro

Berechnung von Konfidenzintervallen direkt aus Daten

Berechnung von Konfidenzintervallen zur Zielerreichung Erhellend sind die auf der Webseite dargelegten Erläuterungen, unter welchen Umständen welcher Algorithmus geeigneter ist.

Pixel, Point und Zentimeter in Excel

Abstract

Zunehmend werden an die in der Business Intelligence erstellten Reports layouterische Anforderungen gestellt, die der optimalen Darstellung von Informationen, dem Corporate Design und der Überschaubarkeit dienen. Styleguides verwenden oftmals die für das Screendesign typische Einheit Pixel; Spreadsheet-Programme wie Excel, aus denen heraus die Reports erzeugt werden, verwenden dagegen metrische Einheiten, Punkt-Angaben oder sogar Einheiten, die in der visuellen Gestaltung unbekannt sind. Die Umrechnung der verschiedenen Einheiten ist von verschiedenen Faktoren abhängig und nicht immer trivial.

In diesem Artikel wird das quantitative Verhältnis der grafischen Einheiten <px>, <pt> und <cm> anhand von anschaulichen Beispielen aus der Sicht des Screendesigners erklärt. Umrechnungsformeln werden abgeleitet sowie der Einfluss des jeweiligen Betriebssystem veranschaulicht. Dabei fokussiert sich der Artikel auf Excel unter den beiden Betriebssystemen Windows und MacOS.

Layouterische Einheiten im Business Reporting

Ich werde immer wieder von Kollegen und Studenten gefragt, was der quantitative Zusammenhang zwischen Pixel und Point sei und ob es dafür eine einfache Formel gebe. Am liebsten wäre den Fragenden ein URL, in den man einen bekannten Wert eingibt und den gesuchten erhält.

Nun, solche URLs gibt es. Viele davon geben – unter gewissen Bedingungen – das gesuchte Maß richtig aus, manche geben es falsch aus. Wie so oft im Leben, kommt es auf die Bedingungen an, unter denen eine Frage gestellt wird und was genau man mit der Frage erfahren will. Context matters!

Insbesondere das in der Business Intelligence häufig verwendete Excel macht es dem Reportdesigner überaus schwer, da es in der von den meisten Usern verwendeten Normalansicht nicht nur ein eigenes, nicht weiter erkennbares Maßsystem für Längen verwendet, sondern davon sogar zwei verschiedene Systeme – je nachdem, ob es um die Höhe einer Zelle (=Zeilenhöhe) oder die Breite einer Zelle (= Spaltenbreite) geht. Ich werde in diesem Artikel die maßgeblichen Faktoren benennen und diese in eine Formel zusammenfassen.

Metrische Abmessungen und ihre Darstellung auf verschiedenen Screens

Ich werde im ersten Schritt phänomenologisch vorgehen und Untersuchungen in Excel in der (derzeit weit verbreiteten) Version 2010 vornehmen. Mittels verschiedener Monitore, Drucker und der beiden Betriebssysteme Windows 7 und MacOS werden die Faktoren, die die Darstellungsgröße beeinflussen, deutlich und quantifizierbar werden. Als Vorbedingung – also einer der Faktoren, von denen oben die Rede war – soll Excel die Tabellenblätter in der Größe 100% darstellen . Dies ist ja auch die Standardeinstellung und wird auch – so meine Alltagsbeobachtung – von Report Designern üblicherweise genutzt.

In einem Tabellenblatt in Excel auf meinem ThinkPad definiere ich eine Spalte mit der Breite von 10,0 cm. Lege ich auf dem Display des ThinkPads an diese Zelle einen Zollstock, so messe ich 7,4 cm Breite. Bewege ich dasselbe Tabellenblatt auf meinen externen Monitor, so messe ich 10,2 cm Breite. Wie ist dieser Unterschied zu erklären?

Abb 1 (Screenshot) : Eine Zelle mit 100 mm Spaltenbreite ….

Abb 2 (Foto) : … wird 7,5 cm breit dargestellt auf meinem Windows-Notebook (geringe Abweichung im Foto ist verursacht durch Objektivoptik) ….

Abb 2 (Foto) : … wird 7,5 cm breit dargestellt auf meinem Windows-Notebook ….

Abb  3 (Foto)

Abb 3 (Foto): … und mit 10,2 cm Breite auf dem Desktop-Monitor (geringe Abweichung in den Fotos ist verursacht durch Objektivoptik). Aber …

 

Das Pixel und die Pixeldichte eines Screens

Die Erklärung führt über den Begriff des Pixels – und zwar in seiner physikalischen Bedeutung. Die Einheit Pixel, abgekürzt “px”, ist entstanden aus dem Begriff “picture element”. Zuerst einmal meint dies also das kleinste Element eines gerasterten Bildes auf einem Screen. (Siehe hierzu den wikipedia-Artikel zu “Pixel“). In Falle der beiden o.g. Monitore wird das Bild auf einem LCD-Display mit seiner nativen Auflösung dargestellt – also ein technisches Setting, das heutzutage gängig an vielen Arbeitsplätzen ist. Die technischen Angaben beider Geräte bzw. die Informationen der Bildschirmauflösung und ein Nachmessen der physikalischen Breite des dargestellten Bildes ergeben die Werte 33,2 bzw. 51,9 cm.

Bei der Bestimmung der Pixeldichte stoßen wir zum ersten Mal auf die anglo-amerikanische Längeneinheit “inch” (dt. Zoll). Umrechnung: 1 inch = 2,54 cm. Die Einheit der Pixeldichte ist [ppi] Pixel per Inch und meint evidenterweise die Anzahl der Pixel auf der Strecke eines Inches. Im folgenden wird die Pixeldichte errechnet, indem die bekannte Pixelbreite dividiert wird durch die gemessene Screenbreite [cm] , multipliziert mit dem Umrechnungsfaktor 2,54 [in/cm].

Formel 1: Bestimmung der Pixeldichte eines Screens

 

Ausgabegerät

Auflösung

Gemessene Screenbreite

Pixeldichte (ppi)

10 cm werden dargestellt als … (Messwerte)

errechnete Werte

ThinkPad eingebautes Display 15”

1680*1050

33,2 cm

128,53

7,5 cm

 

Eizo 24”

1920*1200

51,9 cm

93,96

10,2 cm

 

 

Wenn wir die obige Formel anders herum betrachten, so lässt sich mit ihr auch die Größe eines physikalischen Display-Pixels ausdrücken. Wenn die Pixeldichte des Eizo-Displays 94 ppi ist, so ist die Breite eines Pixels gleich dem Quotienten aus 1 inch = 2,54 cm und 94. Rechnerisch ergibt dies 0,027 und ein Blick in die technischen Spezifikationen des Monitors hat mir diesen Wert auch bestätigt.

Die verschieden großen Darstellungen meiner 10 cm breiten Spalte hängt also anscheinend mit den verschiedenen Pixeldichten der Displays zusammen. Aber keines der beiden Displays scheint die Spaltebreite korrekt abzubilden. Warum das so ist – dazu gleich mehr.

Bevor wir an diesen unterschiedlichen und vom definierten Ergebnis abweichenden Darstellungen verzweifeln, drucken wir unsere 10 cm breite Zelle aus und messen die Breite. Unter der Bedingung, dass wir den Ausdruck nicht skaliert haben, messen wir mit dem Zollstock 10 cm. Zum ersten Mal erhalten wir diejenige Länge, die wir definiert hatten! Endlich!

Abb 4 (Foto): … ausgedruckt hat die Spalte genau die definierte Breite von 10,0 cm  (geringe Abweichung im Foto ist verursacht durch Objektivoptik)

Abb 4 (Foto): … ausgedruckt hat die Spalte genau die definierte Breite von 10,0 cm (geringe Abweichung im Foto ist verursacht durch Objektivoptik)

Offenbar ist Excel gut darin, Längenabmessungen präzise an einen Drucker weiter zu geben, aber nicht so gut darin, Längenabmessungen an ein Display weiter zu geben. Ich führe dies darauf zurück, dass diese Software sehr print-nah entwickelt wurden und dass die Anschlussverwendung des Druckens einen hohen Stellenwert im Entwicklungsprozess der Software hat.

Das Betriebssystem und die normierte Pixeldichte

Die Erklärung der mehrfachen Abweichung auf den verschiedenen Displays führt uns zu einer weiteren Bedeutung der Pixeldichte. Es handelt hierbei darum, dass das Betriebssystem (in meinem vorliegenden Fall: Windows 7) von einem einheitlichen Wert für das Rendering auf dem Screen ausgeht: die angenommene Pixeldichte beträgt 96 ppi.

Dieser normierte Wert wird von Excel angesetzt, um eine in einer Längeneinheit definierte Strecke in Pixeln zu übersetzen. Mit diesem Wissen können wir nunmehr selbst die Anzahl der benötigten Pixel – nicht vergessen: unter Windows! –  nach folgender trivialen Formel berechnen:

Formel 2: Pixelanzahl einer definierten Länge

Wenn wir die im untersuchten Fall gegebenen Werte einsetzen, so erhalten wir das Resultat, dass wir zu Darstellung von 10cm spaltenbreite 378 Pixel benötigen. Dasselbe sagt uns auch Excel direkt, wenn wir in die Darstellungsform “Seitenlayout” wechseln und die Spaltenbreite verändern wollen. In einem Tooltip wird die jeweilige Breite n in der Einheit mm und in der Einheit px dargestellt.

Abb. 5 (Screenshot): In der Seitenlayout-Ansicht zeigt Excel die Breite in metrischer Einheit sowie in Pixel an.

Abb. 5 (Screenshot): In der Seitenlayout-Ansicht zeigt Excel die Breite in metrischer Einheit sowie in Pixel an.

<Warnender Einschub>Verwendet man dasselbe Arbeitsblatt und lässt es in der <Normalansicht> darstellen, so verändern sich die Pixelwerte: die Spalte hat nur 6,9 cm Breite, druckt aber immer noch mit genau 10,0 cm. Ich muß zugeben, daß ich noch nicht hinter die Ursache dieses Verhaltens gekommen bin. Hier besteht noch Untersuchungsbedarf. </Warnender Einschub>

Auf der Grundlage des dargelegten  Zusammenhanges können wir nunmehr auch die obige Tabelle um die errechnete Angabe ergänzen, wie groß unsere 10 cm breite Spalte auf den Monitoren dargestellt wird. Dazu müssen wir einen Faktor bilden, der sich zusammensetzt  aus der Pixeldichte des Windows-Sollwerts und der physikalischen Pixeldichte des jeweiligen Monitors. Die Resultate in der hinzugefügten rechten Spalte bestätigen unsere Meßergebnisse.

Ausgabegerät

Auflösung

Gemessene Screenbreite

Pixeldichte (ppi)

10 cm werden dargestellt als … (Messwerte)

errechnete Werte

ThinkPad eingebautes Display 15”

1680*1050

33,2 cm

128,53

7,5 cm

7,47 cm

Eizo 24”

1920*1200

51,9 cm

93,96

10,2 cm

10,22 cm

 

Ich öffne nunmehr dasselbe Tabellenblatt der Excel-Datei mittels Excel 2010, das auf meinem Mac installiert ist. Da mein Mac ebenfalls über ein Display derselben Auflösung und derselben physikalischen Screengröße verfügt wie mein ThinkPad, erwarte ich bei der Definition einer 10 cm breiten Spalte ebenfalls eine Darstellung von 7,5 cm. Aber weit gefehlt –  die Messung ergibt eine Breite von 5,2 cm! Wieso das denn??!

Foto: Spaltenbreite von 10,0 cm wird auf dem MacBook mit 5,6 cm dargestellt. definierte Breite von 10,0 cm  (geringe Abweichung im Foto ist verursacht durch Objektivoptik)

Abb. 6: (Foto) Spaltenbreite von 10,0 cm wird auf dem MacBook mit 5,6 cm dargestellt.
 (geringe Abweichung im Foto ist verursacht durch Objektivoptik)

 

Ausgabegerät

Auflösung

Gemessene Screenbreite

Pixeldichte (ppi)

10 cm werden dargestellt als … (Messwerte)

errechnete Werte

ThinkPad eingebautes Display 15”

1680*1050

33,2 cm

128,53

7,5 cm

7,47 cm

Eizo 24”

1920*1200

51,9 cm

93,96

10,2 cm

10,22 cm

MacBookPro 15”

1680*1050

33,2 cm

128,53

5,6 (!) cm

 

 

Dieses überraschende Ergebnis liegt darin begründet, dass das MacOS einen anderen Norm-Pixelwert verwendet. Auf dem Mac beträgt die Norm-Pixeldichte 72 pixel pro inch. Und dieser Wert ist nicht zufällig! Vielmehr misst der typografische DTP-Punkt (“pt”) genau 1/72 tel eines Inches. (Quelle: http://de.wikipedia.org/wiki/Schriftgrad) Anders herum betrachtet: 72 DTP-Punkte ergeben genau ein Inch. Dass dies der Norm-Pixelwert des MacOS ist, hat historische Gründe: Der Mac Classic, der Mitte der 80er Jahre herauskam, sollte das Arbeiten im WYSIWIG-Modus ermöglichen und war auf die Verbindung von Print und Screen hin angelegt. Deswegen war ja auch die PostScript-Fähigkeit im Betriebssystem integriert und damit die Skalierbarkeit der entsprechenden Postscript-Schriften. Der im Gehäuse integrierte Monitor hatte eine Auflösung von 72dpi.  Ein Objekt in der Größe eines Inches  wurde damals also auf dem Monitor auch in der realen Größe angezeigt.

Wie gesagt: WURDE! Auf meinem MacBook Pro wird aufgrund des Norm-Pixelwerts von 72 ppi dieselbe Spaltenbreite schmäler dargestellt als auf dem Windows-Rechner. Das muss man erstmal sacken lassen, denn es klingt widersprüchlich: Die Pixeldichte wird im MacOS geringer angenommen und daher wird eine gegebene Breite schmäler dargestellt.

Um eine allgemeingültige Formel für die Abmessungen eines Objektes auf dem Screen aus den eingegebenen Längeneingaben zu erhalten muss ich die  bei den Betriebssystemen unterschiedlichen Pixeldichten mit einfließen lassen:

Formel 3: Länge eines Objektes auf dem Screen in cm

Nehme ich die obigen Werte L(def) = 10 cm, ppi(screen) = 128,5 und setze ppi(OS) mit 72 für das MacOS, so erhalte ich tatsächlich den gemessenen Wert 5,6 cm als errechnetes Resultat.

Ebenso muss die Formel zur Berechnung der notwendigen Pixel um den OS-Faktor verallgemeinert werden:

Pixelanzahl = (Länge [cm] * Pixeldichtenormwert des OS) / 2,54.

Statt 378 px wie Windows erstellt das MacOS nur 284 px um 10cm darzustellen. Auf demselben Monitor wird also eine geringere Länge für dieselbe Anzahl Pixel angezeigt als unter Windows.

Mac-Point ungleich Win-Point

Als nächstes betrachten wir die typografische Einheit “Punkt” (engl. “Point”). Wir werden feststellen, dass diese Einheit grundsätzlich den gleichen Regeln folgt wie auch die metrischen Einheiten – sowohl in Bezug zum Ausgabemedium Screen und Print wie auch in Bezug zu den beiden Plattformen Win 7 und MacOS.

Wir haben bereits gesehen, dass unter MacOS gilt: 72 px = 1 inch. Daher gilt innerhalb MacOS auch: 1 pt = 1 px = 0,353 mm. Unter Windows gilt aber: 1 px = 0,27 mm = 3/4 pt. Anders herum betrachtet: 1 pt = 4/3 px

Um es nochmals deutlich zu sagen: Die Einheit “px” meint in diesem Zusammenhang nicht die physikalische Ausdehnung auf einem Screen, sondern die betriebssystemseitige Berechnungsgrundlage von Längenmaßen. Die je nach OS unterschiedliche Bestimmung von Größen führt in der Folge dazu, dass die von Excel in der Einheit <Point> definierten Schriftgrößen absolut verschieden groß sind.

Das folgende Screenshot-Composing zeigt die Screenshots einer Excel-Datei unter MacOS und unter Win 7. Der Vergleich der beiden Screenshots veranschaulicht, dass Excel Mac und Excel Win eine Schrift mit derselben Punktanzahl nicht gleich groß darstellen. Vielmehr entspricht 18 pt Schriftgröße unter Windows dem 1.25 fachen der Schriftgröße unter Mac, also einer 24 pt Schriftgröße. Auf der Grundlage des weiter oben Dargelegten ist das auch folgerichtig, da ein Win-Point = 4/3 px und ein Mac-Point = 1 px.

 

Abb. 7 (Screenshot) Bei identischer Screenauflösung wird dieselbe Textgröße unter MacOS und Win7 unterschiedlich groß auf dem Screen dargestellt.

Abb. 7 (Composing Screenshot) Bei identischer Screenauflösung wird dieselbe Textgröße unter MacOS und Win7 unterschiedlich groß auf dem Screen dargestellt.

 

Werden beide Texte ausgedruckt, so ist alles gut: Schrifthöhen und Schriftlängen von Excel Mac und Excel Win sind identisch. Wenn also bedrucktes Papier das Zielmedium ist, so spielt die Plattform keine Rolle. Wird aber für den Screen produziert, so erhält man unterschiedliche absolute Größen derselben Punktdefinition.

Umrechnung Point und Pixel in Abhängigkeit des Betriebssystems

Es gilt also folgende grundlegende Beziehung zwischen Point und Pixel unter Berücksichtigung des jeweiligen OS:

Mac: 1 px = 1 pt. So einfach kann die Welt sein!

Win: 1 pt = 4/3 px und 1 px = 3/4 pt. Windows war halt schon immer etwas schwieriger!

Formel 4: Konvertierung von Pixel nach Point und umgekehrt unter WIndows und MacOS.

 

Ein Anwendungsbeispiel

Das folgende kleine Beispiel soll innerhalb des eingangs skizzierten Nutzungskontextes die Anwendung der Konvertierungsformeln erklären.
Die Vorgaben: Ein Styleguide schreibe eine Schriftgröße von 24px für die Überschrift des Reports vor. Der Abstand zu einer unteren Linie solle  16px betragen.
Die Umsetzung in Excel Win: Als Schriftgröße wird entsprechend der Umrechnungsformel 18 pt definiert. Die Höhe der Headline-Zelle wird 22 pt, damit Akzenthöhe und Unterlängen nicht abgeschnitten werden; die vertikale Ausrichtung ist zentriert. Die zusätzliche Reihe produziert den notwendigen Abstand zur Linie, die als Rahmenlinie an der Unterseite der Zelle definiert wird. Die Höhe der Zeile beträgt entsprechend der Konvertierungsformel 12 pt (=16 px). Wir erhalten das im Screenshot dargestellte Ergebnis, das nahezu exakt den Vorgaben entspricht.

Abb 8 (Composing vergrößerter Screenshot):Eingabe von Schriftgröße und Zeilenhöhe als Punktgrößen in Excel-Win und Messung des Resultats in px.

Abb 8 (Composing vergrößerter Screenshot): Eingabe von Schriftgröße und Zeilenhöhe als Punktgrößen in Excel-Win und Messung des Resultats in px.

<Hinweis> Die Einheit der Zeilenhöhe wird in der Excel-Normalansicht in Punkt gemessen, aber nicht angezeigt. Klickt man zwischen zwei Zeilen, so wird zusätzlich zur Punkthöhe der Zeile auch die (korrekt) umgerechnete Höhe in px angezeigt. </Hinweis>

<Vorsicht> die Breite von Spalten wird in der Normalansicht NICHT in der Einheit <Punkt>  definiert oder angezeigt, sondern in der Einheit Zeichenanzahl. Siehe auch diese Information der Online-Hilfe zu Excel 2010. </Vorsicht>

Ich denke, damit habe ich die Zusammenhänge zwischen den metrischen Einheiten, Pixeln und Points für’s erste erschöpfend erklärt. Ich mache daher hier einen Punkt, … nunja … Point!

Colorpicker UI für Leap Motion

Prolog

Die Leap Motion ist ein kleines Gerät für den Desktopgebrauch, das Hand- und Fingerstellungen extrem genau erfasst. Im Frühsommer 2012 wurde dieser Controller angekündigt; man konnte ihn nur vorbestellen, er wurde noch nicht ausgeliefert. Und ich bestellte ihn auch sofort. Was mich daran interessierte, waren die Möglichkeiten eines Interfaces, das ohne Stift, ohne Tastatur, ohne Maus funktioniert; nur mittels der eigenen Finger und Hände wird gesteuert, navigiert, geschaffen. Ein Eingabegerät, das den Raum vor einem Screen abtastet: dreidimensional und berührungslos.

Vielleicht – so schien es mir zum damaligen Zeitpunkt – ist es möglich, mit dem Controller und entsprechender Software sogar ein wenig in Richtung des Films Minority Report zu kommen. Genauer: in Richtung des Systems g-speak von John Underkoffler, der die Gesten für Minority Report entwickelte, wie er in einem TED-Talk erzählt. Minority Report für den Desktop!!!  Euphorie und Spannung auf das mit diesem Controller Kommende machten sich in mir breit!

Leap Motion Visualizer

Herumrühren im 3-D Raum. Spielerische Auseinandersetzung mit der Leap Motion und dem dazu gelieferten Visualizer

Nun, die Auslieferung der Leap Motion erfolgte im Frühsommer 2013, also ein Jahr später, und die ersten Versuche mit vorhandenen Apps aus dem Leap Motion AppStore ließen mich alles andere als Tom Cruise fühlen: Es gab gerade eine Handvoll sinnvoller Anwendungen, kaum eine lief problemlos und auch wenn sie lief, war der joy of use … nunja … überschaubar. Auch die ersten systematischen Untersuchungen zur User Experience und zum Einsatzbereich durch UID brachten Ernüchterung. Mein erstes Resumee im Sommer 2013: Nein, dies war (noch?) kein technologischer Durchbruch wie einst das iPhone oder das App-Konzept, kein Quantensprung im Interface-Design. Und es war meilenweit von der Eleganz und Wirksamkeit eines g-speak entfernt.

Nutzungsszenario Selektieren im Farbwürfel

Nun, nachdem meine Illusionen und Hoffnungen von der technischen Realität zerblasen wurden, wollte ich schauen, was mit den vorhandenen Mitteln Sinnvolles und Einfaches bewerkstelligt werden kann. Ausloten, was geht und wie es sich anfühlt war der nächste Schritt. Ein sinnvolles und kleines Aufgabenszenario musste her. Die Aufgabe, im dreidimensionalen Raum zu navigieren und einen Raumpunkt zu selektieren erschien mir hinreichend beschränkt und einfach. Im Kontext einer Selektion einer Farbe ergibt dies ein durchaus sinnvolles Nutzungsszenario für beispielsweise einen Arbeitsschritt eines Screendesigners. Bewusst sollte diese Aufgabe isoliert betrachtet werden; die Frage nach der Einbettung dieses Vorgangs in einen größeren Nutzungszusammenhang wurde ausgeklammert.

Als Screendesigner kennt man das Modell des RGB-Farbraumes, in dem jeder Farbpunkt durch ein Tripel der Werte aus den 3 Farbachsen Rot, Grün und Blau dargestellt wird. Das zugrunde liegende räumliche Modell stellt einen Würfel dar, in dem jede der drei Achsen positive ganzzahlige Werte zwischen 0 und 2^8-1 = 255 annehmen kann. Das Tripel (0,0,0) ergibt schwarz und ist die dunkelste Farbe, die in diesem Farbraum dargestellt werden kann; das Tripel (255,255,255) ergibt die hellste Farbe Weiss. Die RGB-Farben werden durch additive Farbmischung erzielt; daher werden die Farben grundsätzlich umso heller, je höher die Werte sind. Insgesamt sind in diesem Farbraum (2^8)^3 = ca. 16,7 Mio Farben darstellbar.

RGB-Würfel

RGB-Würfel: Betrachter schaut auf die ihm zugewandten Aussenflächen. Der weisseste Punkt ist die dem Betrachter am nächsten liegende Ecke des Würfels oben und vorne (R= 255, G=255, B=255)

RGB-Würfel: Betrachter schaut durch den Würfel auf die ihm abgewandten Aussenflächen. Der schwärzeste Punkt ist die vom Betrachter am weitesten entfernte Ecke des Würfels, am Schnittpunkt der drei Farbachsen und damit am Ursprung des Koordinatensystems (R=0, G=0, B=0)

RGB-Würfel: Betrachter schaut durch den Würfel auf die ihm abgewandten Aussenflächen. Der schwärzeste Punkt ist die vom Betrachter am weitesten entfernte Ecke des Würfels, am Schnittpunkt der drei Farbachsen und damit am Ursprung des Koordinatensystems (R=0, G=0, B=0)

Ein studentisches Projekt mit Schwerpunkt Interaction Design

Eine Projektgruppe des Studiengangs ON an der DHBW Mosbach setzte im im Wintersemester sich mit der Aufgabe auseinander, ein funktionstüchtiges Design des Interfaces zur Navigation innerhalb des RGB-Würfels unter Verwendung der Leap Motion zu konzipieren. Die Konzeption umfasste die Gestaltung der Interaktionen, die Gestaltung des visuellen Feedbacks auf dem Screen und die codemäßige Umsetzung in einem Funktionsprototypen. Selbstverständlich wurde iterativ vorgegangen, da von vornherein klar war, dass Coding, Interaktionen und visuelles Feedback in hohem Maße voneinander abhängig sind.

Die erzielten Resultate und identifizierten Knackpunkte beim Design des Interfaces und der Interaktionen sollen in diesem Artikel betrachtet werden; zusätzlich werde ich Überlegungen zur Verbesserung der Benutzbarkeit dieses Interfaces anstellen. Das Interface läuft im Webbrowser; die Projektgruppe hat das Interface live gestellt.

Prinzip der Verankerung

Zum Markieren einer einzelnen Farbe des RGB-Würfels muss eine bestimmte natürliche Geste gebildet werden. Die Geste des ausgestreckten Zeigefingers des Nutzers zusätzlich mit horizontal abgewinkelten Daumen, von den Studenten sinnigerweise “Gangster-Pistole” genannt, zielt auf einen Punkt des vor dem Nutzer liegenden Raumes. Die Markierung im Würfel verbindet sich mit dem Zeigefinger und folgt dessen Bewegungen. In solchen Fällen spricht das Interaktionsdesign von dem Prinzip der Verankerung, auf das die direkte Objektmanipulation aufbaut. (Dorau, S. 106).

 Navigation im Farbwürfel mittels Markierungs-Geste aus Sicht des Nutzers.  Im Browserfenster erscheint das komplette visuelle Interface mit Farbwürfe, der markierten Farbe und der zuletzt gespeicherten Farbe.

Navigation im Farbwürfel mittels Markierungs-Geste aus Sicht des Nutzers. Im Browserfenster erscheint das komplette visuelle Interface mit Farbwürfe, der markierten Farbe und der zuletzt gespeicherten Farbe.

 

Die Spitze des Zeigefingers deutet auf eine Raumzelle (gewissermaßen ein “Voxel” = Volumen Element) des Würfels. Indem der Zeigefinger sich durch die Hit Area über dem Leap Controller bewegt, verändert sich die Position des markierten Punktes innerhalb des Farbwürfels.

Die Markierung von Farbzellen funktioniert sowohl in der Annäherung von außen als auch durch Gestenänderung von innen. Aus der Perspektive des Nutzers kann ich die Markierungsgeste ausserhalb der Hit-Area formen und mich auf den Würfel zubewegen. Die ersten erkannten Punkte liegen in diesem Fall an derjenigen Würfelaussenseite, von der aus die Hand sich dem Controller annähert. Von dort aus bewege ich die Hand weiter nach innen in den Würfel und / oder nach oben / unten / links / rechts bis ich den gewünschten Punkt erreicht habe.

Umgekehrt kann ich auch mittels des Nicht-Markierungsmodus meine Hand in den Eingabebereich einführen, ohne eine erneute Markierung auszulösen. Erst wenn ich innerhalb des Eingabebereiches Zeigefinger und Daumen spreize, erkennt das System den Markierungsmodus und zeigt mir den nunmehr neu markierten Punkt innerhalb des Würfels an.

Beide Methoden funktionieren mit dem studentischen Prototypen – und das ist auch gut so, da es dem Nutzer Flexibilität gibt. Allerdings funktionieren sie derzeitig nicht zuverlässig und robust – dazu später mehr.

Wie soll nun die Interaktion gestaltet sein, wenn der Nutzer eine bestimmte Farbe im Farbraum erreicht hat und nun diese Farbe festsetzen oder speichern will oder gar die Hitarea mit der Hand verlassen will um, sagen wir mal, zwischendurch einen Schluck zu trinken ? Anders als mit der Maus, die man einfach loslässt und mit der Hand in die dritte Dimension geht, ist bei einem Scannen des dreidimensionalen Raumes nicht möglich, mit der Hand in eine andere Dimension zu wechseln.

An dieser Stelle bietet sich an, durch verschiedene Gesten verschiedene Modi zu repräsentieren und damit die existierende Verankerung zu verlassen. Durch Ändern der Geste verlasse ich den Markierungsmodus. Ich kann beispielsweise zu einer undefinierten Geste greifen, z.B. geballte Faust, und damit die Hitarea zu verlassen ohne die Markierung zu verändern. Oder ich will die markierte Farbe speichern und verlasse die Markierungsgeste, indem ich den Daumen “einklappe”, also nur den Zeigefinger ausstrecke (Selektionsmodus) und als nächste Bewegung die Tap-Geste ausführe (Zeigefinger “drückt” deutlich in Richtung Screen)

Zwischenbemerkung:

Ich kann mit den vorhandenen Interaktionspatterns niemals eine bereits markierte Farbzelle nutzen, indem ich sie beispielsweise verschiebe; vielmehr fange ich die Markierung zwangsläufig immer wieder neu an. Daher sehe ich Potential für weitere Gesten angesichts eines Real-World- Nutzungsszenarios, bei dem Farben nicht nur neu definiert werden, sondern oftmals umdefiniert werden oder in iterativen Schritten ihre finale Bestimmung erhalten. Es wäre bei einer Weiterführung des Projektes über die Gestaltung und die Steuerung eines Bearbeiten-Modus nachzudenken, bei dem der User eine bereits markierte Farbe gezielt in ihren Werten verändern möchte.

Gesten als Metaphern der realen Welt

Die implementierten Gesten und ihre korrespondieren Funktionen basieren weitestmöglich auf Metaphern der realen Welt:

  • “Gangster-Pistole”  > Zielen: Farbe markieren
  • Zeigefinger allein > auf etwas Bestimmtes zeigen: Farbe selektieren
  • Tap > mit Zeigefinger drücken: Farbe speichern
  • Circle > horizontale, halbkreisförmige Bewegung: Würfelausrichtung ändern

Je mehr Entsprechung die Geste in der Realität hat, desto leichter erlernbar und besser merkbar ist sie. Tap-Geste und Circle-Geste sind aus dem Software-Development-Kit von LeapMotion entnommen.

Visuelle und textuelle Beschreibung der im Colorpicker verwendeten Gesten im Hilfelayer der Colorpicker Applikation.

Visuelle und textuelle Beschreibung der im Colorpicker verwendeten Gesten im Hilfelayer der Colorpicker Applikation.

Eigenlokation im Raum und ihr visuelles Feedback

Während der Interface-Entwicklung wurde schnell klar, dass eine reine Kennzeichnung des annavigierten Punktes nicht ausreicht: die Darstellung des Voxels erfolgt auf dem (2-dimensionalen) Screen. Eine Punktmarkierung innerhalb des (von einem fixen Betrachterstandpunkt aus) projizierten Würfels macht den Raumpunkt für den Nutzer nicht nachvollziehbar und ist auch nicht eindeutig, wie die folgende Skizze exemplarisch illustriert.

Beide Punkte P1 und P2 bezeichnen im RGB-Würfel verschiedene Farben, liegen aber aus der festen Betrachterperspektive auf derselben Sichtlinie. Erst die zusätzliche Darstellung von Loten ergänzt die zur eindeutigen Ortsbestimmung notwendigen Informationen.

Beide Punkte P1 und P2 bezeichnen im RGB-Würfel verschiedene Farben, liegen aber aus der festen Betrachterperspektive auf derselben Sichtlinie. Erst die zusätzliche Darstellung von Loten ergänzt die zur eindeutigen Ortsbestimmung notwendigen Informationen.

 

Verbessert werden kann die unzureichende Eigenlokation, indem zusätzlich zum annavigierten Punkt die Lotrechte auf die 3 Aussenflächen des Kubus dargestellt werden. Weiterhin werden die numerischen RGB-Werte direkt neben dem markierten Punkt dargestellt, damit die exakte Raumposition auch direkt im Wahrnehmungsfokus des Users liegt und simultan erfasst werden kann.

Farbidentifikation als Grundlage für Steuerbarkeit

Bisher wurde die Navigation im Farbwürfel unter dem Aspekt des Ansteuerns eines Koordinatenpunktes im Würfel betrachtet. Dies ist aber kein Zweck an sich, sondern nur ein Mittel, damit der Nutzer innerhalb des Farbwürfels explorieren kann, jede einzelne markierte Farbe sowohl adäquat wahrnehmen und ggf. auch speichern kann. Es wurde der Projektgruppe sehr schnell klar, dass die punktuelle Markierung keine ausreichende Fläche aufweist, um dies zu leisten. Deswegen wurde diese Anzeigefläche ausserhalb des Würfels gelegt.

 

Großflächige Farbdarstellung ausserhalb des Farbwürfels.Oben die aktuelle markierte Farbe, unten die zuletzt gespeicherte.

Großflächige Farbdarstellung ausserhalb des Farbwürfels.Oben die aktuelle markierte Farbe, unten die zuletzt gespeicherte.

 

Dies bietet verschiedene Vorteile gegenüber einer Platzierung innerhalb des Würfels:

  • Die Farbflächenausdehnung kann so groß werden, dass die Farbe auch sicher vom Nutzer erkannt werden kann.
  • Der Hintergrund kann homogen und stabil sein – im umgesetzten Prototypen ist der Hintergrund standardmäßig weiß. Innerhalb des Würfels ändert sich die Umgebung ständig durch die Navigation und kann zu verschiedenen Wahrnehmungsfehlern aufgrund von Simultankontrasten führen.
  • Ein Vergleich der markierten Farbe mit einer vorher gespeicherten ist möglich. Im Prototypen funktioniert dies nachvollziehbar gut: das untere Farbfeld zeigt die zuletzt gespeicherte Farbe mit den RGB-Werten, die obere zeigt die aktuell markierte Farbe, die mit der Veränderung der Fingerposition aktualisiert wird. Dieser Refreshvorgang zeigt keinerlei spürbare Latenz.

Der Nachteil dieser Auslagerung ausserhalb des Würfels liegt darin, dass der Nutzer zum Erfassen und Vergleichen der Farbflächen seinen Wahrnehmungsfokus vom Würfel weg und hin zu den Farbfeldern bewegen muss. Für eine Optimierung des Interfaces wäre an dieser Stelle anzusetzen, designerische Alternativen zu entwickeln und eine die Leistungsfähigkeit der verschiedenen Designalternativen zu evaluieren.

Ob mit der sehr großzügigen Dimensionierung der Farbflächen im Prototypen etwas übers Ziel inausgeschossen wurde oder ob die gewählte Größe aufgrund des etwas größeren Betrachtungsabstanden angemessen ist, wäre in einer künftigen Weiterentwicklung zu evaluieren.

Darstellung der Farbumgebung

Für eine intuitive Navigation innerhalb des Farbwürfels reicht es nicht, dass der Nutzer den aktuell markierten Raumpunkt und die zugehörige Farbe erkennt. Darüber hinaus muss er in der Lage sein, die im Umfeld liegenden Farben zu erkennen, um bewusst in Richtung der gewünschten Farbeigenschaft zu steuern (z.B. heller oder dunkler, mehr in Richtung Rot oder mehr in Richtung Blau).

Im Rahmen der Entwicklung des vorliegenden Prototypen wurden zwei verschiedene Konzepte der Visualisierung angedacht:

  • Darstellung der drei orthogonalen Schnittflächen zu einer markierten Farbzelle über den gesamten Würfel. Dabei stellt sich die Frage, wie mit den Bildteilen umgegangen werden soll, die durch vom Kamerastandpunkt aus verdeckt sind. Eine Variante wäre, die Aussenflächen schwarz zu halten, so dass nur die Schnittflächen dargestellt werden und Orientierung geben könnte.
Skizze der Visualisierung mittels dreier orthogonaler Schnittflächen, die durch die markierte Farbzelle gehen. Der RGB-Würfel hier wie der UI Prototyp so ausgerichtet, dass die vertikale Achse die Farbe blau kennzeichnet.

Skizze der Visualisierung mittels dreier orthogonaler Schnittflächen, die durch die markierte Farbzelle gehen. Der RGB-Würfel hier wie der UI Prototyp so ausgerichtet, dass die vertikale Achse die Farbe blau kennzeichnet.

  • Darstellung der drei orthogonalen Schnittflächen als Projektion auf die drei Aussenflächen. Dieses Konzept wurde im Prototypen umgesetzt. Wenn  ich mit diesem Prototypen arbeitete, empfinde ich die ständigen Veränderungen der Aussenflächen als sehr störend und keineswegs als hilfreich um Farben bewusst anzusteuern.  Mir fehlen unveränderliche Anhaltspunkte, aus denen ich ERSEHEN kann, welche Farbe in welcher Richtung liegt. Auch die Projektion auf die Aussenfläche in Zusammenarbeit mit den Loten der markierten Farbzelle suggeriert, dass die Farbzelle sich genau nicht auf den gezeigten Aussenflächen befindet; das Konzept ist also – zumindest für mich persönlich – kontra-intuitiv.

Im Rahmen einer Weiterentwicklung des Interfaces wird eine der Aufgaben sein, das erstgenannte Konzept zu implementieren und in einem Vergleich mit dem bereits implementierten Konzept zu evaluieren.

Message Bar

Sehr gut gelungen ist eine zu den direkten Zustandsänderungen zusätzliches Feedback des Systems an den Nutzer: <Farbe ist gespeichert> <Leap ist bereit> <Würfel wurde gedreht> (siehe Abbildung zur Farbdarstellung oben). Dem Nutzer gibt dies Sicherheit über die Ausführung von Befehlen oder auch über fehlerhaft ausgelöste Zustandsänderungen. Im Prototypen wird dieses Feedback textuell für einen kurzen Zeitraum in einer von oben in den Viewport fahrenden Message Bar gegeben. Absolut usable und gerade bei einem noch nicht ausgereiften Interface eine große Hilfe!

Schwachpunkte

Identifizierte und teilweise auch der Projektgruppe bekannte Schwächen des UI Prototypen liegen in verschiedenen Bereichen:

  • Hängenbleiben (“Freeze”) der Markierung beim visuellen Feedback
  • “zittrige” Eingabe
  • unzuverlässige Erkennung von Gesten
Freeze

Grundsätzlich positiv ist die Latenzzeit beim Navigieren sehr gering d.h. als User habe ich den Eindruck, die Markierung folgt ausreichend schnell meinem Finger. Dies allerdings nur für einige Sekunden, danach kommt es allerdings häufig vor, dass die Markierung trotz weitergeführter Fingerbewegung für ein bis drei Sekunden stehen bleibt. Damit habe ich die Verankerung verloren, da mein Finger zwischenzeitlich eine neue Position eingenommen hat.Meinen gewonnenen Arbeitsfortschritt habe ich verloren und ich muss zwangsläufig mit der Navigation neu beginnen. Wenn ich es richtig verstanden habe, so sind diese Freezes das Ergebnis von zu großer Datenvolumina im Speicher.

Zittrige Eingabe

Ironischerweise ist die hohe Präzision des Leap Controllers auch ein Problem für die Steuerbarkeit. Innerhalb der Hit-area des Würfels ist es nahezu unmöglich, einen bestimmten Markierungspunkt trotz subjektiv stillgehaltenem Finger zu halten. Bereits unbeabsichtigte kleinste Bewegungen des Arms, der Hand oder des ausgestreckten Zeigefingers führen dazu, dass der gewählte Farbwert um ein bis zwei Werte in verschiedenen Achsen schwankt. Dieses ist insbesondere deswegen ein Problem, weil im Nutzungsprozess ein angesteuerter Farbwert im nächsten Schritt auch markiert bleiben und gespeichert werden soll. Dazu muss die Geste geändert werden und dies führt zu einer unbeabsichtigten Änderung der Fingerposition.

An dieser Stelle zeigt sich eine grundsätzliche Schwäche der Gestensteuerung gegenüber der Steuerung mit einem Eingabedevice wie einer Maus: der Nutzer kann die Maus liegen lassen und hat damit einen Ruhezustand hergestellt. Hat der Nutzer den Cursor einmal an eine gewüschte Stelle platziert, so muss er nichts weiter tun, um diese Stelle zu halten. Dagegen ist es bei der Fingergeste grundsätzlich anders: hier muss der Nutzer aktiv sich konzentrieren und unter Kraftaufbringung versuchen, die Geste an derselben Stelle schwebend zu halten.

Auch dieser ergonomische Nachteil bedarf der Optimierung des Interaktionsdesigns, um die präzise Steuerbarkeit zu gewährleisten. Mögliche Lösungsstrategien sind die Anwendung von Trägheitsalgorithmen oder das Zoomen in den Würfel hinein um das Verhältnis vonBewegung innerhalb der Hit-Area zu resultierenden Veränderungen im Farbwürfel zu verändern.

Unzuverlässige Erkennung von Gesten

Funktionen wie beipielsweise <Würfel drehen>  oder  <Farbe speichern>  werden manchmal nicht ausgelöst werden, wenn ich es als Nutzer beabsichtige – oder andersherum genau dann ausgelöst werden, wenn ich es nicht beabsichtige, sondern eigentlich etwas anderes beabsichtige.

 

Epilog

Mir ist anhand der Analyse des Prototypen wieder einmal bewusst geworden, wie entscheidend das visuelle Feedback für die Steuerbarkeit eines Systems ist – gerade bei gestischer Steuerung. Und mir ist ebenfalls wieder einmnal bewusst geworden, wie ausgereift das WIMP-System ist – innerhalb seiner eigenen Grenzen und systemeigenen Beschränkungen. Ich werde daher auf die Unterschiede der beiden Interfaces (Leap Motion vs. klassische Maus) in einer der kommenden Blogartikel genauer eingehen.

Der Colorpicker mittels Leap Motion ist ein guter Start; aber für ein sauber und elegant bedienbares System ist noch einiges an Arbeit an Code und Interaktionen zu leisten. Neben der technischen Aushärtung des Systems sollte die weitere Entwicklungsarbeit auch Methoden und Vorgehensweise des User Centered Designs integrieren. Vielleicht interessieren sich im kommenden Winter Studenten am FB ON für die Weiterführung des Colorpicker UIs …

 

Basics

Quelle:

Konzept eines UIs zur Farbselektion aus einem RGB-Würfel mittels Leap Motions Controller
Jasmin Wagner, Domenik Niemietz, Michael Tebbe, Konstantin Scharow (Studiengang Online Medien an der DHBW Mosbach, 5. Semester) (http://www.dhbw-mosbach.de/studienangebote/onlinemedien.html) Februar 2014
Die Arbeit entstand im Rahmen der LV Multimediales Informationsdesign,  Betreuung: Lothar B. Blum.

Technische Daten:

Verwendete Spoftware:  LeapMotion Version 1.1.3
Der Prototyp läuft im Webbrowser. Am besten lief der Colorpicker unter Firefox. Meinen Analysen basieren auf FF 28.0
URL: http://leap.2fq.de/

Hinweise:

Ich habe festgestellt, dass die Leap Motion trotz der Infrarotsensoren einer gleichmäßige Umgebungsausleuchtung bedarf. Schlaglichter in der Form von einseitigem Tageslicht oder nahestehende Lampen mit Punktlicht können schnell zu Fehlerkennungen und fehlerhaftem Verhalten führen.

Grundlagenliteratur:

Ich möchte auf das ausgezeichnete Buch “Emotionales Interaktionsdesign – Gesten und Mimik interaktiver Systeme” von Rainer Dorau hinweisen. Der Hauptitel ist ein wenig irreführend, denn emotional ist an diesem Buch nichts. Ganz im Gegenteil: es befasst sich sehr analytisch und rational mit den Interaktionsmöglichkeiten von computergesteuerten Systemen. Sein Schwerpunkt liegt auf den Touch-Systemen.

Dorau, Rainer: “Emotionales Interaktionsdesign – Gesten und Mimik interaktiver Systeme”, Heidelberg 2011 (Springer)

Google Trends und Insights for Search II: Nichts Neues aus Damaskus

Während “Google Trends” nur relativ grobe Abfragen zulässt, kann man mit “Google Insights for Search” schon einiges mehr anfangen. Insbesondere erlaubt das System das Setzen zusätzlicher Filter für die Suchanfragen, und es hat obendrein ein genaueres und feineres zeitliches Auflösungsvermögen. Wer von Trends auf Insights umsteigt, muss sich allerdings an einen anderen Index gewöhnen (warum ist mir persönlich bis heute nicht klar). Doch keine Sorge, das Grundprinzip bleibt gleich. Auch hier geht es um die relative Verteilung von Suchanfragen über die Zeit und einen Vergleich der relativen Häufigkeiten von Suchanfragen bei mehreren Suchwörtern.

Bevor wir uns um die Analyse und Interpretation einiger Beipsiele kümmern, werfen wir zunächst einmal einen Blick auf das Interface von Google Insights for Search:

Interface von  "Google Insights for Search" mit verschiedenen Suchfiltern
Abbildung 1: Das Interface der “Google Insights for Search” eine größere Ansicht erhalten Sie, wenn sie auf das Bild klicken.

Von links nach rechts finden wir…

  • …unter „Vergleichen mit“ eine Auswahl, mit deren Hilfe man angeben kann, ob man die Häufigkeit von Suchbegriffen weltweit oder in einer definierten Region untersuchen möchte (d.h. genau einer, nicht mehreren). Wählt man hier anstelle von Suchbegriffen „Standorten“, lässt sich das Suchverhalten an zwei Standorten für einen Suchbegriff analysieren (d.h. wiederum genau einen, nicht mehrere).
  • …unter „Suchbegriffe“ ein Eingabefeld für einen Suchbegriff, in dem sich die gängigen Operatoren der Google-Suche einsetzen lassen, also Anführungszeichen für die wörtliche String-Suche, „+Keyword“ für obligatorische zusätzliche Suchbegriffe, „-Keyword“ für eine Suche, die nur Treffer ohne das zusätzliche Keyword enthält usw. Mit einem Klick auf „+Suchbegriff hinzufügen“ kann man genau dies tun, und zwar genau 4 mal. Einfacher gesagt: es können maximal 5 Suchbegriffe miteinander verglichen werden.
  • …unter „Filter“ ein eigentlich weitgehend selbsterklärendes Interface zur Spezifikation von Suchbereichen, die von den Benutzern bei der Suche aktiviert waren (Web, Bilder, News und Produkte) Zeitperioden und Kategorien des Google-Katalogs. Während im ersten Fall klar ist, dass z.B. nach dem Eingeben eines Suchwortes die Suche auf „Bilder“ oder „Produkte“ eingeschränkt wurde, ist letzteres für mich so nicht eindeutig. Da die genaue Herkunft und Zusammensetzung dieser Daten auch nach einigen Recherchen nicht verstanden habe, und die Angabe einer Kategorie obendrein nicht selten zu Null-Treffer-Resultaten führt, gehe ich auf diesen Aspekt im folgenden nicht näher ein.

Vergleich von Suchwörtern

Eine vergleichende Analyse mehrerer Suchwörter ist mit Google Insight for Search in einem Schritt möglich, wobei für einen einzelnen Vergleich der Zeitraum und die Region konstant gehalten werden. Die folgende Grafik zeigt z.B. den Prozess der Ablösung des Buzzwords „Web 2.0“ durch das Buzzword „Social Media“ im Verlauf der letzten 7 Jahre weltweit.

Liniengrafik für social media und web 2.0

Abbildung 1: Verlauf des weltweiten Interesses für "web 2.0" vs. "social media" (zum Vergrößern bitte Grafik anklicken)

Was bedeuten die Zahlen?

Diese Frage stellt sich natürlich sofort, wenn man die Grafiken von Google Insight for Search sieht. Sie ähneln auf den ersten Blick dem Erscheinungsbild den Darstellungen von Google Trends zum Verwechseln, doch der Wertebereich ist anders aufgebaut. Der höchste Wert, den eine Kurve in Google Insight erreichen kann ist anscheinend 100…? So ist es. Der höchste in der abgefragten Zeitperiode gemessene Wert wird gleich 100 gesetzt, und alle anderen Werte werden dann an diesem relativiert. Da sich Google nicht die Mühe macht, den eigenen Indizes anständige Namen zu geben (eine sträfliche Unterlassung, wie ich finde), möchte ich den Search-Volume-Index von Google Insight for Search in Anlehnung an den vorigen Artikel einfach „SVI-2“-Wert nennen.

Die Formel für den SVI-2 Wert ähnelt nun der für den SVI-Wert (von Google Trends) auf den ersten Blick zum Verwechseln:

Formel 1: Formel zur Bestimmung des SVI-2 Werts für ein gegebenes Keyword an einem bestimmten Stichtag. (Erläuterungen im Text)

Eine Variante des Beispiels aus dem ersten Artikel mit „diät“ als Suchwort und dem 01. Mai als Stichtag verdeutlicht, wie der Index funktioniert. War der höchste gemessene Wert in der zu betrachtenden Untersuchungsperiode 500 Suchanfragen, und ist der beobachtete Wert am 01. Mai = 250, resultiert ein SVI-2 Wert von 50:

Formel 2: Berechnungsbeispiel für den SVI-2 Wert

Der SVI-2 Wert gibt also in Prozent an, wie häufig das Suchwort an einem Tag gesucht wurde, jeweils bezogen auf den Tag mit den meisten Anfragen.

  • SVI-2 = 10 bedeutet: An diesem Tag wurden 10% der am Tag mit maximalem Suchtraffic beobachteten Anfragen gezählt.
  • SVI-2 = 70: Es wurden im Vergleich mit dem Tag mit maximalem Suchtraffic 70% Suchanfragen gezählt.
  • usw.

Und damit ist natürlich auch zugleich klar, dass der SVI-2 Wert maximal einen Wert von 100 annehmen kann.

Die oberhalb der Grafik in Abbildung  1 unter „Gesamt“ eingeblendeten Werte geben an, welchen Mittelwert man für den SVI-2 Wert in der gegebenen Periode erhält. Wäre „Gesamt“ gleich 100, würden also an jedem Tag exakt gleich viele Suchanfragen gestellt, und die Kurve wäre gar keine Kurve, sondern eine Gerade. Anders gesagt: Je geringer der Wert für „Gesamt“ ausfällt, desto stärker schwanken die Werte während der untersuchten Periode – hierzu kommen noch Beispiele.

Anwendungsbeispiel: Vergleich zweier Markennamen

Stimmen die Umstände, ist so über Google Insight z.B. eine sehr einfache und ziemlich objektive Bestimmung der Popularität von Marken möglich. Dies zeigen die beiden folgenden Abbildungen, auf denen die relative Häufigkeit der Suchbegriffe „nike“ und „adidas“ in den USA und in Deutschland verglichen wurden:

Abbildung 2: Verlauf des SVI-2 Index für die Suchbegriffe „adidas“ und „nike“ von 2004 bis heute in den USA.

Abbildung 2: Verlauf des SVI-2 Index für die Suchbegriffe „adidas“ und „nike“ von 2004 bis heute in den USA. (Die Grafik ist durch Anklicken vergrößerbar.)

Abbildung 3: Verlauf des SVI-2 Index für die Suchbegriffe „adidas“ und „nike“ von 2004 bis heute in Deutschland. (Die Grafik ist durch Anklicken vergrößerbar)

  • Man erkennt sehr schön, dass sich das Interesse an den Marken Adidas und Nike in Deutschland etwa gleich verteilt, mit leichten Vorteilen für Adidas. Die Mittelwerte der SVI-2 Werte liegen relativ dicht zusammen, nämlich bei 62 für adidas und 53 für nike.
  • In den USA liegen die Verhältnisse umgekehrt: hier hat Nike sehr eindeutig die Nase vorn im Wettbewerb um die Suchanfragen. Die Mittelwerte liegen bei 75 (Nike) und 19 (Adidas).

Besonders interessant ist die Zeitperiode Mitte 2006. Damals wurde von Adidas eine gigantische Marketing-Kampagne zur Fußball-WM gestartet – nachzulesen z.B. in einem zeitgenössischen Beitrag der Deutschen Welle. Die Auswirkungen der Kampagne können wir in der Grafik für Deutschland (Abb. 3) sehr gut sehen: Die blaue Kurve zeigt einen deutlichen Ausschlag nach oben. Tatsächlich liegt Mitte 2006 der höchste jemals gemessene Wert für „adidas“. „Nike“ hat ebenfalls ein lokales Maximum in seiner Popularität Mitte 2006, Adidas ist jedoch der klare Gewinner. In den USA zeigt sich das öffentliche Interesse für die Marken im gleichen Zeitraum dagegen ziemlich unbeeindruckt – sicherlich kann man dies als Symptom des chronisch geringen Interesses der US Bevölkerung an Fußball werten.

Ein Benchmarking der Markenpopularität ist also durchaus möglich, allerdings: Ob sich solche Beobachtungen dann auch in Umsatz oder Marktanteile übersetzen lassen, ist aufgrund des SVI-2 Index natürlich nicht sagen. Aber man erkennt an dem Beispiel sehr schön, dass sich eine Beobachtung von SVI-2 Werten für Firmen lohnen könnte – umso mehr, wenn man berücksichtigt, dass die Daten kostenlos sind.

Beobachtung von Zeitverläufen

Google Insight ist besonders auf die Beobachtung von Zeitverläufen ausgelegt. Dies kann man leicht nachweisen, wenn man Begriffe eingibt, bei denen mit saisonalen Veränderungen im Interesse zu rechnen ist, z.B. „Ostern“ und „Weihnachten“. Auch einmalig auftretende Ereignisse lassen sich sehr gut sichtbar machen. Bei der folgenden Grafik handelt sich um die Häufigkeit des Begriffs „beaujolais“, gekoppelt mit den Jahreszahlen von 2007 bis 2010.

Abbildung 4: Häufigkeit des Begriffs „beaujolais“ mit zusätzlicher Jahreszahl von 2007 - 2011 (Die Grafik ist durch Anklicken vergrößerbar)

Es scheint, das Interesse für Beaujolais nimmt tendenziell zu…

Zu beachten ist, dass der Gesamt-SVI-2-Wert bei diesem Beispiel in allen Fällen sehr klein ist. Dies ist auch plausibel: es gibt nur ganz wenige hohe und andererseits sehr viele Werte, die nahe bei Null liegen. Dies führt in der Konsequenz zu einem niedrigen Durchschnitt. Drei Faustregeln für die Interpretation des „Gesamt“-SVI-2 kann man festhalten:

  • 1. Hohe Werte entstehen, wenn es nur geringe Schwankungen in den Werten gibt. Dann weichen die beobachteten Häufigkeiten an den einzelnen Tagen im Durchschnitt nur relativ wenig vom Maximum ab.
  • 2. Niedrige Werte entstehen bei starken Schwankungen, vor allem dann, wenn es nur einzelne Maxima und ansonsten sehr niedrige Werte gibt. Wenige Ausreißer nach oben können dann ein niedriges durchschnittliches Interesse nicht stark beeinflussen.
  • 3. Regel 1. und 2. gelten  nur, wenn einzelne Keywords abgefragt werden. Gibt man mehrere Suchwörter gleichzeitig ein, können niedrige Werte für den Gesamt-SVI-2-Wert auch anders entstehen, nämlich einfach dadurch, dass einer der Begriffe sehr viel seltener gesucht wird. Diesen Fall hatten wir beim Vergleich von Nike und Adidas in den USA  (s.o., Abbildung 2).

Gleichzeitige oder getrennte Betrachtung von Verläufen

Um die Funktion von Google Insight richtig anwenden und die Ergebnisse interpretieren zu können muss man wissen, dass es einen großen Unterschied macht, ob ein Wort alleine oder zusammen mit anderen eingegeben wird. Gibt man z.B. nacheinander drei unabhängige Abfragen für die Begriffe „Syrien“, Ägypten“ und „Tunesien“ ein und beschränkt die Suche auf Deutschland, erhält man die in der folgenden Abbdildung zusammengestellten Grafiken.

Abbildung 5: Interesse an den Ländern Syrien, Tunesien und Ägypten in Deutschland von November 2010 bis Juni 2011 in drei getrennten Abfragen (Die Abbildung ist durch Klicken vergrößerbar).

Man erkennt, dass es in Ägypten und Tunesien während der Höhepunkte der Demokratie-Bewegungen in diesen Ländern eindeutige Spitzen oder „Zacken“ im Interesse gibt, die danach wieder abflauen. In Syrien ist das Auf und Ab während der revolutionären Entwicklung dagegen deutlich gemäßigter. Dies manifestiert sich auch in den Durchschnittswerten für den SVI-2 Index, die (auf der Grafik nicht zu sehen). Sie liegen…

  • …für Syrien bei 40,
  • für Tunesien bei 27,
  • für Ägypten bei 23.

Dies spricht dafür, dass Syrien mit seiner repressiven Informationspolitik relativ gut verhindern konnte, dass die Vorgänge im eigenen Land Gegenstand des Interesses der deutschen Öffentlichkeit werden.

Wichtig ist, dass bei dieser Betrachtung jedes Keyword seine eigene Referenz ist, d.h. wir können keine Aussagen darüber machen, ob es Häufigkeitsunterschiede zwischen den Begriffen gibt. Die ist aber möglich, wenn wir die  Intensität und Verlauf des öffentlichen Interesses für alle drei Länder in einer gemeinsamen Abfrage vergleichen:

Abbildung 6: Verlauf des Interesses für Tunesien, Ägypten und Syrien bei vergleichender Abfrage in Google Insights for Search (Abbildung durch Klicken vergrößerbar).

Was können wir aus dem Ergebnis ableiten? Zunächst ist der Verlauf der Kurve und der durchschnittliche SVI-2-Wert für Ägypten identisch mit der Einzelabfrage in Abbildung 5. Ägypten liefert also den Bezugswert mit maximalem Traffic. Da Tunesien und Syrien nun ebenfalls an dem maximalen Such-Traffic für Ägypten relativiert werden, ist das Niveau der Linien für diese Länder plötzlich sehr viel niedriger als bei den Einzelabfragen. Das bedeutet inhaltlich, dass das Interesse für Ägypten (als politischem Schwergewicht im nahen Osten und zugleich wichtigem Reiseland) mit Abstand am größten ist. Ägypten stellt damit den 100%-Wert, an dem alle anderen Messwerte relativiert werden. Unter dieser Voraussetzung ist die tunesische Revolutions-Zacke noch einigermaßen erkennbar, für Syrien scheint die Kurve aber kaum noch sichtbar auszuschlagen. Dies ist natürlich einerseits eine Folge der Maßstabsveränderung, die durch den Vergleich mit dem Maximalwert für Ägypten entsteht (ein Phänomen das man beim Interpretieren unbedingt kennen muss). Andererseits spiegeln die Verhältnisse aber durchaus wieder, wie sich das Interesse der Öffentlichkeit über die Zeit hinweg entwickelt und verteilt. Syrien ist – verglichen mit Ägypten – eben „kein Thema“. Das Regime in Damaskus verhindert also einigermaßen erfolgreich, dass sich die syrische Revolutionsbewegung  eindringlich im Bewußtsein der Deutschen zu verankert.

Exkurs: Die Mehrdeutigkeit von KPIs

Die Häufigkeit, mit der ein Begriff gesucht wird, ist auf den ersten Blick ein guter Key-Performance-Idikator oder “KPI” für die Popularität eines Begriffs. Ob Populariät nun auch wünschenswert (also unter allen Umständen zu maximieren) ist, hängt wiederum von den Umständen ab. In vielen Fällen wird man z.B. für Markennamen wünschen, dass sie möglichst weit verbreitet sind. Setzt man voraus, dass die Eingabe eines Markennamens ein Indikator für „Interest“ (um den von Google selbst bezeichneten Begriff zu verwenden) ist, wäre ein hoher SVI-2 Index also wünschenswert.

Gänzlich anders verhält es sich jedoch, wenn die Popularität durch eine Negativmeldung verursacht wird. Ein Beispiel hierfür ist der  Fall ist der des Fahrradschloss-Herstellers „Kryptonite“ dem im Jahr 2004 ein arger Fehler unterlaufen war. Die martialischen „Evolution 2000“ Stahl-Bügelschlösser konnten nämlich mit Hilfe der Hülle einer simplen Kugelschreiberhülle geknackt werden – ein Sachverhalt, der sich auf Youtube rasch herumsprach. Binnen kurzer Zeit kursierten einschlägige Videos von Kunden, die sich mit dem Knacken von Kryptonite-Schlössern munter die Zeit vertrieben. Und diese führten jedem potentiellen Kunden klar vor Augen, was ein Fahrraddieb wohl mit dem geliebten Zweirad machen würde, käme man auf die Idee, es mit einem „Evolution 2000“ von Kryptonite zu sichern. Die Popularitätskurve der Kryptonite Fahrradschlösser während dieser Zeit zeigt die folgende Abbildung:

Abbildung 7: Die Popularität des Suchbegriffs „kryptonite locks“ in den USA um den September/Oktober 2004 (Abbildung durch Anklicken vergrößerbar).

Man erkennt sehr schön, wie sich das, was unter dem Begriff „Lock Picking Fiasko“ bekannt wurde, in der Popularität des Suchbegriffs „Kryptonite Locks“ abbildet.

Die Kryptonite-Geschichte u.a. deshalb so oft und gerne als Beispiel für negative Publicity durch das Web zitiert, weil Kryptonite in einem PR-Reflex zunächst einfach abgestritten hatte, dass es mit seinen Produkten irgendwelche Probleme gebe… Die daraufhin durchs Social Web schwappende Welle der Empörung machte dann sogar die New York Times auf die Affäre aufmerksam – und führte so zu dem in der Abbildung oben zu sehenden, wahrhaft durchschlagenden Popularitätsgewinn. Angesichts der 10 Millionen Dollar Verlust, die das Unternehmen in diesem Zusammenhang gemacht hat, wäre es hier allerdings eher ironisch, von hoher Popularität als “Indikator für Erfolg” zu sprechen. Trivial? Zugegeben. Wenn man es einmal weiß, ist vieles trivial. Andererseits können wir sicher sein: Der unbedarfte Betrachter neigt bei Variablen wie Visits, Page Impressions, Mentions in Sozialen Netzwerken, der Anzahl von Kommentaren oder der durchschnittlichen Betrachtungsdauer einer Seite usw. sehr leicht dazu, sie allesamt ziemlich einfach und eindimensional zu interpretieren: Viel hilft viel! Gut sind demnach viele PIs, viele Besucher und eine lange Betrachtungsdauer… Aber nein! Das stimmt eben nicht! Es kommt ganz klar darauf an, was da aus welchen Motiven und in welchen Situationen abgerufen, betrachtet, gelesen und bedient wird.

  • Wird eine Seite nur kurz betrachtet, kann das bei einer mehrschrittigen Web-Anwendung ein gutes Zeichen sein: Die User verstehen, was sie tun sollen: Er oder sie füllt aus, Klick – und weg. Hier gilt: je kürzer, desto besser.
  • Auf einem Corporate Blog ist das Umgekehrte, nämlich eine lange Betrachtungszeit als positiv zu werten. Der/die Besucher/innen lesen den Text wirklich? Gut. Das kostet Zeit und treibt die durchschnittliche Betrachtungsdauer nach oben.

Auch für DIE Erfolgswährung im Web, die Seitenaufrufe, finden sich analoge Beispiele:

  • Wird eine Produktseite häufig aufgerufen, kann dies andererseits mit ziemlicher Sicherheit als Interesse am Produkt, also positiv gewertet werden.
  • Häufige Seitenaufrufe einer Sitemap sind allerdings nicht unbedingt ein Zeichen dafür, dass sie ein “Top-Content” ist und besonders gut funktioniert. Sie können auch so gewertet werden, dass die Besucher auf konventionellen Wegen nicht finden, was sie suchen und deshalb aus Verzweiflung auf die Sitemap ausweichen.

Wirft man alle Typen von Seiten und Content durcheinander, kommen also am Ende keine sonderlich aussagefähigen Indikatoren heraus. Web-Analytics Systeme unterscheiden aber leider nicht zwischen Seiten, bei denen eher eine kurze und solchen, bei denen eine lange Betrachtungszeit wünschenswert ist. Das können sie auch gar nicht, weil diese Entscheidung nur vom Verstand eines Menschen getroffen werden kann.

Zusammenfassend hoffe ich, dass unser kleiner Exkurs etwas von der Komplexität, aufzeigt, mit der wir konfrontiert sind, wenn Zahlen, die irgend ein Reporting-System in hübschen Grafiken ausliefert, wissenschaftlich interpretiert werden sollen. Hierzu passt in gewisser Weise, dass die Autoren hinter Google Insights for Search selbst darauf hinweisen, dass die Daten des Tools nicht für “harte” wissenschaftliche Zwecke wie eine Doktorabeit oder ähnliches geeignet seien. Behält man dies im Hinterkopf kann das Tool jedoch sehr gut eingesetzt werden, um z.B. Popularität zu messen. Die Kurven können auch – dies zeigt das Beispiel “Kryptonite” – als durchaus beeindruckendes Stilmittes der visuellen Rhetorik eingesetzt werden.

Google Trends und Insights for Search I: Abnehmen mit Gänsebraten

Mit der Auswertung der Trefferlisten der Google Suche lassen sich so allerlei erbauliche anthropologische Betrachtungen anstellen. In vielen launigen Glossen und Presseartikeln wird deshalb Bezug darauf genommen, ob und wenn ja welche Varianten von Wörtern oder Suchbegriffen in welcher Häufigkeit und Schreibwese verschieden lange Trefferlisten erzeugen – oder möglicherweise gar nicht zu finden sind. Das Ergebnis wird dann gerne essayistisch verwertet, um zu belegen, dass bestimmte Dinge so und nicht so und andere so herum aber nicht anders herum in den Köpfen des Suchmaschinen nutzenden Teils der Menschheit herumspuken. Dahinter steht die Prämisse, dass das, was in den den Suchschlitz der größten Suchmaschine der Welt eingetippt wird, eine Art Essenz oder Konzentrat der Wünsche und Gedanken der Menschheit sein müsse.

Gänzlich unrealistisch ist das nicht, denn natürlich suchen wir beim Surfen im Web Dinge,…

  • …die für uns relevant sind,
  • die wir uns wünschen,
  • die uns betroffen machen,
  • an die wir heimlich denken,
  • für die wir uns interessieren.

Umgekehrt suchen wir niemals nach etwas, das wir nicht kennen und nur sehr selten nach Dingen, die uns herzlich gleichgültig sind. Insofern ist aus der Sicht eines Marktforschers eine Statistik von Sucheingaben (sei es auf der eigenen Website oder „off site“ auf einer großen Suchmaschine) eine ziemlich interessante Informationsquelle.

Ich möchte deshalb in diesem und einem noch folgenden Beitrag über Auswertungen und Kennzahlen berichten, die  über “Google Trends” (http://trends.google.com) und „Google Insights for Search“ (http://www.google.com/insights/search), erzeugt werden können. Ich hoffe, es gelingt mir zu zeigen, dass man mit diesen Tools (und etwas Geduld, Phantasie und Systematik) einige durchaus interessante und ziemlich direkte Blicke  in die Köpfe der Internet-Gemeinde werfen kann.

Google Trends:

Das Szenario:

Beginnen wir mit einem gar nicht so unrealistischen Szenario: Die Redaktion der monatlich erscheinenden Frauenzeitschrift mit dem ebenso einfallsreichen wie zutreffenden Titel „Frau“ hat einen rasend spannenden Artikel über eine neue Diät auf Halde, der in Kürze erscheinen soll. In der Redaktionskonferenz kommt die Frage auf, ob das Interesse an dem Thema „Diäten“ und „Abnehmen“ am geplanten Erscheinungstermin (November 2011) möglicherweise jahreszeitbedingt erhöht oder verringert sein könnte. Hier kann man interessanterweise ganz unterschiedliche Vorhersagen ableiten.

Die Gier-Hypothese:

Einige Redaktionsmitglieder vertreten die Ansicht, der Spätherbst sei sehr gut geeignet, weil in der dunklen Jahreszeit die Gier auf Kalorien ja zunehme und die Leserinnenschaft insofern besonders an Tipps interessiert sein müsse, wie man diese im Zaum halten könne. Aus diesem Grund sei das Thema im Novemberheft von “Frau” gut platziert. Headlines wie „Bleib schlank im Herbst“ oder „Der Diät-Workout für die Festtage!“ machen schon die Runde.

Die Verdrängungshypothese:

Eine zweite Fraktion meint, das genaue Gegenteil müsse der Fall sein: November, das sei doch die Zeit von Spekulatius, Stollen und anderer vorweihnachtlicher Leckereien! Da sei niemand ernstlich an einer Diät als Spaßbremse interessiert. Vielleicht könne man aber nach den Festtagen, wenn der erste Kontakt mit der Waage die Folgen der Völlerei unmissverständlich deutlich macht (und obendrein die Zeit der guten Vorsätze fürs nächste Jahr anbricht), ein gesteigertes Interesse am Thema Abnehmen und Diät verzeichnen. Der Beitrag müsse also in das Januarheft, ganz klar.

Eigentlich sind beide Hypothesen plausibel, oder? Ja. Möglicherweise heben sich die Effekt auch gegenseitig auf? Ohne weitere Daten lässt sich dies nicht klären, da kann nur das Machtwort der Chefredakteurin entscheiden. …ob die unfehlbar ist? Sie selbst wäre dieser Hypothese nicht abgeneigt, aber bevor sie nun die Trumpfkarte spielt, als mächtigste und am besten bezahlte Person in der Runde die Wahrheit definieren zu können, bringen wir unsere Suchmaschinen-Tools in Stellung.

Wie man Google Trends benutzt:

Mit „Google Trends“ können wir die im Raum stehende Frage nämlich klären. Hierzu bedarf es zweier Vorannahmen, dass nämlich (a) die Suche nach dem Begriff „diät“ auf Google in Zeitperioden mit einem hohen/geringen Interesse an Diäten zu/abnimmt, und (b) dass dieser Effekt so deutlich ist, dass er von der zweiten Bedeutung des Wortes (der “Diäten” von Abgeordneten) nicht übermäßig kontaminiert wird. Der Rest ist denkbar einfach: Man ruft die Seite http://trends.google.com auf und tippt das Suchwort, für das man sich interessiert, in das Eingabefeld. Auf der folgenden Seite kann man dann die Suche weiter eingrenzen, indem man eine Region und einen Zeitraum für die Abfrage spezifiziert. Sucht man nach der Häufigkeit des Wortes „diät“ im Google Search Volume für „Deutschland“ innerhalb der „letzten 12 Monate“ vor dem Erscheinungsdatum dieses Artikels (Juni 2011), erhält man folgende Grafik:

Kurve für den Verlauf der Suchhäufigkeiten für das Suchwort "diät" in Google Trends
Abbildung 1: Verlauf des Google Search Volume Index für den Begriff 
„diät“ in Deutschland von Juni 2010 – Juni 2011. Fällt Ihnen etwas auf?

Was können wir schlussfolgern?

Wenn die blaue Linie die Häufigkeit der Suchanfragen für „diät“ wiedergibt (was die Zahlen genau bedeuten, werden wir gleich noch sehen), scheint es um die Jahreswende einen bemerkenswerten Effekt zu geben. Ab Mitte November sinkt die Kurve deutlich ab, um genau nach Weihnachten schlagartig anzusteigen. Das entspricht auf den ersten Blick natürlich sehr deutlich der Verdrängungshypothese (s.o.). Und den optimalen Zeitpunkt für einen Artikel zum Abnehmen haben wir genau lokalisiert: Es ist der 1. Januar. Dort vermischen sich vermutlich die Schuldgefühle wegen der angefutterten Pfunde mit den guten Vorsätzen fürs neue Jahr. Also: Die Verdrängungshypothese hat gewonnen, die Chefredakteurin kann ihre Autorität und Erfahrung für sich behalten. Und wir haben nicht nur gesehen, wie man Google Trends als Messinstrument einsetzt, wir können auch einen Namen für einen Effekt aus der Taufe heben – ein Brauchtum, dem in der Wissenschaft immer wieder gerne nachgegangen wird. Also: wir haben Dr. Wirths “Jahresend-Diät-Zacke” gefunden!

Die Berechnung des “Search Volume Index”:

Bis jetzt habe ich eine Frage unterschlagen, die einigen meiner Leserinnen und Leser wahrscheinlich auf der Zunge liegt und/oder den Nägeln brennt: Was bedeuten eigentlich die Werte auf der y-Achse der Grafik, die mit „Search Volume Index“ überschrieben sind? Die einfachste Antwort ist zunächst – wie immer in solchen Fällen – die Formel, mit der die Werte bestimmt werden:

SVI für einen Tag = Mittlere Häufigkeit für einen Suchbegriff im angefragten Zeitraum / Häufigkeit am gegebenen Tag

Formel 1: der Search Volume Index als Formel (Erläuterungen im Text)

Zur Erklärung: Der SVI errechnet sich immer für einen bestimmten Tag relativ zu der vom Benutzer vorgegebenen Zeitperiode. Die mittlere Häufigkeit des Suchworts während dieses gesamten Zeitraums steht also im Nenner des Bruchs, im Zähler steht die beobachtete Häufigkeit an dem Tag, für den der Index gerade bestimmt wird. Klingt vielleicht etwas verwirrend, ist aber ganz einfach, wie man an einem Berechnungsbeispiel zeigen kann: Nehmen wir an, in den vergangenen 12 Monaten wurde das Wort „diät“ im Durchschnitt 500 mal am Tag gesucht, und am 1. Mai waren 50 Suchanfragen zu verzeichnen. Dann berechnet sich der Search Volume Index (SVI) für den 1. Mai folgendermaßen:

SVI = 50/500 = 0,1

Formel 2: Berechnungsbeispiel für den SVI (Erläuterungen im Text)

Man erkennt, dass es eine gewisse Verwandtschaft zwischen dem SVI und der Prozentrechnung gibt. Tatsächlich können die SVI-Werte durch eine einfache Multiplikation mit 100 in Prozente umgerechnet werden.

  • SVI = 0,5 besagt, dass das Wort an dem betreffenden Tag halb so oft (50%) gesucht wurde wie im Durchschnitt der angegebenen Periode,
  • SVI = 3,0 besagt, dass das Wort 3 mal so häufig (300%) gesucht wurde.
  • SVI = 1,2 besagt, dass die Häufigkeit der Suchanfragen für das Wort 20% erhöht (also 120%) war.
  • usw.

Ein SVI von beispielsweise 0,5 kommt also bei einem Verhältnis der Anfragen am Zieldatum zu Anfragen in der Periode von 2.000 : 1.000 oder 100 : 50 oder 40 : 20 oder gar 2 : 1 zustande.

Es geht hier also immer nur um die relative Verteilung der Anfragen in dem vorbestimmten Zeitraum. Die absolute Zahl der Suchanfragen lässt sich mit dem Search Volume Index nicht bestimmen! 

Linguistische Probleme (Pardon: Herausforderungen)

Das Problem bei der Verwendung des Search Volume Index ist natürlich, dass Wörter oder Zeichenketten mehrere Bedeutungen haben können. Gar nicht so selten gibt es z.B. für Wörter im Deutschen englische Zwillinge mit gleicher Schreibweise aber völlig unterschiedlicher Bedeutung. Das deutsche Wort „Fasten“ eignet sich für unsere kleine Studie zum Thema Abnehmen im Jahresverlauf beispielsweise nicht gut, weil man im Englischen „von Fasten Seatbelts“ spricht, wenn Sicherheitsgurte angelegt werden sollen. Diese Fälle würden also fälschlicherweise zu unserem Suchindex addiert. Eine Sprachwahl für die Suchbegriffe bietet die Benutzeroberfläche von Google Trends aber leider nicht an. Immerhin kann man aber die üblichen Google-Suchoperatoren verwenden, d.h. kann man durch Voranstellen eines Minus-Zeichens eine bekannte englische Bedeutung aus dem Suchstring ausschließen. Die Anfrage wäre dann: „fasten -seatbelts“.

Aber auch im Deutschen gibt es Wörter, die je nach Verwendungskontext bei gleicher Schreibweise in unterschiedlichen Bedeutungen verwendet werden. So ist es auch bei unserem Beispiel: Kann der Effekt in Abbildung 1 auf ein saisonales Interesse an „Abgeordneten-Diäten“ zurückgehen? Wir können das nicht direkt prüfen. Allerdings können wir in Google Trends ein zweites oder drittes, insgesamt bis zu 5 Suchwörter heranziehen und ihre relative Häufigkeiten im Zeitverlauf sichtbar machen. Um unsere Interpretation in Sachen Diät abzusichern, bietet sich als Vergleichsobjekt ein Wort an, das dem Begriff „diät“ ähnlich, aber sicher nicht auf Abgeordnetendiäten bezogen ist. Dies ist z.B. das Wort „abnehmen“. Die folgende Abbildung zeigt das Ergebnis einer vergleichenden Abfrage der Begriffe „diät“ und „abnehmen“, wiederum über die letzten 12 Monate, wiederum in Deutschland.

Der Verlauf für die Begriffe diät und abnehmen ist parallel

Abbildung 2: Häufigkeiten für Suchanfragen nach "diät" und "abnehmen" - fällt Ihnen etwas auf?

Gut. Nun wissen wir, dass es wirklich die Diäten im Sinn von Gewichtsreduzierung und nicht die Abgeordnetendiäten sind, welche die charakteristische Zacke am Jahreswechsel erzeugen. Anders wäre die auffällige Parallelität im Verlauf der Kurven nicht zu erklären. Wir können die Verdrängungshypothese also beibehalten. Und anscheinend ist der jahreszeitlich bedingte Wechsel von Unaufmerksamkeit (ab Mitte November) und erhöhter Aufmerksamkeit (etwa ab Weihnachten) für Themen rund um das Thema Gewichtsreduzierung bei dem Begriff „abnehmen“ sogar noch markanter.

Man erkennt an Abbildung 2 übrigens, dass der Begriff „abnehmen“ gemessen an der Häufigkeit des Begriffs „diät“ insgesamt um einen Faktor 1.64 häufiger ist (vgl. die Legende für die beiden Kurven). Auf 100 „diät“-Anfragen kommen also im Durchschnitt 164 „abnehmen“-Anfragen. Dies ist ein Grundprinzip der Google Trends Auswertung: Die durchschnittliche Zahl von Suchanfragen für die gewählte Zeitperiode wird für den ersten Begriff, den man eingibt = 1 gesetzt, und alle weiteren Werte und Kurven werden an dieser Norm gemessen.

Die relative Häufigkeit des Auftretens mehrerer unabhängiger Suchbegriffe über die Zeit kann also mit Hilfe des SVI verglichen und analysiert werden.

Spezielle Auswertungen

Die Schuldfrage

Wie verblüffend einfach und direkt sich mit mit dem SVI bestimmte Bedeutungszusammenhänge des alltäglichen Lebens darstellen lassen, zeigt die folgende Grafik. Sie setzt den Verläufe des SVI für die Begriffe „abnehmen“ und „gänsebraten“ zueinander in Beziehung.

Wenn Gänsebraten gesucht wird, werden keine diäten oder tipps zum Abnehmen gesucht

Abbildung 3: Verlauf der Suchanfragen für "abnehmen" und '"gänsebraten - fällt Ihnen etwas auf?

Man erkennt leicht: Das Interesse für Gänsebraten steigt ab Oktober allmählich in einem flachen Gradienten an (wo ist das beste Rezept….?), zeigt eine markante Zacke um die Weihnachtszeit und fällt dann ebenso rasch wieder unter ein messbares Niveau. Es verhält sich also exakt umgekehrt zum Interesse für „abnehmen“ – wen wundert‘s? Wer Rezepte für den Weihnachtsbraten recherchiert, hat eben nicht die richtige mentale Einstellung fürs Kampf-Fasten. Wenn die Reste verdaut sind, erwacht mit dem schlechten Gewissen das Interesse für Diäten erneut und die “Jahresend-Diät-Zacke” wird sichtbar.

Die Kulturfrage

Mit dem letzten Auswertungsbeispiel greife ich dem zweiten Artikel dieser Serie, in dem es in Kürze um “Google Insights for Search” gehen wird, etwas vor. Es ist jedoch noch einmal gut geeignet, die Daten, die man aus Google Trends gewinnen kann, zu “validieren”, sprich: ihre Gültigkeit als Messwert nachzuweisen. Hierzu folgende Überlegung: Wie mag das Interesse für Diäten und Abnehmen in Ländern entwickeln, die keine christlich-weihnachtliche Fresstradition haben? Also zum Beispiel in muslimischen oder buddhistischen Ländern? Hier dürfte es – nach allem, was mein gesunder Menschenverstand mir sagt ., keine Jahresenddiätenzacke geben. Das Phänomen ist rein logisch an das Vorhandensein eines hohen Feiertags mit Fressritual und Vorglühphase gebunden. Fehlt das Ritual, müsste das Interesse an Diäten einigermaßen konstant sein. Können wir das nachweisen…?

Der Test steht und fällt mit einem geeigneten Vergleichsfall. Wir brauchen hierfür ein Land, das folgende Bedingungen erfüllen muss:

  • Englisch muss Verkehrssprache sein, oder es ist mindestens mit einem signifikanten Anteil englischsprachiger Suchanfragen zu rechnen. Sofern Englisch nicht in Frage kommt ist alternativ leicht zu recherhieren, was “diät” in der Landessprache heißt.
  • Es sollten möglichst keine speziellen Zeichensätze zu installieren sein, um die Anfrage machen zu können (damit entfällt z.B. Japanisch, Arabisch und Chinesisch). Dies ist kein logisch zwingendes, sondern ein rein pragmatisches Argument.
  • Die Kultur muss in weiterem Sinn nicht-westlich geprägt, also einer anderen Weltreligion zugehörig oder (wie in den wenigen verbliebenen sozialistischen Ländern der Erde) “atheistisch” orientiert sein.

Nach einigen Recherchen und Versuchen habe ich mich für Indonesien als Region mit Englisch als Zweit-Sprache und einer eher asiatisch-chinesisch geprägten Kultur entschieden. Sicherlich gibt es auch Europäer in Indonesien, doch wenn die Hypothese stimmt, dass Google Trends die Denkwelten widerspiegelt, die in der Bevölkerung einer Region vorherrschend sind, dann sollte die Jahresenddiätenzacke hier entweder fehlen oder mindestens deutlich weniger prägnant ausgeprägt sein. Das Ergebnis der Abfrage “diet” für Indonesien in den vergangenen 12 Monaten zeigt die folgende Abbildung:

Sichtbar ist eine gleichmäßige Kurve um den Jahreswechsel

Abbildung 3: Verlauf des Interesses für "diet" in der Region Indonesien - fällt Ihnen etwas auf?

Man sieht: die Jahresend-Diät-Zacke ist kaum zu sehen, sie geht in den natürlichen Schwankungen der Zeitreihe unter. Also: Das Ergebnis spricht für die Validität des Search Volume Index als Indikator für das Interesse an einem Thema in einer Kultur, mindestens unter bestimmten Umständen.

Zwischenbilanz und Ausblick

Hat man das Prinzip des SVI einmal verstanden, gibt es eigentlich nur noch drei Dinge, die dem Einsatz dieses kleinen Spielzeugs Grenzen setzen:

  1. Das Erste ist natürlich wie immer die Phantasie des Benutzers: Welche Sucheingaben relevant? Welche sind interessant? Welche sind aussagefähig? Mit welchen kann man Einsichten in das Informationsverhalten des Publikums gewinnen? Welche sind trivial und zeigen, was wir ohnehin alle wissen? Welche können einen notwendigen Nachweis für eine allseits geteilte und geglaubte aber möglicherweise fehlgeleitete Überzeugung liefern?
  2. Das Zweite ist die sprachliche Präzision: Welche Begriffe kann man ausreichend eindeutig formulieren? Welches sind überhaupt die richtigen, trennscharfen Begriffe für ein Thema? Gibt es eventuell mehrere, gleichwertige Suchwörter für ein Thema? Welches ist dann zu wählen? In welchen Kulturen und Sprachen kann man sich überhaupt mit einiger Sicherheit bewegen?
  3. Das Dritte ist die Häufigkeit der Suchbegriffe: Diese spielt eine sehr direkte Rolle für die Verwendungsmöglichkeiten des Instruments. Google gibt hierzu keine genauen Informationen – soweit ich es recherchieren konnte – aber es gilt die Faustregel: Seltene Suchanfragen erzeugen leere Seiten und ein dummes Gesicht. Special Interest Recherchen sind also nicht möglich. Damit entfällt auch die Möglichkeit, kulturvergleichende Messungen in kleinen Regionen zu machen.

Trotz der Fragezeichen kann Google Trends interessante Zusatzinformationen für Forschungsfragestellungen liefern. Im nächsten Beitrag werde ich mich mit dem ähnlich arbeitenden aber deutlich vielseitigeren Tool “Google Insights for Search” beschäftigen und dessen Nutzen für die Messung von Markenimage und Reichweiten von Kommunikation genauer unter die Lupe nehmen. Dieses Tool ist im Unterschied zu Google Trends nur zu verwenden, wenn man ein Google Konto hat. Allerdings: wenn man in den sauren Apfel beißt und sich bei der größten Datenkrake der Welt vielleicht notfalls unter einem Pseudonym registriert und einloggt, hat man ungeahnte Möglichkeiten, das Suchverhalten der Internet-Gemeinde weltweit zu untersuchen.

Wabi-Sabi meets Apple Design

“Wabi-Sabi” ist ein Begriff aus dem traditionellen Japanischen (übrigens nicht zu verwechseln mit dem fast gleichnamigen Wasabi-Meerrettich), der eine bestimmte Eigenschaft von Objekten beschreibt, für die es – bezeichnenderweise – keine direkte Übersetzung im Deutschen gibt. Man könnte vielleicht sperrige Begriffe wie “Gebrauchsrobustheit” oder “Materialangemessenheit” erfinden, diese mit “Schönheit”, “Stil” und “Dauerhaftigkeit” vermischen, und hätte dann möglicherweise annähernd ausgedrückt, worum es geht. Aber gerade deshalb, weil es in westlichen Kulturen kein sprachliches Äquivalent zu Wabi-Sabi” gibt, ist der Begriff so interessant.

In der Wab-Sabi Philosophie der Gestaltung werden die Kunst, künstlerisches Handwerk, Qualität und Schönheit auf eine ganz eigene Art betrachtet. Ich möchte nun nicht die Illusion wecken, ich könnte diese in einigen Sätzen so erklären, dass ein japanischer Kalligraph, Töpfer oder Maler damit zufrieden wäre. Ein wichtiger Gedanke des Wabi Sabi ist mir jedoch sehr eingängig: Künstler, Gestalter, Designer (oder die jeweiligen -innen) sollten den späteren Gebrauch eines Objekts bei seinem Entwurf vorwegnehmen. Es soll also nicht nur berücksichtigt werden, wie etwas gut funktioniert. Genauso wichtig ist, wie Materialien altern, und ebenso, wo und wie sich Abnutzung auf Formen, Farben und Oberflächen auswirkt.

Eine gute Idee

Natürlich ist es sinnvoll, zu überlegen, welche Veränderungen mit einem Gegenstand vor sich gehen werden, der für lange Zeit in Gebrauch sein wird. Der Zustand der Neuheit ist ja buchstäblich nur ein Augenblick: kurz, sehr rasch vorüber und obendrein kaum wiederholbar. Die bei weitem überwiegende Mehrheit der Objekte, die uns in unserem Alltag umgeben, sind deshalb mehr oder weniger alt, mindestens Monate, zum Teil Jahre oder gar Jahrzehnte. Hierfür – für das Altern und Benutzt werden – sollten sie dann auch gedacht und gemacht werden. Eine Gestaltung im Geiste von Wabi-Sabi verschiebt ästhetische Idealvorstellungen Richtung auf asymmetrische, ungleichmäßige, organisch wirkende Formen, rauhe und gemaserte, unregelmäßige Oberlächen, denn diese widerstehen der Zeit am besten. Ein weiterer Gedanke, des Wabi Sabi: Dinge sollten möglichst NICHT PERFEKT sein. Makel, z.B. eine kleine Abweichung von der Idealform, eine Verfärbung, eine Narbe, Unregelmäßigkeiten in der Maserung usw. werden also nicht vermieden und im schlimmsten Fall als Ausschuss klassifiziert und entsorgt. Nein, sie werden ganz im Gegenteil regelrecht eingeplant – wobei man vielleicht richtiger sagen sollte, dass es sich um planvoll Ungeplantes handelt, denn jede systematisch, präzise ausgeführte Unregelmäßigkeit würde den Grundgedanken des Wabi Sabi ad absurdum führen. Dieser Ausschnitt eines alten Tisches verdeutlicht exemplarisch, wie eine Oberfläche aussieht, die dem Wabi-Sabi Prinzip folgt:

Holz ist ein Werkstoff, der - richtig eingesetzt und verarbeitet - in Schönheit altert
Wabi-Sabi Fundstück: Die Oberfläche meines Küchentischs

Gut und schön ist nur, was NEU ist?

Analysiert man nun unsere westliche Produktwelt etwas kritischer, erkennt man ohne viel Mühe, dass die einfachen und fast trivial anmutenden Forderungen nach Langlebigkeit und funktioneller Gestaltung im Sinn von Wabi-Sabi sehr oft ausdrücklich NICHT berücksichtigt werden. Ganz im Gegenteil: viele moderne Gegenstände und Produkte sind NUR im perfekten Neuzustand, möglicherweise sogar nur in ihrer Verpackung, wirklich “richtig schön”. Sobald die Zeit oder der Gebrauch die ersten Spuren hinterlassen, geht es rapide bergab. Das gilt für Spielzeuge, Möbel, Kleidung, Autos, Uhren, Schuhe, Computer, Elektrogeräte, Geschirr und und und. Anschaulichstes Beispiel ist vielleicht der allererste Kratzer im Lack eines neuen Autos, der bei der Besitzerin oder dem Besitzer in der Regel eine Mischung aus Erschrecken, Melancholie und Bestürzung auslöst – natürlich gepaart mit einer sich auf den Verursacher des vermaledeiten Kratzers gerichteten Wut. Meine Güte, das schöne Auto! Der redensartlich abblätternde Lack ist dann ja auch eine oft und gern gebrauchte abfällige Formulierung, die sich dieses eherne Gesetz unserer westlichen Zivilisation ganz direkt zunutze macht, eben: Gut und schön ist nur, was NEU ist!

Fetische der Digital Natives…

Man könnte hinzufügen: nicht nur neu, sondern auch makellos, ebenmäßig, symmetrisch, glatt, faltenlos, glänzend, spiegelnd, sauber… Und das ist natürlich irgendwie kompletter Unsinn, denn die Welt hat Makel, und deshalb ist mit makellosen Dingen nicht gut auszukommen. Die vielleicht extremsten Beispiele für diesen Wahn der Neuheit und Unversehrtheit, sind die Produkte der kalifornischen Firma Apple, die ja innerhalb der vergangenen Dekade den ersten Platz als eine Art kollektivneidauslösendes Statussymbol erobern und sich zu Ikonen des Designs, regelrechten Fetischen entwickeln konnten. Hiervon zeugt u.a. der der rennommierte „Red Dot Design Award“, den das Apple Design Team im Jahr 2002 gewinnen konnte. In der Tat: Sollte irgendeine Ausstellung in ferner Zukunft den gestalterischen Zeitgeist des beginnenden 21. Jahrhunderts anhand beispielhafter Exponate darstellen wollen, die Palette der “Mac”- und “i”-mit-Irgendwas-Produkte wäre mit Sicherheit vertreten.

…mit gewissen Schwächen

Eine solche Ausstellung wäre allerdings nur vollständig, wenn ergänzend zu den glattpolierten Primär-Fetischen auch die breite Palette der sekundären Schon- und Schutzhüllen sowie produktbezogenes Reparaturequipment und Prothesen gezeigt würden. Allesamt Dinge, die für sich genommen überhaupt keinen Sinn machen, die man sich aber fast notwendig kaufen muss, um zu verhindern, dass das eigentlich interessierende Objekt irgendwelchen schädlichen Umwelteinflüssen ausgesetzt wird. “Schädlich” ist dabei eigentlich alles, was in irgendeiner Form auf die Oberfläche des
Geräts einwirkt. Deshalb darf man beispielsweise auf gar keinen Fall iPods, iPhones oder iPads ungeschützt der feindseligen Atmophäre eines Rucksacks oder einer Tasche aussetzen! Die Oberfläche der Displays der iPod-Generationen, die sich um das Jahr 2005 anschickten, den Weltmarkt zu erobern, war derart empfindlich gegen Kratzer, dass sie bei ungeschützter Aufbewahrung ohne eine geeignete Hülle binnen Tagen völlig verschrammt und hässlich wurde. (Man kann entsprechende Blog- und Foren-Einträge ohne Mühe im Dutzend finden). Mittlerweile haben die Kunden gelernt, dass mindestens eine Schutzhülle (z.B. aus einem derart coolen Material wie “thermoplastischem Polyurethan”) zur notwendigen Standardbewaffnung jedes iPod-  oder sonstigen i-Dings-Trägers (bzw. -Trägerin) gehört.

Kundenerfahrung(en)

Meine eigenen Erfahrungen mit dem besonderen Charme der makellosen Produkte mit dem Apfel-Logo reichen zurück in die Zeit, als mir ich den ersten iPod (ein iPod Nano, silbern, mit 8 GB Speicher) anschaffte. Die wie ein Präzisionsspiegel polierte Rückseite dieses Gerätchens ertrug einfach keine Berührung. Jeder Kontakt mit menschlicher Haut bewirkte eine sofortige partielle Erblindung der Oberfläche, die beim Besitzer des Geräts (also mir) augenblicklich eine Hauch-, Fummel-, Reinigungs- und Polier-Attacke auslöste, die dann anhielt, bis das Ding wieder ebenso ordnungsgemäß wie makellos spiegelte. Der Kauf eines geeigneten Etuis, das die übereifrig glänzende Oberfläche gnädig mit ziemlich hässlichem aber unempfindlichem Kunstleder bedeckte, ließ nicht lange auf sich warten… Allerdings hat sich mir schon damals die Frage gestellt, wozu man eine solche Oberfläche überhaupt für ein Gehäuse verwendet, wenn sie so lebensuntüchtig ist, dass man sie ohnehin abdecken muss.

Hochglanzprodukte: Man beachte den garantiert verschmutzungsresistenten digitalen Spiegeleffekt. Quelle: amazon.de

Und ich bin und war beileibe nicht der einzige, der sich hier ärgerte. Wer sich ein wenig Zeit nimmt und recherchiert, findet im Web allenthalben und ohne Mühe Spuren des Kampfes der Kunden mit den hyperblanken, hochempfindlichen Oberflächen der Apple-Produkte. Ich empfehle Suchwortkombinationen wie „ipod kratzer display“ (155.000 Treffer bei Google).

Apokalypse in Schwarz

Der blanke Irrsinn tritt nun allerdings ein, wenn die schonenden, schützenden Hüllen ihrerseits so empfindlich gefertigt werden, dass man sie eigentlich mit Hüllen zweiter Ordnung verpacken müsste, um sich noch einigermaßen wohl fühlen zu können. Unübertroffen in dieser eigenartigen Disziplin ist die von der Firma Apple selbst als Zubehör für das iPad angebotene Original-Schutzhülle. Sie besteht nicht aus einem strapazierfähigen Material wie Leinen, Leder, Kunstleder (oder meinetwegen thermoplastischem Polyurethan), sondern aus einer moosgummiartigen Substanz, die – ganz konform mit der feschen Optik des eigentlichen Produkts – in samtigem Schwarz gehalten ist. Zu der Schutzhülle erhält der Kunde ein kleines schwarzes, sakral anmutendes Tüchlein, das sich anfühlt wie Rohseide. Haptik und Optik stimmen und passen ausgezeichnet zur Klavierlack-Anmutung des eigentlichen Geräts. Das Tüchlein dient der schonenden Politur des Touch-Screens des Geräts und ist angesichts dessen fingerabdruckkonservierender Empfindlichkeit wirklich praktisch. Eigenartig ist etwas anderes. Es fällt SOFORT auf, wenn man die Hülle ihrer Bestimmung gemäß in die Hände nimmt und zu benutzen beginnt. Das Material verzeiht nämlich keine Berührungen, und zwar ganz grundsätzlich nicht. Niemals und von Niemandem. Es ist auch nicht einfach blank zu wienern, wie das Objekt, zu denen Schonung und Schutz es eingesetzt wird, auch unser Schwarztüchlein versagt. Um meinen Leserinnen und Lesern einen Eindruck davon zu geben, wie sie sich verhält, habe ich die Hülle fotografiert und einen kleinen aber repräsentativen Ausschnitt der Oberfläche hier dargestellt.

Ein buchstäblicher Schmutzfänger: Die Oberfläche der Apple iPad Hülle

Ich möchte betonen, dass der abgebildete Zustand das Ergebnis einer normalen Benutzung des Geräts ist. Ich habe nichts beschönigt und nichts zusätzlich getan, um das Aussehen der Oberfläche zu verändern. Ich habe mich auch vor der Benutzung nicht im Staub gewälzt.

Das Bild kommentiert sich selbst.

Ursachenforschung

Wie konnte es dazu kommen, dass ein Gigant, eine Weltfirma wie Apple einen solchen rohrkrepierenden Autoimmundefekt von einer Hülle produziert und zu Tausenden verkauft? Warum leiden die Produktpaletten des Unternehmens nahezu vollständig unter diesen eigenartigen Empfindlichkeiten? Ich weiß es nicht mit Sicherheit zu sagen, kann aber einige Hypothesen beisteuern. Ich vermute, es ist letztlich eine Kombination dieser Faktoren:

  • Die erste: Es hat niemand etwas bemerkt. Die Produktmanager, Designer und Führungskräfte bei Apple Inc. einschließlich Steve Jobs sind nämlich allesamt Zwangsneurotiker, die sich durchschnittlich 132 mal am Tag die Hände waschen und regelmäßig durch Polieren glatter Oberflächen ihre Libido zum Qualmen bringen.
  • Die zweite: Man hat bei Apple Inc. irgendwann den Unterschied zwischen Screen- und Produktdesign komplett verlernt. Deshalb versucht man die stylish-fancy-glossy Oberflächen, polierte Icons und Buttons aus den hauseigenen User Interface Styleguides in der Realität nachzubilden – ohne einen Gedanken darauf zu verschwenden, ob das überhaupt Sinn macht und welche Folgen dies hat.
  • Die dritte: Man interessiert sich eigentlich gar nicht für langlebige Produkte, die ein Höchstmaß an Toleranz gegenüber jedem Umwelteinfluss erdulden und insbesondere ihre Benutzung klaglos hinnehmen. Stattdessen möchte man Produkte mit möglichst geringer Halbwertszeit herstellen, damit die Gier nach einem neuen, schönen makellosen, jungfräulichen Produkt möglichst rasch neu entfacht wird.
  • Die vierte: Apple fällt mit schöner Regelmäßigkeit und großem Selbstbewußtsein seiner Glossy-Shiny-Pseudo-Klavierlack-Ästhetik zum Opfer und versteht überhaupt nichts von der Philosphie des Wabi-sabi.

Mehr Informationen zum Thema

Ich selbst bin eher zufällig durch eine Randbemerkung einer Künstlerin auf den Begriff Wabi-sabi aufmerksam geworden. Die Sache hörte sich aber so interessant an, dass ich zu recherchieren begann. Die beste Quelle, die mir hierbei untergekommen ist, ist ein Büchlein mit dem Titel „Wabi-sabi für Künstler, Architekten und Designer: Japans Philosophie der Bescheidenheit“, herausgegeben von Mathias Dietz, erschienen im Wasmuth Verlag. zum Titel bei Amazon

Der Schweizer Fotograf Andreas Hurni hat auf seine Website einen schönen Text zu Wabi sabi geschrieben, der auch vom Unterschied westlicher Ästhetik und japanischer / Zen-Ästhetik behandelt. zum Artikel.

Der Fußball in Zeit und Raum

Datengestützte Analyse und Visualisierung von Fußballspielen ähneln Methoden im Usability-Engineering. Und: ein Videovergleich zwischen den Bildern der Livereportage und des datengenerierten Ballweges am Beispiel der Spielzüge, die zu 4.Tor im Spiel Deutschland – England führten.

.

Fußball-WM und Web-Analytics

Was ich in den vergangenen Wochen entdeckte, hängt mit der Fußball WM in diesen Tagen zusammen. Diese Entdeckungen ähneln in vielem den Grafiken, die im Usability-Engineering verwendet werden. So gibt es beispielsweise Heatmaps, die den Ballbesitz der Mannschaft auf dem Spielfeld visualisieren. Es gibt Gazeplots, die die Laufwege eines Spielers auf dem Spielfeld aggregieren. Es gibt Flashmovies, die den Weg des Balles über die gesamte Spielzeit in Realtime darstellen und dabei die einzelnen Spielsituationen kennzeichnen.

.

Grafiken und Visualisierungen in der Analyse von Fußballspielen ähneln sich nicht zufällig denen bei der Analyse von Websites und Applikationen. Denn hier wie dort fallen Daten an, die auf Validität zu prüfen sind, die typisches Verhalten analysieren lassen und aus denen Schlussfolgerungen für Strategien zur Optimierung gezogen werden können. Im Falle des Fußballspiels geht es um die Optimierung der eigenen Spieler und der eigenen Spieltaktik sowie um das Erkennen der Schwächen gegenerischer Spieler. Im Falle von Websites und Applikationen geht es um das Verhalten sowie die Absichten der Nutzer und die Optimierung von Inhalten, Layout, Navigations- und Interaktionsmechanismen.

.

Tracking von Spielen und Statistiken

In der Technology Review 6/2010 wird unter der bezeichnenden Headline auf dem Zeitschriftencover “Fussball – Siegen lernen mit Analysesystem” ein erster Überblick über den gegenwärtigen Stand des Trackings, der Datenanalyse, der Modellierung von Spielzuständen und der Simulation im Fußball gegeben. Ehrlich gesagt, war ich überrascht über die Tiefe und das Ausmaß, in dem Datamining, Statistiktools und Optimierungssimulationen in solch ein zutiefst körperliches und durch antrainierte Reflexe und Erfahrung geprägtes menschliches Tun wie das Fussballspielen eindringen können.

.

Die Standardmethode der Datenerhebung ist das automatisierte Tracking aller Spieler, des Balls und des Schiedsrichters auf dem Feld mittels Kamerabeobachtung und Mustererkennung . Einen illustrativen Überblick der Methodik bietet der Artikel “Cutting-edge sport statistics”. Die daraus entstehenden Daten müssen in der Regel manuell validiert werden und den Spielereignissen zugeordnet werden. Die genannte Illustration zeigt anschaulich, wie aus der Gesamtheit der Daten durch Extraktion die verschiedenen Leistungsaspekte eines einzelnen Spielers ermittelbar sind. Und damit kommt man von der unterhaltsamen Statistik eines abgelaufenen Spiels zur Analyse der Stärken und Schwächen einer Mannschaft, also der Optimierung zukünftiger Spiele. “In zwei bis fünf Jahren wird in allen halbwegs professionellen Ligen auf der Welt mit Tracking gearbeitet werden”, so ein Spieleanalyst eines Sportanalytik-Unternehmens. (TR 06/2010, S. 49)

.

Der Guardian hält einige Visualisierungen zum Spiel Deutschland gegen England bei der WM 2010 (27. Juni 2010) bereit: Beispielsweise die Passgenauigkeit der Spieler in tabellarischer Form.

.

“Boah, ist der schnell!”

Richtig viel gibt zu diesem Spiel die auf Flash basierende Applikation scoregrid her: Sie zeigt Ballbesitz in den einzelnen Feldzonen als flächig dargestellte Prozentwerte (“Possession”) und Heatmaps in Verbindung mit den Ereignissen Torschüsse, Freistöße, Karten.

.

Heatmap 2.Spielhälfte Deutschland - England mit Layer Torschüsse

Heatmap 2.Spielhälfte Deutschland - England mit Layer Torschüsse. © scoregrid.com

.

Diese Ereignisse sind als Sprechblasen mit animierten Icons visualisiert, die sich grafisch gut von der Ebene der Heatmap unterscheiden. Grafisch ebenfalls gelungen ist die Überblendung der Spielfelddarstellung mit den jeweiligen Detailinformationen.

Die Animationen der Icons sind allerdings überflüssig und nerven schnell, wissenschaftlich gesprochen: “erzeugen hohe kognitive Last beim User”.

Die animierten Sprechblasen stören insbesondere bei der ansonsten sehr gelungenen Darstellung des Spielablaufs (“Tracking”), bei der die Ballwege auf dem Feld fokussiert werden und diese als Spuren dargestellt werden. Spieler werden nicht dargestellt, lediglich welche Mannschaft gerade im Ballbesitz ist; ergänzt wird die Darstellung um die Spielereignisse. Ich finde dies eine abstrahierende Art, den Spielverlauf darzustellen, eine neue Art der Betrachtung, eine reduzierte, aber auch eine analytische Wahrnehmung.

.

Tracking des Balles: Der Weg zum vierten Tor. weisse Linie = Ballbesitz deutsche Mannschaft. © scoregrid.com

Tracking des Balles: Der Weg zum vierten Tor. weisse Linie = Ballbesitz deutsche Mannschaft. © scoregrid.com

.

Gelungene Details:

  • die nach und nach verblassenden Ballspuren
  • charmant: die rollende Bewegung des Balles
  • die interaktive Timeline mit den Markern der wichtigsten Spielereignissen (farbkodiert)

Das Layout ist sehr kompakt und für kleine Screens ausgelegt, daher sind manche Controls leider etwas fiepsig geraten.

.

“Müller!!… Mülleeeeer!!!!!!”

Mich hat interessiert, wie präzise diese Tracking-Darstellung bezüglich Raum und Zeit eigentlich ist. Ich habe daher die TV-Bilder der Spielzüge, die zum 4.Tor des deutschen Teams führten, neben die entsprechenden Sequenzen der Tracking-Darstellung gestellt.

.

.

Im simultanen Ablauf erkennt man bei der Tracking-Darstellung , dass einzelne Events zeitlich nicht präzise aufgelöst sind und verzögert / verfrüht dargestellt werden. Auch die räumliche Positionierung des Balles ist nicht ausreichend präzise bestimmt, wie beispielsweise die Position des ins Aus rollenden Balles zum Zeitpunkt 69:12 zeigt. In der Liveaufnahme rollt der Ball ca. 10 Meter näher Richtung Mittellinie über die Seitenlinie.

.

Ich vermute, dass die der Flash-Applikation zugrunde liegenden Daten nicht manuell nachbearbeitet sind, konnte dies aber nicht in Erfahrung bringen. Bei Nutzung von Transponder-Signalen würde sich der Ball dagegen mit 3 cm Genauigkeit durch das System lokalisieren lassen! Aber dagegen hat die FIFA einiges einzuwenden …

.

Schlussfolgerungen?

Was sind die Konsequenzen aus dem Gesehenen? Nun, vor allem die Bestätigung, dass die Empirie, im vorliegenden Fall also das Messen, Auswerten und Analysieren von realen Situationen, die Modellierung und Umsetzung von Ideen ein grosses Stück weiter bringen kann. Und das sogar bei Fußballspielen!

.

Was ich zusätzlich erkenne: Die nüchterne Abbildung des Ballweges auf einem abstrahierten Spielfeld ohne Ton, ohne echte Spieler reicht an den Erlebniswert der TV-Bilder mit Simultan-Kommentar, Umschnitten auf die verschiedenen Kameraperspektiven, Umgebungston überhaupt nicht heran. Es ist eine abstrahierte, rationale Wahrnehmungsebene für denjenigen, der analytisch betrachten muss. Aber für derjenigen, der das Erleben sucht und der “dabei sein” will, werden die bewährten Medien das Interessantere bleiben.

.

aithalides

Folgen

Erhalte jeden neuen Beitrag in deinen Posteingang.