IOException.de

Icon

Ausgewählter Nerdkram von Informatikstudenten der Uni Ulm

Verschätzte Wahrscheinlichkeiten

Dieser Gastbeitrag wurde verfasst von Marcus Bombe:

In meinem vorherigen Artikel sprach ich viel über eine scheinbar widersprüchliche Aufgabenstellung aus der Wahrscheinlichkeitsrechnung, die in Wahrheit nur nicht vollständig war. In diesem Artikel nun will ich die Problematik mit einem einigermaßen realistischen Beispiel unterfüttern.

Tom hatte einen tollen Urlaub in Absurdistan. Erst als er wieder in Frankfurt landet erhält er die schlimme Nachricht: In Absurdistan ist die absurdianische Grippe ausgebrochen! Es handelt sich hierbei um eine tödliche Infaktion, die eine lange Inkubationszeit hat und zu beginn keine sichtbaren oder spürbaren Symptome hat. Folglich muss nun jeder Tourist aus Absurdistan und den Nachbarländern getestet werden, also auch Tom. Ein Arzt nimmt ihm Blut ab und es wird ein Schnelltest durchgeführt. Dieser Schnelltest hat folgende Eigenschaften:

  • Der Test hat als Ergebnis entweder “Infiziert” oder “Nicht infiziert”
  • 99% aller Infizierten werden als solche erkannt (Fachbegriff: Sensitivität)
  • 99% aller Gesunden werden als solche erkannt ( Fachbegriff: Spezifität)

Zudem nehmen wir an, dass es sich hierbei um ein unabhängiges Zufallsexperiment handelt. Wird Blut von derselben Person nochmal getestet, so sind die Chancen wieder 99% korrekt zu 1% inkorrekt. Es ist also _nicht_ so, dass einmal falsch klassifiziertes Blut mit einer höheren Wahrscheinlichkeit wieder falsch klassifiziert werden würde. Aber zurück zu Tom, der sitzt im Warteraum des Arztes und wartet auf sein Ergebnis. Sorgen macht er sich eigentlich keine, weil ihm gehts gut und er hatte auch keinen Kontakt zu krank wirkenden Personen. Nach einer Stunde wird Tom zum Arztgespräch gebeten und zu seinem großen Unglück eröffnet ihm der Arzt, dass der Text positiv sei, er also laut dem Text infiziert sei. Aber kein Grund zur Sorge, machmal irre sich der Test, meinte der Arzt und nahm Tom nochmals Blut für einen zweiten Schnelltest ab. Wieder wartet Tom eine Stunde, diesmal fühlt sich die Zeit schon wesentlich länger an. Nach etwas mehr als einer Stunde wird er wieder zum Gespräch gebeten. Der Arzt bittet Tom, platz zu nehmen, denn er habe eine schlechte Nachricht. Auch der zweite Test ist positiv ausgefallen!

Frage: Wir große Sorgen sollte Tom sich nun machen? Wie wahrscheinlich ist es, dass Tom tatsächlich infiziert ist? Diese Frage sollte der Leser nun für sich selbst beantworten, bevor wir fortfahren. Ist es um die 99%? Oder eher um die 98%? Vielleicht sogar nur 95%? Was sagt das Bauchgefühl?

Alles falsch. Auch hier fehlt wieder eine notwendige Angabe. Mit der sogenannten Prävalenz bezeichnen Mediziner das Verhältnis zwischen der Anzahl der tatsächlich Kranken und der Anzahl aller Untersuchter. Und genau diese Werte fehlen uns. Also dichten wir sie unserer Geschichte hinzu: Die absurdianische Grippe ist glücklicherweise wenig infektiös und Absurdistan ist nicht dicht besiedelt, daher hat es nur 1 von 100.000 Touristen erwischt. Insgesamt wurden eine Million Touristen aus Absurdistan und den angrenzenden Ländern untersucht. Betrachten wir nun also die Abläufe des Tests für alle diese Menschen:

  • 1.000.000 Menschen teilen sich auf in 10 Erkrankte und 999.990 Gesunde.
  • Von den 10 Erkrankten wurden im ersten Test alle (genau genommen: 9,9) als erkrankt erkannt. Auch ein zweiter Test ändert daran nichts. Folglich sind nach zwei Test 10 tatsächlich kranke als Krank erkannt worden.
  • Von den 999.990 Gesunden werden im ersten Test 999.990 * 0,01 ~= 10.000 fälschlicherweise als krank erkannt. Der Rest darf gehen. Die 10.000 im ersten Test falsch erkannten werden nochmals getestet. Im zweiten Test werden 9.900 der 10.000 richtigerweise doch als Gesund erkannt, aber 10.000 * 0,01 = 100 Personen werden ein zweites mal fälschlicherweise als krank eingestuft.
  • Fazit: 110 nach zwei Tests als Krank erkannte, jedoch nur 10 tatsächlich erkrankte.

Wenn wir dies nun in einer Wahrscheinlichkeit ausdrücken wollen, so ist Tom nur mit 10/110 ~= 9%-iger Wahrscheinlichkeit infiziert. Glück für Tom.

Tatsächlich gibt es diese Problematik in der Praxis, Wikipedia rechnet dies am Beispiel von DNA-Tests durch. Der Artikel http://de.wikipedia.org/wiki/Pr%C3%A4valenzfehler gibt hierbei einen guten Einblick, wie belastend ein DNA-Test alleine ist. Angelehnt ist der Artikel an http://de.wikipedia.org/wiki/Sensitivit%C3%A4t#HIV_in_der_BRD sowie an einen Abschnitt aus dem Buch “Der Hund der Eier legt” [http://www.amazon.de/Hund-Eier-legt-Hans-Peter-Beck-Bornholdt/dp/3499611546], was ich nur wärmstens empfehlen kann.

“Best Statistic Question Ever” – Oder: Scheinbare Widersprüche

Dieser Gastbeitrag wurde verfasst von Marcus Bombe:

Am Wochenende bin ich via Twitter auf folgende Fragestellung aus der Stochastik getroffen:

If you choose an answer to
this question at random,
what is the chance you will
be correct?
A) 25%
B) 50%
C) 60%
D) 25%

Quelle: http://flowingdata.com/2011/10/28/best-statistics-question-ever/

Die Frage hat einige Wellen geworfen und wurde in verschiedenen Medien ausführlich diskutiert. Alleine fast 500 Kommentare auf der Website, die die Frage veröffentlicht hat. Frei nach xkcds “Duty Calls” [ http://xkcd.com/386/ ] konnte ich natürlich nicht widerstehen und präsentiere hier meine Antwort auf die Frage und noch ein wenig Hintergrundwissen dazu. An dieser Stelle sollte sich der Leser jedoch zunächst die eigene Antwort überlegen.

Was fällt nach eingehender Betrachtung auf? Es gibt vier Antwortmöglichkeiten. Man kann nun annehmen, dass jede dieser Möglichkeiten mit der Wahrscheinlichkeit 1/4 gewählt wird. Der erste Gedanke wäre dann, dass 25% die korrekte Antwort ist. Nun ist die Antwortmöglichkeit “25%” jedoch doppelt vergeben, würde also mit 50%-iger Wahrscheinlichkeit gewählt. 50% könnte also die Antwort sein. 50% ist aber nur einmal als Antwort vertreten, sollte somit nur in 25% der Fälle gewählt werden. Aber halt, dann wäre ja auf einmal 25% die korrekte Antwort, aber die kommt ja doppelt vor, also mit 50%-iger Wahrscheinlichkeit… Scheinbar reiht sich diese Aufgabe in die Liste vieler bekannter und schöner Widersprüche ein. Sofort denkt man an klassiker wie: “Der nachfolgende Satz ist wahr. Der vorhergehende Satz ist falsch.” oder die Geschichte des Barbier von Sevilla: “Der Barbier von Sevilla rassiert genau jene Männer in Sevilla, die sich nicht selbst rassieren. Frage: Rassiert sich der Barbier selbst?”. Gerade diese Selbstbezogenheit im Beispiel mit dem Barbier haben wir scheinbar auch in dieser Frage.

Dem ist allerdings nicht so, denn es handelt sich bei der hier vorgestellten Aufgabe nicht um einen echten Widerspruch. Einerseits wurde auf flowingdata.com in den Kommentaren schon viel darüber diskutiert, dass es sich bei dem Fragetext eigentlich gar nicht um eine Multiple-Choice Frage handelt. Man stelle sich nur vor, die Antwortmöglichkeiten wären statt dessen etwa “A) 1%, B) 2%, C) 3% und D) 4%”. Dies sollte genauso erlaubt sein, wie dass man die im Original genannten Werte als Antwortmöglichkeiten unter die Frage schreibt. Man erkennt hier jedoch schon, dass die Einschränkung auf die Möglichkeiten A bis D künstlich erfolgt und offenbar auch etwas anderes als A bis D in Frage kommen könnte. Aber gut, da mögen sich nun die Geister scheiden. Der wesentliche Punkt folgt jedoch nun:

Die Aufgabenstellung hat jedoch noch eine größere Schwäche, die zudem sehr lehrreich ist und mich deshalb zu diesem Artikel motiviert hat. Nehmen wir also an, es gibt auf die Frage, wie impliziert, genau vier Antwortmöglichkeiten (25%, 50%, 60% und 25%). Mit anderen Worten, es handelt sich um ein Zufallsexperiment, bei dem eine Zufallsvariable, nennen wir sie X, die Werte A, B, C und D annehmen kann. Jeder kennt das beispielsweise beim Münzwurf, hier kann die zugehörige Zufallsvariable bei einem Wurf den Wert “Kopf” oder “Zahl” annehmen. Und hier sinds eben die Werte A, B, C und D. Nun ist allerdings in keinster Weise angegeben, wie die sogenannte Verteilung dieser Zufallsvariablen auszusehen hat. Nur weil X zufällig ist, bedeutet das nicht, dass jede Option wie oben in der ersten Betrachtung angenommen mit je Wahrscheinlichkeit 1/4 (=25%) daher kommt. Erst die Verteilung einer Zufallsvariable gibt an, wie hoch die Wahrscheinlichkeit für einen konkreten Wert ist. Bei der sogenannten “Gleichverteilung” wären es je 25% bei Vier möglichen Werten. Aber es kann auch jede andere Verteilung sein.

Beispiel: So könnte ich in einem weiteren Schritt erst einmal eine Zufallszahl Z gleichverteilt aus {1, 2, …, 10} wählen und festlegen, dass wenn Z = 1 ist, dann ist X = A. Mit anderen Worten: Wenn meine zufällig Zahl zwischen 1 und 10 gerade die 1 ist, dann wähle ich Antwort A in der Aufgabenstellung aus. Ist hingegen Z = 2, so soll X = B sein. Bei Z = 3 und Z = 4 wählen wir X = D und in allen anderen Fällen (Z = 5, … Z = 10) legen wir fest, dass X = C sein soll. Ist Z wie gefordert tatsächlich zufällig, so ist es X auch und wir haben, wie in der Aufgabenstellung gefordert, eine Antwort auf die Frage zufällig bestimmt. Nun können wir aber nachrechnen, wie hoch die Wahrscheinlichkeiten für die einzelnen Antworten sind: X = A und X = B wird in je einem Fall erreicht, also ist deren Wahrscheinlichkeit gerade 10%. X = D wird in zwei Fällen gewählt, nämlich wenn Z = 3 oder Z = 4 ist. Folglich geben wir mit 20%-iger Wahrscheinlichkeit D als Antwort an. In den restlichen sechs Fällen (Z = 5, …, Z = 10) wird X = C unsere Antwort sein. Dies tritt mit 60%-iger Wahrscheinlichkeit auf. Spannenderweise ist Antwort C gerade “60%”. Bei dieser eben erfundenen Verteilung von X gelingt es uns also sogar, die Aufgabenstellung zumindest teilweise zu beantworten in dem wir Antwort C nennen. Das löst noch nicht alle Probleme mit der Aufgabenstellung (insbesondere: Woran macht sich fest, dass C überhaupt die “korrekte” Antwort ist? Was passiert, wenn X != C ist?), aber wir haben den Knoten etwas gelöst.

Der geneigte Leser mag nun den Vorwurf äußern, dass die konstruierte Verteilung ja willkürlich gewählt sei. Das ist auch korrekt, es lassen sich ebenso leicht Verteilungen konstruieren, bei denen der Widerspruch in der Aufgabenstellung verschwindet, wenn A, B oder D die Antwort ist. Aber noch weiter: Es lässt sich auch eine Verteilung angeben, in der 25%, 50% und 60% nicht einmal als Wahrscheinlichkeiten von X auftreten. Für jede beliebige Wahrscheinlichkeit für die Antworten X = A, …, X = D, lässt sich eine Verteilung konstruieren, sofern die vier Wahrscheinlichkeiten in Summe 100% ergeben. Folglich fehlt der Aufgabenstellung eine relevante Angabe und die Aufgabenstellung bleibt somit sinnlos. Ich könnte ebenso gut fragen, was der kürzeste Weg zur nächsten Tankstelle sei und sogar Antworten beisteuer wie A) links-rechts-links, B) rechts, einmal duch den Kreisel und wieder rechts, u.s.w. und auch diese Frage ist sinnlos, wenn ich nicht dazu angebe, wo ich mich befinde oder wie die Strecke zurückzulegen sei.

Nun könnte man ja behaupten, dass es klar sei, dass die vier Antwortmöglichkeiten jeweils mit Wahrscheinlichkeit 1/4 (=25%) zu wählen seien, es sich also um eine Gleichverteilung handelt. Aber worauf soll diese Annahme beruhen? Es ist noch einsichtig, dass man mit guten Willen Gleichverteilung bei einem Würfel oder einer Münze annimmt, aber bei einer künstlich erstellten Frage? Einfach die Verteilung anzunehmen macht im Allgemeinen auch keinen Sinn. Beispiele hierzu: Morgen kann es in Ulm regnen oder es in Ulm nicht regnen, also sind das zwei Möglichkeiten. Daraus folgt aber keine Regenwahrscheinlichkeit von 50%. Weder für hier, noch einen anderen Ort auf der Welt (Sahara, Regenwald, …). Genauso kann ein Lottospieler mit einem Spiel (bei dem die sechs Kreuze auch zufällig gewählt werden) entweder sechs Richtige haben oder eben nicht und das ist zufall. Aber sicherlich hat man nicht 50% Chance auf den Millionenjackpot.

Somit ist für mich die Betrachtung der obigen Aufgabenstellung erledigt. In einem weiteren Artikel werde ich auf eine ähnliche, aber durchaus realistischere Fragestellung aus der Stochastik eingehen. die auch paradox wirkt.

Geeignete Links zum Einlesen/Weiterlesen:

Darüber hinaus hat Wikipedia auch einige tatsächliche spannende Widersprüche und Paradoxien zu liefern, die nicht wie diese Aufgabenstellung hier an unvollständigen Informationen kranken. Siehe hierzu

ioexception.de

Benjamin Erb [] studiert seit 2006 Medieninformatik und interessiert sich insbesondere für Java, Web-Technologien, Ubiquitous Computing, Cloud Computing, verteilte Systeme und Informationsdesign.


Raimar Wagner studiert seit 2005 Informatik mit Anwendungsfach Medizin und interessiert sich für C++ stl, boost & Qt Programmierung, Scientific Visualization, Computer Vision und parallele Rechenkonzepte.


David Langer studiert seit 2006 Medieninformatik und interessiert sich für Web-Entwicklung, jQuery, Business Process Management und Java.


Sebastian Schimmel studiert seit 2006 Informatik mit Anwendungsfach Medizin und interessiert sich für hardwarenahe Aspekte, Robotik, webOs, C/C++ und UNIX/Linux.


Timo Müller studiert seit 2006 Medieninformatik. Er interessiert sich allen voran für Mobile and Ubiquitous Computing, systemnahe Enwticklung und verteilte Systeme, sowie Computer Vision.


Achim Strauß studiert seit 2006 Medieninformatik. Seine Interessen liegen in Themen der Mensch-Computer Interaktion sowie Webentwicklung und UNIX/Linux.


Tobias Schlecht studiert seit 2006 Medieninformatik und interessiert sich vor allem für Software Engineering, Model Driven Architecture, Requirements Engineering, Usability Engineering, Web-Technologien, UML2 und Java.


Fabian Groh studiert seit 2006 Medieninformatik. Seine Interessengebiete sind Computer Graphics, Computer Vision, Computational Photography sowie Ubiquitos Computing.


Matthias Matousek studiert seit 2007 Medieninformatik und interessiert sich besonders für Skriptsprachen, Echtzeitsysteme und Kommunikation.


Michael Müller [] studiert seit 2009 Medieninformatik. Er interessiert sich vor allem für Web-Technologien, Ubiquitous Computing, User-Interfaces, UNIX und Creative Coding.


Falco Nogatz [] studiert seit 2010 Informatik mit Anwendungsfach Mathematik. Er interessiert sich für Web-Technologien, Programmierparadigmen und theoretische Grundlagen.

Archiv

Februar 2015
M D M D F S S
« Mrz    
 1
2345678
9101112131415
16171819202122
232425262728