IOException.de

Icon

Ausgewählter Nerdkram von Informatikstudenten der Uni Ulm

“Best Statistic Question Ever” – Oder: Scheinbare Widersprüche

Dieser Gastbeitrag wurde verfasst von Marcus Bombe:

Am Wochenende bin ich via Twitter auf folgende Fragestellung aus der Stochastik getroffen:

If you choose an answer to
this question at random,
what is the chance you will
be correct?
A) 25%
B) 50%
C) 60%
D) 25%

Quelle: http://flowingdata.com/2011/10/28/best-statistics-question-ever/

Die Frage hat einige Wellen geworfen und wurde in verschiedenen Medien ausführlich diskutiert. Alleine fast 500 Kommentare auf der Website, die die Frage veröffentlicht hat. Frei nach xkcds “Duty Calls” [ http://xkcd.com/386/ ] konnte ich natürlich nicht widerstehen und präsentiere hier meine Antwort auf die Frage und noch ein wenig Hintergrundwissen dazu. An dieser Stelle sollte sich der Leser jedoch zunächst die eigene Antwort überlegen.

Was fällt nach eingehender Betrachtung auf? Es gibt vier Antwortmöglichkeiten. Man kann nun annehmen, dass jede dieser Möglichkeiten mit der Wahrscheinlichkeit 1/4 gewählt wird. Der erste Gedanke wäre dann, dass 25% die korrekte Antwort ist. Nun ist die Antwortmöglichkeit “25%” jedoch doppelt vergeben, würde also mit 50%-iger Wahrscheinlichkeit gewählt. 50% könnte also die Antwort sein. 50% ist aber nur einmal als Antwort vertreten, sollte somit nur in 25% der Fälle gewählt werden. Aber halt, dann wäre ja auf einmal 25% die korrekte Antwort, aber die kommt ja doppelt vor, also mit 50%-iger Wahrscheinlichkeit… Scheinbar reiht sich diese Aufgabe in die Liste vieler bekannter und schöner Widersprüche ein. Sofort denkt man an klassiker wie: “Der nachfolgende Satz ist wahr. Der vorhergehende Satz ist falsch.” oder die Geschichte des Barbier von Sevilla: “Der Barbier von Sevilla rassiert genau jene Männer in Sevilla, die sich nicht selbst rassieren. Frage: Rassiert sich der Barbier selbst?”. Gerade diese Selbstbezogenheit im Beispiel mit dem Barbier haben wir scheinbar auch in dieser Frage.

Dem ist allerdings nicht so, denn es handelt sich bei der hier vorgestellten Aufgabe nicht um einen echten Widerspruch. Einerseits wurde auf flowingdata.com in den Kommentaren schon viel darüber diskutiert, dass es sich bei dem Fragetext eigentlich gar nicht um eine Multiple-Choice Frage handelt. Man stelle sich nur vor, die Antwortmöglichkeiten wären statt dessen etwa “A) 1%, B) 2%, C) 3% und D) 4%”. Dies sollte genauso erlaubt sein, wie dass man die im Original genannten Werte als Antwortmöglichkeiten unter die Frage schreibt. Man erkennt hier jedoch schon, dass die Einschränkung auf die Möglichkeiten A bis D künstlich erfolgt und offenbar auch etwas anderes als A bis D in Frage kommen könnte. Aber gut, da mögen sich nun die Geister scheiden. Der wesentliche Punkt folgt jedoch nun:

Die Aufgabenstellung hat jedoch noch eine größere Schwäche, die zudem sehr lehrreich ist und mich deshalb zu diesem Artikel motiviert hat. Nehmen wir also an, es gibt auf die Frage, wie impliziert, genau vier Antwortmöglichkeiten (25%, 50%, 60% und 25%). Mit anderen Worten, es handelt sich um ein Zufallsexperiment, bei dem eine Zufallsvariable, nennen wir sie X, die Werte A, B, C und D annehmen kann. Jeder kennt das beispielsweise beim Münzwurf, hier kann die zugehörige Zufallsvariable bei einem Wurf den Wert “Kopf” oder “Zahl” annehmen. Und hier sinds eben die Werte A, B, C und D. Nun ist allerdings in keinster Weise angegeben, wie die sogenannte Verteilung dieser Zufallsvariablen auszusehen hat. Nur weil X zufällig ist, bedeutet das nicht, dass jede Option wie oben in der ersten Betrachtung angenommen mit je Wahrscheinlichkeit 1/4 (=25%) daher kommt. Erst die Verteilung einer Zufallsvariable gibt an, wie hoch die Wahrscheinlichkeit für einen konkreten Wert ist. Bei der sogenannten “Gleichverteilung” wären es je 25% bei Vier möglichen Werten. Aber es kann auch jede andere Verteilung sein.

Beispiel: So könnte ich in einem weiteren Schritt erst einmal eine Zufallszahl Z gleichverteilt aus {1, 2, …, 10} wählen und festlegen, dass wenn Z = 1 ist, dann ist X = A. Mit anderen Worten: Wenn meine zufällig Zahl zwischen 1 und 10 gerade die 1 ist, dann wähle ich Antwort A in der Aufgabenstellung aus. Ist hingegen Z = 2, so soll X = B sein. Bei Z = 3 und Z = 4 wählen wir X = D und in allen anderen Fällen (Z = 5, … Z = 10) legen wir fest, dass X = C sein soll. Ist Z wie gefordert tatsächlich zufällig, so ist es X auch und wir haben, wie in der Aufgabenstellung gefordert, eine Antwort auf die Frage zufällig bestimmt. Nun können wir aber nachrechnen, wie hoch die Wahrscheinlichkeiten für die einzelnen Antworten sind: X = A und X = B wird in je einem Fall erreicht, also ist deren Wahrscheinlichkeit gerade 10%. X = D wird in zwei Fällen gewählt, nämlich wenn Z = 3 oder Z = 4 ist. Folglich geben wir mit 20%-iger Wahrscheinlichkeit D als Antwort an. In den restlichen sechs Fällen (Z = 5, …, Z = 10) wird X = C unsere Antwort sein. Dies tritt mit 60%-iger Wahrscheinlichkeit auf. Spannenderweise ist Antwort C gerade “60%”. Bei dieser eben erfundenen Verteilung von X gelingt es uns also sogar, die Aufgabenstellung zumindest teilweise zu beantworten in dem wir Antwort C nennen. Das löst noch nicht alle Probleme mit der Aufgabenstellung (insbesondere: Woran macht sich fest, dass C überhaupt die “korrekte” Antwort ist? Was passiert, wenn X != C ist?), aber wir haben den Knoten etwas gelöst.

Der geneigte Leser mag nun den Vorwurf äußern, dass die konstruierte Verteilung ja willkürlich gewählt sei. Das ist auch korrekt, es lassen sich ebenso leicht Verteilungen konstruieren, bei denen der Widerspruch in der Aufgabenstellung verschwindet, wenn A, B oder D die Antwort ist. Aber noch weiter: Es lässt sich auch eine Verteilung angeben, in der 25%, 50% und 60% nicht einmal als Wahrscheinlichkeiten von X auftreten. Für jede beliebige Wahrscheinlichkeit für die Antworten X = A, …, X = D, lässt sich eine Verteilung konstruieren, sofern die vier Wahrscheinlichkeiten in Summe 100% ergeben. Folglich fehlt der Aufgabenstellung eine relevante Angabe und die Aufgabenstellung bleibt somit sinnlos. Ich könnte ebenso gut fragen, was der kürzeste Weg zur nächsten Tankstelle sei und sogar Antworten beisteuer wie A) links-rechts-links, B) rechts, einmal duch den Kreisel und wieder rechts, u.s.w. und auch diese Frage ist sinnlos, wenn ich nicht dazu angebe, wo ich mich befinde oder wie die Strecke zurückzulegen sei.

Nun könnte man ja behaupten, dass es klar sei, dass die vier Antwortmöglichkeiten jeweils mit Wahrscheinlichkeit 1/4 (=25%) zu wählen seien, es sich also um eine Gleichverteilung handelt. Aber worauf soll diese Annahme beruhen? Es ist noch einsichtig, dass man mit guten Willen Gleichverteilung bei einem Würfel oder einer Münze annimmt, aber bei einer künstlich erstellten Frage? Einfach die Verteilung anzunehmen macht im Allgemeinen auch keinen Sinn. Beispiele hierzu: Morgen kann es in Ulm regnen oder es in Ulm nicht regnen, also sind das zwei Möglichkeiten. Daraus folgt aber keine Regenwahrscheinlichkeit von 50%. Weder für hier, noch einen anderen Ort auf der Welt (Sahara, Regenwald, …). Genauso kann ein Lottospieler mit einem Spiel (bei dem die sechs Kreuze auch zufällig gewählt werden) entweder sechs Richtige haben oder eben nicht und das ist zufall. Aber sicherlich hat man nicht 50% Chance auf den Millionenjackpot.

Somit ist für mich die Betrachtung der obigen Aufgabenstellung erledigt. In einem weiteren Artikel werde ich auf eine ähnliche, aber durchaus realistischere Fragestellung aus der Stochastik eingehen. die auch paradox wirkt.

Geeignete Links zum Einlesen/Weiterlesen:

Darüber hinaus hat Wikipedia auch einige tatsächliche spannende Widersprüche und Paradoxien zu liefern, die nicht wie diese Aufgabenstellung hier an unvollständigen Informationen kranken. Siehe hierzu

Kategorie: theoretische informatik

Tags: ,

Diese Icons verlinken auf Bookmark Dienste bei denen Nutzer neue Inhalte finden und mit anderen teilen können.
  • MisterWong
  • Y!GG
  • Webnews
  • Digg
  • del.icio.us
  • StumbleUpon
  • Reddit
  • Facebook

6 Kommentare

  1. [...] meinem vorherigen Artikel sprach ich viel über eine scheinbar widersprüchliche Aufgabenstellung aus der [...]

  2. Walldorf sagt:

    Vergesst was nach dem Buchstaben kommt und ersetzt den Prozentwert mit einer Katze. A ist eine schwarze Katze, B ist eine weiße Katze, C ist eine gelbe Katze und D eine schwarze Katze. Nun schaut euch die Frage noch mal an. Da es zwei schwarze Katzen gibt, eine weiße und eine gelbe ist die Chance die richtige Farbe zu wählen exakt 1/3.
    (1/4+1/4+2/4) /3 = 1/3
    Ist ne Trickfrage, die Prozentangaben sollen einen nur verwirren.

  3. Luca sagt:

    @Walldorf: Wenn die Antwort jedoch 1/3 bzw. 33.333_% wäre, dann wäre 25% falsch und somit 0%.

  4. Thorsten sagt:

    Also der letzte Beitrag sagt es doch schon! Denn …

    Es kann aufgrund des ganz zu Anfang gesagten keine der Auswahlmöglichkeiten A-D richtig sein. Das heißt aber, wenn man zufällig etwas auswählt, ist die Wahrscheinlichkeit 0%, das es richtig ist.

    Fertig!

  5. [...] Hier hat man sich darüber sehr viele Gedanken gemacht. Das Feld nennt sich übrigens Stochastik. Gefällt mir:Gefällt mir Lade… Dieser Beitrag wurde unter Sonstiges veröffentlicht. Setze ein Lesezeichen auf den Permalink. [...]

  6. water sagt:

    googlet Russel´s Paradox
    selbstreferenz und soooo wenn ja dann nein und wenn nein dann ja.

    btw.
    (1/4+1/4+2/4) /3 = 1/3
    das ist totaler blödsinn.

    damit streichst du die doppelten 25% einfach einmal weg, sodass sie nur noch einmal vorkommen. also halbierst du ihre wahrscheinlichkeit einfach so ^^

    naja wahrscheinlich geht das gelaber hier sowieso noch weiter. inet halt :P

Kommentar