Was ist für einen Nicht-Experten der Unterschied zwischen Bayes'schen und frequentistischen Ansätzen?


Antwort 1:

F: Wie viele Frequentisten braucht man, um eine Glühbirne zu wechseln? A: Nun, es gibt verschiedene vertretbare Antworten ...

F: Wie viele Bayesianer braucht man, um eine Glühbirne zu wechseln? A: Es hängt alles von Ihrem Vorgänger ab!

Erzähler: Sei p eine unbekannte Wahrscheinlichkeitsverteilung. Ein Schätzer ist eine Funktion, die versucht, eine Frage zu p zu beantworten, wenn ein Datensatz aus p entnommen wurde.

In der Statistik geht es hauptsächlich um das Design und die Analyse von Schätzern ...

Freddy the Frequentist: Hier ist ein Schätzer, den ich gerade erfunden habe! Und ich kann beweisen, dass mein Schätzer für jedes p in dieser Verteilungsfamilie "gut funktioniert".

Erzähler: Bitte erklären Sie unserem Publikum "funktioniert gut". Sie können Ihre Hände winken.

Freddy (winkende Hände): Egal was p ist, mein Schätzer gibt im Allgemeinen ziemlich genaue Antworten auf Datensätze, die aus p entnommen wurden. Natürlich wird es gelegentlich bei nicht repräsentativen Datensätzen fehlschlagen, aber Pech lässt sich nicht vermeiden.

Basia die Bayesianerin: Herzlichen Glückwunsch! Ist es optimal bei "gut arbeiten"? Ich will immer optimal.

Freddy: Oh, es gibt keinen besten Schätzer für dieses Problem. Aber zumindest kann ich beweisen, dass meine "zulässig" ist. Das heißt, ein anderer Schätzer könnte meinen Schätzer für einige p schlagen, aber nicht für alle p.

Basia: Okay ... wie steht es dann mit den Verteilungen p, die Sie in der Praxis erwarten? Ist Ihr Schätzer für diese besonders gut geeignet?

Freddy: Wer weiß, was p in der Praxis entstehen wird?

Basia: Anscheinend schon. Sie haben bereits angenommen, dass p aus einer bestimmten Familie stammt. Wenn dies nicht der Fall ist, hat Ihr Schätzer keine Garantien.

Freddy: Ok, du hast mich erwischt. Aber meine Annahme ist ziemlich mild. Menschen haben oft gute Gründe [z. B. den zentralen Grenzwertsatz] zu glauben, dass ihre datengenerierende Verteilung mehr oder weniger von meiner Familie stammt. Ich möchte, dass mein Schätzer gut funktioniert, solange p in dieser Familie ist.

Basia: Aber Sie erhalten Ihren aktuellen Datensatz von Wissenschaftlern. Werden sie nicht eine spezifischere wissenschaftliche Vermutung darüber haben, was p wahrscheinlich ist? Dann könnten Sie bessere Ergebnisse erzielen, wenn Sie dies berücksichtigen.

Freddy: Das klingt verdächtig. Die Wissenschaftler wollen objektive Schlussfolgerungen, keine Schlussfolgerungen, die ihre bestehenden Annahmen widerspiegeln.

Basia: Ziel? Anthropologen und Journalisten sagen, dass es keinen objektiven Standpunkt gibt: Wie in der Physik bringen Sie immer Ihren eigenen Bezugsrahmen mit. Das Beste, was Daten für Sie tun können, ist, Ihre bestehenden Überzeugungen zu aktualisieren. Hast du im Philosophieunterricht nicht aufgepasst? Die Skeptiker sagen uns, dass es keine Möglichkeit gibt, etwas sicher zu wissen. Die Existentialisten sagen uns, dass Sie Ihren freien Willen nicht so sehr aufgeben können, wie Sie möchten. Sie können versuchen, diese Verantwortung zu umgehen, indem Sie ein Prinzip wie Gesetz oder Loyalität oder Religion - oder Frequentismus! - übernehmen, aber das ist nur ein indirekter Weg, um Ihre Entscheidungen zu treffen.

Freddy: Bla bla bla. Statistik ist Mathematik, keine Philosophie.

Basia: Statistik ist angewandte Erkenntnistheorie. Sie und ich setzen ein altes philosophisches Gespräch fort: Wie können wir aus Daten etwas richtig schließen? Ja, mit unseren modernen mathematischen Werkzeugen können wir rigoros präzise Schlussfolgerungen ziehen, aber nur, wenn wir Annahmen getroffen haben. Sogar Mathematiker müssen einige Axiome annehmen. Wenn wir mit Daten umgehen, müssen wir auch Annahmen darüber treffen, woher die Daten stammen. Keine Annahmen, keine Schlussfolgerungen. Das Leben ist so beschissen.

Freddy: Aber ich habe schon eine milde Annahme gemacht und einen guten Schätzer erfunden! All dein defätistisches Gerede gibt mir kein besseres.

Basia: Nein, ich werde Ihnen keinen Schätzer geben. Ich gebe Ihnen eine Möglichkeit, automatisch einen besseren Schätzer abzuleiten, indem Sie mehr Annahmen treffen. Ihre wird garantiert für alle p in der Familie ziemlich gut funktionieren, aber meine wird für typische p besser funktionieren.

Freddy: Typisch? Ich mache eine Worst-Case-Analyse. Sie möchten eine Durchschnittsfallanalyse durchführen. Was ist also der Durchschnittsfall? Soll ich über alle p gleich mitteln?

Basia: Schreiben Sie einfach Ihre vorherige Verteilung auf p auf, die Ihre wahren Überzeugungen - vor dem Experiment - darüber widerspiegelt, wo p fallen könnte. Wenn Sie sich wirklich nicht sicher sind, sollte Ihr Prior "flach" sein und alle p mehr oder weniger gleich behandeln.

Freddy: Und wenn ich die vorherige Verteilung aufgeschrieben habe ...?

Basia: Dann fällt der Bayes'sche Schätzer einfach raus! Es gibt nichts mehr zu entwerfen. Bei einem gegebenen Datensatz gewichtet der Bayes'sche Schätzer Ihren vorherigen Glauben an jede Hypothese p entsprechend der Wahrscheinlichkeit dieser Hypothese, den Datensatz zu generieren, neu. Wenn Sie eine Verlustfunktion haben, fallen optimale Entscheidungen aus den neuen Überzeugungen heraus, wiederum ohne weiteres Design, dank der Bayes'schen Entscheidungstheorie.

Freddy: "Optimale" Entscheidungen ... wenn Sie dem Prior glauben.

Basia: Hey, du hast zugegeben, dass du keine prinzipielle Möglichkeit hast, unter zulässigen Schätzern zu wählen. Unterschiedliche Schätzer machen auch unterschiedliche Vorhersagen.

Ich muss meinen Prior angeben. Ich habe keine prinzipielle Möglichkeit, zwischen verschiedenen Prioritäten zu wählen. Ich sollte nur einen vorherigen Glauben haben. Aber zumindest bin ich explizit darüber! Wer also meine Zeitung liest, kann genau sehen, was zu meinen Schlussfolgerungen geführt hat. Ich bin nicht mit verschiedenen Schätzern unterwegs. Mein Schätzer besteht darauf, alle Daten zu verwenden. Nach den Bayes'schen Prinzipien führen die Daten und der Vorgänger unaufhaltsam zu den Schlussfolgerungen.

Natürlich können meine Leser mit mir darüber streiten, ob mein Prior den aktuellen Stand der wissenschaftlichen Erkenntnisse darstellt. Wir können testen, wie sich unterschiedliche Prioritäten auf die Schlussfolgerungen auswirken würden.

Erzähler: Vielen Dank für eine anregende Diskussion! Das wird sehr tl; dr. Das Publikum kann nun frei gehen.

Freddy: Ich sehe, dass Sie wirklich jeden Wertverlust aus den Daten herausholen wollen. Aber warum sollte man versuchen, den One True Estimator zu definieren? Meins ist gut genug. Ich kann die Verzerrung und Varianz meines Schätzers als Funktion der Datensatzgröße begrenzen, um Ihnen zu beweisen, dass große Fehler für praktische Datensätze nicht sehr wahrscheinlich sind.

In der Praxis ist mein Schätzer auch leicht zu berechnen. Genau so bin ich darauf gekommen: Ich habe ein einfaches vernünftiges Verfahren vermutet und dann bewiesen, dass es gute Eigenschaften hat. Ihr Bayes'scher Schätzer war einfach genug, um ihn mathematisch aufzuschreiben, aber vielleicht ist es die Hölle auf Rädern zu berechnen, was es auch schwierig macht, ihn zu analysieren.

Basia: Das ist fair. Tatsächlich habe ich normalerweise keine praktische Möglichkeit, es genau zu berechnen. Ich muss einen randomisierten Algorithmus oder eine Variationsnäherung entwerfen. Meine praktischen Schlussfolgerungen ergeben sich also nicht unaufhaltsam aus den Daten und den vorherigen. Sie sind auch von der rechnerischen Approximation betroffen.

Aber vielleicht sollte es rechenintensiv sein, aus Daten genaue Schlussfolgerungen zu ziehen. Wissenschaftliches Denken ist ziemlich involviert, wenn Menschen es tun. Wissenschaftliche Prozesse sind kompliziert, was zu komplexen Modellfamilien führt. Wissenschaftliche Experimente liefern heterogene, verrauschte und unvollständige Daten.

Der Bayes'sche Ansatz bewältigt all diese Komplexität nahtlos. Sobald Sie Ihr Modell entworfen haben, besteht der Bayesianismus aus einem einzigen einfachen statistischen Prinzip, das in der Praxis durch eine Bibliothek von Computertricks unterstützt wird.

Freddy: Ich gebe Ihnen zu, dass in diesen ausgefallenen Situationen häufig auftretende Schätzer auch rechenintensiv werden würden. Ich gebe auch zu, dass es für mich schwierig sein würde, einen Schätzer für eine solche Situation (geschweige denn für viele verwandte Situationen) zu entwickeln, die nachweislich gute frequentistische Eigenschaften hatte.

Ich würde wahrscheinlich auf einen Maximum-Likelihood-Schätzer zurückgreifen. Das ist wie eine reduzierte Version Ihres Bayes'schen Schätzers, daher ist die Berechnung mindestens genauso einfach. Und es braucht keinen Prior.

Basia: Ich bin nicht verrückt nach maximaler Wahrscheinlichkeit. Die vorherigen Informationen werden ignoriert. Und es gibt nur eine dumme Punktschätzung, anstatt die posteriore Unsicherheit darzustellen. Dies führt zu schlechteren Entscheidungen.

Freddy: Vielleicht füge ich einen Regularisierer hinzu. Unabhängig davon nimmt der Effekt Ihres Vorgängers mit zunehmendem Datensatz ab, ebenso wie Ihre posteriore Unsicherheit. Zumindest werden wir uns in der Grenze der unendlichen Daten einig sein. Und an diesem Punkt werden wir auch der Wahrheit zustimmen: Ich bin auch nicht verrückt nach der Schätzung der maximalen Wahrscheinlichkeit, aber zumindest ist sie konsistent.

Erzähler: Ok dann! Schön, Sie in Übereinstimmung zu sehen.

Freddy: Tschüss, nicht fachkundiges Publikum! Ich hoffe, du hattest Spaß. Sie können uns auf Ihrem Weg nach draußen positiv bewerten.

Aber Basia, zwischen uns beiden, teile ich immer noch nicht Ihre philosophische Haltung zu dem, was wir von einem Schätzer wollen. Lassen Sie uns die Fantasie der unendlichen Daten fallen. Wir haben endliche Daten, daher möchten wir, dass das Risiko des Schätzers in Abhängigkeit von der Größe des Datensatzes schnell abnimmt. Wenn ich einen Schätzer für ein kompliziertes Modell in Betracht ziehen würde, würde ich versuchen zu beweisen, dass dies für jede Verteilung in der Familie der Fall ist. Das würde keine vorherige erfordern.

Basia: Aber was meinst du mit "irgendeiner Verteilung in der Familie"? Ist das bei komplizierten Modellen überhaupt ein natürliches Konzept? Lassen Sie mich ein grundlegendes hierarchisches Bayes'sches Modell skizzieren:

  1. Zeichnen Sie einige Hyperparameter aus den vorherigen Verteilungsentwurfsparametern aus Verteilungen, die von den Hyperparametern gesteuert werden. Zeichnen Sie Daten aus Verteilungen, die von den Parametern gesteuert werden

Was ist die Familie hier?

Freddy: Hier würde ich die Hyperparameter und die Parameter unterschiedlich behandeln. Ich bin bereit anzunehmen, dass p Ihre hierarchische Form hat: Wie Sie zuvor betont haben, akzeptiere ich harte Einschränkungen für p. Ich werfe nur Ihren Prior über die Hyperparameter hinweg, was eine weiche Einschränkung für p ist. Jede Einstellung der Hyperparameter ist eine andere Verteilung p, daher möchte ich eine häufig verwendete Methode entwerfen, die für jede solche Einstellung gut funktioniert.

Basia: Aber Sie haben die Verteilungen, die die Parameter generieren, nicht weggeworfen.

Freddy: Richtig. Daher muss ich diese Parameter in Schritt 2 als nicht beobachtete Daten betrachten, die vom Modell auf dem Weg zu Schritt 3 generiert werden. Sie sind "störende" Variablen. Wenn ich also über zufällige Datensätze mittle, analysiere ich auch die Parameter im Durchschnitt. Da ich jedoch zu zeigen versuche, dass diese Analyse für jede Verteilung gut geeignet ist, mache ich eine Worst-Case-Analyse der Hyperparameter.

Basia: Was ist deine Motivation, diese beiden Ebenen so unterschiedlich zu behandeln?

Freddy: Oh, ich unterscheide immer zwei Ebenen. Es gibt einige Verteilungen. Für jede Distribution im Set möchte ich im Durchschnitt gut abschneiden.

Basia: Sie betrachten dieses dreistufige hierarchische Modell und sehen eine Reihe von Verteilungen über Verteilungen. Durch die Verwendung eines Prior über den Hyperparametern verwandle ich dies in eine Verteilung über Verteilungen über Verteilungen. Oder gleichwertig eine große Verteilung. Ich analysiere also im Durchschnitt nur alles. Ich verstehe nicht, warum Sie eine spezielle Linie zwischen den Ebenen 1. und 2. meines Modells ziehen würden.

Freddy: Aber ich muss es dort nicht zeichnen. Ich kann es überall zeichnen, wo ich will. Sie möchten die Worst-Case-Analyse insgesamt verwerfen. Aber ich kann Worst-Case- und Average-Case-Analysen auf unterschiedliche Weise mischen.

Wenn ich die Linie über Stufe 1 ziehe, ist alles ein Durchschnittsfall und meine Analyse ist nicht von der eines Bayesianers zu unterscheiden. In diesem Fall enthält die Familie nur eine Verteilung p, die die Hyperparameter, Parameter und Daten generiert. Mein Schätzer schätzt also nicht die Eigenschaften von p, was bekannt ist. Es werden Werte der Störgrößen unter p und dem beobachteten Datensatz unterstellt.

Und hier hängt das Risiko meines Schätzers nicht mehr von der Wahl von p ab. Es ist ein Durchschnitt über alles, einschließlich der Hyperparameter.

Basia: Gut! Das ist es, was ich immer minimiere. Mein Schätzer ist explizit definiert, um das Bayes-Risiko zu minimieren, dh den erwarteten Verlust der Vorhersage gemäß dem Posterior, der den Datensatz angibt. Da mein Schätzer das Bayes-Risiko für jeden angegebenen Datensatz minimiert, minimiert er auch das häufig auftretende Risiko, von dem Sie sprechen, das zusätzlich über alle möglichen Datensätze gemittelt wird.

Freddy: Ja, Ihr Schätzer scheint eine ideale Lösung zu sein, wenn ich die Linie über Ebene 1 ziehe und Ihren Prior als Teil des Modells selbst akzeptiere. Aber das ist ein einziges, eher schwaches Ergebnis. Indem ich mich entscheide, die Linie an anderen Stellen zu ziehen, kann ich auch zusätzliche Theoreme über Schätzer formulieren. Theoreme, die ∀-Symbole enthalten, weil sie Worst-Case-Analysen durchführen.

Basia: Dieses "schwache Ergebnis" ist alles, was ich jemals in der Praxis brauche. Ihre zusätzlichen Sätze sind wahr genug, aber wie helfen sie Ihnen?

Freddy: Nun, ich fühle mich wohler, wenn ich den Wissenschaftlern einen Schätzer empfehle. Ich kann ihnen sagen, welche bekannten Eigenschaften es hat, einschließlich verschiedener Arten von Worst-Case-Eigenschaften.

Basia: Aber ein anderer Frequentist könnte genauso gut einen anderen Schätzer empfehlen, der ebenfalls gute Eigenschaften hat, aber andere Vorhersagen trifft.

Ihre Sätze sind nur Gesprächsthemen; sie verwirren das Thema. Ich brauche keine Theoreme, um eine Empfehlung abzugeben. Meine Bayes'sche Empfehlung lautet, den Schätzer direkt aus Ihren wissenschaftlichen Annahmen und technischen Zielen abzuleiten. Ich werde den Wissenschaftlern immer sagen, dass sie eine verallgemeinerte Bayes-Regel anwenden sollen: Wenn sie ihrem Modell tatsächlich und früher vertrauen, ist die beste Vorhersage aus den Daten diejenige, die das Bayes-Risiko minimiert.

Freddy: Ich denke, Sie stützen sich tatsächlich auf den vollständigen Klassensatz. Was Sie fühlen, löst alle Statistiken. Was machst du dann den ganzen Tag? Muss ein bequemer Job sein.

Basia: Nun, ich helfe den Wissenschaftlern, ihre Modell-, Prior- und Verlustfunktion zu formalisieren. Das erfordert keine neuen statistischen Theoreme - aber es gibt noch viel zu tun. Möglicherweise muss ich neue Wahrscheinlichkeitsverteilungen entwerfen und analysieren. Ich entwerfe und analysiere auch Algorithmen, um den Wissenschaftlern zu helfen, die beste Vorhersage zu berechnen.

Freddy: Sie verdienen es zu wissen, ob diese "beste Vorhersage" etwas Gutes sein wird. Vielleicht sollte ich Ihren Bayes'schen Schätzer häufig analysieren.

Basia: Warum sich die Mühe machen? Ich würde sie nur auf das Bayes-Risiko ihrer tatsächlichen Vorhersage aufmerksam machen. Diese Nummer ist eine sehr nützliche Information, da sie von ihrem tatsächlichen Datensatz abhängt.

Ihre frequentistische Analyse würde Verteilungen p, die durch ihren tatsächlichen Datensatz ausgeschlossen sind, ebenso viel Aufmerksamkeit schenken. Wen interessiert es, auf diesen gut abzuschneiden? Besonders wenn "gut machen" durchschnittliche Leistung über viele fiktive Datensätze bedeutet. Die sind irrelevant.

Freddy: Aber was ist, wenn die Wissenschaftler noch keinen "tatsächlichen Datensatz" haben? Sie werden viele Datensätze analysieren. Sie müssen im Voraus einige Entscheidungen treffen. Erstens sollten sie Ihre Statistiksoftware übernehmen? Zweitens, wie viele Daten sollten sie sammeln?

Dies sind in der Tat Fragen, wie gut Ihre Software - oder meine - mit dem durchschnittlichen Datensatz der Größe n für einen Bereich von Distributionen p abschneidet. Auf jeder Software-Box sollte ein Aufkleber mit Nährwertangaben mit Antworten auf diese Fragen angebracht sein.

Basia: Ok, aber dieser Aufkleber muss sich nicht auf den schlimmsten Fall konzentrieren. Die Wissenschaftler haben einen Prior über p. Meine Software konsultiert den Prior und Ihre nicht. In jedem Fall möchten die Wissenschaftler wissen, wie gut die Software mit Distributionen funktioniert, die aus ihren vorherigen ausgewählt wurden. Ich könnte das für sie abschätzen, indem ich Verteilungen und Datensätze von ihrem Vorgänger beprobe.

Freddy: Im Prinzip könntest du. In der Praxis möchten Sie den Aufkleber möglicherweise veröffentlichen, bevor Sie wissen, wer die Software verwenden wird. Frequentistische Theoreme sind auf diese Weise nett und tragbar - genau wie Nährwertkennzeichnungen zielen sie darauf ab, vielen verschiedenen Benutzern zu helfen, die möglicherweise unterschiedliche Prioritäten haben.

Wir können einen häufig vorkommenden Schätzer formulieren, ohne den vorherigen Benutzer zu kennen. Und wir können das Worst-Case-Risiko veröffentlichen, ohne den vorherigen Benutzer zu kennen. Der Benutzer weiß, dass das Worst-Case-Risiko mindestens eine Obergrenze seines Durchschnittsrisikos darstellt, unabhängig davon, wie er den Durchschnitt bevorzugt.

Basia: Ich denke, Ihr Einwand ist wieder auf Rechenprobleme zurückzuführen! Sie möchten allgemeine Schätzer entwickeln und allgemeine Theoreme beweisen ... um zu vermeiden, dass bestimmte Berechnungen durchgeführt werden, die Ihnen in Ihrer genauen Situation die bestmögliche Antwort geben.

Es ist kein Wunder, dass sich die Statistik historisch auf allgemeine Theoreme konzentriert hat. Es war rechnerisch nicht machbar, mehr zu tun. Vielleicht bin ich ein Bayesianer, weil ich volljährig wurde, umgeben von Rechenleistung und Techniken wie MCMC. Ich respektiere die Allgemeinheit und Eleganz der theoretischen Grenzen in den einfachen Fällen, in denen man sie bekommen kann. Ich schätze aber auch maschinelles Lernen, bei dem es darum geht, die Leistung bestimmter Vorhersagesysteme zu messen und zu maximieren, anstatt umfassendere Theoreme über schwächere Systeme zu beweisen.


Antwort 2:

Alles interessante und meist sehr gültige Antworten.

Ich füge folgendes hinzu:

Wenn Sie beispielsweise einen Krieg gewinnen, ein neues Medikament finden, Geld an der Börse verdienen, das Wetter vorhersagen oder das Ergebnis von Wahlen vorhersagen möchten, ist es am besten, den Bayesan-Ansatz zu verwenden.

Mit anderen Worten, der Bayes'sche Ansatz ist derjenige, der wirklich funktioniert. (vorausgesetzt, Sie geben ihm Ihr bestes Wissen über die zu verwendenden Modelle und die darin enthaltenen Parameterwerte).

Die Erklärung dafür ist, dass es beim Zufall darum geht, die Realität zu modellieren, und der Baysian-Ansatz bietet Ihnen eine bessere Modellierungskraft.


Antwort 3:

Ich denke, andere haben die spezifische Frage genau beantwortet, aber ich möchte auch hinzufügen, dass ein Bayesianer mehr darauf ausgerichtet ist, wie wir alle wirklich neue Informationen verarbeiten ... selbst wenn Sie tatsächlich ... ein Frequentist sind.

Angenommen, ein bekannter Experte auf dem Gebiet der Sonnenaufgänge sagt Ihnen, dass ein soeben erstelltes Vorhersagemodell (Algorithmus) besagt, dass der Sonnenaufgang viel später als erwartet beginnen wird. Tatsächlich erwartet sie innerhalb einer Woche einen Sonnenaufgang um 8:00 Uhr. Ihre natürliche und logische Reaktion darauf besteht darin, Ihr vorhandenes Verständnis (der Sonnenaufgang war in letzter Zeit um 6 Uhr morgens) zu übernehmen und Ihre Erwartungen an den Sonnenaufgang der nächsten Woche zu ändern.

Sie tun dies auch dann, wenn das Modell scheinbar eine solide Mathematik verwendet und Sie keine logischen Lücken im Algorithmus oder in den Eingaben finden. Sie haben jahrelang beobachtete "Daten", die Ihnen sagen, dass der Sonnenaufgang nächste Woche gegen 6 Uhr morgens sein wird.

Dies ist die heruntergekommene No-Math-Version des Bayes'schen Ansatzes.

Sogar diejenigen, die einen Befund in absoluten Zahlen anpreisen, haben höchstwahrscheinlich einen Bayes'schen Glauben in ihrem Kern.