Topics in Structured Nonparametric Regression: Uncoupled Isotonic Regression and Tree-Based Learning

  • Donnerstag, 26. März 2026, 11:00 Uhr
  • INF 205, Raum 05/104
    • Ricardo Blum
  • Adresse

    Mathematikon
    Im Neuenheimer Feld 205
    Raum 05/104

  • Veranstaltungstyp

In dieser Arbeit werden verschiedene Aspekte der nichtparametrischen Regressionsschätzung untersucht. Einerseits wird die Schätzung einer monoton wachsenden Regressionsfunktion betrachtet, unter der Einschränkung, dass nicht bekannt ist, welche Beobachtung der abhängigen Variablen zu welchem Designpunkt gehört. Dadurch unterscheidet sich das Problem von klassischen Regressionsproblemen, bei denen Beobachtungen als Paare auftreten. Unter der Annahme, dass die Varianz der Fehlervariablen gegen Null konvergiert, werden zwei Schätzer untersucht, welche auf Verteilungseigenschaften der abhängigen Variable beruhen, ohne dabei Kenntnisse über die Fehlerverteilung vorauszusetzen. Unter Glattheitsannahmen werden Konsistenzraten und asymptotische Normalität hergeleitet. Zudem wird die Optimalität der Raten gezeigt und das Schätzproblem wird mit demjenigen im entsprechenden klassischen Regressionsmodell verglichen: Das Schätzproblem ist schwieriger als das Klassische bei langsam abfallender Varianz der Fehlervariablen und ist ebenso schwierig bei schnellerer Abfallrate. 

Anderseits betrachten wir im klassischen Regressionsmodell die Schätzung mittels Random Forests und verwandten baumbasierten Verfahren des maschinellen Lernens. Für eine große Klasse solcher baumbasierter Verfahren wird Konsistenz gezeigt, wobei angenommen wird, dass die Regressionsfunktion einer verallgemeinerten „Sufficient Impurity Decrease“-Bedingung genügt. Außerdem wird die Schätzung mittels Random Forests im Falle, dass die Regressionsfunktion bestimmte reine Interaktionen ohne begleitende Haupteffekte aufweist, untersucht. In einer umfangreichen Simulationsstudie wird gezeigt, dass Random Forests bei reinen Interaktionstermen unzureichende Schätzungen liefert. Abwandlungen des zugrundeliegenden Baum-Algorithmus schaffen jedoch Abhilfe und deren Konsistenz wird auch im Falle von reinen Interaktionstermen bewiesen. Schließlich werden die Verfahren auf verschiedene Datensätze angewandt, wobei interaktionsspezifische Baumverfahren im Vergleich zu Random Forests in einigen Beispielen bessere Ergebnisse liefern, in den Übrigen werden ähnliche Resultate erzielt.