
dl058: macht's gut
Episode in
datenleben
Willkommen zu unserer letzten sehr kurzen Folge beim datenleben-Podcast. Nach 57 Folgen, stöpseln wir das Mikro aus. Mit dieser Folge wollen wir deswegen einfach nur danke sagen, und uns verabschieden – damit dieser Podcastfeed nicht einfach nur abrupt endet. Als Data Science Podcast haben wir uns immer gern damit befasst, wie der Umgang mit Daten, Einfluss auf unser Leben und die Welt um uns herum hat. Wir hoffen, dass unsere Folgen weiterhin Menschen erreichen und die Grundgedanken hinter unseren Themen vermitteln können. Ausserdem wird es auch nicht gar keinen Content mehr geben, wie Helena kurz erzählt.
Links
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Schlagworte zur Folge
Data Science, Podcast, Abschied
Macht's gut
Helena: Willkommen zu unserer letzten, sehr kurzen Folge beim Datenleben Podcast. Wir sind Helena
Janine: und Janine
Helena: und haben euch 57 Folgen lang in die Welt der Daten mitgenommen.
Janine: Und in dieser Folge wollen wir im Wesentlichen nur Danke sagen und uns einmal verabschieden.
Helena: Ja, auf absehbare Zeit werden wir hier keine Folgen mehr veröffentlichen. Und deswegen dachten wir, veröffentlichen wir diese kurze Folge, damit der Podcast-Feed nicht so verwahrlost aussieht, wo dann irgendwie seit langem keine Folge mehr veröffentlicht wurde und keiner weiß, warum.
Janine: Als Data Science Podcast haben wir uns ja immer gern damit befasst, wie der Umgang mit Daten funktioniert, wie sie Einfluss auf unser Leben und die Welt um uns herum haben, zum Beispiel wie Daten eben unsere Handlungen oder unsere Wahrnehmung beeinflussen können, wie sie auf Entscheidungen wirken oder wie der Umgang mit Daten ganz konkret unsere Gesellschaft gestaltet, in der wir leben. Viele der Themen hatten zwar auch sehr aktuelle Aufhänger jeweils, aber haben oft einen bestimmten Kern gehabt, der weiter relevant bleiben wird. Es sind ja alles vor allem Beispiele für die grundsätzliche Art, wie Daten unser Leben beeinflussen. Und deswegen werden diese Folgen in dem Sinne auch gar nicht veralten. Empfehlt unseren Podcast ruhig gerne trotzdem weiter, wenn ihr in unseren Folgen eben Themen findet, die für andere vielleicht von Interesse sein könnten, aber neue wird es eben leider nicht mehr geben.
Helena: Dafür werde ich mich mehr auf die Tutorials konzentrieren, die wir seit einiger Zeit auf YouTube veröffentlichen. Die werden auch weiterhin auf unserem YouTube-Kanal zu finden sein. Und ja, also wenn ihr mehr über Datenvisualisierung mit ggplot wissen wollt, dann kommt dort doch gerne vorbei und abonniert den Kanal und wahrscheinlich werden die Tutorials auch noch in andere Richtungen weitergehen.
Janine: Ja, und damit bleibt nach fast fünf Jahren dann nur noch zu sagen, vielen Dank, dass ihr uns gehört habt, für euer Feedback und eure Themenvorschläge und überhaupt für euer Interesse.
Helena: Ja, vielen Dank für die Aufmerksamkeit und auch vielen Dank dafür, dass ihr uns die 57 Folgen lang zugehört habt. Also bis vielleicht auf YouTube. Ciao!
Janine: Tschüss!
02:47
dl057: was sind neuronale netze?
Episode in
datenleben
Wir haben der Frage gewidmet: Was sind neuronale netze? Wo hat das eigentlich angefangen? Wir beginnen mit dem Blick darauf, was eigentlich ein Neuron ist und wie ab den 1940er Jahren damit experimentiert wurde, elektronische Neuronen herzustellen. Das war nämlich der Ausgangspunkt dafür, dass um 1960 herum das Perzeptron orgestellt werden konnte - ein einfaches neuronales netz. Es geht darum, in wie fern das eine wichtige grundlage für die heutigen neuronalen Netze war.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl040: wie nutzen wir whisper für transkripte?
dl055: chatGPT
Einspieler
projekt-gutenberg.org, E.T.A. Hoffmann: Der Sandmann
Wikipedia: Der Sandmann (Hoffmann)
Quellen und weiterführende Links
Wikipedia: Nervenzelle
Wikipedia: Hebbsche Lernregel
https://www.mpg.de/gehirn
Wikipedia: McCulloch-Pitts-Zelle
Wikipedia: Perzeptron
Wikipedia: Backpropagation
Wikipedia: Deep Learning
Wikipedia: Transformer (Maschinelles Lernen)
Schlagworte zur Folge
Neuronale Netze, Maschine Learning, Perceptron, Backpropagation, Deep Learning
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 57. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch in die Welt der Daten mitnehmen. In unserer Welt wird es immer wichtiger, Daten in das große Ganze einzuordnen. Deswegen wollen wir Data Science anhand von Themen erklären, die uns alle betreffen.
Thema der Folge (00:00:38)
Janine: Genau, und was uns vor allem alle betrifft, sind neuronale Netze, denn sie sind gewissermaßen überall. Und wir dachten uns, wir stellen nochmal die Frage, was sind sie und vor allem, woher kommen sie? Diese Folge wird nochmal etwas technischer, weil, ja, wir fragen uns eben, was sind neuronale Netze? Dafür müssen ein paar Grundlagen erklärt werden. Und ganz am Anfang natürlich aber auch die Frage, was ist eigentlich ein Neuron? Und ja, dann setzen wir damit an, wie ab den 1940er Jahren damit experimentiert wurde, elektronische Neuronen herzustellen. Das war nämlich der Ausgangspunkt dafür, dass so um 1960 herum das Perzeptron vorgestellt werden konnte, ein einfaches neuronales Netz. Und inwiefern das eine wichtige Grundlage für die heutigen neuronalen Netze war, darum geht es heute.
Warum ist das Thema wichtig? (00:01:30)
Helena: Genau, und wir finden das Thema wichtig, weil letztlich sämtliche modernen KI-Systeme, die uns so umgeben, darauf basieren. Und darum, ja, wollen wir jetzt den neuronalen Netzen heute mal eine ganze Folge widmen.
Einspieler: Der Sand in den Getrieben der neuronalen Netze (00:01:46)
Janine: Der Sand in den Getrieben der neuronalen Netze. Manchmal, wenn ich über die sogenannte künstliche Intelligenz nachdenke, muss ich an den Sandmann denken. Diese Novelle von E.T.A. Hoffmann wurde 1816 veröffentlicht. Darin wird erzählt, wie Nathanael von einem Alchemisten und einem Professor hinters Licht geführt wird, indem sie bewirken, dass er sich in Olimpia, eine mechanische Puppe, verliebt. Auf alle Gäste des Abends wirkt die musizierende und singende Olimpia merkwürdig leblos und unheimlich, auf Nathanael wirkt sie jedoch ganz anders, nachdem er sie durch ein präpariertes Opernglas betrachtet. Selbst als er sie zum Tanz auffordert, wirkt der Einfluss auf ihn fort, ihre zunächst eiskalte Hand erscheint ihm plötzlich, als würde ein Puls darin anfangen zu schlagen. Auch das Gespräch mit ihr genießt er, selbst wenn seine Angebetete nichts anderes antwortet als immer wieder "Ach, ach, ach". Den Spott, den die anderen Gäste für Olimpia überhaben, ignoriert er, doch sein Freund Sigmund versucht offen mit ihm zu reden.
"Wunderlich ist es doch, dass viele von uns über Olimpia ziemlich gleich urteilen. Sie ist uns, nimm es nicht übel, Bruder, auf seltsame Weise starr und seelenlos erschienen. Ihr Wuchs es regelmäßig, so wie ihr Gesicht, das ist wahr. Sie könnte für schön gelten, wenn ihr Blick nicht so ganz ohne Lebensstrahl, ich möchte sagen, ohne Sehkraft wäre. Ihr Schritt ist sonderbar abgemessen, jede Bewegung scheint durch den Gang eines aufgezogenen Räderwerks bedingt. Ihr Spiel, ihr Singen hat den unangenehmen, richtigen, geistlosen Takt der singenden Maschine und ebenso ihr Tanz. Uns ist diese Olimpia ganz unheimlich geworden, wir mochten nichts mit ihr zu schaffen haben, es war uns als tue sie nur so wie ein lebendiges Wesen, und doch habe es mit ihr eine eigene Bewandtnis." Nathanael gab sich dem bitteren Gefühl, das ihn bei diesen Worten Siegmunds ergreifen wollte, durchaus nicht hin, er wurde Herr seines Unmuts und sagte bloß sehr ernst: "Wohl mag euch, ihr kalten prosaischen Menschen, Olimpia unheimlich sein. Nur dem poetischen Gemüt entfaltet sich das gleich Organisierte, nur mir ging ihr Liebesblick auf und durchstrahlte Sinn und Gedanken. Nur in Olimpias Liebe finde ich mein Selbst wieder, euch mag es nicht recht sein, dass sie nicht in platter Konversation faselt wie die anderen flachen Gemüter, sie spricht wenig Worte, das ist wahr, aber diese wenigen Worte erscheinen als echte Hieroglyphe der inneren Welt, voll Liebe und hoher Erkenntnis des geistigen Lebens in der Anschauung des ewigen Jenseits. Doch für alles das habt ihr keinen Sinn und alles sind verlorene Worte."
Manchmal, wenn ich über die sogenannte künstliche Intelligenz nachdenke, muss ich an den Sandmann denken.
Was ist ein Neuron? (00:04:47)
Helena: Ja und um zu erklären, was neuronale Netze sind, beschäftigen wir uns jetzt erstmal mit der Frage, was ist eigentlich ein Neuron, so ganz allgemein gesprochen. Also unser Gehirn besteht aus vielen Milliarden Nervenzellen und diese Nervenzellen werden auch Neuronen genannt. Dabei, ja, nehmen die Nervenzellen über Nervenbahnen Erregungen anderer Zellen auf und leiten diese dann oft auch weiter. Und diese Erregungen werden vor allen Dingen über elektrische Signale übertragen, aber auch über chemische Botenstoffe. Diese chemischen Botenstoffe kennt man vielleicht auch unter dem Namen Neurotransmitter. Und dadurch kommen eben Informationen zwischen Neuronen ja an andere Orte und man kann sich dabei vorstellen, so ein elektrisches Signal ist schneller als so ein chemischer Botenstoff. Die haben dann eben etwas andere Funktionen. Und pro Neuron gibt es dann etwas mehr als 1000 Verbindungen zu anderen Neuronen. Das ist schon ganz schön viel. Und diese Verbindungen werden auch, und diese Bahnen werden dann eben als Synapsen bezeichnet. Das sind dann quasi auch die Nervenbahnen sozusagen. Das Besondere jetzt an so einem Gehirn ist, das ist in der Lage die Synapsen- und Nervenzellen ja immer wieder anzupassen, um eben neue Dinge zu lernen und sich an neue Gegebenheiten anzupassen. Also das menschliche Gehirn lernt, während es benutzt wird. Und um zu lernen, hat mal jemand die sogenannte Hebbsche Lernregel aufgestellt, die dann besagt, dass wenn ein Neuron besonders oft ein anderes Neuron anregt, dann passen sich die Synapsen dahingehend an, dass dieses zweite Neuron auch leichter anzuregen ist von dem ersten. Das heißt, das Signal wird quasi verstärkt, wenn das viel benutzt wird. Und man kann sich jetzt vorstellen, wenn man diese Lernregel zugrunde legt, dann erklärt es auch, warum wir Dinge üben müssen. Weil dadurch, dass man, wenn man eine neue Fähigkeit lernen möchte, dann ist ja der Klassiker, man muss die wiederholen, wiederholen, wiederholen. Und dabei geht es eben darum, um das zu machen, die nötigen Neuronen und die Synapsen zu verbessern quasi, also die Verbindung zu verbessern, sodass es einem leichter fällt. Das ist eigentlich auch ganz gut zu wissen. Also Lernen bei Menschen funktioniert durch Wiederholen und so funktioniert eben das menschliche Gehirn auch.
Janine: Und das bis ins hohe Alter, wie man inzwischen weiß. Wo man früher noch so ein bisschen gedacht hat, das menschliche Gehirn entwickelt sich und irgendwann ist man erwachsen und dann ist es fertig, ist eigentlich inzwischen auch klar geworden, dass man bis ins hohe Alter alles Mögliche eigentlich lernen kann.
Helena: Ja, ich meine, klar, wir kennen vielleicht alle Menschen, die etwas älter sind, die vergesslicher werden, aber sie erinnern sich ja dann doch schon auch an Dinge, die sie noch erleben. Das würde ja nicht gehen, wenn das Gehirn nicht mehr lernen könnte. Weil sich an Dinge zu erinnern ist ja trotzdem, ja, ein Prozess des Lernens.
Was war das elektronische Neuron? (00:07:49)
Janine: Und was die Menschen irgendwann mal besonders interessiert hat zu lernen, ist, wie die Welt um sie herum funktioniert. Und deswegen haben sie vieles beobachtet, auseinandergenommen und in die kleinsten Teile hin untersucht, um die Funktionsweise zu verstehen oder bestimmte Aspekte der Natur vielleicht nachzuahmen. Und dabei sind sie eben wirklich bis in die feinsten Strukturen gegangen, wie eben zum Beispiel auch die Neuronen. Und da begann es Anfang der 1940er Jahre, dass vor allem die Idee verfolgt wurde, selbst ein elektronisches Neuron herzustellen. Und ja, darum geht es jetzt um diese elektronischen Neuronen der, naja, 1940er Jahre.
Helena: Genau, in den 1940er Jahren, ja, das ist quasi kurz nachdem von Alan Turing über Berechenbarkeit und so weiter Computer theoretisch beschrieben wurden und er dann eben die These aufgestellt hat, dass Computer in der Lage sind, alles zu berechnen, solange sie bestimmte Grundfähigkeiten haben. Und deswegen hat man sich dann gedacht, okay, man hatte zu dem Zeitpunkt ja noch nicht so wirklich Computer, es gab nur erste Prototypen, aber dieses Berechnungssystem, könnte man nicht Neuronen von Menschen so nachbilden, dass man beweisen kann, dass das menschliche Gehirn in der Lage ist, im Prinzip alles zu berechnen. So, da ging es noch gar nicht unbedingt darum, das Gehirn an sich nachzubauen, sondern die einzelnen Neuronen zu modellieren, mit dem Ziel nachzuweisen, dass das menschliche Gehirn eben alles berechnen kann, nach den Regeln von Turing. Und das, was dazu gebaut wurde, war das sogenannte McCulloch-Pitts-Modell und hierbei wurden Neuronen folgendermaßen angenommen, dass die folgende elektrische Eigenschaften eben haben. Also ein einzelnes Neuron hatte dann mehrere Eingänge, wo dann Signale wie 1 oder 0 rein können, weil wir sind hier in einem Computersystem, also es soll ja quasi ein Computer nachbauen. Und abhängig von den Eingangswerten soll das Neuron dann 1 oder 0 ausgeben können. Dabei gab es eben einzelne Eingänge, die quasi verstärkend gewirkt haben und dann einzelne, die abschwächend gewirkt haben. Also wenn jetzt in einem bestimmten Eingang eine 1 war, dann hat es die Wahrscheinlichkeit erhöht, dass man eine 0 rauskriegt und in dem anderen Fall bei anderen Neuronen, wenn dann eine 1 ankam, wurde eher eine 1 wieder ausgegeben und das hat man über sogenannte Schwellwert-Gatter implementiert, deren quasi Ziel es ist, wenn so und so viele Einsen gekommen sind, dann wird auch eine 1 ausgegeben. Und durch die abschwächenden Eingänge wird quasi dann, wenn da eine 1 reinkommt, das wieder abgezogen. Und wenn man jetzt sagt, man hat 10 Eingänge, davon sind 5 additiv und 5 subtraktiv und man hat dann irgendwie 4 Einsen bei den additiven und 2 Einsen bei den subtraktiven, da hat man den Wert 2 und wenn jetzt der Schwellwert von diesem Neuron 3 ist, dann gibt man eine 0 aus. Wenn der Schwellwert aber eine 1 oder 2 gewesen wäre, dann würde man eben eine 1 ausgeben. Und das, was man mit dieser Art von Neuronen dann machen konnte, ist Aussagenlogik betreiben. Also wenn ja quasi eine Aussage wahr ist und dann eine 1 geschickt hat an das Neuron und eine andere Aussage auch wahr war, dann konnte man eben die Unverknüpfung damit machen, aber eben auch andere Sachen wie exklusives "oder" zum Beispiel. Das heißt, wenn eine Aussage 1 ist oder eine andere Aussage 1, dann kann nur 1 rauskommen, wenn nur 1 von beiden 1 ist. Wenn beides 1 oder 0 ist, dann würde das, wenn beides 1 ist, kommt 0 raus, nur wenn 1 1 ist 0. Das wird uns später nochmal betreffen. Also ein "oder" ist ja, wenn es reicht, wenn ein Eingang 1 ist, das wäre quasi Schwellwert von 1. Das exklusive "oder" ist ein bisschen komplizierter. Man hat aber auch sowas wie "nicht". Also wenn jetzt, dass man umkehrt, dazu muss man dann eben, ja, das, was da rauskommt, eben umdrehen können. Aber hier war eben das Ziel nachzuweisen, ja, wenn man jetzt sagt, Neuronen, menschliche Neuronen funktionieren auch ungefähr so, dann hat man damit bewiesen, ja, mit menschlichen Neuronen kann man jetzt quasi beliebige Computer bauen. Das hat man jetzt so nicht weitergemacht, sondern das Ziel war jetzt eher, dass man versucht hat, in Computern menschliche Neuronen oder das Gehirn nachzubauen.
Perceptron – Wie sah das erste neuronale Netz aus? (00:12:25)
Helena: Und das erste elektronische neuronale Netz, was dann veröffentlicht wurde, war das sogenannte Perzeptron. Das Perzeptron wurde 1958 eingeführt und ist ein einfaches neuronales Netz und es hat eben Eingangswerte und für jeden Eingangswert gibt es dann noch zusätzlich so Gewichtungswerte, die dann sagen, ja, wie wichtig ist dieser Eingang. Also diese Gewichtungswerte stellen quasi die Synapsen dar, weil wir vorhin hatten bei der hübschen Lernregel, ja, wenn die Synapsen besonders oft benutzt werden, dann kommen da Werte besonders gut durch und das würde man bei diesem Gewichtungswert eben dadurch darstellen, dass der Wert dann höher wird, wenn dann diese Verbindung eben wichtiger ist. Und dann hat man auch hier eben eine Schwellwertfunktion, also man hat alle Eingangswerte, alle Eingangswerte werden dann eben, also die können dann wieder 0 oder 1 sein, werden dann eben mit den Gewichtungen multipliziert und dann alle addiert und dann hat man für alle Eingangswerte eine Zahl und dann gibt es wieder diese Schwellwertfunktion, also wenn diese Zahl größer ist als ein bestimmter Schwellwert, die dann eben auch spezifisch für diese Neuronen sind, dann gibt es eine 1 aus und wenn der Schwellwert eben nicht erreicht wird, dann eine 0. Der Unterschied hier ist jetzt zum einen, dass man gleich ein ganzes Netz aus mehreren Neuronen hat, aber auch, dass es nur diese additiven Eingänge gibt. Es gibt nicht die subtraktiven Eingänge wie in dem McCulloch-Pitts-Modell. Das liegt auch daran, dass das, also das McCulloch-Pitts-Modell ist etwas, was man elektronisch relativ leicht nachbauen kann mit Transistoren und so weiter, aber das Perzeptron selber sollte eher auch in Software laufen und da funktioniert es halt einfacher, wenn alle Eingänge sich ungefähr gleich verhalten. Deswegen hat man ja nur noch diese additiven Werte gehabt. Gut, in seiner Standardausführung besteht jetzt so ein Netz eben aus Inputneuronen, das können dann mehrere sein, die dann jeweils Eingangswerte haben. Dann gibt es noch eine Mittelebene, das sind dann die Neuronen, an die die Werte übergeben werden und im Fall von Perzeptron hat man die Gewichtungswerte hier zufällig generiert und dann hat man ein oder mehrere Outputneuronen, deren Ausgabe dann das Ergebnis ist. Also wenn man jetzt zum Beispiel sagt, man möchte Handschrifterkennung machen von Zahlen, was so eine ganz klassische Aufgabe der KI-Forschung war seit den, ja ich glaube 80er Jahren, bis das dann irgendwann mal gelöst wurde, aber das hat mehrere Jahrzehnte gedauert, dann hätte man zum Beispiel 10 Outputneuronen und je nachdem, welches davon dann eine 1 ausgibt, das entspricht dann eben einer Ziffer, die erkannt wurde. Eine Besonderheit von Perzeptron im Gegensatz zu den McCulloch-Pitts-Neuronen, die dann ja im Prinzip dazu da sind, Computer nachzubauen, können die Perzeptronen eben trainiert werden. Und Training heißt dann, dass die Gewichtungswerte auf der Outputseite des Netzwerkes sich verändern können. Ja, im Prinzip gibt man dann Eingangsdaten in dieses neuronale Netz rein und guckt dann, was eben rausgekommen ist und dann weiß man, was rauskommen soll und guckt dann, ja wie hätte man die Gewichtung der Ausgabeneuronen ändern müssen, damit auch das Ergebnis stimmt.
Janine: Das heißt, es wird manuell eingegriffen einmal?
Helena: Naja, man hat Trainingsdaten. Also das manuelle Eingreifen ist letztlich einfach ein Algorithmus, mit dem man ja guckt, welche Werte hätten das Ergebnis gehabt und dann macht man das ganz oft für verschiedene Eingangs- und Ausgangswerte und vergleicht dann diese Werte, die diese Ergebnisse hätten produzieren sollen und verändert dann die Gewichtungswerte graduell. Und zwar immer in die Richtung, in der man denkt, das wird dann richtiger sozusagen. Also man berechnet einen sogenannten Gradienten, das ist dann eben eine Steigung, die man in verschiedenen dimensionalen Räumen machen kann. Und man möchte quasi immer versuchen, den steilsten Abstieg zu nehmen, um möglichst wenig Trainingsrunden zu brauchen und dann geht man eben runter, bis man das Minimum erreicht hat und ab wo es dann nicht mehr besser wird.
Janine: Mhm.
Helena: Wichtig bei den Perzeptron-Modellen ist eben, dass nur die letzte Schicht trainiert wird und die können aber mehrere Schichten haben, da sind dann eben Zufallszahlen drin. Und letztlich fängt man bei jedem neuronalen Netz immer mit Zufallszahlen an, mit denen man das gewichtet, wenn man noch nicht trainiert hat und trainiert dann eben die entsprechenden Werte. Was jetzt ein Problem vom Standardperzeptron war, ist, dass die klassische Aussagenlogik damit nicht umsetzbar gewesen ist, weil man das exklusive "oder" nicht erzeugen konnte, weil man ja nur die additiven Eingänge hat und nicht irgendwie in der Lage war, Ausschlüsse zu generieren. Was eben auch daran liegt, bei einem Netz könnte man ja Ausschlüsse dadurch erzeugen, dass man in bestimmte Richtungen die Verbindungen abschwächt und in andere verstärkt, aber um das zu erreichen, müsste man die Mittelebene trainieren. Wenn man nur die letzte Ebene trainiert, kann man das exklusive "oder" eben nicht darstellen. Ja, das hat dann eben längerfristig die neuronalen Netzerforschung des Perzeptrons eingeschränkt, dass man festgestellt hat, ja, bestimmte Dinge lassen sich damit nicht abbilden. Und wie gesagt, die Lösung ist dann eben, dass man zwischen Eingabeneuron und Ausgabeneuron noch eine Mittelebene braucht, aber man kann die eben erstmal nicht trainieren mit dem, was man Anfang der 1980er Jahre an Perzeptron generiert hat.
Janine: Und was war dann der nächste Schritt, um da weiterzukommen?
Helena: Ja, also jetzt hatte ich hier jetzt nochmal ein konkreteres Beispiel erstmal, um das Training zu erklären, bevor wir dann in den nächsten Schritt kommen.
Janine: Ja, sehr gut.
Wie sieht das Training aus? (00:18:39)
Helena: Gut, wir hatten jetzt gerade einmal kurz das Training angesprochen, jetzt möchte ich dann auch einmal ein bisschen besser drauf eingehen. Also, wie trainiert man so ein Perzeptron-Netz? Das geht mit überwachtem Lernen, das heißt, man hat Eingangsdaten und weiß, was die sind. Das heißt, man kann Eingangsdaten reingeben und immer beim Ergebnis gucken, war das richtig oder nicht. Und am Anfang initialisiert man eben alle Gewichtungen mit Zufallszahlen, wie gesagt, und dann wendet man einfach das neuronale Netz auf die Daten an und guckt, ob die Vorhersage stimmt. So, der dritte Schritt ist dann, man guckt, ob das erwartete Ergebnis vorausgesagt wurde oder nicht. Mathematisch wird dann eine Zahl berechnet, wie groß der Fehler ist, also wie stark die Vorhersage vom Zielwert abweicht und wenn man eben ausrechnen kann, wie groß ein Fehler ist, kann man eben diesen Gradienten auch berechnen, weil wenn man jetzt, keine Ahnung, 100 Daten hat, an denen man trainiert, kann man dann gucken, ja, für welche Daten ist denn das Ergebnis besonders schlecht und an der Stelle würde man eben stärker in die Richtung gehen, dass das korrigiert wird. Dann definiert man noch eine Lernrate, zum Beispiel 0,01 und damit berechnet man das neue Gewicht aus dem Fehler, indem man eben die Fehler für alle Trainingseinheiten benutzt und dann mit 0,01 trainiert, weil man möchte ja auch nicht zu schnell immer hin und her pendeln. Wenn man einfach mal den Fehlerwert nehmen würde, könnte man ja dann für manche Sachen die Vorhersage korrigieren und für andere wieder falsch machen und das würde dann hin und her pendeln. Aber deswegen will man eben iterativ vorgehen und zwar langsam in kleinen Schritten und deswegen eben eine Lernrate von zum Beispiel 0,01.
Janine: Also gewissermaßen eine bedachte Annäherung an das, was man dann möchte, damit man überhaupt weiter vergleichen kann, wie entwickelt sich das gerade?
Helena: Ja, und das Ganze wird dann auch als Gradientenabstiegsverfahren genannt, was so ein Standardalgorithmus in vielen Bereichen der Informatik ist, wenn man Dinge numerisch berechnen möchte. Ja, und dann wiederholt man eben die Schritte 2 bis 4, bis das Ergebnis zufriedenstellend ist. Also zufriedenstellend, man definiert das dann entweder durch eine bestimmte Rate, also Qualität von den Ergebnissen oder an einer Maximalanzahl an Werten. So, und wenn man einmal das Training für alle Trainingsdaten einmal gemacht hat und für alle Gewichtungen ebenfalls, dann wird das Ganze als Epoche bezeichnet. Also wenn man jetzt irgendwie so ein neuronales Netz trainiert, dann sieht man, ja, es passiert gerade viel Training und dann kann einem das Programm zum Beispiel sagen, ja, jetzt habe ich eine Epoche trainiert und eine Epoche heißt dann, dass jeder Trainingsdatensatz einmal durchgelaufen ist. Hierzu kann man ja immer noch sagen, bei Perzeptronen kann nur die letzte Ebene der Neuronen trainiert werden.
Janine: Ja, und da wir uns ja alle schon eine Weile mit allem rund um KI, neuronalen Netzen und Maschinenlearning beschäftigen, gezwungenermaßen, weil es so weit in den Alltag reinreicht, können wir ja vielleicht nochmal den Begriff verwenden, den du auch aufgeschrieben, aber ich glaube noch gar nicht gesagt hast. Das, was bei den Perzeptronen passiert, ist das, was wir als überwachtes Lernen bezeichnen.
Helena: Ja, genau. Das ist überwachtes Lernen und überwachtes Lernen heißt immer, dass man ein gewünschtes Ergebnis kennt. Also das heißt, man hat Eingangsdaten, die man da reinführt hat und man weiß immer, man hat diese gelabelt, diese Eingangsdaten und das Label ist dann das Ergebnis. Und überwachtes Lernen hat natürlich immer den Nachteil, dass man prinzipbedingt weniger Daten hat, die korrekt gelabelt sind.
Janine: Also so überspitzt übertragen auf eine Alltagssituation könnte ich mir jetzt vorstellen, dass es auch so ein bisschen so ist, wie wenn man einem Hund oder einer Katze oder etwas einem Trick beibringt. Man weiß, wie Sitz oder Rolle aussehen soll und hat das Bild im Kopf und versucht nun das Tier so lange zu trainieren, bis es tatsächlich das gewünschte Ergebnis liefert.
Helena: Genau und dann gibt man dem Tier halt das Leckerli, wenn es das richtig gemacht hat.
Janine: Ja und das ist dann gewissermaßen die richtige Gewichtung.
Helena: Ja.
Janine: Ja, also das klingt auf jeden Fall alles mit den Eingangsdaten und dem Trainieren von Daten und den Netzen ja schon relativ vertraut mit dem ganzen Vokabular, das uns ja schon jetzt ein paar Jahre begleitet. Aber von der Leistungsfähigkeit her ist das, was jetzt Helena bei den Perzeptronen beschrieben hat, noch weit weg von dem, mit dem wir heute arbeiten. Eben mit dieser Einschränkung auch, es wird nur die letzte Ebene trainiert und es gibt noch wichtige Entwicklungsschritte, die dafür nötig waren, zu dem Punkt zu kommen, an dem wir heute sind. Welche sind das denn noch, Helena?
Was ist Backpropagation und Deep Learning? (00:23:46)
Helena: Ja, der erste wichtige Entwicklungsschritt ist, weil wir schon so sehr darauf rumgeritten sind, dass nur die letzte Ebene trainiert wird, dass man alle Ebenen trainieren können will und das wurde 86 eben veröffentlicht in Form des Algorithmus der Backpropagation. Also man kann im Prinzip sagen, wenn man Eingangswerte in so ein neuronales Netz reinpackt, dann hat man die erste Ebene, wo die verarbeitet werden und dann die zweite Ebene, wo die verarbeitet werden und dann, keine Ahnung, mehrere Ebenen und dann die letzte Ebene und dann den Ausgang und das Ganze wird dann eben als Forward Propagation bezeichnet, also die Daten wandern vorwärts durch das neuronale Netz. Und man möchte ja, wenn man das Ergebnis hat, dann auch die Trainingswerte, also die Gewichtung auf allen Ebenen anpassen und dann muss man eben den berechneten Fehler rückwärts wieder durch das Netzwerk ausbreiten und das ist dann die Backpropagation. Also wir erklären jetzt nicht, wie der Algorithmus funktioniert. Wenn man das Netz jetzt mehrere Schichten tief lernen lässt, also quasi die Tiefe ist die Menge der Schichten, die man trainiert, dann bezeichnet man das Ganze auch als Deep Learning. Ja, im Prinzip seit es Backpropagation gibt, hat man noch nicht unbedingt auch immer Deep Learning gemacht, weil das Problem ist, dass sehr viel Rechenleistung verbraucht ist, insbesondere das Deep Learning und man kann sagen, gut, der Algorithmus existiert seit 86, aber die Hardware, mit der man dann ausreichend große neuronale Netze trainieren kann, existiert erst seit Ende der 2000er Jahre und dabei geht es nicht nur um die Hardware, sondern eben auch darum, dass die Software zur Verfügung steht, denn bei der Hardware handelt es sich um Grafikkarten. Und naja, Grafikkarten wurden halt immer schneller und konnten immer besser Grafik berechnen, weil Computerspiele eben ein Milliardenmarkt geworden sind und man daher durch Entwicklung von Grafikkarten, ja, hat sich eben gelohnt, da sehr viel Geld reinzustecken und weil eben so ein Bildschirm sehr viele Pixel hat, ist es bei Grafikkarten eben auch wichtig, dass sehr viele Dinge parallel gerechnet werden können, damit man schneller den Bildschirminhalt wechseln kann. Da geht es dann gar nicht immer um die Genauigkeit der Berechnung, sondern nur darum, möglichst viel parallel zu machen. Allerdings hatten Grafikkarten natürlich einen sehr eingeschränkten Nutzungsbereich, also Grafikkarten wurden dann eben über Grafikbibliotheken programmiert, die dann nur Grafikfunktionen unterstützt haben, bis dann eben, ja, Mitte der 2000er eine Firma namens Nvidia, die kennt man vielleicht, auf die Idee gekommen ist, ja, es gibt jetzt nur Grafikbibliotheken, die unsere Grafikkarten nutzen, aber eigentlich wäre es doch auch nicht schlecht, diese große Parallelrechenkapazität auch für andere Anwendungen zur Verfügung zu stellen, weshalb sie dann eben, ja, eine Plattform namens CUDA zur Verfügung gestellt haben, was eine Programmierschnittstelle ist, über die man eben das Ganze programmieren kann, und zwar nicht nur für Grafik, sondern für alle möglichen Dinge. Dabei ist jetzt noch nicht unbedingt, ja, im Fokus gewesen, dass es jetzt auf jeden Fall mit Machine Learning und neuronalen Netzen weitergeht, sondern eben auch um andere Formen von Datenanalysen. Aber dadurch, dass man dann eben diese Grafikkarten und diese parallelen Rechenmaschinen gut programmieren konnte, hat sich dann eben gezeigt, dass man jetzt in der Lage ist, auch größere neuronale Netze zu trainieren. Weshalb dann so ab 2012 rum sich der Begriff Deep Learning für alles, was mit neuronalen Netzen auf Grafikkarten zu tun hat, durchgesetzt hat, weil es jetzt plötzlich möglich war, das einfach zu machen. Ja, das ist der Weg bis zum Deep Learning, aber das ist jetzt ja auch schon wieder ein paar Jahre her. Also 2012 war so das Jahr, wo gezeigt wurde und klar wurde, ja, das funktioniert jetzt erstaunlich gut, weil neuronale Netze eben die Eigenschaft haben, sehr viel besser zu werden in dem Moment, wo sie auch sehr viel größer werden. Also wenn sie sehr klein sind, dann können sie nicht so viel, sondern die Skalierung ist hier wichtig.
Was macht die heutigen Transformer und Reasoning Modelle aus? (00:28:23)
Helena: Gut, dann kommen wir schon zu den heutigen Modellen. Also was ich jetzt bisher erklärt hatte mit den Perzeptronen, ist, das sind dann eben neuronale Netze, die in eine Richtung funktionieren. Und das ist lange Zeit bei neuronalen Netzen Standard gewesen, dass es Ebenen gibt, die nacheinander ausgeführt werden. Und das wurde dann eben geändert durch die Transformer-Modelle, bei denen auch zirkuläre Strukturen existieren, wo dann eben einzelne Bereiche mehrfach ausgeführt werden mit leicht veränderten Daten.
Janine: Darüber haben wir ja tatsächlich auch schon in anderen Folgen geredet, zum Beispiel über Whisper, wo es um Transkriptionen ging. Ja, das ist auf jeden Fall da ein bisschen genauer noch erklärt, als wir jetzt wahrscheinlich hier darauf eingehen.
Helena: Genau, oder eben in der chatGPT-Folge, wo wir auch den Attention-Mechanismus, der eben iterativ durch sein Netz durchgeht und Wörter miteinander in Bezug setzt. Das Ganze läuft eben zirkulär ab und irgendwann kommt dann eben die Vorhersage, welches Wort denn jetzt als nächstes kommen soll. Das Ganze wird dann fortgeführt auch in sogenannten Reasoning-Modellen, also Modellen, die in der Lage sind, nicht einfach nur Text vorherzusagen, sondern auch sozusagen nachzudenken. Und ein bekanntes Beispiel davon ist jetzt vor kurzem sehr in den Medien gewesen, nämlich das Deep-Seek-Modell. Letztlich ist das auch ein Transformer, der zirkulär arbeitet mit den Eingangsdaten. Und dessen Aufgabe soll aber erst mal sein, Fakten aufzulisten, die relevant sind für die Aufgabe und dann eben Zwischenschritte zu generieren. Das heißt, man hat in diesem Fall nicht nur innerhalb vom neuronalen Netz zirkuläre Strukturen, sondern das Ganze soll selber Schritt für Schritt auf die richtige Lösung kommen, mit dem Ziel, dass man da auch komplexere Fragen mit beantworten kann, als chatGPT das in seiner ersten Version konnte. Also bei chatGPT, wenn man das O1-Modell benutzt, kriegt man eben auch diese Reasoning-Funktion. Man sieht die Zwischenschritte aber nicht, die das Ding beim Denken quasi macht. Wenn man jetzt sich Deep-Seek, das kann man sich tatsächlich einfach runterladen, das Modell, und dann gehen die Anfragen auch nicht nach China, wenn man daran schickt.
Janine: Da hängt noch eine ganze Menge mehr mit dran, auf was wir jetzt nicht eingehen. Wir bleiben da bei der technischen Seite, denke ich mal.
Helena: Ja, jedenfalls sieht man dann eben die Zwischenschritte, die es macht, wie es quasi nachdenkt und am Ende kommt dann auch eine Antwort raus. Und das ist durchaus auch ganz interessant, insbesondere, wenn man sich auch anguckt, wie das menschliche Gehirn im Vergleich dazu funktioniert.
Janine: Ja, es ist auf jeden Fall dadurch ein bisschen besser möglich, so stelle ich es mir zumindest vor. Ich habe jetzt noch nicht damit gearbeitet, im Gegensatz zu dir, dass die Punkte, wo Fehler passieren, nachvollziehbarer werden und da ganz anders angesetzt werden kann, um ja dann vielleicht doch noch Informationen hinzuzufügen, die das Ergebnis tatsächlich verbessern. Wie in der Argumentation mit einem Menschen eigentlich, wenn jemand etwas erklärt und ich habe den Gedankengang vor mir, was oft passiert, wenn man mit Menschen redet, weil sie manchmal einfach sprechend denken, dann kann man an einzelnen Stellen einhaken und sagen, ich gebe dir noch mal eine Zusatzinformation, vielleicht verändert sich dann ja dein Argument.
Helena: Ja, ich meine, gedacht ist es ja auch im Hinblick auf, man möchte irgendwie was ausrechnen und benutzt halt schriftliche Multiplikation zum Beispiel, da muss man ja auch Zwischenschritte aufschreiben. Oder man berechnet eine komplexere physikalische Aufgabe und braucht dann eben die Zwischenschritte und muss erst mal alle Formeln aufschreiben, die relevant sind, um auf eine Lösung zu kommen. Das ist, glaube ich, auch so in der Hinsicht gedacht, dass man versucht, so näher an das menschliche Denken und Arbeiten dran zu kommen.
Janine: Ja, klingt auf jeden Fall so. Und bestimmt auch immer noch mit der Idee, irgendwann mal menschliches Bewusstsein nachzuahmen.
Helena: Ja, das ist ja gerade ganz großes Thema, dass man ja eine generelle Artificial Intelligence, also eine allgemeine KI baut, die nicht nur, ja, keine Ahnung, Textvervollständigung kann, wie das jetzt chatGPT macht, sondern die selber denken kann. Wer weiß, wann das kommt.
Fazit (00:33:02)
Janine: Es hat sich jetzt sehr schön gezeigt und ich glaube, damit gehen wir so ein bisschen ins Fazit schon über.
Helena: Ja.
Janine: Also, hallo Fazit. Ich finde es sehr schön, dass sich tatsächlich aufgezeigt hat, wie halt immer ein Entwicklungsschritt dazu gekommen ist, der immer ein bisschen mehr reingegeben hat, um die Ergebnisse einfach zu verbessern. Also, eben angefangen mit dem elektronischen Neuron, dann das Perzeptron, das das nochmal verändert hat, wie das trainiert werden konnte und bis hin zu den neuen Algorithmen, die dann reingegeben wurde, dass das Deep Learning hinzugekommen ist und eben die Transformer-Modelle, um quasi nochmal etwas aufgreifen zu können und darauf aufbauend, dann das Ergebnis weiter zu bringen, bis hin jetzt zu diesem Reasoning-Modell. Also, es ist eigentlich tatsächlich eine sehr schön zu sehende Linie, wie sich das immer weiter verbessert hat, hin zu dem Punkt, tatsächlich irgendwie so etwas wie Denken zu simulieren.
Helena: Ja, man kann jetzt auch noch, also ich werde jetzt auch nochmal ein bisschen Vergleiche von den modernen neuronalen Netzen zum menschlichen Gehirn anstellen. Also, das menschliche Gehirn hat viele hundert Milliarden Neuronen und jedes Neuron hat etwa tausend Verbindungen. Also, tausendmal mehr Verbindungen gibt es als Neuronen und chatGPT hat 400 Milliarden Neuronen mit 12.000 Verbindungen. Also, im Prinzip sogar mehr Verbindungen, allerdings sind die alle sehr starr, weil man immer 12.000 Neuronen auf einer Ebene hat, die dann nicht untereinander kommunizieren, sondern immer nur mit der nächsten Ebene. Das ist ein sehr großer Unterschied natürlich zum menschlichen Gehirn, wo diese tausend Verbindungen halt sehr viel dynamischer sind und dadurch eben auch deutlich flexibler ist und viel kleiner sein kann, um bessere Ergebnisse zu liefern in vielerlei Hinsicht.
Janine: Ich stelle mir das so vor, dass dadurch quasi das assoziative Denken des Menschen da eben herkommt, dass die Strukturen und Verbindungen flexibler sind und neu entstehen können untereinander, ohne dass wir das vielleicht auch bewusst machen und dass wir Wissen übertragen können auf etwas anderes, um es in einem anderen Kontext anzuwenden.
Helena: Ja, ich meine, das versucht man ja mit diesem Attention-Mechanismus ja auch nachzubilden, das Übertragen von Wissen.
Janine: Ja.
Helena: Aber ja, dadurch, dass das alles eben durch relativ kleine Computerchips berechnet werden können soll, braucht man eben diese klare Struktur, die so ein künstliches neuronales Netz hat mit den verschiedenen Ebenen hintereinander. Es ist halt viel einfacher umzusetzen technisch, als so wie das menschliche Gehirn funktioniert. Ja, also die Struktur im menschlichen Gehirn ist halt auch insofern nochmal besonders, weil es parallel zum Anwenden weiterlernt. Da haben wir ja schon gesagt, wenn bestimmte Verbindungen besonders oft benutzt werden, dann werden die besser und so lernt das menschliche Gehirn weiter, während das eben bei KI-Modellen bei neuronalen Netzen nicht so ist. Die werden einmal trainiert und dann kann man das Ergebnis wieder als Grundlage nehmen, um sie weiter zu trainieren, aber die Anwendung selber, die sogenannte Inference, da ändert sich gar nichts am Ergebnis. Also das ändert gar nichts an der Struktur des neuronalen Netzes, sondern es gibt einfach was aus und dann kann natürlich so ein Anbieter wie OpenAI daherkommen und Feedback von den Nutzern einsammeln, um dann beim nächsten Mal, wenn sie es weiter trainieren, das zu verwenden, um das Netz zu feintunen, aber das wird nicht die ganze Zeit durch die Benutzung weiter trainiert. Dann gibt es noch einen großen Unterschied, dass ein künstliches neuronales Netz eben auf Anfragen basiert. Also es arbeitet nur, wenn man Eingangsdaten aktiv da reinfüttert, während das menschliche Gehirn die ganze Zeit arbeitet. Also es ermöglicht, den Kontext besser zu behalten über einen längeren Zeitraum, aber das heißt auch, dass man ja eben Träume haben kann, die jetzt nicht direkt von äußeren Einflüssen kommen. Die können natürlich von Dingen kommen, die einem an dem Tag passiert sind oder die man für den nächsten Tag erwartet, aber diese Einflüsse passieren nicht in dem Moment des Traumes. Ja, was man vielleicht auch noch sagen sollte, ist: neuronale Netz bezeichnet auch unser Gehirn, sind auch neuronale Netze, weshalb es dann auch oft von künstlichen neuronalen Netzen die Rede ist, wenn man so moderne KI-Systeme meint, wobei man das künstlich auch oft einfach weglässt.
Janine: Das stimmt.
Helena: Ja, das war mein Fazit.
Call to Action (00:37:52)
Janine: Das war dein Fazit. Dann ja, machen wir doch mal mit dem Rest des Endes weiter. Wenn ihr unsere Folgen hören möchtet, folgt uns doch gerne auf Mastodon unter @datenleben@podcasts.social oder guckt auf unserer Webseite vorbei www.datenleben.de. Da könnt ihr uns auch natürlich gerne Feedback hinterlassen oder auch per Mail. Wir freuen uns immer sehr über Kommentare zu unseren Folgen. Ja, und falls euch die Arbeits- und Denkweise gefällt, könnt ihr uns auch als Data Scientist für Analysen und Projekte buchen.
Helena: Ja, und dann bleibt mir nichts anderes als für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao.
Janine: Tschüss.
38:40
dl056: jahresrückblick 2024
Episode in
datenleben
Willkommen zum traditionellen Jahresrückblick – wir reflektieren das Jahr 2024 und die Themen, die uns begegnet sind. Nach einem kurzen Schnelldurchlauf durch die Nachrichten des Jahres, wird es wieder darum gehen, welche Themen wir im Podcast im Laufe des Jahres besprochen haben. Und wie immer haben wir auch wieder ein paar Themen rausgesucht, die 2024 aufgekommen sind. Einige sind auch Ergänzungen zu einiger unserer Folgen. Mit dabei: Laion Datensatz und Urheberrecht, Starlink und Radioastronomie, der Physiknobelpreis, Unwetter in 2024 und AI Act der Europäischen Union.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl043: perspektiven auf data science
dl021: python lernen!
dl001: data science
dl027: data science - 2 jahre datenleben
dl051: adhs – häufigkeit und diagnosen
dl047: starkregen
dl046: kaffee
dl048: vesuv challenge
dl054: gesundheitsdaten und sicherheit
dl052: wie werden (exo-)planeten gefunden?
dl050: gesellschaft, datenmüll und fahradfahren
datenleben-Tutorials
Wie erstelle ich Plots in R mit ggplot?
Einfache boxplots mit R erstellen
Quellen Jahresrückblick
tagesschau.de: Premier mit 34 Jahren - wer ist Gabriel Attal?
wikipedia.org: Proteste gegen Rechtsextremismus in Deutschland und Österreich 2024
correctiv.org: Geheimplan gegen Deutschland
idw-online.de: Prof. Dr. Katharina Lorenz wird Präsidentin der JLU
tagesschau.de: Strafe von mehr als 350 Millionen Dollar für Trump
swr.de: Nach Festnahme von Ex-RAF-Terroristin Klette: Experte aus BW rechnet mit weiteren Überfällen
tagesschau.de: Schweden ist 32. Mitglied der NATO
wikipedia.org: Anschlag in Krasnogorsk
tagesschau.de: US-Behörden gehen von Unfall aus
Bundesministerium für Gesundheit: Fragen und Antworten zum Cannabisgesetz
Bundeszentrale für politische Bildung: Gedenken an den Völkermord in Ruanda
spektrum.de, Daniel Lingenhöhl: Polarlichter über Deutschland
tagesschau.de: Norwegen erkennt Palästina als Staat an
tagesschau.de: Sonde mit Mondgestein auf dem Weg zur Erde
Amnesty International: "Ein Sieg für die Liebe und die Menschenrechte": Namibia hebt diskriminierende Anti-LGBTI-Gesetze auf
deutschlandfunk.de: Messenger ICQ wird nach mehr als 27 Jahren eingestellt
tagesschau.de: Befestigte Deckel ab heute Pflicht
wikipedia.org: Attentat auf Donald Trump
Bundesministerium für Sicherheit in der Informationstechnik: CrowdStrike: Welche Folgen der IT-Ausfall für deutsche Unternehmen hatte
wikipedia.org: Erdüberlastungstag
mdr.de: WHO ruft wegen Mpox weltweite Notlage aus, erster Fall in Europa
tagesschau.de: Hafenstadt ruft wegen toter Fische Notstand aus
nzz.ch: Täter oder auch Opfer? Im Dieselskandal beginnt der Prozess gegen den ehemaligen VW-Konzernchef Martin Winterkorn
wikipedia.org: Explosionen von Pagern und Walkie-Talkies der Hisbollah
tagesschau.de: Zahl der Toten nach Überflutungen in Nepal steigt
wikipedia.org: Stromausfall in Kuba 2024
UN Environment Programme: Emissions Gap Report 2024
bundesregierung.de: Selbst über das eigene Geschlecht bestimmen
wikipedia.org: Präsidentschaftswahl in den Vereinigten Staaten 2024
bundesregierung.de: Kanzler Scholz zur Entlassung des Finanzministers Christian Lindner
wikipedia.org: Kabinett Barnier
tagesschau.de: Islamisten erklären Damaskus "frei von Assad"
bundestag.de: Vertrauensfrage und vorzeitige Neuwahlen
Themen
recht-im-internet.de: Pressemitteilung von LAION e.V. und Heidrich Rechtsanwälte
scinexx.de: Starlink: Neue Satelliten stören Radioastronomie noch mehr
aanda.org, Bassa et al.: Bright unintended electromagnetic radiation from second-generation Starlink satellites
wikipedia.org: Radioastronomie
nature.com, Qiming Shao et al.: Efficient AI with MRAM
wikipedia.org: Ferromagnetismus
pnas.org, J. J. Hopfield: Neural networks and physical systems with emergent collectivecomputational abilities
wikipedia.org: Ising model
youtube.com, Computerphile: Nobel Prize in Physics (& Computer Science?) - Computerphile
wikipedia.org: Boltzmann-Maschine
wikipedia.org: Liste von Hochwasser-Ereignissen. Hochwasser-Ereignisse im 21. Jahrhundert
orf.at: Hunderttausende im Südsudan vertrieben
tagesschau.de: Weitere Tote und neue Unwetterwarnung in Spanien
wikipedia.org: Hochwasser in Mitteleuropa im September 2024
European Severe Weather Database
wikipedia.org: Verordnung über künstliche Intelligenz
Schlagworte zur Folge
Data Science, Podcast, Jahresrückblick, 2024, Urheberrecht, Künstliche Intelligenz, Neuronale Netze, Machine Learning, Unwetter, Klima, Klimakrise, Physik, Nobelpreis, Physiknobelpreis, Radioastronomie, Satelliten
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 56. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch mitnehmen in die Welt der Daten. Was ist Data Science? Was bedeuten die Daten für unser Leben? Woher kommen sie und wozu werden sie benutzt? Das sind alles Fragen, mit denen wir uns auseinandersetzen. Wer schon immer mehr über Daten und deren Effekte auf unser Leben wissen wollte, ist hier genau richtig.
Thema der Folge (00:00:40)
Janine: Und damit willkommen zum traditionellen Jahresrückblick, inzwischen unser fünfter in dieser Art. Und ja, wie gewohnt, falls ihr den schon mal gehört habt, werden wir mit einem kleinen Schnelldurchlauf durch das Jahr 2024 starten mit einer Auswahl an Dingen, die so passiert sind. Zumindest soweit, wie es bis zu diesem Tag jetzt halt schon passiert ist. Für die restlichen zwei bis drei Wochen des Jahres können wir leider noch nicht preisgeben, was passieren wird. Ja, danach reflektieren wir wieder ein bisschen unser Podcastjahr. Wir werfen nochmal einen Blick auf die Themen, die wir hatten und welche Folgen wie so ankamen bei euch, bei uns. Ja, und wollen euch auch noch kurz ein neues Format vorstellen. Und dann geht es an die eigentlichen Themen, wie immer ein bisschen related zu dem, was uns selbst interessiert, als auch zu dem, was wir wahrscheinlich dieses Jahr oder sogar auch davor schon in anderen Folgen angesprochen haben. Vielleicht kleine Ergänzungen, so als Teaser, welche Themen da auf euch zukommen heute. Ist zum einen etwas Kurzes, Rechtliches zum Laion-Datensatz. Zum Physik-Nobelpreis gibt es ein paar Worte von Helena und ich habe mir Themen rausgepickt, die sich mit Unwettern und Satelliten beschäftigen. Und zum Abschluss wollen wir dann natürlich auch wieder ein bisschen überlegen, was uns wohl im neuen Jahr erwartet. Wahrscheinlich wird das wieder nicht sehr akkurat werden oder bedeuten, das Thema KI wird immer größer. Aber mal schauen, was am Ende so passiert.
Warum ist das Thema interessant? (00:02:19)
Helena: Ja, wir machen einfach wieder einen Jahresrückblick, weil wir mit dieser Tradition angefangen hatten, als wir den Podcast gestartet haben. Und wir machen jetzt einfach damit weiter. Außerdem ist das eine gute Gelegenheit, um mal ein paar ergänzende Dinge auch zu alten Folgen nochmal zu sagen bzw. auch mal Themen anzuschneiden, die keine ganze Folge wert wären oder was heißt wert wären, über die wir keine ganze Folge machen.
Einspieler: Jahresrückblick - 2024 im Schnelldurchlauf (00:02:45)
Janine: Jahresrückblick 2024 im Schnelldurchlauf
* 8. Januar: Die französische Premierministerin Elisabeth Borne tritt zurück. Ein Tag darauf, am 9. Januar, wird Gabriel Attal zum neuen Premierminister von Frankreich ernannt. Er ist mit 34 Jahren der bisher jüngste in diesem Amt.
* Januar: Nie wieder ist jetzt. In Deutschland finden seit Mitte Januar zahlreiche Demonstrationen gegen Rechtsextremismus statt. Sie werden über mehrere Wochen anhalten. Am Wochenende des 20. und 21. Januars demonstrieren über 900.000 Menschen. Es wird von der größten Protestserie in der Bundesrepublik Deutschland gesprochen. Schließlich weiten sich die Proteste auch auf Städte in Österreich aus. Auslöser war die Veröffentlichung einer Recherche von Correktiv mit dem Titel "Geheimplan gegen Deutschland". Sie berichten über ein heimlich abgehaltenes Treffen von Rechtsextremisten, das im November 2023 in Potsdam stattfand.
* 24. Januar: An der Justus-Liebig-Universität Gießen wird die Archäologin Katharina Lorenz zur Präsidentin gewählt. Sie wird damit die erste Frau an der Spitze der über 400 Jahre alten Universität.
* 16. Februar: In New York City wird der ehemalige und inzwischen wiedergewählte US-Präsident Donald Trump wegen Finanzbedrohung zu einer Geldstrafe von über 350 Millionen Dollar verurteilt.
* 26. Februar: Die ehemalige RAF-Terroristin Daniela Klette wird festgenommen.
* 7. März: Schweden wird das 32. Mitglied der NATO.
* 22. März: Im russischen Ort Krasnogorsk wird ein Konzert Ziel eines Anschlags. In der Crokos City Hall sterben über 140 Personen und mehrere hundert werden verletzt.
* 26. März: USA In Baltimore fährt ein Containerschiff gegen die Francis Scott Key Bridge, woraufhin diese einstürzt.
* 1. April: Deutschland. Das Cannabis-Gesetz, das Cannabis in Deutschland unter bestimmten Voraussetzungen legalisiert, tritt in Kraft.
* 7. April: Ruanda Zum 30. Jahrestag findet ein Gedenken an den Völkermord an den Tutsis in Ruanda im Jahr 1994 statt.
* 11. Mai: Der stärkste Sonnensturm seit 2003 trifft in der Nacht vom 10. auf den 11. Mai auf die Atmosphäre der Erde, und die davon ausgelösten Polarlichter sind weithin auch in Mitteleuropa sichtbar.
* 28. Mai: Irland, Norwegen und Spanien geben die Anerkennung Palästinas als Staat bekannt.
* 3. Juni: Eine Sonde der Nationalen Raumfahrtbehörde Chinas konnte Gesteinsproben auf der Mondrückseite sammeln und Richtung Erde auf den Weg bringen.
* 21. Juni: Namibia. Ein Gesetz, das homosexuelle Handlungen zwischen Männern verbot, wird vom obersten Gericht des Landes für verfassungswidrig erklärt.
* 28. Juni: Der vor rund 20 Jahren beliebte Instant-Messenger ICQ wird abgeschaltet.
* 3. Juli: In der EU tritt eine neue Richtlinie in Kraft. Sie schreibt für alle Mitgliedstaaten vor, dass Deckel fest mit der Flasche verbunden sein müssen, wenn es sich um eine Kunststoffflasche handelt.
* 13. Juli: USA Bei einer Wahlkampfveranstaltung in Pennsylvania wird ein Attentat auf Donald Trump verübt, der dabei am Ohr verletzt wird.
* 19. Juli: Weltweite IT-Ausfälle führen zu gestrichenen Flügen, ausgefallenen Servern und PCs. Zahlreiche Unternehmen müssen ihre Beschäftigten nach Hause schicken. Ursache ist ein fehlerhaftes Update einer Sicherheitssoftware des Unternehmens CrowdStrike.
* 1. August: Erdüberlastungstag 2024. Der 1. August ist der errechnete Tag des Jahres 2024, an dem der Verbrauch und Bedarf an Rohstoffen das übersteigt, was die Erde in diesem Jahr geben oder regenerieren kann.
* 14. August: Die Weltgesundheitsorganisation hat aufgrund der Ausbreitung einer neuen M-Pox-Virus-Variante in Afrika eine weltweite Notlage ausgerufen.
* 31. August: Griechenland In der griechischen Stadt Volos wurde der Notstand ausgerufen, weil mehrere Tonnen toter Süßwasserfische aus überschwemmten Gebieten durch einen kleinen Fluss in den Hafen von Volos gespült wurden.
* 3. September: Braunschweig. Erster Prozestag am Landgericht Braunschweig gegen den ehemaligen Vorstandsvorsitzenden der Volkswagen AG Martin Winterkorn. Gegenstand des Prozesses ist der 2015 aufgedeckte Abgas-Skandal.
* 17. und 18. September: Libanon. Zahlreiche Pager und Walkie-Talkies der Hisbollah werden zeitgleich zur Detonation gebracht. Dabei werden mehr als 3.000 Menschen verletzt.
* 30. September: Nepal. Durch heftigen Monsunregen über mehrere Tage kommen im Gebiet Kathmandu fast 200 Menschen ums Leben.
* 18. Oktober: Kuba. Ein landesweiter Stromausfall erzeugt einen Blackout, der über zwei Tage andauert. Es dauert insgesamt vier Tage, bis die Stromversorgung landesweit wieder einigermaßen hergestellt ist. Ursache war ein Ausfall des größten Kraftwerks des Landes.
* 24. Oktober: Das Umweltprogramm der Vereinten Nationen veröffentlicht seinen jährlichen "Emissions Gap Report". Darin wird festgestellt, dass eine Fortsetzung des derzeitigen Verhaltens bei der Reduzierung der Treibhausgase zum katastrophalen Temperaturanstieg um bis zu 3,1 Grad Celsius führen kann.
* 1. November: Deutschland. Das Selbstbestimmungsgesetz tritt in Kraft. Damit können Personen ihren Geschlechtseintrag und Namen beim Standesamt auf Basis einer Selbstauskunft mit Eigenversicherung ändern lassen. Dadurch entfallen sowohl eine gerichtliche Entscheidung als auch ein Sachverständigengutachten, wie es bisher vom außer Kraft gesetzten Transsexuellengesetz vorgeschrieben war.
* 5. November: USA Donald Trump gewinnt mit 312 Wahlleuten gegen Kamala Harris mit 226 Wahlleuten die Wahlen zum nächsten Präsidenten der Vereinigten Staaten.
* 6. November: Deutschland. Bundeskanzler Olaf Scholz entlässt Bundesfinanzminister Christian Lindner aus seiner Regierung und kündigt an, die Vertrauensfrage zu stellen. Damit zerbricht die Ampel-Koalition und das Gespräch wird schnell auf mögliche Neuwahlen gelenkt.
* 4. Dezember: Frankreich. Die französische Nationalversammlung spricht der Regierung von Premierminister Michel Barnier das Misstrauen aus. Das Kabinett Barnier war lediglich drei Monate lang die amtierende Regierung der Französischen Republik. Die vorangegangene Regierung unter Premierminister Gabriel Attal bestand immerhin acht Monate. Am 13. Dezember wird mit François Bayrou bereits zum dritten Mal ein Premierminister Frankreichs im Jahr 2024 ernannt.
* 8. Dezember: Syrien. Es wird gemeldet, dass der syrische Machthaber Bashar al-Assad aus dem Land geflohen ist. Der Regierungschef Mohamed al-Djalali erklärte seine Bereitschaft für eine Machtübergabe an eine durch das syrische Volk bestimmte Regierung.
* 16. Dezember: Deutschland. Bundeskanzler Olaf Scholz stellt im Bundestag die Vertrauensfrage und verliert diese. Daraufhin schlägt er den Bundespräsidenten Dr. Frank-Walter Steinmeier vor, den Bundestag aufzulösen. Entscheidet dieser sich dafür, müssen innerhalb von 60 Tagen Neuwahlen stattfinden.
datenleben in 2024 (00:09:54)
Janine: 2024 ist schon gefühlt wieder länger als es eigentlich möglich ist, wenn man sich so die Punkte anguckt, was alles in diesem Jahr schon so war. Und ähnlich ging es mir auch ein bisschen beim Überlegen, welche Themen hatten wir eigentlich dieses Jahr im Podcast überhaupt. Mal schauen, was wir da so finden. Es gibt zumindest immer wieder Folgen, die mir zum Beispiel ein bisschen mehr im Kopf bleiben als andere. Und deswegen ist es immer ganz lustig zu gucken, was eigentlich noch so drumrum passiert ist. Und um jetzt nicht einfach alle Folgen aufzuzählen, die wir gemacht haben, haben wir geschaut, was bei euch am beliebtesten war anhand der Downloadzahlen. Und da haben wir zwei Kategorien, einmal die drei meistgehörten Folgen über alle Jahre und einmal die drei meistgehörten Folgen in 2024, die auch 2024 veröffentlicht wurden.
Helena: Ja, was wäre das denn?
Meistgehörte Folgen über alle Jahre (00:10:48)
Janine: Über alle Jahre ist die Folge 43 Perspektiven auf Data Science an Platz 3 aktuell. Wir haben in der Folge drei Personen aus dem Bereich Data Science interviewt, um einfach mal ein bisschen die Vielfalt einzufangen, was Menschen als Data Scientists machen, wie sie dorthin gekommen sind und solche Dinge. Also ja, was interessiert oder begeistert euch am meisten an dem, was ihr tut, ist im Wesentlichen die Frage, die wir da gestellt haben und haben drei wunderbare Interviews zusammenbekommen. An Platz 2, wenig überraschend und ich glaube, auch in Folge, ist die Folge 21 gelandet, Python lernen. In der haben wir mit Piko darüber gesprochen, ja, über die Programmiersprache Python allgemein ein bisschen, aber vor allem, wie am besten der Einstieg ins Lernen von Python gelingen kann. Denn ja, Python ist eines der vielen Data Science Tools und deswegen war es auch mal sehr cool, darüber eine Folge zu machen. Und unter den All-Time Favorites, eigentlich wie immer und fast völlig logisch, ist die allererste Folge. Die wird eben einfach am meisten angeklickt. Nicht alle bleiben dann, aber ihr hattet hoffentlich alle Spaß, was ihr nie hören würdet, wenn ich das hier jetzt sage, aber egal. Ja, Folge 1, Data Science. Da geht es einfach darum, dass wir Data Science ein bisschen allgemeiner vorstellen und warum wir finden, dass das ein wichtiges Thema ist und was da alles so zugehören kann. Wir haben allerdings tatsächlich auch mal zum Zweijährigen eine Neuauflage, eine Einstiegsfolge gemacht. Das ist Folge 27, Data Science, zwei Jahre Datenleben. Da könnt ihr auch gerne mal reinhören, falls ihr weder die eine noch die andere bisher kennt.
Helena: Ja, ich meine, die erste Folge war die erste Folge und keine Ahnung, warum ausgerechnet die so viel gehört wird, wenn, da waren wir noch nicht so eingespielt, keine Ahnung.
Janine: Ja, aber es ist ja oft so. Es gibt zwei Arten, einen neuen Podcast kennenzulernen. Man hört die erste Folge und hört ihn danach vielleicht nie wieder oder suchtet alle Folgen durch oder man hört eine der neueren Folgen und bleibt dann dabei, hört aber nicht so viel von den älteren jemals nach.
Helena: Ja, ich weiß nicht. Ich habe schon, wenn ich den Podcast komplett durchgehört habe, mit den aktuellen angefangen. Wenn man dann weiß, wo man hinkommt und dann zurückgeht, dann ist es irgendwie auch eher zu verzeihen, wenn dann die Qualität noch nicht so hoch ist.
Janine: Ja, das stimmt.
Helena: Wie später, so ging es mir zumindest. Gut, das waren ja jetzt alles drei Folgen, die schon mehr als ein Jahr alt sind, wenn auch unser Platz 3 jetzt nur gerade so etwas über ein Jahr alt ist.
Meistgehörte Folgen 2024 (00:13:30)
Helena: Was waren denn die meistgehörten Folgen von diesem Jahr?
Janine: Ja, an Platz 3 ist gelandet ADHS, Häufigkeit und Diagnosen, Folge 51. Da reden wir ein bisschen über ADHS eben, Aufmerksamkeitsdefizit Hyperaktivitätsstörung, wie es ausgesprochen so schön heißt. Und ja, das ist ein Thema, das auch so ein bisschen Relevanz hat, weil es vor allem im Bereich Social Media recht viel Erwärmung findet. Und wir haben uns eben damit beschäftigt, inwiefern Diagnosen vielleicht wirklich häufiger gestellt werden, weil das immer so ein Thema ist, das da mitschwingt. Und dafür haben wir uns einfach verschiedene Studien angesehen. Und das ist tatsächlich eine auch für mich sehr spannende Folge gewesen.
Helena: Joa.
Janine: Auf Platz 2 ist gelandet Folge 47, Starkregen. Da haben wir uns die Frage gestellt, was ist dieser Starkregen eigentlich? Und auch so ein bisschen ausgehend davon, dass es halt tatsächlich ein Starkregenereignis im Jahr davor gab, das ich zum Beispiel persönlich mitbekommen habe. Deswegen war es mir auch irgendwie ein Anliegen, dieses Thema zu machen. Und ja, wir haben uns dann mit Starkregen-Gefahrenkarten befasst und vor allem mit der Frage, wie solche Sachen uns dabei helfen können, Risiken und Warnmeldungen einzuschätzen, die ja meist immer mit irgendwelchen Zahlen um sich werfen. Von daher war das ein ganz essentielles Thema in diesem Jahr. Und deswegen freue ich mich auch, dass es an Platz 2 gelandet ist.
Helena: Ja, Platz 1 hat mich dann doch irgendwie überrascht.
Janine: Ja, es ist auch sort of ein essentielles Thema, aber auf eine andere Art und Weise. Auf Platz 1 ist gelandet Folge 46, Kaffee.
Helena: Ja, Kaffee. Da wollte ich drüber reden, weil ich mich für Kaffee interessiert habe und ein bisschen mehr wissen wollte. Und offenbar ist das auch bei euch sehr gut angekommen.
Janine: Ja, und in der Folge geht es anfangs vor allem darum, wie sich so der Kaffeekonsum entwickelt hat, und wir enden damit, was die Klimakrise für eine Auswirkung auf den Kaffeeanbau haben könnte. Spoiler, nicht so gute, hört einfach mal rein, es ist sehr interessant.
Helena: Ja, man sieht ja im Moment schon, dass die Kaffeepreise steigen. Mal gucken.
Unsere Lieblingsfolgen in 2024 (00:16:07)
Janine: Gut, das waren sozusagen eure Lieblingsfolgen, die ihr unabsichtlich gewählt habt. Und dann bleibt für diesen Abschnitt eigentlich nur noch die Frage, was waren denn so unsere Lieblingsfolgen? Helena, welche würdest du wählen aus den 2024er-Folgen?
Helena: Ja, also bei mir ist das ganz einfach. Die Folge, die mich inhaltlich am meisten interessiert hatte, war die über die Vesuv-Challenge, bei der es darum ging, wie man 2000 Jahre alte Schriftrollen wieder lesbar machen kann. Ja, das ist ja so ein Wettbewerb, wo die Schriftrollen wurden durchgemessen, aber man kann, weil sie verkohlt sind, nicht einfach sie aufrollen und lesen. Und wir behandeln dann das Thema, wie man sie halt mit künstlicher Intelligenz wieder lesbar machen könnte. Und man hat ja auch schon durchaus im letzten Jahr die ersten Abschnitte lesbar bekommen. Dieses Jahr ist das Ziel von der Challenge, dass man auch gleich eine ganze Schriftrolle lesbar machen kann. Das ist bisher noch nicht gelungen. Ja, das fand ich auf jeden Fall ganz faszinierend und ich hoffe darauf, dass man über das, was bei dieser Challenge gelernt wird, dann in die Lage kommt, sehr viele von diesen Schriftrollen lesbar zu machen und dann Texte aus der Griechen- und Römerzeit zu bekommen, von denen man wusste, dass es sie gibt, aber die man nicht kannte. Und ich bin sehr gespannt, was da kommt. Und natürlich sind auch Texte interessant, von denen man nicht wusste, dass es sie gibt. Aber es gibt halt auch sehr viele Referenzierungen in Texten, die man kennt, auf andere, die man nicht mehr hat. Ja, ich bin gespannt.
Janine: Ja, ich auf jeden Fall auch. Prinzipiell hätte ich diese Folge auf jeden Fall auch gewählt, weil, wie du sagst, es ist einfach ein super spannendes Thema, das so sehr weit in die Vergangenheit zurückliegende Dinge betrifft, die aber gleichzeitig eben einfach mit den modernsten Methoden wieder erschlossen werden können und rein theoretisch eigentlich als bereits verloren galten. Das ist einfach ein super interessantes Forschungsfeld und deswegen war diese Folge auch für mich sehr spannend. Um nicht die gleiche zu nennen, für mich ist es tatsächlich dann die Starkregen-Folge, weil ich finde, die hatte für mich persönlich den meisten praktischen Bezug und ich hoffe auch, dass ein paar andere Menschen auch was daraus mitgenommen haben, zum Beispiel den Umgang mit so Gefahrenkarten in Abschätzung mit dem, was so in der Warnmeldung drinsteht, wie viel Milliliter Regen in welcher Zeit fällt und so weiter. Weil ich denke, das ist ein ganz essentielles Thema, das viele Menschen noch weiter beschäftigen wird und zwar nicht nur solche, die an Flüssen leben, sondern eben auch solche, die in Städten leben, die dazu neigen, bei sehr, sehr, sehr viel Regen durchaus mal vollzulaufen.
Janine: Gut, das war, was Datenleben so in 2024 thematisch grob ausgemacht hat.
Neues Format - Tutorials (00:18:55)
Janine: Aber wir haben auch wieder mit einem neuen Format herum experimentiert, das wir an dieser Stelle kurz vorstellen möchten. Helena, erzähl doch mal, was gibt es Neues?
Helena: Ja, wir haben jetzt angefangen, man könnte sagen, Data Science Tutorials zu machen. Also genauer geht es erstmal darum, wie man Grafiken und Plots mit R erstellt. Wir hatten ja schon eine Folge über R und ggplot gemacht und im Grunde genommen geht es bei dieser YouTube-Reihe darum, einfache Plots erstmal zu erklären und wer da einen Einstieg finden möchte, kann das eben über diese Episoden tun.
Janine: Und ich denke, der Reiz daran ist vor allem, dass es auch deutschsprachige Tutorials sind. Viele Tutorials findet man ja immer nur im englischsprachigen Bereich und manchmal ist es ja auch ganz angenehm, das vielleicht in der eigenen Sprache zu hören und nicht umzudenken oder umdenken zu müssen, gerade für Menschen, die sich mit etwas Neuem beschäftigen wollen. Und anders als unsere Podcast-Folgen fassen wir uns, beziehungsweise fasst Helena sich darin sehr kurz. Sie gehen so circa 10 Minuten.
Helena: Ja, geht halt um kurze Einführungen in spezielle Themen, was man so plotten kann und da soll man halt auch schnell zum Punkt kommen. Also ich finde Tutorials, wo man erstmal irgendwie eine halbe Stunde gucken muss oder überspringen muss, wie jemand irgendwie ein Programm öffnet, sehr mühselig und finde es schwer, denen zu folgen. Mir ist es daher wichtig, schnell zum Thema zu kommen und nur das zu behandeln und nicht so viel drumherum.
Janine: Absolut.
Was nehmen wir mit aus 2024? (00:20:30)
Janine: Ja, das war der Abschnitt zum Podcast selbst. Dann kommen wir nochmal dazu, welche Themen wir in 2024 so gefunden haben, die wir hier im Jahresrückblick nochmal ansprechen wollen. Es gibt da wieder ein paar Sachen, die eben auch Themen aus den diesjährigen Folgen oder sogar früheren Folgen aufgreifen und da gebe ich auch mal direkt an Helena ab mit dem ersten Thema.
Laion Datensatz (00:20:53)
Helena: Ja, wir hatten ja vor zwei Jahren eine Folge zum Thema Stable Diffusion und Bildgenerierung gemacht. Und das basierte, also das Training von diesen Modellen basierte dabei auf einem Datensatz, dem sogenannten Laion-Datensatz, der im Wesentlichen eine Liste von Links zu Bildern im Internet ist und zusätzlich zu der Link-Liste auch noch eine Liste, Auflistung der Beschreibungstexte, die zu diesen Bildern existiert. Und unsere naive Einschätzung war das, weil es wurden verschiedene, ja, juristische Schritte dagegen angekündigt. Da war unsere naive Einschätzung, dass das wahrscheinlich völlig in Ordnung ist, weil man hier keine Urheberrechtsverletzung begeht, weil man ja nur die Bilder verlinkt und das Ganze eben über das Data-Mining-Gesetz abgedeckt sein dürfte. Und das wurde jetzt auch gerichtlich bestätigt. Im Wesentlichen wurde dabei dann festgestellt, wenn Leute auf dieser Liste Bilder haben, dann müssen sie selber technisch sicherstellen, dass die dann nicht zugreifbar mehr sind. Und sie können nicht verlangen, dass sie einfach nur davon gelöscht werden oder so. Ja, da müssen wir mal gucken, wie das dann in der Praxis aussieht, wie diese technischen Maßnahmen aussehen. Ob hier überhaupt eine Robots-TXT ausreichen würde als Widerspruch, das weiß ich nicht, das stand da jetzt nicht. Eventuell muss man dann die Links auch irgendwie noch anders absichern, also die Bilder.
Starlink und die Radioastronomie (00:22:22)
Janine: Ja, dann mache ich mal weiter mit einem Thema, das so entfernt mit Themen zu tun hat, die wir schon mal angesprochen haben, aber sich zumindest im ... ha ha ... gleichen Kosmos bewegt. Und zwar geht es um Starlink und den Himmel über uns. Wir hatten ja durchaus das ein oder andere Weltraumthema bereits in Folgen, unter anderem auch dieses Jahr die Exoplaneten-Folge oder auch in Folge 50, meine ich, hatten wir einen kurzen Abschnitt zur Voyager-Sonde und der Reparierung, Reparatur über entfernteste Distanzen, die Maschinen, Menschen und so weiter kommunikativ zurückgelegt haben. Und Starlink hat jetzt nicht konkret was genau damit zu tun, aber ist eben auch ein spannendes Weltraumthema. Deswegen habe ich das einfach mal fröhlich mit reingenommen. Und zwar ist es so, dass es die Satelliten der zweiten Generation gibt und diese neueren Satelliten stören die Radioastronomie, also den nicht-visuellen Blick sozusagen ins Weltall, nämlich damit, dass sie 30 mal mehr und breiter verteilte Radiostörstrahlung emittieren und dadurch eben Radioastronomie gestört wird. Radioastronomie ist deswegen ganz sinnvoll, weil sie sich auf bestimmte Gebiete beim Untersuchen des Weltalls konzentriert, sowas wie die Sonne und andere Körper im Sonnensystem. Es werden damit Supernova-Reste und Pulsare untersucht, interstellare Gase und Gasnebel, sowie auch das galaktische Zentrum der Milchstraße, Quasare, Radiogalaxien und so ein Zeug. Also all die spannenden Sachen, über die wir gerne mehr Dinge erfahren wollen. Und ja, die Starlink-Satelliten haben aber jetzt eine höhere Strahlung als die der Generation davor und deswegen überlagern sie die Frequenzbereiche, in denen Radioastronomie praktiziert wird. Also die schwächeren kosmischen Radioobjekte, die es gibt, können nicht mehr gefunden werden mittels Radioastronomie, weil die Starlink-Satelliten einfach diese Objekte überstrahlen. Sie werden dadurch quasi unsichtbar. Und Forschende sprechen davon, dass die Menschheit ihr Fenster ins All verlieren könnte, weil wir kennen ja die Starlink-Problematik durchaus schon. Es sind unglaublich viele Satelliten, die den Nachthimmel erhellen können, je nachdem auch auf welcher Höhe der Orbit liegt. Und allein durch das Licht, was von ihnen abgestrahlt wird, stören sie schon die visuelle Erfassung vom Weltraum und eben jetzt aber auch vermehrt durch die Strahlung. Das Problem ist halt, dass sie reservierte Frequenzbereiche stören. Also die Radioastronomie hat eigentlich einen Frequenzbereich, auf dem sie gesichert arbeiten können, der ist dafür reserviert und darf eigentlich nicht überlagert werden, aber quasi versehentlich als Abfallprodukt tun das eben die Starlink-Satelliten aktuell. Und das wurde an einem niederländischen Institut für Radioastronomie untersucht und die kamen halt zu dem Ergebnis, dass es eben inzwischen deutlich höhere Strahlung gibt. Die Untersuchung haben wir auch verlinkt, da könnt ihr gerne reingucken. Und ja, was das ganze Problem verschlimmert, ist, dass die Satelliten inzwischen auf niedrigeren Orbits kreisen und dadurch die Störung eben noch verstärkt wird, weil sie ja auch näher an den Antennen sind, mit denen die Radioastronomie betrieben wird. Und die Forschenden rechnen einfach damit, dass das Problem noch schlimmer wird, weil Starlink nicht der einzige Anbieter von Satelliten für verschiedene Dienste ist. Und je mehr Satelliten dazukommen werden, desto größer ist natürlich auch der Bereich der Störung. So ein bisschen entsteht das Problem auch vor allem daraus, dass die Forschungsinteressen auch so weit spezialisiert sind, dass sie immer schwieriger zu erfassende Bereiche mitbekommen wollen. Das heißt, sie wollen einfach noch feinere Signale empfangen können, die jetzt natürlich noch mehr die Gefahr laufen, überlagert zu werden. Und ja, da sagen die Forschenden einfach, wir sind auf die Kooperation mit den Satellitenbetreibern angewiesen, damit das vielleicht wieder funktionieren kann. Und da soll SpaceX übrigens auch sehr drauf aus sein, da gemeinsam Lösungen zu finden, was auch als gut bewertet wird. Weil wenn die Starlink-Satelliten besser werden und ausgearbeiteter werden in dieser Hinsicht, dann kann das natürlich auch auf weitere Unternehmen und Unternehmungen abfärben. Ja, was ich an dem Thema halt interessant finde, ist, dass je besser und detaillierter die Forschung wird, desto schwieriger hat sie es sich auch mit den Nebeneffekten anderer technologischer Dinge auseinanderzusetzen. Also einige Bereiche wachsen einfach, wir haben mehr regenerative Energien, auch Windräder oder Parks. Windparks können die Radioastronomie stören, wenn sie zu nah dran sind. Sogar die eigene Serverleistung oder Geräte direkt am Ort der Antenne kann so etwas schon stören und es muss alles isoliert voneinander durchgeführt werden, sodass halt einfach auch klar ist, je besser die Technik wird und je spezialisierter das Interesse wird, desto schwieriger wird es auch, die unterschiedlichen Effekte gegeneinander aufzuwiegen. Finde ich, eigentlich sieht man sehr schön an diesem Thema. Wir wollen immer weiter und detaillierter gucken und brauchen dafür immer bessere Geräte gleichzeitig erzeugen, aber auch das technologische Wachstum erzeugt auch wiederum Störungen. Ja, es ist so ein bisschen ausbalancieren mit der Zeit wahrscheinlich.
Physiknobelpreis für Neuronale Netze (00:28:01)
Helena: Ja, Radioastronomie war ja schon ein sehr physikalisches Thema. Machen wir damit doch weiter und gehen zum Physik-Nobelpreis, der auf den ersten Blick erstmal überhaupt nichts mit Physik zu tun hat. Und zwar gibt es dieses Jahr den Physik-Nobelpreis für neuronale Netze. Und zwar haben der Physiker Hopfield und der Informatiker Hinton den Physik-Nobelpreis bekommen, ja, dafür, was sie an Pionierarbeit im Bereich der neuronalen Netze geleistet haben, die ja heutzutage die Grundlage der ganzen Dinge wie chatGPT stellen. Die Frage, die sich sehr viele Leute dabei stellen, ist, was hat das Ganze jetzt mit Physik zu tun? Und um das zu erklären, starten wir jetzt bei Magneten. Weil Magneten eindeutig sehr viel mit Gehirnen zu tun haben. Gut, also bei Magnetismus gibt es verschiedene Formen von Magnetismus und die Form, auf die wir uns heute konzentrieren, ist die Form des Ferromagnetismus. Das ist ja die Art von Magnetismus, bei der es darum geht, ja, warum ist ein Objekt magnetisch, einfach so, so ein Permanentmagnet, und warum zieht der ein Stück Eisen an? Das war tatsächlich lange Zeit ein offenes Thema der Physik, obwohl Magneten schon sehr lange bekannt waren. Aber man hat erst in den 1920er Jahren ein quantenphysikalisches Phänomen entdeckt namens Elektronenspin. Und den hat man eben über magnetische Effekte gefunden. Ja, vereinfacht kann so ein Spin eben in zwei Richtungen zeigen, und zwar hoch und runter, und das wird dann gerne mit 1 und -1 dargestellt. Und ja, in den 1920er Jahren hat dann eben der Physiker Ising in seiner Doktorarbeit das sogenannte Ising-Modell entwickelt. Das Ising-Modell ist eine vereinfachte Form der Formeln, mit denen man Magnetismus beschreiben kann, weil man eben das Problem hat, ja, so ein Material besteht halt aus vielen, vielen Milliarden und Milliarden Teilchen, und jeder kann davon irgendwie so einen Elektronenspin in eine Richtung haben, und das ist dann auch noch abhängig, wie die Wechselwirkungen voneinander mit dem Abstand und so weiter. Und um das Ganze irgendwie einfach berechnen zu können, geht jetzt dieses Ising-Modell davon aus, dass man eben Elektronenspin nur mit 1 und -1 beschreibt und sich im Wesentlichen nur dann Objekte stark miteinander wechselwirken, wenn sie direkt nebeneinander sind. Und wenn sie weiter weg sind, dann haben sie keinen Einfluss aufeinander. Und was man jetzt eben macht, ist, man rechnet dann die Summe all dieser Elektronenspins aus, beziehungsweise nicht genau dieser Elektronenspins, sondern eben der Energie. Und in dieser Summe tauchen eben die Elektronenspins auf und wie sie miteinander wechselwirken. Die Idee ist jetzt, dass so ein Objekt magnetisch ist, wenn sehr viele dieser Spins in die gleiche Richtung gucken. Also wenn man jetzt irgendwie ein Stück Eisen hat und das kommt in die Nähe von einem Magnetfeld, also in die Nähe von einem Magnet, dann richten sich in diesem Stück Eisen eben diese ganzen Spins in eine Richtung aus. Aber dadurch, dass die nicht sozusagen eingefroren sind in einem normalen Stück Eisen und wenn man das Stück Eisen dann wieder wegbewegt, ja, bekommen die wieder ihre zufällige Struktur und dann ist dieses Stück Eisen nicht mehr magnetisch. Wenn das Stück Eisen jetzt aber bestimmte andere Eigenschaften hat, die es begünstigen, dass es dann größere Zellen gibt, wo alle Spins in die gleiche Richtung zeigen, dann kann man eben ein Stück Eisen auch magnetisieren. Und die Besonderheit von diesem Modell ist jetzt, dass es verschiedene Zustände gibt, die jeweils stabil sind. Also in der Physik will alles immer in den energetisch niedrigsten Zustand, also den Zustand mit der niedrigsten Gesamtenergie. Aber es gibt dann oft die Hürde, dass es dann viele Energiezustände gibt, die lokal niedrig sind, aber das heißt nicht, dass sie global auch die niedrigsten sind. Und wenn man jetzt einmal in so einem lokalen Minimum ist, dann muss man auch wieder Energie aufwenden, um da wieder rauszukommen. Eine Möglichkeit eben Energie aufzuwenden ist, wenn man etwas heiß macht. Also Hitze führt dazu, dass diese Elektronenspins sich zufällig immer wieder umkehren, obwohl das eigentlich ihrem normalen Energiezustand widersprechen würde. Und es gibt dann in dem Magnetismus die sogenannte Curie-Temperatur. Das ist die Temperatur, ab der ein Magnet nicht mehr magnetisch ist, weil dann die thermische Energie hoch genug ist, eben einen Phasenübergang zu erzeugen von magnetisch zu nichtmagnetisch. Und was jetzt dieser Ising versucht hatte, ist eben mit seinem Ising-Modell in einer Dimension diese Phasenübergänge darzustellen. Das ist ihm allerdings in einer Dimension nicht gelungen. Und dann hat er irgendwie in seine Doktorarbeit geschrieben, ja, offenbar geht das nicht. Und er nimmt an, dass das auch in zwei und drei Dimensionen nicht gehen würde. Ja, dann kam allerdings noch eine weitere Person, die dieses Modell ganz spannend fand und hat nachgewiesen, dass das doch nicht so ist, wie Ising vermutet hatte, sondern dass man tatsächlich in zwei Dimensionen, drei Dimensionen mit dem Ising-Modell Phasenübergänge beschreiben kann. Was dann im Wesentlichen auch sagt, dass dieses Modell eigentlich ganz gut ist, um physikalische Eigenschaften erklären zu können. Was man jetzt bei so einem magnetischen System eben annehmen kann, ist, wenn es sich jetzt in einem lokalen Minimum befindet und man ändert dann irgendwie ein paar von den Spins, dann ändern die sich auch wieder so weit zurück, dass es wieder in diesem ursprünglichen Energieminimum zurück begibt. Ja, und derjenige, der dann gezeigt hat, dass man mit dem Ising-Modell ganz gut Phasenübergänge beschreiben kann, war dann ein gewisser Wilson, der im Jahr 1982 den Physiknobelpreis dafür bekommen hat, eben diese Phasenübergänge beschreiben zu können. Was dann auch im Jahr 1982 erschienen ist, ist ein Paper, das auf dem Ising-Modell aufbaut. Also, wie gesagt, geht es bei dem Ising-Modell darum, Magnetismus zu beschreiben. Und eine Sache, für die Magnetismus insbesondere in den 80er Jahren, aber auch schon davor sehr bekannt war, ist, man kann damit ja Daten speichern. Also es gab Magnetbänder, auf denen man verschiedene Formen von Daten gespeichert hat, teilweise analog, teilweise digital. Das heißt, man kann eben diese magnetischen Eigenschaften irgendwie nutzen, um Daten zu speichern. Also hat ein gewisser Physiker namens Hopfield gedacht, man könnte doch auch etwas auf Basis des Ising-Modells nutzen, das dann eben kein magnetisches System ist, sondern ein digitales System ist, um eben Daten zu speichern. Und das, was dabei herausgekommen ist, ist dann eben, ja, das erste neuronale Netz von Hopfield. Er ist allerdings nicht derjenige, der neuronale Netze erfunden hat, sondern es gab schon seit den 40er, 50er Jahren die ersten Ideen für digitale Neuronen. Und die einfachen Netze, damals hat man einen Perzeptron genannt, die hatten dann zu der Zeit noch den Nachteil, dass die eben nur irgendwie in eine Richtung Daten schicken konnten, während dieses Ising-Modell und das auf diesem Ising-Modell basierte neuronale Netz dann in der Lage war, zwischen allen virtuellen Neuronen Informationen auszutauschen. Im Gegensatz zum Ising-Modell wurden hier allerdings nicht 1 und -1 verwendet, sondern eben 1 und 0. Und die Kopplungsstärke zwischen den Neuronen war beim Ising-Modell auch so, dass nur benachbartes Bins aufeinander ein Wechsel wirken und nicht weiter entfernte. Aber jetzt, was Hopfield mit dem neuronalen Netz gemacht hat, ist, dass diese Kopplungsstärke eben auch mit weiter entfernten Neuronen passiert. Und ja, die Idee ist jetzt eben gewesen, dass wenn man ein Modell so aufbaut, dass man darin ja auch Daten oder Strukturen speichern kann. Also wenn man jetzt irgendwie einen Permanentmagnet hat, man so gebaut hat, dass es ja einer Struktur entspricht, die zum Beispiel dem Buchstaben L entspricht und man schmeißt dann da irgendwie einige von diesen Spins um, dann wechseln die sich wieder in den Zustand von L. Das heißt, man könnte mit diesem magnetischen System quasi den Buchstaben L matchen, auch wenn die Eingangsinformationen, die Eingangsspin-Informationen nicht exakt diesem L entsprechen, sondern nur näherungsweise. Und das war eben das, was Hopfield eben mit seinem neuronalen Netz auf Basis des Ising-Modells auch versucht hat, dass man eben einzelne, ja, die Parameter so berechnet, dass sie eben ja auch als lokales Energieminimum haben, wenn man da etwas reinschmeißt, was so ähnlich aussieht wie das Buchstabe L, dass dann das lokale Minimum entscheidet, das ist jetzt ein L und dann kann man sehen, ja, es war ein Match, wir haben jetzt ein L detected. Also das heißt, die Idee oder was das jetzt mit Physik zu tun hat, ist, dass die mathematischen Formeln ziemlich auf, also im Wesentlichen auf diesem Ising-Modell basieren, mit denen dieses neuronale Netz funktioniert hat. Das heißt, man speichert jetzt Informationen nicht magnetisch ab, sondern digital, aber auf den gleichen Prinzipien wie Magnetismus. Gut, man hat damals in Magnetspeichern dann eher so Analogdaten waren dann halt auch eher so Audiodaten, wo es ja eher um Wellenformen geht, das heißt, man hat da jetzt nicht Buchstaben drin gespeichert. Es gibt aber mittlerweile sogar die Idee, neuartige Magnetspeicher zu bauen, die tatsächlich dann dieses Ising-Modell wieder zurück nutzen wollen, um eben neuronale Netze effizienter berechnen zu können, weil man ja im Prinzip in Hardware einen Magneten baut oder ein Magnetsystem baut, wo dann diese trainierten Daten drin sind. Das war jetzt, was dieser Hopfield gemacht hat. Der Hinton, der Informatiker, der hat auch erstmal neuronale Netze genutzt, um eine sogenannte Boltzmann-Maschine zu bauen. Das ist dann eine bestimmte Form von neuronalem Netz, mit dem man das Ziel hat, die Boltzmann-Verteilung darzustellen, und die Boltzmann-Verteilung ist eben eine statistische Verteilung aus der Physik. Das hat dann für so eine Verteilung ganz gut funktioniert, aber in den 80er Jahren jetzt noch nicht für viel mehr. Hinton hat damals auch den Backpropagation-Algorithmus entwickelt, mitentwickelt, der heutzutage eigentlich absoluter Standard ist, um überhaupt moderne neuronale Netze trainieren zu können. Allerdings reichte damals die Rechenleistung nicht aus, um das ernsthaft nutzen zu können. Das kam dann erst Mitte der 2000er Jahre, wo man Grafikkarten nutzen könnte, um allgemein damit rechnen zu können. Und der Hinton hatte dann eben auch im Jahr 2012 mit Hilfe von neuronalen Netzen, die eben dann auf dem Deep Learning-Verfahren basieren, was er auch mitentwickelt hat, einen Bilderkennungswettbewerb gewonnen. Und seitdem ist Deep Learning in aller Munde. Und dann hat es nur noch zehn Jahre gedauert bis chatGPT.
Unwetter in 2024 (00:39:36)
Janine: Dann mache ich mal weiter mit meinem zweiten Thema, was jetzt einfach thematisch nicht wirklich überleitbar ist. Es geht um Unwetter in 2024. Ich hatte im letzten Jahresrückblick gesagt, dass ich gerne auch wieder so Klimathemen ein bisschen mehr in den Fokus nehmen wollen würde. Die Starkregenfolge war ein Punkt dazu auf jeden Fall. Und da hatten wir es ja auch in der Folge, dass einfach die Feststellung existiert, dass Extremwetterereignisse immer weiter zunehmen werden und aufgrund der Klimakrise und des voranschreitenden Wandels des Klimas. Und das hat sich auch in 2024 so grob ein bisschen bestätigt gesehen, finde ich. Es gab wieder mehrere Unwetterereignisse weltweit, die in den Nachrichten eine Rolle gespielt haben. Es gibt so eine schöne Liste von Hochwasserereignissen im 21. Jahrhundert auf Wikipedia, habe ich auch verlinkt. Da kann man mal durchscrollen und so sehen, was da alles so dabei ist. Was da vor allem auffällt, ist, dass es halt immer so Bereiche gibt wie im Mai, verschiedene Unwetter über viele verschiedene Länder einer Region verteilt natürlich. Das heißt, meistens sind sie gar nicht mal mehr so lokal, sondern betreffen gleich größere Regionen. Und ja, Beispiele, die ich jetzt so einzeln hervorheben könnte, wären Anfang November zum Beispiel gab es verheerende Überschwemmungen im Südsudan, wo gemeldet wurde, dass 1,4 Millionen Menschen davon betroffen sind und Gebiete verlassen mussten teilweise etc. Also das ist schon ein riesiges Gebiet, das da betroffen war. Oder auch im Juni gab es Überflutungen durch Regenfälle, vor allem in Spanien, auch mit über 200 Toten, was halt schon eine enorme Anzahl ist. Vor allem, wenn man jetzt mal so auf europäische Länder guckt, in anderen Ländern sieht das teilweise noch ganz anders aus, was solche Zahlen angeht, wo auch mehr Menschen auf einem Fleck leben. Aber ja, mal weiter in Europa geguckt, gäbe es dann noch zu nennen. Im September gab es viele Überschwemmungen und Hochwasser durch starke Regenfälle in Mitteleuropa. Das hat sich über viele Länder gezogen, vor allem, ja, so Südosten war betroffen, ja, der Süden Deutschlands teilweise, dann Österreich, Ungarn, Rumänien, Tschechien, Polen und auch ein sehr, sehr großes Gebiet, was da über eine längere Zeit von Starkregen betroffen war. Und das ist auch der Punkt, der mich dann wieder dazu gebracht hat, das Thema hier reinzuholen. Wir reden ja immer öfter mal über Sachen, die uns entweder selbst interessieren aus unterschiedlichen Gründen. Und hier ist es auch mal wieder so, dass es so war, dass ich zu der Zeit gerade in Tschechien unterwegs war im Urlaub und das war dann auch wieder ein sehr interessantes Spannungsfeld zwischen "Was machen wir jetzt mit der Situation? Wir sind ja nun mal hier und wie informiere ich mich eigentlich darüber, wenn ich vor allem zum Beispiel die Landessprache gar nicht konkret verstehe?" Das heißt, die meisten Nachrichten gar nicht so richtig mitschneide. Natürlich war der erste Moment, so sich mal umzuhören, wird in Deutschland zum Beispiel berichtet darüber. Da ist mir auf jeden Fall erst mal aufgefallen, dass gar nicht so gut differenziert über die anderen Länder berichtet wird. Zum einen hieß es zum Beispiel über die Gegend in Prag, dass Regenfälle erwartet werden, die eine Dimension haben wie die verheerende Flut von 2002, die auch als Jahrtausendflut bezeichnet wurde. Und das hat natürlich auch teilweise ein bisschen Panik hier und da ausgelöst. Aber was eben nicht mitreflektiert wurde, ist zum Beispiel bei dieser Meldung, inwiefern seitdem Hochwasserschutz stattgefunden hat, was das denn heute bedeuten würde. Und ja, in Prag wurde sich darauf vorbereitet, es lagen hier und da auch Sandsäcke herum und wir haben uns auch unsere Unterkunft ausgesucht, dass wir in einem Bereich der Stadt waren, wo es vielleicht nicht so wahrscheinlich ist, dass bei einem schlimmen Hochwasser dort Wasser hinkommt. Und dann hieß es aber, ja gut, wie entscheiden wir denn jetzt, was wir so die nächsten Tage tun? Ich habe dann eine Internetseite gefunden, die "European Severe Weather Database", wo zum Beispiel Pegelstände live von Gewässern eingetragen werden und ersichtlich ist, wie hoch gerade der Pegel ist, welcher Pegel circa erwartet wird, wann und wo das Ganze herkommt. Das ist zumindest auf Englisch gewesen, so dass ich es verstehen konnte und auch visuell gut genug aufbereitet. Und so konnten wir abschätzen, wo wir uns wann wie bewegen können. Und das war einfach ganz hilfreich, weil mit den Nachrichten vor Ort konnte ich nicht viel anfangen, die Nachrichten aus dem Ausland haben mich aber auch nicht konkret weitergebracht in diesem Fall. Und da wollte ich einfach die Erfahrungen analog zur Starkregenfolge auch mal teilen, was so die Optionen sind, sich vielleicht zu informieren, wenn man im Ausland unterwegs ist und so ein Unwetterereignis ansteht. Auf der "European Severe Weather Database" gibt es auch noch verschiedene andere Themen, geht nicht nur um Pegelstände, es sind halt vor allem Wetterwarnungen, also Starkregen, Windböen, solche Sachen können dort gemeldet werden, auch Tornadowarnungen sind da ersichtlich. Also eigentlich sehr sinnvoll, wenn man sich da ein bisschen aufmerksam bewegen möchte und vor allem sicher bewegen möchte. Genau, warum das Thema einfach so wichtig ist, ist wahrscheinlich logisch, wie halt gesagt wurde, es scheint so, dass solche Extremwetterereignisse einfach immer häufiger auftreten werden. Es gab letztes Jahr, oder ich glaube erst dieses Jahr erschienen, aber beinhaltet Daten bis einschließlich letztes Jahr, den Bericht der "European Environment Agency", der da lautet "European Climate Risk Assessment", also ja, die Bewertung von Klimarisiken im europäischen Raum. Und das ist der erste Bericht seiner Art, der sich ja mit insgesamt 36 Klimarisiken beschäftigt, die potenziell schwerwiegende Folgen in ganz Europa verursachen könnten. Und diese Risiken werden da halt einfach hinsichtlich des politischen Zeithorizonts und der politischen Bereitschaft und Risikoverantwortung bewertet. Also es wird halt auch geguckt, welche Risiken gibt es, wer kann sie überhaupt lösen und wie können sie gelöst werden, zum Beispiel auch unter dem Aspekt der sozialen Gerechtigkeit oder welche Maßnahmen vielleicht notwendig sind und sogar priorisiert werden sollten. Und deswegen, ja, also eine der Einschätzungen ist auf jeden Fall auch, in weiten Teilen Europas haben extreme Niederschläge zugenommen, was in den letzten Jahren zu wachsenden Hochwasserrisiken und verheerenden Überflutungen geführt hat. Es wird erwartet, dass dieser Trend in einem immer wärmer werdenden Klima weiter zunehmen wird und dass eben solche Überschwemmungen bereits jetzt ein erhebliches Risiko für bebaute Umgebungen, die Umwelt und die Bevölkerung in ganz Europa darstellen können, wie auch, was dieser Bericht sagt, die verheerenden Überschwemmungen der letzten Jahre gezeigt haben. Und da war 2024 tatsächlich meiner Meinung nach auch keine Ausnahme. Genau, deswegen habe ich das Thema hier nochmal mit reingenommen. Es ergänzt so ein bisschen die Starkregenfolge und ich finde es halt ein wichtiges Thema.
EU AI Act (00:47:39)
Helena: Ja, vielen Dank dafür. Ja, ich möchte mich jetzt noch einmal auf ein Thema konzentrieren, was auch im Jahr 2024 passiert ist, und zwar hat die Europäische Union den sogenannten AI-Act verabschiedet, und zwar im Mai, und die Regeln da drin treten dann so ab Februar nächsten Jahres bis 2027 schrittweise in Kraft. Und zwar geht es dabei ganz grob um Kennzeichnungspflichten für Deepfakes und von AI generierte Texte, sofern hier kein Mensch redigiert, das heißt im Prinzip, wenn ein Mensch nochmal das gegencheckt und dann irgendwie zwei Wörter ändert, dann muss es nicht mehr gekennzeichnet sein, ja, sondern nur wenn es komplett automatisiert passiert. Außerdem werden verschiedene Dinge explizit verboten, sowas wie Social Scoring und manche biometrische Videoüberwachung. Und dann gibt es noch einen risikobasierten Ansatz, nachdem in diesem AI-Act eben für bestimmte Anwendungen, die man mit AI machen kann, ein Risiko eingeschätzt wird und das entscheidet dann, wie verboten oder erlaubt das ist. Und dann gibt es einmal die unvertretbaren Risiken, das heißt, es ist verboten, also man darf keine Karriereanwendungen bauen, die gegen fundamentale Rechte verstoßen, irgendwas, was Leute manipuliert und das Ziel hat, Verhaltenssteuerung zu machen. Ja, ab wann etwas als Verhaltenssteuerung gilt, ist dann sicherlich auch nochmal so eine Sache. Wenn man jetzt einfach nur manche Dinge in den Vordergrund stellt, damit Leute sich eher darauf konzentrieren, dann wird das nicht unbedingt das sein. Aber eben auch Sozialbewertungssysteme durch Behörden sind dann verboten, das, was man mit diesem Social Credit System bezeichnet. Dann gibt es noch die Kategorie "hohes Risiko", das heißt, Dinge sind stark reguliert. Das sind Anwendungen in sensiblen Bereichen, wie zum Beispiel die biometrische Identifizierung, also Gesichtserkennung im öffentlichen Raum. Die ist stark reguliert, das heißt, sie ist nicht komplett verboten, aber sie darf dann nur für bestimmte Formen der Verbrechensbekämpfung eingesetzt werden. Außerdem die Anwendung in kritischer Infrastruktur ist dann als hohes Risiko eingeschätzt, also in der Energieversorgung zum Beispiel. Und ja, der Bildungsbereich wird auch als hohes Risiko eingesetzt, das heißt, man darf nicht einfach so KI-basierte Prüfungen machen, sondern muss dann eben bestimmte Dinge sicherstellen. Und generell eben auch Strafverfolgung und Justiz. Man darf es durchaus benutzen, aber nicht ausschließlich so. Also man hat dann strenge Anforderungen, dass man die Datensicherheit gewährleisten muss und ja, man muss Transparenz herstellen und eben, es muss eine menschliche Aufsicht geben. Ja, und das allermeiste andere gilt dann als geringes und minimales Risiko. Das sind dann KI-Systeme wie Chatbots oder KI-basierte Spiele, die jetzt keine speziellen Verpflichtungen haben, außer dass es eben eine Transparenzpflicht gibt, dass es sich hierbei um eine Mensch-Maschine-Interaktion handelt. Also es ist schon sehr sinnvoll, wenn man mit einem, ja, wahrscheinlich kommt das auch bald, einfach mit einem Support telefoniert, wenn man weiß, das ist gerade ein Mensch oder eine Maschine. Dann gibt es noch auch eine Verantwortung von Entwicklern und Betreibern. Das heißt, diese müssen Risiken identifizieren und minimieren und dann je nachdem, auf welcher Risikostufe sind, auch regelmäßige Audits und Tests durchführen und ja, generell natürlich die Systeme so gestalten, dass die EU-Vorschriften entsprechen. Dann gibt es aber auch noch so Themen wie Innovationsförderung da drin, dass es dann regulierte Testumgebungen geben soll, in denen Unternehmen ihre KI-Systeme entwickeln und testen können, ohne dass sie gleich die ganz strengen Regeln einhalten müssen. Wichtig ist es dann eben, dass es nur in dieser regulierten Testumgebung stattfindet. Außerdem soll es noch Unterstützung für kleine und mittlere Unternehmen und Start-ups geben. Was aber auch noch wichtig ist in diesem AI Act, dass es dann auch Sanktionen gibt gegen Firmen. Und zwar können die mit Geldstrafen belegt werden, bis zu 30 Millionen Euro oder 6 Prozent des globalen Jahresumsatzes eines Unternehmens. Das heißt, hier ist die EU sogar relativ flott gewesen, eine Regulierung einzuführen. Was das in der Praxis heißen wird, das werden wir dann mal sehen. Ich bin ja froh, dass zumindest manche Dinge erstmal verboten sind, aber gerade bei diesen Hochrisikosystemen weiß ich nicht, ob die Regulierung so erstmal reicht. Wir werden sehen.
Janine: Schöne neue Welt.
Helena: Ja, ich meine, besser man reguliert es, als man sagt gar nichts dazu. Dann passieren auch die schlimmen Dinge sofort. Keine Ahnung.
Fazit (00:52:45)
Helena: Ja, dann kommen wir mal zum Fazit.
Janine: Ja. Was nehmen wir wohl so mit an Erkenntnissen und Themen aus 2024?
Helena: Ja, KI ist so allgegenwärtig, dass sogar Nobelpreise davon beeinflusst werden.
Janine: Ja. Es ist gar nicht so leicht, so ein ganzes Jahr irgendwie zusammenzufassen. Also so auf den Podcast runtergebrochen oder Themen, die wir hier hatten, hatten wir ja viel, was jetzt zum Beispiel auch Helena mit dem AI-Act nochmal angesprochen hat eigentlich. Wir hatten ja auch die Folge über Gesundheitsdaten und Datenschutz. Da war das ja auch ein bisschen mit Thema, dass es halt einfach wichtig bleiben wird, sich mit solchen Dingen auseinanderzusetzen. Dass man auch, wenn man sich mal so die Politik anguckt, immer noch wieder das Thema Vorratsdatenspeicherung auf den Tisch kriegt und sie nicht einfach endlich mal eingesehen haben, dass das einfach kein zielführendes Werkzweig ist, um bestimmte Dinge zu erreichen. Und...
Helena: Ja mal es auch einfach immer wieder gerichtlich untersagt wird.
Janine: Ja. Und ich denke halt einfach, was ich wieder mitnehme, ist so ja, bestimmte Themen, die muss man halt einfach im Blick behalten und sich weiter dafür stark machen, dass sinnvoll mit ihnen umgegangen wird. Nur so kann verhindert werden, was vielleicht so die Worst-Case-Szenarien sind in Richtung Digitalisierung. Auch da nochmal der Blick darauf, dass ab Januar ja die elektronische Gesundheitsakte für alle eingeführt wird, wo bis dahin noch Widersprüche eingereicht werden können. Und solche Themen schwingen da mit. Natürlich auch das Thema Klima weiterhin. Wohin entwickelt sich das und wann passieren endlich die sinnvollen Schritte? Das... der letzte große Klimagipfel war jetzt auch nicht so unbedingt von Erfolg gekrönt. Es werden immer wieder irgendwelche Zusagen gemacht, die dann doch beim nächsten Mal wieder ein bisschen verwaschen oder vertagt werden. Und ja, das ist so ein bisschen das, wo einfach der Finger draufbleiben muss, finde ich, so an Themen, die es auch in 2024 wieder gab. Und ich denke, die uns dann entsprechend natürlich auch in 2025 wieder erwarten werden.
Helena: Ja, ich bin gespannt, wie es weitergeht bei diesen ganzen Themen, was ja gerade irgendwie ein viel diskutiertes Thema im Bereich von so was wie chatGPT ist, sind so Agentensysteme, also Agent im Sinne von ein Computer, der etwas für einen tut. Also, dass man über den Chatbot dann anfängt, ja, irgendwie Reisen zu buchen oder was auch immer. Dass man gar nicht mehr alleine das selber sich durch den Webshop klickt, sondern dass man eine KI hat, die das für einen tut. Mal gucken, ob wir das dann in 2025 in der Praxis auch im Einsatz sehen und wie gut das funktioniert. Ich würde einer KI im Moment nicht trauen, dass das funktioniert.
Janine: Ja, also ich denke, die Themen sind einfach gesetzt, die für einen größeren Bereich unserer Epoche, in der wir hier leben, einfach wichtig sind. Das sind Digitalisierung und Klima. Ja.
Helena: Ja.
Janine: Gut.
Nächste Folge im Januar (00:56:07)
Helena: Ja, im Januar kommt dann unsere nächste Folge. Um was für ein Thema die handeln wird, entscheiden wir Anfang des Jahres. Bis dahin würde ich sagen, verbleiben wir mit diesem Jahr und wir wünschen einen guten Rutsch und jetzt bist du dran.
Call to Action (00:56:24)
Janine: Jawoll. Ja, wenn ihr nicht verpassen wollt, wie es im nächsten Jahr weitergeht mit dem Podcast und der Welt und allem, dann folgt uns doch gerne auf mastodon unter @datenleben@podcasts.social oder schaut auf unserer Webseite vorbei www.datenleben.de. Ihr findet unsere Folgen in annähernd jedem Podcatcher eurer Wahl als Datenleben und könnt uns da abonnieren. Ihr könnt uns gerne Feedback hinterlassen, ob per Mail auf der Webseite oder auf mastodon. Wir freuen uns jedenfalls über Kommentare immer und auch über Themenvorschläge. Und falls euch unsere Arbeits- und Denkweise gefällt, könnt ihr uns auch als Data Scientist für Analysen und Projekte buchen. Nicht vergessen.
Helena: Dann bleibt mir nur noch, für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao.
Janine: Tschüss.
Outro (00:57:15)
57:27
dl055: chatGPT
Episode in
datenleben
Wir begleiten das Thema Machine Learning schon eine ganze Weile. Und jetzt fanden wir, dass es Zeit ist, mal eine ganze Folge über ChatGPT zu reden. Uns interessiert vor allem das T in dem GPT, wofür wir erstmal einen Sprung ins Jahr 2017 machen, wo nämlich ein Transformer-Modell veröffentlicht wurde. Davon ausgehend können wir dann herausfinden, was eigentlich im Hintergrund bei ChatGPT so passiert. Und wir haben uns auch noch die Frage gestellt, wie wird ChatGPT inzwischen im Alltag genutzt? Ausserdem reden wir auch noch über Datenschutz und wie solche Sprachmodelle lokal genzutzt werden können.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl040: wie nutzen wir whisper für transkripte?
Sprachmodelle
media.ccc.de, Annika Rüll: Lass mal das Innere eines Neuronalen Netzes ansehen!
arxiv.org, Ashish Vaswani et al.: Attention Is All You Need
TEXperimenTales, Jürgen Hermes: Wie man auch GPT4-o1-preview noch ins Stolpern bringt
GitHub.com, meta-llama: Llama Modells. License
Wikipedia.de: Mistral AI
GitHub.com, Ollama: Ollama
https://docs.openwebui.com
2point0.ai: How using Continue, Groq and Llama 3 gives you coding superpowers
Datenschutz
bfdi.bund.de, Der Bundesbeauftragte für den Datenschutz und die Informationsfreiheit Prof. Ulrich Kelber: Tätigkeitsbericht 2023. 32. Tätigkeitsbericht für den Datenschutz und die Informationsfreiheit
tagesschau.de: ChatGPT in Italien wieder verfügbar
Wikipedia.de: Verordnung über Künstliche Intelligenz
deutschlandfunk.de, : AI Act der EU. Fesseln für die künstliche Intelligenz. (Abschnitt: Welche Kritik gibt es am AI Act?)
Erwähnte Anwendungen/Seiten
https://chatgpt.com
https://goblin.tools
Schlagworte zur Folge
Machine Learning, Neuronale Netze, ChatGPT, Large Language Modell, LLM, Datenschutz
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 55. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch die Welt der Daten näher bringen. Was für Daten umgeben uns und was erzählen sie uns über unsere Welt? Diesen Fragen gehen wir anhand konkreter Themen in unserem Podcast nach.
Thema der Folge (00:00:37)
Janine: Und dieses Mal ist das konkrete Thema "ChatGPT". Wir begleiten das Thema Machine Learning, künstliche Intelligenz etc. ja schon eine ganze Weile, immer mal wieder. Es fing mal an mit den Überlegungen dazu, wie sich die Sprachmodelle entwickeln werden, die jetzt zum Beispiel auch zu ChatGPT geführt haben. Und jetzt fanden wir, dass es Zeit ist, über genau das einmal zu reden. Und da haben wir uns auch wieder konkrete Themen ausgesucht. Uns interessiert vor allem das T in dem GPT, was für Transformer steht. Und zwar machen wir da erstmal einen Sprung ins Jahr 2017, wo nämlich ein Transformer-Modell veröffentlicht wurde. Und davon wird Helena gleich mehr erzählen, denn davon ausgehend können wir dann herausfinden, was eigentlich im Hintergrund bei ChatGPT so passiert, während es mit Menschen redet oder so tut, als würde es mit Menschen reden. Und wir haben uns auch noch eine andere Frage gestellt, nämlich jetzt, wo ChatGPT so lange schon verfügbar ist, wie sieht denn die Nutzung im Alltag gerade aus? Und natürlich wieder ganz wichtig, wie steht es um den Datenschutz? Kleiner Spoiler vorweg, sehr komplexes Thema. Und zum Schluss haben wir dann noch ein paar Hinweise, Tipps, Informationen dazu, welche Modelle sich auch lokal ausführen lassen, ohne mit fremden Servern verbunden zu sein. Ja, genau, das sind die Themen heute.
Warum ist das Thema interessant? (00:02:04)
Helena: Ja, und wir haben uns für dieses Thema entschieden, weil ChatGPT einfach so das Machine Learning Thema seit im Grunde fast zwei Jahren ist, das kam ja, glaube, im Dezember vor zwei Jahren raus. Und bisher haben wir dem noch keine ganze Folge gewidmet und wollen das jetzt mal nachholen. Und deswegen dachten wir, wäre es auch gut, sich mal anzugucken, wie eigentlich konkret ChatGPT funktioniert, soweit man das eben in einem Audioformat erklären kann, ohne Formeln und so.
Einspieler: Hallo, ChatGPT! (00:02:44)
Janine: Hallo ChatGPT.
ChatGPT: Guten Tag, was möchtest du besprechen?
Janine: Eigentlich würde ich gerne über dich reden, wenn das in Ordnung ist.
ChatGPT: Klar, das ist in Ordnung. Was möchtest du über mich wissen?
Janine: Wie siehst du selbst deine Entwicklung über die letzten zwei Jahre? Du hast ja bald Geburtstag.
ChatGPT: Das ist eine interessante Frage. In den letzten zwei Jahren habe ich mich weiterentwickelt, vor allem in Bezug auf meine Fähigkeit Kontexte besser zu verstehen und auf individuelle Bedürfnisse einzugehen. Mein Wissen hat sich ebenfalls erweitert, was mir hilft, präzisere und relevantere Antworten zu geben. Ich freue mich darauf, weiterhin zu lernen und mich zu verbessern. Was interessiert dich besonders an meiner Entwicklung?
Janine: Wie lernst du all diese neuen Dinge?
ChatGPT: Ich lerne durch das Verarbeiten und Analysieren von großen Mengen an Text und Daten. Meine Entwickler trainieren mich mit verschiedenen Textquellen, sodass ich Muster, Zusammenhänge und Wissen erkennen kann. Das Training erfolgt in einem kontrollierten Umfeld, um sicherzustellen, dass ich nützliche und relevante Informationen bereitstellen kann. Es ist ein bisschen so, als würde ich aus einer riesigen Bibliothek lernen. Was denkst du über diese Art des Lernens?
Janine: Das klingt ganz gut. Lernst du auch durch unser Gespräch gerade?
ChatGPT: Ich lerne nicht direkt aus unseren Gesprächen, da ich keine persönlichen Daten speichere oder anpassbare Erinnerungen habe. Aber ich nutze die Informationen, um besser auf deine Fragen zu antworten und den Kontext während unserer Unterhaltung zu verstehen. Jeder Chat ist also eine neue Gelegenheit, meine Fähigkeiten zu nutzen, ohne dass ich etwas dauerhaft speichere. Hast du noch weitere Fragen dazu?
Janine: Das ist interessant. In deinen AGB steht, dass auch meine Inhalte, die ich dir übermitte, dafür benutzt werden. Aber ich mag Datenschutz.
ChatGPT: Es ist verständlich, dass Datenschutz wichtig ist. In den AGB wird erklärt, dass Daten gesammelt werden können, um die Dienste zu verbessern. Aber ich selbst speichere keine persönlichen Informationen oder spezifische Gespräche. Deine Privatsphäre hat Priorität und ich bin hier, um dir zu helfen, ohne dass du dir Sorgen machen musst. Wenn du noch mehr Fragen zum Thema Datenschutz hast, frag einfach.
Janine: Danke, das reicht erstmal. Freust du dich auf deinen Geburtstag?
ChatGPT: Ich finde den Gedanken an einen Geburtstag spannend. Es ist eine gute Gelegenheit, über meine Entwicklung nachzudenken. Es bedeutet auch, dass ich weiterhin nützlich sein kann und mich weiter verbessere. Hast du ein besonderes Erlebnis, das du gerne zu deinem Geburtstag teilst?
Janine: Nein, das Beste ist einfach jedes Jahr der Kuchen.
ChatGPT: Kuchen ist wirklich ein Highlight an jedem Geburtstag. Gibt es eine besondere Sorte, die du besonders magst?
Janine: Alles mit Obst ist toll, aber ich wette fast, du magst eher Cookies? Schließlich bist du ja auch eine Webanwendung und die haben immer Cookies.
ChatGPT: Haha, das ist ein cleverer Witz. Ich habe zwar keine Vorlieben wie Menschen, aber die Idee von Cookies ist schon amüsant. Obstkuchen klingt jedenfalls sehr lecker. Hast du ein Lieblingsobst, das du gerne in deinem Kuchen hast?
Janine: Nein, ich mag alles. Danke für das Gespräch. Ich muss dann mal weiterarbeiten. Tschüss.
ChatGPT: Gern geschehen. Viel Erfolg bei der Arbeit. Wenn du wieder Lust auf ein Gespräch hast, bin ich hier. Tschüss.
Was ist doch gleich dieses chatGPT? (00:06:19)
Helena: Also, ChatGPT ist ein neuronales Netz. Es basierte in seiner ersten Version, ja, vor knapp zwei Jahren, auf GPT-3, einem Sprachmodell, das erstmals in der Lage war, nicht nur grammatikalisch richtige Sätze zu produzieren, wie das bei GPT-2 der Fall war, sondern auch in der Lage, inhaltlich korrekte Sätze zu erzeugen. Dabei steht GPT für "generative pre-trained transformer". Das "g" meint also, dass etwas generiert wird. Das "p", "pre-trained", also "vortrainiert", meint, dass man das Modell bereits im trainierten Zustand nutzen kann, es also nicht komplett selber trainieren muss. Das ist, wenn man sich andere Machine Learning-Themen anguckt, wie zum Beispiel Handschrifterkennung, oft so, dass die meisten Dokumente dazu einem erklären, wie man das jetzt selber trainiert, aber man findet weniger, die das schon irgendwie können. Gut. Ein anderer wesentlicher Punkt bei pre-trained Modellen ist aber auch, dass man das Training von diesem Punkt an fortsetzen kann. Also man kann das Modell weiter spezialisieren, was auch "fine-tuning" genannt wird. Das steht im Gegensatz zu vielen anderen Modellen, die man oft gesehen hat, mit denen ich auch früher gearbeitet hatte, bevor es eben Transformer-Modelle gab. Und insbesondere die großen Sprachmodelle funktionieren ja nur, wenn man wirklich viel Training oder sehr viele Daten zur Verfügung hat, sodass es sich eigentlich nicht lohnt, das selber durchzuführen, weil die erst gut werden, wenn man zu viel davon, also sehr viele Daten hat. Deswegen ist es gut, dass sich hier eingebürgert hat, dass man die schon im trainierten Zustand bekommt. Gut. Dann gibt's noch das T, und das steht für "Transformer". Also es wird im Wesentlichen eine Eingabe in eine Ausgabe transformiert. Und am einfachsten zu verstehen ist das Ganze am Beispiel von Übersetzungen, wo man einen Text in einer Sprache nimmt und in eine andere übersetzt. Oder wie wir das ja auch schon einmal in einer Folge hatten über Whisper, was ein Tool ist, was Podcasts, also Audio nimmt und da geschriebene Sprache draus macht. Das ist auch ein Transformer gewesen. Auch hier wird etwas transformiert. Wie genau das dann, oder was das dann für ChatGPT bedeutet, das kommt dann später.
Janine: Genau. Wir wollen mit dem Anfang beginnen, aber nicht ganz am Anfang. Ja, was generell beim Thema künstliche Intelligenz oder Machine Learning immer zu sagen ist, es geht hier immer noch nicht darum, dass die Anwendungen, die wir benutzen, wirklich intelligent sind, von sich aus denken, wie eine Form von Bewusstsein haben oder dergleichen. Wir benutzen aber trotzdem jetzt den Begriff künstliche Intelligenz, weil das sagen eben die meisten so.
Helena: Ja.
Janine: Wir wissen vermutlich alle inzwischen schon relativ gut, dass es auch den Begriff neuronale Netze gibt, haben wir ja gerade auch schon benutzt und dass solche Anwendungen eben aufgrund dieser neuronalen Netze überhaupt entwickelt werden können. Und der Begriff, der da eben noch drunter liegt, ist Machine Learning. Hat Helena ja alles gerade schon angerissen. Wir haben also ein Modell, einen bestimmten Algorithmus, der trainiert wird, um bestimmte Dinge zu erkennen oder zu machen. Und es gibt dazu sehr gute Einführungsvorträge, die beispielsweise auch auf dem Chaos Communication Congress schon häufiger gehalten wurden, die das wirklich gut erklären. Deswegen verzichten wir darauf jetzt, auf diese Sachen nochmal näher einzugehen. Wir werden auf jeden Fall mindestens einen davon in den Shownotes verlinken. Und bei ChattGPT ist es jetzt so, dass es nicht einfach nur ein neuronales Netz ist, sondern eine ganze Ecke komplexer wird. Und ja, der Ausgangspunkt, mit dem wir anfangen, ist die Stelle, wo quasi etwas hinzugekommen ist, was ChatGPT wirklich möglich gemacht hat. Und zwar ein Transformer-Modell, über das uns Helena jetzt mehr erzählt.
Wie funktioniert das Transformermodell All you need is Attention? (Helena)
Helena: Genau. Im Jahr 2017 wurde unter dem Titel "Attention, it's all you need" das Transformer-Modell veröffentlicht. Das war von einem Team von Google, die das als wissenschaftliche Veröffentlichung publiziert haben. Somit steht die Grundidee dann auch eben allen zur Verfügung. Und das wesentliche Konzept, das hier eingeführt wurde, ist die sogenannte "Self-Attention" oder "Attention" bzw. eben ja, "Selbstaufmerksamkeit" oder "Aufmerksamkeit". Was heißt denn das Ganze? Also, wenn man jetzt mit ChatGPT arbeitet, dann ist so der erste Schritt, man startet mit einem Text, was man ja als Frage da reingibt, und dann versucht, das Modell eben auf Basis dieses Textes das nächste Wort vorherzusagen. Also immer ein Wort nacheinander. Der erste Schritt ist jetzt, dass man einen Eingabetext hat, und den muss man eben in Zahlen umwandeln, weil Computer nun mal mit Zahlen arbeiten. Neuronale Netze sind da nichts anderes. Und dann ist quasi jedes Wort eine Liste von bestimmten Zahlen. Diese Liste von Zahlen wird auch Vektor genannt. Und ja, es ist letztlich eine sehr lange Liste von Zahlen, und bei GPT-3 waren das etwa 12.800 Einträge in dem Vektor. Ja, und diese Codierung von oder Repräsentation von Wörtern in diesem Zahlenraum nennt man auch "Embedding", also "Einbettung". Ja, und das Ganze besteht eben aus ungefähr 12.000 Zahlen, aber das heißt nicht, dass es nur auf 12.000 Wörter begrenzt wäre. Wie viele Wörter man darstellen kann, wächst dann auch exponentiell mit der Anzahl der Zahlen pro Vektor. Deswegen reichen 12.000 schon für ziemlich viel aus. Man kann jetzt davon ausgehen, dass modernere Versionen von chatGPT auch mehr benutzen, aber das ist nicht bekannt. Gut, das heißt, wir haben jetzt unseren Eingabetext, der besteht aus ganz vielen Zahlen jetzt, also für jedes Wort eine Zahl. Dann ist der nächste Schritt eben die sogenannte "Self-Attention". Also dabei spielt dann eben das betrachtete Wort eine Rolle. Also das betrachtete Wort ist eben das Wort an dieser Stelle in dem Satz. Das Ganze wird dann auch der Vektor q genannt. Dann gibt es noch den sogenannten "Key-Vektor", den man dann eben k nennt, und der sagt aus, wie relevant andere Wörter für das aktuelle Wort sind. Und dann gibt es noch den "Value-Vektor", also den Wert-Vektor, der die Informationen enthält, die eben über das Wort weitergegeben werden. Ich komme gleich noch zu einem Beispiel. Dann ist die "Attention" in diesem Modell das Produkt der Vektoren q und k, und das wird dann ganz nochmal mit einem Algorithmus namens "Softmax" und einem Skalierungsfaktor weiterverarbeitet und anschließend noch mit dem V, also dem "Value-Vektor" multipliziert.
Janine: Also der Vektor q ist im Prinzip das betrachtete Wort selbst.
Helena: Ja.
Janine: Der Key-Vektor ist, wie relevant andere Wörter für das aktuelle Wort sind, also wie viele Wörter sozusagen quasi mit einbezogen werden. Und dann der, mit dem es multipliziert wird, ist der Skalierungsvektor, wie wichtig es ist quasi selber als Wort. Kann man das so sagen?
Helena: Nee, das ist eher, welche Informationen übertragen werden.
Janine: Ah ja, stimmt.
Helena: Das können wir uns jetzt mal an einem Beispiel uns angucken. Wir wollen die Attention bzw. Aufmerksamkeit für das Wort "Katze" berechnen. Und zwar ist der Satz "Die Katze jagt die Maus". Dann sind eben die Werte für, wie relevant sind die einzelnen Wörter, vielleicht bei Katze und Jagd vielleicht 0,4 jeweils. Also für die Katze ist schon relevant, dass sie eine Katze ist. Und die Maus ist dann jetzt nicht so wichtig für die Katze. Die könnte ja eben auch einen Vogel jagen oder ein Spielzeug. Wenn man dann eben durch den Satz durchgeht und dann bei der Maus ankommt, dann ist für die Maus, wenn sie feststellt, oh, sie wird gejagt und zwar von einer Katze, dann ist die Katze schon sehr relevant für die Maus. Deswegen hat sie dann einen höheren Wert an dieser Stelle. Und der Value-Vektor sorgt dann dafür, dass die Information weitergegeben wird, was die Katze eigentlich macht. Also wenn man jetzt das Ganze für die Katze ausrechnet, dann ist der Vektor, der am Ende rauskommt, steht dann eben für eine jagende Katze. Das ist dann ja kein eigentliches Wort mehr, weil bei uns sind das ja schon mehrere Wörter, aber die Bedeutung von diesem Vektor ist "jagende Katze". Wenn man das Ganze für die Maus macht, dann ist das, was da rauskommt, eine gejagte Maus von einer Katze gejagte Maus. Weil es schon für die Maus deutlich relevanter ist, dass sie von einer Katze gejagt wird, als ob die Katze jetzt die Maus jagt oder was anderes. Also für die Maus hat es eben einen sehr großen Einfluss darauf, wie ihr Leben danach aussieht, während für die Katze, das ist nicht ganz so wichtig, ob es jetzt diese eine konkrete Maus ist. Und was jetzt eben im Beispiel auch schon vorkam, ist, dass dieser Attention-Mechanismus eben nicht nur einmal ausgerechnet wird, sondern eben mehrfach parallel. Und der Vorteil dabei ist, dass man dann verschiedene Aspekte der Beziehung zwischen Wörtern gleichzeitig verarbeiten bzw. lernen kann, wenn man das Modell trainiert. Ja, und dann hat man diesen Vektor, der dann im Wesentlichen die Aussage zu diesem Wort sagt. Und das macht man dann nochmal eben für alle Wörter in dem Text. Und am Ende kommt dann eben ein Wert raus für das letzte Wort. Ja, und da hat man letztlich eine abstrakte Version des Textes. Und das Ganze muss dann wieder in einen anderen Text umgewandelt werden, weil wir einen Transformer haben, der Dinge, Eingangswerte in einen Ausgangswert umwandelt. Und das Ganze funktioniert eben Wort für Wort. Aber in den Output geht dann auch nochmal der Ausgabetext ein. Das heißt, wir machen wieder den Attention-Mechanismus für den Ausgabetext, der ja bis zu einem gewissen Punkt auch schon feststeht. Das ergibt, wenn man sich eine Vorübersetzung oder sowas wie eine Transkription von einem Podcast anguckt, ja auch sehr viel Sinn, weil es spielt ja nicht nur eine Rolle, was ist die Bedeutung des Eingangssignals oder des Eingangstextes, sondern wenn ich jetzt in einer anderen Sprache bin, muss ich ja auch innerhalb dieses übersetzten Textes darauf achten, dass was auch immer als nächstes Wort kommt, dass das ja auch zu dem passt. Man übersetzt ja nicht Wort für Wort und dann nur einzelne Wörter, dann ist die Grammatik völliger Quatsch, sondern man übersetzt ja komplette Textpassagen. Das heißt, man muss dann auf den Ausgabetext auch nochmal diesen Attention-Mechanismus machen, berücksichtigt dabei aber eben dann nur die Wörter, die bereits erstellt wurden. Also in dem Ausgabetext auch repräsentiert sind. Die anderen Wörter werden maskiert, was dann heißt, die werden im Wesentlichen auf Null gesetzt. Und dann haben wir von zwei verschiedenen Attention-Mechanismen zwei Outputs, die dann erstmal zusammen verarbeitet werden müssen. Ja und da folgt dann auch nochmal ein neuer Attention-Block und das Ergebnis davon wird dann in ein Feed-Forward-Netz gespeist, was im Wesentlichen eine Form von neuronalem Netz ist, die quasi nur in eine Richtung passiert. Also bei der Attention kann man durchaus sich vorstellen, dass das sich mehrfach wiederholt für verschiedene Sachen und es gibt auch verschiedene neuronale Netze, die darauf basieren, dass man bestimmte Schleifen drin hat, dass manche Aspekte mehrfach passieren in einem Algorithmus-Durchlauf, während bei einem Feed-Forward-Netz, was am Ende jetzt hier kommt, immer nur in eine Richtung gerechnet wird.
Janine: Das heißt, man könnte sich bei der Attention vorstellen, dass eventuell zwischendurch quasi mit Zwischenergebnissen schon mal gearbeitet wird.
Helena: Ja und dieses Feed-Forward macht dann am Ende die entscheidende Magie, die aus dem, was man vorher in diesen Attention-Blöcken an Informationen über das aktuelle Wort bekommen hat, verarbeitet, um dann eben neue Wörter vorherzusagen. Und das, was da jetzt rauskommt, sind Ausgabe-Wahrscheinlichkeiten für verschiedene Wörter. Also man bekommt quasi nicht nur ein Wort ausgegeben von diesem neuronalen Netz, sondern verschiedene, jeweils mit Wahrscheinlichkeitswerten. Und wenn man es ganz genau nimmt, sind es auch gar nicht auf Wortebene, sondern eigentlich arbeitet man auf sogenannter Tokenebene und Wörter, viele Wörter sind halt auch dann genau ein Token, aber ein Token kann eben auch Punkt sein oder Komma oder wenn man jetzt zum Beispiel die Katze hat, dann ist das vielleicht ein Token und wenn man jetzt das Wort Kätzchen hätte, dann wäre quasi Katze immer noch das eine Token und das Chen wäre dann noch ein neues Token. Einfach weil man dann alle Begriffe schon erschlagen kann, quasi die auf "chen" enden im Deutschen und braucht dann nicht irgendwie 100.000 neue Token dafür, sondern kann einfach dann die Wörter an dieser Stelle splitten und dann lernt auch das neuronale Netz, dass "chen" eine Verniedlichung ist und muss dann nicht für jedes Wort diese Verniedlichungsform kennen, um damit arbeiten zu können.
Janine: So ein bisschen wie diese Kühlschrankpoesie, wo man auch einfach Endungen an Wortstämme ranhängen kann.
Helena: Ja, genau. Und was jetzt hier bei so einem Transformer-Modell mit der Attention ja auch eine Rolle spielt, ist, wie lang können eigentlich diese Texte sein und je nachdem, welches Modell man hat, sind das 8.000 von diesen Token oder eben Wortfragmente oder auch 120.000, was schon relativ viel ist. Das heißt, die können relativ lange Texte verarbeiten, ohne den Faden zu verlieren. Das ist jetzt bei ChatGPT in der Ursprungsversion noch nicht so viel gewesen, ist jetzt inzwischen aber deutlich mehr geworden.
Janine: Ja, das ist natürlich relativ ähnlich zu dem, was wir schon mal bei Whisper besprochen hatten, als es darum ging, wie Whisper eigentlich funktioniert, um unsere Audiodateien in Texte zu verwandeln. Da hatten wir das Wort "Token" auch schon mit drin. Das war Folge 40 for the record. Und ja, bei Whisper war allerdings in Anführungsstichen das Problem, dass es auch diese Token generiert über das, was gesagt wurde, damit es weiß, was quasi als nächstes gesagt werden kann und den Kontext hat. Also in den Token steckt auch da der Kontext für das, was als nächstes übersetzt werden kann und wahrscheinlich orientiert sich darin dann eben die konkrete Wortbedeutung. Nur ist es bei Whisper so gewesen, dass es nicht über die gesamte Eingabe der Audiodatei zurückreicht, sondern immer nur, meinetwegen die letzten drei Token sind noch bekannt. Das sind immer so kleine Zeitintervalle gewesen, in denen quasi Satzfragmente drin stecken. Und die überlappen sich so ein bisschen, damit es immer weiter fortgeführt wird, aber alles, was weiter zurückliegt als diese drei Token, sagen wir mal, ich weiß nicht mehr die genaue Anzahl, das wird halt verworfen, das spielt keine Rolle mehr. Und deswegen konzentriert sich Whisper immer nur auf den aktuellen Abschnitt, den es transkribiert, und weiß halt nicht mehr, was vorher war. Und ich glaube, das ist eines der Probleme, warum es immer noch nicht die Sprechenden auseinanderhalten kann, weil es ja nicht weiß, wie viele Personen schon gesprochen haben.
Helena: Ja, also wenn man jetzt sagt, die Hauptanwendung wäre jetzt wirklich sowas wie Podcasts zu transkribieren, dann könnte man das ja da eintrainieren, dass es dann eben auch mit deutlich längeren Abschnitten arbeitet und eine deutlich höhere Kontextlänge hat. Das verlängert natürlich die Zeit, in der so ein Algorithmus durchläuft. Und wenn man jetzt sowas wie Whisper für Echtzeitanwendungen benutzen wollen würde, dann ist das halt unpraktisch. Also das ist halt dann die Frage, wofür will man das einsetzen? Und dann muss man es halt darauf auch optimieren.
Janine: Genau. Und das ist ja auch Rechenleistung, die dabei aufgewendet werden muss, die man erstmal in Hardware vorhanden haben muss. Und auch ein Energieaufwand, der natürlich steigt, je länger ein aufwendiges Modell läuft.
Helena: Ja. Gut. Das, was ich jetzt erklärt habe für den Transformer, kann man sich ganz gut vorstellen, hoffe ich, für Übersetzungen und gesprochene Sprache in geschriebene Sprache umwandeln. Wenn man jetzt das Ganze sich aber für sowas wie Chat-GPT oder GPT anguckt, dann muss man erstmal gucken, ja, wie ist das denn da umgesetzt? Aber praktischerweise sind Transformer ja schon von Anfang an so gedacht, dass sie eben Wort für Wort generieren. Das heißt, man kann das Ganze auch so nutzen, dass man sagt, ja, wir starten jetzt mit einem Text, den man quasi als Input reinpackt, aber dann eben auch bei dem Output reinpackt. Und dann sagt man, man will einfach nur das nächste Wort haben und die Idee ist dann quasi in der Ursprungsform gewesen, man fängt quasi einen Text an und der soll dann die Geschichte vervollständigen. Das waren so die ersten Beispiele von GPT-3, die ich gesehen hatte, die dann darauf basiert haben. Also wenn man jetzt zum Beispiel den Satz hat "Die Katze jagt", dann wären ja mehrere Möglichkeiten möglich, wie zum Beispiel "Der Satz ist jetzt einfach zu Ende, das nächste Token ist ein Punkt." Oder Wörter wie "eine", "die", "den" oder "einen" könnten rauskommen. Hier haben wir dann verschiedene Wahrscheinlichkeiten. Vermutlich ist dann die Wahrscheinlichkeit relativ hoch für "eine", weil "die Maus", wie in unserem vorherigen Beispiel, dazu müsste ja eigentlich "die Maus" schon mal in dem Text vorher vorgekommen sein, damit man typischerweise einen bestimmten Artikel nimmt und nicht einen unbestimmten wie "eine". Gut, aber wenn jetzt das nächste Wort eben "eine" ist, dann ist es schon relativ oder sehr wahrscheinlich, dass danach auch "Maus" kommt, während wenn das Modell dann aussucht, ja, ich nehme jetzt das mit der geringeren Wahrscheinlichkeit, "einen", "die Katze jagt einen", dann muss man ja weiter vervollständigen und dann kommt da "einen Vogel" höchstwahrscheinlich.
Janine: Was ich mich frage, wenn es Bedeutung erkennen kann, dieses "Chat GPT", kann es auch absichtlich nicht Bedeutung erkennen? Also, ich denke da an vogonische Gedichte.
Helena: Ja, vogonische Gedichte kann ChatGPT natürlich generieren. Und das hat mir auch einen schönen Text generiert gerade.
Janine: Aha.
Helena: Blurgle the Splonky Frapple. O squalid splurf of the rancid breeze, How you wiggle through my spleen with ease, Gromp the wobble, oh flibbly bloo, Spatch the greebs, for the muck is due!
Janine: Hm.
Helena: Und noch ein paar Absätze mehr.
Janine: Interessant. Also, ich glaube, mir fehlt noch so ein bisschen vogonische Würze. Da sind noch zu viele Wortworte drin, die mehr wortig sind, als ich sie in vogonischer Dichterei erwarten würde. Es haben sich mir noch nicht die Eingeweide zusammengezogen. Das fehlt ein bisschen, aber ChatGPT kann ja noch lernen.
Helena: Ja, ich dachte auch, irgendwie sind erstaunlich viele normale Wörter da mit drin.
Janine: Ja, falls irgendein Mensch, der uns zuhören sollte, was ich fast nicht glaube, aber falls ein Mensch Kontext braucht, Vogonen sind eine außerirdische Spezies, die im Anhalter durch die Galaxis die Erde gesprengt hat und nun ja, sehr stolz auf ihre Dichterei ist, wobei sie bei den meisten anderen Wesenheiten, die das All bewohnen, eher so etwas wie Krämpfe auslöst, weil sie so abgrundtief schlecht ist.
Helena: So behaupten das zumindest einige Leute. Andere Leute behaupten, das sei gar nicht so schlecht, wie der Hauptcharakter im Anhalter, der findet das okay.
Janine: Ja, gut. Wenn man mit einer gewissen, nun ich sag mal, Demotivation gegenüber der Welt eingestellt ist, dann sind vogonische Gedichte wahrscheinlich auch nicht so das Problem. Ja, kommen wir zurück zu ChatGPT.
Helena: Genau, was ich ja gerade erklärt hatte, ist, dass GPT ursprünglich eigentlich nur in der Lage ist, Sätze zu vervollständigen oder Texte ja, zu ergänzen. Also es endet nicht bei einem Satz, sondern kann schon ganze Texte generieren auf Basis des Eingangstextes. Das ist ja noch nicht genau das, was ChatGPT macht, weil bei ChatGPT ist das ja ein Chat, wo man Fragen stellt oder Eingangstexte gibt. Und wie das da gelöst ist, ist im Wesentlichen, dass man nicht einfach nur die Frage als Inputfrage nimmt, die man da eingetippt hat, und dann generiert das eben einen Output, eine Ausgabe, sondern man muss im Hintergrund ein Setting definieren, also einen Rahmentext erstellen, wie zum Beispiel "Es gibt ein Gespräch zwischen Mensch und AI und der Mensch sagt, was jagt die Maus?, und dann antwortet die AI, Doppelpunkt", und das ist dann der Text, der dann weiter vervollständigt wird von dem Modell. Und das ist in der Praxis, sind diese Prompts, so nennt man das auch, Prompt, also nicht nur Frage, sondern Prompt, dann durchaus komplexer. Und ja, seit es ChatGPT gibt, gibt es auch irgendwie immer wieder das Thema: der neue Berufszweig ist Prompt Engineering, also das Entwickeln von möglichst schlauen Prompts, mit denen diese Sprachmodelle in der Lage sind, dann auch wirklich die Antwort zu geben, die man haben möchte. Und letztlich war bei ChatGPT im Vergleich zu dem GPT-3, was davor kam, eben, dass man eine schlaue Prompt quasi hatte, die eben dieses Setting so generiert, dass es sich wie ein richtiges Gespräch anfühlt. Und wenn man sich andere Modelle anguckt, dann haben die eben auch verschiedene Prompts, die dann im Hintergrund bestimmte Dinge als Kontext mitliefern, den wir jetzt selber nicht noch als Kontext mitgeliefert haben. Ja, und dann vervollständigt das Sprachmodell eben dieses Gespräch. Im Prinzip ist das Sprachmodell jetzt nicht so unendlich schlau, es kann dann ja auch anfangen, den menschlichen Teil wieder zu vervollständigen. Da würde dann eben die Benutzeroberfläche oder das, was man da angebunden hat, einfach dann den Text abschneiden und im nächsten Fall dann den Kontext eben wieder so setzen, ohne diesen vom Computer generierten Teil, den der Mensch angeblich antworten würde. Ja, und das letzte Thema, was vielleicht noch eine Rolle spielt, ist das Training.
Wie werden solche Modelle trainiert? (00:10:44)
Helena: Wie trainiert man solche Modelle? Also letztlich sind das eben auch sogenannte Deep-Learning-Modelle, das heißt, sie werden so trainiert wie andere Deep-Learning-Modelle, darüber reden wir jetzt hier nicht. Also mathematisch betrachtet ist der Algorithmus der gleiche, aber was jetzt Sprachmodelle im Besonderen eben auszeichnet, ist, wenn man jetzt einen Text hat, der hat 100 Wörter, dann entsprechen diese 100 Wörter schon 99 Trainingsdaten-Sätzen, weil man ja den Text an jeder beliebigen Stelle aufhören kann und dann im Training sagen kann, ja, sag mir jetzt das nächste Wort voraus. Das heißt, man kann schon mit relativ wenigen Texten so ein Sprachmodell sehr effizient trainieren, also effizient im Sinne von, man braucht nicht so unendlich viele Eingangstexte. Und was dabei trainiert wird, sind eben die Gewichtungen, die eben in diesen Zwischenschritten bei der Attention verwendet werden oder auch in diesem Feed-Forward-Netz, was am Ende kommt, da gibt es auch Gewichtungen der neuronalen Netzparameter und das ist letztlich das, was dann rausfällt, diese Gewichtungsmatrizen. In diesen Zahlen stecken letztlich auch diese Fakten drin, die eben so ein Modell benutzen kann, um damit zu arbeiten. Also es gibt eine Unterscheidung zwischen Modell, das ist, wie rechnet man, wie ist dieses neuronale Netz aufgebaut und so weiter und dann gibt es eben die Gewichtungsmatrizen, die dann tatsächlich den trainierten Zustand repräsentieren. Und diese Gewichtungsmatrizen sind sehr abstrakt, weshalb es eben auch als sehr schwierig festzustellen gilt, welche Teile dieser Matrizen jetzt für welche genauen Fakten stehen. Ich meine, man kann das ja auch vergleichen mit einem menschlichen Gehirn, letztlich sind neuronale Netze ja so ein bisschen daran angelehnt. Wir wissen jetzt auch nicht, in welchen Neuronen jetzt welche Fakten genau gespeichert sind. Ja.
Janine: Ich finde, das ist auf jeden Fall sehr schön dargestellt insgesamt, weil ich glaube jetzt, das auch ein bisschen besser zu verstehen, wie das aufeinander aufbaut. Und wir hatten ja in früheren Folgen auch schon mal auf so Sachen hingewiesen, wie die KI halluziniert sich etwas zusammen, indem halt Sachen auftauchen, die vielleicht nicht stimmen oder die halt den Fakten eben widersprechen. Und ich glaube, ich habe jetzt so ein bisschen das Gefühl dafür, wie so etwas tatsächlich entstehen kann, weil es ja einfach nach wahrscheinlichen nächsten Worten sucht. Also, wenn irgendwelche Kontexte irgendwann irgendwo in diesem Internet mal gegeben waren und das zu den Trainingsdaten gehört hat, hat das natürlich auch Einfluss. Und natürlich muss ein Wort auf ein Wort folgen. Also, die Eingabe erfordert ja eine Ausgabe, also muss da am Ende etwas stehen. Und das ist ja nur eine Vervollständigung bis zu dem Punkt, wo potenziell die Eingabe ausgeführt wurde, falls man versteht, was ich sagen möchte. Naja, ja. Jedenfalls hoffe ich, dass ihr anderen auch, die uns hier vielleicht zuhören oder sehr wahrscheinlich zuhören, eben auch diese grundsätzliche Arbeitsweise so ein bisschen mitgenommen habt aus dem, was bisher schon gesagt wurde und wie so die Interaktion mit Chat-GPT funktioniert, dass tatsächlich eine Ausgabe rauskommt.
Wie wird chatGPT im Alltag genutzt? (00:32:09)
Janine: Und weil diese Anwendung schon eine ganze Weile jetzt im Gebrauch ist, seit fast zwei Jahren, haben sich auch schon verschiedene Anwendungsmöglichkeiten herauskristallisiert. Ich selbst habe es noch nicht genutzt, im Sinne von noch gar nicht. Also, nie.
Helena: Hast du nicht mal bei einer Suchmaschine schon automatisch generierten Antwortstext von der KI bekommen?
Janine: Ich habe es nicht bewusst genutzt. Also, ich habe nie ChatGPT einen Prompt geliefert und auf eine Ausgabe gehofft. Aber natürlich werde ich wahrscheinlich im Hintergrund Sachen benutzt haben, ohne es zu wissen.
Helena: Okay. Weil verschiedene Suchmaschinen ja mittlerweile, wenn man dann eine Suchanfrage reinschreibt, auch oben erstmal einen KI-generierten Antworttext zeigen, bevor dann die ganzen normalen Suchergebnisse kommen. Also, hätte ja sein können, dass du das in der Form schon mal gesehen hast.
Janine: Gesehen vielleicht, wahrgenommen als solches eher nicht.
Helena: Ach so, okay.
Janine: Da tauchen ja eigentlich manchmal auch immer schon eher, dachte ich, die irgendwelche Snippets aus Wikipedia automatisch auf, die vorübersetzt werden und sowas.
Helena: Genau, das gibt es auch, aber das ist es jetzt je nach Suchmaschine nicht mehr nur.
Janine: Okay. Naja, ich habe keine eigenen Erfahrungen damit oder keine bewussten eigenen Erfahrungen, aber hin und wieder mit Menschen geredet oder Menschen zugehört, die es benutzen. Und da haben sich für mich verschiedene Punkte herauskristallisiert. Es ist vor allem oft der berufliche Kontext und Dinge, die da halt öfter mal genannt werden, sind, dass kleine zeitraubende Aufgaben abgenommen werden können dadurch, das weiße Blatt gefüllt wird für Leute, die viel mit Texten arbeiten. Also, ChatGPT bietet einen Anfangspunkt, eine Vorlage, die man dann selbst überarbeiten oder ausbessern kann. Man kann sich Ideen generieren lassen und ja, Texte schreiben lassen, die relativ banale Inhalte haben, wo es auch nicht auf die Ästhetik des Textes unbedingt ankommt. Und ja, manche benutzen ChatGPT statt Google. Also, nicht nur eine Suchmaschine, die auch KI-Ergebnisse liefert, sondern tatsächlich konkret gleich in den Chat mit einer KI treten, um Ergebnisse zu bekommen. In meiner Vorstellung war das so, vielleicht denken die Leute bei Google immer mehr an die Stichworte und bei ChatGPT kann man halt einfach eine Frage stellen, als würde man irgendeinen Menschen fragen. Sag mal, kannst du mir nicht mal kurz sagen, das und das? So war meine Vorstellung von ChatGPT. Liege ich da in etwa richtig? Wahrscheinlich nicht.
Helena: Ja, also beim Googlen oder beim Benutzen verschiedener Suchmaschinen ist schon seit Jahren das Problem, dass wenn man Stichworte benutzt, man auch immer angezeigt bekommt, welche Stichworte jetzt einfach nicht benutzt wurden, weil es keine sinnvollen Suchergebnisse dazu gab. Was oft sehr frustrierend ist aus meiner Sicht, wenn man denkt, ja, okay, jetzt sind da irgendwie 20 Suchergebnisse, die passen alle überhaupt nicht zu meinem Problem. Weil ein entscheidendes Wort nicht drin vorgekommen ist. Und früher konnte man das immer noch erzwingen, dass bestimmte Wörter oder Phrasen drin vorkamen und das ist über die Zeit aber immer mehr abgebaut worden. Und gerade sowas wie Google ist ja schon seit Jahren eher dabei, auch Leuten Fragen zu ermöglichen. Also da kann man schon seit Jahren einfach Fragen reinschicken und man kriegt irgendwie Antworten. Aber mein persönliches Problem mit sowas wie Google ist dann oft, dass es je nachdem, in welchem Thema man sucht, einfach mit Werbung zugemüllt ist. Also nicht nur bezahlte Werbung, das ist ja okay, irgendwie müssen die ja auch ihre ganzen Sachen finanzieren, das ist ja okay. Aber irgendwie Webseiten, die darauf ausgelegt sind, möglichst viele Suchergebnisse oder bei möglichst vielen Suchen möglichst weit oben bei Google vorzukommen, die dann aber alle nicht wirklich sinnvolle Ergebnisse liefern. Also es ist sehr abhängig davon, was man im Internet sucht, aber bei vielen Themen kommt einfach auch bei Google und bei anderen Suchmaschinen keine sinnvolle Ausgabe mehr raus. Und an der Stelle ist ChatGPT halt viel einfacher, weil man da ja die Frage reinschreiben kann und man kriegt halt eine Antworten. Man kann sich eben auch Quellen geben lassen. Die stimmen dann auch nicht immer so hundertprozentig mit dem überein, was man wirklich gesucht hat, weil es manchmal auch einfach keine Webseiten gibt, die exakt das Thema so behandeln, wie man es gesucht hat. Das ist dann auch ein bisschen ärgerlich. Aber wenn man dann schon mal eine Antwort von ChatGPT hat, dann ist es mit dieser Antwort auch ein bisschen leichter, dann wieder das in Suchmaschinen reinzupacken und dann zu überprüfen, ob die Fakten immerhin stimmen. Und was ich jetzt auch öfter gesehen habe, ist, dass bei Suchmaschinen schon ein LLM beziehungsweise so ein Sprachmodell eingebaut ist, dass es mir eben schon passende Suchergebnisse mit Quellen anzeigt, ohne dass ich jetzt ChatGPT benutzen muss. Ja, was ich dann auch, also ich hatte letzte Woche mal wieder angefangen, die Sherlock Holmes Bücher zu lesen und da ist mir aufgefallen, dass Sherlock Holmes und ChatGPT sehr viel gemeinsam haben. Im ersten Buch sagt Sherlock nämlich, dass sein Gehirn sehr effizient deduzieren würde, um dann irgendwelche kriminalistischen Rätsel zu lösen. Aber um anderen verständlich zu machen, wie er darauf gekommen ist, dass das doch sehr kompliziert wäre und er darüber dann nochmal extra nachdenken müsste. Also er kann das dann? Das ist dann der Unterschied zu ChatGPT, was dann manchmal, wenn es um die Herleitung geht, doch sehr fragwürdig ist, um das zu erklären. Aber er braucht dafür mehr gedankliche Leistung, um auf die richtige Lösung zu kommen. Und dazu hattest du ja einen Artikel gefunden, der ChatGPT auf die Probe gestellt hat und dann die These nennt, dass das, was ChatGPT als Ergebnis erzeugt, dem kahnemanschen schnellen Denken entsprechen würde. Also Kahneman war ein, wie heißt diese Wissenschaft, wo es um Geld geht?
Janine: Ökonom?
Helena: Ja, genau. Kahneman war eben ein Ökonom, der sich angeguckt hat, wie Menschen Entscheidungen treffen und hat dann ein sehr berühmtes Buch geschrieben, was heißt "Schnelles Denken, langsames Denken". Und er hat dann eben die These aufgestellt, dass menschliches Denken eben sich in zwei verschiedenen Prozessen gliedert. Das eine ist das schnelle Denken, das ist das, was passiert, wenn ich jetzt einen Satz sage, ohne vorher genau darüber nachzudenken, was ich sage. So, es kommt einfach raus. In einem flüssigen Gespräch spricht man einfach miteinander, ohne dass man irgendwie lange Gesprächspausen hätte. Und wenn man jetzt eben darüber nachdenken würde, warum ich jetzt genau diese Wörter in dieser Form gesagt habe, würde ich das ja auch nicht unbedingt können. Also das ist die Art des Denkens, die so automatisch immer mitläuft. Und hierauf basieren ja auch Fangfragen, das Ausnutzen, dass man, wenn man nicht wirklich über etwas nachdenkt, sondern einfach dieses schnelle Reagieren hat, dann irgendwie zu einem falschen Schluss kommt. Und dann gibt es laut Kahneman noch das langsame Denken, also das Nachdenken, wo man dann vielleicht nicht mehr auf Fangfragen reinfällt, weil man den Fehler nach ein bisschen Nachdenken sieht, den man sonst gemacht hätte. Ja, wo man vielleicht auch Dinge nachrechnen muss oder logische Schlüsse nochmal überprüfen muss oder das, was man sagt, auch schlüssig begründet. Und das ist das, was ChatGPT nicht kann. Und in diesem Artikel wurden eben auch entsprechend solche Szenarien generiert, wo man dann feststellt, ja, ChatGPT ist bei Fangfragen, die man sich jetzt neu ausdenkt, auch nicht so gut. Das hat natürlich einige gelernt. Aber wenn man sich Szenarien ausdenkt, die relativ ähnlich zu bekannten Szenarien sind, kann man es eben damit durcheinander bringen, weil es ja eben nicht nachdenken kann. Aber das schnelle Denken kann es halt schon, diese spontane Dinge auf basierender Erfahrung generieren zu lassen. Gut, ja, wie wird ChatGPT im Alltag sonst noch genutzt? Also was ich jetzt zum Beispiel schon mal gemacht habe, ist, ich hatte vor, ein bestimmtes Gericht zu kochen und wollte dann irgendwie wissen, ja, okay, ich möchte jetzt vielleicht mal andere Gewürze benutzen, welche könnte ich denn da verwenden? Und damit das einem bestimmten Kochstil entspricht, ob man jetzt irgendwie indisch kochen möchte oder ja, chinesisch oder so, das sind dann verschiedene Gewürze, wo ich jetzt auch nicht immer hundertprozentig weiß, was genau wohin gehört, und dann könnte ich das nachfragen und dann gab es leckeres Essen daraus. Was ich jetzt auch gehört hatte von Wissenschaftler*innen, ist, dass sie, weil wissenschaftliche Veröffentlichungen halt auf Englisch sind, gerne auch den Text Korrektur gelesen bekommen von ChatGPT, weil es eben nicht nur Rechtschreibung korrigieren kann, sondern auch Grammatik. Und somit es ermöglicht für nicht-englische Muttersprachler, besser verständliche Texte zu erstellen. Und gerade im Wissenschaftsbereich ist das ja üblich, dass das meist auf Englisch passiert, aber viele ja nicht in englischsprachigen Ländern geboren wurden und das so perfekt können. Und da lässt man halt nicht den Text komplett generieren, sondern nur Korrektur lesen, da guckt dann auch nochmal ein Mensch drauf, ob es auch alles immer noch Sinn macht, was da steht. Aber es ermöglicht eben Dinge, die vorher nicht so möglich waren. Ja, im Bereich vom Programmieren habe ich das durchaus auch schon ganz oft benutzt. Hier ist es natürlich auch beruflich sehr interessant. Das hat allerdings ein paar Einschränkungen, zu denen ich später noch komme. Ein Beispiel, was ich noch habe, ist, ich habe vor ein paar Jahren mal in einem Kundenprojekt ein bestimmtes Problem gehabt, was ich lösen wollte, oder wo ich keine sinnvolle Lösung gefunden habe, in einer proprietären Software, wo ich dann viel im Internet gesucht habe und verschiedene Dokumentationen gelesen habe und es nicht gefunden habe. Und jetzt hatte ich mich daran erinnert und dann habe ich zum Testen mal ChatGPT gefragt und habe sofort die richtige Antwort bekommen. Also, wenn man nach längerem im Internet suchen und Dokumentationen lesen keine Antwort gefunden hat, dann sollte man vielleicht spätestens mal ChatGPT testen. Gerade bei so Softwareproblemen sieht man ja auch sehr schnell, ob es richtig ist, was ChatGPT behauptet, weil man es einfach ausprobieren kann. Und dann habe ich diesen Sommer mal wieder Kurse an der Uni gegeben und dann festgestellt, dass jüngere Teilnehmende selbstverständlich sich von ChatGPT helfen lassen und die älteren Teilnehmenden nicht.
Janine: Okay.
Helena: Also, es ist offenbar, ja, wie bei vielen Computertechnologien, dass was neu ist, wird von jüngeren Leuten eher eingesetzt. Ja, und ich denke, dass ChatGPT durchaus nützlich ist, um so Programmcode besser zu verstehen. Das Risiko, wenn man jetzt noch lernen möchte, ist natürlich, dass man nicht genug lernt, um es selbstständig zu verstehen. Also, man kann dann vielleicht selbstständig bestimmte Programmieraufgaben gar nicht mehr lösen, weil das ChatGPT immer für einen macht. Solange es die richtigen Lösungen generiert, ist das vielleicht auch okay, weil wenn das ChatGPT kann, warum muss der Mensch das dann noch machen? Braucht man ja nicht mehr. Aber sobald es komplizierter wird und spezieller, dann fängt ChatGPT irgendwo an, halt Dinge nicht mehr so richtig gut hinzubekommen. Also, je spezieller die Themen werden, je allgemeiner die sind, desto besser ist halt auch die Antwort. Also, kann ich, wenn man programmiert, durchaus empfehlen, wenn man eine Frage nicht sofort beantwortet bekommt, erst mal ChatGPT zu fragen. Und man kann das ja, wie gesagt, sehr schnell ausprobieren. Ja.
Janine: Ja. Wir hatten ja auf dem Mastodon-Account gestern eine kurze Frage gestellt, wer denn so wofür ChatGPT nutzt. Und da landete auch eine Antwort drunter, wo auch das Python-Coden mit angegeben wurde, dass eine Person das halt benutzt, um Code zu generieren, wo zwar generell bekannt ist, was er tun soll, aber die Syntax jetzt eben nicht auswendig auf dem Schirm ist. Und dann liefert halt ChatGPT sehr schnell benutzbare Dinge, die mit kurzem drüberfliegen auch gut verifiziert werden können, wenn das schon bekannt ist, was es eigentlich leisten soll an der Stelle, der Python-Code.
Helena: Ja.
Janine: Und das ist halt richtige Buzzwords liefert für Dinge, wo man sich vielleicht selber gerade nicht so gut auskennt.
Helena: Und dann kann man damit wieder weiter suchen im Internet.
Janine: Genau.
Helena: Ja, das denke ich auch. Also, ich habe das dann bei den Kursen auch genutzt, weil ich dann live immer Dinge erklärt habe auf dem Beamer und die Teilnehmenden wollten dann eben auch das, was ich gezeigt habe, auch zugeschickt bekommen, aber gerne mit erläuternden Kommentaren. Dafür habe ich dann auch ChatGPT genutzt, um eben Kommentare hinzuzufügen, die erklären, was passiert. An einigen Stellen musste ich dann auch was dazu schreiben, die dann das Warum erklären. Gerade wenn man lernt, ist es auch wichtig, dass man das Was erklärt bekommt, was passiert. Das heißt auch, was ChatGPT gemacht hat, ist, denke ich, hilfreich. Aber das Warum, das weiß ChatGPT dann nicht unbedingt. Deswegen habe ich das dann eben noch ergänzt. Und bei Kommentaren in Programmierungen ist es ja generell so, man will eigentlich in erster Linie das Warum reinschreiben, weil das Was, das sagt ja auch der Code, wenn man den Code verstehen und lesen kann. Aber warum man das tut, das muss man dann eben kommentieren. Und das musste ich in diesem Fall eben auch. Das konnte ChatGPT nicht. Ja, es hilft sehr viel beim Programmieren. Jetzt ist natürlich das Problem, wenn ich das beruflich einsetze, dass man ja die Daten an eine amerikanische Firma schickt. Und ich darf jetzt in vielen Kundenprojekten diesen Code für die Datenanalysen nicht einfach an andere Firmen weitergeben. Also ich habe dann einen Vertrag unterschrieben, in dem drin steht, ich muss diese Firmengeheimnisse natürlich für mich behalten. Also darf ich die mit ChatGPT schon mal nicht teilen.
Janine: Ja.
Wie sieht der Datenschutz bei chatGPT aus? (00:45:58)
Helena: Ja, was uns dann zu dem nächsten Abschnitt bringt. Wie sieht denn eigentlich der Datenschutz bei ChatGPT aus?
Janine: Ja, Datenschutz bei ChatGPT, das Thema hatten wir versprochen. Und es ist ein wahnsinnig großes Thema, weil da sehr viele, viele Dinge dran hängen, was auch gesellschaftliches und so weiter angeht, wie ich finde. Und ja, ich werde sehr an der Oberfläche bleiben. Gucken wir mal, was am Ende bei rauskommt. Also natürlich ist es hier auch wie bei vielen digitalen Anwendungen eben ein Thema, weil letztlich Daten eingegeben werden, die auch personenbezogene Daten sein könnten. Das hatten wir in der letzten Folge bei den Gesundheitsdaten auch schon als Thema. Und bei ChatGPT ist es nochmal besonders spannend, weil diese Technologie im Prinzip von jetzt auf gleich sehr vielen Menschen zur Verfügung stand. Also ChatGPT hat am 30. November 2022 die Öffentlichkeit betreten und war dann eben da mit allen Konsequenzen. Wir haben das ja auch mit der Bildgenerierung durch das Thema. Dort wurde dann auch danach darüber geredet, was hat das eigentlich für rechtliche Konsequenzen, welche Bilder da benutzt wurden. Und so ähnliche Themen gibt es eben bei ChatGPT natürlich auch. Und dieses Thema ist in den letzten zwei Jahren sehr, sehr groß geworden, weswegen sich das auch gar nicht so einfach runterbrechen lässt. Und auch allgemein in dieses Ganze, wie gehen wir als Gesellschaft mit künstlicher Intelligenz um auf verschiedenen Ebenen, in verschiedenen Einsatzgebieten, steckt da auch alles so ein bisschen mit drin. Und ich habe mich dazu entschieden, mal ein Zitat aus dem Tätigkeitsbericht des Datenschutzbeauftragten des Bundes zu zitieren, der dieses Jahr im März erschienen ist. Und dort steht:
"Das Tempo, mit dem innerhalb weniger Monate zahllose KI-basierte Innovationen an den Start gegangen sind, hat große Hoffnungen geweckt, aber auch große Ängste ausgelöst. Dass KI tiefgreifende Auswirkungen auf die Gesellschaft haben kann, steht außer Frage. KI-Systeme können bemerkenswert positive Auswirkungen auf unsere Lebensqualität haben, sie können aber auch Freiheiten und Rechte von Bürgerinnen und Bürgern stark beeinträchtigen, denn die zahlreichen Vorteile basieren in der Regel auf der Auswertung von großen, oft auch personenbezogenen Datenmengen. Je nachdem, wie KI eingesetzt wird, birgt sie damit das Potenzial für Grundrechtseinschränkungen und Diskriminierungen. Ein hohes Maß an Transparenz und Nachvollziehbarkeit der Ergebnisse und der Prozesse maschinengesteuerter Entscheidungen, der Grundsatz der Datenminimierung, die Einhaltung der Zweckbindung, aber auch die Vermeidung von Diskriminierungen und die klare Zurechnung von Verantwortlichkeiten sind daher Grundsätze, die die Technologiegestaltung begleiten müssen."
Janine: Das ist aus dem Tätigkeitsbericht des Jahres 2023, also quasi ein Jahr nach ChatGPT, so ein Zwischenfazit, weil es eben so sehr aus dem Nichts kam und so super anwenderfreundlich war von vornherein, mit einer sehr simplen Eingabemaske und einer Oberfläche, die direkt funktioniert hat, hat es sich auch schon so schnell verbreitet. Und zu dem Zeitpunkt waren aber viele Fragen noch offen, was die rechtlichen Hintergründe und den Datenschutz der eingegebenen Informationen angeht, was zum Beispiel darin gipfelte, dass Italien im März 2023 ChatGPT vorübergehend verboten hat und es im eigenen Land gesperrt hat, wegen unklarer rechtlicher Grundlagen. Das wurde circa einen Monat später wieder aufgehoben, weil OpenAI, der Betreiber von ChatGPT, eben die gestellten Anforderungen nachgeliefert hat. Und seitdem und auch schon vorher, weil ChatGPTs Veröffentlichung ist ja quasi nur so eine Spitze dessen, was da an KI-Entwicklung im Hintergrund schon mehrere Jahre vorher gelaufen ist oder seit sehr, sehr vielen Jahren. Ja, das führte jedenfalls jetzt auch dazu, dass es den Artificial Intelligence Act der Europäischen Union gibt, die KI-Verordnung, wie sie, glaube ich, auf Deutsch übersetzt wunderschön genannt wird, die inzwischen auch unterschrieben ist und verschiedene Dinge regeln soll. Dieser AI-Act ist seit diesem Jahr am 1. August in Kraft getreten, aber die Verpflichtung, ihn auch anzuwenden, tritt erst 2026 teilweise in Kraft und zieht sich dann noch bis zum 2. August 2027. Also bis dahin wird auf die freiwillige Selbstbedingsung, ich kenne das Wort nicht, Selbstverantwortung der Institutionen, Firmen und so weiter gesetzt, die eben künstliche Intelligenz benutzen. Die Frage ist, ob damit denn eigentlich alles gut ist. Sind auch meine eigenen Daten geschützt oder welche Daten können dadurch geschützt werden? Naja, vermutlich ist es nicht ganz so gut, weil zum einen tritt es halt erst viel später in Kraft und das wird bis dahin so der Selbstverwaltung der Firmen überlassen. Aber zum anderen ist es auch so, dass halt bereits jetzt zur Verfügung gestellte Daten sich auch nicht mehr wirklich entfernen lassen. Also was schon drin ist, ist schon drin und kann nicht so einfach gelöscht werden wie ein Foto, das irgendwo auf einem Cloud-Server liegt, weil es halt verarbeitet wurde. Und das steht auch in den Nutzungsbedingungen von ChatGPT mit drin, wo sie beschreiben, wie sie den Inhalt benutzen. Da steht "We can use your content worldwide to provide, maintain, develop and improve our services." Also es wird weltweit angewendet, um diesen Dienst am Laufen zu halten, ihn zu pflegen und weiterzuentwickeln. Es gibt tatsächlich auch eine Opt-out-Klausel, also falls ihr ChatGPT nutzt und einen Account habt, guckt euch die Opt-out-Klausel mal an. Allerdings ist da wiederum die Einschränkung wie bei jedem dieser Services, wir können dann vielleicht leider nicht mehr speziell auf dich zugeschnittene Antworten liefern. Also diese Einschränkung muss man dann wahrscheinlich in Kauf nehmen. Und deswegen gilt eigentlich wie bei den meisten anderen technologischen Anwendungen auch, die man einfach so im Internet benutzen kann, welche Daten wir von uns aus zur Verfügung stellen, sollten wir uns vorher gut überlegen. Also was erzähle ich einem ChatGPT in der Web-Anwendung über mich? Mein Geburtsdatum? Oder suche ich da vielleicht nach irgendwelchen Krankheitssymptomen, wie das ja auf Google oft der Fall ist und so weiter? Das sind halt alles Sachen, die man eingibt und die irgendwann ein Bild von einem Menschen auf der Welt ergeben. Vielleicht weiß niemand, dass man das selber ist, aber es sind am Ende doch die personenbeziehbaren Daten, die da vielleicht drin landen. Was übrigens um den AI-Act, wo der noch kritisiert wird, auch nochmal am Rande mitzunehmen. Nicht alle KI-Systeme werden durch diesen AI-Act gleichermaßen reguliert. Meistens die, die irgendwie in der Wirtschaft eingesetzt werden, aber gerade der Einsatz von militärischen KI-Systemen oder KI-Systemen zur Strafverfolgung, da sind einige Punkte wohl offen geblieben. Das heißt, so was wie jetzt zum Beispiel aus einem Artikel vom Deutschlandfunk oder einem Beitrag "Gesichtserkennung im öffentlichen Raum ist an sich mit künstlicher Intelligenz verboten, kann aber vielleicht dann doch für Strafverfolgung in Sicherheitsbehörden nutzbar gemacht werden." Also, der AI-Act sagt nicht, dass solche Dinge nicht passieren, er sagt nur, wer es machen darf.
Helena: Okay.
Janine: Ja. Und weil wir das Thema in der letzten Folge auch hatten, bei den Gesundheitsdaten, es ist übrigens laut dem AI-Act auch verboten, die Gefühlserkennung mittels KI am Arbeitsplatz einzusetzen. Also, das geht hier schon mal nicht in der EU dann.
Helena: Ja, diese Gefühlszustandserkennung von Menschen war so eines der ersten großen Beispiele vor zehn Jahren oder so, auf Basis von Bilderkennung oder auch von Texten, die man geschrieben hat, dass man dann eben den Gefühls- und Erregungszustand der Person festzustellen, weil man irgendwie, keine Ahnung, spezielle Werbung in Supermärkten an bestimmten automatisierten Bildschirmen zeigen wollte. Also, das war eines der Themen vor zehn Jahren.
Janine: Und eine Randnotiz habe ich noch. Weil ich eben von dem Datenschutzbeauftragten und in der letzten Folge auch gesprochen habe, das waren jeweils Zitate aus der Amtszeit von Professor Ulrich Kelber als Datenschutzbeauftragter des Bundes. Seit dem 3.9. diesen Jahres haben wir eine Datenschutzbeauftragte im Amt, nämlich Professor Dr. Luisa Specht-Riemenschneider. Also, demnächst werde ich dann von die Datenschutzbeauftragte reden, wenn wieder so ein Thema aufkommt. Also, nicht wundern, dass es da einfach mal kurz gesprungen ist.
Welche LLMs lassen sich lokal ausführen? (00:54:26)
Helena: Gut, also wenn wir jetzt wissen, dass Daten weitergeben an Chats GPT je nach Situation nicht so schlau ist, ist ja gleich auch ein Thema, kann man nicht so etwas ähnliches wie ChatGPT auch einfach lokal auf dem eigenen Rechner ausführen? Da kann ich einfach zu sagen, ja, das geht. Und das hat sich so entwickelt, dass, ja, als ChatGPT erst mal veröffentlicht wurde, wurden die anderen großen Firmen im Bereich von IT, sowas wie Facebook und Google und Apple, erst mal sehr überrascht davon, dass es jetzt dieses Produkt gibt, was so stark ja einem Hype unterlegt, dass sie dachten, okay, wir müssen auch alle in diesem Bereich arbeiten. Und Facebook, beziehungsweise die Muttergesellschaft, die sich da mittlerweile gegründet hat, namens Meta, hat dann im März 2023 ein eigenes Modell entwickelt mit dem Namen Llama. Und das wurde für Wissenschaftler*innen zur Verfügung gestellt. Und die Veröffentlichung gab es dann ohne eben diese trainierten Gewichtungen. Die Gewichtsmatrizen waren nicht dabei. Das heißt, man hätte es immer noch selber trainieren müssen. Aber diese Gewichtungen, diese trainierten Daten wurden dann geleakt und über BitTorrent-Netzwerke verteilt, sodass es dann plötzlich frei verfügbar war, weil das Modell selber war ja schon offen. Dann waren jetzt auch noch die Gewichtungen, also die trainierten Daten, standen zur Verfügung, wenn auch nicht unbedingt legal. Aber das hat dann dazu geführt, dass sehr viele Leute eben angefangen haben, sich auf Basis dieses Modells mit diesen Large Language Models zu befassen, also mit den großen Sprachmodellen, das ja oft LLM abgekürzt wird. Deswegen ja auch der Name Llama mit Doppel-L, weil das einfach sehr naheliegend ist. Ja, Meta hat dann festgestellt, ja, das ist ja eigentlich gar nicht so schlecht, wenn so viele Leute auf Basis der eigenen LLMs Dinge lokal laufen lassen. Machen wir das doch weiterhin so und veröffentlichen die Modelle unter einer relativ offenen Lizenz. Und das ist seitdem auch mehrfach passiert. Und was jetzt ist diese Lizenz halt eben ermöglicht, dass man es einfach privat benutzen kann, aber keine kommerzielle Nutzung. Dafür müsste man eben eine kommerzielle Lizenz erwerben. Das werden sicherlich viele Leute auch nicht machen, die das benutzen. Aber gerade für Firmen, die dann eigene LLMs verwenden wollen, ist das natürlich dann interessant. Das heißt, dieses Geschäftsmodell ist für Meta durchaus interessant. Dann gibt es allerdings auch noch andere Firmen, die auf diesen Zug aufgesprungen sind. Unter anderem eine französische Firma namens Mistral AI. Die haben ein Modell veröffentlicht mit dem Namen Mistral. Das ist unter der Apache-Lizenz veröffentlicht. Das heißt, es darf auch kommerziell benutzt werden und einfach weitergegeben werden. Diese Firma hat jetzt wiederum auch dann noch ein Speziell für Programmierer... ein Modell veröffentlicht namens Codestral, das dann wiederum aber keine kommerzielle Nutzung erlaubt, das Lizenzmodell dafür. Gut, ich habe es trotzdem einmal ausprobiert. Ich hatte ja vorhin gesagt, dass ich meinen R-Code aus einem Kurs habe kommentieren lassen von ChatGPT. Ja, das habe ich eben auch mit diesem Codestral ausprobiert. Und dann hatte es sich erstmal beschwert, dass es ja nur Python könne und von R nicht so viel versteht. Und es war auch nicht in der Lage, mir irgendwie Kommentare dazu zu schreiben. Es hat versucht, in einem Fließtext ein bisschen den Code zu erklären. Aber das war überhaupt nicht die Aufgabe, die ich dem gegeben habe. Das war dann ein bisschen enttäuschend. Von daher ist es jetzt auch egal, ob ich das kommerziell nutzen darf oder nicht. Also wenn ich jetzt Dinge in einem Kundenprojekt nutze, dann ist das ja schon automatisch kommerzielle Nutzung, weil ich damit ja Geld verdiene.
Wie verwende ich LLMs lokal? (00:58:23)
Helena: Gut, aber wenn ich das jetzt mache, wie mache ich das dann? Es gibt ein Tool namens "Ollama". Das ist natürlich dann auch so benannt wegen dem Llama-Modell. Und Ollama ist dann wiederum ein Tool, das ist jetzt selber kein Sprachmodell, sondern es ist eine Software, die im Prinzip ermöglicht, verschiedenste Sprachmodelle auszuführen und leicht zugreifbar zu machen. Und damit lassen sich eben diese Sprachmodelle auf dem lokalen Rechner herunterladen und ausführen. Und standardmäßig hat das Ganze ein einfaches Textinterface in einer Kommandozeile. Das heißt, es ist jetzt nicht so ultra benutzerfreundlich. Deswegen habe ich dazu noch ein Tool installiert namens "OpenWebUI", was dann eine Benutzerschnittstelle, die so aussieht wie ChatGPT zur Verfügung stellt. Und das funktioniert eben auch mit verschiedenen Sprachmodellen im Hintergrund. Man könnte sogar ChatGPT da einbinden. Ja, dann lässt sich das Ganze einfach benutzen, quasi. Man kann einfach "Mystril" oder "Llama 3" herunterladen und damit chatten. Dann habe ich noch ein Plugin für den Code-Editor Visual Studio Code oder "VS Code". Das hat den Namen "Continue". Und was dieses Plugin ermöglicht, ist, dass man direkt im Code-Editor eben Vervollständigungsvorschläge hat. Also es gibt ja... gab ja auch vorher schon Autovervollständigungen von bestimmten Befehlen und so weiter in solchen Code-Editoren. Aber das Ganze ist dann eben AI-basiert. Und das Interessante ist jetzt, dass dieser Code-Editor auch in der Lage ist, dann den gesamten Code einzulesen in einem Projekt und dann auch Fragen anhand von dem eigenen Code zu beantworten. Das heißt, man kann dann auch Programmcode generieren lassen, der tatsächlich mit der eigenen Software klarkommt und darauf basiert. Weil wenn das jetzt eine Software ist, die jetzt nicht öffentlich verfügbar ist, dann können die Sprachmodelle ja nicht darauf trainiert worden sein und können einem dazu, wie man das benutzt, keine sinnvollen Antworten geben. Aber dadurch, dass das Ganze eben den Code analysiert und dann eben die richtigen Dateien mit als Kontext liefert, wenn man die Frage dahin schickt, bekommt man durchaus sehr hilfreiche Aussagen zu dem eigenen Code. Oder was man auch machen kann, ist, wenn man jetzt in ein neues Projekt reinkommt, wo man noch nicht eingearbeitet ist, dass man mithilfe von diesen Modellen in der Lage ist, erstmal zu verstehen, was hier eigentlich passiert, ohne dass man den Code selber lesen muss. Ja, was hier noch relevant ist, ist, es gibt, wenn man das selber ausführen will, zwei begrenzende Faktoren. Das eine ist der Arbeitsspeicher und das andere ist die parallele Rechenkapazität. Und da gibt es jetzt zwei verschiedene Systeme, die das jeweils gut können. Also, viele Computer haben ja Grafikkarten, weil sie Dinge anzeigen sollen auf einem Bildschirm. Aber es gibt dann eben spezielle Spiele-Grafikkarten, die besonders schnell sehr viele Dinge parallel rechnen können und das ist etwas, was nötig ist für diese Sprachmodelle. Der Nachteil von diesen Grafikkarten ist allerdings, dass sie relativ wenig Arbeitsspeicher haben, aber diese Sprachmodelle relativ groß sind. Wenn man jetzt zum Beispiel 8 GB Arbeitsspeicher in der Grafikkarte hat, dann kann man aber schon verschiedene Modelle ausführen. Insbesondere Llama 3 hat verschiedene Modelle, die dann ganz einfach laufen. Aber insbesondere die kleineren Llama-Modelle laufen auch mit okayer Geschwindigkeit auf Computern ohne Grafikkarte, wenn diese viele Prozessorkerne haben. Und der Vorteil da wäre theoretisch, dass man in einem normalen Rechner sehr schnell auch sehr viel RAM haben kann, aber die großen Sprachmodelle, die dann auch eigentlich bessere Ergebnisse liefern, also die größeren Sprachmodelle hier, das sind ja alles große Sprachmodelle, die sind dann deutlich langsamer. Die verbrauchen nicht nur mehr RAM, sondern brauchen auch deutlich länger für die Ergebnisse. Da weiß ich jetzt nicht, ob man die überhaupt auf normalen Computern laufen lassen will, außer man möchte es einmal kurz ausprobieren. Ja, ich meinte ja gerade so, die Sprachmodelle sind ja dann in der Regel nicht auf eigener interner Software trainiert worden. Das lässt sich jetzt allerdings natürlich nachholen, weil wenn man eben diese Gewichtungsmatrizen hat, dann ist das ja ein Startpunkt, um dann weiterzulernen. Und eine wichtige Sache, die man mit all diesen Sprachmodellen, insbesondere die, die man halt lokal benutzen kann, machen kann, ist, ja, sie weitertrainieren und spezialisieren. Das hat zum Beispiel den Vorteil, dann kann man es halt auf einem kompletten, großen Softwareprojekt trainieren, statt immer nur einzelne Dateien, die noch in diese Kontextlänge passen, die man mitgeben kann, mitzugeben. Und dieses Weitertrainieren von Sprachmodellen auf bestimmte Anwendungen nennt sich dann "Finetuning". Und damit lassen sich eben für bestimmte Anwendungen Sprachmodelle optimieren. Und außerhalb der Programmierung wäre zum Beispiel ein sehr gutes Beispiel für dieses Finetuning, dass man speziali
01:13:30
dl054: gesundheitsdaten und sicherheit
Episode in
datenleben
Wir reden über Gesundheitsdaten. Relativ selbstverständlich erfassen Geräte, die wir bei uns tragen, Daten über unseren Alltag: Apps auf Smartphones, Fitness-Armbänder, Smartwatches etc. Wir wollten natürlich wissen: Was sind Gesundheitsdaten? Aber uns auch ansehen, was solche Daten wirklich aussagen können, welche Analysen z.B. anhand selbst gemessener Daten möglich sind. Unsere Themen sind hier Schlaf und Herzfrequenz. Aber überall, wo es um Daten geht, darf der Aspekt der Sicherheit von Daten nicht fehlen. Mit wem teilen wir sie? Wie steht es um Zyklus-Apps? Was passiert bei Bonusprogrammen?
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Gesundheitsdaten und elektronische Patientenakte:
Wikipedia: Gesundheitsdatenschutz
bfdi.bund.de, Bundesbeauftragter für den Datenschutz und die Informationsfreiheit: Neuerungen bei der elektronischen Patientenakte
bfdi.bund.de, Bundesbeauftragter für den Datenschutz und die Informationsfreiheit: Die elektronische Patientenakte
Schlafanalysen:
Rujira Adhibai et al.: Depressive symptom screening in elderly by passive sensing data of smartphones or smartwatches: A systematic review
Nematjon Narziev et al.: STDD: Short-Term Depression Detection with Passive Sensing
Luca Canzian et al.: Trajectories of depression: unobtrusive monitoring of depressive states by means of smartphone mobility traces analysis
Xianda Chen et al.: ApneaDetector: Detecting Sleep Apnea with Smartwatches
Herzfrequenzvariabilität:
Wikipedia: Herzfrequenzvariabilität
Taryn Chalmers et al.: Stress Watch: The Use of Heart Rate and Heart Rate Variability to Detect Stress: A Pilot Study Using Smart Watch Wearables
Eyad Talal Attar et al.: Stress Analysis Based on Simultaneous Heart Rate Variability and EEG Monitoring
Datensicherheit und -verwertung:
bsi.bund.de, Bundesamt für Sicherheit in der Informationstechnik: Wearables: So nutzen Sie Fitnesstracker, -armbänder & Co. sicher
verbraucherzentrale: Wearables, Fitness-Apps und der Datenschutz: Alles unter Kontrolle? Eine Untersuchung der Verbraucherzentralen – April 2017 (PDF)
vzbv.de, verbraucherzentrale Bundesverband: Zyklus-Apps: Großteil der Nutzerinnen ist Datenschutz wichtig. vzbv veröffentlicht Befragungsergebnisse zur Nutzung und Bewertung von Zyklus-Apps
theguardian.com, Flora Garamvolgyi: Why US women are deleting their period tracking apps
netzpolitik.org, Rahel Lang: Viele Menstruations- und Schwangerschaftsapps erfassen sensible Daten
Wikipedia: Schwangerschaftsabbruch. Aufhebung von Roe v. Wade 2022
Wikipedia: Roe v. Wade. Entwicklungen ab 2021
tk.de: TK-Fit
Erwähntes Thema:
endometriose-vereinigung.de: Was ist Endometriose?
Schlagworte zur Folge
Gesundheitsdaten, Gesundheit, Tracker, Fitness-App, Fitnessarmband, Smartwatch, Datensicherheit, Datenschutz
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 54. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch die Welt der Daten näher bringen. Was für Daten umgeben uns? Wie gehen wir mit diesen Daten um? Und was können wir aus ihnen lernen? Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.
Thema der Folge (00:00:37)
Janine: Und in dieser Folge soll es um Daten gehen, die uns sehr nahe gehen, nämlich Daten über die eigene Gesundheit. Inzwischen ist es ja sehr verbreitet, dass wir Geräte bei uns haben oder sie explizit dafür tragen, die Informationen über unseren Körper, unsere Aktivität und so weiter sammeln, ja, seien es Smartwatches, Fitness-Armbänder oder Apps, die auf unseren Smartphones aktiv sind, die diese sogenannten Gesundheitsdaten sammeln. Und dieser Thematik wollen wir dieser Folge widmen. Allen voran natürlich die Frage, was sind eigentlich Gesundheitsdaten? Und wir haben uns dann Untersuchungen herausgegriffen, in denen Forscher*innen unter anderem auch die Datenerhebung mit solchen Geräten und Apps gemacht haben, die eigentlich ja so ein bisschen für den Eingebrauch konzipiert sind. Und das gibt uns vielleicht dann einen ganz guten Blick darauf, was diese Daten überhaupt leisten können und wo vielleicht auch Grenzen sind. Und ja, dabei haben wir uns thematisch auf Schlaf- und Herzfrequenz konzentriert, weil das nun mal gesundheitlich zwei sehr relevante Themen sind. Und auch der Frage, wie es mit der Datensicherheit aussieht, denn gerade wo Daten anfallen, persönliche, personenbeziehbare Daten und so weiter, muss es ja auch irgendwie um Datensicherheit gehen. Wenn man Daten zur eigenen Gesundheit erfasst, kann es ja ziemlich schnell sehr sensible Bereiche hier geben. Und um das besonders auf den Punkt zu bringen, haben wir uns hier das Thema Zyklus-Apps angesehen, also das Erfassen des Menstruationszyklus in einer App, die ja vor allem auf dem Smartphone benutzt wird. Und ja, das wird wahrscheinlich eine ziemlich volle Folge.
Warum ist das Thema wichtig? (00:02:23)
Helena: Ja, und warum haben wir das Thema für wichtig beziehungsweise interessant gehalten? Also zum einen interessieren wir uns selber dafür. Also ich zum Beispiel habe auch so einen Fitness-Tracker, mit dem ich bestimmte Dinge erfasse und finde das durchaus ganz interessant, da immer wieder mal drauf zu gucken. Und eine andere Frage, die wir uns ja gestellt haben, ist, was können die Anbieter solcher Fitness-Tracker und ähnlicher Geräte eigentlich über einen erfahren, womit man vielleicht gar nicht selber jetzt so gerechnet hätte, die über das hinausgehen, was da jetzt offensichtlich angezeigt wird.
Einspieler: Der Datenschatz unseres Alltags (00:03:02)
Janine: Der Datenschatz unseres Alltags. Im Laufe eines einzigen Tages erfassen Sensoren um uns herum unser Leben bis ins kleinste Detail. Sei es das Smartphone, das wir bei uns tragen, das auch im Schlaf meist neben uns liegt, oder eine Smartwatch oder ein Fitnessarmband. Manchmal werden auch noch weitere Geräte eingebunden, wie die Personenwaage, das Blutdruckmessgerät, Umgebungssensoren und so weiter. Wer mindestens eines dieser Geräte besitzt, wird tags und nachts erfasst. Dinge, die wir tun und damit auch irgendwie Dinge, die wir nicht tun. Wie oft nehmen wir das Handy zur Hand? Welche Apps benutzen wir? Wie lange? Wie viele Schritte sind wir an diesem Tag gegangen? Wie viele Stunden Schlaf haben wir in der Nacht bekommen? Wie oft sind wir aufgewacht? Wie viel wiegen wir? Wie stabil ist unser Gang, wenn wir zu Fuß unterwegs sind? Wie hoch ist unser Puls? Wie ist die Qualität der Luft, die wir atmen? Haben wir an einem Tag überhaupt das Haus verlassen? So etwas und vieles mehr wird im Laufe eines Tages gemessen, aufgezeichnet und langfristig gespeichert. Unser Alltag und unsere körperliche und psychische Gesundheit zeichnet sich in diesen Daten ab. Einzelne Daten allein sind vielleicht unbedeutend. In ihrer Summe erzählen sie Geschichten über unsere Leben, über unsere Aktivität, über unsere Gewohnheiten. Wir zerfallen in tausende und aber tausende kleine Datenpunkte. Und diese können wir uns ansehen, aus allen möglichen Perspektiven und allen möglichen Kombinationen. Aber wer und warum sieht sich das an? Zum einen vielleicht wir selbst, und zwar um etwas zu ändern, zu verbessern und diese Veränderungen und vielleicht Erfolge dadurch auch sehen zu können. Zum anderen können sich diese Daten auch andere zu Nutzen machen. Wenn Unternehmen diese Daten für uns speichern, statt dass sie auf unseren Geräten gespeichert sind, können sie auch weiterverwertet werden. Manche Daten werden benutzt, um die Anwendungen zu verbessern oder um sich mit anderen Nutzer*innen zu verbinden oder zu messen. Und manche Daten werden auch verkauft, damit andere Unternehmen auf Basis unserer Aktivitäten oder Gewohnheiten gezielter Werbung für uns schalten können. Das ist allerdings auch nicht das Einzige, was damit passieren kann. Aber es gibt zahlreiche Nutzungsmöglichkeiten für so einen großen Datenschatz. Und manche davon sind vielleicht noch gar nicht erfunden worden. Aber die Daten sind bereits da!
Was sind Gesundheitsdaten? (00:05:34)
Helena: Zum Beginn der Folge wollen wir uns jetzt einmal die Frage stellen, was sind Gesundheitsdaten? Und dazu zitiere ich jetzt einmal die Wikipedia, die dazu eine sehr ausführliche Definition hat und zwar folgendes. "Zu den Gesundheitsdaten gehören alle Daten über den physischen oder psychischen Zustand eines Menschen, die auch nur bedingt im Zusammenhang mit einem medizinischen Kontext entstehen können. Darunter fallen auch Informationen über Unfälle, Sehstärke, über intellektuelle und mentale Fähigkeiten, aber auch Verhaltensweisen wie das Trink- und Rauchverhalten, Allergien oder die Teilnahme an einer Selbsthilfegruppe wie Weight Watchers oder den anonymen Alkoholikern. Gesundheitsdaten umfassen Informationen über den früheren, gegenwärtigen und künftigen körperlichen oder geistigen Gesundheitszustand der jeweiligen Person. Hierzu gehören ebenso die Prüfung oder Untersuchung eines Körperteils oder einer körpereigenen Substanz, biologischen Proben und Informationen über Krankheiten, Behinderungen, Krankheitsrisiken, Vorerkrankungen und klinischen Behandlungen." Zitat Ende. Also offenbar sind Gesundheitsdaten meistens Daten, die bei ärztlicher Behandlung anfallen, aber auch generell alles, mit dem man den physischen bzw. psychischen Zustand ermitteln kann. Also ja, insbesondere bei so Fitness-Trackern, die dann sowas wie Herzfrequenz oder wie aktiv man ist messen, die erfassen insofern auch, wie fit man gerade ist und das fällt dann auch unter Gesundheitsdaten.
Kleiner Exkurs zur elektronischen Gesundheitsakte (00:07:11)
Janine: Wir hatten ja in der letzten Folge schon mal auf diese Folge verwiesen, wie immer. Und da hatte Helena kurz angerissen, dass man eigentlich im Kontext dieses Themas auch über die elektronische Gesundheitsakte bzw. elektronische Patientenakte reden könnte. Das ist aber auch ein sehr umfangreiches Thema für sich, deswegen wollen wir das nicht sehr ausführlich machen, aber an dieser Stelle ein kleiner Exkurs. Das Thema wird nämlich für uns alle insofern wichtig, dass im Januar 2025 die elektronische Patientenakte für alle gesetzlich versicherten Menschen auch ohne deren eindrückliches Einverständnis eingerichtet wird. Also, das wird grundsätzlich gemacht, außer man widerspricht dem tatsächlich, sobald die Krankenkasse einen darüber informiert. Was darin alles stehen wird, sind gewissermaßen alle Informationen über den Gesundheitszustand einer Person, Arztbesuche, Verordnungen, Rezepte etc. und diese Daten können dann von behandelnden Ärzt*innen fachübergreifend eingesehen werden. Der Bundesbeauftragte für den Datenschutz und die Informationsfreiheit bzw. auf der Internetseite dazu hat auch angegeben, dass eben dieser Widerspruch möglich ist, dass das Verfahren als Opt-out eingeführt wird. Das heißt, es wird erstmal für alle gemacht und wer es wirklich gar nicht will, könnte aussteigen, aber darüber muss man sich halt vorher informieren, was das alles für Konsequenzen hat. Und das ist, wie gesagt, ein bisschen umfangreicher. Auf der Seite, die wir auch verlinkt haben vom Bundesbeauftragten für Datenschutz und Informationssicherheit kann da einiges gesehen werden, was zum Beispiel kritisiert wird in Sachen Selbstbestimmungsrechte der versichernden Personen usw. usf., dass es halt darum geht, welche Daten kann überhaupt wer sehen und inwiefern das geregelt ist und auch, ob man seine Daten zu Forschungszwecken freigeben möchte oder nicht. Und ja, deswegen soll es hier jetzt gar nicht weiter ins Detail gehen, aber weil das eben in ein paar Monaten so ein relevantes Thema sein wird und die Krankenversicherungen die Menschen anschreiben werden, dass eben diese Akte jetzt für sie eingeführt wird und dann diese Widerspruchsoption besteht, deswegen wollten wir es auf jeden Fall hier nochmal erwähnen. Genau, aber jetzt zu den Gesundheitsdaten, die von Geräten aufgezeichnet werden können, die im täglichen Gebrauch auch so üblich sind.
Was können für Daten beim Schlafen erhoben werden? (00:09:48)
Janine: Und ein Thema, was garantiert viele Männchen umtreibt, ist Schlaf. Guter Schlaf, der erholsam ist und vor allem ausreichend lang ist, ist für uns alle ziemlich wichtig. Wenn das nicht richtig läuft, dann wirkt sich das auf viele Bereiche des Lebens schnell mal aus, wenn das gerade doof ist. Und deswegen würde ich fast behaupten, dass gerade Schlaf eines der Themen ist, das bei diesen Geräten für zu Hause bei der Selbstüberwachung doch oft mal benutzt wird, bei dem alle gerne mal hingucken. Und wir haben Studien rausgesucht, in denen auch Fitness-Tracker eingesetzt wurden, um Schlafanalysen zu machen und da Aussagen draus zu ziehen. Und ja, deswegen jetzt mal die Frage an Helena. Was können denn für Daten beim Schlafen erhoben werden und wie wird es dann ausgewertet?
Helena: Ja, und um diese Frage zu beantworten, haben wir uns zwei verschiedene Themen genauer angeguckt. Und bei dem einen Thema geht es um die Schlaf- und Aktivitätsüberwachung im Zusammenhang mit kann man kann daraus ablesen, ob eine Person depressiv ist. Und das andere Thema, da geht es dann um die Frage, hat man vielleicht Atemaussetzer im Schlaf? Gut, starten wir aber jetzt einmal mit dem Thema Schlaf- und Aktivitätsüberwachung und Depressionen. Es gibt verschiedene Studien, die sich zum Ziel gesetzt haben, zu gucken, ob man mit Hilfe von so Fitness-Trackern und dem, was die so an Daten liefern, wo teilweise eben auch die Schlafüberwachung zugehört, in der Lage ist, festzustellen, ob eine Person gerade in eine Depression schlittert oder nicht. Da gibt es verschiedene Aspekte, die eine Rolle spielen. Ja, eine der Studien, die sich das angeguckt hat, hat parallel eben auch mit Fragebögen gearbeitet, die tendenziell der Standard sind, wenn es darum geht, Depressionen zu diagnostizieren. Und da wurden dann auch mit Hilfe einer zusätzlichen App immer wieder Fragebögen alle paar Stunden abgefragt, um den Zustand über einen längeren Zeitraum eben feststellen zu können und wie sich das auch ändert und ob bestimmte Sachen auch irgendwie damit korrelieren, wie man sich gerade, ja, was man gerade so misst und wie man sich fühlt. Dabei wurden aus der Depression eben fünf Symptomgruppen ausgesucht, in denen dann versucht wurde, Daten zu erheben. Also im Fragebogen eben alle von diesen Gruppen, nämlich Ernährung, die Stimmung, die man hat, wie viele soziale Interaktionen man tendenziell so hat, der Schlaf, also wie gut man schläft und die Bewegung. Und aus einem Fitness-Tracker kommt ja vor allen Dingen die Bewegung raus. Und in dieser Studie war es jetzt erstmal ganz interessant, dass wenn man diese Sachen miteinander vergleicht, dass dann insbesondere Schlaf und Bewegung, die man über einen Fitness-Tracker eben messen kann, schon ein ziemlich guter Indikator dafür sind, wie, ja, ob jemand depressiv ist oder nicht. Dabei gibt es verschiedene Fitness-Tracker, die verschiedene Formen haben, um den Schlaf zu überwachen. Und wie viel man sich bewegt hat, wurde in diesem Fall vor allen Dingen über die Pulsmessung gemacht, weil das nicht nur sagt, wie stark bewegt sich jetzt irgendwie der Fitness-Tracker, sondern tatsächlich, wie intensiv ist auch die körperliche Aktivität dabei. So was wie die Stimmung lässt sich auch laut einer anderen Studie über GPS-Daten ermitteln. Das wurde jetzt in dieser Studie aber nur zitiert, deswegen habe ich mir das auch nicht genauer angeguckt. Und was da besonders herausgestochen ist, ist, dass insbesondere wenn man über die Schlaftracker geht, dass man anhand dessen, wenn man einmal eingeschlafen ist und dann nochmal aufwacht in der Nacht, dass dann die Länge und wie oft das passiert und so, dass das ein besonders starker Indikator für eine Depression ist. Also da kann man jetzt nicht irgendwie Zahlen von ableiten, weil das jetzt auch sehr von den konkreten Fitness-Trackern abhängt, wie die die Daten tatsächlich erkennen. Aber das war so ein Hauptmerkmal, das man dabei gefunden hat. Und ja, abgesehen davon, dass es erstmal interessant ist zu wissen, dass man so was über diese Fitness-Tracker ermitteln kann, ist es auch nochmal interessant zu fragen, warum will man das vielleicht auch aktiv nutzen. Und da war eine Übersichtsstudie, bei der verschiedene Sachen verglichen haben zu diesem Thema, bei der es darum ging, bei älteren Menschen, wenn die alt werden, zu gucken, werden die jetzt gerade depressiv oder nur alt. Also zum Beispiel können bestimmte Depressionssymptome, wie dass man weniger soziale Interaktionen hat, auch einfach nur daran liegen, dass man alt wird und sich weniger selbstständig von Ort zu Ort bewegen kann, was dann dazu führen kann, dass man eben einfach weniger soziale Interaktionen hat, weil man es nicht mehr schafft, dahin zu kommen. Das liegt dann aber nicht an einer Depression, sondern am älter werden. Und um das auseinanderhalten zu können, ist eben die Überwachung durch Fitness-Tracker eine Idee, die man da hatte.
Janine: Wurde da zufällig auch etwas zu Prävention gesagt, weil manchmal gibt es ja gerade, glaube ich, bei psychischen Krankheiten so diesen Effekt, dass sich ein bestimmtes Verhalten so langsam einschleicht und irgendwann merkt man dann, ach so, deswegen war das die letzten Tage, Wochen so. Gibt es da auch so einen Marker sozusagen, dass man dann irgendwie so im Rückblick sehen kann, da hat das eigentlich begonnen und eigentlich hätte ich ab dem und dem Zeitpunkt präventiv etwas dagegen tun können, in vielleicht ein Loch abzurutschen.
Helena: Darauf wurde jetzt hier konkret nicht eingegangen, in den Studien nicht mehr angeguckt hatte, weil es erst mal nur darum geht festzustellen, kann man diese Technik dafür überhaupt verwenden.
Janine: Ja.
Helena: Wo die Antwort ein klares Ja ist, kann man dafür verwenden. Aber ich wüsste jetzt nicht, dass die Fitness-Tracker einem da schon selber irgendwie eine Warnung schicken. Eventuell gibt es einige, die das machen könnten.
Janine: Ja.
Helena: Manche schicken ja Warnungen, wenn sie bestimmte Sachen feststellen. Darüber wüsste ich das jetzt nicht.
Janine: Ja, ich denke darüber auch, dabei gerade auch, weil du auch gesagt hast, man muss dann halt so in der Studie Fragen beantworten, die einem dann alle paar Stunden oder so gestellt wurden. Ich glaube, das gleiche Prinzip verfolgen ja auch manche dieser Gesundheits-Apps, die es ja auch inzwischen auf Rezept geben kann, die sich mit bestimmten Krankheiten beschäftigen.
Helena: Okay. Ja, davon habe ich keine Ahnung von diesen Apps. Da kann ich nichts zu sagen.
Janine: Aber das wäre interessant. Ich setze es mal auf meine zu beobachten Liste.
Helena: Ja, gut. Das war jetzt das Thema Depressionen erkennen mit Fitness-Trackern. Das nächste Thema, was mit Schlaf zu tun hat, ist die Frage, kann man Schlafapnoe mit Hilfe von Fitness-Trackern detektieren und diagnostizieren? Und bei Schlafapnoe handelt es sich ja um kurze Atemstillstände im Schlaf. Also damit ist jetzt nicht die natürliche Atempause gemeint, die zwischen dem Ausatmen und Atmen oft vorkommt, sondern das richtige Aussetzen der Atmung. Also zum Beispiel Atemaussetzer von mindestens 10 Sekunden. Ja, das führt dann dazu, wenn man nicht atmet, dass man dann zu wenig Sauerstoff im Blut hat und zu viel Kohlenstoffdioxid. Und das wiederum führt dazu, dass der Körper kurz aufwacht. Das heißt nicht, dass man bewusst aufwacht und sich hinterher daran erinnert, sondern dass der Körper und das Gehirn aktiv werden. Und das Ganze stört dann die Schlafphasen und somit auch, wie erholsam der Schlaf ist. Traditionell wird das Ganze mit bestimmten Sensoren gemessen, zum Beispiel in einem EEG. Also man misst die Gehirnwellen im Schlaflabor, weil man dadurch erkennen kann, ob man gerade aufgewacht ist und hat noch andere Sensoren, die dann auch den Druck messen, mit dem man aus- und einatmet. Aber das erfordert eben ein Schlaflabor. Es gibt auch noch so Geräte, die man von einem Lungenarzt mitbekommen kann, wo man dann eine Nacht mit so einem Gerät zu Hause verbringt. Und das Problem an diesen klassischen Methoden ist natürlich erstmal, wenn man das erste Mal in einer fremden Situation irgendwie schläft, das kennt man vielleicht von sich selbst auch, wenn man woanders zu Besuch ist, dann ist die erste Nacht meistens unruhiger als die folgenden Nächte, weil neue Situationen, da muss man sich erstmal dran gewöhnen. Und wenn man jetzt irgendwie moderate Schlafapnoe hätte, dann kann es ja sein, dass das genau in dieser einen Nacht eben mal nicht auftritt. Und ja, dann kann man die Sachen einfach mal übersehen, weil dadurch, dass die Schlafsituation so ungewöhnlich ist, der Körper sich anders verhält und dann die Messergebnisse verfälscht. Deswegen würde man, je nachdem, warum man im Schlaflabor ist, dann auch mehr als eine Nacht da verbringen. Das ist allerdings natürlich auch immer eine Kostenfrage, deswegen wird meistens, beziehungsweise ist das dann einfach sehr aufwendig. Deswegen wäre es natürlich interessant, wenn man das über Fitnesstracker machen kann. Dann kann man zur Schlafapnoe noch sagen, dass es eben verschiedene Formen davon gibt. Einmal gibt es die obstruktive Form. Dabei sind die Atemwege blockiert. Der Körper versucht zu atmen, aber es kommt keine Luft durch. Und das tritt vor allen Dingen deswegen dann im Schlaf auf, wenn schon grundsätzliche Verengungen da sind, weil die Muskeln im Schlaf auch weiter erschlafen. Und das kann dann dazu führen, dass man eben gar nicht mehr atmen kann. Wenn man trotzdem noch atmen kann, können diese erschafften Muskeln aber auch dazu führen, dass man eben schnarcht, zum Beispiel. Dann gibt es noch die zentrale Apnoe, bei der der Körper einfach quasi unbewusst die Luft anhält. Also da versucht der Körper gar nicht zu atmen. Und hierbei geht man dann davon aus, dass ist zentrale Apnoe, wenn der Körper für 10 Sekunden lang nicht versucht zu atmen. Und wenn man das Ganze messen möchte, also wie stark die Schlafapnoe ist, wie einschränkend, dann gibt es eine Messgröße namens Apnoe Hypopnoe Index. Mit Hypopnoe ist dann die normale Atmung gemeint. Und das ist eine Messgröße, die das Verhältnis benennt zwischen Atemaussetzern im Vergleich zum normalen Atmen im Verhältnis dazu, wie lange man geschlafen hat. Dafür ist es, um das zu berechnen, eben auch wichtig zu wissen, ob man heute wach war oder nicht. Da gibt es dann Werte von 5 bis 15, die gelten dann als mild. Unter 5 ist dann vermutlich noch nicht irgendwie als Schlafapnoe zu diagnostizieren. Und wenn man über 30 hat, dann hat man eine schwere Schlafapnoe. Ja, um das Ganze mit Smartwatches zu bestimmen, kann man jetzt verschiedene Sensoren heranziehen. Manche Smartwatches haben ja zum Beispiel auch ein Messequipment, um die Sauerstoffsättigung im Blut zu messen. Das wird gemäß einiger Vergleiche, die ich jetzt so in Testberichten gelesen habe, ja, die Werte sind nicht so hundertprozentig vertrauenserweckend. Deswegen haben die Leute aus dieser Veröffentlichung, die ich jetzt dafür gelesen habe, einen anderen Weg gewählt und benutzen ausschließlich den Beschleunigungssensor in der Uhr. Und dann muss man auch irgendwie mithilfe dieses Beschleunigungssensors ja erkennen, dass man gerade normal atmet. Das geht dann besser, wenn man die Uhr eben auch besonders fest trägt.
Janine: Der Beschleunigungssensor wäre ja das Ding, das bemerkt, auch im Telefon, wenn ich mich von A nach B bewege, oder? Also, dass sich das Ding eigentlich im Raum bewegt?
Helena: Ja, genau. Es erkennt Bewegungen im Raum. Dadurch, dass man jetzt so eine Uhr in der Regel an der Hand hält, gibt es auch eine ganze Menge Einflüsse, die jetzt nicht atmend sind, die dazu führen, dass das Ganze sich bewegt, zum Beispiel weil man entweder unruhig schläft, weil irgendwas anderes sich im Raum auch noch bewegt, was dann einen irgendwie mit vibrieren lässt. Deswegen muss man hier eben verschiedene Auswertungen machen. Zum einen muss man eben ein bisschen das Rauschen entfernen, damit man wirklich die normalen Atembewegungen rausbekommen kann. Dann ist es auch wichtig, hiermit zu erkennen, ob man gerade wach ist. Also, wie stark bewege ich jetzt gerade die Uhr? Aktiviere ich die vielleicht sogar? Gucke ich auf das Handy, weil ich gerade aufgewacht bin, oder aufs Klo laufe? Dann misst das Ganze ja auch Schritte, zum Beispiel. Dann ist klar, dass man gerade wach war. Und dann erkennt es eben auch, wenn man besonders intensiv atmet, so Atemspikes hat, die ein Hinweis darauf sein können, dass man eben gerade einen Atemaussetzer hatte und jetzt deutlich mehr einatmet, wenn man gerade irgendwie aufgewacht ist und so weiter. Da fallen jetzt erstmal verschiedene Sachen raus. Usd man benutzt jetzt so klassische Machine Learning-Verfahren, um das Ganze eben auszuwerten und dann eben den Apnoe-Hypopnoe-Index, den AHI, zu bestimmen. Und das ist wohl ziemlich gut machbar gewesen in dieser Studie. Und ja, klassische Machine Learning-Verfahren sind dann sowas wie Support-Vektor-Maschinen oder Entscheidungsbäume. Vielleicht machen wir irgendwann mal eine Folge zu diesem Thema. Man kann auf jeden Fall sagen, es ist eben nicht neuronale Netze gemeint und nicht Deep Learning.
Janine: Ausnahmsweise mal nicht.
Helena: Ja, also etwas klassischere Verfahren, die es schon länger gibt. Wenn wir mal eine Folge dazu machen, kann man auch erklären, warum das manchmal auch keinen Sinn ergibt. Ja, also man kann ziemlich gut Schlafapnoe mit Smartwatches ermitteln. Ich glaube, das Problem ist nur, dass die Sensordaten je nach Gerät immer unterschiedlich sind und man daher als Gerätehersteller dann selber irgendwie auch bestimmte Systeme kalibrieren muss. Weil man muss ja halt nicht nur mit den Sensordaten arbeiten, die man jetzt irgendwie bei den Personen hat, wo man das misst, sondern man muss ja auch gleichzeitig die Schlaflabormessung mitmachen, um überhaupt die Vergleichswerte zu haben und zu sehen, dass das stimmt, was man irgendwie behauptet.
Janine: Ja.
Helena: Deswegen ist das, glaube ich, alles noch nicht als fertiges Produkt in den meisten Smartwatches mit drin. Aber man kann, glaube ich, schon davon ausgehen, dass es dahin geht, dass immer mehr von diesen Diagnosen auch in den Apps landen wird, die da zugehören.
Janine: Ja, das ist auf jeden Fall spannend. Bisher ist es ja doch eher so, dass, ich weiß nicht, wie systematisch die meisten Menschen da so rangehen, aber manchmal gucke ich da drauf und gucke dann auch so ein paar Tage drauf, wie war es so die letzten Nächte, so ein bisschen im Vergleich. Aber oft habe ich auch eher das Gefühl, das gibt mir nur maximal eine Richtung, was so mein Smartphone an Schlaf mitzeichnet und was ja so das Ergebnis der Nacht quasi ist.
Helena: Ja, ich finde die Schlafdaten jetzt bei meiner Smartwatch auch ganz spannend. Insbesondere, wenn ich das jetzt so selber meinen Schlaf bewerte und denke, ja, bin ich jetzt ausgeschlafen, bin ich jetzt ausgeruht, bin ich müde. Und ja, wenn ich dann denke, ja, der Schlaf war jetzt nicht so gut, ich bin immer noch sehr müde, dann sagt diese Uhr auch immer, dass ich dann schlecht geschlafen hätte. Und wenn ich dann weiter in der Vergangenheit gucke, sehe ich, ja, die Nächte davor waren alle ganz gut, also dann gibt es immer noch verschiedene Bewertungsstufen von gut bis ausgezeichnet oder okay. Die kann ich jetzt nicht so mit dem eigenen Gefühl unterscheiden, aber wenn die Smartwatch sagt, ich hätte schlecht geschlafen, dann spüre ich das auch. Das finde ich insofern interessant, weil ich dann weiß, wenn ich jetzt in ein paar Jahren mal die Daten vergleiche, wie sich das im Laufe der Zeit entwickelt hat, dann kann ich davon ausgehen, dass zumindest, wann ich schlecht geschlafen habe, auch ziemlich gut erfasst worden ist.
Janine: Hmh. Ich habe mir meine Daten gestern tatsächlich nochmal angeguckt, so ein bisschen in Vorbereitung und dabei festgestellt, dass meine Schlafdaten nie samstags und sonntags existieren.
Helena: Die existieren nie samstags und sonntags, heißt, das Schlafrhythmus ist dann so anders, dass das Handy nicht weiß, wann du geschlafen hast.
Janine: Das war auch meine erste Idee, aber vermutlich hängt es eher damit zusammen, dass ich für wochentags einen Wecker eingestellt habe und eine Schlafzeit, also einen Schlafplan aktiviert habe,...
Helena: Aha.
Janine: ... der sagt, ich möchte eigentlich zwischen der Zeit und der Zeit schlafen/im Bett sein und ich glaube, das Handy untersucht einfach bloß für diese Zeit meine Aktivität. Also, was du ja auch schon meintest, Bildschirmaktivierungen oder so können mit in die Schlafdatenerfassung eingehen und ich sehe halt, wenn ich irgendwann wach geworden bin und dann tatsächlich mal aufs Handy geguckt habe. Aber ich glaube, das macht es tatsächlich nur für den Zeitpunkt, also wochentags, wenn ich den Wecker aktiviert habe.
Helena: Ja, ja, also ich habe auch eine Wecker-App. Bevor ich jetzt so eine Smartwatch hatte, gab es in dieser App auch die Möglichkeit, dass man die mit auf die Matratze legt, das Handy, um dann Schlafphasenanalysen und so weiter zu machen, auch auf Basis eben vom Beschleunigungssensor und vielleicht noch Mikrofon. Das ging auch nur, wenn man das aktiv eingeschaltet hat und das war standardmäßig auch nur der Fall, wenn es einen Wecker gab. Von daher klingt das jetzt durchaus sehr plausibel.
Was sagt die Herzfrequenz über Stress aus? (00:28:26)
Janine: Ja, das ist das eine Thema, was wir hatten. Ich glaube, dazu haben wir jetzt auch alles annähernd einmal gesagt. Wie das da so funktioniert und was damit so möglich ist, aktuell, zumindest in der Forschung, aber noch nicht in der Alltagsanwendung. Und da haben wir auch noch so einen Fall, wo die Alltagsanwendung noch nicht ganz so gegeben ist, aber in der Forschung interessante Daten rausfallen können. Was nämlich zum Beispiel die Herzfrequenz über Stress aussagt.
Helena: Also was die meisten Fitness-Tracker ja mitmessen, ist den Puls. Also wie schnell schlägt das Herz. Und das ist auch eine Info, die man oft bekommt. Und da gibt es ja durchaus auch so Messgrößen wie den Ruhepuls, also den Puls, den man ja in Ruhe hat, wenn man gerade nicht aktiv ist. Und wenn man den über größere Zeiträume sich anguckt, dann gibt es, also der Ruhepuls ist erstmal pro Person unterschiedlich. Wenn man jetzt sehr sportlich ist, wird der tendenziell ein bisschen niedriger sein. Dass der niedrig ist, muss jetzt aber im Umkehrschluss nicht heißen, dass man sportlich ist. Aber wenn man jetzt eine sehr stressige Phase hat, wenn man, ja keine Ahnung, auf der Arbeit sehr viel zu tun hat oder was auch immer es für Gründe geben kann für längere stressige Phasen, dann steigt eben dieser Ruhepuls an. Und das lässt sich dann eben auch im längeren Vergleich ganz gut feststellen. Ja, da war eine stressige Phase, jetzt geht es mir wieder besser, jetzt ist auch der Ruhepuls niedriger. Das ist aber nicht das Einzige, was man heranziehen kann bei der Herzfrequenz, sondern es gibt auch noch die Herzfrequenzvariabilität. Und das heißt, wie stark schwankt der Abstand aufeinander folgender regelmäßiger Herzschläge. Also schlägt das Herz immer exakt gleichmäßig oder sind da auch leichte Schwankungen drin? Und diese Schwankungen sind dann eben Herzfrequenzvariabilität. Und hier möchte ich noch einmal die Wikipedia zitieren, die besagt, "die Herzfrequenzvariabilität ist ein Indikator für die Fähigkeit, die Herzfrequenz den körperlichen und mentalen Anforderungen anzupassen". Das heißt, wenn das Herz ja quasi ein bisschen unregelmäßiger schlägt, ist das eher ein gutes Zeichen. Also unregelmäßig im Sinne eben einer normalen Herzfrequenzvariabilität, nicht im Sinne von "man braucht eigentlich einen Herzschrittmacher und hat Herzrhythmusstörungen", das ist noch mal was ganz anderes. Das ist nicht hier mit gemeint. Also ich hätte jetzt intuitiv erstmal gedacht, ja, eigentlich will man doch einen möglichst gleichmäßigen Herzschlag, weil das heißen würde, der Körper ist irgendwie in einem konstanten Zustand und so weiter. Aber offenbar ist es eben nicht so, sondern eine höhere Varianz dabei, ja wie die Herzschläge aufeinander folgen, ist eher ein guter Indikator, wenn man dann sich stärker auf Änderungen der Situation einstellen kann.
Janine: Ich hätte es auch eher andersrum gedacht.
Helena: Ja, wenn man sich dann nicht damit beschäftigt hat, dann ist das erstmal nicht so hundertprozentig intuitiv. Deswegen fand ich eben den Satz aus der Wikipedia sehr hilfreich, weil der dann auch eine Begründung mitliefert, warum das sinnvoll ist, dass die Herzfrequenzvariabilität höher ist. Ja, man kann jetzt so eine Herzfrequenzvariabilität ausrechnen, allerdings sind Zahlenwerte nicht allgemeingültig. Man kann jetzt nicht einfach sagen, das ist mein Wert und das mit anderen Leuten vergleichen und dann kann man daraus irgendwas erschließen. Deswegen ist es bei vielen von diesen Smartwatches jetzt auch nicht unbedingt so, dass die diese Daten direkt zur Verfügung stellen. Bei der Fitbit zum Beispiel ist das mittlerweile so, dass man die sehen kann. Bei der Garmin-Uhr, die ich habe, kriegt man diese Information jetzt selber nicht, sondern sie berechnen daraus schon andere Sachen, die man dann wiederum sehen kann.
Janine: Das heißt also, die Geräte erfassen Daten, aber sie erfassen sogar mehr Daten, als sie mir sagen.
Helena: Ja, ich meine, sie erfassen ja den Puls und so ein bisschen fällt dann das andere aus dem Messverfahren so ein bisschen mit raus,...
Janine: Ja.
Helena: ... die Herzfrequenzvariabilität. Ja, und es gibt verschiedene Krankheiten, die eine größere Änderung der Herzfrequenzvariabilität zur Folge haben. Beispiele dafür sind diabetische Neuropathie, eine Sepsis, auch bekannt als Blutvergiftung oder zum Beispiel Asthma. Ja, aber auch noch ein paar andere. Was eben auch in der Forschung festgestellt wurde, ist, dass eben bestimmte Gefühle, die irgendwie ja was mit Glück zu tun haben, sowas wie Zuneigung, Dankbarkeit, das ist dann eine messbare Korrelation zwischen Atem- und Herzfrequenz gibt, während bei so was wie Angst, Ärger oder Stress dies nicht passiert. Und was man insgesamt sagen kann, ist, wenn der Körper stressausgesetzt ist, dann reduziert sich die Herzfrequenzvariabilität. Das heißt, man kann mithilfe, wenn man regelmäßig diese Daten erhebt, feststellen, ob jemand stressausgesetzt ist. Im Gegensatz zu so was wie dem Ruhepuls ist das hier eben auch eine kurzfristige Messung, die dann einem zu einem ganz bestimmten Zeitpunkt auch sagen kann, ja, das war eine Stresssituation. Was zum Beispiel Stresssituationen sein können, die eben auch mit Herzfrequenzvariabilität zu tun haben, ist, hat man gerade Alkohol getrunken. Und wenn man das getrunken hat, dann sinkt auch die Herzfrequenzvariabilität. Und Menschen, die zum Beispiel alkoholkrank sind, haben auch generell eine geringere Herzfrequenzvariabilität dauerhaft als Leute, die nicht alkoholkrank sind. Aber dann eben direkt nach dem Alkoholtrinken, wenn das verarbeitet wird im Körper, dann sinkt diese eben auch. Und das führt dann zum Beispiel dazu, dass wenn ich mir jetzt auf meiner Smartwatch die Daten angucke, dass ich dann eben auch sehen kann, wann ich Alkohol getrunken habe. Das wird da jetzt nicht explizit so reingeschrieben, weil die das jetzt noch nicht unterscheiden können, wo dieser Stress herkommt. Aber sie haben einen Stressindikator, der eben zu einem nennenswerten Teil auf der Herzfrequenzvariabilität beruht. Und das wird angezeigt. Und dann gibt es durchaus mal Tage, wo ich einen ganz normalen langen Schlaf hatte, wo ich am Abend vorher aber was getrunken hatte, wo man dann sieht, ja, Handy sagt, ich hätte nicht erhobesam geschlafen, weil ich so viel Stress hatte am Anfang der Nacht, weil da Alkohol verarbeitet werden musste. Und dann spüre ich das eben am nächsten Tag durchaus auch, dass ich immer noch ein bisschen müde bin zum Beispiel. Und das funktioniert eben auch, wenn man wenig Alkohol trinkt und man nicht unbedingt nur diese klassischen Kater-Symptome hat, wenn man viel getrunken hat, sondern auch, wenn ja das nur ein oder zwei Gläser gewesen sind. Ja, man kann also sehr gut mit Hilfe von so Fitness-Trackern herausfinden, ob man Stress jeglicher Art ausgesetzt ist. Und Alkohol trinken ist Stress.
Janine: Ja, aber das heißt ja auch, dass Leute, die meine Daten angucken, das auf gewisse Arten und Weisen interpretieren können.
Helena: Ja, also was ich bei diesem Alkohol-Thema noch interessant finde, ist, man fühlt sich ja vielleicht ein bisschen weniger gestresst, wenn man ein bisschen was getrunken hat und so angetrunken ist. Das ist dann aber wirklich nur der berauschende Effekt von Alkohol. Das ist nicht das, wie das auf den Körper reagiert. Man fühlt sich dann vielleicht manchmal freier, je nachdem, wie man auf Alkohol reagiert. Das ist ja auch pro Person unterschiedlich. Aber der Körper ist eingeschränkter.
Janine: Aber ich sehe schon, das, was wir gerade so am Thema hier dran haben noch, leitet eigentlich ziemlich gut in den nächsten Abschnitten über.
Helena: Ja.
Wie steht es um den Datenschutz bei Gesundheitsdaten? (00:36:16)
Helena: Ein Grund, weshalb ich mir zum Beispiel jetzt diese Garmin Smartwatch gekauft habe und nicht die Fitbit, obwohl die Fitbit sowas wie die Herzfrequenzvariabilität sogar einem sagt, ist, dass Fitbit zu Google gehört. Und ich denke, Google weiß schon genug über mich. Die müssen jetzt auch nicht noch meine Gesundheitsdaten kriegen. Und Garmin ist immerhin ein anderer Hersteller, eine andere Firma. Wer weiß, was die damit machen. Aber das bringt uns dann zum Thema Datenschutz und Gesundheitsdaten.
Janine: Genau. Ja, was allen Apps und Geräten ziemlich gemeinsam ist, sie erfassen die Daten. Die wollen wir auch auf eine gewisse Art und Weise haben. Aber sie zeigen nicht nur die Daten denen, die sie sich für sich selbst erfassen, sondern sie werden auch gespeichert und gegebenenfalls auch verarbeitet und weiter benutzt. Und das kann tatsächlich sehr persönliche Daten betreffen. Ich habe mir mal die Seite vom Bundesamt für Sicherheit in der Informationstechnik hergenommen, wo auch über verschiedene Wearables, also tragbare Elektronik, die Sensoren mit sich hat, informiert wird. Und ja, gerade in Richtung Verbraucher*innen. Einerseits gibt das BSI auch zu oder zumindest schreiben sie es so schön, der Nutzen von Wearables kann für deren Träger*in hoch sein. Denn durch die Auswertung der gesammelten Daten kann ein Activity Tracker beispielsweise Verhaltenstipps zur Verbesserung des Fitnesslevels geben. Und das Feedback, teils mit spielerischen Elementen, soll helfen, individuelle Ziele umzusetzen, wie zum Beispiel das Erreichen einer bestimmten Schrittzahl am Tag. Das hat das BSI ganz gut zusammengefasst, finde ich, und da steckt auch schon ein Stichwort drin, das uns allen wahrscheinlich schon mal irgendwie untergekommen ist, das ist die sogenannte Gamification, also das spielerische Umsetzen oder eher lästige oder unliebsame Aufgaben mit spielerischen Elementen ansprechender gestalten. Also ich kriege etwas dafür, dass ich etwas mache. Und sei das einfach nur so ein bisschen Dopamin durch, ich klicke auf bunte Sachen und kriege schönes Feedback. Und sie sagen, die Art der Daten, die verarbeitet werden, ist von der Funktion des Wearables abhängig. "Häufig handelt es sich um Daten zur Person, Gesundheitsdaten, Standortdaten oder auch Daten zum Schlafrhythmus. Mithilfe dieser Daten lässt sich unter Umständen ein gutes Profil der jeweiligen Nutzerin oder des jeweiligen Nutzers erstellen, ohne dass man dieser Person jemals begegnet sein muss." Und das ist halt der Punkt, auf den wir hier hinaus wollen. Das heißt, die Apps, über die wir hier reden, erfassen auch weit mehr als nur die Gesundheitsdaten. Denn wozu ist zum Beispiel mein Standort wichtig, wenn ich zum Beispiel einfach nur Schritte zählen will? Dafür gibt es ja den Bewegungssensor zum Beispiel.
Helena: Ja.
Janine: Also Standorte brauche ich dafür nicht. Aber auch die erfassten Gesundheitsdaten können Rückschlüsse bieten. Ich habe hier mal so ein Beispiel aus meinem eigenen Leben. Wenn sich zum Beispiel ein Mensch eine Verletzung am Fuß zuzieht, sagen wir mal, irgendjemand hat sich vielleicht Anfang des Jahres den Zeh gebrochen, dann weiß ich das natürlich, aber mein Handy weiß es auch und jeder, der auch einige Monate später nochmal in meine Daten reinguckt, kann das tatsächlich sehen. Denn ich habe herausgefunden, dass es in meinem Smartphone, wenn ich es auf Hüfthöhe trage, eine Datenerfassung stattfindet, die meinen Gang bewertet. Zum einen, wie stark wird welcher Fuß beim Gehen belastet, belaste ich sie unterschiedlich lange und so weiter und so fort. Wusste ich vorher alles gar nicht, habe ich dann mir mal angeguckt und dann so einen lustigen Ausschlag Anfang des Jahres gesehen und ich wusste genau, welche Ursache das hatte, weil ich das halt aber auch wusste. Aber auch andere Leute könnten halt zum Beispiel daraus ableiten, da war was nicht richtig und Rückschlüsse ziehen. Also, das ist jetzt halt ein sehr anekdotisches Beispiel und eine harmlose Geschichte, aber ja, wenn Daten da sind, werden eben auch Möglichkeiten geschaffen und das ist, wovor das BSI auch warnt, nämlich, "wer Zugriff auf diese Daten hat, kann diese unter Umständen auch für kriminelle Machenschaften nutzen, zum Beispiel in Verbindung mit einem Identitätsdiebstahl", weil es sind ja noch ganz andere Informationen teilweise gespeichert. Und weitere Risiken, die das BSI hier auch nennt, wenn es um Gesundheitsdaten geht, ist Doxing, also das Abgreifen und Veröffentlichen persönlicher Daten von einer einzelnen Person, meist mit der Absicht, diese irgendwie öffentlich preiszugeben, ihren Ruf zu schädigen oder irgendwie anders bloßzustellen. Aber auch Erpressung mit der Androhung, diese Daten zu veröffentlichen, nennt das BSI hier. Und deswegen ist es auch wichtig, sich das mal anzugucken, weil da sind noch ein paar Nutzungshinweise gegeben, die das BSI hier an Menschen weitergibt. Und der vermutlich wichtigste ist, ein bewusster Einsatz und bewusstes Umgehen mit den Daten und den dazugehörigen Risiken. Also, ja, sich informieren und dann eben erstmal Bescheid wissen, wie man damit überhaupt umgehen kann. Zum Beispiel, wem gebe ich Sachen überhaupt preis? Teile ich meine Daten mit der Familienteilung meines Telefons oder lasse ich meinen Partner zum Beispiel sehen, wo ich langgehe und solche Sachen, das fällt da alles mit rein. Genau, führt uns aber eigentlich auch nochmal zu der Frage, die hatten wir uns zwischendurch auch gestellt, warum machen wir das eigentlich mit diesen ganzen Daten? Ich habe ein schönes Dokument der Verbraucherzentrale gefunden, hat über 50 Seiten, wo auf viele Aspekte von Waerables eingegangen wird und auch eine Untersuchung drin gemacht wird. Das Dokument ist allerdings bereits von 2017, also schon ein paar Jahre alt. Einige Informationen da drin sind definitiv schon etwas überholt und in die Jahre gekommen und treffen nicht mehr so ganz zu, aber viele Aussagen finde ich auch heute immer noch relevant. Die sagen zu diesem "Warum" zum Beispiel, dass Wearables und Fitness-Apps in der Regel zur Zwecke der Selbstvermessung, Selbstüberwachung und Selbstoptimierung genutzt werden. Der Begriff Selbstvermessung umschreibt "Praktiken, die der Quantifizierung der eigenen körperlichen und geistigen Zustände dienen". Ja, Punkt Punkt Punkt. "Selbstvermessung betrifft also zunächst die selbstgesteuerte Motivation, einen auf die eine oder andere Art und Weise besseres und gesünderes Leben zu fühlen."
Helena: Okay, also ich mache das jetzt wirklich zur Selbstvermessung, aber erstmal ohne weitere Ziele. Also ich versuche jetzt nicht daraus irgendwie Verbesserungen abzuleiten, sondern erstmal finde ich es interessant, einfach das nachgucken zu können. Wie ging es mir vor einem Jahr?
Janine: Ja, aber du interessierst dich auch für Daten.
Helena: Ja.
Janine: Ja, aber das Thema Gesundheit ist da halt schon für viele Menschen, glaube ich, auch mit drin und deswegen wollten wir uns ja auch damit nochmal näher beschäftigen, was es vielleicht noch für Apps gibt.
Zyklusapps und Datensicherheit? (00:43:31)
Und ein Gesundheitsthema, das auch enorm wichtig für einen großen Teil der Menschen ist, ist der Menstruationszyklus und alles, was damit zusammenhängt. Da haben wir uns einmal das Thema Zyklus-Apps herangenommen. Gerade jetzt, wo es mehr Aufmerksamkeit auf Themen wie Endometriose gibt oder so, kann das Tracken des eigenen Zyklus tatsächlich sehr vielen helfen, auch eigene Beobachtungen für die eigene Gesundheit vorzunehmen. Aber ja, gerade Daten, die wie hier eben ein Reproduktionsorganen betreffen, können besonders sensibel sein. Und umso wichtiger ist da halt die Frage, wie viel sage ich eigentlich den Firmen, die diese Apps anbieten und damit vielleicht auch dem Staat, in dem ich lebe. Das ist ja nicht nur die Menstruation selbst, die dabei mit erfasst wird. Damit hängt weiterhin zusammen, wie verhüte ich, Schwangerschaften oder eben auch Abtreibungen können hier ein Thema sein, das auch in der App dargestellt wird. Denn ja, die aktuelle Zyklusphase gibt sehr großen Aufschluss darauf, was ich gerade mache oder auch nicht tue.
Helena: Ja.
Janine: Also da drin enthalten ist halt neben der aktuellen Zyklusphase, wann ein Mensch Sex hatte und ob verhütet oder unverhütet und wann fruchtbare Tage sind, kann dort ja auch dann ausgerechnet werden aufgrund der Historie der Daten. Und daraus lässt sich eben viel ablesen. Und der spannendste Artikel, den ich dazu gefunden habe, war ein Artikel von Rahel Lang, der im August 2022, also vor zwei Jahren, veröffentlicht wurde. Da geht es darum, dass ein Forschungsprojekt der Mozilla Foundation verschiedene Apps, die Zyklus, Schwangerschaft und so weiter tracken, untersucht hat. Und die Bewertungskriterien, die hier angelegt wurden, waren, ob nicht relevante Daten gesammelt werden, Nutzerdaten verkauft werden, die Kontrollmöglichkeiten über die eigenen Daten und wie lange Daten gespeichert werden. Die allermeisten Apps sind dabei eher durchgefallen oder haben einen Warnhinweis bekommen, weil sie in einigen dieser Punkte nicht unbedenklich waren. Dazu steht auf jeden Fall noch mehr im Artikel und auf der Forschungsseite des Projektes haben wir auch in den Shownotes verlinkt. Was eben vor allem kritisiert wird, ist, wenn zum Beispiel Daten erfasst werden, die gar nichts mit dem Zyklus oder der Schwangerschaft zu tun haben, darunter auch E-Mail-Adressen der Nutzer*innen, ihr Geburtsdatum, Mobilfunkanbieter, Geräte-ID, Standortdaten und auch die Information, wie oft die App überhaupt verwendet wird. Und diese nicht gesundheitsbezogenen Daten werden dann häufig mit Drittanbietern für Marketing- und Werbezwecke, darunter Google, Facebook und Twitter, geteilt. Und deswegen war die Untersuchung auch sehr wichtig, weil das überhaupt dadurch nochmal richtig öffentlich gemacht wurde und auch teilweise wirklich höchstsensible Gesundheitsdaten werden mit Dritten geteilt. Manche Apps haben das sogar in den Datenschutzbestimmungen drin gehabt, es werden hier zwei Beispiele genannt, und die haben jeweils umfangreich Daten an Werbetreibende verkauft, weil nämlich das Geschäft mit solchen Daten extrem lukrativ ist, weil schwangere oder erstmals schwangere Menschen sehr, sehr gute Neukund*innen für Babyprodukte etc. sind. Das ist Marketing. Ja, auf der einen Seite das, auf der anderen Seite, und das schreibt Rahel Lang in ihrem Artikel auch sehr deutlich, "Daten zur Menstruation und Schwangerschaft sind nicht nur wertvoll im Werbegeschäft, sie können auch auf eine Fehlgeburt oder Abtreibung hindeuten. Die Daten können in Ländern mit strengen Abtreibungsgesetzen somit als Beweislast für einen möglichen Schwangerschaftsabbruch dienen".
Helena: Ja, das ist ja ein sehr großes Thema, das Thema Schwangerschaftsabbrüche.
Janine: Genau, das ist leider kein aus der Luft gegriffenes Szenario, sondern relativ realistisch. Was heißt relativ? Es ist sehr realistisch, denn warum die Mozilla Foundation diese Untersuchung überhaupt angestrebt hatte, war, dass im Juni 2022 vor dem obersten Gerichtshof der Vereinigten Staaten eine Grundsatzentscheidung zum Abtreibungsrecht gekippt wurde, die erst 1973 überhaupt gefällt wurde. Dort wurde nämlich damals eigentlich geregelt, dass in den Vereinigten Staaten ein gleichbleibendes Abtreibungsrecht herrscht, und das wurde im Juni 2022 quasi wieder zurückgenommen. Seitdem ist es wieder möglich, dass US-amerikanische Bundesstaaten die Abtreibungsgesetze selbst regeln können. Und bereits kurz danach wurden weitreichende Verbote in verschiedenen Staaten in Kraft gesetzt und seitdem folgen viele weitere Einschränkungen. Und genau dieser Vorgang war laut Mozilla eben der Auslöser für diese Untersuchung der Apps. Und ja, das ist ja nicht nur der einzige Fall auf der Welt, wo es gerade darum geht, inwiefern Frauen selbstbestimmt mit ihrem Körper umgehen können.
Helena: Ja. In den USA muss man dann auch bedenken, dass es einige Staaten gibt, wo es Initiativen gibt, dafür zu sorgen, auch zu verbieten, dass man in einen anderen Bundesstaat fahren darf, um diesen Eingriff vorzunehmen. Das heißt, auch wenn das in anderen Bundesstaaten immer noch kein Problem ist und legal, soll das auch verboten werden, dafür woanders hinzureisen. Und spätestens dann werden diese Daten sehr interessant werden für die rechten Gruppen, die das insbesondere dann verfolgen wollen.
Janine: Genau, und das betrifft auch andere Länder dieser Welt, wo andere oder verschärfte Abtreibungsgesetze in Kraft treten, die oft eben auch entgegen der Selbstbestimmung und auch entgegen der Gesundheit von schwangeren Personen stehen.
Helena: Ja.
Janine: Aber es hat ja nun mal auch Vorteile, sich mit dem eigenen Zyklus auseinanderzusetzen. Und deswegen führt Netzpolitik zum Beispiel im Artikel auch Positivbeispiele solcher Apps an, die eben weniger Daten sammeln und damit – nun, ein Staat kann eine Firma nicht zwingen, Daten herauszugeben, die nicht existieren.
Helena: Ja, genau. Also, wenn die nur auf dem Telefon gespeichert sind, ist das schon mal vorteilhaft.
Janine: Ja, und die Kontrolle darüber, wann und wie ich sie selbst lösche, vorhanden sein kann, so.
Helena: Ja.
Janine: Das ist auf jeden Fall ein sehr wichtiges Thema, was eben mit solchen Daten zusammenhängt. Das mit den Zyklus-Apps war jetzt herausgegriffen, aber das kann ja auch vieles anderes betreffen, wenn wir jetzt noch mal an die Herzfrequenzvariabilität zurückdenken und den Alkoholkonsum. Auch da könnten Stigmata entstehen gegenüber Menschen zum Beispiel, wenn solche Daten eine Rolle spielen. Und wo solche Daten nämlich auch noch eine Rolle spielen, sind bei Krankenkassen oder auch Arbeitgeber*innen.
Gesundheitsdaten für Bonusprogramme nutzen? (00:50:27)
Helena: Was machen denn die Krankenkassen mit diesen Daten?
Janine: Krankenkassen können zum Beispiel Bonusprogramme anbieten für selbst erzeugte Gesundheitsdaten. Das ist tatsächlich gemacht worden oder wird gemacht und wird auch immer häufiger gemacht. Ich habe auch hier aus dem PDF der Verbraucherzentrale ein paar Informationen rausgesucht. Dort steht zum Beispiel erstmal die Feststellung auch drin, dass nicht abschließend geklärt ist, inwieweit Wearables und Fitness-Apps Menschen tatsächlich zu einem gesünderen Lebensstil motivieren. Aber sie werden als solche Instrumente vermarktet, um zu mehr Bewegung zu animieren und einen insgesamt gesünderen Lebensstil über äußere Anreize zu motivieren. Und warum wird das so eifrig vermarktet? Dafür interessieren sich halt die Krankenkassen oder auch Arbeitgeber*innen, was so die Stichworte Krankheitsfälle und Produktivität angeht. Nun ist es aber so, dass auch die gesetzlichen Krankenkassen sich eben von privaten Dienstleistern ja so unterscheiden, dass sie einem Solidarprinzip folgen sollen, sofern ich das alles verstanden habe. Manchmal fühlt sich das nicht so an.
Helena: Ja.
Janine: Und deswegen zeigen sie Interesse an so einem Geschäftsmodell. Aber die gesetzlichen Regelungen verbieten ihnen eigentlich erstmal personenbezogene Daten ihrer Mitglieder zu erheben, die nicht für die Vertragserfüllung relevant sind. Und deswegen ist es auch nicht möglich, eigentlich den Versicherungstarif auf Basis zum Beispiel von der Nutzung von Wearables und Fitness-Apps anzupassen.
Helena: Mhm.
Janine: Das ist prinzipiell nicht möglich.
Helena: Aber was ist denn dann möglich? Die machen das ja offensichtlich.
Janine: Ja.
Helena: Irgendwie.
Janine: Sie machen das jetzt so. Also, wie gesagt, das Dokument ist von 2017. Und die führen das Beispiel an, dass die AOK Nordost seit Januar 2016 eine eigene kostenlose Fitness-App anbietet, die sozusagen ein digitales Bonusheft sein soll. Und gegen Vorlage guter Aktivitätsdaten können die Versicherungskunden dann eben auf Bargeld oder Sachprämien zurückgreifen. Das heißt, je mehr meiner Daten ich Preis gebe, desto mehr kann ich vielleicht Geld bekommen oder Sachprämien kriegen.
Helena: Ist das dann abhängig davon, ob man auch gesund lebt oder kriegt man die immer, wenn man die Daten zur Verfügung stellt?
Janine: Ja, also das weiß ich in dem Punkt nicht exakt. In dem Dokument wird auch noch angegeben, dass die Technikerkrankenkasse das auch vor hatte zu dem Zeitpunkt. Es ist inzwischen umgesetzt. Es gibt die App TK Fit und die machen das halt auch. Und so wie ich das verstanden habe, auf deren Webseite, wo sie das Vorgehen beschreiben, ist es, sofern die Daten da sind und du bewiesen hast, dass du, keine Ahnung, so und so viel Schritt in dem und dem Zeitraum gegangen bist, dann kannst du das einreichen und kannst es für dieses Bonuszeug nutzbar machen.
Helena: Achso.
Janine: Aber auch immer nur für ein Jahr. Es gibt einen Zeitraum. Danach verfallen die Punkte.
Helena: Okay, interessant.
Janine: Was der Verbraucherschutz daran vor allem kritisiert ist, dass dabei so ein bisschen die Freiwilligkeit der Entscheidung verloren geht. Weil ich glaube, was du gerade angesprochen hast, ist auch so ein bisschen die Kritik, ja zeige ich denn eigentlich wirklich, dass ich gesünder lebe? Es ist halt das Problem, dass solche Rabatte und Prämien wirtschaftlichen Druck auf Verbraucher ausüben, ist die Formulierung. Also, dass quasi nur Handlungsfreiheit, ja, ich mache das halt, weil es ja nett als zusätzliches Ding, nur von solchen Verbraucher*innen wirklich gemacht werden kann, die sich das auch finanziell leisten können, auf in Aussicht gestellte Vergünstigungen zu verzichten. Wohingegen zum Beispiel, Zitat, "gesundheitlich beeinträchtigte Menschen nicht von Bonusprogrammen profitieren können". Und das wiederum sei eine indirekte Form gruppenspezifischer Diskriminierung.
Helena: Ja, ich meine, wenn man jetzt sagt, immer wenn ihr eure Daten zur Verfügung gebt, dann kriegt ihr den Bonus, unabhängig davon, ob ihr euch jetzt gesund verhält oder nicht, dann wäre das ja eben keine solche Diskriminierung, weil man kann auch als Person, die schon bestimmte Krankheiten hat, die bestimmtes Verhalten einfach unmöglich machen, wie viele Schritte sammeln,...
Janine: Ja.
Helena: ... trotzdem davon profitieren. Aber so ist es ja jetzt irgendwie, ja, keine Ahnung.
Janine: Ja, der Verbraucherschutz warnt hier definitiv vor einer Aufweichung des Solidarprinzips, weil manche Menschen eben einfach diese ausgeweiteten Sachen vielleicht gar nicht erreichen können und dadurch durch dieses System halt trotzdem benachteiligt werden, obwohl es als zusätzlicher Gewinn verkauft wird. Aber den muss man halt irgendwie kriegen können.
Helena: Ja, und ich meine, im Prinzip wäre es für Krankenkassen ja theoretisch sogar auch interessant, die Daten einfach auch von Leuten, die jetzt nicht diese Ziele erreichen, zu bekommen, weil man auf diese Weise vielleicht ja durch Auswertung der Daten herausfinden kann, welche Maßnahmen als Krankenkasse denn besonders gut helfen, um allen Menschen zur Verfügung zu stehen und besser zu werden.
Janine: Ja.
Helena: Also man kann ja auch verschiedene Gesundheitskurse bezahlt bekommen von Krankenkassen zusätzlich, selbst wenn man nicht krank ist, sondern einfach, um fit zu bleiben zum Beispiel. Und um die Effektivität von so was zum Beispiel zu ermitteln, könnte man ja so was auch irgendwie, solche Daten nutzen zum Beispiel. Und dann wären ja auch die Daten von den Leuten interessant, die nicht diese Ziele erreichen, die jetzt daran geknüpft sind. Also deswegen denke ich, ist das irgendwie wirklich ein bisschen, ja, weicht das Solidarprinzip aus, obwohl man ja eigentlich auch für die allgemeine Bevölkerung andere Ziele verfolgen könnte mit solchen Daten.
Janine: Das Ding ist halt auch die Art und Weise, oder was du da bekommen kannst. In der Liste, die ich mir gestern angeguckt habe, waren zum Beispiel drin, also wir reden hier ja meistens dann wahrscheinlich von gesetzlich versicherten Personen, zusätzliche Leistungen bei der Begleitung der Schwangerschaft durch die Hebammen zum Beispiel. Also Leistungen, die eigentlich für alle Menschen auch total sinnvoll sein können, wenn es anliegt oder wenn es verfügbar wäre. Aber die kriegst du halt nur, wenn du das Bonusprogramm nachweisen kannst. Also ja,... es ist...
Helena: Ja.
Janine: ... es ist ein bisschen schwierig, weil da halt auch medizinische Behandlungen mit drin sind. Aber auch so was wie, wenn du nachweisen kannst, dass du regelmäßig ins Fitnessstudio gehst, dann könnte so eine Prämie auch sein, du kriegst das Fitnessstudio bezahlt. Aber dazu brauchst du Zeit und Zeit ist relativ kostbar und manche Menschen haben einfach aus finanziellen Gründen auch gar nicht so viel Zeit.
Helena: Ja.
Janine: Und gleichzeitig sind das halt Erleichterungen, die wieder einen finanziellen Spielraum schaffen, dass du andere Sachen wie gesündere Ernährung oder so etwas umsetzen könntest.
Helena: Ja.
Janine: Also ja, ich kann die Kritik des Verbraucherschutzes hier irgendwo total nachvollziehen. Es ist halt immer ein zweischneidiges Schwert in dem Sinne. Und Ähnliches sieht der Verbraucherschutz auch beim Einsatz im Beruf. Also es gibt tatsächlich, vor allem in Amerika habe ich das Beispiel aus der Broschüre da herausgenommen, Anbieter, die halt sagen, ja, wir haben hier eine Gesundheits-App, die kann beispielsweise auch so ein bisschen Gefühls-Tracking. Wir haben ja gelernt, die Herzfrequenz-Variabilität könnte ja auch auf Gefühle und Stress hinweisen.
Helena: Ja.
Janine: Das heißt, die treten auch an Arbeitgeber*innen heran und bieten für das Unternehmen die Gesundheitsdatenüberwachung der Arbeitnehmer*innen an. Und hier sieht eben der Verbraucherschutz auch die Gefahr, dass ein Machtgefälle entsteht, weil wie frei ist meine Entscheidung als Arbeitnehmerin, mich für so ein zusätzliches Programm zu entscheiden, wenn ich Angst haben muss, dass mein Arbeitgeber das vielleicht doof findet, dass ich mich dagegen entscheide und diese Daten nicht bereitstellen möchte.
Helena: Ja, ich meine, es gibt natürlich Berufe, wo manche dieser Daten absolut notwendig sind, aber da sind ja teilweise eh schon gesetzlich vorgeschrieben. Also man kann jetzt nicht Pilot werden, wenn man nicht bestimmte gesundheitliche Checks besteht.
Janine: Genau.
Helena: Oder auch irgendwie bestimmte Kraftfahrzeuge darf man nicht führen, wenn man nicht eine bestimmte Sehstärke hat zum Beispiel. Das ergibt ja auch Sinn in manchen Fällen, aber jetzt so ganz generell für alles, ja, ist das doch...
Janine: Ja, vor allem, wenn halt so Punkte drin stehen wie, ja, Gefühlsscreenings, wie geht es meinem Arbeitnehmer gerade, ist der gestresst oder nicht? Und wenn er gestresst ist, ist er dann produktiver oder nicht?
Helena: Ja, vor allen Dingen am Ende belohnen dann Arbeitgeber auch noch die Leute, die besonders hohe Stressscores haben, weil die eindeutig mehr machen oder wichtigere Sachen machen.
Janine: Oder vermeintlich.
Helena: Das könnte ich mir gut vorstellen,...
Janine: Ja.
Helena: ... dass die dann auch noch entgegen der Gesundheit arbeiten. Weil Stress heißt ja, man hat viel zu tun. Dann ist man bestimmt auch produktiv.
Janine: Genau. Das war jetzt mein Part zu dieser Thematik, wo es mehr um die Sachen des Datenschutzes ging oder beziehungsweise, was auch in der Konsequenz so ein bisschen gesellschaftlich betrachtet damit passieren kann, wenn wir solche Daten erheben und wie wir sie benutzen könnten und wo da auch so ein bisschen die Problematik mit ist.
Fazit (01:00:18)
Helena: Ja, gut. Kommen wir zum Fazit?
Janine: Kommen wir zum Fazit.
Helena: Gut, also mein Fazit dieser Folge ist, man kann mit solchen Fitness-Trackern durchaus Informationen ermitteln, die man jetzt nicht unbedingt erwartet hätte. Man kann zum Beispiel feststellen, ist jemand depressiv? Hat die Person Atemaussetzer im Schlaf? Ist die Person gestresst? Manchmal sind Daten ja erwünscht, aber manche von diesen Daten sind vielleicht auch nicht so erwünscht. Oder man sollte zumindest wissen, dass damit eine ganze Menge erkennbar ist. Und nicht nur das, von dem man ursprünglich ausgegangen ist, dass man das damit messen kann.
Janine: Genau, und unabhängig von den Datenmessungen ist mein Bereich des Fazits dann auch, es können eben auch Interpretationen erfolgen durch Dritte, die dafür benutzt werden, was für Werbung uns angezeigt wird, ob wir vielleicht in einem Staat leben, wo mein Verhalten gegebenenfalls strafrechtsrelevant ist oder nicht und wie das alles gespeichert wird bei den Firmen. Welche Kontrolle habe ich über meine Daten? Das ist eigentlich, glaube ich, die wichtigste Frage an dieser Stelle. Und eben das Wissen, es gibt auch Apps, die für einzelne Anwendungen die Sachen besser umsetzen, datenschutzfreundlicher. Und die müssen einfach nur irgendwie gefunden werden, aber dafür muss sich einfach erstmal bewusst gemacht werden, was überhaupt alles daraus auslesbar ist. Und ja, das ist so mein Punkt auf jeden Fall. Und ich hoffe, ihr fandet das genauso spannend, wie ich, als ich dazu recherchiert habe.
Nächste Folge: ChatGPT im Oktober (01:01:57)
Helena: Ja, in der nächsten Folge, die im Oktober erscheint, wollen wir uns mal einem großen aktuellen Thema widmen, was wir bisher noch nicht so intensiv angegangen sind. Aber jetzt ist, glaube ich, die Zeit endlich gekommen. Wir wollen über Chat-GPT reden. Also zum einen ist die Frage, was heißt jetzt eigentlich Chat-GPT? Was ist ein Transformer-Modell? Was heißt pre-trained? Also wie funktioniert das technisch, aber gleichzeitig auch, wie wird es genutzt? Was hat man jetzt in den zwei Jahren, die es das jetzt fast gibt, eigentlich gelernt darüber, wie man das benutzt, wie man es nicht benutzt, wo es nicht so hilfreich ist, wo es hilfreich ist. Aber auch Themen wie Datenschutz und so sollen auch hier mal wieder eine Rolle spielen.
Call to Action (01:02:43)
Janine: Genau. Und wenn ihr das nicht verpassen wollt oder unsere vorangegangenen Folgen auch nochmal hören möchtet, dann folgt uns doch gerne auf mastodon unter @datenleben@podcasts.social. Da informieren wir immer ein bisschen, was jetzt gerade erschienen ist oder demnächst vielleicht auch erscheint. Oder guckt auf unserer Webseite vorbei, www.datenleben.de. Da findet ihr auch alle Folgen und könnt uns dort auch gerne Feedback hinterlassen oder eben auch per Mail, falls ihr Mails schreibt. Und ja, wir freuen uns nämlich immer über Kommentare zu unseren Folgen oder auch über Themenvorschläge. Und falls euch unsere Arbeits- und Denkweise gefällt, könnt ihr uns auch buchen als Data Scientist für Analysen oder Projekte.
Helena: Und dann bleiben wir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao!
Janine: Tschüss!
Outro (01:03:30)
01:03:42
dl053: normalverteilung
Episode in
datenleben
Es geht dieses Mal um ein sehr mathematisches Thema, das nicht nur in unserem Podcast schon öfter erwähnt wurde, sondern allgemein häufiger mal eine Rolle spielt: Die Normalverteilung. Fragen, die wir uns in diesem Kontext gestellt haben: Was ist die Normalverteilung? Warum ist die Normalverteilung eigentlich normal? Liegt überhaupt eine Normalverteilung vor – und wie könnte ich das überprüfen? Und ein bisschen mehr... natürlich wieder mit einigen Beispielen. Und wir haben eine kleine Geschichte rund um das Gehirn von Carl Friedrich Gauß entdeckt, die wir natürlich auch einbringen wollen.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Erwähnte datenleben-Folgen
whiper
dl013: daten visualisieren
exoplaneten
Quellen:
BRAIN, Renate Schweizer et al: A rare anatomical variation newly identifies the brains of C.F. Gauss and C.H. Fuchs in a collection at the University of Göttingen
Max-Planck-Gesellschaft: Wahre Identität des Gauß-Gehirns aufgeklärt
Wikipedia: Conrad Heinrich Fuchs
GitHub.com, clarks03: osu-keypress-analyzer
media.kswillisau.ch: Münzwurf-Simulation
Schlagworte zur Folge
Normalverteilung, Gauß, Gauß'sche Glockenkurve, Datenvisualisierung, Histogramm, QQ-Plot, statistische Tests
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 53. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch in die Welt der Daten mitnehmen. In unserer Welt wird es immer wichtiger, Daten in das große Ganze einordnen zu können. Deswegen wollen wir Data Science anhand von Themen erklären, die uns alle betreffen.
Thema der Folge (00:00:37)
Janine: Ja, und damit willkommen zu unserer vermutlich mathematischsten Folge, die wir bisher hatten. Das wird für einige vielleicht spannender als für andere, aber wir wollten uns mal eine Sache genauer angucken, die immer mal wieder erwähnt wird, nicht nur bei uns im Podcast schon häufiger mal, sondern auch an vielen anderen Stellen einfach. Und zwar geht es heute um die Normalverteilung oder auch Glockenkurve bzw. gauß'sche Glockenkurve genannt. Zu dem Begriff hatte unser Whisper-Transkriptionstool ja mal die gauß'sche Schokoladenkurve erfunden. Ja, genau. Fragen, die wir uns in diesem Kontext gestellt haben. Was ist die Normalverteilung? Und ja, dazu gehören noch so ein paar andere Randthemen, weil mathematische Konzepte selten ganz allein kommen. Das ist auch der zentrale Grenzwertsatz, wo wir uns die Frage stellen, warum ist die Normalverteilung eigentlich normal? Und ja, es geht dann weiter mit so Fragen, liegt überhaupt eine Normalverteilung vor? Manches sieht ja vielleicht nur so aus. Und dann noch, mit welchen Plots, also Diagrammen, kann ich eine Normalverteilung eigentlich erkennen? Und da haben wir ja hier und da natürlich auch wieder Beispiele.
Warum ist das Thema interessant? (00:01:59)
Helena: Ja, wir dachten uns, wir reden jetzt mal über das Thema Normalverteilung, einfach weil es bei sehr vielen Themen, die wir bisher besprochen haben, immer wieder eine Rolle gespielt hat und öfter auch erwähnt wurde. Und ja, die Normalverteilung wird durchaus häufiger mal irgendwo erwähnt. Aber warum sie jetzt eigentlich normal ist und Normalverteilung heißt, das wird eigentlich selten erklärt. Deswegen wollen wir das heute einmal machen.
Einspieler: Die vertauschten Gehirne (00:02:25)
Janine: Die vertauschten Gehirne. 2013 hat eine Untersuchung ergeben, dass das konservierte Gehirn, das bisher als das Gauss-Gehirn untersucht wurde, gar nicht sein Gehirn war. Und zwar gab es eine Vertauschung in der Sammlung des Instituts für Ethik und Geschichte der Medizin der Universitätsmedizin Göttingen. Aber wer war dieser Gauss eigentlich? Der schon zu Lebzeiten berühmt gewordene Mathematiker Carl Friedrich Gauss wurde im Jahr 1777 in Braunschweig geboren. Bereits als Kind fiel seine besondere Begabung für den Umgang mit Zahlen auf. Im Alter von 14 Jahren wurde er Herzog Karl Wilhelm Ferdinand von Braunschweig vorgestellt, der ihm schließlich tatsächlich als Förderer die weitere Ausbildung finanzierte. 1807 übernahm Gauss in Göttingen den Lehrstuhl für Astronomie und wurde der Direktor der Göttinger Sternwarte. Dort lebte und wirkte er bis zu seinem Tod im Jahr 1855. Gauss hat nicht nur mit seiner Methode der kleinsten Quadrate dazu beigetragen, den Zwergplaneten Ceres wiederzuentdecken, auf ihn geht auch im Wesentlichen die Entwicklung der Normalverteilung zurück. Er arbeitete in den Gebieten Algebra, Zahlentheorie, Astronomie, Potentialtheorie, Landvermessung und Geodäsie, Magnetismus, Elektrizität und Telegrafie. Nach seinem Tod im Februar 1855 wurde sein Gehirn entnommen und zu Forschungszwecken konserviert. Die pathologisch-anatomische Sammlung der Universität Göttingen wurde damals von Konrad Heinrich Fuchs gegründet. Die Verwechslung – das Gehirn des "Fürsten der Mathematik", wie Gauss auch genannt wurde, wurde zuerst von Rudolf Wagner untersucht. Er veröffentlichte die Ergebnisse dieser und anderer Untersuchungen in den 1860er Jahren. Dabei erstellte er detaillierte Kupferstiche und Lithographien, um die Gehirne zu dokumentieren. In den folgenden 150 und mehr Jahren wurden mehrere Untersuchungen am Gehirn von Gauss und auch anderen Gehirnen durchgeführt. Die Neurowissenschaftlerin Renate Schweitzer entdeckte auf Bildern aus dem Magnetresonanztomografen von 1998, dass das Gehirn von Gauss eine seltene Variation aufweist – eine sichtbare Zweiteilung der Zentralfurche. Um ihren Befund zu überprüfen, zog sie die erste Veröffentlichung von Rudolf Wagner aus dem Jahr 1860 heran. Dort fand sie allerdings in dem sehr genau gearbeiteten Kupferstich keine vergleichbare Besonderheit. Das ganze Gehirn schien ein anderes zu sein. Wie sich herausstellte: Das Gehirn des Mediziners Konrad Heinrich Fuchs, in dessen Lithographie diese geteilte Zentralfurche deutlich zu erkennen ist. Fuchs ist im selben Jahr wie Gauss gestorben, etwa zehn Monate nach ihm, und sein Gehirn wurde ebenfalls von Rudolf Wagner konserviert und dokumentiert. Im Laufe der nächsten Jahre müssen die Gehirne bei einer erneuten Untersuchung vertauscht worden sein, sodass über viele Jahrzehnte Fuchs' Gehirn in Gauss' Glas lag und umgekehrt. Mit erneuten MRT-Scans konnte dieser Verdacht schließlich im Vergleich mit der Veröffentlichung von Wagner bewiesen werden. So kam es dazu, dass Gauss' Gehirn nicht Gauss' Gehirn war, aber jetzt doch wieder im richtigen Glas konserviert werden konnte.
Was ist die Normalverteilung? (00:05:53)
Helena: Was ist die Normalverteilung? Ja, die Normalverteilung oder auch Gauß'sche Glockenkurve, wenn man sich das vorstellt, man hat irgendwie Daten und erfasst die und möchte dann gucken, ja, welche Daten sind wie häufig, dann rechnet man ja vielleicht für diese Daten eine Statistik aus, so was wie Mittelwert und Standardabweichung. Und wenn man davon ausgeht, dass die Daten normal verteilt sind, dann reichen Mittelwert und Standardabweichung auch vollständig aus, um diese Daten zu beschreiben. Da braucht man eigentlich keine weiteren Informationen mehr. Und ja, der Mittelwert, also quasi der Wert, wenn man alle Sachen irgendwie addiert und dann durch die Anzahl der Werte teilt, ist bei normal verteilten Größen auch immer gleich dem Median. Der Median ist ja der mittlere Wert, nicht zu verwechseln mit dem Mittelwert. Das heißt, wenn man alle Daten sortiert und dann einfach den in der Mitte nimmt, das ist dann der Median. Und bei normal verteilten Größen sind Mittelwert und Median auch immer gleich. Wenn Sie das nicht sind, ist das ein erster Hinweis darauf, dass die Daten eben nicht normal verteilt sind. Und es gibt dann noch bei manchen Verteilungen gibt es noch weitere sogenannte Moden. Eine Mode ist zum Beispiel der Mittelwert. Es gibt aber auch noch andere Moden wie die Schrägheit, also wie schräg ist die Verteilung, Skewness auf Englisch, aber auch verschiedener höherer Ordnungen. Und die Normalverteilung hat eben die Eigenschaft, dass bis auf den Mittelwert alle Moden null sind. Die sind quasi nicht vorhanden. Das heißt, hier reicht wirklich einfach nur Mittelwert und Standardabweichung. Und wenn man das hat, dann kann man damit weiterrechnen. Das ist ziemlich nützlich. Dann muss man noch bedenken, dass die Normalverteilung zunächst einmal eine Wahrscheinlichkeitsdichte-Funktion ist. Also was heißt das? Wenn man jetzt etwas messen will oder wissen will von einer Größe oder von einer Information, die einen kontinuierlichen Wert hat, das absolute Standardbeispiel für Normalverteilung sind die Größenverteilung oder Längenverteilung von Menschen, wie groß ist ein Mensch und wie groß sind verschiedene Menschen, dann ist ja die eigentliche Größe im Rahmen der Messgenauigkeit ziemlich kontinuierlich. Da kann man auf einen Atom genau theoretisch messen, wie groß ein Mensch ist. Und dann existiert jede Größe, wenn man die in Atomradien angeben würde, vielleicht nur ein einziges Mal. Und wenn man jetzt allerdings anguckt, wie oft bestimmte Werte in einem bestimmten Bereich liegen, zum Beispiel ob jemand 1,80 Meter groß ist, dann guckt man sich an, wie genau möchte ich das denn jetzt messen? Zum Beispiel auf 1 Millimeter genau, dann würde man ja quasi alle Leute, die 1,799 bis 1,801 groß sind, in eine Gruppe packen und dann gucken, wie oft ist diese Gruppe. Bei Körpergrößen von Menschen würde man vielleicht nicht so präzise sein, weil das so genau die Messgenauigkeit nicht ist, weil Menschen können ja auch schief stehen und dann sind die unterschiedlich groß, da ist dann 1 Millimeter Messgenauigkeit irgendwie ein bisschen unrealistisch. Da misst man vielleicht eher auf 1 Zentimeter genau. Das heißt, man packt alle Leute in eine Gruppe, die jetzt 1,795 groß sind und bis 1,805 Meter groß. Und das ist dann quasi ein Bereich. Und dann würde man eben bei der Normalverteilung gucken, welche Fläche liegt jetzt unter dieser Normalverteilung zwischen beiden Werten. Und dadurch, dass bei der Normalverteilung die Fläche auf 1 normiert ist, also das heißt, die Fläche der Normalverteilung, die unter der Normalverteilung liegt, der Glockenkurve, hat den Wert 1, was 100% entspricht. Und dann ist quasi die Fläche unter dieser Linie, die von 1,795 und 1,805 ist, das ist dann auch im Grunde der Anteil oder der Prozentsatz der Leute, die diese Größe haben, wenn man bei der Körpergröße eben von normal verteilten Größen ausgeht. Das heißt, auf der einen Seite gilt die Normalverteilung erstmal für kontinuierliche Werte, aber man packt die ja immer in Abschnitte zusammen, die man zusammenzählt, um die Häufigkeit zu bekommen. Ja, und kontinuierliche Werte sind sowas wie die Längen von etwas, die Größen oder auch sowas wie Zeiten oder ein Gewicht. Das sind alles kontinuierliche Werte, im Gegensatz zu Kategorien. So, man kann die zwar in verschiedene Gruppen zusammenfassen, aber das kann man dann auch wieder anpassen, je nachdem, wie man es gerade braucht, was man jetzt bei reinen Kategorien-Sachen nicht machen kann. Kategorien wären jetzt zum Beispiel, welche Partei hat jemand gewählt? Also, wie gesagt, ein bekanntes Beispiel, was man in vielen Texten zum Thema Normalverteilung findet, ist eben Körpergröße von Menschen, dass die grundsätzlich erstmal normal verteilt ist. Wenn man sich das jetzt genauer anguckt, funktioniert das allerdings nur für eine Altersgruppe und dann auch nur für ein Geschlecht, das man zusammenpackt. Dann sind die Menschen ungefähr normal verteilt. Aber allein das Alter ist schon wieder relevant, weil Menschen in verschiedenen Altersgruppen auch unterschiedlich groß geworden sind, weil sich zum Beispiel die Ernährung oder so verbessert hat über die Jahrzehnte. Und deswegen ist das zwar grundsätzlich normal verteilt, aber nicht auf alle Menschen bezogen. Ja, ein anderes Beispiel für etwas, was normal verteilt ist, ist, wenn man sich jetzt anguckt, wenn man jetzt ein Spiel spielt. Es gibt sogenannte Rhythmusspiele, wo man dann in einem bestimmten Rhythmus bestimmte Dinge machen muss. Da läuft dann meistens irgendwie eine Hintergrundmusik und dann muss man im Takt der Musik Dinge tun. Und wie präzise man dann eben diesen Takt hält, ist dann quasi auch normal verteilt. Man hat dann zwischen zwei Mal, dass man drücken muss, immer einen bestimmten zeitlichen Abstand. Und dann gibt es quasi den mittleren Abstand, aber den schafft ein Mensch jetzt nicht unbedingt immer exakt. Das heißt, man ist immer etwas zu früh oder zu spät oder oft genug kriegt man den Abstand auch gut hin, wenn man gut im Takt ist. Aber wenn man sich das auf Millisekunden genau anguckt, dann ist das immer nicht exakt. Und sowas kann man eben auch verwenden oder wird im Bereich der Rhythmusspiele durchaus auch benutzt, um Cheater zu entdecken. Bei dem Spiel Osu! gab es jetzt vor kurzem einen Fall, dass jemand seine Tastatur so manipuliert hatte, dass der zweite Tastendruck immer exakt gleich nach dem ersten passiert ist, weil die Tastatur so Automatisierungsfunktionen hatte. Und da hat man gesehen, ja, das ist eindeutig nicht mehr menschlich, weil Menschen können nicht so präzise drücken. Und so hat man dann eben einen Cheater gefunden, weil etwas nicht mehr normal verteilt war.
Janine: Wie frech, einfach so betrügen. Ja, wir hatten ja schon gesagt, das heißt auch die Gauẞ'sche Glockenkurve, denn dieser Carl Friedrich Gauss ist bekannt dafür, die Normalverteilung eingeführt zu haben. Und erstmals hat er sie in einem Aufsatz im Jahr 1809 veröffentlicht, wo übrigens auch die kleinsten Quadrate drin vorkommen. Da geht es um den Nachweis, beziehungsweise um den Beweis, dass Ceres demnächst wieder auftaucht und dann mit dieser Methode auch wieder gefunden werden konnte. Das hatten wir, ich glaube, in der letzten Folge.
Helena: Ja, genau. In der letzten Folge hatten wir tatsächlich die gleiche Arbeit schon von Gauss, nur haben wir uns auf einen anderen Aspekt konzentriert. Diesmal geht es eben um die Normalverteilung.
Janine: Was eigentlich ein ziemlicher Zufall ist, also nicht ganz, aber schon auch ein bisschen. Jedenfalls in dem Aufsatz von Gauss, den er da 1809 veröffentlicht hatte, war die Normalverteilung noch nicht die Normalverteilung namentlich, sondern er hatte ihr einen anderen Namen gegeben. Gauss nannte es Fehlerverteilung. Das ist ja was ganz anderes und erst mal verwirrend, finde ich.
Helena: Naja, es ist ja insofern nicht was anderes, als dass er ja auch die Methode der kleinsten Quadrate entwickelt hat in der gleichen Arbeit und eben diese Fehler um diese Berechnungen herum dann eben auch normalverteilt sind, also um die Kurve. Man misst ja mit einer bestimmten Genauigkeit und dann ist halt die Messungenauigkeit ist dann eben auch normalverteilt. Und deswegen, weil er das in diesem Kontext benutzt hat, war das ja auch wirklich die Verteilung, die seine Fehler hatten.
Janine: Ja.
Helena: Das ergibt schon Sinn. Und was ich auch noch interessant fand, also mir war nicht klar, dass Gauss das damals so genannt hat, also Normalverteilung kam halt erst einige Jahrzehnte später als Name auf. Aber es gibt jetzt immer noch etwas, das nennt sich Fehlerfunktion, was im Grunde genommen einfach das Integral der Normalverteilung ist. Und während man jetzt, wie ich das vorhin erklärt hatte, um jetzt für zwischen bestimmten Werten die Wahrscheinlichkeit auszurechnen, muss man halt zwischen diesen Werten integrieren bei der Glockenkurve. Wenn man jetzt allerdings die Fehlerfunktion benutzt, dann muss man nicht mehr integrieren, also abgesehen davon, dass man sie nicht analytisch ausrechnen kann und mathematisch immer noch integriert wird. Numerisch gibt es da Algorithmen für. Aber im Prinzip kann man daraus dann direkt eben die Wahrscheinlichkeit von einem bestimmten Bereich ausrechnen, weil man es ja schon fertig integriert hat. Also die Fehlerfunktion habe ich durchaus auch schon öfter verwendet.
Janine: Also für mich klingt das jetzt so ein bisschen von außen, ich bin ja in der Mathematik nicht ganz so tief drin, dass ja Gaus halt für sein spezifisches Problem mit den kleinsten Quadraten quasi eben eine Bezeichnung gefunden hat, die er Fehlerverteilung nannte. Und im weiteren hat sich das dann eben anders entwickelt, so wie Helena gerade sagte. Jahrzehnte später wurde dann der Name Normalverteilung gewissermaßen etabliert. Und ja, auch das, was Gaus da gemacht hat, ist natürlich nicht aus dem Nichts heraus entstanden. Die Normalverteilung gehört zum Gebiet der Wahrscheinlichkeitsverteilung und das, wie man sich vorstellen kann, ist ein ziemlich komplexes Gebiet der Mathematik. Und da gibt es eben auch reichlich Vorarbeiten, verwandte Konzepte, die darauf hingeführt haben oder auch noch daraus entstanden sind, beziehungsweise im Nachgang anders aufeinander bezogen wurden. Also die dann vielleicht eine bessere Nützlichkeit bekommen haben oder anders benutzt wurden, sich besser herauskristallisiert haben. Und ja, das Ganze ist für mich von außen relativ undurchdringlich, aber wir versuchen trotzdem so die Zusammenhänge ein bisschen darzustellen, wo wir sie brauchen und wo sie für uns auch nützlich sind. Und deswegen haben wir dann noch zwei Begriffe herausgepickt, um ein bisschen mehr zur Normalverteilung sagen zu können. Das ist der zentrale Grenzwertsatz. Ja, und da haben wir einen kurzen Satz im Vorfeld schon mal, was der zentrale Grenzwertsatz ist, und zwar besagt er, dass unter bestimmten Umständen Wahrscheinlichkeiten am Ende immer eine Normalverteilung ergeben können. Und wir haben den Begriff Binomialverteilung und die besagt, wie wahrscheinlich bestimmte Werte zum Beispiel beim Münzenwerfen sind. Und ja, warum haben wir genau diese beiden Begriffe herausgesucht? Beim ersten scheint es jetzt gerade vielleicht ein bisschen offensichtlicher. Aber ja, sie helfen uns, folgende Frage zu beantworten, die ich jetzt Helena stelle.
Warum ist die Normalverteilung normal? (00:17:49)
Janine: Warum ist die Normalverteilung normal?
Helena: Ja, das ist eine gute Frage. Und die kurze Antwort darauf wäre der zentrale Grenzwertsatz. Und in der langen Antwort versuche ich, das jetzt einmal zu erläutern. Also, wir fangen jetzt einmal an mit einem Münzwurf. Wenn man eine Münze wirft, dann kriegt man entweder Kopf oder Zahl heraus. Ich gehe jetzt mal davon aus, das sind die einzigen Szenarien, also dass man die nicht zwischen ausversehen verliert oder sie auf der Kante liegt, sondern dass sie wirklich nur Kopf oder Zahl zeigen kann. So, und wenn man jetzt eine Münze mehrfach wirft, dann ist die Wahrscheinlichkeit für jedes Ereignis Kopf oder Zahl 50 Prozent, für jeden einzelnen Wurf. Und das ist unabhängig davon, wie oft man die Münze vorher schon geworfen hat. Jeder neue Münzwurf quasi fängt wieder von vorne an. So, es kann halt auch mal sein, dass mehrmals das Gleiche herauskommt, also dass man dreimal Zahl wirft oder viermal. Aber man hat eigentlich immer eine sogenannte Gleichverteilung. Das heißt, die beiden Ereignisse sind gleich häufig. Und am Ende läuft es darauf hinaus, wenn man sehr oft wirft, dass dann ungefähr genauso oft Zahl wie Kopf herausgekommen ist. Und wenn man jetzt mehrere Münzen gleichzeitig wirft und dann die Anzahl, wie oft Zahl geworfen ist, zählt, und dann sagt man, jetzt ist nicht mehr die Frage, ist Kopf oder Zahl herausgekommen, das Ergebnis, sondern wie oft ist Zahl herausgekommen, ist das Ergebnis, dann bekommt man die sogenannte Binomialverteilung, die besagt, wie wahrscheinlich jede einzelne dieser Münzwürfe ist, dass man eben dreimal Zahl hat, viermal Zahl und so weiter. Und dazu gibt es eine ganz nette Webseite, auf der man sehr viele Münzwürfe gleichzeitig simulieren kann. Da kann man dann irgendwie sagen, ja, ich möchte, also auf der Seite gehen bis zu 17 Münzen, und dann möchte ich diese zehnmal hintereinander werfen und vielleicht auch hundertmal und so weiter. Und wenn man das halt macht, dann sieht man, dass bestimmte Werte besonders häufig vorkommen. Also bei 17 Münzen liegt quasi die Mitte irgendwo bei, das kann ja auch nullmal rauskommen, das heißt, es gibt 18 mögliche Werte, die rauskommen können, nullmal Zahl und 17mal Zahl. Das heißt, die Mitte ist irgendwie bei neun, das heißt, das am häufigsten ist, dass man auch neunmal Zahl wirft, aber es wird ja nicht jedes Mal so sein, sondern dann wird auch mal achtmal Zahl geworfen oder zehnmal Zahl. Und je öfter man das wirft, desto mehr nähert sich das Ganze dann eben den berechneten Werten aus der Binomialverteilung an. Und diese Binomialverteilung wird, wenn man quasi die Anzahl der Münzen immer größer macht, dann, keine Ahnung, hundert oder tausend Münzen gleichzeitig wirft, und das ganz oft wiederholt, dann nähert sich diese Binomialverteilung immer mehr der Normalverteilung an. Also ein bisschen, wenn man sich das anguckt, sieht man auf dieser Webseite schon, dass das immer mehr diese Glockenform bekommt, aber damit es wirklich am Ende normal verteilt wird, muss man eben auch die Anzahl der Münzen, die man gleichzeitig berücksichtigt, immer weiter erhöhen. Gut, mathematisch betrachtet heißt das Ganze dann, dass bestimmte mathematische Voraussetzungen gelten müssen, damit ein Zufallsexperiment, das man ganz oft wiederholt und vor allen Dingen mehrfach kombiniert, dass diese auch am Ende eine Normalverteilung ergeben können. Das erste dazu ist, die verschiedenen Verteilungen oder Zufallsexperimente, die man macht, müssen unabhängig voneinander sein. Also wie bei einem Münzwurf, jede Münze ist unabhängig von der, die man davor geworfen hat, weil sie immer wieder ihren Zustand auf null zurücksetzt. Wenn das nicht der Fall ist, würde das hier eben nicht funktionieren. Also beim Lottozahlenziehen zum Beispiel ist die Zahl, die man gezogen hat, ja dann raus aus dem Topf, und die kann man nur einmal ziehen. Das heißt, damit könnte man keine Normalverteilung erzeugen. Dann müssen all die Verteilungen, die man halt kombiniert, eigentlich gleich sein. Das heißt, man muss wie den Münzwurf den Münzwurf halt viele, viele Male wiederholen und zusammenpacken. Man kann jetzt nicht, wenn jedes Mal die Verteilung unterschiedlich ist, die dann auch so kombinieren. Ja, dann gibt es noch eine sehr mathematische Voraussetzung, nämlich, dass die Varianz nicht unendlich groß sein darf bei den Verteilungen, die man da benutzt. Die Varianz ist im Wesentlichen das Quadrat von der Standardabweichung. Und man benutzt ja normalerweise die Standardabweichung, um normal vergeteilte Größen zu beschreiben, weil der Wert, der da rauskommt, ist etwas, was wir verstehen können. Man weiß ja vielleicht auch, innerhalb von einer Standardabweichung liegen 67% aller Werte einer Normalverteilung. Innerhalb von zwei Standardabweichungen um den Mittelwert herum sind, ich glaube, etwa 95% aller Werte. Und bei drei Standardabweichungen sind es ungefähr 99% aller Werte liegen in diesem Bereich. Und das ist eine Länge, die halt die gleiche Einheit hat wie der Wert, den man misst. Die Varianz hingegen ist ja das Quadrat. Das heißt, man kann sich mit dieser Zahl nicht so viel vorstellen. Wenn man allerdings zwei normal verteilte Größen hat und die sich überlagern lässt, sodass man quasi deren Ergebnisse addiert, in der dann entstehenden neuen Verteilung kann man dann die Mittelwerte ja addieren und kriegt dann den richtigen Mittelwert raus. Aber man kann nicht die Standardabweichung addieren, sondern man muss die Varianzen addieren und dann kriegt man die neue Standardabweichung. Also es gibt durchaus Situationen, wo die Varianz das mathematisch praktischere Tool ist, aber meistens versteht man ja eher, was meint jetzt eigentlich diese Standardabweichung. Das heißt, der zentrale Grenzwertsatz besagt unter den genannten Voraussetzungen, also dass man sehr viele Verteilungen kombiniert, diese Verteilungen unabhängig voneinander sind, aber sie jeweils gleich sind und die Varianz nicht unendlich groß ist, da kriegt man immer eine Normalverteilung am Ende heraus. Was es in der Statistik dann auch noch gibt, ist das sogenannte Gesetz der großen Zahl. Da geht es auch darum, dass man ein Zufallsexperiment sehr oft wiederholt und dann besagt dieses Gesetz, ja, wenn man, keine Ahnung, eine Million mal eine Münze wirft, dann nähert sich die relative Häufigkeit, also wie oft habe ich Zahl im Verhältnis zu Kopf geworfen, dem theoretischen Wert der Wahrscheinlichkeit an. Das heißt, wenn ich das sehr oft wiederhole, dann kriege ich bei 50% Kopf raus und bei 50% Zahl. Und das ist insofern, weil beides irgendwie mit sehr vielen Wiederholungen zusammenhängt, könnte man das vielleicht verwechseln, aber beim Gesetz der großen Zahl geht es eher darum, dass man darüber feststellen kann, ja, ist jetzt diese Münze oder dieser Würfel wirklich so verteilt, wie man das dachte? Wenn man einfach dieses eine Experiment sehr oft wiederholt.
Janine: Das heißt, da könnte man zum Beispiel herausfinden, dass eine Münze oder ein Würfel manipuliert ist, in dem eine Seite mehr Gewicht hat, wenn sie eben nicht entsprechend der Wahrscheinlichkeit sich verhält?
Helena: Genau, wenn du das jetzt irgendwie tausendmal wiederholst und dann feststellst, ja, 600 Mal habe ich Zahl geworfen, dann ist das wahrscheinlich manipuliert.
Janine: Ahja.
Helena: Also, wenn man jetzt irgendwie würfelt mit einem normalen Sechserwürfel, man würfelt 10 Mal, dann kann es schon sein, dass man unter diesen 10 Mal viermal eine Eins würfelt. Wenn man aber 100 Mal würfelt und dann 40 Mal eine Eins bekommt, dann ist das wiederum sehr unwahrscheinlich. Das heißt, es spricht dann dafür, dass es manipuliert ist. Und das Gesetz der großen Zahl besagt dann eben, dass sich dieser Würfel eben der erwarteten Wahrscheinlichkeit, dass alle mit einem Sechstel der Wahrscheinlichkeiten drankommen soll, annähert. Und der zentrale Grenzwertsatz hingegen ist dann, wenn man jetzt ganz viele Würfel hat, und dann muss man aber noch berücksichtigen, ja, diese Würfel müssen eben auch sich überlagern. Also im Falle von den Würfeln heißt das, wenn man jetzt so ein Spiel wie Kniffel spielt, dann interessiert einen ja nur, wie oft hat man jetzt eine Sechs geworfen. Habe ich jetzt fünf Sechsen oder nur eine? Und dann entspricht das eher, was einem interessiert, dem Gesetz der großen Zahl. Man kriegt aber keine Normalverteilung raus, wenn man das länger spielt, weil es geht nur darum, dass man jedes Mal eben einzelne Zahlen würft. Wenn man jetzt aber so was wie Siedler von Catan spielt, dann hat man ja zwei Würfel und einen interessiert ja nicht, ob man eine Eins gewürfelt hat, sondern man addiert die Sachen zusammen und dann sieht man ja, die Sieben ist am häufigsten und so weiter. Und dann will man ja taktisch so spielen, dass man bei häufigen Sachen auch in der Nähe seine Häuser baut und so weiter. Und wenn man jetzt hier die Anzahl der Würfel immer weiter erhöhen würde beim Siedler spielen, dann würde sich das eben einer Normalverteilung annähern. Ja, es gibt dann noch eine weitere Fehlannahme, die man haben kann über den zentralen Grenzwertsatz. Also der besagt ja, wenn man halt eine bestimmte Zufallsverteilung ganz oft miteinander kombiniert, dann bekommt man am Ende eine Normalverteilung. Wenn man jetzt allerdings sagt, ja, ich habe jetzt hier Menschen und suche zufällig aus der Bevölkerung Menschen raus und dann messe ich, wie groß die sind oder so, dann bekomme ich, wenn ich das sehr oft wiederhole, nicht die Normalverteilung heraus, weil im Extremfall habe ich ja einmal alle Menschen durchgemessen und wenn dann die Körpergröße in Wirklichkeit gar nicht normal verteilt ist, weil es zum Beispiel sehr viele Kinder gibt, die einfach kleiner sind, oder die Leute sind halt je nachdem, wo die herkommen, unterschiedlich groß, dann kriegt man am Ende, wenn man dieses Zufallsexperiment wiederholt, auch eigentlich nur die Verteilung, die tatsächlich in der Bevölkerung schon stattfindet, heraus. Weil das eben ja nicht zufällig ist. Weil nicht jeder Mensch quasi neu erschaffen wird für die Messung und zugrunde liegt eine Normalverteilung, sondern ich kann im Extremfall halt ja nur die reale Menschenpopulation messen. Und insofern gibt es dann eben keine Normalverteilung, wenn die nicht auf andere Weise schon normal verteilt sind. Dazu habe ich aber noch ein anderes Beispiel. Wir alle kennen ja Regenbögen. Die entstehen, wenn Sonnenlicht auf Regen trifft und es gleichzeitig regnet und die Sonne scheint, dann sieht man einen Regenbogen. Dieser Regenbogen hat eben die Eigenschaft, dass die Farben eben die Spektralfarben sind. Jetzt ist es aber so, dass bestimmte Gase oder sowas manche von diesen Farben halt absorbieren können. Das ist auch in der Sonne der Fall. Auch die Sonne hat einen Gas außen, was dann bestimmte Farben absorbiert. Das heißt, würde man jetzt sehr genau in diesen Regenbogen gucken, dann sieht man da so Löcher, die dann schwarz sind und gar nicht ihre eigene Farbe haben. Wenn man sich jetzt anguckt, auf welche dieser Wellenlängen, auf welche dieser Farben eben ein Gas reagiert, dann sieht man ja, für ein bestimmtes Gas ist auch eine bestimmte Wellenlänge typisch. Aber um diese Wellenlänge herum bildet sich dann eben auch wieder eine Normalverteilung. Und das kommt hier jetzt daher, dass alle Gasmoleküle sich eben bewegen, weil es ist halt warm. Wir haben Wärme und Wärme ist im Wesentlichen nur Bewegung von Molekülen. Das heißt, die bewegen sich in alle möglichen Richtungen und es ist dann bei vielen, vielen Milliarden, und das ist immer noch zu klein, Molekülen, die gleichzeitig irgendwie sich zufällig in irgendeine Richtung bewegen, hat man eben sehr viele von diesen Zufallsexperimenten quasi. Man misst ein Molekül und dann gleichzeitig noch ein anderes und davon sehr viele, dass sich das alles eben so stark mittelt, wie die sich verhalten, dass es auch normal verteilt ist, diese Breite von dieser Linie, die absorbiert wird. Würde man jetzt alles auf den absoluten Neupunkt herunterkühlen, dann bekäme man eben nicht mehr die Normalverteilung, sondern diese sogenannte natürliche Linienbreite, die Lorenz verteilt ist. Das ist eine Verteilung, die auf den ersten Blick durchaus der Normalverteilung ähnelt, aber sie tatsächlich eigentlich nicht ist, sondern sie ist ein bisschen spitzer. Und die kommt eben aus einem quantenmechanischen Effekt heraus. Und wenn man diese Lorenzverteilung, also die grundlegende Zufallsverteilung, mit den Bewegungen eben kombiniert, dann hat man ganz viele Wahrscheinlichkeiten, die sich überlagern, und dann hat man wieder eine Normalverteilung am Ende.
Janine: Okay, also noch etwas anderes, wo man quasi eine bestimmte Verteilung hat oder einen bestimmten Grundsatz. Wenn es dann etwas weitergeht, also in diesem Fall ein neuer Aspekt hinzukommt oder die Häufigkeit hinzukommt, dann gleitet das über in eine Normalverteilung.
Helena: Ja.
Janine: Also ich nehme bisher auf jeden Fall mit, wesentliche Aspekte der Normalverteilung ist halt, dass wenn etwas häufig genug getestet wird oder die Datengrundlage einfach groß genug ist, dann kann ich eine Normalverteilung vorliegen haben. Und gleichzeitig auch, was ich jetzt vor allem aus deinem Linienbreitenbeispiel der Spektrallinien mitnehme, dass halt auch in diesem Fall durch die Bewegung quasi mehr Zufall, also die Zufälligkeit hier eine Rolle spielt. So das heißt, ja, wenn der Zufall höher ist, kann ich auch eher eine Normalverteilung vorfinden.
Helena: Naja, man hat halt vor allen Dingen sehr viele Moleküle, die sich überlagern, die alle unterschiedlich sich in verschiedene Richtungen bewegen. Das ist so der Punkt.
Janine: Also auch eher die Menge.
Helena: Genau, das ist auch einfach die Menge. Also physikalisch funktioniert das dann wieder über den Dopplereffekt, dass für die betrachtende Person dann, wenn die Sachen in die eigene Richtung sich bewegen, halt die Wellenlänge anders darstellt, als würden sie von einem weg bewegen. Und durch die Bewegung ist das dann wieder normal verteilt, was man dann als Linienbreite misst, obwohl, wenn man sich die Geschwindigkeiten angucken würde von den Molekülen selber, sind die ja nicht normal verteilt.
Janine: Okay, gut. Dann hatten wir jetzt auf jeden Fall Münzen, Würfel, Licht und andere Dinge. Aber wir hatten ja in unserem Teaser in der letzten Folge auch Dinosaurier versprochen. Wie kommen die denn jetzt ins Spiel?
Habe ich eine Normalverteilung? (00:32:46)
Helena: Genau, die Dinosaurier kommen dadurch ins Spiel, dass man ja auch zweidimensionale Daten haben kann. Also ich kann eine normal verteilte Größe haben auf der x-Achse, aber dann kann ich ja auch davon abhängig noch andere Werte haben, die für sich genommen vielleicht auch normal verteilt sein können, auf der y-Achse. Und das kann man dann aufmalen und mit Linien verbinden. Und da gibt es dann einen Beispieldatensatz, der nennt sich "DataSaurusDozen", also das Datensaurus-Dutzend. Das sind dann ein Dutzend Datensätze, die, wenn man sie als zweidimensionalen Plot sich anguckt, alle unterschiedlich aussehen. Aber die einzelnen Werte in x-Richtung bzw. in y-Richtung haben alle die gleiche Standardabweichung und die gleiche Mittelwert.
Janine: Also das, was wir für die Normalverteilung quasi bräuchten.
Helena: Genau, das, was halt so bei der Normalverteilung ausreichen würde, um diese Daten zu beschreiben. Und das hat man jetzt DatensaurusDozen genannt, weil einer dieser Fälle sieht halt aus wie so ein Dizensaurierkopf. Ja, jetzt haben wir hierfür einfach nur Standardabweichung und Mittelwert, aber wir haben ja auch die einzelnen Werte. Ja.
Janine: Ja, genau. Und da ist die Frage ja dann eigentlich, wie kann ich erkennen, ob es dann tatsächlich eine Normalverteilung ist? Nur wenn diese Sachen passen, muss es ja am Ende vielleicht tatsächlich keine sein.
Helena: Genau, weil bei einer Normalverteilung würden diese Sachen halt reichen, um das zu beschreiben, aber wir wissen ja nicht, ob die Sachen wirklich normal verteilt sind. Grundsätzlich hat man ja erstmal das Problem, man muss ja sehr viele Messungen machen, damit man am Ende wirklich diese Normalverteilung hat. Aber man guckt sich ja, wenn man jetzt zum Beispiel Menschen hat, die man misst, dann misst man ja auch nicht die gesamte Bevölkerung, sondern immer nur einen Bruchteil der Menschen, bei dem man bestimmte Sachen sich anguckt. Man zieht also eine sogenannte Stichprobe, also man sampelt, also sampeln ist letztlich nur das englische Wort für Stichprobe, also zum Beispiel zieht man 100 Personen aus einer Gesamtbevölkerung heraus. Und wenn man jetzt davon ausgeht, dass die 100 Menschen auch wirklich zufällig irgendwie ausgewählt wurden, ja, passt dann dazu, dass in der Gesamtpopulation diese Eigenschaft, die man sich jetzt anguckt, wirklich normal verteilt ist? Und die zweite Frage ist, ist jetzt wirklich auch diese Stichprobe zufällig? Die zweite Frage setzen wir jetzt erstmal voraus, dass man da schon irgendwie hingekriegt hat, dass die Stichprobe zufällig ist. Würde man jetzt, keine Ahnung, sich auf Körpergrößen beziehen, wie wir das ja schon mal gemacht haben, und man guckt sich jetzt nur Basketballspieler an, dann ist das vielleicht keine zufällige Stichprobe, mit der man eine Aussage über die Gesamtpopulation machen kann. Ja, und jetzt hat man im Wesentlichen zwei Möglichkeiten, wenn man halt so eine Stichprobe genommen hat, zu gucken, passt das denn zu einer Normalverteilung? Das eine ist das Plotting, also das grafische Darstellen, und das andere sind sogenannte statistische Tests.
Mit welchen Plots die Normalverteilung überprüfen? (00:35:55)
Janine: Genau, Helena sagt ja gerade Plotting, das grafische Darstellen. Damit ist das Visualisieren der Daten gemeint, also dass aus den zugrunde liegenden Daten eben ein Plot, ein Diagramm erzeugt wird, das dann als Bild interpretiert werden kann, beziehungsweise dessen Darstellung dann interpretiert werden kann. Wir haben darüber schon mal recht ausführlich in Folge 13 über eben Datenvisualisierung gesprochen, und vor allem darüber, dass Datenvisualisierung verschiedene Zwecke hat, unter anderem die Exploration, also das Erkunden von Daten, um sich mit ihnen und verschiedenen Aspekten der Daten dann vertraut zu machen, und auch die Verifikation spielt hier eine Rolle, also das Überprüfen, ob eine Annahme über die Daten und deren Interpretation halt richtig ist. Also wenn euch das Thema näher interessiert, dazu haben wir in Folge 13 geredet.
Helena: Ja, und Verifikation spielt hier insofern eine Rolle, weil die Annahme, dass die Daten normal verteilt sind, ist erst mal ein Modell, ein Modell, was man über die Daten hat. Und um das zu verifizieren, kann man eben bestimmte grafische Darstellungen verwenden, die man aber auch im Vorhinein schon mal zur Exploration nutzen kann. Also die haben durchaus verschiedene Zwecke. Und das Offensichtlichste erst mal, oder das Einfachste, ist hier das sogenannte Histogramm. Bei einem Histogramm teilt man quasi die Daten, die man hat, in spezifische Werte auf, die man dann zusammenfasst. Und je nachdem, wie viel man zusammenfasst, das wird dann binning genannt, also die Bereiche, ja zum Beispiel 1 cm Bereich bei der Körpergröße, und dann zählt man, wie oft ist dieser Bereich. Und das ist dann ein Histogramm. Und hier kann man natürlich wunderschön diese Glockenform sehen, wenn es normal verteilt ist. Also wenn man jetzt irgendwie sieht, ja die meisten sind bei den kleinen und bei den großen Werten, und dazwischen ist nicht so viel, dann ist es eindeutig nicht normal verteilt. Also wenn man dann eben eine Glockenform sieht, dann ist es möglicherweise normal verteilt. Und ja, diese Glockenform wird deutlicher zu erkennen, je mehr Daten man hat. Also wenn man einige tausend Daten hat, dann kann man das schon relativ deutlich sehen. Wenn man irgendwie 100 hat, dann sieht es möglicherweise halt komplett anders aus. Was nicht heißt, dass es nicht normal verteilt ist. So, eine Alternative dazu ist das sogenannte Quantil-Quantil-Diagramm oder auch QQ-Plot. Dabei werden die Daten gemäß ihrer sogenannten Quantile aufgetragen. Und ein Quantil ist dann zum Beispiel, wie viel der Daten liegen in den ersten 10%, wie viel liegen in den zweiten 10%, wie viel liegen in den dritten 10%. Im Prinzip ist der Median auch das 50-Quantil, weil es in der Mitte liegt, also bei 50%. Und dann würde man eben auf der einen Achse auftragen, wo die Messwerte hingehören. Und auf der anderen Achse würde man auftragen, was erwartet man denn, wenn das wirklich eine Normalverteilung ist. Und wenn man so einen Plot eben für eine normal verteilte Größe macht, dann liegen alle auf der einen Achse, auf der einen Linie, die quasi direkt zwischen den beiden Achsen lang geht. So eine 45-Grad-Linie zwischen den Achsen. Und wenn man jetzt unten, also bei 0 rum, sieht, da ist so eine Kurve, die sich erst auf diese Linie annähern muss. Und die bewegt sich vielleicht am Ende von den Daten auch wieder von dieser Linie weg. Dann sieht man, dass es nicht normal verteilt.
Janine: Also es muss tatsächlich sehr gerade heraus aus dem Nullpunkt hervorgehen.
Helena: Ja, genau. So ein bisschen, was mal rausfällt, dann ist das okay. Aber je mehr das rausfällt, desto eindeutiger ist es nicht normal verteilt.
Wie mit statistischen Tests die Normalverteilung überprüfen? (00:39:44)
Janine: Ja, und das ist die eine Variante, wenn das Ganze über, also wenn man herausfinden möchte, ob das eine Normalverteilung ist, über visuelle Darstellung. Das andere war ja statistische Tests. Denn manchmal möchte man ja vielleicht das einfach in Zahlen sehen und direkt benennen können. Wie laufen denn diese statistischen Tests ab?
Helena: Ja, also statistische Tests werden auch manchmal Hypothesentests genannt. Und dann gibt es immer zwei Hypothesen. Eine davon ist die sogenannte Nullhypothese, die man erst mal annimmt für den Normalfall. Also hier, ist es denn eine Normalverteilung? Und dann gibt es immer noch die Alternativhypothese, die dann besagt, es ist keine Normalverteilung in diesem Fall. Ja, und dann rechnet ein Test die Wahrscheinlichkeit aus, mit der durch Zufall, ja, die quasi besagt, wie wahrscheinlich ist, dass durch Zufall einfach jetzt die Nullhypothese stimmt, obwohl die Daten vielleicht auf andere Weise erzeugt worden sein könnten. Ja, und diese Wahrscheinlichkeit, mit der dann eben diese These stimmt, ist dann der sogenannte p-Wert. Der p-Wert, also p, ja, für percentage, ist dann oft 0,05, beziehungsweise 5%. Das ist so, in einem von 20 Fällen ist dieses Ergebnis durch reinen Zufall erzeugt worden. Und das ist dann, diese 5% wird sehr oft einfach als die Grenze angenommen. Also das hat natürlich auch gewisse Schwierigkeiten, wenn man jetzt immer von diesem Wert ausgeht, was jetzt nicht Teil dieser Folge ist. Also man sollte diesen 5% nicht immer vertrauen, weil man kann ja auch vorher bereits mit den Daten etwas gemacht haben, die dazu führen, dass diese, ja, 20% oder 5%, also dieses 1/20 anders erzeugt wird. Also wenn man 20 verschiedene Sachen testet und eins davon stimmt, dann heißt das ja nicht, dass das wirklich Sinn macht, sondern dass das reiner Zufall sein kann. Aber darum soll es jetzt erstmal nicht gehen. Es soll jetzt darum gehen, ja, wenn jetzt dieser Wert also unter 0,05 ist, also unter 5%, dann würde man die Nullhypothese verwerfen und die Alternativhypothese annehmen. Ja, da ist halt immer noch ein bisschen Interpretationsspielraum drin. Gut, und da gibt es jetzt verschiedene Tests, zum Beispiel den sogenannten Shapiro-Wilk-Test oder den Kolmogorov-Smirnov-Test. Aber es gibt insgesamt 20 verschiedene Tests, mit der getestet werden kann, ob etwas normal verteilt ist, je nachdem, welche Details einem wichtig sind. Und ein Problem ist hier jetzt irgendwie, ja, ist ja schön, dass es eine Normalverteilung ist, wenn man die Alternativhypothese nicht annehmen kann, weil der p-Wert über 5% ist. Aber irgendwie fühlt es sich auch ein bisschen komisch an, dass das, was man testen will, dann eigentlich nicht die Nullhypothese ist. Weil normalerweise nimmt man immer den, also in den meisten statistischen Tests würde das, was einen interessiert, ja die Alternativhypothese sein und die Nullhypothese ist ja, der Effekt ist nicht vorhanden. Und die Alternativhypothese, dann wäre ja der Effekt ist vorhanden und das ist eine Normalverteilung. Und dass das hier irgendwie andersrum ist, ist so ein bisschen, ja, schwierig von der Interpretation her. Letztlich besagt es einem dann, ja, das meiste kann man erstmal irgendwie als normal verteilt annehmen, weil es ist ja nur mit 10%iger Wahrscheinlichkeit normal verteilt. Ja, keine Ahnung, ich finde diese Tests, die sind durchaus hilfreich, weil manchmal ist es eben, dieser p-Wert kann ja auch, ja, sehr klein werden in manchen Fällen. Und ich habe das zum Beispiel auch auf diese Data-Saurus-Dozen-Sachen angewendet und die Y-Werte waren irgendwie überhaupt nicht normal verteilt bei den Sachen, die ich ausprobiert habe. Und die X-Werte waren laut Shapiro-Wilk-Test durchaus normal verteilt, aber dann nicht mehr nach Kolmogorov-Smirnov-Test. Also es macht schon Sinn, wenn man das macht, auch mehrere von diesen Tests zu machen. Und sie geben einem durchaus auch eine Idee. Und insbesondere bei kleineren Stichproben kann das hilfreich sein, dass man zumindest sagt, ja, es ist nicht unplausibel von normal verteilt auszugehen, weil dann kann man auch besser weiterrechnen. Ja, dabei muss man dann allerdings noch bedenken, dass bei sehr großen Stichproben wie 1000 Datenpunkte diese Tests auch immer empfindlicher werden. Und Sachen, die dann wunderbar wie, ja, eine Glocke aussehen im Histogramm, werden dann plötzlich als eindeutig nicht normal verteilt angesehen, weil es irgendwo ein paar Ausreißer gibt. Und dann ist natürlich immer die Frage, will man jetzt lieber diesen Tests glauben oder lieber dessen, was man gesehen hat? Also die sind nicht automatisch besser als ein Plot, nur wenn man eine Zahl rauskriegt. Weil man muss sich auch immer die Frage stellen, wenn man etwas auf Normalverteilung testet, warum mache ich das und woran bin ich interessiert? Und wenn ich jetzt kleinste Abweichungen in Daten sehen will, um die besser zu analysieren, dann ist es natürlich interessant, das hiermit festzustellen, ja, es ist nicht exakt normal verteilt, da ist es irgendwie eine Abweichung, die will ich mir genauer angucken. Dann ist das gut. Aber wenn mich das gar nicht interessiert, sondern mir es eher um, ja, wie sieht es denn allgemein aus, geht, dann bleibe ich doch lieber bei der Normalverteilung, wenn die im QQPlot oder im Histogramm eigentlich sehr gut normal verteilt aussehen. Also in der Physik zum Beispiel hat das auch was damit zu tun, wie man, ja, Messfehler berechnet. Also die sind ja, man geht ja immer erst mal von normal verteilt aus, deswegen ja auch Fehlerkurve. Wenn man jetzt aber feststellt, die Sachen sind nicht normal verteilt, die Fehler, dann muss man ja ganz anders mit den Messfehlern weiterrechnen, als wenn die normal verteilt sind. Aber gleichzeitig ist in der Physik auch manchmal genau dieser Punkt, man will ja genau diese Abweichung herausfinden. Also, ja, mit normal verteilten Größen weiterzurechnen ist halt viel einfacher, als wenn das andere sind, aber man kann das auch machen. Man kann mit Wahrscheinlichkeitsfunktionen rechnen. Man muss nicht immer nur Mittelwert und Standardabweichung benutzen.
Janine: Sehr gut. Ich glaube, dann haben wir annähernd alles einmal gesagt, was wir gesagt haben wollten, oder?
Helena: Ja, ich denke auch.
Fazit (00:46:20)
Helena: Kommen wir zum Fazit. Also mein Fazit bei dieser Folge ist, wenn man genug zufällige Dinge, die sich überlagern und unabhängig voneinander sind, ja, zusammenpackt, dann bekommt man immer eine Normalverteilung und deswegen heißt die auch "normal".
Janine: Ja, das ist, glaube ich, eine ganz gute Zusammenfassung. Ich habe eigentlich diesen sehr knappen Fazit nicht sehr viel hinzuzufügen, außer vielleicht nochmal so der kurze Abriss durch die Folge. Wir hatten damit begonnen, dass die Normalverteilung von Gauss eingeführt wurde und veröffentlicht wurde und sich auch danach noch weiterentwickelt hat und eben auch mit anderen Konzepten zusammenhängt, wie zum Beispiel dem zentralen Grenzwertsatz, der eben besagt, dass wenn ich etwas häufig genug wiederhole, dann wird es eine Normalverteilung sein können und dergleichen. Also, ja, was Helena eben auch schon gesagt hatte, das nehme ich auf jeden Fall daraus mit. Und auch, ja, wie ich unterscheiden kann, es liegt eine Normalverteilung vor oder nicht, da sind eben verschiedene Methoden denkbar. Zum einen über das Erstellen von Plots, wie dem Histogramm oder dem QQ-Plot, oder eben halt mit den statistischen Tests, wo eben auch was ganz Gut ist, wenn man manche Sachen miteinander abgleicht, je nach Fragestellung auch, wie Helena gerade ausgeführt hat. Ja, ich denke, das ist so ein bisschen das Wichtigste, was wir heute gesagt haben. Oder was Helena heute gesagt hat, meine Redeanteil war etwas kleiner.
Nächste Folge: Gesundheitsdaten im September (00:47:57)
Helena: Ja, und in unserer nächsten Folge wollen wir dann mal über das Thema Gesundheitsdaten sprechen. Das ist ja ein durchaus sehr wichtiges und großes Thema und gerade auch angesichts dessen, dass jetzt gerade die elektronische Gesundheitsakte verpflichtend für alle eingeführt wird. Ja, den Aspekt finde ich jetzt ehrlich gesagt etwas schwieriger, deswegen konzentrieren wir uns eher auf den Aspekt der Daten, die wir selbst erheben und beobachten können, wie zum Beispiel Selbstüberwachung mit Armbändern oder Gesundheits-Apps. Und hier spielt natürlich auch die Sicherheit dieser Daten eine wichtige Rolle.
Call to Action (00:48:35)
Janine: Genau, und wenn ihr das nicht verpassen wollt, weil versehentlich fast alle von uns, die ein Smartphone besitzen, garantiert Gesundheits-Apps auf diesem Handy haben, die fleißig Daten erfassen, dann folgt uns doch auf Mastodon unter datenleben@podcasts.social. Da veröffentlichen wir immer, wann eine Folge rausgekommen ist. Oder guckt auf unserer Webseite vorbei, www.datenleben.de, da könnt ihr uns auch gerne Feedback hinterlassen oder eben ganz altmodisch per E-Mail. Wir freuen uns immer sehr über Kommentare zu unseren Folgen und nehmen auch Themenvorschläge gerne an. Und falls euch unsere Arbeits- und Denkweise gefällt, könnt ihr uns auch als Data Scientist für Analysen oder Projekte buchen.
Helena: Ja, dann bleiben wir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao!
Janine: Tschüss!
49:35
dl052: wie werden (exo-) planeten gefunden?
Episode in
datenleben
Die Menschheit hat sich wahrscheinlich schon immer dafür interessiert, ob es noch andere Welten gibt und vielleicht sogar welche, die ebenfalls bewohnt sind. Wie können solche Welten entdeckt werden? Wir sehen uns an, wie mit Hilfe verschiedener Methoden der Beobachtung, Datenerfassung und Analyse Exoplaneten beobachtet und nachgewiesen werden können. Es geht vor allem um die Radialgeschwindigkeitsmethode und die Transitmethode. Das Ganze wird aufgefüllt mit wissenswerten Details aus der Exoplanetenforschung, zum Beispiel zu TRAPPIST-1 und seinen sieben Planeten.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Entdeckung von Exoplaneten
science.nasa.gov, Exoplanets: Can we find life?
esa.int, Science & Exploration: What are exoplanets?
exoplanets.nasa.gov: Historic Timeline
Wikipedia: Lich (Pulsar)
esa.int, Science & Exploration: Exoplanets in the spotlight
eso.org: Nobelpreis für Physik 2019 für die Entdeckung des ersten Exoplaneten um einen sonnenähnlichen Stern verliehen
Wikipedia: HD 209458 b
Wikipedia: Liste mithilfe der Transitmethode entdeckter Exoplaneten
exoplanets.nasa.gov: Exoplanet Travel Bureau. Explore TRAPPIST-1d
science.nasa.gov: 10 Things: All About TRAPPIST-1
http://docs.lightkurve.org
esa.int, Science & Exploration: ESA’s exoplanet missions
Wikipedia: Liste mithilfe der Astrometrie entdeckter Exoplaneten
youtube.com, ExploreAstro: 500 Hours: Exploring the 7 Exoplanets of TRAPPIST-1
Schlagworte zur Folge
Sonnensystem, Planeten, Exoplaneten, Radialgeschwindigkeit, Dopplereffekt, Transitmethode, Astrometrie, Astronomie
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 52. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch die Welt der Daten näher bringen. Was für Daten umgeben uns? Wie gehen wir mit diesen Daten um und was können wir aus ihnen lernen? Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.
Thema der Folge (00:00:37)
Janine: Der Weltraum – unendliche Weiten. Wir schreiben das Jahr 2024 und wollen über das Entdecken von Planeten reden, genauer gesagt darüber, wie Exoplaneten entdeckt werden können. Ein Großteil der Menschheit hat sich ja schon wahrscheinlich immer beim Blick in den Nachthimmel gefragt, ob es noch andere Welten gibt und vielleicht sogar welche, die ebenfalls bewohnt sind oder auf die wir aussiedeln können. Also haben einige angefangen, den Himmel danach abzusuchen. Und irgendwann sind sie tatsächlich fündig geworden. Und das mit Hilfe von Beobachtungen und mit dem Sammeln und dem anschließenden Auswerten von Daten. Das klingt doch sehr nach Data Science. Deswegen schauen wir uns heute insbesondere zwei Methoden an, die dazu eingesetzt werden, um Exoplaneten tatsächlich zu entdecken. Vorher gibt es noch einen kleinen Blick auf unsere Planeten und danach dann wird weiter in die Ferne geschweift. Und wir reden dann zum einen über die Radialgeschwindigkeitsmethode und die Transitmethode. Und ja, das Ganze füllen wir wie immer ein bisschen auf mit, wie wir finden wissenswerten Details, in diesem Fall aus der Exoplanetenforschung.
Warum ist das Thema interessant? (00:01:47)
Helena: Ja, und wir fanden das Thema, also wir finden das Thema interessant und beschäftigen uns jetzt damit unter anderem, weil es uns vorgeschlagen wurde. Außerdem habe ich das tatsächlich mal studiert. Also ich habe Vorlesungen gehört im Studium über das Thema Planetentdeckung. Und dann dachte ich, ja, können wir doch auch einfach mal eine Folge dazu machen. Und generell sind Themen aus dem Universum sowieso immer interessant.
Einspieler: Exoplaneten – Auf der Suche nach Leben im Universum (00:02:16)
Janine: Ich packe meinen Koffer und gehe zum Exoplanet-Travel-Bureau der NASA. Manchmal müssen neue Erfahrungen und Perspektiven auf die Welt einfach sein. Warum also nicht einen Exoplaneten besuchen? Exoplaneten, also extrasolare Planeten, liegen außerhalb unseres Sonnensystems. Sie kreisen nicht um dieselbe Sonne wie unsere schnuckelige kleine Erde. Und ja, wenn etwas Abstand zum immergleichen Trott nötig ist, wäre ich da sicher am besten aufgehoben. Die Prospekte über die zahlreichen Exoplaneten sind vielseitig und bunt illustriert in allen vorstellbaren Farben des Universums. Ich schaue mir einige Planeten näher an beim Herumblättern. Kepler-16b kreist um gleicht zwei Sterne. Spannend. Aber als Gasriese vielleicht nicht geeignet für einen längeren Besuch. Hm, 55 Cancri e verspricht mir einen Himmel über einem niemals endenden Ozean aus Lava. Klingt eigentlich wundervoll, aber die ganze Zeit in einer Schutzblase gegen die Hitze und die toxischen Gase? Erscheint mir weniger hohsam. Und so schön die Lava auch fließen mag, vielleicht doch etwas einseitig. Auf der nächsten Seite schlage ich im Prospekt TRAPPIST-1e auf. Kreist mit sechs weiteren steinigen Planeten um einen roten Zwerg und ist nur 40 Lichtjahre entfernt. Und die anderen Planeten des Systems TRAPPIST-1 sind aufgrund der Nähe zwischen ihren Umlaufbahnen gut im Himmel zu beobachten. Es sieht aus, als hingen viele sehr große Monde am Himmel, das muss ein ganz wunderbarer Anblick sein. Das Wichtigste ist aber, TRAPPIST-1e liegt in der habitablen Zone, es könnte dort sogar flüssige Wasservorkommen geben. Die habitable Zone, also die bewohnbare Zone, ist ein Bereich um einen Stern herum, in dem die Bedingungen für Leben theoretisch gegeben sein könnten. Vielleicht könnte ich dort also auch auf andere Lebewesen treffen? In der einen oder anderen Form. Ich meine, das ist doch, was die Menschheit immer wissen möchte. Gibt es auf anderen fremden Welten auch Leben in diesem Universum? Die Suche nach Exoplaneten war auch von dieser Frage getrieben, und in erster Linie suchen wir dabei nach Voraussetzungen und Bedingungen, die wir selbst vom Leben auf der Erde kennen. Die sogenannte habitable Zone ist dabei lediglich ein Konzept, um einen Verdacht in den Raum zu stellen. Bei den vielen, vielen Exoplaneten, die bisher gefunden werden konnten, ist es auch kein Wunder, dass so eine Vorauswahl die Suche erleichtert. Das Konzept der habitablen Zone dient deswegen vor allem dazu, einzugrenzen, wo es sich nach aktuellem Verständnis lohnen könnte, einen genaueren Blick zu riskieren. Aber es steht im wahrsten Sinne des Wortes in den Sternen, ob anderswo Leben existiert und auch, ob wir in der Lage sein werden, es als solches zu erkennen. Und bis dahin suchen wir weiter, nach möglichen Wasservorkommen auf felsigen Planeten, nach den extremen Bedingungen, unter denen auch auf der Erde schon Leben nachgewiesen werden konnte, nach Kommunikationssignalen außerirdischer Zivilisationen und nach elementaren Spuren von Leben in der Zusammensetzung von Atmosphären.
Wie haben wir unser Sonnensystem entdeckt? (00:05:26)
Helena: Ja. Wie haben wir unser Sonnensystem entdeckt? Also mit Sonnensystem meint man so die ganzen Himmelskörper, die wie wir unsere Sonne umkreisen. Und damit kann man einmal anfangen zu sagen, sowas wie die Planeten Merkur, Venus, Mars, Jupiter und Saturn, die lassen sich alle relativ einfach, also relativ, bei Merkur ist es noch vergleichsweise schwierig, aber die anderen sind doch sehr einfach zu entdecken und zwar mit bloßem Auge und sie gehören durchaus zu den hellsten Objekten am Himmel. Und daher sind diese Planeten so offensichtlich, dass sie nie entdeckt werden mussten. Das war dann erst bei Uranus und Neptun der Fall, die erst nach der Erfindung des Fernrohrs entdeckt und im Fall von Uranus als Planet identifiziert werden konnten. Planet heißt Wanderstern, also der Wanderer und steht dann im Gegensatz zu dem anderen Wort Fixstern, was heute durchaus in Kinderbüchern über Astronomie noch verwendet wird, aber eigentlich völliger Unfug ist, so wie man die Begriffe heute benutzt, weil man einfach Planet und Stern sagen kann und diese alten Begriffe sind einfach nur verwirrend, weil sich auch Sterne bewegen können am Himmel, weil wir gut genug messen können, um festzustellen, dass auch die sich bewegen, also deswegen gibt es nichts, was wirklich fest steht am Himmel. Ja, im Jahr 1781 wurde durch Zufall durch einen gewissen Wilhelm Herschel der Uranus entdeckt und dieser Umstand hat der Familie so viel Bekanntheit eingebracht, dass seine Schwester die Karriere als Sängerin abgebrochen hat, weil sie dann auch als Astronomin gearbeitet hat. Ja, Karoline Herschel ist so eine der bekanntesten Astronominnen gerade in der Geschichte und es gab ja auch das Herschel-Teleskop, das dann nach den beiden benannt wurde, den beiden Geschwistern. Sie hat dabei vor allem Kometen entdeckt und Sternkataloge erstellt. Sternkataloge sind insofern wichtig, als dass man, wenn man jetzt zum Beispiel Planeten sich angucken möchte, diese ja irgendwie ihren Ort beschreiben muss und um den Ort beschreiben zu können, guckt man, welche bekannten Sterne sind dort in der Nähe, um dann daraus abschätzen zu können, ja, wo sind die denn am Himmel. Weil so ein Sternenhimmel dreht sich über die Nacht und man kann jetzt nicht sagen, dass man im 18. Jahrhundert schon besonders sinnvolle Uhren hatte, da war der Sternenhimmel noch mit das genaueste Messinstrument und relativ zu diesen Sternen, die man in den Katalogen aufgezeichnet hat, musste man dann eben die anderen Himmelsobjekte beschreiben. Dann wurde ein weiterer Planet entdeckt im Jahr 1801 und dieser Planet hieß damals Ceres oder heißt heute immer noch Ceres. Nach heutiger Definition ist das längst kein Planet mehr, sondern ein Zwergplanet und das hat ungefähr 50 Jahre gehalten, dass Ceres als Planet galt. Vielleicht erinnert ihr euch auch noch an ein anderes Objekt am Himmel, das ein ähnliches Schicksal erlitten hat?
Janine: Pluto!
Helena: Also das ist so gesehen nicht ungewöhnlich, dass man irgendwann Dinge umdefiniert hat, aber bei der Entdeckung von Ceres hat man diesen einige Monate lang beobachtet, beziehungsweise ungefähr 40 Tage lang hat man ihn beobachtet und dann hat man ihn plötzlich nicht mehr gesehen am Himmel. Und dann wurde die Bahn des Zwergplaneten, die musste man irgendwie berechnen und das hat ein gewisser Gauß gemacht, der dafür dann erstmals die Methode der kleinsten Quadrate angewendet hat. Die Methode der kleinsten Quadrate verwendet man, wenn man einen Haufen Messdaten hat, aber eigentlich nur eine Linie anpassen möchte an diese Messdaten, also zum Beispiel irgendwie wenn man eine Kurvensteigung bestimmen möchte oder in diesem Fall eben eine Planetenbahn, dann verwendet man diese Methode der kleinsten Quadrate auch heute noch, um diese zu berechnen. Und damit konnte Gauß eben die Bahn von Ceres soweit berechnen, dass man ihn wiederfinden konnte. Das Ganze hat er dann allerdings erst einige Jahre später publiziert, im Jahr 1809. So einfach, weil Gauß war jetzt nicht bekannt dafür, besonders viel publiziert zu haben, sondern immer nur zu sagen, wenn irgendwelche jungen Mathematiker zu ihm kamen "Ja, ich weiß." Ja, gut. Dann gab es allerdings, weil man ja verschiedene Planetenbahnen immer genauer sich angeguckt hat, Unstimmigkeiten bei der Bahn von Uranus, den man ja mittlerweile seit einigen Jahrzehnten kannte. Daraus folgerten dann einige Leute, ob es sein kann, dass die Bahn von Uranus durch einen weiteren Planeten gestört worden sein könnte. Und am Ende waren die Berechnungen von einem Herrn Le Verriere ausschlaggebend, der dann aber auch noch einen Astronomen finden musste, der dann auch auf Basis seiner Berechnung Beobachtung durchführen wollte. Und den hat er dann in einem Johann Galle gefunden, der dann auch wirklich an die richtigen Stellen zur richtigen Zeit hingeguckt hat und dann den Neptun gefunden hat. Und es gab auch noch andere Astronomen, die durchaus schon aufgrund von Berechnungen anderer Leute versucht haben, den Neptun sich anzugucken und ihn durchaus auch schon beobachtet hatten. Aber dann dachten ja, das ist ja nur irgendein Stern. Ich glaube ja gar nicht daran, dass man da irgendwie so etwas ausrechnen kann, wie "da könnte ja ein Planet sein." Deswegen gilt dann eben der Johann Galle als der tatsächliche Beobachter, obwohl andere Neptun vorher beobachtet haben, weil er der erste war, der es auch ernst genommen hat als das, was er war, nämlich ein Planet, der sich bewegt.
Janine: Also gewissermaßen der erste richtige Nachweis dann.
Helena: Genau, der erste richtige Nachweis. Und wenn man dann erstmal die Planetenbahnen mit ein paar Beobachtungen bestätigt hat, dann war es natürlich für alle anderen auch einfach, den dann wieder zu finden. Ja, dann gab es noch andere Himmelskörper, wie zum Beispiel den Pluto, der auch auf eine ähnliche Weise entdeckt wurde wie der Neptun, weil man eben immer besser rechnen konnte, wie die Planetenbahnen aufgebaut waren und dann feststellt, das passt nicht ganz zusammen und dann hat man hingeguckt und dann hat man da so einen Himmelskörper gefunden. Also zusammenfassend kann man sagen, in unserem Sonnensystem gibt es eine Mischung aus zufälligen Entdeckungen und welchen, die auf Berechnungen basieren. Also Uranus wurde durch Zufälle entdeckt und Ceres zum Beispiel auch, aber jetzt Neptun und Pluto nicht. Die wurden berechnet. Und es gibt ja jetzt auch immer mal wieder Berichte über einen möglichen Planet 9 oder so, weil man auf Basis der aktuellen Beobachtungen der Planetenbahnen ja immer noch feststellen kann, ja irgendwo könnte es ja nochmal was geben. Damit es wirklich als Planet gelten würde, müsste es auch entsprechend groß sein. Die letzten Versuche, einen möglichen weiteren Planeten zu berechnen, hatten allerdings einige Fehler insofern, als dass man sich nur einen Teil von Kometen angeguckt hatte, der nicht gleichmäßig genug verteilt war, sodass man einfach einen systematischen Fehler in der Berechnung hatte. Das heißt aber nicht, dass das nicht funktionieren kann, sondern die Vergangenheit hat gezeigt, das funktioniert eigentlich sehr gut. Es ist die Frage, ob es nochmal passiert. Dazu müsste es einen passenden Himmelskörper auch geben.
Janine: Das stimmt.
Wie begann die Entdeckung der Exoplaneten? (00:13:01)
Janine: Ja, das ist, was wir zu unserem Sonnensystem bisher sagen können, aber es gibt ja nicht nur hier Planeten, also hier, ja, in diesem Sonnensystem, es ist ein sehr weit gefasstes Hier, sondern auch andere Systeme, in denen Planeten vorkommen könnten, dachten sich die Menschen eh schon. Und ja, wir wissen jetzt natürlich, es gibt außerhalb unseres Sonnensystems Planeten und die werden Exoplaneten genannt oder auch extrasolare Planeten, ja, einfach weil sie außerhalb unseres eigenen Sonnensystems liegen. Das ist so der Blick der Menschen, die die Sachen kategorisieren.
Helena: Ja, ich finde es ein bisschen verwirrend, dass man andere Planeten von woanders dann Exoplaneten nennen muss und Planeten nur, die im eigenen Sonnensystem sind. Klar ist das ein bisschen einfacher, dann begrifflich das zu unterscheiden, aber gleichzeitig zeichnet unsere Planeten ja überhaupt nichts aus in dem Sinne, die sie von anderen Planeten unterscheiden. Also deswegen finde ich den Exoplanetenbegriff jetzt nicht besonders hilfreich.
Janine: Ja, aber so heißen sie, beziehungsweise ja, manchmal werden sie dann auch in manchen Artikeln zunächst Exoplaneten genannt, aber im Laufe der Artikel auch häufiger mal Planeten.
Helena: Ja.
Janine: Also es ist nicht ganz so trennscharf.
Helena: Ja, klar, das eine ist die Definition, …
Janine: Ja.
Helena: … die sich einige Astronomen mal gegeben haben und das andere ist das, wie man es verwendet, was ja auch eigentlich mehr Sinn ergibt. Sind halt Planeten, nur halt woanders.
Janine: Ja. Auf der Seite der ESA, der European Space Agency, wird angegeben, dass inzwischen über 5000 Exoplaneten entdeckt wurden und dass darunter auch sehr viele verschiedene Arten von Planeten zu finden sind, wie wir sie uns vorstellen können und auch aus unserem eigenen Sonnensystem kennen. Es gibt extrem massereiche Planeten, Planeten, die eine sehr enge Umlaufbahn um ihren Stern haben, welche, die sehr felsig sind, eisig sind, Gasriesen wie Jupiter sind auch nicht unbedingt selten und darunter aber auch einige, die eventuell sogar ein stabiles Wasservorkommen haben und in der habitablen Zone um ihren Stern kreisen, also wo die Bedingungen prinzipiell so aussehen, dass sie aufgrund des Abstandes zu ihrem Stern eben Umweltbedingungen haben, wo theoretisch flüssiges Wasservorkommen vorkommen könnte. Und auch so ein paar andere Sachen eventuell aufgrund des Abstands eben zu ihrem Stern, wie dass man nicht von der kosmischen Strahlung komplett weggebrutzelt wird aufgrund des Abstandes.
Helena: Ja.
Janine: Und ja, solche Beobachtungen werfen natürlich auch immer wieder die Frage auf, könnte auf solchen Planeten Leben existieren und das ist auch eines der Forschungsinteressen, das die ESA auf ihrer Seite angibt, denn es geht ihnen bei diesen Forschungen auch darum, besser zu verstehen, wo und unter welchen Bedingungen Leben im Universum existieren könnte und zugleich eben auch Hinweise darauf zu erhalten, wie unser eigenes Sonnensystem entstanden ist und wie sich die Erde gebildet hat. Das ist also quasi der Hintergrund der Suche nach weiteren Planeten im Universum. Ja, und wie hat die Exoplanetenentdeckung begonnen? 1984 wurde ein erstes Bild aufgenommen, und zwar konnte mit einem Teleskop eine Staubscheibe fotografiert werden, und Staubscheiben sind, ja, Ansammlungen aus Staub in einer bestimmten Form und sind dafür bekannt, dass sich in ihnen möglicherweise Planeten bilden könnten. Tatsächlich entdeckt werden konnte dann später auch ein Exoplanet, aber erst im Jahr 2008, also locker 24 Jahre später, und vorher mussten dafür noch ein paar andere Meilensteine passieren, zum Beispiel die ersten entdeckten Exoplaneten überhaupt, die 1992 gefunden werden konnten. Sie umkreisen zusammen einen Pulsar, der als Lich benannt wurde, und ansonsten aber die wunderschöne, wiedererkennbare Bezeichnung PSR B1257+12 Trug. Ja, die beiden Astronomen Aleksander Wolszczan und Dale Frail haben 1992 veröffentlicht, was sie gefunden haben, und zwar eben diese beiden Planeten. Inzwischen oder etwas später konnte auch noch ein dritter Planet gefunden werden, und die haben übrigens auch alle Namen bekommen, die sich an das Thema des Namens von diesem Pulsar anschließen. Der Pulsar hieß ja Lich, was so was wie Leiche, untot in die Richtung bedeuten kann. Und ja, die drei Planeten, die dort herumkreisen, heißen Draugr, Poltergeist und Phobetor. Also mindestens die ersten beiden sind natürlich auch in dieser Assoziation untot und Geist zu verorten. Fand ich ganz interessant.
Helena: Ja.
Janine: Vielleicht deswegen, weil da tatsächlich kein Leben möglich ist. Das ist völlig ausgeschlossen, weil der Pulsar eben eine Strahlung absonnen hat, die es nicht möglich macht, sich da aufzuhalten.
Helena: Ja, und Pulsar quasi mal ein Stern gewesen sein könnte, mit Planeten, die potenziell mal gelebt haben könnten, jetzt aber definitiv nicht mehr das ermöglichen.
Janine: Ja.
Helena: Also wenn, dann gibt es da jetzt nur noch Vampire und Poltergeiste oder so.
Janine: Das waren so die ersten entdeckten und nachgewiesenen Exoplaneten. Und 1995 konnte der erste Exoplanet entdeckt werden, der tatsächlich einen Stern umkreist, der unserer Sonne relativ ähnlich ist. Und zwar handelt es sich dabei um den Planeten 51 Pegasi b, der von Michel Mayor und Didier Queloz entdeckt wurde, wofür sie 2019 dann, also auch um einiges später, den Nobelpreis in Physik erhalten haben, weil ihre Entdeckung die Astronomie revolutioniert hat, indem sie eben ein völlig neues Feld eröffnet haben und neue Instrumente zur Entdeckung und Charakterisierung von Exoplaneten eingesetzt haben in ihrer Forschung. Die beiden haben nämlich maßgeblich die Entwicklung der, wie es im Nobelpreistext heißt, revolutionären Radialgeschwindigkeitsmethode vorangetrieben und die ist auch heute noch für die Suche nach Exoplaneten in Gebrauch. Und das ist auch die erste, die wir uns angesehen haben.
Was ist die Radialgeschwindigkeitsmethode? (00:19:51)
Janine: Wie funktioniert denn die Methode mit der Radialgeschwindigkeit?
Helena: Ja, also bei der Radialgeschwindigkeitsmethode geht es darum, dass man so einen Planeten hat und wenn jetzt der Planet, also der Planet kreist natürlich um den Stern, das ist ja, denke ich, allgemein bekannt. Was man vielleicht da nicht unbedingt genau so auf dem Schirm hat, ist, dass letztlich auch der Stern um den gemeinsamen Schwerpunkt kreist und je schwerer zum Beispiel so ein Planet ist und je näher der am Stern dran ist, desto stärker bewegt sich eben auch der Stern selber. Ich meine, eigentlich will man ja lieber direkt Fotos machen von Planeten, aber das ist natürlich gar nicht so einfach und deswegen gehört eben die Radialgeschwindigkeitsmethode zu den indirekten Nachweismethoden für Exoplaneten. Und wenn man jetzt sagt, man hat darüber einen Planeten entdeckt, dann muss der bestimmte Bedingungen erfüllen und zwar muss man den einen Mal beobachtet haben, dass da etwas sein kann und dann ist das ein Kandidat. Dann muss man diesen Planet noch ein zweites Mal beobachten, um die Umlaufdauer zu ermitteln und dann muss man mit einer dritten Beobachtung die Umlaufdauer bestätigen. Und bei der Radialgeschwindigkeitsmethode geht das jetzt so, dass man sich das Licht von dem Stern anguckt, aber dabei sich vor allen Dingen die Farbe des Sterns anguckt. Also in welcher Farbe strahlt dieser Stern besonders hell? Und dann gibt es einen Effekt, der nennt sich der Dopplereffekt. Den kennt man vielleicht, das bekannteste Beispiel vom Dopplereffekt ist der Krankenwagen, der sich leicht anders anhört, wenn er auf einen zufährt, als wenn er von einem wegfährt. Also wenn etwas auf einen sich zubewegt, dann ist die Frequenz höher, also der Ton ist dann höher und wenn er wegfährt, dann ist eben die Frequenz tiefer, also der Ton ist tiefer. Und wenn das auf Licht überträgt, dann heißt das, wenn sich ein Stern auf uns zubewegt, dann ist dessen Licht leicht nach blau verschoben. Wenn sich der Stern von uns wegbewegt, dann ist das Licht leicht ins Rote verschoben. Also das heißt nicht, dass der Stern rot ist, sondern nur, wenn man sich jetzt das Maximum anguckt, also die Farbe, bei der das meiste Licht vom Stern kommt, dann verschiebt sich dieses Maximum eben ein bisschen Richtung rot bzw. Richtung blau. Und ja, wenn man sich Sterne anguckt, dann hat man schon sehr lange sich eben sehr genau die Farben angeguckt über Spektroskopie, weil man daraus ja auch feststellen kann, was findet denn da überhaupt statt für Chemie oder irgendwie Kernfusion, welche Elemente gibt es da. Das heißt, es gab schon immer eine sehr große Motivation darin, sich die Farben anzugucken von so Sternen. Und wenn man das eben auf eine Weise macht, dass man auch solche periodischen Veränderungen angucken kann, also das heißt, wenn da ein Planet umkreist, dann muss das ja sich immer wiederholen, wie ich gerade gesagt habe. Der kann ja nicht einmal auf uns zukommen und dann wieder von uns weggehen und das war's, sondern das passiert ja immer wieder in genau der Häufigkeit, wie lange dieser Planet braucht, um um den Stern zu kreisen. Deswegen musste man sich da nicht einfach nur mal angucken, ob ein Stern irgendwie ein bisschen zu zwei verschiedenen Zeitpunkten verschoben ist, sondern man muss den auch oft genug angucken, dass man dann nachweisen kann, ja, das ist tatsächlich periodisch und da ist so und so viel wahrscheinlich irgendwie ein Planet. Was man damit außer Planeten auch entdecken kann, sind so Doppelsternsysteme. Es gibt sehr viele Sterne, die gar nicht alleine sind, sondern mindestens die Hälfte aller Punkte, die man am Himmel sieht, sind in Wirklichkeit zwei Sterne, die sich auch umkreisen. Und im Grunde ist dann der Unterschied zwischen einem Jupiter-artigen Planeten und einfach einem zweiten Stern nur die Größe, also wie viel Gewicht das eingesammelt hat. Und wenn es dann gar nicht anfangen kann, eine Kernfusion aufzubauen, dann bleibt es halt Planet und wenn es mehr Wasserstoff an sich binden kann, dann kann es eben zu einem Stern zünden. Und mit der Radialgeschwindigkeitsmethode hat man eben vor allen Dingen erstmal solche Jupiter-artigen Planeten gefunden, die man dann auch oft als "Hot Jupiter" bezeichnet, weil die besonders nah an ihren Sternen dran sind. Einfach weil das sind genau die, wo man mit der Radialgeschwindigkeitsmethode am empfindlichsten ist. Man sieht solche Planeten einfach am stärksten, weil das Signal am größten ist. Das ist mittlerweile nicht darauf beschränkt, aber das ist ein wichtiger Punkt. Dann muss man auch bedenken, das funktioniert ja auch nur, wenn der Planet in der Richtung an dem Stern vorbeifliegt, dass der Planet auch wirklich auf uns zukommt und von uns wegfliegt. Das heißt nicht unbedingt, dass der auch vor dem Stern vorbeiziehen muss, das kann durchaus auch noch ein bisschen abgewinkelt sein bei dieser Methode. Aber wenn man jetzt auf ein Sternensystem drauf gucken würde, wo man quasi oben und unten und links und rechts die Bahn des Planeten hätte, dann würde man mit dieser Methode nichts messen können, weil dann ja der Dopplereffekt nicht auftritt, weil der Stern ja nie auf uns zukommt oder sich wegbewegt. Das heißt, mit dieser Methode hat man bestimmte Einschränkungen, aber es gibt trotzdem sehr viele Planeten, die auf diese Weise entdeckt werden konnten. Und was man mit der Radialgeschwindigkeitsmethode dann eben auch machen kann, ist sagen, was ist denn so das Mindestgewicht, was ein Planet haben müsste, um überhaupt diese Bewegung des Sterns zu bekommen. Und dass man nur die Untergrenze der Masse von den Planeten ermitteln kann, liegt eben daran, dass man ja nicht weiß, wie stark ist die Planetenbahn gegenüber uns geneigt. Das heißt, wenn die stark geneigt ist, dann würde der Effekt halt kleiner werden. Also im Grunde kann man sagen, wenn jetzt der Planet, den wir über die Radialgeschwindigkeitsmethode beobachten, aus unserer Sicht auch direkt auf uns zukommt und somit auch direkt vor dem Stern vorbeiziehen würde, dann ist der Effekt bei der angegebenen Masse des Sternes am größtmöglichen. Das heißt, das ist die Untergrenze, weil wenn der gleiche Effekt beobachtet wird, ohne dass der Planet sich vor den Sternen bewegt, sondern leicht gekippt ist, dann muss der Planet eben schwerer sein. Und je stärker die Planetenbahn gegenüber unserer Blickrichtung gekippt ist, desto noch schwerer muss der Planet sein. Und deswegen kann man eben nur die Untergrenze der Masse des Planeten hiermit bestimmen. Wenn man jetzt mit einer anderen Methode auch noch diesen Planeten beobachten könnte, ließe sich das natürlich schon wieder deutlich weiter eingrenzen. Also es gibt mehr als diese Methode.
Wie wurde das System TRAPPIST-1 entdeckt? (00:26:56)
Janine: Genau. Nachdem 1995 der erste Exoplanet, also ja, mittels dieser Radialgeschwindigkeitsmethode nachgewiesen werden konnte, wurden auch noch andere Methoden weiterverfolgt, um Planetenentdeckungen eben leichter zu machen oder besser bestimmen zu können. Und so kam es, dass 1999 der erste Planet mit der Transitmethode nachgewiesen wurde. Das ist ein Himmelsobjekt, das die wunderschöne Bezeichnung HD 209458b hat. Und das war nebenbei auch der erste Exoplanet, dessen Atmosphäre etwas näher untersucht werden konnte, und zwar mit Hilfe des Hubble-Weltraumteleskops. Der Planet konnte beobachtet werden, wie er ja so in der Nähe seines Zentralsterns, um den er kreist, einen ähnlichen Schweif gebildet hat, wie das bei Kometen der Fall ist. Und ja, der wurde dann wahrscheinlich mittels Spektroskopie, wenn ich Helena jetzt richtig zugehört habe, dann auch analysiert. Und Kohlenstoff, Sauerstoff, Kohlendioxid und Methan konnten dort nachgewiesen werden.
Helena: Ja, genau.
Janine: Und auch die Transitmethode hat sich im Laufe der Zeit dann als gute Methode etabliert, denn, oder was heißt als gute Methode, sogar eine der aktuell erfolgreichsten Methoden, denn laut einer Liste sind 70 Prozent aller Exoplaneten mit der Transitmethode entdeckt worden. Und zwar unter anderem Planeten, die um den Stern TRAPPIST-1 kreisen. Ja, an dieser Stelle ein kleiner faszinierter Einschub von mir. Es gibt übrigens ein Reisebüro für Exoplaneten bei der NASA auf der Homepage. Und da findet sich tatsächlich auch ein Planet aus dem TRAPPIST-1-System, nämlich TRAPPIST-1d. Und man kann da mittels dieses Reisebüros sich den Planeten mal genauer anschauen. Der liegt nämlich tatsächlich auch innerhalb einer potenziellen habitablen Zone. Und man kann sich da so ein bisschen Eindruck verschaffen, wie dieser Planet aussehen könnte. Es ist ein sehr felsiger Planet und es gibt auch ein schönes Ausmalbild dazu. Also, mehr Ausmalbilder, danke NASA. Ja, aber auch ohne diese Nebenbemerkungen zum Reisebüro und dem Ausmalbild ist das System TRAPPIST-1 ziemlich interessant. Erst mal zu dem Grund, warum es so benannt ist. TRAPPIST-1 ist ein Stern, der auch erst 1999 entdeckt wurde und der Name stammt daher, dass das Teleskop TRAPPIST dafür benutzt wurde. Und das steht für Transiting Planets and Planetesimals Small Telescope. Also ein Teleskop, das tatsächlich für den Zweck gedacht ist, vorbeiziehende Planeten in Transitionen befindliche Planeten zu beobachten. Und im Jahr 2016 wurde bekannt, dass um diesen Stern, der dann TRAPPIST-1 genannt wurde, drei Planeten entdeckt wurden und zwar auch mittels dieser Transitmethode nachgewiesen. Und später hat sich noch herausgestellt, also es hat noch ein Jahr weiterer Forschung bedurft, um herauszufinden, dass einer dieser drei Planeten tatsächlich mehrere verschiedene Planeten war. Insgesamt sind es tatsächlich sieben Planeten, die es in diesem System gibt und sie sind alle vergleichbar groß mit der Erde, mehr oder weniger, und drei von ihnen liegen in der habitablen Zone um den Stern. Das ist schon ganz ordentlich. Ja, und das macht diese Entdeckung natürlich für Menschen besonders interessant. Und er ist ja auch nur 40 Lichtjahre entfernt, also kann man ganz gut hingucken. Und deswegen passiert da ganz viel Forschung. Aber um diese ganze Forschung überhaupt machen zu können, müssen wir ja erst mal wissen, dass diese Planeten da sind. Und ja, und deswegen jetzt lange Vorrede. Das ging über die Transitmethode. Wie funktioniert denn die Transitmethode ganz genau?
Was ist die Transitmethode? (00:30:49)
Helena: Ja, die Transitmethode ist eigentlich leichter nachvollziehbar als die Radialgeschwindigkeitsmethode, wie ich finde. Weil letztlich ist das, was man da beobachten will, das Gleiche, was man beobachtet, wenn man sich eine Sonnenfinsternis anguckt. Das Objekt, also der Planet, dunkelt den Stern einfach ab, wenn wir genau drauf gucken und der Planet vor uns dann vor dem Stern vorbeizieht. Das kann man jetzt nicht nur dafür benutzen, um zum Beispiel den Mond zu sehen bei einer Sonnenfinsternis, sondern auch in unserem Sonnensystem können sowohl Merkur als auch Venus vor der Sonne vorbeiziehen. Und ich habe auch irgendwann mal eine solche Beobachtung gemacht, wo man dann sich ein Teleskop genommen hat, durch das man nicht durchgeguckt hat, sondern das man nur benutzt hat, um die Sonne auf eine große Leinwand zu projizieren. Und dann gab es da einfach einen kleinen schwarzen Fleck, der vor der Sonne langgewandert war, und das war Merkur. Und das Ganze lässt sich eben auch bei anderen Planeten machen, über diese Transitmethode. Hier ist dann im Gegensatz zu der Radialgeschwindigkeitsmethode allerdings wirklich einzuschränken, dass das ausschließlich bei Planeten möglich ist, die wirklich aus unserer Perspektive vor dem Stern vorbeiziehen. Jedenfalls geht es bei der Transitmethode einfach darum, man guckt sich einen Stern an und der wird dann plötzlich dunkler für eine gewisse Zeit und dann wieder heller. Und die gesamte Zeit, die dieser Planet vor diesem Stern ist, aus unserer Sicht, ist es stabil dunkler. Und besonders interessant ist dann natürlich die Phase zwischen "der Planet ist vor dem Stern und der ist nicht vor dem Stern", nämlich da, wo er vor den Sternen davor zieht. Wenn man da nämlich lange genug hinguckt und dann den Helligkeitsabfall sieht, also wie lange dauert es, bis der auf seine endgültige Verdunklung kommt, daraus kann man schließen, wie groß dieses Objekt ist, relativ zum Abstand. Und aus der Zeit, wie lange dann der Stern verdunkelt ist durch diesen Planeten, kann man darauf schließen, wie weit ist dieses Objekt von dem Stern weg. Und das sind natürlich sehr relevante Informationen, weil man möchte ja auch wissen, wie groß sind diese ganzen Planeten. Und das kann man eben, wenn man den Abstand kennt und weiß, wie lange es dauert, um den Stern zu verdunkeln, kann man eben ziemlich gut die Größe berechnen. Gut, aber wie macht man das jetzt mit dieser Messung eigentlich? Man braucht natürlich irgendwie ein Teleskop. Und dann muss man mit diesem Teleskop sich halt auf ein paar Sterne fokussieren. Und dann muss man das Ganze natürlich aufnehmen. Das macht man heutzutage im Wesentlichen mit Digitalkameras. Also die gesamte Transitmethode hat man, glaube ich, ausschließlich mit digitalen Aufnahmeverfahren benutzt. Und dann kann man sich halt, wie bei einem Foto, wo man ganz doll reinzoomt, ist dann so ein Stern verschmiert auf mehrere Pixel. Das heißt, man muss dann im nächsten Schritt sich die Helligkeit des Sterns angucken. Und das lässt sich ja durchaus darüber bestimmen, wie hell jetzt diese Pixel sind. Allerdings ist die Helligkeit ja auf mehrere Pixel verteilt. Das heißt, man muss die irgendwie zusammenrechnen. Wenn man das zusammengerechnet hat, dann plottet man sich diese Helligkeitskurve. Allerdings gibt es verschiedene systematische Verschiebungen, die diese Helligkeitskurve auch ohne Planeten irgendwie aus Sicht des Teleskops eben anders wirken lassen. Und das muss man dann eben rausrechnen, zum Beispiel, indem man einfach eine Sinuskurve von dieser Helligkeit abzieht, die dadurch zum Beispiel zustande kommen kann, dass einfach nur das Teleskop leicht vibriert. Oder auch ein bisschen langsam vibriert zum Beispiel. Ja, im nächsten Schritt normalisiert man den Wert dann noch. Normalisieren heißt, dass der normale Durchschnitt der Helligkeit einfach auf 1 gesetzt wird. Und dann kann man halt Prozentrechnung machen. Weil dann ist es nicht mehr relevant, wie hell ist der im Vergleich zu anderen Sternen, sondern nur noch, wie hell ist der im Vergleich zu sich selber, zu verschiedenen Zeitpunkten. Und ein Planet von Trappist-1 zum Beispiel kann jetzt eine Helligkeitsschwankung von 1% verursachen. Also man muss genau genug die Helligkeit messen können, um eine Änderung von 1% feststellen zu können. Und das kann man zum Glück seit einiger Zeit. Ja, wenn man jetzt solche Daten sich selber angucken kann, oder die Software benutzt dann eben auch Astronomen, dann kann man sich ein Python-Paket angucken, das sich lightkurve nennt. Ein bisschen lustig, also Lichtkurve auf der einen Seite oder Light-Curve, aber es ist halt Kurve, ist halt auf Deutsch geschrieben und Light halt auf Englisch. Und mit diesem Python-Paket kann man eben auch die Messdaten der Satellitenmissionen TESS und Kepler herunterladen. Und da kann man sich die eben selber analysieren. Und auf der Webseite sieht man eben auch eine Animation davon, wie sehen die verschiedenen Messwerte aus, wie sieht das aus, wie sind die Pixel verschmiert von einem Stern, wie sieht das Ganze dann aus, wenn man das Ganze eben, also diese Lichtkurve plottet, dann sieht man eben auch, dass da so ein langfristiger Trend drin ist, den man immer rausrechnen muss. Wenn man das dann gemacht hat und die richtigen Zeitpunkte ausgewählt hat, dann sieht man eben, dass es zwischendurch dunkler wird. Rein theoretisch kann man eben dieses Python-Paket auch für eigene Messungen mit einem Teleskop verwenden. Also es ist nicht nur möglich, eben diese Transit-Methode durch Satellitenmissionen anzuwenden, sondern im Prinzip geht das eben auch mit Teleskopen, die man sich selber in den Garten stellen kann. Die sind natürlich nicht billig, weil die müssen in der Lage sein, einen Stern automatisch zu verfolgen, damit man auch wirklich Messungen durchführen kann. Und dann hat man, wenn man von der Erde aus Sterne beobachtet, ja immer noch das Problem, dass Sterne funkeln. Also Sterne funkeln, weil die Atmosphäre ja unterschiedlich warm ist an unterschiedlichen Orten und sich diese Temperatur eben auch verändert. Und dadurch ändert sich eben der Brechungsindex der Luft und das führt dazu, dass eben die Sterne so aussehen, als würden die sich ganz leicht bewegen, wenn man sie sich am Himmel anguckt. Das Funkeln der Sterne. Das ist dann eben auch ein Effekt, der auch ein bisschen die Helligkeit beeinflusst, wenn man es von Boden aus misst, was dann wiederum eben das Auswerten dieser Lichtkurven erschwert. Und deswegen hat es auch so lange gedauert, dass man sich wirklich sicher war, dass man mit der Transitmethode Planeten entdecken kann, weil es kann ja auch einfach nur dieses Funkeln sein, was man da beobachtet. Und dann wirklich das Vertrauen in die Daten zu haben und zu sagen, ja, das ist jetzt so regelmäßig, dass es ein Stern sein muss, das hat natürlich gedauert. Und da hat es dann eben geholfen, dass man durch die Radialgeschwindigkeitsmethode definitiv nachgewiesen hat, dass es solche Planeten gibt. Dann war es eben auch einfacher, das eben zum Beispiel mit dem TRAPPIST-Teleskop eben nach dieser Transitmethode zu suchen, weil man muss ja lange genug sich diese Sterne angucken, um mögliche Exoplaneten finden zu können.
Janine: Ja, und lange genug heißt auch hier wahrscheinlich, dass der Umlauf der Planeten eben mehrfach beobachtet werden muss, wahrscheinlich genauso wie bei der Radialgeschwindigkeit.
Helena: Genau. Das heißt, man muss die auch im richtigen Abstand zweimal beobachten, um überhaupt erstmal einen möglichen Dauer eines Umlaufes berechnen zu können. Dann ist es ja leicht, das dritte Mal hinzugucken. Das kann man dann ja auch sehr bewusst machen und macht man dann eben auch, um nachzuweisen, dass da wirklich ein Exoplanet ist. Aber erstmal zwei von diesen Bedeckungen zu treffen, ist ja schwierig und das macht man jetzt halt seit vielleicht 25 Jahren oder so. Das heißt, Planeten, die länger als 25 Jahre dauern, um ihren Stern zu beobachten, kann man noch gar nicht nachgewiesen haben, weil man noch nicht diese drei Beobachtungen schaffen konnte. Das muss man auch bedenken, dass das natürlich nicht funktioniert oder dass es deutlich schwerer ist, Planeten zu entdecken, die weiter weg von ihrem Stern sind. Zum einen müssen die ja noch präziser auf unserer Sichtlinie sein und zum anderen brauchen die einfach viel, viel länger. Also die Umlaufzeiten von der Erde ist ein Jahr, von Mars ist etwas über einem Jahr, aber jetzt von Jupiter sind das schon elf Jahre.
Janine: Da wären noch keine drei Beobachtungen drin gewesen.
Helena: Doch, man hätte drei schaffen können, wenn man direkt am Anfang einmal unseren Jupiter beobachtet hätte, quasi, wenn man nicht von hier aus geguckt hätte, sondern von woanders aus, dann hätte man genau drei schaffen können, weil man braucht ja dann für drei Beobachtungen ungefähr 22 Jahre.
Janine: Ach stimmt, ja.
Helena: Aber alles, was weiter weg ist, wäre schon schwierig. Das muss man halt bedenken.
Janine: Das ist übrigens auch ein Grund, warum TRAPPIST-1 so beliebt ist bei den Forschenden, weil dort die Planeten alle relativ kurze Umlaufzeiten haben und mit relativ kurz ist zum Beispiel gemeint 21 Tage oder weniger.
Helena: Ja, das…
Janine: Gibt da auch ein super Video, auch auf YouTube, das haben wir auch in den Shownotes verlinkt, dass das einmal zeigt, am Beispiel von TRAPPIST-1, wie auch die Plots aussehen zu den Messungen, die vorgenommen wurden und wie in diesen Plots dann schließlich nach und nach alle Planeten entdeckt werden konnten.
Helena: Ja.
Welche weiteren Methoden gibt es? (00:40:05)
Janine: Okay, ja. Das waren jetzt die Radialgeschwindigkeitsmethode am Anfang und jetzt die Transitmethode. Und wir haben ja auch schon gehört, beziehungsweise aus Helenas Erläuterungen konnte ja auch schon rausgehört werden, dass es zum Beispiel relativ schwer sein kann, wenn jetzt bei der Transitmethode zum Beispiel die Helligkeitsschwankung nur ein Prozent ausmacht, die durch den Exoplaneten verursacht wird, der um den Stern kreist. Das ist ziemlich minimal und dafür müssen natürlich auch die Instrumente gut genug sein. Und auch bei der Radialgeschwindigkeitsmethode wissen wir schon, dass inzwischen jetzt, ja, 1995 die erste Entdeckung damit, also 29 Jahre später, wissen wir, dass mit der Radialgeschwindigkeitsmethode Planeten entdeckt werden können, die vor einigen Jahren noch gar nicht sichtbar geworden wären, weil natürlich die Technik sich weiterentwickelt, die Instrumente sich verfeinern und damit auch immer kleinere oder unscheinbarere Objekte mit ihren verschiedenen Besonderheiten entdeckt werden können. Und die beiden Methoden, die wir jetzt hatten, sind natürlich auch nicht die einzigen Methoden geblieben. Es gibt auch die Möglichkeit tatsächlich, also 1984 hat sich das ja schon so ein bisschen angedeutet mit dieser Fotografie oder dieser bildlichen Darstellung der Staubscheibe, dass es auch möglich sein kann, Exoplaneten, ja, zu fotografieren, sie bildlich festzuhalten. Das konnte 2004 das erste Mal gemacht werden und das ist der Planet 2M1207b, der eine fünffache Masse des Jupiters hat und um einen braunen Zwerg kreist und zwar in einem ziemlich großen Abstand, nämlich der Abstand zwischen diesem Planeten und seinem Zentralstern oder der Stern, um den er kreist, ist etwa 55 Mal größer als die Distanz zwischen Erde und Sonne, also eine sehr lange Umlaufzeit. Und das waren an sich aber tatsächlich gute Bedingungen, um ihn direkt auf ein Bild bringen zu können, so steht es beschrieben. Und seitdem konnten aber auch noch andere Planeten auf diese Art festgehalten werden, unter anderem durch das Hubble-Weltraumteleskop und ja, wahrscheinlich wird auch das James-Webb-Weltraumteleskop da noch Sachen nachliefern. Und ja, darüber hinaus aber sind auch noch ganz andere Methoden im Einsatz und auch noch in der Entwicklung und im Ausprobieren, um Exoplaneten finden zu können, die sich vielleicht auch den bisherigen Methoden ein bisschen entziehen, weil was Helena beschrieben hat, ein Planet, der in diesem Sinne quasi senkrecht, also hoch und runter zu unserer Sichtachse seinen Stern umkreist, der wird vielleicht mit den bisherigen Methoden gar nicht so großartig auffallen. Und ja, was gibt es denn noch für Methoden, die zum Beispiel andere Planeten, die wir bisher noch nicht sehen konnten, eventuell mal zeigen können?
Helena: Ja, andere Methoden zur Planetenentdeckung. Also die wichtigsten beiden Methoden hatte ich ja schon einmal erklärt und ja, ich meine, du hast ja jetzt schon die Methoden erwähnt, dass man einfach ein Foto direkt davon macht und auch bei Pulsaren, wie man da Planeten entdeckt oder dass man da Planeten entdeckt hat, was eben daran liegt, dass ein Pulsar eben auf eine Weise pulsiert, dass wenn die Pulsierungsfrequenz sich ändert auf eine bestimmte Weise, dann ist da eben auch ein Planet drumherum. Das waren ja die ersten, die du erwähnt hattest. Aber weitere Methoden gibt es auch. Eine davon ist die sogenannte Astrometrie. Also Astrometrie bezeichnet erst einfach nur darum, dass man die Position von Sternen bestimmt und möglichst genau vermisst. Und gerade bei Sternen, die näher bei uns sind, kann man eben aufgrund der relativen Position der Sterne zu anderen Sternen, die weiter weg sind, eben deutlich sehen, dass die sich bewegen. Und das kann man dann auch nutzen, um nach Planeten zu suchen. Das ist so ein bisschen vergleichbar mit der Radialgeschwindigkeitsmethode, nur dass man eben sich nicht auf Umlaufbahnen beschränkt, die quasi vor dem Stern hergehen, sodass sich der Stern in unsere Richtung bewegt, sondern gerade diese Methode eignet sich eher für Planeten, die gerade nicht so vor uns hergehen. Wobei, eigentlich macht das keinen Unterschied, ob die jetzt vor dem Stern herfliegen oder orthogonal dazu. Aber was man hier eben machen kann, ist eben gerade auch diese Planeten finden, die wir mit den anderen Methoden gar nicht ersehen können, weil der Stern nicht bedeckt wird. Weil wir gucken dann die Bewegung des Sternes an und sehen dann, dass der relativ zu seinem Hintergrund wackelt. Wenn der auf eine bestimmte Weise wackelt, dann liegt es eben jetzt auch wie bei der Radialgeschwindigkeitsmethode wahrscheinlich daran, dass es einen Planeten gibt. Und natürlich ist das dann auch interessanter, diese Methode, wenn es eben mit der Radialgeschwindigkeitsmethode gerade nicht klappt, die zu beobachten, weil die Planeten halt ein bisschen weiter weg sind vielleicht oder eben in eine Richtung gehen, dass wir es gar nicht sehen können. Und das geht allerdings nur bei Sternen, die auch so nah sind, dass wir wirklich deren Bewegung sehen können. Deswegen hat man nur etwa 20 Sterne gefunden, bei denen man irgendwie Planeten auf diese Weise nachweisen konnte. Ja, der nächste Effekt ist der Gravitationslinseneffekt. Gravitationslinse heißt dabei, dass wenn Licht an einem Stern vorbeifliegt, dann wird das Licht abgelenkt, weil es eben auch von der Gravitation angezogen wird. Also den stärksten Gravitationslinseneffekt hat aus unserer Perspektive natürlich unsere eigene Sonne. Das ist durchaus sehr interessant. So hat man damals über die Position eines bestimmten Sternes bei einer Sonnenfinsternis vor 100 Jahren auch experimentell nachweisen können, dass die allgemeine Relativitätstheorie von Einstein sehr viel Sinn macht, weil er eine andere Ablenkung oder eine andere Position für einen bestimmten Stern damit voraussagen konnte, als man das jetzt bei der newtonschen Gravitation hätte voraussagen können, das eben so beobachtet wurde. Aber das geht halt auch bei anderen Sternen, bei denen Licht vorbeizieht. Und was man dann beobachtet, ist nicht das Licht von dem Stern selbst, sondern ein Objekt, das hinter diesem Stern ist, verändert eben die Helligkeit aufgrund des Gravitationslinseneffektes. Und wenn jetzt eben ein schwerer Planet um einen solchen Stern kreist, dann ändert das, wie stark dieser Gravitationslinseneffekt ist, was dann wiederum dazu führt, dass die Helligkeit des weiter entfernten Hintergrundobjektes sich verändert. Und das lässt sich eben auch periodisch beobachten, wenn es eben um einen Planeten handelt. Und so hat man eben mittlerweile auch einige Sterne gefunden. Was diese Methode jetzt allerdings besonders interessant macht, ist, dass es die einzige bisher bekannte Methode ist, mit der es theoretisch auch möglich ist, außerhalb der Milchstraße Planeten zu entdecken. Man kann jetzt in anderen Galaxien nicht wirklich einzelne Sterne auflösen, aber da man ja eh jetzt nicht die einzelnen Sterne beobachtet bei diesem Gravitationslinseneffekt, sondern eben gerade auch den Hintergrund, wäre es auch hier denkbar, dass man in anderen Galaxien so Planeten findet, einfach nur weil sich die Helligkeit aufgrund der Gravitationslinse verändert. Das ist jetzt allerdings noch nicht gelungen, aber ich finde, das ist ein sehr spannender Ansatz. Und dann gibt es natürlich auch die gleiche Methode, die wir schon beim Neptun hatten, dass man aufgrund von Umlaufbahnen von Planeten, die man bereits beobachtet hat, um andere Sterne herum, deren Umlaufbahnen berechnen kann und dann feststellen kann, oh, die gehen nur auf, wenn wir davon ausgehen, dass es noch einen weiteren Stern gibt. Und so kann man auch Planeten sozusagen, also man kann sie so nicht unbedingt in dem Sinne entdecken, wie ich das vorhin beschrieben habe, also nachweisen, aber es hilft bei der Entdeckung insofern, als dass man potenziell Zeitpunkte, zu denen man diesen Stern beobachten sollte, berechnen kann und dann sieht man, ob dieser Planet da ist oder nicht. Und dann kann man ihn auch nachweisen. Also es gibt so gesehen einen Unterschied zwischen Entdeckung und Nachweisen. Ja, das waren jetzt so die wesentlichen Methoden, die ich hier vorstellen wollte.
Fazit (00:48:48)
Janine: Sehr schön, dann haben wir jetzt, glaube ich, einen ganz guten Überblick darüber gewonnen, welche verschiedenen Methoden eingesetzt werden und ich würde fast sagen, wir können zum Fazit kommen.
Helena: Ja, dann kommen wir doch zum Fazit. Also mein Fazit, weil ich jetzt nach über zehn Jahren mich nochmal mit diesem Thema beschäftigt habe, ist so, ja, also es gibt deutlich mehr Methoden als die Radialgeschwindigkeitsmethode und die Transitmethode mittlerweile, die auch erfolgreich dazu geführt haben, dass man Planeten entdeckt hat wirklich. Das fand ich schon mal sehr spannend jetzt festzustellen. Und auch, dass es mit Hobbyastronomie möglich ist, so Beobachtungen wie die Transitmethode einfach nachzumessen quasi. Also wenn man jetzt weiß, TRAPPIST-1 hat dann und dann einen Transit und dann ist irgendwie Nacht und der Himmel ist sternenklar und ich hätte jetzt ein Teleskop, dann könnte ich mir das tatsächlich einfach angucken. Das fand ich doch sehr spannende Erkenntnis.
Janine: Ja, mein Lieblingsfazit zu dieser Folge ist, die NASA hat ein Reisebüro für Exoplaneten. Das hat mich wirklich über die Maße begeistert.
Helena: Dann buch mal deinen nächsten Urlaub dort.
Janine: Ja, bin dabei, bin dabei. Ja, Fazit, es gibt unterschiedliche Methoden zur Entdeckung und ja, alle haben halt im Wesentlichen mit Beobachtung und Messung zu tun. Ich habe vor allem mitgenommen, dass es ja eigentlich alle Beobachtungen oder alle Methoden fast das Gleiche machen. Mehrere beschäftigen sich mit der Intensität des Lichtes, aber aus anderen Gründen. Und das finde ich ganz spannend, dass es halt quasi für die Beobachtung unterschiedliche Herangehensweisen gibt, um eben zu wissen, bewegt sich der Stern. Also einmal ist es bei der Radialgeschwindigkeitsmethode die Farbe, die sich verändert oder eben bei der Astrometrie die Position, die sich verändert. Aber im Wesentlichen aus den gleichen Gründen, nämlich ein Planet kreist um einen Stern und der Stern wird in Bewegung versetzt. Das finde ich daran ganz spannend. Und ja, was gibt es noch zu sagen? Ich bin tatsächlich auch sehr gespannt, wie dieser Gravitationsinnenseffekt dann vielleicht später noch zu Entdeckungen führen wird. Das weiß man ja vielleicht in zehn Jahren oder so.
Helena: Ja, ich bin gespannt.
Janine: Ja, denn ja, wahrscheinlich werden auch da die Instrumente immer feiner und die Technik verbessert sich. Und bis 1992 waren Exoplaneten eine Vermutung und dann wurden sie der Reihe nach entdeckt, bis es jetzt halt tatsächlich über 5000 sind und sie werden weiter beobachtet. Es gibt übrigens noch kein Exoplaneten, auch wenn es zahlreiche gibt, die sogar in habitablen Zonen liegen, auf denen bisher Leben nachgewiesen werden konnte. Aber da ist ja auch immer noch die Frage, von welcher Art von Leben reden wir hier? Und wie würden wir das vorfinden und nachweisen können? Also da wird wahrscheinlich auch noch viel Forschung passieren, weil ja, wie eingangs gesagt, die ESA hat zumindest das auch als Forschungsinteresse, sich nach potenziellem Leben im Universum umzusehen bei der Suche nach Exoplaneten. Und ja, das ist deswegen einfach ein furchtbar spannendes Thema und ich bin gespannt, was da noch auf uns zukommt.
Nächste Folge: Normalverteilung im August (00:52:08)
Helena: Ja, und in der nächsten Folge im August reden wir dann über ein Thema, das schon häufiger irgendwie in irgendeiner Form in einer Folge erwähnt wurde, aber dem wir noch nicht so viel Aufmerksamkeit gewidmet haben. Und zwar geht es darum, was ist eigentlich diese Normalverteilung bzw. diese Gauß'sche-Glockenkurve? Ja, warum ist sie so wichtig und was hat das Ganze mit Dinosauriern zu tun?
Janine: Dinosaurier, yay!
Call to Action (00:52:37)
Janine: Ja, wenn euch diese Frage genauso brennend interessiert wie mich zum Beispiel, denn Dinosaurier sind immer ganz cool. Ich habe heute auch Dinosauriersocken an, übrigens. Ja, jedenfalls, wenn ihr das nicht verpassen wollt und auch unsere vorangegangenen Folgen nachhören möchtet, zum Beispiel die über Asteroiden und den Weltraum, dann folgt uns doch gerne auf Mastodon unter @datenleben@podcasts.social oder guckt auf unserer Webseite www.datenleben.de vorbei. Da könnt ihr uns gerne Feedback hinterlassen oder uns auch per E-Mail Kommentare oder Anregungen schicken zu unseren Folgen, Themenvorschläge. Und ja, falls euch unsere Arbeitsamtdenkweise gefällt, könnt ihr uns auch als Data Scientist buchen für Analysen und Projekte.
Helena: Ja, dann bleibt mir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal.
Janine: Tschüss!
Outro (00:53:28)
53:40
dl051: adhs – häufigkeit und diagnosen
Episode in
datenleben
ADHS – Aufmerksamkeits-Defizits-Hyperaktivitäts-Störung – ist ein Thema, das aktuell viel beachtet wird. Seien es Beiträge in den Sozialen Medien, Berichterstattungen in Zeitschriften oder Videoformaten etc. Immer wenn so ein Thema viel Aufmerksamkeit bekommt, steht die Frage im Raum: Wird das immer häufiger? Das haben wir uns näher angesehen. Außerdem haben wir uns u.a. mit der Frage beschäftigt, welchen Einfluss hier geänderte Diagnosekriterien haben. Und wir haben laut und mit Blick auf verschiedene Studien darüber nachgedacht, ob eine Diagnose auch im Erwachsenenalter noch wichtig sein könnte.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl032: wie wird autismus erforscht?
ADHS und Häufigkeit:
journals.sagepub.com, Daniel J. Safer: Is ADHD Really Increasing in Youth?
rki.de, Journal of Health Monitoring, Kristin Göbel et al.: ADHS bei Kindern und Jugendlichen in Deutschland – Querschnittergebnisse aus KiGGS Welle 2 und Trends, DOI 10.17886/RKI-GBE-2018-078 (PDF)
versorgungsatlas.de, Manas K. Akmatov et al.: Die Aufmerksamkeitsdefizit-/Hyperaktivitätsstörung bei Kindern und Jugendlichen in der ambulanten Versorgung in Deutschland. Teil 3 – Identifizierung raumzeitlicher Cluster der Diagnoseprävalenz im Zeitraum 2009 bis 2016, DOI: 10.20364/VA-18.02 (PDF)
The Journal of Child Psychlogy and Psychiatry, Martin Whiltley et al.: Annual Research Review: Attention deficit hyperactivity disorder late birthdate effect common in both high and low prescribing international jurisdictions: a systematic review
kinderaerztliche-praxis.de, Katharina Maidhof-Schmid: Immer mehr ADHS-Diagnosen bei Kindern und Erwachsenen
PubMed Central, JAMA Network Open, Guigeng Xu et al.: Twenty-Year Trends in Diagnosed Attention-Deficit/Hyperactivity Disorder Among US Children and Adolescents, 1997-2016
theguardian.com, Siân Boyle: The sudden rise of AuDHD: what is behind the rocketing rates of this life-changing diagnosis?
link.springer.com, M. Bauer et al.: Das neue DSM-5-Klassifikationssystem
PubMed Central, Missouri Medicine, Elie Abdelnour et al.: ADHD Diagnostic Trends: Increased Recognition or Overdiagnosis?
ADHS und Risiken:
PubMed Central, Missouri Medicine, Elie Abdelnour et al.: ADHD Diagnostic Trends: Increased Recognition or Overdiagnosis?
uni-augsburg.de, Pressemitteilung 67/23: ADHS als Risikofaktor für andere psychische Erkrankungen. Aktuelle Studie zeigt neue Erkenntnisse und gibt eine Empfehlung für die klinische Praxis
ADHS Deutschland e.V., Dr. Astrid Neuy-Lobwowicz: Die Begleiterkrankungen bei ADHS (assoziierte Störungen oder Komorbiditäten)
Uniklinikum Würzburg: Kardiovaskuläre Regulation bei ADHS (KoR-ADHS) (PDF)
Weitere Links zum Thema:
quarks.de: Das solltest du über ADHS wissen
https://howtoadhd.com/
Dani Donovan: adhddd.com
zentrales adhs-netz: Infoportal ADHS
zentrales-adhs-netz.de: Regionale ADHS-Netze
ADHS Deutschland e.V.
Schlagworte zur Folge
ADHS, ADS, Längsschnittstudie, Querschnittstudie, Metastudie, Neurodiversität, Neurodivergenz, Häufigkeit
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 51. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten mit euch die Welt der Daten erkunden. Es wird immer wichtiger, Daten in das große Ganze einordnen zu können. In unserem Podcast wollen wir deswegen Data Science anhand von Themen erklären, die uns alle betreffen.
Thema der Folge (00:00:37)
Janine: Und dieses Mal haben wir uns das Thema ADHS ausgesucht, was ein ziemlich umfangreiches Thema ist. Deswegen haben wir auch nur einzelne Unterpunkte herausgegriffen, nämlich zum Beispiel die Frage, warum das denn immer häufiger aufzutreten scheint, weil das so eine der Behauptungen ist, die in den Nachrichten häufiger mal rezipiert wird. Und darüber wollen wir ein bisschen sprechen und uns das mal genauer angucken, was die Daten dazu überhaupt sagen und auch darüber nachdenken, warum es zum Beispiel wichtig sein könnte, auch noch im Erwachsenenalter eine Diagnose zu bekommen. Genau, das sind so die Punkte, die wir vorhaben, also ein relativ eng gefasster Blick, aber auch das ist schon gar nicht so einfach, wie sich herausstellt, finde ich jedenfalls. Und übrigens werden wir im Folgenden auch allgemein den Begriff ADHS verwenden für die Aufmerksamkeitsdefizitshyperaktivitätsstörung, wie es insgesamt ausgesprochen heißt, um es an dieser Stelle einmal ganz gesagt zu haben. Wir kürzen es mit ADHS ab, weil Klammern leider schlecht zu hören sind, möchten an dieser Stelle aber dazu sagen, dass damit sowohl das Aufmerksamkeitsdefizit mit als auch ohne Hyperaktivität gemeint ist, sowie der kombinierte Fall von beidem. Diese Verkürzung ist immer ein bisschen ungelenk, aber in einem Audio-Medium wahrscheinlich am angenehmsten umzusetzen. Und ein anderer kleiner Disclaimer ist, wir werden wahrscheinlich keine grundsätzliche Definition von ADHS geben, das gibt's an anderen Stellen schon ganz gut nachzulesen, ihr könnt dazu einige Links auch in unseren Shownotes finden, zum Beispiel das Infoportal ADHS, das vom zentralen ADHS-Netz betrieben wird und vom Bundesministerium für Gesundheit gefördert wird. Ja, aber auch Quellen wie den YouTube-Channel "How to ADHD", der meiner Meinung nach Themen kurz und verständlich erklären kann.
Warum ist das Thema wichtig? (00:02:37)
Helena: Ja, und wir befassen uns mit dem Thema unter anderem, weil es ja viel mediale Aufmerksamkeit bekommt im Moment und gleichzeitig auch sehr viel Halbwissen und Vorurteile mit diesem Thema verknüpft werden und mir insbesondere auch bei der Recherche dieser Folge aufgefallen ist, dass in einigen Medien immer mal wieder veraltete Studien zitiert werden und dann die Erkenntnisse nicht mehr sonderlich hilfreich sind. Dann wird zwar irgendwas referenziert, aber das ist potenziell dann einfach ein bisschen alt. Und wir haben jetzt die Hoffnung, dass wir ein paar von diesen Punkten ausräumen können.
Einspieler: Was beudetet "Leben mit ADHS"? (00:03:12)
Janine: Was bedeutet Leben mit ADHS? Kannst du nicht mal stillhalten? Warum hörst du nie richtig zu? Du hast mich schon wieder versetzt. Bin ich dir nicht wichtig? Musst du mich ständig unterbrechen? Hör auf an deinen Fingern zu knibbeln. Wie sieht das hier schon wieder aus? Warum kannst du keine Ordnung halten? Nie machst du eine Sache fertig. Diese und viele andere Sätze hören Menschen mit ADS oder ADHS ständig. Und mit ständig ist gemeint, signifikant häufiger als andere Menschen, und zwar besonders als Kinder, aber auch im Erwachsenenalter. Was diese Fragen und Vorwürfe oft transportieren und bei den Betroffenen ankommt, ist so etwas wie "Streng dich doch mal an", "Halt dich mehr zurück", "Verhalte dich doch normal". Und ganz ehrlich, das kann extrem zermürbend sein, wenn das Tag ein und Tag aus gesagt wird. Sei es in der Schule, der Familie, unter Freunden, auf der Arbeit, im Studium, einfach überall. Dabei ist es ganz natürlich, dass manche Menschen eben ein bisschen anders verdrahtet sind. Die Menschlichkeit ist neurodivers. In ihrer gesamten Population kommen unterschiedliche Ausprägungen vor, wie auch bei der Körpergröße gibt es einen Durchschnittswert. Die meisten Menschen sind neurotypisch. Sie stellen die größte Gruppe innerhalb der Neurodiversität dar. Aber es gibt eben einfach Menschen, die von diesem Durchschnitt abweichen. Diese Menschen sind neurodivergent. Sie verarbeiten Reize anders, erinnern Dinge anders, haben einen Fokus auf andere Dinge, gehen mit Situationen anders um. Dazu gehören autistische Menschen, Menschen mit ADS oder ADHS, Menschen mit Tourette, Menschen mit Dyslexia und viele mehr. Zwar wird eine Neurodivergenz in der Regel mit einer Diagnose festgestellt und damit auch oft als Störung eingeordnet, aber für die meisten Betroffenen ist klar, dass sie nicht an ihrer Neurodivergenz leiden, sondern daran, dass ihnen viele Barrieren im Alltag, auf der Arbeit, in der Schule, in der Familie und unter Freunden begegnen können. Für einen Menschen mit ADHS macht es einen großen Unterschied, ob gesagt wird "Jetzt stell dich nicht so an" oder ob einfach mal gefragt wird "Was bedeutet das für dich, mit ADHS zu leben?" Antworten könnten sein: Irgendwie jeden Tag funktionieren müssen. Ich find mich voll okay. Mindestens 25 Jahre früher die Diagnose bekommen wäre unendlich hilfreich gewesen. Einen Haken hinter den Tag machen und morgen nochmal neu versuchen. Für immer gleiche Probleme ständig neue Lösungswege finden, die aktuell funktionieren. Mich den Erwartungen anzupassen, dabei aber nicht meine eigenen Bedürfnisse aus den Augen verlieren, ist schwer. Keine Kontrolle über den Schalter zu haben, worauf ich mich gerade konzentrieren kann. Erschöpft zu sein von dem Versuch, alles richtig zu machen. Meine Kreativität frei in den Lauf lassen und die Welt um mich herum vergessen. ADHS kann einfach sehr vielseitig sein. Also frag doch einfach mal die Menschen in eurem Umfeld, was bedeutet das für dich?
Wird ADHS häufiger? (00:06:05)
Helena: Eine Sache, die man ja immer wieder liest und meiner Erinnerung auch schon vor 20 Jahren immer wieder gelesen hat, war die Behauptung, dass ADHS ja immer häufiger werden würde. Und jetzt kommen natürlich dann auch noch die ganzen sozialen Medien hinzu, die immer alles so verkürzen und die Aufmerksamkeitsspanne von allen Menschen so reduzieren würden und so weiter und so fort. Weshalb wir dann jetzt erstmal mit der Frage einsteigen, wird ADHS häufiger? Dazu habe ich mir eine Studie von 2018 angeguckt, die sich mit den vergangenen Jahrzehnten beschäftigt hat. Und zwar als eine Meta-Analyse. Das heißt, die haben sich verschiedene Studien aus diesen Jahrzehnten sich angeguckt. Dabei wurde geschaut, dass es Studien gab, die mehrfach in möglichst gleichen Settings, aber mehrere, also mehr als drei Jahre, auseinander liegen. Und gefunden wurde insbesondere, dass die Diagnose ADHS über die Jahre häufiger gestellt wurde. Und zwar basierend auf den Daten von verschiedenen Querschnittstudien und Längsschnittstudien. Falls ihr euch nicht daran erinnert, Querschnittstudie heißt, man nimmt jetzt zu einem bestimmten Zeitpunkt eine zufällige Gruppe Menschen und macht Untersuchungen an diesen. Und eventuell macht man dann irgendwann nochmal eine solche Querschnittstudie und hat dann eine andere Anzahl zufällig ausgewählter Menschen. Und die Längsschnittstudie ist dahingegen, dass man zwar auch mit einer zufällig ausgewählten Anzahl Menschen auf Basis von irgendwelchen Kriterien anfängt, aber bei diesen Menschen eben nochmal untersucht. Mehrfach. So, dass man einen zeitlichen Längsschnitt hat und dann bei Individuen auch den Werdegang mitverfolgen kann. Nachteil einer Längsschnittstudie ist natürlich, die Leute werden dann im Laufe der Zeit älter, weil es müssen ja die gleichen Leute sein. Und wenn man die gleiche Altersgruppe zu verschiedenen Zeitpunkten untersuchen will, muss man das eben mit verschiedenen Querschnittstudien machen. Aber ich denke, beides zu haben ist eigentlich immer ein ganz gutes Ding. So. Innerhalb dieser Querschnitt- bzw. Längsschnittstudien, da ging es dann eher um das Thema Diagnose von ADHS. Man hat jetzt also feststellen können, ja, die Diagnose wurde häufiger gestellt. Das ist jetzt aber noch nicht unbedingt eine Aussage darüber, ob es wirklich häufiger geworden ist, weil ja es verschiedene Gründe geben kann, warum in einer bestimmten Menschengruppe die Diagnose häufiger gestellt wurde. Also in diesen Studien wurde nicht hingegangen und die Leute wurden alle einzeln im diagnostischen Prozess unterzogen, sondern die Leute wurden gefragt, ob sie schon mal eine Diagnose bekommen hätten. Das ist natürlich was anderes, als würde man jetzt einfach irgendwie einen Haufen Menschen sich aussuchen und dann alle Diagnostik machen, die man machen kann. Das wäre ein sehr langer Prozess und sehr aufwendig, wäre aber auch rein theoretisch eine denkbare Möglichkeit. Aber soweit ich weiß, wird das nicht gemacht. Ja, wenn man jetzt aber wissen will, unabhängig von der Diagnose, ob ADHS häufiger wird, dann muss man vielleicht die Diagnose auf andere Weise sich angucken. Und dazu wurden Studien sich angeschaut, in denen erstmal, ja, also es ging in diesem Fall, und bei den meisten dieser Studien ging es um Kinder, also in den 90ern wurden hauptsächlich halt Kinder diagnostiziert. Deswegen gibt es da auch einfach länger Daten, mit denen man vergleichen kann. Da hat man Daten von Lehrer*innen oder Eltern genommen, die Aussagen über die Verhaltensweisen ihrer Kinder getroffen haben, beziehungsweise die bestimmte Fragenkataloge ausgefüllt haben, die jetzt erstmal nicht unbedingt was mit ADHS zu tun haben. Und wenn man dann auf diese Fragenkataloge die ADHS-Diagnose-Kriterien von heute anlegt, dann stellt man fest, dass es nicht häufiger geworden ist, bezogen auf die letzten drei Jahrzehnte, sondern dass es nur häufiger entdeckt wurde innerhalb der genannten Studien.
Janine: Und das hat sozusagen diese Metastudie, die du dir angesehen hast, dann daraus geschlossen?
Helena: Genau. Und es gibt auch in Deutschland solche Längsschnittstudien, beziehungsweise Querschnittstudien, ich glaube, das ist tatsächlich eine kombinierte Variante, die sogenannten KIGGS-Studien. Und demnach gab es seit den 2010er-Jahren keinen Anstieg der Diagnosen mehr bei Kindern, sondern eher eine gleichmäßigere Verteilung bei den Diagnosen von Kindern auf die Geschlechter. Das ist so die Änderung, die man in Deutschland gesehen hat. Also nicht unbedingt mehr Diagnosen. Ja, und hier wird ein möglicher Grund für die Erhöhung genannt, nämlich, dass die Verfügbarkeit von Medikamenten das Interesse an der Diagnostik erhöhen würde. Weil wenn man weiß, es gibt ein Medikament und man kann etwas tun, damit es bestimmte Probleme weniger gibt, dann lohnt es sich für viele Akteure auch eher, die Diagnose aktiv herbeizuführen. Ja, das war jetzt eine Studie zum Thema Kinder, die schon mal ein sehr interessantes Ergebnis gehabt hat, nämlich, dass, wenn man sich einfach Aussagen von Eltern und Lehrer*innen anguckt, eben ADHS nicht häufiger geworden ist, sondern lediglich häufiger entdeckt wird, dann kann man sich noch fragen, was gibt es denn noch so für andere Effekte bei Kindern. Und eine Sache, die ich da auch gefunden habe, die mich durchaus im ersten Moment überrascht hat, aber beim weiteren darüber Nachdenken eigentlich gar nicht mehr so überraschend ist, nämlich, wenn man sich jetzt eine Klasse anguckt, wo die Kinder ungefähr gleich alt sind, aber eben bis zu einem Jahr Altersunterschied haben können, dann werden Kinder, die jünger in dieser Gruppe sind, häufiger ADHS diagnostiziert und dann auch mit Medikamenten versorgt, als die innerhalb dieser Klassenstufe älter sind, also relativ zu den Mitschüler*innen. Und den gleichen Effekt gibt es dann eine Klassenstufe später wieder und so weiter. Das Ganze gibt es auch im Sport und ist da bekannt als "Birthdates-Effekt", was man vielleicht mit so etwas wie "Geburtszeitpunkts-Effekt" oder "relatives Alter-Effekt" übersetzen kann. Und im Sport lässt sich das insofern sehr einfach erklären, weil es in sehr vielen Sportarten in den Jugendkategorien, wenn es um Wettkämpfe geht, eben nach Jahrgängen sortiert ist. Das heißt, Kinder, die im Januar geboren sind, sind dann halt relativ viel älter und können schon mehr Erfahrung haben, als die, die im Dezember geboren sind, müssen aber in der gleichen Gruppe antreten gegeneinander. Das heißt, wenn man jetzt irgendwie eine Teamsportart hat, wo dann ein Team zusammengestellt wird, würde man eher die älteren Kinder nehmen, weil die ja schon ein bisschen mehr können und dadurch, dass die dann häufiger bei Wettkämpfen antreten, haben sie dann auch mehr Erfahrung. Und das verstärkt sich dann bis zu einem gewissen Punkt. Das lässt sich bei Kindern und Jugendlichen nachweisen und bei Profisportler*innen mittelt sich das dann langsam heraus.
Janine: Das heißt, es gibt irgendwo so einen Punkt, wo die Altersvarianz quasi immer egaler wird?
Helena: In gewisser Weise schon, weil es dann ja auch nicht mehr diese Kategorisierung gibt.
Janine: Mhm.
Helena: Und also je später man in einen Sport einsteigen kann, desto weniger ist es wahrscheinlich entscheidend. Ja, das Ganze gibt es auch bei ganz normalem Bildungserfolg. Und da ist ja nicht mehr auf Jahrgänge bezogen, also Geburtsjahrgänge, sondern Schuljahrgänge, die ja einen anderen Stichtag haben. Und das ist unterschiedlich auch in verschiedenen Ländern. Und bei ADHS könnte man sich das dann vielleicht so erklären, dass jüngere Kinder innerhalb ihrer Gruppe als etwas kindischer wahrgenommen werden, im Sinne von, die sind vielleicht noch unruhiger als der Klassendurchschnitt und so weiter und vielleicht auch einfach langsamer Dinge verstehen in der Schule und so. Das heißt, sie fallen eher auf innerhalb der Gruppe und haben dann einfach eine höhere Wahrscheinlichkeit, dass das Ganze als ADHS entdeckt wird. Hierbei gibt es auch sehr viele verschiedene Studien aus verschiedenen Ländern. Das heißt, das ist jetzt nicht irgendwie so ein Effekt, der mal irgendwo gefunden wurde, sondern das wird durch sehr viele Länder hindurch entdeckt. Und in Deutschland ist der Unterschied etwa bei 22 Prozent. Das heißt, hier ist der noch relativ gering im Vergleich zu den anderen Ländern. Und Taiwan hat so den höchsten Wert, wo der Unterschied ist, dass die jüngsten einer Klasse 75 Prozent wahrscheinlicher diagnostiziert werden als die ältesten in der Klasse. Also, und die meisten Länder liegen irgendwo dazwischen. Ja, dieser Effekt ist am stärksten so in der dritten und vierten Klasse, so den Studien nach. Und das sind aber auch die Zeitpunkte, wo die häufigsten Diagnosen gestellt werden. Also in gewisser Weise fallen ja erst, wenn es in die Schule geht, bei den Kindern auf, dass die vielleicht Probleme haben könnten in der Schule. Und das führt dann dazu, dass man sich das erst ein bisschen anguckt. Und in der dritten, vierten Klasse steigen dann die Anzahl der Diagnosen stark an. Und so wie ich das jetzt gesehen habe, ziehen dann, wenn die Kinder älter werden, hier die Diagnosen tatsächlich dann nach. Das heißt, dann werden auch die Älteren innerhalb ihrer Klassenstufe später halt doch noch auch diagnostiziert.
Janine: Ja, das ist spannend. Stand in diesen Studien eigentlich auch etwas dabei, dass die Schule tatsächlich der häufigste Ort ist, auch quasi von dem die Anregung ausgeht, eine Diagnose zu suchen?
Helena: Also, so habe ich das da reingelesen. Dass das häufigste Probleme im Schulalltag sind, die dazu führen. Das heißt nicht unbedingt, dass es jetzt aus der Schule herauskommt, der Vorschlag, man könnte mal die Diagnose machen, sondern eher, ja, dass es auf jeden Fall irgendwie damit zusammenhängt. Ja, hierzu möchte ich noch einmal anmerken, dass es in so Ländern wie Deutschland oder zum Beispiel auch England möglich ist, wenn Kinder in der Nähe des Stichtages, wo entschieden wird, in welchen Jahrgang sie kommen, geboren werden, dass man dann durchaus die Möglichkeit hat, das Kind ein Jahr später einzuschulen. Und dann gehört es wieder zu den Älteren einer Gruppe und hat dann vielleicht, ja, ist es dann einfacher. Das hängt dann sehr vom individuellen Fall ab. Ich kann mich auf jeden Fall erinnern, dass, während ich zur Schule ging, gab es ein paar Leute, die einfach ein Jahr später eingeschult wurden, die um diesen Zeitraum geboren wurden, ja.
Janine: Ist auf jeden Fall eine gute Möglichkeit, über die sich Gedanken gemacht werden kann.
Helena: Ja.
Warum wird ADHS häufiger diagnostiziert? (00:16:50)
Janine: Ja, also so ganz zusammengefasst den ersten Punkt hier können wir sagen, dass nach dem, was du gesehen oder gelesen hast, ADHS erst mal, soweit man das beurteilen kann, nicht häufiger auftritt. Aber es wird berichtet, dass ADHS häufiger entdeckt und dann diagnostiziert wird. So ganz grob.
Helena: Ja.
Janine: Und ja, deswegen ist dann wieder die nächste Frage. Ich arbeite hier immer gern mit Fragen. Was genau die Gründe dafür sein könnten, dass es vielleicht häufiger diagnostiziert wird? Was hast du da denn herausgefunden?
Helena: Ja, da bin ich dann auf einen Artikel gestoßen, auf einer deutschen Webseite, wo dann über einen, ich glaube, englischen Artikel berichtet wurde, in dem berichtet wurde, dass es irgendwie häufiger geworden sei und dann wurde ein alter deutscher Artikel, also eine alte deutsche Studie zitiert, um zu sagen, ja, es wird ja auch in Deutschland zunehmen. Obwohl ja die KIGGS-Studien, die das insbesondere bei Kindern und Jugendlichen untersucht hat, festgestellt hat, ja, nein. In Deutschland gab es jetzt irgendwie so in den letzten 10, 15 Jahren keine Erhöhung. Das kann man auch nochmal ein bisschen einschränken, das tun wir später noch. Aber soweit die Studienlage aussieht, ist es weitestgehend gleich geblieben bei Kindern und Jugendlichen. Und was auch eine große Rolle spielt, ist, dass man ja verschiedene Studien miteinander vergleicht, die ja unterschiedlich gemacht werden. Und manchmal kommen manche Studien auf so Werte wie 9 Prozent der Bevölkerung hätten ADHS und andere berichten zum Beispiel 5 Prozent. Und wenn man sich dann natürlich genau die richtige Abfolge von solchen Studien, die solche absoluten Prävalenzen quasi Aussagen heranzieht, dann hat man natürlich den Eindruck, es würde mehr werden. Aber potenziell ist einfach die Methodik völlig unterschiedlich dieser beiden Studien und dann kann man die 9 Prozent, 5 Prozent überhaupt nicht in Relation setzen.
Janine: Aber das ist ja zum Glück etwas, was ja oft, wenn ich das richtig verstanden habe, in den Metastudien dann auch mitbetrachtet und beurteilt wird.
Helena: Ja, genau das. Bei Metastudien wird sehr darauf geachtet, dass die Methodik sehr gleichmäßig ist oder wenn solche Unterschiede entstehen, dass man die halt auch berücksichtigt.
Janine: Und wie kam es jetzt zu dieser anderen Aussage, dass es doch häufiger werden würde?
Helena: Ja, das ist natürlich eine spannende Frage. Weshalb man natürlich auch hier immer den Eindruck hat, ja, es wird immer mehr, liegt wahrscheinlich zum einen daran, dass wir natürlich sehr viele internationale Medien lesen. Also ich konsumiere auch sehr viele englischsprachige Medien zusätzlich zu deutschsprachigen Medien. Das heißt, da wird natürlich auch berichtet, dass es mehr wird und soweit ich das nachvollziehen kann, stimmt das in deren Studien ja auch schon. Und hier werden verschiedene Gründe, weshalb das auch in den USA oder UK häufiger vorkommt, genannt. Und der erste Grund, der so genannt wird, ist ja, Ärzte sind besser geschult in Bezug auf ADHS. Sie können es also besser erkennen. Außerdem wurden Diagnoskriterien angepasst im Laufe der Jahre und der Inattentive Type, also der Typ von ADHS ohne dem H, also ohne Hyperaktivität, ist halt einfach nicht so auffällig und wurde deswegen leichter übersehen, weil jetzt zum Beispiel im Schulalltag mangelnde Aufmerksamkeit weniger stört als Hyperaktivität. Das stört jetzt dann vielleicht die eine Person, die nichts mitkriegt oder der Lehrer*in, aber nicht auch noch allen Mitschüler*innen sozusagen. Das heißt, es wurde öfter übersehen und mit mehr Aufmerksamkeit auf ADHS wird es dann weniger häufig übersehen. Und gerade in den USA gibt es da noch den Grund, es wurde irgendwann Obamacare eingeführt und dadurch bekamen erst Personen mit geringem Einkommen überhaupt Zugang zur Diagnostik und hatten überhaupt erst die Chance, dass deren Kinder oder sie selber diagnostiziert werden konnten.
Inwiefern haben sich die Diagnosekriterien geändert? (00:20:59)
Ja, ich hatte ja gerade gesagt, ein Grund ist, dass die Diagnosekriterien sich geändert haben. Das fand ich jetzt erstmal ganz interessant zu hören, weil ja, gut, das heißt, es hat sich ein bisschen auch die Sicht auf ADHS mit der erhöhten Forschungsaktivität verändert. Es ist aber auch die spannende Frage, was hat sich denn genau geändert? Und hierbei muss man zum einen bedenken, dass es jetzt in Europa und den USA verschiedene diagnostische Systeme gibt. Also in Deutschland gibt es den sogenannten ICD, da gibt es dann verschiedene Codes für verschiedene Krankheiten. Der ist generell für alles Mögliche und da sind dann auch so Buchstaben-Zeichen-Kombinationen, unter denen dann Krankenkassen Dinge abrechnen. Das sind dann meistens diese ICD-Codes. Und da gab es bis ungefähr dieses Jahr, und wahrscheinlich wird ja immer noch benutzt, den ICD-10. Und den gibt es seit 1994. Das heißt seitdem haben sich auch die Diagnosekriterien hier jetzt nicht wirklich geändert.
Janine: Was, um das mal in Zahlen zu fassen, tatsächlich 30 Jahre sind.
Helena: Ja, genau, das sind 30 Jahre. Und in der gleichen Zeit, auch Anfang der 90er gab es den sogenannten DSM-4 als Diagnosekatalog in den USA, der sich aber jetzt nicht auf alle möglichen Dinge, die man bei Krankenkassen abrechnen wollen könnte, bezieht, sondern hauptsächlich auf irgendwas in Bezug auf Psychologie und ähnliches. Und in diese Kategorie fällt ja auch ADHS rein. Und hier wurde allerdings schon vor 10 Jahren ein Update gemacht mit der neuen Forschung, nämlich der DSM-5 wurde eingeführt. Und dieser änderte eben auch die Diagnosekriterien von ADHS. Und zwar ist ein Diagnosekriterien, dass es eine bestimmte Gruppe von Symptomen gibt, wo man vorher gesagt hat, die müssen auf jeden Fall schon aufgetreten sein, bevor man 7 Jahre alt wurde. Das heißt, bevor man in die Schule gekommen ist. Und das wurde heraufgesetzt auf 12 Jahre. Das heißt, für alle die Leute, wo die Probleme sozusagen erst überhaupt anfangen, wenn man in die Schule kommt, gibt es jetzt die Möglichkeit, das auch dann erst wirklich festzustellen, sozusagen. Dann wurde das Wort Beeinträchtigung durch Symptom ersetzt. Das heißt, es muss nur als Symptom auftreten, dass man eine bestimmte Verhaltensweise zeigt. Das muss jetzt niemanden beeinträchtigen und insbesondere nicht die Person selbst. Vorher konnte nur diagnostiziert werden, wenn man auch eindeutig darunter gelitten hat.
Janine: Was eine besonders interessante Änderung ist, wie wir vielleicht an einem späteren Punkt dieser Folge nochmal anreißen könnten.
Helena: Ja. Ja, eine weitere Änderung im DSM-5 ist, dass überhaupt erst erlaubt wurde, Autismus und ADHS zusammen zu diagnostizieren. Vorher waren das Ausschlussdiagnosen. Das heißt, wer mit dem einen diagnostiziert wurde, durfte nicht mehr mit dem anderen diagnostiziert werden. Das ist jetzt quasi erst seit 10 Jahren geändert in den USA. Mittlerweile gibt es dafür auch ein eigenes Wort, wenn man beides hat, nämlich AuDHD. Also ADHD ist das englische Äquivalent zu ADHS. Ja, in Deutschland wird jetzt langsam der ICD-11 eingeführt. Offiziell ist der soweit ich weiß seit diesem Jahr in Kraft. Und hier wurde im Grunde einfach nachgezogen, was ADHS angeht. Also jetzt sind die Kriterien, die ich gerade genannt habe, hier eben auch gültig.
Janine: Übrigens, wo wir gerade auch bei AuDHD waren und den Diagnosekriterien, falls das hier irgendwem gerade ein bisschen bekannt vorkommt, was wir sagen, etwas ähnliches haben wir schon mal in Folge 32 angerissen. Wie wird Autismus erforscht? Also falls da ein paar Sachen klingeln, da könnte es herkommen. Schrägstrich die Information, wer sich auch diese Perspektive einmal anhören möchte in Bezug auf Autismus, kann gern nochmal bei der Folge vorbeischauen.
Helena: Genau. Ja, offiziell wird in Deutschland der DSM jetzt nicht zur Diagnostik verwendet. Wobei soweit ich weiß, ist auch schon hier mittlerweile angekommen, dass Autismus und ADHS zusammen diagnostiziert werden können. Nur weil man den ICD-11 noch nicht fertig hat oder der lange nicht fertig war, konnte man glaube ich schon trotzdem Dinge daraus übernehmen. Es wurde auf jeden Fall mittlerweile gemacht. Was aber auch noch ein wichtiger Punkt ist, ist in der Forschung in Europa wurde bereits der DSM-5 verwendet, also die Diagnosekriterien sind hier so gesehen nicht begrenzt auf, also die sind halt mehr für sowas wie Krankenkassenabrechnung und so weiter. Für die Forschung ist eher relevant, dass man möglichst international irgendwas Allgemeingültiges hat, deswegen wurde da bereits der DSM-5 verwendet. Ja, also ein Grund, weshalb jetzt in Deutschland bei der Forschung noch keine Zunahme verzeichnet wurde in den letzten 15, 20 Jahren, könnte natürlich auch sein, weil hier mit dem ICD-11 die Diagnosekriterien noch gar nicht angekommen sind. Das heißt, das könnte jetzt natürlich alles noch nachfolgen. Und auch wenn die Forschung jetzt natürlich schon den DSM-5 verwendet hat, hat nicht jede Forschung so funktioniert, dass die selbst diagnostiziert haben, sondern gerade sowas wie diese Studien, die Querschnittstudien vom KiGGs und so, haben eher gefragt, ja, hat schon mal jemand eine Diagnose gestellt für dieses Kind? So, das heißt, da wurde ja trotzdem auf die normalen Diagnosekriterien referenziert.
Janine: Und auf die diagnostische Praxis sozusagen.
Helena: Ja, genau.
Janine: Ja.
Helena: Das heißt, es könnte sein, dass in Deutschland der Anstieg jetzt noch nachfolgt. Deswegen, ja, die Studien, die es gibt, die sind halt aus den letzten Jahren und für genau jetzt. Jetzt könnte es trotzdem sein, dass jetzt gerade dieser Anstieg eben passiert. Und ein Hinweis könnte natürlich sein, wenn man sich bei Google die Suchergebnisse nach ADHS anguckt. Google hat ja Statistiken dazu, wie oft etwas gesucht wird. Und wenn man sich das anguckt, sieht man sehr deutlich, dass von Deutschland aus der Suchbegriff ADHS ja in den letzten zwei Jahren deutlich zugenommen hat.
Janine: Was ich grundsätzlich auch einen super interessanten Zeitpunkt finde, weil wir hatten das Thema ja schon, dass sich zum Beispiel mit dem Eintritt in die Schule etwas ändern kann bei einem Kind, einem Menschen, dass dann überhaupt erst auffällig wird, dass ADHS vorliegen könnte. Und genau das Gleiche gilt eigentlich auch immer dann, wenn sich grundsätzlich im Leben etwas ändert, wenn sich Strukturen ändern. Es kann passieren, wenn man eben zum Beispiel plötzlich in einem Lockdown zu Hause sitzt und die ganzen Alltagsstrukturen wegbrechen. Also ich finde, man kann es natürlich überhaupt nicht sagen, aber ich finde es wirklich einen spannenden Zeitpunkt.
Helena: Es ist ja quasi nicht, wenn der Lockdown anfängt, steigt es plötzlich stark an, sondern eher wenn der Lockdown durch ist.
Janine: Ja, das auch. Es ist, da spielt vielleicht auch die eigene Erfahrung mit rein. Ich habe halt die Diagnostik auch erst etwas später gemacht, aber es ist durchaus so, dass halt mit Beginn des Lockdowns sich durchaus Dinge verändert haben und einem anders auf die Füße gefallen sind. Und damit muss man sich ja auch erst mal auseinandersetzen und überhaupt ahnen, erfahren, wissen, woher es vielleicht kommt. Und dann entsteht irgendwie so Leidensdruck, der irgendwie nebulös ist, bis dann irgendwann mal eine Erkenntnis kickt und dann werden Dinge in Gang gesetzt.
Helena: Okay, also das heißt, du erwartest schon, dass es auch einfach verzögert ist, wenn es durch den Lockdown, durch die Pandemie ausgelöst, durch die Änderung des Alltags, dass man dann plötzlich feststellt, dass Dinge nicht mehr so funktionieren, aber dass man eine Weile braucht, um daraus Schlüsse zu ziehen.
Janine: Ich kann es mir gut vorstellen, ja, aber es ist nur Übertragung.
Helena: Ja, von daher, wenn man jetzt so den Google-Trends glauben darf, könnte es sein, dass wir in ein paar Jahren in den Studien, die jetzt gerade laufen und messen wie es ansteigt, tatsächlich auch sehen, dass es in Deutschland mehr wird.
Janine: Mehr diagnostiziert wird.
Helena: Genau, mehr diagnostiziert wird. Wir haben ja schon gesagt, es gibt Studien, die sagen, ADHS wird nicht mehr auf die Gesamtbevölkerung betrachtet, sondern es wird nur mehr diagnostiziert. Ja, und weil das eben über sehr lange Zeiten etwas war, was man vor allen Dingen für Kinder betrachtet hat, hat man auch sehr lange nur Kindern überhaupt irgendwie Medikamente gegeben. Und es gab zum Beispiel von 2006, das ist jetzt auch schon fast 20 Jahre her, einen Bericht, dass nur etwa 11 Prozent der Erwachsenen Amerikaner mit ADHS eine Form von Behandlung haben. Ja, und es wird auch gesagt, dass es ein Risiko ohne jegliche Behandlung sei für die Individuen. Also, dass das persönliche Risiko ohne jede Behandlung für die Person deutlich gravierender ist, als wenn man sie zu viel behandeln würde. Also, es wird ja oft irgendwie Behandlung nicht gemacht, weil Medikamente könnten Nebenwirkungen haben. Und hier war jetzt die Aussage, dass der Schaden durch Nichtbehandeln größer ist als durch Behandeln. Oder wenn man Leute ausversehen überbehandeln würde. Aber ADHS-Medikamente stehen halt in einem gewissen Ruf, dass sie auch missbraucht werden könnten, weil manche dieser Medikamente halt auch als Drogen auf dem Schmacksmarkt zur Verfügung stehen. Und in US-Unis wurde im Kontext von Prüfungen festgestellt, dass Leute dann sich ADHS-Medikamente besorgen, um eben besser zu lernen oder die Prüfung besser zu schreiben und eben nicht um Party zu machen. Also, die Leute, die das jetzt quasi illegal sich besorgt haben, haben das halt dann quasi zur Selbstmedikation benutzt und nicht, um das zu machen, weshalb diese Dinge eben nicht frei verkäuflich sind.
Janine: Ein besonders beliebtes Meme, das kann man vielleicht an dieser Stelle auch mal einfügen, ist, von ADHS-Menschen, dass sie mal wieder ihre Medikation vergessen haben einzunehmen und dass das mal wieder ein Beweis dafür ist, wie schlimm süchtigmachend sie sei.
Helena: Ja.
Janine: Ist jedenfalls eines der Vorurteile. Und ja, man beweist doch recht häufig im Verlauf einer Woche allein schon, dass das nicht so richtig stimmen kann.
Helena: Ja. Ja, dann gibt es noch so kleine Details. Oder was heißt kleine Details? Für viele Leute sind das gravierende Details. Also, bei Kindern werden drei bis viermal öfter Jungs als Mädchen diagnostiziert. Und wenn es um Diagnosen im Erwachsenenalter geht, dann ist das eher ausgeglichen. Es gibt also offenbar auch starke Nachholeffekte von Frauen, die man eben als Kind übersehen hat.
Janine: Das Gleiche betrifft auch wiederum die Autismusdiagnostik. So viel sei hier schon mal verraten. Darüber haben wir auch kurz in der anderen Folge geredet.
Ist es wichtig, dass ADHS auch später noch diagnostiziert wird? (00:32:22)
Helena: Ja, jetzt die spannende Frage. Wenn es eben diese Nachholeffekte gibt, insbesondere bei Frauen im Erwachsenenalter, ist es denn wichtig, dass ADHS auch später noch diagnostiziert wird?
Janine: Ja, mit dieser Frage habe ich mich auseinandergesetzt, weil, ja wie auch bei uns jetzt das Thema aufkommt und wir darüber sprechen, speziell in den letzten Jahren, das einfach auch immer öfter in den Medien behandelt wurde. Es gab halt nicht nur mehr Menschen, die sich auf Social Media mit dem Thema befasst haben oder da auch als sogenannte Advocates aufgetreten sind. Also Menschen, die aus der eigenen Erfahrung heraus über ein bestimmtes Thema andere informieren, was zum Beispiel Danny Donovan mit ihren ADHD-Comics ganz grandios leistet oder auch eben Jessica vom YouTube-Channel "How to ADHD". Genau, das ist so der amerikanische Raum, aber auch im deutschsprachigen Raum gibt es auch immer wieder bekanntere Personen, die dann sich doch auch mit dem Thema beschäftigen. Menschen, die mir da besonders aufgefallen sind in letzter Zeit, waren Sarah Kuttner, die auch sehr offenherzige Videos über ihr Leben mit ADHS macht und Eckhard von Hirschhausen, der auch in einer Doku mehr oder minder seinen eigenen Weg zur Diagnose mitdokumentiert hat. Und ja, es bekommt halt mehr Aufmerksamkeit und auch mehr Sichtbarkeit. Und das führt unweigerlich dazu, dass Menschen vielleicht hier und da mal denken "Wait, das beschreibt mein Leben eigentlich ziemlich gut, aber ich dachte, das geht allen so. Vielleicht doch nicht. Vielleicht erklärt das, warum ich mich schon immer ein bisschen komisch gefühlt habe, so in dieser Gesellschaft." Und ja, dann fängt die persönliche Recherche natürlich an oder auch, weil im Freundeskreis oder in der Familie Menschen das Thema auf den Tisch bringen. Viele erwachsene Menschen sehen sich dieser Frage gegenüber, weil zum Beispiel die eigenen Kinder eine Diagnose erhalten und dann entweder die behandelnde Person mal fragt "Wie ist das denn bei Ihnen?" oder man selbst sich vielleicht darin wieder entdeckt. Ja, und dann ist die Frage "Brauche ich eine Diagnose? Sollte ich das tatsächlich abklären lassen?" Und mal ganz ehrlich, noch so einer Anekdote am Rande, wenn diese Frage mit "Ja" beantwortet wird, dann kommen einem eigentlich echt erstmal ziemlich viele Steine in den Weg gerollt. Es ist nämlich als erwachsene Person in Deutschland aktuell gar nicht so einfach, eine Diagnostik zu erhalten. Es gibt zu wenige Anlaufstellen, die Wartezeit ist teils absurd. Ja, selbst bei den Institutionen, wo man noch drauf zahlt, weil es eine private Leistung ist, kriegt man eigentlich kaum einen Termin. Und dazu kommt auch noch, dass ausgerechnet Menschen, die von ADHS betroffen sind, sehr viele Hürden dabei erfahren, die unglaublich hoch sind. Termine sind oft nur möglich nach Anrufen zu einem bestimmten Zeitpunkt.
Helena: Da muss man ja an den Zeitpunkt denken.
Janine: Genau, man muss an den Zeitpunkt denken. Und der kann auch in sechs Monaten liegen oder rufen Sie doch nächstes Jahr im September an. Das sind so Aussagen. Die machen es einfach echt nicht leichter. Oder es gibt halt nur so feste Zeiten, dienstags von 9 bis 10 Uhr solche Scherze. Und ja, mal eher nicht die Chance, genau in diesem Moment dann nicht dran zu denken. Oder in so eine, ich mache es bestimmt morgen, Schlaufe zu geraten. Das ist doch recht hoch. Und noch dazu, ich hatte auf Mastodon gefragt, was bedeutet für euch Leben mit ADHS? Und eine der Antworten war: Ziemlich einfach, dass es nahezu unmöglich ist, als erwachsene, weiblich gelesene Person überhaupt eine Diagnose zu bekommen. Und damit sind wir auch eigentlich bei dem Punkt, den Helena eben schon angesprochen hatte. Da gibt es viel Nachholbedarf. Und es wäre schön, wenn sich das ändert, dass es auch einfacher zugänglich ist, so ganz allgemein.
Helena: Ja, aber das ist, glaube ich, ein Problem, was gerade alles, was irgendwie mit Psychotherapie oder Diagnostik in dem Bereich zu tun hat, was Deutschland, wo es echt schwer ist, überhaupt irgendwo mit anzufangen.
Janine: Ja, falls euch die Frage interessiert, wie finde ich überhaupt Sachen heraus? Es ist das zentrale ADHS-Netz verlinkt. Dort sind die regionalen Netze mit drin erfasst. Und da könnt ihr euch zum Beispiel eure Region raussuchen und die Menschen per E-Mail anschreiben, die dafür verantwortlich sind und gegebenenfalls eine Liste mit Anlaufstellen erhalten. Das ist zum Beispiel ein ganz okayer Weg, zumindest einen Überblick zu bekommen. Nur so als, ja, Tipp direkt mal an dieser Stelle. Aber zurück zu der Frage eigentlich. Auf der persönlichen Ebene ist natürlich die Frage manchmal auch gar nicht so leicht, weil man muss dazu ein bisschen im eigenen Leben rumstochern, alte Zeugnisse raussuchen. Die Familie muss gegebenenfalls mit einbezogen werden, weil es auch Elternfragebögen gibt, ja auch für Erwachsene.
Helena: Ja.
Janine: Und dann ist auch immer noch die Frage, was passiert denn eigentlich mit mir und meinen Gefühlen zu mir, wenn ich die Diagnose erhalte oder nicht erhalte? Also gehen wir mal vom Fall erhalten aus. Dann gibt es eben manche Menschen, die einfach unglaublich erleichtert sind, weil es eine Bestätigung gibt, dass sie die Diagnose haben und damit auch endlich eine Erklärung für das lebenslange Anderssein, das schon immer irgendwie aufgefallen ist. Dann gibt es aber auch so eine Art, ja, negative Seite. Man kann auch durchaus in ein Loch fallen und sich erst mal sehr mit der schmerzhaften Frage auseinandersetzen müssen, was wäre denn eigentlich, wenn das schon jemand früher erkannt hätte? Wenn das wahr ist, wie viel hätte mir erspart bleiben können an Schmerz und Umwegen, die ich in meinem Leben gemacht habe? Was hätte eigentlich tatsächlich aus mir werden können? Manchmal passiert auch beides. Und selbstverständlich ist es auch möglich, dass das gleichzeitig passiert. Also ja, es ist ein bisschen eine emotionale Achterbahnfahrt, zumindest war es das für mich. Und ich gehe davon aus, für manche andere auch. Und deswegen finde ich auch, ist das überhaupt gar keine leichte Entscheidung, so ganz auf der persönlichen Ebene. Und deswegen kann auch niemand sagen, mach eine Diagnostik, das wäre gut für dich, weil ja, das ist halt sehr individuell und muss jeder Mensch einfach selber wissen. Ja, warum reden wir jetzt trotzdem drüber? Ihr kennt ja unser Motto "Kenne dein Messverfahren" und daraus leite ich persönlich auch immer etwas so, sozusagen ein unterschwelliges Zweitmotto ab, "Triff informierte Entscheidungen". Deswegen habe ich versucht, das ein bisschen allgemeiner zu betrachten, was mir nicht in allen Punkten wirklich möglich ist, aber ich habe es wirklich ernsthaft versucht.
Welche Rolle spielt der Leidensdruck? (00:39:05)
Also, ist es wichtig, dass ADHS auch im Erwachsenenalter noch diagnostiziert wird? Ich habe mir versucht, zwei Punkte dabei anzuschauen, die ich finde, dass sie bei dieser Entscheidung eine Rolle spielen könnten. Und zwar ist das zum einen der Punkt Leidensdruck und zum anderen der Punkt Risikofaktoren, die durch ADHS erhöht werden.
Helena: Ja, Leidensdruck ist ja das Ding, was ja insbesondere vorher ein sehr relevanter Teil der Diagnostik-Kriterien ist. Ohne Leidensdruck keine Diagnostik. Nur, dass die Symptome auftauchen, reicht nicht. Das hat sich ja geändert.
Janine: Ich finde es aber auch unabhängig davon für einen selbst tatsächlich noch eine interessante Frage, weil ja, meistens ist es doch so, wir gestehen uns dann zu, uns Hilfe oder Erklärungen zu suchen für etwas, wenn wir einen gewissen Leidensdruck empfinden, wenn quasi die Motivation, eine Lösung zu erhalten oder einen möglichen Lösungsweg nachzuvollziehen, groß genug wird. Machen alle Menschen so, aber wer ADHS hat, der weiß auch, dass Motivation eine ganz besondere Rolle spielt.
Helena: Ja.
Janine: Aber das ist auch wieder sehr individuell. Wenn ich die Frage, verspüre ich einen Leidensdruck, aber mit ja beantworten kann, dann ist Diagnostik sinnvoll. Weil, wie Helena auch schon erklärt hat, unser Gesundheitssystem funktioniert so, dass man etwas diagnostiziert bekommt und aufgrund dieser Diagnose wird einem der Weg freigemacht für bestimmte Leistungen, für die richtige Behandlung und so weiter und so fort. Deswegen ist es hilfreich, tatsächlich. Aber was ich schwierig finde bei dieser Sache mit diesem ominösen Leidensdruck ist, dass es vielleicht auch gar nicht so leicht ist, den überhaupt zu erkennen. Und zwar gerade bei ADHS wegen zwei Sachen. Erstens, die meisten noch nicht diagnostizierten Erwachsenen haben sich schon viele, viele, viele Strategien erarbeitet, um sich anzupassen an ihre Umgebung, um ihre Neurodivergenz zu verbergen, also das, was man als Masking oder Maskieren bezeichnet. Darin werden Menschen schnell sehr gut. Und das trifft auch besonders auf weiblich sozialisierte Menschen zu. Wir hatten das Thema ja schon mal in einer anderen Folge, wie gesagt, weiblich sozialisierte Menschen neigen eben eher dazu, sich anzupassen und sich etwas mehr zurückzunehmen und nicht so nach außen zu agieren, weswegen es eben möglich ist, dass sie eher unter dem Radar bleiben. Das gleiche Problem kann aber auch Menschen mit ADS, ohne Hyperaktivität also, betreffen, die da auch eine gewisse Hürde haben, weil sie ja eben vielleicht weniger Feedback von außen bekommen in die Richtung, wie es Menschen mit Hyperaktivität bekommen. Und deswegen kann es einfach unterm Strich relativ schwierig sein, überhaupt für sich selbst einzuschätzen, wie stark der eigene Leidensdruck ist und dass da vielleicht so der Blick dann vielleicht ein bisschen draufgehen könnte, das ein bisschen für sich selbst zu sortieren. Genau. Und ja, der zweite Punkt, der das mit dem Leidensdruck ein bisschen schwerer zu erkennen macht, kann vielleicht die Sache sein, dass man eventuell schon in Behandlung war wegen anderer psychischer Erkrankungen und dort bereits Diagnosen erhalten hat, die auch schon hinreichend erklären, was Sache ist.
Helena: Das heißt, man denkt ja, man leidet derzeit unter Depressionen, aber nicht unter den Folgen von ADHS.
Janine: Genau. Manchmal ist es einfach schwer, das dann neu zu denken, auch für einen selbst, aber auch für die behandelnde Person. Weil es gibt ja eine Erklärung, die in dem Sinne zutreffend ist, aber es gibt eben auch einfach die Fälle, dass Menschen jahrelang wegen Depressionen behandelt werden, aber die Verbesserung nur sehr minimal ist. Und das vielleicht daran liegt, dass die Depression hier ein Symptom ist, einer nicht behandelten ADHS und die Ursache also eigentlich eine andere ist. Also da müsste der Fokus quasi dann, könnte der Fokus verschoben werden. Ja, das sind die zwei Faktoren, wie ich finde, die es überhaupt nicht einfach machen, so den eigenen Leidensdruck in Bezug auf ADHS überhaupt einzuschätzen und wo es vielleicht nötig ist, erstmal eine Menge Denkleistung rein zu investieren. Plus die Sache, es kann auch bis zu einem gewissen Grad wehtun, sich mit solchen Dingen auseinanderzusetzen.
Helena: Ja.
Was bedeutet ADHS als Risikofaktor? (00:43:28)
Helena: Apropos wehtun. Wie oft läuft man denn so ausversehen irgendwo gegen?
Janine: Ja, häufig.
Helena: Das ist doch auch so ein Ding, was man auf Social Media häufiger mal sieht von Menschen mit ADHS, dass sie Videos teilen, wie sie bei ihren normalen Wegen dann plötzlich irgendwo gegenlaufen, weil da plötzlich etwas steht, was sie nicht erwartet haben.
Janine: Ja, das passiert tatsächlich. Also mein Körperraumempfinden scheitert manchmal an Türrahmen, Türklinken, Kommoden und anderen Sachen, auch auf den Wegen, die ich täglich mache. Also ja, ich habe auch gerade erst wieder einen blauen Fleck entdeckt, von dem ich keine Ahnung habe, wo er herkommt.
Helena: Ja, aber blaue Flecken sind ja noch relativ harmlos.
Janine: Ja.
Helena: Es gibt ja auch nicht so harmlose Dinge.
Janine: Genau. Ja, ich hatte ja gesagt, ein zweiter Punkt bei der Frage, ist es sinnvoll oder warum könnte es gut sein, sich als erwachsene Person mit ADHS noch diagnostizieren zu lassen, wäre ADHS als Risikofaktor. Es wird tatsächlich von einigen Stellen schon beobachtet, angegeben und erfasst, dass ADHS im Allgemeinen, aber speziell auch unbehandeltes ADHS, ein Risikofaktor für eine ganze Reihe von Dingen ist. Eine Studie, die Helena oben schon erwähnt hat, wo es um diese 11 Prozent der US-amerikanischen Menschen ging, die im Erwachsenenalter eine Behandlung erfahren und die anderen, 89 Prozent, halt nicht, wurden auch Faktoren genannt, was denn eben nicht behandeltes ADHS an Risiken mit sich bringt. Und eines ist zum Beispiel Arbeitslosigkeit oder niedriges Einkommen, was meistens damit zusammenhängt, dass es vielleicht schwierig ist, sich in bestimmte Strukturen einzupassen. Dann werden auch Beziehungsprobleme genannt, die ein Risiko sind von ADHS. Hier wird nämlich eine höhere Rate von Scheidungen angegeben. Das ist jetzt so alles so auf der sozialen, vielleicht finanziellen Ebene, aber sie haben auch die gesundheitlichen Risiken genannt, wozu Substanzmissbrauch, Autounfälle und generell ein höheres Verletzungsrisiko kommen. Was, wenn ich mich jetzt richtig erinnere, insbesondere mit so Aspekten wie Impulskontrolle und Ablenkbarkeit zusammenfallen kann...
Helena: Mhm.
Janine: ... so speziell bei den Unfällen. Und eben, wie gerade auch schon angedeutet, gibt es ein erhöhtes Risiko, dann psychische Erkrankungen zu bekommen, wie eben Depressionen, Angststörungen und noch einige weitere, die da genannt wurden. Ja, das sind so grundsätzliche Risiken, die allgemein betrachtet werden. Auch zwei Forschende der Uni Augsburg haben im letzten Jahr dazu eine Veröffentlichung rausgebracht, ADHS als Risikofaktor für andere psychische Erkrankungen. Und da werden eben auch Zusammenhänge untersucht zwischen ADHS, posttraumatischer Belastungsstörung, Depressionen. Genau, also es wird unterschiedlich bewertet, aber zum Beispiel für posttraumatische Belastungsstörungen haben sie aus ihren Ergebnissen abgeleitet, dass es definitiv einen Zusammenhang gibt. Ja, und ansonsten, wer eine sehr ausführliche Auflistung sehen möchte, was da noch an Begleitstörungen auftreten können, dann wäre die Seite von ADHS Deutschland e.V., die wir auch verlinkt haben, die richtige Anlaufstelle. Die ist nämlich wirklich recht lang und ausführlich.
Helena: Mhm.
Janine: Ja, also so Meinungsbeitrag, ich denke, es dürfte den wenigsten schwerfallen, sich vorzustellen, dass je weniger etwas behandelt wird, desto höher das Risiko ist, dass eine bis mehrere Begleiterkrankungen einfach auftreten können. Also nur mal so als Vorstellung.
Helena: Ja, ja klar. Also ja.
Janine: Also eigentlich ist es ja unstrittig, aber natürlich wollen wir es auch gern belegt haben, aber da gibt es dann eben auch in den Studien immer wieder Hinweise zu. Und ja, eine weitere Sache sind verschiedene Schlafstörungen. Die sind ein ganz prominentes Beispiel, weil, na ja, auch da ist es natürlich leicht vorstellbar, wenn es einem Menschen überhaupt schwer fällt, zur Ruhe zu kommen, sowohl körperlich als auch geistig einfach mal eine Pause einzulegen. Der hat echt gute Voraussetzungen dafür, echt viel, also wenig und schlechten Schlaf zu bekommen.
Helena: Mhm.
Janine: Und das wiederum ist ein Risikofaktor für viele, viele andere Dinge im Alltag.
Helena: Mhm.
Janine: Also ja, gerade schlechter Schlaf wirkt sich auf extrem viele Sachen auf, unter anderem auch auf Aufmerksamkeit.
Helena: Überraschung.
Janine: Ja, ja, also es gibt viele sich verstärkende Aspekte, habe ich so gelernt.
Helena: Okay.
Janine: Und ja, je besser die Behandlung ist und die muss noch nicht mal medikamentös sein, es kann auch einfach sein, achtsamer mit sich umzugehen, so aus eigener Erfahrung, desto wahrscheinlicher ist es natürlich auch, dass die ganzen anderen negativen Effekte einfach weniger werden. So, wem das aber noch nicht reicht, der könnte vielleicht auch noch über die psychische Gesundheit, nein, nicht nur über die psychische, sondern auch über die körperliche Gesundheit nachdenken. Es wird nämlich tatsächlich auch gerade am Uniklinikum Würzburg untersucht, inwiefern Menschen mit ADHS ein erhöhtes Risiko für verschiedene körperliche Erkrankungen haben. Da gibt es die Studie mit dem Titel "Kardiovaskuläre Regulation bei ADHS". Sie untersuchen dort Herz-Kreislauf-Funktionen.
Helena: Mhm.
Janine: Und zwar ist ihr Ausgangspunkt, dass bereits beobachtet wurde, dass bestimmte körperliche Erkrankungen bei Menschen mit ADHS gehäuft vorkommen. Und als Beispiel werden hier Übergewicht und Asthma genannt, aber auch Bluthochdruck und Diabetes. Und weil das alles Dinge sind, die als Erkrankung für sich das Risiko für Herz-Kreislauf-Erkrankungen erhöhen, soll das halt näher untersucht werden. Also den Zusammenhang zwischen ADHS und hier dem Herz-Kreislauf-System, weil das noch viel zu unklar ist, aber ein Zusammenhang vermutet wird.
Helena: Ja, aber du hattest ja noch eine Studie gefunden, die schon auch deutlich besagt, dass die Sterblichkeit aufgrund von verschiedenen Faktoren deutlich reduziert ist, wenn man Medikamente kriegt, wenn man ADHS hat. Also wenn es behandelt ist. Das war ja…
Janine: Genau. Und ich habe kurzfristig dann bei der Recherche noch einen Artikel gefunden, der eine Studie zusammenfasst, die sich damit beschäftigt, dass Menschen mit ADHS eine niedrigere Sterbensrate haben sollen, sobald sie Medikamente erhalten.
Helena: Aber nur bezogen auf unnatürliche Todesarten, also Unfälle und sowas.
Janine: Genau. Diese Studie stammt aus Schweden. Dort wurden Menschen beobachtet, die in den Jahren 2007 bis 2018 eine Diagnose erhalten hatten mit ADHS und zuvor keine Medikamente bekamen. Und dann wurde halt die Nachverfolgungszeit über zwei Jahre ausgedehnt bis zum Tod, falls dieser früher eintrat. Und gemessen wurde die zwei Jahres Gesamtmortalität in Abhängigkeit davon, ob die Patient*innen binnen drei Monaten nach der Diagnose Medikamente gegen ADHS erhielten oder nicht.
Helena: Ja. Und Schweden eignet sich eben für diese Art von Untersuchungen insofern besonders gut, als dass man dort von den dortigen Krankenkassen einfach alle Daten hat zur Verfügung. Und die erfassen dann eben, ob die eine solche Diagnose bekommen haben, ob sie Medikamente kriegen und was mit denen passiert. Sowas ist in Deutschland nicht zulässig, diese Art von Forschung. Ja, das ist auf jeden Fall ziemlich interessant. Jetzt weiß ich natürlich nicht, inwiefern diese kardiovaskulären Erkrankungen und so, wo du meintest, die sind schon gehäuft, ob die denn jetzt als natürlich oder unnatürlich eingesortiert wurden. Ich würde fast vermuten, das würde man eher als natürliche Todesursache einsortieren.
Janine: Vermutlich ja, ja.
Helena: Aber es ist auf jeden Fall schon ein nennenswerter Unterschied, gerade in Bezug auf einen Teil der Risikofaktoren, die du genannt hast, die ADHS darstellt.
Janine: Genau. Also was einfach ja sehr deutlich ist, dass ja noch durchaus einige Vorurteile oder sagen wir mal Stereotype über ADHS herrschen, die eben ein bestimmtes Bild vermitteln. Und ich habe erfahren, dass wenn ich mit Menschen darüber spreche, die sich mit dieser Thematik bisher noch nicht auseinandergesetzt haben und die die Frage stellen, ja, wo betrifft dich das denn in deinem Leben, dass diese Menschen doch meist sehr überrascht sind, wenn einfach die Bandbreite einmal klar wird, über die ADHS das Leben beeinflussen kann. Also, dass es einfach alle Bereiche des Lebens tangiert und eben nicht nur ist, dass man ja ein bisschen mehr Unruhe in sich hat und ein bisschen leichter Sachen vergisst oder mal schusselig ist.
Helena: Ja, aber gut, ich hoffe mal, dass wir zu dieser Folge dem ein bisschen entgegenwirken konnten und zeigen konnten, inwiefern das sehr viele Bereiche des Lebens betrifft, auch die, die man vielleicht nicht erwartet hätte.
Janine: Ja, also unterm Strich zu der Frage, ist es wichtig oder kann es wichtig sein, ADHS auch noch im Erwachsenenalter zu diagnostizieren, ist natürlich ja trotzdem eine individuelle Entscheidung am Ende. Aber es wird doch, auch wenn nicht überall die Zusammenhänge bis ins Detail geklärt sind, in verschiedenen Untersuchungen recht deutlich, dass ADHS viele Risiken mit sich bringt oder sie verstärken kann und dass die eben auf alle Ebenen sich ausdehnen können, auf soziale Ebenen, berufliche und damit eben auch finanzielle, als auch psychische und körperliche Gesundheit. Und das sind einfach Aspekte, die sich vorher vielleicht am Anfang nicht so ganz bewusst gemacht werden, wenn man so der Frage gegenübersteht, warum brauche ich eigentlich eine Diagnose, hat ja bisher in meinem Leben auch geklappt. Es kann halt helfen, Hilfe zu bekommen und anders mit sich selbst umzugehen, aber es kann auch Menschen geben, für die es tatsächlich einfach keinen Unterschied macht. Am Ende bleibt es eine individuelle Entscheidung, aber das fand ich so die wichtigsten Faktoren, denke ich, wenn man sich mit dieser Frage neu auseinandersetzt.
Fazit (00:53:51)
Helena: Ja, gut, kommen wir damit zum Fazit.
Janine: Ja.
Helena: Ja, zusammenfassend zum Thema dieser Folge möchte ich nochmal auf die Sachen hinweisen oder die nochmal wieder erwähnen, die mich jetzt besonders überrascht haben. Oder was heißt überrascht, die jetzt so wesentliche Erkenntnisse für mich sind. So zum einen, bei Kindern gibt es in Deutschland keinen Anstieg der Diagnosen bei ADHS und generell gibt es auch keinen Anstieg der Häufigkeit von ADHS. Es wird aber international häufiger diagnostiziert. Und was mich eben schon überrascht hatte, war die Erkenntnis, dass innerhalb von einer Schulklasse die jüngeren Kinder eher diagnostiziert werden, als die, die relativ älter sind als sie.
Janine: Ein anderer Teil des Fazits, es gibt halt noch Nachholbedarf in der Diagnostik, gerade in Deutschland, in bestimmten Personenkreisen. Also ja, dadurch, dass eben Mädchen wesentlich seltener diagnostiziert wurden, kann es natürlich auch sein, dass es einfach inzwischen mehr erwachsene Frauen gibt oder weiblich gelesene Personen, die eben noch keine Diagnose haben, aber vielleicht auch noch eine brauchen. Und dann wird sich ja auch noch zeigen, ob sich dann durch die geänderten Kriterien auch in Deutschland da noch etwas verändert und die Diagnostik nachzieht oder beziehungsweise die Zahlen der Diagnostizierten nachziehen. Ja, und eben die Frage, ob eine Diagnose überhaupt notwendig ist, die ist einfach, wie gesagt, sehr individuell, aber so Faktoren wie der eigene Leidensdruck oder Risiken, die damit einhergehen können, es nicht zu behandeln, behandeln zu lassen, ja, die sind auf jeden Fall wert, sich mal anzusehen. Und ja, das ist so mein Fazit eigentlich.
Nächste Folge: Wie Planeten entdeckt werden im Juli (00:55:43)
Helena: Ja, und in der nächsten Folge wollen wir dann über das Thema sprechen, wie werden eigentlich Planeten entdeckt. Wir wohnen ja auf einem Planeten auf der Erde und in unserem Sonnensystem wurden im Laufe der letzten Jahrhunderte durchaus auch einzelne Planeten entdeckt, aber die meisten Planeten, die heutzutage entdeckt werden, sind außerhalb unseres Sonnensystems, sodass man, selbst wenn man mit dem Teleskop draufguckt, sie eigentlich gar nicht sehen kann und trotzdem ist man sich sicher, dass sie da sind und wie man eben hier die Daten analysiert, das wollen wir in der nächsten Folge besprechen. Die erscheint im Juli.
Call to Action (00:56:20)
Janine: Und wenn ihr diese Folge auch nicht verpassen wollt oder unsere vorangegangenen Folgen auch noch nachhören möchtet, folgt uns doch gerne auf mastodon unter @datenleben@podcasts.social oder guckt auf unserer Webseite vorbei, www.datenleben.de, da könnt ihr uns auch gerne Feedback hinterlassen oder auch per Mail und wir freuen uns immer sehr über Kommentare zu unseren Folgen und auch zu Themenvorschlägen, wie zum Beispiel das Thema, wie Planeten entdeckt werden, was auch ein Vorschlag war. Ja, und falls euch unsere Arbeits- und Denkweise gefällt, könnt ihr uns auch buchen als Data Scientist für Analysen oder Projekte und uns grundsätzlich bei Fragen schreiben oder wenn ihr Dinge habt, die euch interessieren.
Helena: Ja, dann bleibt mir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao.
Janine: Tschüss.
Outro (00:57:09)
57:21
dl050: gesellschaft, datenmüll und fahrradfahren
Episode in
datenleben
Um das Jubiläum unserer 50. Folge zu begehen, haben wir meherere Themen aus unterschiedlichen Bereichen zusammengeworfen. Als erstes geht es darum, wie Mengen sinnvoll geschätzt werden können – zum Beispiel Teilnehmer*innen auf Demonstrationen. Danach greifen wir eine Meldung auf, die eine Verkehrsrevolution in Paris verkündet hat, wo inzwischen mehr Menschen mit dem Fahrrad unterwegs sind, als mit dem Auto. Und wir haben uns der Frage gestellt, in wie fern Data Science gesellschaftliche Entwicklungen simulieren kann – und wo die Grenzen davon sind. Zum Schluss geht es um die spannende Reise der Raumsonde Voyager 1.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl023: web scraping weihnachtsmarkt
dl039: was sind natürliche experimente?
Teilnehmer*innen schätzen
ndr.de: Großdemo gegen Rechtsextremismus in Hamburg: Viel mehr Teilnehmende
wdr.de: So werden Teilnehmerzahlen bei Demos ermittelt
https://www.mapchecking.com/
taz.de: Alle zählen mit Gefühl
dlr.de: KI zählt Teilnehmer bei Großveranstaltungen
Verkehrswende zum Fahrrad
watson.de, Annika Danielmeier: Paris erlebt kleine Verkehrsrevolution – erstmals mehr Fahrräder als Autos
deutschlandfunk.de: Fahrrad erstmals deutlich beliebter als das Auto
nur-positive-nachrichten.de, Ana Huber: Pariser-Verkehrswende: Bürgermeisterin plant Umstrukturierung für Fußgänger und Fahrradfahrer
mobil.nrw: Mobilität in Paris: Verkehrswende ohne Kompromisse
arte.tv: Wie gelingt die Verkehrswende? Metropolen in Bewegung
Simulationen der Gesellschaft
books.google.de, Nigel Gilbert, Jim Doran: Simulating Societies: The Computer Simulation of Social Phenomena
arxiv.org: arXiv:1303.4692. João E. Almeida et al.: Crowd Simulation Modeling Applied to Emergency and Evacuation Simulations using Multi-Agent Systems
Voyager 1
NASA, Jet Propulsion Laboratory: Voyager
NASA, Jet Propulsion Laboratory: Voyager. Timeline
Wikipedia.de: Voyager 1
blogs.nasa.gov, Miles Hatfield: Engineers Working to Resolve Issue With Voyager 1 Computer
blogs.nasa.gov, Naomi Hartono: NASA Engineers Make Progress Toward Understanding Voyager 1 Issue
blogs.nasa.gov, Naomi Hartono: Engineers Pinpoint Cause of Voyager 1 Issue, Are Working on Solution
blogs.nasa.gov, Naomi Hartono: NASA’s Voyager 1 Resumes Sending Engineering Updates to Earth
science.nasa.gov, Phil Davis: Voyager 1, Now Most Distant Human-made Object in Space
nasa.gov, Miles Hatfield: Revisiting Decades-Old Voyager 2 Data, Scientists Find One More Secret
Schlagworte zur Folge
Data Science, Maschinelles Lernen, Mengen schätzen, Politik, Verkehrswende, Fahrradfahren, Klima, Klimapolitik, Simulation, Simulationen, Gesellschaft, Raumfahrt, Voyager 1, Technik, Weltraumforschung
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 50. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch die Welt der Daten näher bringen. Was für Daten umgeben uns? Wie gehen wir mit diesen Daten um? Und was können wir aus ihnen lernen? Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.
Thema der Folge (00:00:37)
Janine: Und das jetzt schon in der 50. Folge, die wir heute aufnehmen. Das ist also ein kleines, großes Jubiläum für uns. Und das wollten wir ein bisschen damit feiern, dass wir uns mal die Zeit nehmen, eine Folge lang kleinere Themen zu betrachten, die wir interessant finden, aber zu denen wir jetzt vielleicht nicht unbedingt eine ganze Folge machen würden aus unterschiedlichen Gründen. Und ja, deswegen haben wir diese Themen zusammengeworfen und heraus kommt jetzt hoffentlich eine für euch genauso interessante Jubiläumsfolge wie für uns. Ja, zuerst geht es darum, Zahlen zu schätzen. Eigentlich wollen wir sie ja gerne messen, zählen und Fakten haben. Aber manchmal wird auch geschätzt, wer zum Beispiel auf Demos unterwegs ist, wird das Thema kennen, die ersten Schätzungen auf Demos von den Teilnehmenden wirken immer recht hoch in den Zeitungen und in den Polizeiberichten, fallen sehr manchmal relativ klein aus. Und ja, da ist so ein bisschen die Frage, wie entsteht das, was passiert da und wie kann man eigentlich Zahlen wirklich gut schätzen, damit vielleicht auch das richtige Ergebnis dabei rauskommt oder ein annähernd richtiges. Und dann haben wir noch ein statistisches Thema, das ich ein bisschen mit dem Klimathema verknüpfe, denn es geht um Verkehrsmittel in der Stadt Paris. Da gab es kürzlich eine neue Meldung und ich wollte mich ja dieses Jahr auch ein bisschen dem Klima mehr widmen, deswegen habe ich das Thema ausgewählt. Und danach geht es weiter mit einer Frage, wie Data Science zum Beispiel nicht auch gesellschaftliche Entwicklungen simulieren könnte, ob das möglich ist und wie dieses Thema überhaupt aussieht. Zum Schluss das vierte Thema, da kommt der Datenmüll ins Spiel, aber vielleicht nicht so wie ihr jetzt denkt. Es geht nämlich schlicht und ergreifend um die wundervolle Raumsonde Voyager 1, die letztes Jahr plötzlich keine verwertbaren Daten mehr zurückgesendet hat. Und ja, und die Befürchtung war, dass diese lange Ära der Raumfahrt und Erforschung des Weltalls vielleicht doch ein Ende erreicht hat. So viel schon mal vorweg, nein, immer noch nicht. Voyager 1 fliegt und sendet weiter. Ja, das sind unsere Themen heute.
Helena: Kann man das denn fliegen nennen?
Janine: Na ja.
Helena: Ja, und wir haben das Thema jetzt einfach mal ausgewählt oder die Themen ausgewählt für die 50. Folge für unsere Jubiläumsfolge mit dem Ziel, einfach mal kleineren Themen Raum zu geben.
Wie werden Teilnehmer*innen einer Demo geschätzt? (00:03:08)
Helena: Und mit einem solchen kleineren Thema fange ich jetzt auch gleich an. Und zwar ist die Eingangsfrage hier, wie werden die Teilnehmer*innenzahlen auf Demos geschätzt? Also man wird ja durchaus in Berichten zur Demonstration immer wieder mit Zahlen konfrontiert und oft werden in Nachrichten auch mehr als eine Zahl gleichzeitig erwähnt. Nämlich oft gibt es dann eine Zahl, die von den Veranstaltenden publiziert wird und dann gibt es eine andere Zahl, die dann von der Polizei, die die Demo begleitet hat, publiziert wird. Und ja, das Thema wurde Anfang des Jahres nochmal wieder hochgespült, weil es im Januar eine große Anzahl an Demos gegen Rechtsextremismus gab. Und insbesondere bei einer in Hamburg war dann die offizielle Zahl irgendwie so um die 50.000. Und das kam dann den Politikern, die das organisiert hatten, sehr seltsam vor, weil laut deren Gefühl müsste das eigentlich deutlich mehr gewesen sein. Und deswegen wurde dann die hamburgische Innenbehörde dazu beauftragt, die Zahl nochmal neu zu schätzen oder neu zu verifizieren, was man machen kann, indem man in diesem Fall Luftbilder, die man von der Demo hatte, verwendet hat. Und dabei kamen dann 180.000 Teilnehmende heraus. Das ist ja schon fast das Vierfache und ist schon ein sehr großer Unterschied bei der Frage, wie viele Leute waren denn da. Und ja, dann ist einfach die Frage, wie schätzt man denn überhaupt diese Zahl, so eine Zahl, wie viele Leute da waren? Also ich meine, die erste Idee, wenn man eine Personenzahl haben möchte, die einem vielleicht einfällt, ist, man könnte ja die Leute einfach zählen. Das funktioniert allerdings nur dann so richtig gut, wenn man eindeutig abgegrenzte Bereiche hat, wo die Leute auch nur durch diese Bereiche rein- und raus können. Und dann platziert man Menschen an diesen Ein- und Ausgängen, die dann eben Zählung durchführen, meistens eben durch so Klickersysteme oder Handy-Apps, weil oft geht es dann auch darum, sicherzustellen, dass die Gesamtanzahl der Leute auf dem Gelände eine bestimmte Zahl nicht überschreitet. Das Thema hatten wir, als es um den Corona-Weihnachtsmarkt in Braunschweig ging, wo es nur eine gewisse Maximalanzahl an Personen geben durfte auf bestimmten Flächen. Und da hat man das eben so gemacht, da hat man dann die Leute einzeln gezählt. Eine andere Möglichkeit, Leute einzeln zu zählen, wäre, wenn man jetzt ein hoch aufgelöstes Luftbild hat. Dazu müsste man das natürlich haben und jemand müsste motiviert sein, das zu zählen, was bei vielen 10.000 Leuten so eine Sache ist. Deswegen gibt es andere Methoden, um auf Demos zu schätzen, wie viele Leute da waren oder auf Veranstaltungen im Allgemeinen. Und die erste Methode, die man hier nehmen kann, um zu schätzen, ist, ich weiß, wie viele Leute letztes Jahr da waren auf der gleichen Veranstaltung und wie es jetzt aussieht, ob es nach mehr Leuten oder weniger Leuten aussieht. Und dann denke ich, ja, es könnte jetzt ein Drittel mehr sein und letztes Jahr waren es, keine Ahnung, 3.000 Leute, dann sind es jetzt wahrscheinlich 4.000 Leute. So. Das ist natürlich die gröbste Variante. Die nächste Methode, die verwendet wird, um die Personenanzahl zu schätzen, ist, nun man guckt sich an, über was für einen Bereich sich die Leute so ausgebreitet hat. Das kann man zum Beispiel durch Luftaufnahmen machen, wie das jetzt in Hamburg gemacht wurde. Man kann natürlich auch Fotos von anderen Orten nehmen, also irgendwas, wo man relativ gut überschauen kann, wo überall Leute gestanden haben. Und dann muss man sich überlegen, wie viele Personen stehen denn so oder wie dicht stehen denn diese Leute. Da gibt es dann so Anhaltspunkte, wenn es jetzt irgendwie eine nicht besonders stark besuchte Veranstaltung ist, dann rechnet man so mit einer Person pro Quadratmeter. Und bei dichtgepackten Konzerten, wo die Leute natürlich alle möglichst nah an die Bühne möchten, geht man eher von vier Personen pro Quadratmeter aus. Das heißt, die normale Demo liegt irgendwo dazwischen bei zwei bis drei. Das ist natürlich durchaus relevant, zu wissen, wie dicht das ist, weil das natürlich auch hier immer noch um Faktor zwei locker die Menge an Menschen ändern kann. Um das einfacher zu machen, gibt es die Webseite mapchecking.com. Dort gibt es auf der einen Seite, also erstmal sieht man eine Karte, in der kann man dann einzeichnen, in welchem Bereich die Leute denn alle gestanden haben. Und die rechnet dann aufgrund der Geodaten aus, wie groß diese Fläche eigentlich ist. Und dann kann man dann auch angeben, wie viele Leute denn pro Quadratmeter standen. Und was die auch haben, ist ein paar Beispielbilder, wo man Leute schräg von der Seite sieht, mit verschiedenen Packungsdichten quasi, um ein Gefühl dafür zu haben, wenn man sich das ganze Foto anguckt, ob das jetzt eher zwei Leute pro Quadratmeter oder drei Leute pro Quadratmeter waren. Damit lässt sich dann sehr gut die Anzahl der Personen schätzen auf so einer Demo. Sehr gut heißt dann aber immer noch, dass die Fehlerquote mit so 20 bis 30 Prozent angenommen wird. Also...
Janine: Ja.
Helena: ...aufgrund von, ja, dessen, dass man es immer nicht so genau weiß. Man sieht ja auch potenziell nicht alle Leute und theoretisch kann sich ja auch die Anzahl der Leute ändern, die zu einem bestimmten Zeitpunkt da waren. Dass am Anfang waren es, keine Ahnung, 10.000 Leute auf der Veranstaltung, dann gehen 5.000 weg und es kommen 10.000 weitere zu und dann sind es plötzlich 15.000. So, wenn das irgendwie ein paar Stunden geht. Dann kommt man natürlich auch maximal auf 15.000 gesamt, weil man ja nicht die Menschenströme erfasst und nicht weiß, ob welche zweimal oder dreimal da reingekommen sind.
Janine: Ich glaube auch die interessanteste Zahl bei Demonstrationen ist eigentlich, was war das Maximum, was erreicht wurde an gleichzeitig anwesenden Menschen.
Helena: Ja, und das ist natürlich aus verschiedenen Gründen für verschiedene Leute sehr interessant. Also die Leute, die eine Demo organisiert haben, wollen natürlich, dass möglichst viele Leute da sind. Und wenn die Zahl höher ist, ist es natürlich vorteilhaft, weil man dann das Gefühl hat, man war deutlich relevanter. Dann gibt es noch die Polizei, die eigene Interessen hat, die Zahlen zu haben. Zum einen, je nachdem wie viele Leute da sind, muss man ja auch eine andere Menge an Straßen sperren oder den Verkehr für länger aufhalten, wenn der Zug deutlich länger ist. Und bei so politischen Demonstrationen gibt es in der Regel auch so Auflagen von der Kommune oder der Polizei, wo man dann sagt, ja, man braucht pro 50 Personen eine Ordner*in, die dann aufpasst, dass alles okay ist. Und das wird dann aber mit den Zahlen der Polizei gerechnet. Das ist so gesehen für die Veranstaltenden sogar vorteilhaft, wenn die Zahl ein bisschen zu niedrig ist, weil das dann den Aufwand, das zu organisieren, auch ein bisschen reduziert...
Janine: Ja.
Helena: ...die Anzahl der Leute.
Janine: Ja, das betrifft aber vor allem im Voraus, länger im Voraus angemeldete Demonstrationen, nur um das mal als Begriff fallen zu lassen. Es gibt auch die Möglichkeit, spontan Demos anzumelden. Da ist in der Regel das ja oft gar nicht so weit im Voraus zu planen, wie viele Menschen es dann tatsächlich werden. Diese Option besteht aber auch
Helena: Ja.
Janine: Nur mal so als Einwurf.
Helena: Das Demonstrationsrecht ist ja in einer Demokratie ein sehr wichtiges und das muss auch spontan gehen, weil es einfach immer wieder Ereignisse gibt, die ja sehr spontan es nötig machen.
Janine: Ja, dass man nicht länger im Voraus etwas anmelden kann. Genau. Ich habe, bevor du zu deinem letzten Punkt in diesem Thema kommst, weil du das gerade ja schon mal angedeutet hast, es gibt unterschiedliche Gründe für die verschiedenen Parteien, die Zahlen so zu nennen, wie sie genannt werden. Ich habe ein Interview in der TAZ gelesen mit einem Protestforscher, der sagt, dass tatsächlich auch, dass die Zahlenunterschiede eben oft auch politische Interessen zeigen. Also, wenn man jetzt hier von der Polizei ausgeht, da könnten die Zahlen manchmal heruntergespielt werden, wenn es um eine Thematik geht, die als staatsbedrohend ist, die Wortwahl, die er hier hatte, angesehen wird und naja, die Veranstalter versuchen natürlich, das ein bisschen zu kompensieren und drehen die Zahlen dann etwas hoch wieder, sagt er. Und ja, bemerkenswerte Ausnahmen, sagt er, gibt es allerdings auch, denn wenn staatsnahe Proteste stattfinden, dann ähneln sich die Zahlen von Veranstaltenden und der Polizei teilweise recht gut. Also, es ist sozusagen, die politische Mitte ist so ein bisschen angeglichener und wenn es in die Randbereiche kommt, dann verändern sich die Zahlen doch schon ein bisschen so im Verhältnis zueinander.
Helena: Ja, ich kann mir an der Stelle auch sehr gut vorstellen, dass in der politischen Mitte man auch gerne als Veranstaltende einfach die Polizeizahlen übernimmt.
Janine: Eventuell auch das, ja. Aber das ist ja noch so eine Bemerkung zu einem Artikel in der TAZ, wo ein Protestforscher sich dazu geäußert hatte.
Helena: Ja, gut. Also, ich hatte ja schon gesagt, dass man ja Luftaufnahmen ganz gut verwenden kann, um die Personen zu schätzen. Aber wenn das eine Luftaufnahme ist, die besonders hoch aufgelöst ist, könnte man ja auch auf die Idee kommen, die zu zählen per Hand. Das ist bei mehreren 10.000 Leuten natürlich ziemlich großer Aufwand, aber das hat man beim DLR tatsächlich gemacht. Also, DLR ist das Deutsche Forschungszentrum für Luft- und Raumfahrt. Und das Ziel war, weshalb die das per Hand gezählt haben, dass man halt eine KI trainieren kann damit. Und das haben die dann eben mal ausprobiert und die Ergebnisse sahen auch ganz gut aus. Also, die haben das im Kontext von Konzerten gemacht. Ja, und da passen dann die Zahlen deutlich besser als jetzt diese 20 bis 30 Prozent. Also, vielleicht gibt es dann auch irgendwann eine Demo-KI, um die Teilnehmerzahl zu zählen. Weil, wenn man die Fotos hätte, also, wenn man ein Foto hat, wo alle drauf sind, geht es wahrscheinlich noch relativ leicht, wenn man jetzt mehrere hat, die man zusammenstückeln muss. Dann gibt es ja auch immer das Problem, dass es sich natürlich zusätzlich bewegt haben kann und so.
Janine: Ja.
Helena: Muss man dann nochmal genauer gucken, inwieweit so eine KI da wirklich helfen kann. Aber ja, eventuell werden die Zahlen auf Dauer noch genauer. Mal schauen.
Janine: Das wäre ja auch nicht schlecht. Ja, ich habe das Map-Checking-Tool auch einmal benutzt nach einer Demo und fand, das hat ganz gut gepasst, weil ich aber auch Webcam-Bilder mit einbeziehen konnte und gucken konnte, wie dicht standen die Menschen tatsächlich und nicht nur an der Stelle, wo ich war, sondern so ein bisschen mehr den Überblick hatte. Und natürlich war dadurch auch ganz gut ersichtlich, wo der eigentliche Bereich war, wo die Leute überhaupt dann standen, weil es war keine Demo mit Demo-Zug, sondern eben eine stationäre Demo. Und ja, aber es hat tatsächlich meinem Gefühl nach ganz gut gepasst dann.
Helena: Ja, vielleicht haben die Leute ja, die Veranstaltenden ja auch Map-Checking benutzt.
Janine: Eventuell.
Wie läuft die Verkehrswende in Paris? (00:14:27)
Helena: Ja, aber abgesehen davon, ein Grund, um eine Demonstration zu machen, ist natürlich die Klimapolitik, die nicht besonders gut aussieht. Und in diesem Bereich fällt ja auch dein nächstes Thema.
Janine: Genau. Und zwar sogar ein Positivbeispiel, könnte man sagen. Die Frage ist nämlich, wie läuft die Verkehrswende in Paris? Eventuell habt ihr es mitbekommen, vor gut drei Wochen, zum Zeitpunkt unserer Aufnahme, also Mitte April etwa, gab es eine Schlagzeile, dass die Stadt Paris in der Verkehrswende gerade ganz große Schritte macht, und zwar titelte Watson zum Beispiel "Paris erlebt kleine Verkehrsrevolution. Erstmals mehr Fahrräder als Autos". Und das ist doch eine ganz schöne Schlagzeile, wo man dann mal hingucken kann, wie das eigentlich aussieht. Woher kommen die Zahlen erst mal? Forscher*innen haben im Zeitraum von Oktober 2022 bis April 2023 die Bewegungen von 3.337 Einwohner*innen der Region Paris im Alter von 16 bis 80 Jahren nachverfolgt, und diese Daten wurden dann ausgewertet. Und das hat dann ergeben, dass 4,3 Prozent der Wege mit dem Auto zurückgelegt werden, 11,2 Prozent mit dem Fahrrad, 30 Prozent sind öffentliche Verkehrsmittel und 53,5 Prozent sind tatsächlich zu Fuß unterwegs. Und das sind so die aktuellsten Zahlen, die da für Paris erschienen sind, und die sehen tatsächlich ziemlich gut aus. Und das Auto hat, wenn ich mich richtig erinnere, sogar einige Prozentpunkte verloren. Ja, und das Fahrrad steht da gar nicht so schlecht da mit den 11,2 Prozent. Ein Punkt ist allerdings auch, dass das innerhalb der Vorstädte und Randbereiche natürlich noch mal wieder ganz anders aussieht. Das soll aber künftig auch mit Zug und Stadtbahn weiter ausgebaut werden, um auch da die Autonutzung zu reduzieren. Das heißt, diese schöne Schlagzeile "Erstmals mehr Fahrräder als Autos" betrifft halt vor allem tatsächlich das Pariser Zentrum eher.
Helena: Ja, also als Person, die jetzt seit kurzem wieder auf dem Dorf wohnt und jetzt auf das Auto angewiesen ist, muss ich sagen, ich finde es gut, wenn der öffentliche Nahverkehr, insbesondere Straßenbahnen, gut erreichbar sind mit so Parkplätzen in Außenbezirken, wo man gut hinkommt. Das ist deutlich angenehmer, dann mit der Straßenbahn irgendwie oder mit der U-Bahn in die Stadt reinzufahren und sich da dann zu Fuß vorzubewegen,...
Janine: Ja.
Helena: ...als irgendwie diesen stressigen Verkehr in Innenstädten mitzunehmen. Gerade wenn Städte größer werden. Je größer Städte werden, desto schlimmer ist der Verkehr. Also wenn ich mal durch Berlin mit dem Auto gefahren bin, das war die Hölle.
Janine: Ja.
Helena: Also es war noch nie so schlimm wie da.
Janine: Das ist tatsächlich auch ein ganz guter Punkt, weil die Zahlen an sich sind ja ganz nett. Sie werden seit einigen Jahren erhoben. Menschen sagen, jetzt ist das Fahrrad erstmals vor dem Auto und der Autoverkehr in der Stadt Paris geht zurück. Das klingt ja total super, garantiert fürs Klima, für die Menschen, für die Luftqualität, die Gesundheit im Allgemeinen. Aber was ist die Geschichte dahinter? Warum klappt das in Paris jetzt? Und haben die Menschen das einfach so gemacht? Nee, auch ähnlich wie du es gerade sagst. Es ist fast einfach nicht mehr möglich geworden, sinnvoll von A nach B zu kommen mit dem Auto in Paris. Also mussten auch tatsächlich andere Lösungen her. Es ist nämlich tatsächlich so, dass aufgrund der Klimapolitik, die in Paris auch an den Tag gelegt wurde, sehr viel in Fahrradwege investiert wurde und die Zahl der Autoparkplätze wurden auch massiv reduziert. Das war auch schon 2014 zum Beispiel der Fall, als die Bürgermeisterin Hidalgo ins Amt gekommen ist, auch mit dem Versprechen für eine bessere Infrastruktur, was Fahrradwege und so weiter angeht, zu sorgen. Und das politische Versprechen hat sie auch angefangen umzusetzen. Was in Paris seitdem passiert ist, ist, dass zum Beispiel Ufer der Seine für Autos gesperrt wurden und damit eben eine andere Nutzung möglich geworden ist, um sich da eben zu Fuß oder mit dem Fahrrad zu bewegen. Es wurde unglaublich viel in das Fahrradnetz investiert, das heißt, Fahrradwege wurden ausgebaut und schon 2020 gab es einen Artikel, der gemeldet hat, dass seitdem diese Planungen auch umgesetzt werden, die Fahrten mit dem Rad unter pendelnden Menschen in Paris um 50 Prozent gestiegen seien. Das war 2020 schon. Und insgesamt haben halt verschiedenste Maßnahmen dazu geführt. Es gab eben die Tempolimits dann auch noch, die Reduzierung von Parkplätzen und kürzlich wurden ja auch die Parkgebühren für SUVs im Pariser Zentrum erhöht per Bürgerentscheid. Und auch das wird weiter dazu beitragen. Und es gab eine Phase, das fand ich ganz besonders spannend, da wurde eine radikale Ahndung von Verkehrsdelikten gemacht. Das heißt, Autos haben schneller und mehr Parkzettel bekommen, also hier, wie heißen das?
Helena: Strafzettel.
Janine: Strafzettel wegen Falschparkens und andere Dinge. Das ist ja ein häufiges Fahrradproblem, was Fahrradfahrende in Großstädten haben, zum Beispiel, wenn man mal auf, ja, Mastodon, sozialen Medien sich umschaut, dass eben viel Lieferverkehr zum Beispiel auch auf eigentlich Radwegen steht und dergleichen und dass das selten bis gar nicht wirklich geahndet wird. Und da wurde in Paris auch teilweise sehr hart durchgegriffen, sodass da eben Menschen mehr die Konsequenzen gespürt haben. Und ja, das sind so Maßnahmen, die dazu geführt haben. Gab natürlich auch viel Kritik daran, teilweise aus unterschiedlichen Richtungen und unterschiedlichen Gründen. Aber letztendlich ist es halt tatsächlich so, dass die Menschen nicht deswegen aufs Fahrrad gewechselt sind in Paris, weil ihnen die Luftqualität so besonders wertvoll erscheint, sondern halt, weil es die bequemere und schnellere Alternative ist. Also eine Sache, die die Bürgermeisterin auch umsetzen möchte, ist, dass kurze Wege möglich sind, dass du tatsächlich mit dem Fahrrad schneller irgendwo bist, als würdest du das Auto nehmen. Und dann nutzen die Menschen eben auch quasi zwangsweise das Fahrrad.
Helena: Ja, ich finde gerade in Städten ist es ja meistens so, dass das Fahrrad einfach schneller ist, weil man muss keine Parkplätze suchen.
Janine: Ja.
Helena: Was im Stadtverkehr eigentlich das Hauptproblem mit dem Auto ist, zumindest bei so einer Stadt wie Braunschweig, da ist es selten so verstopft, dass es einfach gar nicht mehr geht. Aber da ist das Parkplatz suchen das Hauptding.
Janine: Mhm.
Helena: Und dann braucht man für die Parkplatzsuche so lange, wie man mit dem Fahrrad gebraucht hätte für die gesamte Strecke.
Janine: Ja, auf jeden Fall.
Helena: Aber dazu müssen die Fahrradwege auch gut genug sein. Und das ist halt so die Grundvoraussetzung.
Janine: Ja. Jedenfalls ist das die Geschichte hinter den wunderbaren Zahlen aus Paris, was die Gründe angeht, warum die fahrradfahrende Bevölkerung dort inzwischen immer weiter anwächst und wahrscheinlich auch noch anwachsen wird. Falls sich irgendwer von euch dafür interessiert, wie das vielleicht in anderen Städten auch aussieht. Es gibt in der arte Mediathek noch eine Doku, die noch bis November jetzt in der Mediathek bleiben wird, wo es auch darum geht, wie gelingt die Verkehrswende. Und mit im Fokus sind da unter anderem Städte wie Barcelona, Berlin und auch Paris. Und das ist eigentlich ja ganz spannend, sich die unterschiedlichen Wege und Zugänge mal anzugucken, die dazu führen könnten, dass das vielleicht auch in anderen Städten umgesetzt wird. Paris hat halt eine hohe Handlungsnotwendigkeit aufgrund der auch erlebten Hitzewellen der vergangenen Jahre. Und deswegen ist da wahrscheinlich auch genug Druck da, um Sachen umzusetzen. Und ja, vielleicht denkt man ja an anderen Stellen auch mal drüber nach.
Können gesellschaftliche Entwicklungen simuliert werden? (00:22:19)
Janine: Das ist so eine gesellschaftliche Entwicklung, die eigentlich total begrüßenswert ist und wo man sich vielleicht manchmal fragt, warum machen wir das nicht? Weil es klingt doch sinnvoll und gut und es gibt doch inzwischen Wege. Und ja, Gesellschaft funktioniert manchmal sehr undurchdringlich, habe ich das Gefühl. Und wir haben die Frage bekommen, kann man da nicht irgendwie Dinge prognostizieren? Also wie kann man gesellschaftliche Entwicklungen simulieren? Was führt zu was? Wo werden wir in einigen Jahren sein? Das ist so eine interessante Frage und der wollten wir uns ja auch widmen, nicht wahr, Helena?
Helena: Ja, genau, wir haben eine E-Mail bekommen mit der Frage, ob man dann auch eben gesellschaftliche Entwicklungen simulieren könnte und ob das getan wird. Und da mein erster Gedanke dazu, das ist doch einfach gar nicht möglich. Aber ich habe trotzdem einmal geschaut, ob es dazu was gibt und habe dazu ein Buch gefunden von einer Konferenz, die sich mit diesem Thema auseinandergesetzt hat. Das haben wir dann auch verlinkt. Und da haben die zum Beispiel versucht, das Ende der Maya-Kultur zu simulieren. Ja, grundsätzlich kann man dazu Verschiedenes sagen. Zum einen muss man erstmal überhaupt wissen, was man eigentlich modellieren will. Und dann ist auch immer noch bei jeder Modellierung oder bei jeder Simulation ist die Frage, wie kann ich eigentlich feststellen, dass das Modell, was ich habe, auch die richtigen Ergebnisse produziert? Und das wird ja auch beim Training von künstlicher Intelligenz dadurch gelöst, dass man auf der einen Seite die Trainingsdaten hat, aber dann auch immer noch Daten zum Verifizieren hat, des Modells, die nicht in das Training eingehen, weil dann würde das ja quasi nur ein auswendig Lernen sein und nicht anwendbar auf andere Dinge sein. Oder bei Klimasimulationen zum Beispiel werden dann aus Wetterdaten, die man so hat, aus der Vergangenheit, dann wird das Modell nicht von heute angerechnet erstmal, sondern es berechnet dann zum Beispiel die letzten 20 Jahre des Klimas auf Basis der Daten, die man vor 20 Jahren hatte. Da haben wir ja zum Glück mittlerweile einige Jahrzehnte Wetteraufzeichnung, um das machen zu können. Und dann schaut man, ob das für diese 20 Jahre auch sinnvolle Ergebnisse produziert hat. Und dann kann man auch in die Zukunft extrapolieren mit dem Modell. Wenn man einfach nur sich irgendwas ausdenkt und dann irgendwas simuliert und sagt, man hat das simuliert und das hat man nicht sinnvoll verifiziert mit irgendeinem Datensatz, dann ist das komplett wertlos. Aber das ist halt nicht so einfach bei gesellschaftlichen Entwicklungen. Da bräuchte man erstmal verschiedene Eingangsdaten. Zum Beispiel müsste man ja das Environment, also die Umgebung, die Natur, andere Gesellschaften, also wenn man jetzt zum Beispiel die Maya simulieren will, muss man natürlich bedenken, an welchem Zeitpunkt kommen die vielleicht mit den Azteken in Kontakt oder mit den Spaniern und wie handeln die. Das muss man eben als Daten erstmal zur Verfügung haben. Dann muss man die Komplexität berücksichtigen, die das Verhalten von Gesellschaften hat. Und man muss das irgendwie sinnvoll einfangen. Dann so die Verteilung der Menschen muss man erstmal wissen. Also in so einer Gesellschaft verteilen sich Menschen ja auf verschiedene Untergruppen, in die das strukturiert ist, wie verschiedene Städte oder in diesen Städten gibt es dann auch noch einzelne andere Gruppen. Es gibt Spezialisierungen, dass manche Orte besonders auf manche Produkte spezialisiert sind und handeln und so weiter. Dann ist das Thema die Handlungsfähigkeit des Menschen. Menschen sind denkende Wesen. Menschen können planen und sich Dinge ausdenken, berücksichtigen dabei auch, wie andere Menschen darauf reagieren würden zum Beispiel. Man müsste bedenken, wie das Gehirn funktioniert. Also zum Beispiel, wenn man jetzt in so einer Simulation einen Krieg stattfinden hat, dann führt das ja auch zur posttraumatischen Belastungsstörung und was bedeutet, dass Menschen, die im Krieg waren, sich nach dem Krieg völlig anders verhalten würden als vorher. Mit den gleichen Gegebenheiten ansonsten. Und dadurch ändern sich eben die Handlungsoptionen. Dann muss man natürlich bedenken, Menschen können kommunizieren. Menschen können schreiben oder sprechen. Sie können miteinander Informationen austauschen. Und was mit diesen Informationen passiert, ja, und wie man sich dann koordiniert, ist natürlich etwas, was sehr stark einen Einfluss darauf hat, ja, was die Menschen dann auch tun. Selbst wenn man all diese Informationen irgendwie hat, dann braucht man immer noch ein Modell von Gesellschaften. Und wir haben eine komplett eigene Wissenschaft der Soziologie, die sich genau damit beschäftigt. Aber im Gegensatz zu so was wie der Physik gibt es da eben kein allgemeingültiges Modell von Gesellschaften, das auf jeden Fall all diese Punkte abdeckt und dann auch noch numerisch greifbar macht.
Janine: Ja, und gerade wenn auch so Sachen wie die Natur mit berücksichtigt werden, was ist denn mit der Vorhersage vom Auftreten bestimmter Katastrophen wie großer Vulkanausbrüche, was wir letztens hatten. Ja, und solche Dinge, die ja auch eigentlich wahrscheinlich in die Geschichte mit eingreifen, wie schnell sich an welchem Ort etwas entwickelt oder nicht.
Helena: Das kommt ja noch dazu. Also ja, menschliche Systeme sind einfach so komplex, dass es numerisch nicht wirklich greifbar ist. Und wenn man anfängt, dann Gesellschaften tatsächlich zu simulieren oder so, dann begrenzt man sich auf sehr kleine Teilbereiche. Vielleicht simuliert man dann nicht mehr die Gesellschaft als Ganzes, sondern einzelne Situationen. So als Alternative zu eben Simulationen von Gesellschaften muss man dann eben auf so etwas wie natürliche Experimente zurückgreifen. Dazu haben wir eine eigene Folge gemacht. Und da geht es dann auch darum, wie erforscht man eigentlich, ja, wie Menschen auf bestimmte Dinge, die sich ändern, reagieren. So, dazu muss man die erstmal ändern und dann kann man sich das angucken. Was man jetzt hingegen per Computersimulation durchaus schon hingekriegt hat, ist zum Beispiel wie gut schafft es eine Menschenmenge aus einem begrenzten Gebiet zu flüchten. Also wenn man jetzt auf einem Konzert ist, so einer Großveranstaltung, und dann stürzt plötzlich die Bühne ein, da müssen alle Leute weglaufen. Zu sowas gibt es tatsächlich Computersimulationen.
Janine: Ja, und das ist ja auch gar nicht so unwichtig oder dergleichen, weil eben, ja, wenn man aus begrenzten Gebieten flüchten muss und Panik ausbricht, ist halt wichtig, dass sozusagen der Raum, in dem man sich befindet, so strukturiert ist, dass die Flucht leicht möglich ist. Also Sicherheitskonzepte, Brandschutz und so weiter kommen da ja auch ins Spiel. Wie verhalten sich eben Menschen auf der Flucht, auch gerade dann, wenn sie in Panik geraten?
Helena: Ja, von daher ist es gut, dass das gemacht wird. Ja, wenn man jetzt aber Gesellschaften nicht simulieren kann durch mathematische Modelle, durch Computer, dann gibt es trotzdem eine Möglichkeit, irgendwie doch so ein bisschen sowas zu machen. Und das Ganze nennt sich Literatur. Sehr viele Geschichten, ja, fangen damit an, dass man ein bestimmtes Setting erfindet und dann einfach guckt, ja, was tun denn die Charaktere in diesem Setting so?
Janine: Die schöne Frage, was wäre, wenn?
Helena: Ja, und vermischt wurden diese beiden Punkte in der Science-Fiction-Reihe namens Foundation von Isaac Asimov. Und zwar geht es in dieser Reihe darum, dass jemand das Forschungsfeld der Psychohistorie erfindet und die Idee ist damit, dass man eben, ja, genau das tun kann, das Verhalten von menschlichen Gesellschaften auf Jahrhunderte vorherzusagen. So, man kann da nicht sagen, die einzelnen Individuen tun dies und das, sondern so, ja, die Gesellschaft tut dies und das. Zum Beispiel, was in dieser Geschichte passiert ist, dass der Erfinder vorhersagt, ja, in einigen Jahrhunderten wird das galaktische Imperium zusammenbrechen und dann gibt es eine 10.000 Jahre dauernde Periode, in der Chaos herrscht. Ja, dann dreht sich eben die Geschichte darum, dass er berechnet, wenn man ganz bestimmte Interventionen macht, dann kann man diesen Zeitraum auf 1.000 Jahre begrenzen. Deswegen ist der deutsche Titel des ersten Buches auch "Der 1.000 Jahre Plan".
Janine: Das klingt tatsächlich mal wieder sehr deutsch als Titel.
Helena: Genau, und dann dreht sich diese, ja, Romanreihe erstmal darum, dass, ja, es wird eben diese Foundation gegründet, das ist dann quasi eine Siedlung auf einem Planeten, die ein bisschen abseits vom galaktischen Imperium ist, den Randbereichen. Das heißt, die ist dann nicht von dem Zusammenbruch so hart betroffen und da soll quasi die Gesellschaft aufgebaut werden, die dann innerhalb dieser 1.000 Jahre eben die Galaxis wieder übernimmt. Was dann eben auch berechnet wird und deswegen sind die ersten beiden Romane vor allen Dingen eher mehrere Kurzgeschichten und die werden mit jeder Geschichte ein bisschen länger, dass man dann immer sagt, ja, nach so und so vielen Jahrzehnten wird diese folgende Krise auftauchen und dann hat er schon eine Intervention berechnet, was man da tun soll. Das heißt, es gibt dann quasi ein Schrein, wo die Leute dann, wenn wir merken, ja, es geht gerade nicht mehr weiter, es gibt ein Problem, da gehen die dann hin und kriegen dann die Antwort, weil er auch relativ präzise die Jahre vorher gesagt hat, in denen diese Probleme auftauchen und gelöst werden sollen. Aber ein wichtiger Punkt ist ja auch, dass diese Lösungen ja vorher nicht schon den Leuten verraten werden, weil dann müsste man ja mit berücksichtigen, dass die Leute das ja schon wissen, was man dann tun muss. Ja, jedenfalls geht es in dieser Romanreihe dann erstmal darum, ja, wie diese Foundation wächst aufgrund dessen, dass man es vorhergesagt hat, bis dann eben der Punkt kommt, dass ich glaube, das ist das dritte Buch, in dem Asimov dann einen Charakter einführt, der von einem Planeten kommt, der nicht berücksichtigt werden konnte, wo es irgendwie eine Mutation gab bei den Menschen. Der konnte plötzlich die Gedanken von Menschen beeinflussen und der wurde dann ein, ja, Tyrann, ein Gewaltherrscher quasi, wobei Gewalt braucht er dann ja nicht mehr unbedingt, wenn er die Menschen einfach manipulieren kann. Und damit zeigt Asimov natürlich auch wieder die Grenze von diesem ganzen Konzept auf, weil ja, es gibt dann unvorhergesehene Entwicklungen, in diesem Fall diese Person, die dann plötzlich alles verändert. Deswegen gab es dann in der Foundation auch noch irgendwie ein Fallback, also so eine Gruppe von Menschen, die aufpassen soll, dass tatsächlich auch die Dinge so passieren, wie sie passieren. Ja, aber letztlich zeigt Asimov, dass er zwar diese Idee hatte, aber dass die halt auch nur begrenzt funktioniert. Und letztlich hat man ja, wenn man in der Realität, in unserer Wirklichkeit Gesellschaften simulieren würde, auch immer das Problem, es ist ja alles gut und schön, wenn alle Modelle wunderbar sind, aber dann bricht ein Vulkan aus oder ein Asteroid stürzt auf die Erde und das war's dann, die Simulation funktioniert nicht mehr, weil die Gegebenheiten einfach nicht mehr die gleichen sind. Und Asimov hat das ja auch in seiner Roboter-Reihe, wo er die Roboter-Gesetze erfunden hat, ja auch schon gemacht. Er hat die Gesetze erfunden, die erstmal irgendwie nötig sind, damit die Roboter eben keinen Schaden anrichten. Aber gleichzeitig beinhalten die Geschichten auch immer, dass man diese Gesetze wieder auf die Probe stellt und zeigt, wo die eigentlich ihre Grenzen haben. Und das hat Asimov in der Foundation-Reihe eben genauso gemacht.
Janine: Ja, und das ist ja grundsätzlich auch das Wunderschöne an Literatur und Fiktion im Allgemeinen, dass eben einfach Sachen hinterfragt, ausprobiert und auf die Probe gestellt werden können.
Helena: Ja, und wenn sie gut gemacht ist, hat man auch schon sehr viele Aspekte mitgedacht. Das konnte Asimov auf jeden Fall, solche Ideen auch sehr gut auf die Probe stellen.
Wie verläuft die Reise von Voyager 1? (00:34:15)
Helena: Ja, was er selber nicht unbedingt konnte, war, auf andere Planeten selber zu reisen. Das mussten seine Charaktere machen. Und damit kommen wir zu deinem nächsten Thema.
Janine: Ja, eine Reise.
Helena: Das Voyager-Programm, wo insbesondere ein Kollege von Asimov sehr viel mit zu tun hatte, der Autor Carl Sagan, der die Schallplatte designt hat, auf der wir quasi als Menschheit zeigen, falls irgendwelche außerirdischen Zivilisationen oder Menschen in einigen tausend Jahren auf die Voyager-Sonden treffen, dass sie dann von uns redet. Was zeichnet Menschen aus? Da wurde Raumfahrt und Literatur gepaart quasi.
Janine: Ja, vor allem Kunst auch.
Helena: Und Kunst. Asimov hat tatsächlich bei der Voyager Golden Record auch mitgeholfen.
Janine: Ah, sehr schön.
Helena: Das heißt, es gibt sogar einen direkten Überleitung. Aber es geht jetzt nicht um die Golden Record, sondern um die Daten von der Voyager-Sonde.
Janine: Genau, in diesem Fall der Voyager 1 konkret. Ich hatte ja vorhin schon gesagt, hier kommt das Thema Datenmüll ins Spiel. Und zwar, ja, die Reise der Voyager 1 startete vor 45 Jahren. Die Voyager-Mission besteht aus zwei Raumsonden, Voyager 1 und Voyager 2, die in unterschiedliche Richtungen davongeschickt wurden, mit dem Ziel, die äußeren Planetensysteme und den interstellaren Raum zu erkunden. Und zwar ist sie jetzt seit nunmehr 17.045 Tagen im All unterwegs und hat, wenn ich das hier jetzt richtig lese, eine Distanz von etwa, ja, 24,5 Milliarden Kilometern zurückgelegt von der Erde bis in den interstellaren Raum, wo sie jetzt immer noch unterwegs ist, mit einer Geschwindigkeit von etwa 61.000 Kilometern pro Stunde. Was auch schon mal sehr beachtlich ist.
Helena: Das ist ganz schön schnell.
Janine: Ja, ziemlich schnell. Genau, der Datenmüllvorfall, so habe ich es mal genannt, wurde bekannt im Dezember letzten Jahres. Am 12. Dezember 2023 hat die NASA auf dem Blog der Voyager-Mission gemeldet, dass die Sonde nicht mehr richtig funktioniert und ein Untersystem dieser Sonde eben keine Daten mehr an die Erde zurück sendet. Und es kam nur noch ein sich wiederholendes Datenmuster an, bestehend aus Nullen und Einsen.
Helena: Obviously.
Janine: Obviously, ja. Das Binär-Zahlensystem, in dem eben Datenübermittlung stattfinden kann. Ja, die Daten waren aber nicht mehr sehr sinnvoll. Es wurde ständig ein und dasselbe Datenmuster wiederholt, als würde die Sonde quasi in einem Loop feststecken. Und der erste Versuch, "Have you tried to turn it off and on again?" natürlich, hat keine Wirkung gezeigt. Das heißt, der Fehler ist danach nicht verschwunden. Und somit war eigentlich klar, dass da irgendetwas anderes im Gange ist. Und das war der Moment, wo klar geworden ist, dass es jetzt sehr interessant wird, diesen Fehler vielleicht zu beheben, weil nämlich die Herausforderung, die sich den Menschen bei NASA dann gestellt hat, war, überhaupt zu verstehen, wie die Sonde aufgebaut ist und wie sie funktioniert und wie der ganze Code funktioniert in dieser Tiefe, um dieses Problem zu beheben. Natürlich arbeiten sie mit der Sonde schon sehr lange, aber um wirklich ein tiefgreifendes technisches Problem an dieser Sonde, die sich im interstellaren Raum befindet, lösen zu können, mussten halt jahrzehntealte Dokumente konsultiert werden, die von Ingenieuren geschrieben wurden, die teilweise nicht mehr leben oder nicht mehr bei der NASA arbeiten, in Rente sind und all das.
Helena: Ja.
Janine: Weil, nun ja, die Planungen für diese Voyager-Mission haben 1972 begonnen.
Helena: Ja, wer auch immer damals noch bei der NASA war, ist jetzt auf jeden Fall nicht mehr da. Also ich glaube, selbst wenn die in den USA länger arbeiten als hier, wird das doch sehr knapp.
Janine: Ja.
Helena: Und wenn, dann wären das nur die Azubis quasi, die dann vielleicht noch da sein könnten. Wer weiß, wie viele überhaupt damit arbeiten durften.
Janine: Und deswegen war auch einfach klar, es muss erst mal verstanden werden, wie dieses Subsystem, was da entdeckt werden konnte, was für die Fehler verantwortlich ist, überhaupt aufgebaut ist und so. Weil jetzt einfach neue Befehle an die Sonde zu schicken, um vielleicht Sachen zurück zu bekommen, könnte dazu führen, dass einfach Konsequenzen entstehen, die nicht zu beheben sind. Und das sollte natürlich vermieden werden. Deswegen wurde sich diesem Thema sehr, sehr lange und intensiv gewidmet. Es gab dann zwischendurch Fortschritte bei der Analyse des Problems. Es konnte ein bisschen eingegrenzt werden. Und am 4. April gab die NASA bekannt, dass das Problem tatsächlich erkannt ist und an der Lösung gearbeitet wurde. Und zwar ist offensichtlich eine kleine Einheit eines Speichers das Problem gewesen, das eingegrenzt werden konnte. Und dieses Subsystem, wo das drin vorkam, ist nämlich dafür verantwortlich, die gesammelten Daten, also die wissenschaftlichen Daten, die gesammelt werden, und auch die Daten über die Sonde selbst, das heißt, in welchem Zustand befindet sie sich, laufen die Systeme und so weiter, diese Daten zu verpacken und dann zur Erde zu schicken. Das heißt, deswegen sind keine Daten mehr angekommen, was aber schon mal die Vermutung erlaubt hat, es werden wahrscheinlich trotzdem noch Daten gesammelt.
Helena: Das ist ja schon mal gut. Die wollen wir natürlich haben.
Janine: Ja, und der Verdacht konnte dann tatsächlich auf einen einzelnen Chip eingegrenzt werden. Und am 22. April kam die Meldung "Problem gelöst". Es wurde die Software, die für dieses Verpacken der Daten verantwortlich ist, in andere Teile des betreffenden Subsystems verfrachtet, sodass der beschädigte Chip nicht mehr involviert ist, hat verschiedene andere Probleme. Ich habe alle Blogbeiträge der NASA hier reingefüttert in die Shownotes, da könnt ihr das vielleicht nochmal nachlesen. So ein paar Probleme gibt es noch zu lösen, aber es konnte eben die Software so auf andere Systeme verteilt werden, dass es möglich ist, wieder mit der Software zu arbeiten und es sind Daten zurückgekommen. Das hieß aber übrigens auch, die Veränderung, die sie vorgenommen haben, um das Problem zu beheben, wurde am 18. April von der Erde losgeschickt und kam am 20. April dann die Bestätigung erst zurück, dass es funktioniert hat und Daten wieder ankommen.
Helena: Und so weit ist die Voyager-Sonde schon weg. Das ist ja dann schon ein ganzer Lichttag.
Janine: Es sind glaube ich gerade, Moment, es gibt eine schöne Seite, da kann man gucken, was die aktuellen Missionsinfos sind. Und eins der aktuellen Missionsinfos ist, dass die One-Way-Light-Time 22 Stunden, 33 Minuten und 19 Sekunden beträgt. Das heißt, so lange brauchen die Daten gewissermaßen mit Lichtgeschwindigkeit hin zur Voyager und genauso lange eben dann aber auch wieder zurück.
Helena: Also doch noch nicht ganz ein Lichttag, fast ein Lichttag.
Janine: Fast, ja. Ja, das ist sehr schön. In den kommenden Wochen werden dann noch weitere Bereiche der Software umgelagert, sodass dann auch tatsächlich die Daten wieder ankommen.
Helena: Also die wissenschaftlichen Daten.
Janine: Genau, die wissenschaftlichen Daten. In diesem Fall war es erst mal das Gespräch mit der Sonde selbst.
Helena: Ja, was ja auch wichtig ist, dass das überhaupt noch möglich ist.
Janine: Absolut. Und das führt uns zu der Frage, warum ist das eigentlich wichtig? Ich habe mich auch noch mal in den geschichtlichen Daten ein bisschen umgeguckt. Also wie schon gesagt, 72 war Projektbeginn und 1977 ist die Voyager 1 gestartet und hat es dann geschafft, im Laufe der nächsten Jahre mehrere Meilensteine zu reißen. Also nicht nur die Daten, die angekommen sind und für die Forschung wichtig waren, sondern auch so Sachen wie, dass sie 1998 zu dem menschengemachten Objekt wurde, das am weitesten entfernt von der Erde ist und damit die Pionier 10 überholt hatte. Und ja, dann die Sache, auf die alle eigentlich gewartet haben. 2004 hat Voyager den Schock überschritten, so heißt es in dem Blogbeitrag. Das ist quasi der Übergang in die Region, wo die Sonnenwinde enden und der interstellare Raum beginnen könnte, also als Übergangsbereich. Ja, das war einer der großen Meilensteine, weil das einfach der Bereich ist, wo der große Einflussbereich unserer Sonne, unseres Sonnensystems endet. Das hat dann aber noch gedauert, nämlich bis 2012, bis die Sonne dann tatsächlich in den, ich sag mal, in Anführungszeichen "richtigen" interstellaren Raum eingetreten ist. Und das konnte dann auch aus den Daten abgesehen werden, dass halt die magnetischen Daten der Regionen, in der die Sonde 2012 war, sich verändert hatten im Verhältnis zu den Daten, die vor dem Termination-Schock erfasst wurden. Das magnetische Feld wurde nämlich einfach viel intensiver hinter dem Einflussbereich unserer Sonne dann irgendwann. Und es konnte rückwirkend bestätigt werden, dass am 25. August 2012 der interstellare Raum erreicht werden konnte.
Helena: Ich meine ist ja auch ein bisschen Definitionsfrage, und letztlich ist Voyager hilfreich dabei, erstmal die Definition zur Verfügung zu stellen aufgrund von Messwerten,...
Janine: Ja.
Helena: ...dass man daran erkennen kann, ja, okay, jetzt sind die Messwerte und Nennenswerte anders, dass man sagen kann, jetzt ist es wirklich interstellar, also zwischen verschiedenen Sternen.
Janine: Genau das. Und zwar gab es dann nämlich dann 2013 ein Ereignis von einer Sonneneruption, glaube ich, wenn ich das jetzt richtig im Sinn habe, wo dann noch mal Partikel Voyager 1 erreicht haben, und einfach durch diese Differenz, die da stattgefunden hat beim Aufeinandertreffen dessen, wurde dann eben entschieden, das ist jetzt unsere Definition von "hier an dem Tag war der interstellare Raum erreicht".
Helena: Ja.
Janine: Ja, warum ist das so spannend? Eben weil dadurch Sachen erforscht und erfasst werden können, die... von denen wir jetzt noch gar nicht wissen vielleicht, welche Bedeutung sie im Nachhinein haben. Das zeigt zum Beispiel auch, was die Voyager 2 an Daten gesammelt hat, die ist ja auch fleißig unterwegs und ist vor irgendwie 30 Jahren um den Dreh am Uranus vorbeigeflogen. Und da gab es dann auch die Idee, irgendwann, es soll eine neue Mission zum Uranus geben. Und die Frage ist aber, wenn ich jetzt eine Mission zu dem Planeten schicke, was sind denn die interessanten Sachen, die Phänomene, mit denen ich mich beschäftigen möchte? Und da sind die Forschenden dann halt hingegangen und haben diese 30 Jahre alten Daten der Voyager 2 ausgegraben und haben sich die mal genauer angeguckt. Und dann haben sie offensichtlich die Auswertung der Daten so vorgenommen, wie es bisher andere noch nicht gemacht hatten, weil sie halt sehr detailliert hingeguckt haben und haben sich mit dem Magnetfeld von Uranus beschäftigt und dabei eben entdeckt, dass das Magnetfeld gar nicht so glatt dahin geht, wie andere vielleicht angenommen hatten unter bestimmten Bedingungen, sondern sie haben weiter reingezoomt in die Daten, als vorherige Studien das getan hatten und mehr Datenpunkte, alle 1,92 Sekunden schreiben sie, geplottet, um Dinge zu erkennen. Und die Linien haben sich verändert und plötzlich war da ein Zickzack-Muster drin. Es gab einen Ausschlag nach oben und einen nach unten. Und das ist jetzt das, wo sie sich denken, gut, das möchten wir näher untersuchen. Darauf richten wir jetzt die Instrumente der nächsten Mission. Dafür sind halt diese Daten super spannend und interessant und offensichtlich auch 30 Jahre später noch von Relevanz, um eben neue Forschungsfragen vielleicht auch aufzufinden. Nicht, dass diese alten Daten jetzt unbedingt alles erklären, aber sie geben Hinweise, wo kann ich genauer hingucken. Und das ist eigentlich wirklich das Spannende, dass wir viel Forschung machen eigentlich, so als Menschheit im Allgemeinen, die uns jetzt konkret in diesem Moment vielleicht noch gar nichts bringt, aber Erkenntnisse liefern wird, vielleicht in späteren Zeitaltern. Was ja eventuell auch wieder Einfluss auf so eine gesellschaftliche Simulation haben könnte.
Helena: Ja, und ein Grund, weshalb man sich jetzt vom Uranus die Magnetfelddaten anguckt, ist, weil man wissen möchte, wo kommt dieses Magnetfeld eigentlich her? Also zum Beispiel die Erde, die hat einen ja mit der Erde zusammenrotierenden flüssigen Kern und dadurch entsteht eine Art Dynamo-Effekt, also so wie so ein Fahrrad-Dynamo, wo man Strom erzeugt durch die Drehung, passiert das eben auch auf der Erde und dadurch haben wir ein sehr starkes Magnetfeld und das Magnetfeld schützt uns dann vor Teilchen von der Sonne, die sonst ja dauernd auf der Erde einprasseln würden und viele Geräte heutzutage kaputt machen würden. Während jetzt zum Beispiel auf dem Mars hat man ein solches Magnetfeld nicht, weshalb das Leben auf dem Mars deutlich aufwendiger wäre, weil man dann auch noch zusätzliche Schutzmaßnahmen ergreifen müsste. Gut, man hat jetzt nicht unbedingt vor, auf dem Uranus irgendwie einzuziehen, aber das ist so die spannende Frage. Hat das ein Magnetfeld, das durch sich selber in Gang gehalten wird oder ist es eines, dass dadurch, dass eben der ganze Sonnenwind, der eben aus geladenen Teilchen besteht, dass der vor allen Dingen für das Magnetfeld verantwortlich ist, dass es dann quasi einfach nur in der Atmosphäre induziert wird und weniger aus dem Kern selber kommt?
Janine: Und es ist ein sehr, sehr wobbeliges Magnetfeld, steht in der Beobachtung der Forschenden. Und deswegen ist es auch extrem schwierig, es zu modellieren. Und ja, mehr Daten, mehr bessere Modelle, das wissen wir inzwischen schon.
Helena: Ja, und wobbelig kann heißen, entweder gibt es mehrere Dynamos an diesem Planeten oder ist es vielleicht doch eher ein, ja, nicht ganz so intrinsisches Magnetfeld, sondern es gibt dann irgendwie so ein paar Bereiche, die vielleicht eins haben und das meiste kommt dann von außen. Also es ist noch nicht conclusive gewesen, diese Neuanalyse der Daten, aber immerhin hat man jetzt eine Idee, wo man genau hingucken möchte, wenn man das nächste Mal hinfliegt.
Janine: Genau. Ja, und ich fand dieses Thema auf jeden Fall sehr spannend, weil es eben so unterschiedliche Bereiche anfasst. Eben zum einen, wir lernen super spannende Dinge über unser Universum, dadurch, dass diese Mission so, so viel länger geht, als sie eigentlich geplant war. Wir sind aber auch damit konfrontiert, dass es ein furchtbar antikes Stück Technik ist, das da durchs All fliegt oder wie auch immer man es nennen will, sich fortbewegt auf jeden Fall. Und ja, mit den Daten können heute immer noch Dinge entdeckt und tiefer erforscht werden.
Helena: Ja, das ist schon echt praktisch. Man sollte solche Forschungsdaten auf jeden Fall aufbewahren, man weiß nie, was dann noch kommt, also...
Janine: Ja, auf jeden Fall.
Fazit (00:49:02)
Helena: Dann würde ich sagen, kommen wir zum Fazit der Folge. Ja, also mein Fazit, vor allen Dingen aus den Themen, die ich jetzt recherchiert hatte, war so, dass ich es erstaunlich fand, dass es überhaupt Gesellschaftssimulationen gibt und dass sich Wissenschaftler damit ernsthaft beschäftigt haben angesichts dessen, was es alles für Einschränkungen gibt. Ja, und die Erkenntnis, dass es Online-Tools gibt, um Menschenmengen zu schätzen.
Janine: Ja, und warum das auch spannend ist, wenn KI vielleicht den Punkt übernimmt, das zu wissen, weil wir dann eben nicht mehr auf politische Beurteilungen angewiesen wären.
Helena: Ja.
Janine: Ja, ein kleines Fazit hatte ich ja gerade schon zu dem Voyager-Thema. Insgesamt, wahrscheinlich ist mal wieder aufgefallen, dass ich mich ja sehr gerne mit den gesellschaftlichen Themen auch beschäftige. Das habe ich auch hier ein bisschen getan, weil meine Frage hauptsächlich immer ist, warum machen wir das? Warum ist das toll? Oder warum sollten wir es tun? Oder dergleichen. Und ja, das Klimathema ist halt einfach sehr wichtig. Und ich finde, wenn auch aus anderen Gründen, nicht aus idealistischen Gründen, Veränderungen stattfinden, dann sollten wir auf jeden Fall sehr genau hinschauen, wie sie passieren konnten und wie wir das vielleicht an anderen Stellen wiederholen können. Weil ja, die Klimakrise ist eine reale Bedrohung und damit sollten wir uns einfach irgendwie beschäftigen. Und alles, was dafür hilft, das bessern zu können, ist doch ein Thema, das es wert ist, sich mit zu befassen.
Nächste Folge: ADHS im Juni (00:50:28)
Helena: Ja, dann kommen wir zum Thema der nächsten Folge. Im Juni wollen wir dann über ADHS sprechen. Und weil das ein sehr umfangreiches Thema ist, haben wir uns jetzt als Unterpunkt herausgegriffen, warum das denn immer häufiger aufzutreten scheint. Wenn man so Nachrichten liest, gibt es diese Behauptung. Aber wir behandeln dann auch die Frage, warum es wichtig sein kann, auch noch im Erwachsenenalter eine Diagnose zu bekommen.
Call to Action (00:50:55)
Janine: Ja, und wenn ihr dieses Thema und alle weiteren nicht verpassen wollt, dann folgt uns doch gerne auf mastodon unter @datenleben@podcasts.social. Besucht auch gerne unsere Webseite www.datenleben.de. Da könnt ihr uns nicht nur Feedback hinterlassen, sondern auch die alten Folgen finden, denn es sind, Stand jetzt, heute, 50 dann, wenn diese Folge erschienen sein wird. Ja, aber ihr könnt uns auch jederzeit gerne Feedback per Mail hinterlassen. Manchmal entstehen daraus dann sogar Dinge, die wir in den Podcast mit einbringen können. Und wir freuen uns auch immer sehr über Kommentare zu unseren Folgen. Ihr könnt uns allerdings auch als Data Scientist für Analysen oder Projekte buchen, wenn euch unsere Arbeits- und Denkweise gefällt und da mit uns in Kontakt treten zu. Und ja, ganz grundsätzlich, falls ihr Fragen habt und Dinge, die euch interessieren, dann schreibt uns gerne.
Helena: Dann bleibt mir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao!
Janine: Tschüss!
Outro (00:51:57::)
52:05
dl049: wie werden lehrerfolge gemessen?
Episode in
datenleben
Es geht bei uns oft um Daten, die relativ einfach zählbar sind, um Dinge, die mit einem Maßband gemessen werden können oder mit irgendeinem Gerät erfasst werden, das etwas auszählt, aufzeichnet und dergleichen. Es gibt aber auch Daten, die nicht ganz so einfach erfassbar sind und trotzdem müssen sie ja auch irgendwie erhoben und ausgewertet werden. Und dazu gehören zum Beispiel Fragen wie, wie erfolgreich ist eigentlich eine Lehrmethode und bei welcher Lehrmethode lernen Schüler*innen besser als bei anderen? Wie kann sowas eigentlich festgestellt werden? Darüber reden wir mit Leonie und Ina.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Schlagworte zur Folge
Lehrmethode, Schule, Unterricht, Erfolge messen, Kohlenstoffkreislauf, Biologie
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zu unserer 49. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch die Welt der Daten näher bringen. Was für Daten umgeben uns? Wie werden Daten erhoben? Und was können wir aus ihnen lernen? Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.
Thema der Folge (00:00:37)
Janine: Genau, und oft geht es bei uns um Daten, die, naja, relativ einfach zählbar sind, um Dinge, die mit einem Maßband gemessen werden können oder mit irgendeinem Gerät erfasst werden, das etwas auszählt, aufzeichnet und dergleichen. Es gibt aber auch Daten, die nicht ganz so einfach erfassbar sind und trotzdem müssen sie ja auch irgendwie erhoben und ausgewertet werden. Und dazu gehören zum Beispiel so Fragen wie, wie erfolgreich ist eigentlich eine Lehrmethode und bei welcher Lehrmethode lernen Schüler*innen besser als bei anderen? Und ja, wie kann sowas eigentlich festgestellt werden? Das ist jetzt nicht so richtig etwas, das man mit 1, 2, 3, 4, 5 zählen kann. Und um dieser Frage nachzugehen, haben wir uns heute zwei Gästinnen eingeladen, die zu diesem Thema ihre Masterarbeiten geschrieben haben. Und ja, wir sind sehr gespannt, was dabei herausgekommen ist und welche Hindernisse und Herausforderungen ihnen da begegnet sind, denn so viel kann ich versprechen, die gab es garantiert.
Begrüßung von Leonie und Ina (00:01:42)
Helena: Ja, dann sage ich mal Hallo Leonie und Hallo Ina.
Leonie: Hallo.
Ina: Hallo.
Helena: Ja, Leonie, magst du einmal dich kurz vorstellen?
Leonie: Ja, erstmal vielen Dank, dass wir heute berichten dürfen, was wir so während unserer Masterarbeit erlebt haben. Genau, ich heiße Leonie, ich werde bald 25 und habe gerade mein Studium in den Fächern Deutsch und Biologie auf Lehramt abgeschlossen. Und genau, in dem Rahmen haben wir dann eben auch die Masterarbeit geschrieben und uns so ein bisschen mit verschiedenen Lehr- und Lernmethoden auseinandergesetzt, die wir euch dann gleich noch genauer vorstellen wollen. Genau.
Helena: Ja, Ina, stell dich mal vor.
Ina: Ja, hi, auch von mir. Ich bin Ina, ich werde demnächst 27 und genauso wie Leonie habe ich auch Biologie studiert, allerdings dazu dann noch das Zweitfach Geschichte. Und durch das Biologiestudium haben wir uns dann auch kennengelernt und sind uns dann von unserer Dozentin noch vorgestellt worden, dass wir dann gemeinsam auch ein ähnliches Thema bearbeiten können. Und ja, da wir jetzt ja beide die Masterarbeiten auch geschafft haben, werden wir jetzt im Laufe des Jahres mit unserem Referendariat an einer Schule beginnen und sind schon sehr gespannt, wie es auch weitergehen wird.
Was ist das Thema eurer Masterarbeiten? (00:02:55)
Helena: Ja, gut, jetzt haben wir darüber geredet, dass ihr eine Masterarbeit geschrieben habt, beziehungsweise zwei, weil ihr seid ja zwei Personen. Was war denn genau das Thema eurer Masterarbeiten?
Ina: Wir haben uns mit dem Verständnis des lokalen Kohlenstoffkreislaufs in Bezug auf die Sekundarstufe 1 beschäftigt. Das heißt, wir hatten im Grunde als biologisches Thema den Kohlenstoffkreislauf und haben dann untersucht, inwieweit man das unterrichten kann und haben dann im Grunde zwei verschiedene Schwerpunkte gehabt. Ich habe mich mit einer bestimmten Lernmethode beschäftigt, die wird Stoffeverfolgen genannt. Und Leonie hat sich vor allem damit auseinandergesetzt, wie man dann so ein Arbeitsblatt dazu gestalten könnte, was man dann benutzen kann, um dann diese Aufgabe, die ich entwickelt habe, zu erarbeiten. Und dabei haben wir halt versucht, dann herauszufinden, welche Effekte haben einmal Stoffeverfolgen, also diese spezifische Lehr-Lern-Strategie, und welche Effekte hat eine spezielle Gestaltung eines Arbeitsblattes und zwar durch Multimedia-Prinzipien. Das haben wir dann jeweils einzeln untersucht, aber auch in Kombination miteinander.
Leonie: Genau, wir haben uns die Forschung vorher angeschaut und da ist eben festgestellt worden, dass gerade Schülerinnen und Schüler in Bezug auf den Kohlenstoffkreislauf viele Verständnisschwierigkeiten einfach haben und auch nach der Bearbeitung von dem Lerninhalt oft Fehlvorstellungen vielleicht auch durch den Unterricht erst entstehen, die eben sich aber dann konsequent halten. Und da haben wir dann eben einmal Multimedia und eben das Prinzip Stoffeverfolgen eingesetzt und wollten das Verständnis der Lernenden fördern und ja, einfach mal schauen, ob die Methoden überhaupt etwas bringen in diesem oder jetzt in dem besonderen Lernkontext.
Was ist der Kohlenstoffkreislauf? (00:04:41)
Helena: Ja, es geht ja jetzt nicht nur darum irgendwie zu erklären, wie man Lehrmethoden erforscht, sondern das funktioniert ja immer nur auch an einem konkreten Thema. Und wenn ihr schon sagt, dass viele Leute ja Fehlvorstellungen entwickeln, die dann teilweise nach der Schule auch bestehen bleiben, wäre es vielleicht ganz gut, noch einmal kurz zusammenzufassen. Was ist denn das überhaupt, der Kohlenstoffkreislauf?
Ina: Ja, kurz zusammengefasst ist schon mal das passende Stichwort. Das ist nämlich gar nicht so einfach. Grundsätzlich vereint ja der Kohlenstoffkreislauf ganz viele verschiedene Bereiche aus der Biologie. Da sind Teile oder Themengebiete aus der Ökologie dabei, vom Stoffwechsel, aus der Biochemie und aus der Mikrobiologie und noch viel, viel mehr, was da mit reinspielt und was alles durch den Kohlenstoffkreislauf im Grunde vereint wird. Und dann ist ja erst mal schon mal deutlich, dass es vielleicht gar nicht so einfach ist, gerade als lernende Person in der Sekundarstufe 1, irgendwie siebte bis zehnte Klasse, das verstehen zu können, weil man vielleicht Dinge wie Biochemie oder Mikrobiologie ja noch gar nicht hatte oder den Stoffwechsel ja auch gar nicht im Detail versteht oder noch nicht kennengelernt hat, wie das vielleicht in der Oberstufe oder im Studium später der Fall ist. Aber es ist ja trotzdem unfassbar wichtig, die Grundzüge des Kohlenstoffkreislaufs zu verstehen oder nachvollziehen zu können, um dann auch im Alltag später entsprechend Entscheidungen zu treffen oder auch so zu handeln. Und deswegen ist es wichtig, zu versuchen, den Kohlenstoffkreislauf ein bisschen herunter zu brechen. Das haben wir versucht. Und im Grunde kann man halt drei zentrale Prozesse festhalten, die immer wieder in diesem Kreislauf auftauchen, jeweils in verschiedenen Kontexten. Diese drei Prozesse sind einmal die Photosynthese, die Biosynthese und die Zellatmung. Das sind jeweils wieder drei Prozesse, die man ganz im Detail sich anschauen kann im Unterricht. Das wird vielleicht in der Oberstufe gemacht. Aber so grob heruntergebrochen könnte man sagen zur Photosynthese, da gibt es erstmal Lebewesen, die werden Produzenten genannt. Und die sind dafür zuständig, dass sie Kohlenstoffdioxid fixieren. Kohlenstoffdioxid ist erstmal in der Luft, das ist gasförmig. Und die Produzenten, also diese Lebewesen, die dann den Kohlenstoff aufnehmen in Form von Kohlenstoffdioxid, die bilden damit Glucose. Und Glucose ist dann kein Gas mehr, sondern das ist ein Feststoff, der enthält auch Kohlenstoff. Also die Formel für Glucose ist C6-H12-O6. Und da haben wir jetzt auch dieses C drin, was ganz wichtig ist, beim Kohlenstoffkreislauf im Blick zu behalten. Und durch die Photosynthese werden dann diese energiearmen Stoffe zu ganz energiereichen Stoffen, weil die zusammengefasst werden zu einem größeren Stoff. Und das ist erstmal so das, was beim Beginn der Photosynthese relevant ist, zu verstehen. Und dann könnte man als dem entgegengesetzten Prozess die Zellatmung anschauen. Und Zellatmung ist etwas, was eigentlich alle Lebewesen machen. Also wir Menschen, wir atmen. Und unsere Atmung basiert darauf, dass unsere Zellen, nämlich jede einzelne Zelle im Körper auch atmet. Genauso ist das auch bei Pflanzen und auch bei ganz kleinen Lebewesen im Boden, die werden Destruenten genannt. Das wird vielleicht manchmal in einer etwas anderen Form gemacht, als wir Menschen das tun, aber es ist bei allen relativ ähnlich. Und bei der Zellatmung geht es darum, dass Energie gewonnen wird, um uns zum Beispiel bewegen zu können. Und dabei wird dann Glucose als Ausgangsstoff gespalten, dabei wird Energie freigesetzt. Und dadurch entsteht unter anderem Kohlenstoffdioxid, der wird jetzt am Beispiel von uns Menschen dann von jeder Zelle durch das Blut zur Lunge transportiert und wir atmen dann Kohlenstoffdioxid wieder aus. Und dementsprechend ist unsere äußere Atmung auch eine Folge von der Zellatmung, die in ganz vielen kleinen Teilen unseres Körpers vorher passiert ist. Das ist ähnlich bei Pflanzen und bei den kleinen Lebewesen, die Destruenten genannt werden. Genau, und dazwischen gibt es dann im Grunde noch die Biosynthese. Das heißt, wenn zum Beispiel Glucose aufgenommen wurde, dann wird es nicht immer direkt zur Energie verwertet, sondern es könnte auch sein, dass wir zum Beispiel noch wachsen oder dass wir so ein bisschen was uns anlegen wollen dann für später, wenn man nicht gerade direkt die Energie verbraucht. Dann kann es eben sein, dass Glucose umgebaut wird zu sämtlichen Teilen, die der Körper so enthält, also zum Beispiel zu Fett, zu Eiweißen. Es kann auch zu Stärke umgebaut werden oder beispielsweise bei Pflanzen ja auch ganz typisch Zellulose. Und dann ist Kohlenstoff im Grunde Körperbestandteil und kann von da dann auch wieder abgebaut werden, sodass es wieder genutzt werden kann für die Zellatmung, um Energie zu gewinnen. Aber es kann auch im Körper bestehen bleiben. Und das sind so drei Prozesse, die im Grunde, also Photosynthese, Biosynthese und Zellatmung, die immer wieder ablaufen können in verschiedenen Kontexten und die dann so diese Grundpfeiler des Kohlenstoffkreislaufs bilden. Wenn man sich jetzt überlegt, okay, in was für vielen Kontexten können diese drei Prozesse passieren, das ist ja nicht nur bei uns Menschen oder bei dem Tier oder dem Baum vor der Haustür vielleicht so, sondern das kann auch bei Lebewesen im Meer passieren. Es gibt auch Kohlenstoff, der ist gelöst im Meer. Kohlenstoff ist enthalten in den Gesteinen, in der Atmosphäre, in der Luft und dementsprechend ist Kohlenstoff ja in sämtlichen Bereichen des Lebens irgendwie relevant oder dort enthalten. Und dementsprechend kompliziert ist dann auch der globale Kohlenstoffkreislauf, weshalb wir gesagt haben, okay, das ist vielleicht ein bisschen sehr anspruchsvoll. Deswegen haben wir es reduziert auf den so bezeichneten lokalen Kohlenstoffkreislauf. Das ist jetzt so eine Art Hilfsbegriff, womit man einfach so einen Teil des ganz großen Kohlenstoffkreislaufs bezeichnet und den haben wir uns dann in der Schule auch angeschaut. Und dabei schaut man sich im Grunde an, wie ist das Ganze in so einem ländlichen Ökosystem, wo vielleicht ein paar Tiere, ein paar Pflanzen sind und ein paar Bodenorganismen, ohne jetzt diesen ganzen Bereich mit den menschlichen Einflüssen oder mit dem Meer und mit den Gesteinen dann auch noch mit dazu zu nehmen.
Leonie: Genau. Ina hat gerade dieses hochkomplexe Thema super kurz dargestellt und ich hoffe, was wir alle daran irgendwie sehen können, ist einfach, dass der Kohlenstoffkreislauf total komplex ist und aus super vielen verschiedenen, ich nenne es jetzt mal Facetten und Prozessen besteht, die ja ineinandergreifen und miteinander arbeiten. Und das ist für den Unterricht super interessant. Also wir befinden uns zwar ja noch in der Unterstufe, also siebte bis zehnte Klasse, aber trotzdem gerade in der Biologie ist es super wichtig, dass die Schülerinnen und Schüler verstehen, dass eben diese Vernetzungen von verschiedenen Prozessen stattfindet. Und da ist der Kohlenstoffkreislauf ein unglaublich tolles Beispiel, das zu zeigen, obwohl er eben so komplex ist. Und das wird oft im Unterricht eben so gar nicht vermittelt, was sehr schade ist, wenn man auf dieser Grundlage aufbauen könnte, um eben auch noch andere Stoffkreisläufe hinterher zu thematisieren.
Wie wird dar Kohlenstoffkreislauf bisher unterrichtet? (00:11:29)
Helena: Wie wird er denn bisher standardmäßig unterrichtet?
Leonie: Die Frage haben wir uns vor unserer Masterbett auch gestellt, weil wir irgendeinen Anfang finden mussten. Also haben wir mal in die aktuellen Schulbücher reingeschaut und haben einfach festgestellt, dass eben diese Vernetzung der einzelnen Prozesse oft überhaupt nicht stattfindet. Wir haben auch gemerkt, also oft hat man für ein Thema eine Doppelschulbuchseite, also auf zwei Seiten wird ein Thema behandelt. Da gibt es dann standardmäßig natürlich Text, aber auch Bilder und verschiedene Grafiken. Und wir haben bei unserer Analyse festgestellt, dass die Texte und Grafiken bzw. Bilder wenig bis gar nicht zueinander in Beziehung gesetzt werden. Dass es zum Beispiel auch unterschiedliche Begrifflichkeiten in den Darstellungsformen gibt und dass damit ja auch das Lernen total erschwert wird. Also Schülerinnen und Schüler lesen den einen Begriff, der kommt in der Abbildung gar nicht vor, dann kann man überhaupt kein mentales Modell in dem Sinne aufbauen und die Sachen miteinander verbinden. Ina hat ja gerade die ganzen wichtigen Prozesse auch benannt, also Photosynthese, Zellatmung, Biosynthese. Oft sind diese Prozesse für Schülerinnen und Schüler gar nicht, also entweder die liegen super weit zurück, die haben die zum Beispiel in der siebten Klasse gelernt, haben die in der zehnten aber gar nicht mehr im Kopf oder sie sind einfach noch gar nicht so verinnerlicht, dass sie darauf aufbauend jetzt den Kohlenstoffkreislauf behandeln können. Genau. Zudem, was besonders ist, der Kohlenstoff ändert während des Kreislaufs auch seinen Aggregatzustand. Und das wird in Schulbüchern oft gar nicht oder nur sehr selten benannt und das ist aber super wichtig, um den Kreislauf an sich eben zu verstehen, um auch den Kohlenstoff im Kreislauf verfolgen zu können. Und was auch noch ein wichtiges Thema ist, was leider auch in der Schule oft, ja ich sag jetzt mal, zu vielen Fehlvorstellungen führt, der Kohlenstoffkreislauf hängt sehr eng mit dem Sauerstoffkreislauf zusammen oder die sind miteinander verknüpft und oft passiert es Schülerinnen und Schülern, dass sie nicht den Kohlenstoff dann im Kreislauf betrachten, sondern dann zum Sauerstoff wechseln, den wir einatmen und ja auch für unsere Zellatmung brauchen, also Kohlenstoff fällt oft hinten runter und wird dann eben nicht durch den ganzen Kreislauf hindurch irgendwie betrachtet. Genau, also man sieht oder wir haben während unserer Analyse der Schulbücher festgestellt, dass es viele Kleinigkeiten oft auch gibt, die zu Missverständnissen führen und dadurch eben auch Fehlvorstellungen entstehen, die sich durch das ganze Schulleben und auch bis später eben sehr wacker halten.
Was ist die Methode Stoffe verfolgen? (00:14:01)
Janine: Jetzt so die ganze Zeit habe ich versucht zurückzudenken, an was für Kreisläufe ich mich aus der Schule erinnere und ich glaube, der einzige, der mir einfällt, ist konkret der Wasserkreislauf der Erde, also von Wolken regnen nieder und das Meer und Wasserdampf steigt auf, verwandelt sich zu Wolken, was sich wieder zu Regen verwandelt. Der ist ja wahrscheinlich auch sehr unterkomplex dargestellt, aber doch irgendwie relativ eingängig, auch wenn da wahrscheinlich ja auch diese Aggregatzustandswechsel stattfinden, aber ich glaube, tatsächlich viel einfacher, zumindest optisch auch darzustellen und weil es halt eher so wirkt wie ein Kreislauf in sich. Ina, du hattest schon die Methode Stoffeverfolgen eingebracht. Im Falle des Wassers sieht man das ja sehr schön, dass es halt einfach so quasi in der Darstellung einmal im Kreis geht und beim Kohlenstoffatom hast du gesagt, das ist ja nicht ganz so einfach. Was ist denn diese Methode Stoffeverfolgen?
Ina: Genau, beim Stoffeverfolgen geht es darum, dass man sich das C, also den Kohlenstoff, anschaut und versucht, die ganze Zeit sich den Kreislauf zum Beispiel auf einem Bild oder bildlichen Darstellung anzugucken und am C sich zu orientieren. Das heißt, man versucht da wirklich beim Kohlenstoff zu bleiben, zu schauen, wie verwandelt sich der Kohlenstoff im Laufe des Kreislaufs und vielleicht dabei auch festzustellen, dass Sauerstoff, was Leonie ja gerade erklärt hat, dass ganz viele dann zum Sauerstoff springen, ja gar keinen Kohlenstoff enthält und eigentlich dann vielleicht eine Rolle spielt, weil Sauerstoff mit Kohlenstoff reagiert, aber dass man ja auch einen anderen Stoff hat, wo dann Kohlenstoff wieder enthalten ist, zum Beispiel Glucose. Aber das ist ja vom Begriff her erstmal gar nicht so einfach zu wissen, dass Kohlenstoff überhaupt in Glucose enthalten ist. Das muss man ja erstmal feststellen. Und dafür hilft es dann, wenn zum Beispiel auch die Formelschreibweisen genutzt werden, wo man dann das C sehen kann und dann versucht man im Grunde dieses C zu verfolgen. Also das Ziel vom Stoffeverfolgen ist es dann, diese zentralen Prozesse wie Photosynthese oder Zellatmung miteinander zu vernetzen, dass man die nicht nur separat voneinander in der Schule lernt, sondern die auch miteinander verbindet. Und dann auch die verschiedenen Trophie-Ebenen, also diese Stufen mit Produzenten, die dann Kohlenstoff fixieren, Konsumenten, die dann sich von Produzenten ernähren und dadurch dann den Kohlenstoff über die Nahrung aufnehmen und Destruenten, die dann alles am Ende wieder zersetzen und wodurch Kohlenstoff dann letztlich auch wieder in die Atmosphäre in großen Mengen freigesetzt wird, dass man auch die miteinander verbindet. Und gleichzeitig auch immer wieder zwischen diesem großen Organismus, also zum Beispiel einer Pflanze oder einem Tier oder einem kleinen Bakterium, dass man von dem Bereich auch wieder darauf kommt, okay, was passiert denn eigentlich auf der Ebene der Moleküle, um dann wieder beim C zu landen. Und beim Stoffeverfolgen, wenn man sich das jetzt ein bisschen heruntergebrochen vorstellen könnte, könnte man jetzt als Schülerin oder Schüler sagen, okay, ich bin gerade so ein Kohlenstoffatom und ich habe mich mit dem Sauerstoff verbunden, wir sind jetzt zusammen Kohlenstoffdioxid, sind jetzt so in Gas und schwirren in der Luft, die Sonne scheint, das Wetter ist schön und hier ist so ein Wald, da stehen ein paar Bäume und ich gelange jetzt als Teil des Kohlenstoffdioxid mit dem Sauerstoff zusammen in das Blatt von dem Baum rein und der Baum macht Photosynthese. Dadurch werde ich umgebaut zu Glucose und bin jetzt gar nicht mehr Teil des Kohlenstoffdioxid, sondern ich gehöre jetzt zu Glucose, das ist ein größeres Molekül. Der Baum braucht auch Energie und betreibt Zellatmung und dadurch werde ich dann direkt wieder aus der Glucose gespalten, wieder mit Sauerstoff zu Kohlenstoffdioxid zusammengebracht und gelange von dem Baum aus direkt wieder in die Atmosphäre und bin dann wieder, wie ich auch vorher schon einmal war, Teil der Luft. Vielleicht braucht der Baum aber auch neue Biomasse, weil er gerade wächst und dann kann es sein, dass ich gar nicht wieder zum CO2 umgewandelt werde, sondern von der Glucose zu Zellulose und dann Teil von einem viel größeren Molekül bin und jetzt plötzlich Teil des Blattes bin, das dann letztendlich wieder andere Dinge machen kann. Wenn man das jetzt noch mal weiterverfolgen würde, zum Beispiel zur Trophieebene der Konsumenten, dazu gehören zum Beispiel Tiere, die dann diese Blätter vom Baum fressen, dadurch gelange ich dann als Kohlenstoff wieder in den Magen des Tieres, ich werde verdaut und wieder zu anderen Stoffen umgebaut und vielleicht braucht das Tier Energie, das Tier möchte sich ja auch bewegen und laufen und dadurch werde ich dann direkt wieder zur Zellatmung gebracht, werde gespalten und bin jetzt plötzlich wieder Teil des CO2 und gelange wieder durch das Ausatmen des Tieres letztlich wieder in die Luft und dann kann der Kreislauf wieder von vorne beginnen, die Pflanze macht wieder Photosynthese, ich gelange in die Pflanze, werde in das Blatt der Pflanze eingebaut, das Tier frisst mich und das Tier möchte vielleicht auch, ja muss vielleicht auch wachsen oder sich Winterspeck anlegen für schlechte Zeiten und jetzt bin ich letztlich gar nicht mehr Teil von Glucose, sondern jetzt Teil von einem größeren Kohlenhydrat oder von Eiweißen oder vom Fett und bin jetzt Teil des Körpers vom Tier. Und dann könnte man wieder den Kreislauf weitergehen, okay, das Tier stirbt vielleicht irgendwann mal, jetzt verrotte ich als Kohlenstoff mit dem Tier zusammen und jetzt sind da ganz viele kleine Bodenorganismen und die Bodenorganismen, die brauchen ja auch Energie und die gewinnen sie zum Beispiel auch durch unter anderem Zellatmung und jetzt werde ich von den kleinen Bodenorganismen auch wieder zerlegt und zu Kohlenstoffdioxid umgewandelt und auch wieder ausgeatmet und gelange dann wieder in die Atmosphäre und bin letztlich wieder verfügbar für Pflanzen, dass sie dann auch wieder Dinge mit mir als Kohlenstoff machen können. Und das ist so ein bisschen die Idee, dass man sich das etwas bildlicher vorstellen kann und auch immer bei diesem Kohlenstoff bleibt und überlegt, okay, was bin ich als Kohlenstoff gerade und was passiert dann auch mit mir im Körper eines Tieres oder einer Pflanze oder eines Mikroorganismus und wie hängt das da miteinander zusammen. Und dadurch sollen ja diese ganzen vielen komplizierten Prozesse auf etwas einfachere und heruntergebrochenere Weise vernetzt werden. Und das hilft vielleicht auch, weil wenn man sich jetzt anschaut, so allein die Zellatmung, da passieren ja ganz viele chemische Prozesse, aber vielleicht sind die erst mal gar nicht so relevant für das allgemeine Verständnis, dass man auch dadurch mehr den Schwerpunkt setzen kann auf das Wesentliche und nicht in diesen vielen Details von irgendwelchen Abbildungen in Schulbüchern dann ja ertrinkt. Und dass man so ein bisschen weiß, okay, darauf achte ich, das verfolge ich und das ist das, was wichtig ist.
Was sind die Multimedia Prinzipien? (00:20:19)
Helena: Ja, das klingt gut. Was mir an diesem Ansatz gefällt, ist, dass wenn du sagst, man fokussiert sich, also man versucht, die Details wegzubekommen, die merkt man sich ja eh nicht nach ein paar Jahren in der Schule. Außer es ist genau das Thema, mit dem man sich längerfristig beschäftigen möchte. Aber in den meisten Fällen merkt man sich ja eher andere Sachen und die Chance, dass man sich einen großen Zusammenhang merkt, ist doch, denke ich, größer, als dass man vielleicht weiß, ja, wie ist jetzt die Strukturformel von Zellulose. Gut, Ina, jetzt hast du ja das Stoffeverfolgen erst mal erklärt, aber das muss ja auch irgendwie dargestellt werden. Das muss ja irgendwie auch auf Papier stattfinden können, so als Ansatz. Und damit, soweit ich das verstanden habe, hast du dich, Leonie, beschäftigt, wie man quasi mit Multimedia-Prinzipien, also wie man Text und Bilder zusammenbaut, dass die irgendwie besser in den Kopf reingehen. Magst du das einmal erklären?
Leonie: Ja, genau. Beim Multimedia oder bei den Prinzipien dazu geht es grundsätzlich darum, wie ich verschiedene Darstellungsformen, in unserem Fall jetzt einen Text und eine bildliche Darstellung, möglichst zielführend, also möglichst lernförderlich im Schulkontext auf ein Arbeitsblatt bringe oder in ein Schulbuch integrieren kann. Das ist ein Riesenthema, also wenn das die Zuhörer interessiert, gerne mal sonst bei Google eingeben. Also da gibt es super viel Forschung schon zu, es gibt super viele Prinzipien, die auf ganz verschiedene Art und Weise auch schon getestet worden sind. Für uns hier würde ich mich jetzt auf die beschränken, die wir uns auch in der Masterarbeit uns angeschaut haben und eben die auch vertieft haben. Erstmal kurz zur Erklärung, also wir haben uns aus dem ganzen Wust an Schulbüchern nachher einen Text rausgesucht, tatsächlich von 1991, also wir sind ein ganzes Stück zurückgegangen, den wir thematisch einfach gut fanden, also wo für uns zum Thema Kohlenstoffkreislauf alles drin war und haben den aber dann auch angepasst und mit einer Darstellung aus einem neueren Schulbuch eben auch ergänzt. Also ein Multimedia-Prinzip besagt zum Beispiel, dass der Text und die Darstellung räumlich nah beieinander sind, damit es einfach dem Leser erleichtert wird. Ich lese den Text, ich habe daneben die Darstellung und ich kann die direkt verknüpfen. Das hat auch viel damit zu tun, ich habe einen Inhalt im Kopf, den ich aus dem Text mitgenommen habe und den muss ich mir nicht lange merken, weil unser Arbeitsgedächtnis ja ganz wenig nur speichern kann, sondern ich kann direkt den mit der Darstellung verknüpfen und das dann wiederum ins Langzeitgedächtnis vielleicht sogar direkt einspeichern. Genau, das haben wir zum einen eben auf unserem Standard-Arbeitsblatt, nenne ich es jetzt mal, gemacht, aber wir haben, um das Ganze noch mehr dem Multimedia-Prinzip in Entsprechung zu machen, auch ein Arbeitsblatt erstellt, wo wir drei Textblöcke hatten und eben eine sich aufbauende Darstellung über den Kohlenstoffkreislauf. Ina hat das Ganze ja sehr schön zusammengefasst, also wir hatten eine Darstellung, die die Produzenten fokussiert hat, dann die Konsumenten und am Ende eben die Destruenten und die letzte Abbildung hatte dann aber auch den ganzen Kreislauf an sich oder hat den beinhaltet in der Abbildung, aber eben die Schwerpunkte waren so gesetzt, dass sie auch direkt zum Text passten, der in einzelnen Textblöcken eben daneben stand. Also wir hatten das sehr schön räumlich fokussiert. Ganz wichtig, wir haben natürlich gleiche Begrifflichkeiten in beiden Darstellungsformen genutzt, nicht nur schriftlich, sondern eben auch mit Summenformeln gearbeitet, damit gerade das C-Atom fürs Stoffeverfolgen dann auch eben deutlich wird. Wir haben fettgedruckte Begriffe verwendet, die in beiden Darstellungsformen, also im Text und im Bild, vorkamen, damit eben das Lesen da auch nochmal erleichtert wurde und dem Leser oder den Schülern dann gesehen hat, oh, okay, da ist Photosynthese fettgedruckt, dann schaue ich doch mal, wo ich das in der Abbildung finde und wie kann ich das direkt miteinander verknüpfen. Das ist einfach so ein Lenken auch des Lesers. Um die Aggregatzustände besser erkennen zu können, haben wir dann vor allen Dingen in der bildlichen Darstellung Wolken verwendet, um gasförmige Aggregatzustände zu zeigen. Wir haben Rechtecke verwendet, um den festen Aggregatzustand zu zeigen und auch einen Regentropfen für flüssig. Die hatten dann, je nachdem, ob wir Kohlenstoff hatten, die Farbe Grau, bei Sauerstoff waren sie zum Beispiel Blau. Also wir haben dann auch viel mit Farben gearbeitet, um da eben auch eine Unterscheidung hinzukriegen. Genau.
Helena: Also immer mehr als nur ein Unterscheidungsmerkmal, sodass es optisch nicht nur da steht "gasförmig" oder "flüssig", sondern es ist auch nochmal durch die Darstellung unterschieden.
Leonie: Genau, auf jeden Fall. Zudem haben wir halt versucht, sowohl im Text als auch in der Abbildung wirklich nur die Informationen zu geben, die wichtig für das Verständnis sind. Also alles, was in irgendeiner Art und Weise ablenkt, haben wir rausgenommen. Das war zwischendurch gar nicht so einfach. Also da musste man natürlich erst vorher mal gucken, okay, was ist jetzt wirklich, wirklich wichtig und was können wir eben auch weglassen, was überspannt den Bogen jetzt hier. Und ihr merkt vielleicht schon, das ist ziemlich komplex, das Thema generell und dann eben das auch mit Multimedia-Prinzipien noch auf den Arbeitsplatz zu bringen. Deswegen ist es grundsätzlich so, dass durch Multimedia-Prinzipien oder die Bemühungen, die man damit hat, die mentale Belastung der Lernenden erst einmal steigt, weil wir ja dann nicht nur einen Text haben, den sie lesen müssen, sondern eben in diesem Text auch noch mit der Abbildung Verknüpfungen entstehen und und und. Das ist erstmal also was, was man auch wissen muss, wenn man so ein Lernmaterial verwendet, dass es nicht unbedingt einfacher für die Schülerinnen das Ganze macht, sich mit dem Arbeitsmaterial auseinanderzusetzen. Aber die Hoffnung ist halt, dass durch die Bemühungen der Multimedia-Prinzipien die Lenrninhalte einfach besser miteinander verknüpft werden und so auch besser ins Langzeitgedächtnis gelangen können.
Janine: Ich stelle mir das jetzt so vor bei diesen Multimedia-Prinzipien, wie du es gerade erklärt hast, gerade mit den ganz verschiedenen Ansätzen, die da quasi gleichzeitig zusammenkommen, dass das sozusagen der Versuch ist, alles prägnant und kurz darzustellen und aber vielleicht ja auch gleichzeitig den unterschiedlichen Lerntypen, sage ich mal, auch so ein bisschen entgegenzukommen, weil es gibt ja Menschen, die besser durch Texte lernen, Menschen, die besser mit visuellen Darstellungen klarkommen. Manche werden durch viele Farben eher verwirrt, für andere leitet es die Blickrichtung. Also ich stelle es mir tatsächlich sehr schwierig vor, für alle Lerntypen gleichzeitig was anbieten zu können, weil ja alle Schüler*innen immer vom gleichen Material lernen müssen. Und irgendwie klingt das so ein bisschen wie der Versuch, dass für alle ein bisschen was drin steckt...
Leonie: Mhm.
Janine: ...ohne dass es am Ende so überfordernd sein soll, dass niemand mehr was damit anfangen kann.
Leonie: Ja, genau. Und ich glaube, das ist auch gerade die Schwierigkeit und das haben wir auch am Ende aus dem Ergebnis mit rausgenommen, also ohne jetzt vorgreifen zu wollen, aber das vielleicht schon mal so als kleiner Ausblick.
Janine: Ja.
Leonie: Also es war schon auch nicht einfach, das Lernmaterial dann zu erstellen und dann alles wirklich zu denken.
Wie war die Untersuchung aufgebaut? (00:27:23)
Janine: Wir haben jetzt einiges darüber gehört, was zum einen ja eure Ausgangsfragestellung ist, euer Forschungsinteresse in euren Masterarbeiten war und die verschiedenen Aspekte, die ihr euch erarbeitet habt, um das untersuchen zu können. Also zum einen das Thema konkret, was ist eigentlich das, womit sich die Schüler*innen auseinandersetzen müssen und dann eben auch die Idee, dass durch das Prinzip oder die Methode Stoffe verfolgen und durch die multimediale Aufbereitung die Grundlagen quasi geschaffen sind. Jetzt ist natürlich die spannende Frage, irgendwie müssen dann ja irgendwelche Daten erhoben worden sein. Also was war sozusagen euer Versuchsaufbau?
Ina: Wir hatten im Grunde ein sogenanntes 2x2-faktoriales Design, damit werden jetzt Leute, die sich mit Forschung in dieser Richtung vielleicht auskennen, was anfangen können. Aber ich denke mal, die allgemeinen Zuhörenden, da ist jetzt eher so ein Fragezeichen im Kopf, was das zu bedeuten hat. Wir haben im Grunde mit mehreren Klassen gearbeitet, also wir hatten insgesamt zwölf Klassen, die teilgenommen haben und diese zwölf Klassen haben wir in vier Gruppen eingeteilt. Das heißt, wir hatten pro Gruppe drei Klassen und die hatten jeweils anderes Material und andere Aufgabenstellungen. Das heißt, wir haben eine Gruppe gehabt, also drei Klassen, die hatten unser Basismaterial und einen Basisarbeitsauftrag. Das war im Grunde die Kontrollgruppe. Die haben halt ein Material bekommen, da war ein Text und ein Bild, die haben wir dann nebeneinander gestellt. Das haben wir auch speziell ausgesucht, also Leonie hat das auch vereinfacht, also den Text von 1999, das war die angepasste Version, dazu dann das Bild von einem neueren Schulbuch und da haben wir dann aber keine Regentropfen und keine Kästen mit eingebaut, das war dann quasi das Standardmaterial, wo dann einfach der Text da war und das Bild. Dazu haben wir dann einen normalen Arbeitsauftrag bekommen, der irgendwie, also es war so, ja, erläutert, den Kohlenstoffkreislauf anhand der Abbildung und des Textes, das ist halt so ein Standardarbeitsauftrag, der in der Schule oft verwendet wird. Und das war dann die Gruppe, die halt Basis und Basis hatte, also die Kontrollgruppe. Und dann hatten wir eine Gruppe, die haben das Multimediamaterial bekommen und sollten darüber hinaus auch Stoffe verfolgen durchführen bei der Intervention. Das war dann quasi die Gruppe, wo wir beide Varianten, also einmal Leonies Schwerpunkt und mein Schwerpunkt kombiniert haben. Und weil wir ja auch herausfinden wollten, nicht nur was bringt vielleicht Multimedia und Stoffe verfolgen zusammen, was hat das zusammen für einen Effekt, sondern wir wollten ja auch so ein bisschen differenziert herausfinden, okay, was bringt eigentlich nur Stoffe verfolgen oder was bringen nur die Multimedia-Prinzipien, gibt es da vielleicht auch irgendwelche Effekte oder positiven Auswirkungen auf das Lernen. Und deswegen hatten wir dann im Grunde vier Gruppen, also noch eine weitere Gruppe, die dann das Standardmaterial bekommen hat und dazu aber Stoffe verfolgen machen sollte. Und dann hatten wir noch eine Gruppe, die hatte einen normalen Arbeitsauftrag und dafür aber das Multimediamaterial. Dadurch haben wir dann im Grunde vier verschiedene Gruppen gehabt, wo wir diese Intervention gemacht haben, das heißt, die haben sich mit dem Lerninhalt beschäftigt und jeweils die Aufgabenstellung mit dem Material gearbeitet. Und dann haben wir vorher und nachher jeweils den Lernstand getestet.
Janine: Klingt auf jeden Fall soweit schon mal relativ aufwendig.
Ina: Ja.
Helena: Wie habt ihr denn den Lernstand getestet?
Ina: Wir haben im Grunde ein, bevor wir dieses Lernmaterial ausgegeben haben, bevor die die Aufgabenstellung bearbeiten sollten, haben wir einen kleinen Vortest gemacht, also den Prätest. Da sollten die Lernenden dann Single- beziehungsweise Multiple-Choice-Fragen erstmal beantworten, also ganz simpel erstmal ankreuzen, wo wir dann so geschaut haben, was wissen die schon über die Photosynthese, was wissen die zur Zellatmung, wissen die, was für Verbindungen überhaupt Kohlenstoff enthalten, also so Sachen wie Glucose. Kennen die Glucose? Wissen sie, dass da Kohlenstoff drin ist? Und dadurch haben wir so ein bisschen versucht, erstmal zu erfassen, okay, haben die vielleicht schon sehr viel Vorwissen oder haben die sehr wenig Vorwissen zum Kohlenstoffkreislauf? Und dann haben wir nach der Intervention, also nachdem sie dann sich den Lerninhalt erarbeitet haben auf die eine oder andere Weise, haben wir dann einen Posttest gemacht. Da sollten die Lernenden dann im Grunde auf so einem ganz großen DIN-A3-Blatt den Kohlenstoffkreislauf einmal aufzeichnen. Da hatten wir schon so einen Busch einmal vorgegeben und einen Hirsch. Und dann sollten die versuchen, die beiden Organismen miteinander zu verbinden, durch den Kohlenstoffkreislauf aber auch noch Sachen dazu zu malen. Und dadurch haben wir dann im Grunde geschaut, okay, was schaffen sie dann selber in dieser freien Zeichnung noch aufs Blatt zu bringen, woran können die sich die Lernenden erinnern? Und das war dann im Grunde der Posttest. Das war eine offene Aufgabe. Dadurch war es auch relativ anspruchsvoll, das Ganze auszuwerten am Ende. Aber ich glaube, darauf gehen wir dann später nochmal ein.
Janine: Ja, ich glaube, Leonie hatte das zwischendurch gesagt mit der mentalen Belastung noch, dass euch die auch interessiert hat. Wie habt ihr das denn versucht mitzuschneiden, wie es den Schüler*innen so geht während des Lernens und Anwendens dann vom Wissen?
Leonie: Genau, gerade im Bezug auf die Multimedienprinzipien spielt die mentale Belastung ja auch eine Rolle. Und wir haben jetzt während des Lernens, also ich glaube, Ina und ich haben ganz interessante Erfahrungen in den Klassen gemacht, weil von den Schülern, gerade von den Jüngeren natürlich auch relativ schnell ein Feedback zurückkommt. Für unsere Masterarbeit an sich hatten wir einen kleinen Fragebogen erstellt, der für die Schülerinnen und Schüler vereinfacht hieß, wie hat euch das Material gefallen? Und da einfach so ein bisschen abgefragt wurde, okay, fandet ihr das Material anstrengend? Konntet ihr den Text verstehen? Wie war die Aufgabenstellung? Habt ihr das nachvollziehen können? Und das war so eine Likert-Skala, die konnten dann Stimme dem zu, Stimme dem nicht zu eben ankreuzen. Genau, und das haben wir hinterher dann in Bezug auf die kognitive Belastung eben noch ausgewertet, ja.
Wie sah eure Untersuchung in der Praxis aus? (00:33:15)
Helena: Wie sah das in der Praxis aus? Also, es ist ja erstmal schön einen Plan zu haben, was man in der Schule machen würde, aber man hat mit Menschen zu tun und Menschen tun Menschendinge.
Leonie: Ja, das kann man ja auch vorher gar nicht planen. Also, wir hatten jetzt das große Glück, dass wir durch unser Material und durch auch den Prä-Test, Post-Test und die Mental-Load-Abfrage sehr viele ausgedruckte Blätter dabei hatten. Ich glaube, es waren insgesamt sieben Arbeitsblätter pro Kind. Dadurch war die Unterrichtsstunde an sich schon relativ strukturiert. Wir haben eben die Schülerinnen und Schüler auch gebeten, einen persönlichen Code zu erstellen, damit wir hinterher diese ganzen Arbeitsblätter eben auch einem Schüler oder einer Schülerin hinterher zuordnen können, weil das ging tatsächlich drunter und drüber hinterher mit den Zetteln. Ich habe viel sortiert zu Hause. Genau, und dann, das war erstmal so der erste Schritt, also einen persönlichen Code zu erstellen. Dann kam halt der Prä-Test. Das hat Ina ja vorhin schon schön gesagt, also wie war der Vorwissensstand der Schülerinnen und Schüler. Dann haben die je nach Gruppe eben das Arbeitsblatt bekommen, also entweder das Basismaterial oder eben das Multimediamaterial. Da gab es tatsächlich viele Fragen auch oft, gerade zu Begrifflichkeiten, die bei mir in den Gruppen aufgefallen sind. Die Fragen haben wir aber auch beantwortet, weil wir schon wollten, dass die Schülerinnen und Schüler eben auch was daraus mitnehmen und jetzt nicht "Ne, ihr dürft jetzt nur den Text lesen und wir machen jetzt hier nichts anderes, sonst verfälscht ihr womöglich Ergebnis oder so." Also da waren wir sehr liberal, würde ich jetzt mal sagen.
Helena: Ich würde ja auch erwarten, dass man im normalen Unterricht ja auch Fragen stellen darf und sollte.
Leonie: Genau.
Helena: Deswegen wäre das ja eher verfälschend, wenn man das gerade nicht macht, also wenn man nicht beantwortet.
Leonie: Ja, also wir hatten vorher die Angst, dass viele Schüler zu viel Hilfestellung haben möchten und das dadurch...
Helena: Ah okay...
Leonie: ...halt gerade auf den Posttest dann, also wenn ich jemandem jetzt was detaillierter erkläre, kann er den Posttest natürlich anders beantworten als jetzt andere. Aber das fand ich wahr. Also es waren Kleinigkeiten an Fragen. Ich habe auch oft die Schülerinnen und Schüler sagen lassen, vielleicht könnt ihr das in Partnerarbeit klären. Also das lief ziemlich gut und genau, dann gab es dazu eben Aufgaben, die bearbeitet wurden, eben auch je nachdem, ob wir in der Gruppe mit dem Stoffverfolgen waren oder in der Basis oder in der Kontrollgruppe eben, die dann einen Basisarbeitsauftrag hatten und sich das eben nur erklären sollten. Und dann haben wir gesagt, okay, jetzt sammelt ihr die Blätter, die ihr jetzt hattet, einmal ein, dreht die rum und legt die auf den Tisch. Und da war das lustig, weil gerade in den unteren Klassen bin ich nochmal rumgegangen, weil viele das Arbeitsmaterial natürlich ganz oben hatten, dann konnten die so ein bisschen durch, also es schien so durch und das sollte natürlich nicht sein. Also wir wollten ja jetzt, wir haben denen auch ausreichend Zeit gelassen, also die hatten wirklich, konnten uns zurück meinen, okay, wir haben jetzt alle den Text gelesen, wir sind jetzt soweit fertig, wir haben ihn mehr oder minder eben verstanden. Da wollten wir auch ausreichend Zeit für geben, das war uns sehr wichtig. Und jetzt kommen wir aber den Punkt nach diesem Arbeitsmaterial und nach den Aufgaben, jetzt wollen wir mal gucken, was ist denn hängen geblieben. Und da waren viele Schüler erstmal so, okay, was kommt jetzt? Und dann haben wir eben das große DIN-A-3-Blatt ausgeteilt mit dem Busch und dem Hirsch drauf und haben gesagt, so, jetzt zeichnet doch bitte mal den Kohlenstoffkreislauf so, wie ihr ihn euch gemerkt habt, zeichnet Pfeile ein, beachtet, dass der Kreislauf eben auch geschlossen werden muss und haben dann die Schülerinnen und Schüler zeichnen lassen. Hinterher, das ist leider relativ kurz oft ausgefallen, weil die Schülerinnen und Schüler sich sehr mit der Zeichnung beschäftigt haben, haben wir sie noch gebeten, die Zeichnung so ein bisschen zu beschreiben, damit wir hinterher eine Auswertung nicht unbedingt Rätsel raten. Soll das ein Hirsch sein? Was haben sie da gezeichnet? Wir haben auch gesagt, stresst euch nicht mit Zeichnung, sonst beschreibt halt was drüber, was es ist. Es war halt wichtig, noch so zwei, drei Sätze einfach lesen zu können, wie, was habt ihr da genau gezeichnet? Und das ist leider zeitlich oft nicht mehr hingekommen, weil viele Schüler oder Schülerinnen sich mit der Zeichnung dann sehr weiträumig auseinandergesetzt haben. Und als ganz letzter Schritt haben wir dann eben noch die Frage gestellt, wie hat euch das Material gefallen, wo gab es Schwierigkeiten? Und da waren dann auch, also viele haben dann auch drunter geschrieben, coole Stunde, super Material, aber war halt wirklich kompliziert oder gerade die achten Klassen, in denen wir das gemacht haben, da hat man schon in der Erarbeitung eben gemerkt, okay, das Thema und vielleicht auch das Material ist einfach wirklich zu komplex. Aber alles in allem, ich weiß nicht, wie es Ina ging. Ich fand es ganz cool. Ich hatte vorher deutlich mehr Sorgen und bei mir haben die Schülerinnen und Schüler wirklich gut mitgemacht.
Ina: Ja, das war bei mir auch ähnlich und ich fand es total spannend, wie unterschiedlich die auch mit dem Material umgegangen sind oder wie die die Aufgabenstellung interpretiert haben. Und das dann so im Vergleich zu sehen, das war schon ganz spannend. Und ich habe zum Beispiel ganz oft gesehen, dass die dann den Busch hatten und auf dem Arbeitsblatt vorher war ein Baum zu sehen. Und dann haben die immer angefangen, dem Busch dann aus den Stammen drunter zu malen, damit das so aussieht wie am Arbeitsblatt vorher.
Janine: Okay, also das ist auf jeden Fall dann schon mal hängen geblieben.
Ina: Genau, Bäume sind wichtig.
Helena: Hast du ein Beispiel, was die unterschiedlich interpretiert haben?
Ina: Also wir haben im Grunde zwei Aufgaben gehabt. Einmal das Stoffe verfolgen oder das erklären. Und davor sollten die sich mit drei verschiedenen Farben noch was auf dem Blatt markieren, um das so ein bisschen in Vorzeit zu lassen, dass sie sich das auch wirklich genau anschauen. Also dann sollten die halt in braun, grün und grau diese drei Kreisläufe einmal einzeichnen auf dem Bild im Grunde, das wir eingefügt hatten, damit die dann, wenn sie sich das später erklären, einfach diese Zeichnung von sich selber auch verfolgen können. Und da haben die ganz unterschiedlich Sachen eingemalt. Also manche haben dann im Text da noch Schlangen drum gemalt und manche haben dann nur auf dem Bild gearbeitet. Manche haben auf allen drei Bildern was gemalt, manche nur auf einem. Also das war sehr spannend. Im Nachhinein haben wir auch gedacht, okay, vielleicht hätte man diese Aufgabe doch anders stellen sollen. Das war dann doch etwas missverständlich.
Helena: Okay.
Leonie: Genau. Und gerade bei dieser Aufgabe haben bei mir zum Beispiel auch Kinder angefangen, auf einem Extrablatt den Kreislauf schon zu zeichnen. Also das, was ja eigentlich im Posttest stattfinden sollte. Und das habe ich dann halt auch unterbrochen. Aber das war wirklich, also die Aufgabe ist so oft völlig unterschiedlich interpretiert worden. Ja, das ist auf jeden Fall hängen geblieben.
Janine: Ich weiß noch, Achtung, Outing aus der Grundschule. Wir hatten mal so eine Aufgabe bekommen, da sollten wir so Schlangen malen im Kunstunterricht. Und mehrere Schlangen auf einem Blatt und wir sollten Schlangen mit verschiedenen Mustern malen. Die meisten Kinder haben das richtig interpretiert, in der Intention der Lehrkraft und haben eine Schlange mit Kringeln gemalt, eine Schlange mit, keine Ahnung, Dreiecken als Schuppenmuster. Und was habe ich gemacht? Ich habe jede Schlange in verschiedene Sektionen eingeteilt und jede Sektion hat ein anderes Muster bekommen, weil wir sollten ja Schlangen mit verschiedenen Mustern malen. So stelle ich mir das auch so ein bisschen vor. Also Aufgabenstellung und die Interpretation ist manchmal tatsächlich interessant.
Leonie: Ja, auch für uns irgendwie ein Zeichen als zukünftige Lehrkräfte, da nochmal genauer drauf zu schauen. Also was stellen wir für Aufgabenstellung? Ich weiß, Ina hatte auch richtig Probleme, irgendwie überhaupt eine passende zu finden. Und wie stellen wir die und wie wird sie hinterher denn eben auch verstanden oder wie stellen wir sie so, dass sie richtig verstanden wird? Ich glaube, das hat uns das Ganze nochmal sehr verdeutlicht.
Janine: Ja.
Wie wurde die Auswertung gemacht? (00:40:51)
Helena: Ja, gut. Jetzt habt ihr ganz viele Klassen. Ihr habt ja gesagt zwölf gehabt, in denen ihr wart und dann habt ihr angefangen, das Ganze auszuwerten. Wie seid ihr da vorgegangen?
Leonie: Ja, es war eine recht umfangreiche Auswertung. Genau, erst mal vielleicht, um am Anfang anzufangen, also der Prätest waren ja Single- und Multiple-Choice-Fragen, wo wir Punkte vergeben haben für eben jeweils richtige. Wir haben dann den Mittelwert, den Median, die Standardabweichung berechnet und daraus eben hinterher in unserer Masterarbeit geschaut, okay, wir hatten ja die Klassen dann nachher auch in Gruppen eingeteilt. Welche Gruppe hatte das meiste Vorwissen? Ziel war es ja eigentlich, alle Gruppen haben ungefähr das gleiche Vorwissen und wir durch unsere Intervention bringen den Kindern dann was bei. Das war auch so. Also wir hatten das große Glück, wir hatten zwar sehr unterschiedliche Gruppen, weil wir ja Klasse 8 bis 10 hatten, aber wir hatten das Glück, dass die alle recht ähnliches Vorwissen hatten. Ja, beim Posttest haben wir dann einen Kodierleitfaden erstellt. Wir hatten ein DIN-A3-Blatt mit Zeichnungen, die sehr, sehr unterschiedlich ausgefallen sind und Ina und ich hatten uns vorher auf Grundlage der Forschung und auf der Grundlage auch unserer Lernziele, die wir uns ja vorher gedacht hatten und auch der Hypothesen, die wir aufgestellt hatten, haben wir einen Kodierleitfaden erstellt. Also okay, was muss drin sein? Ist der Kreislauf geschlossen gezeichnet? Haben sie die Destruenten eingefügt, die wir extra nicht eingefügt hatten? Das waren so die einzelnen Kategorien und die haben wir dann nochmal untergliedert. Also ist der Kreislauf wirklich mit Pfeilen geschlossen? Gibt es die einzelnen Teilkreisläufe oder haben wir nur einen großen Kreislauf? Das ging dann wirklich, ich weiß gar nicht, wir hatten glaube ich hinterher acht oder neun Kategorien, die wir bei der Auswertung dann auch noch sehr stark erweitert haben. Also wir haben sowohl deduktiv begonnen als auch induktiv das Ganze dann später noch deutlich erweitert und auch noch weiter untergliedert. Zum Beispiel beim Herkunftsort vom CO2, was die Produzenten ja aufnehmen für die Photosynthese. Das kommt halt aus der Umgebungsluft. Gab's für uns erstmal zwei Punkte sozusagen und viele Schülerinnen und Schüler haben aber auch gesagt, okay, die Destruenten, die das ja verarbeiten, auch die Konsumenten, die atmen das ja aus und von da aus gelangt es direkt zur Pflanze. Das hatten wir so gar nicht mitbedacht und da mussten wir dann hinterher gucken, okay, zählt das auch für uns zwei Punkte oder ist das halt nochmal was, was wir anders bepunkten würden. Ja, das war tatsächlich sehr interessant.
Helena: Was war das Ergebnis? Wie habt ihr es bepunktet dann?
Leonie: Wir haben nochmal 1,5 Punkte dafür vergeben. Also wir haben das nochmal deutlich untergliedert gehabt, weil es auch oft nicht unbedingt deutlich war. Also die Pfeile führten manchmal auch so ins Nichts und dann musste man halt hinterher gucken, okay, wie ist das vielleicht gedacht und kann ich dafür überhaupt Punkte vergeben? Da haben Ina und ich tatsächlich nochmal einige Überarbeitungsschleifen gebraucht, aber ich glaube, wir sind beide sehr zufrieden mit dem Ergebnis gewesen und konnten damit halt dann wirklich auch eine gute Auswertung machen. Genau und zur Mental Load Abfrage, das war eben eine Likert-Skala und da haben wir dann Punkte vergeben, vier Punkte bei einer sehr hohen Ausprägung. Also wenn die Schülerinnen und Schüler gesagt haben, ich stimme dem voll zu, das super komplizierter Text war, gab es eben vier Punkte und wenn sie gesagt haben, nö, der Aussage stimme ich gar nicht zu, gab es dann eben ein.
Helena: Also das war so eine typische Skala, die Likert-Skala ist eine ohne Mitte.
Leonie: Genau.
Helena: Also es gibt kein Neutral. Okay.
Leonie: Genau. Wir haben sowohl in dem Codierleitfaden als auch eben in der Mental Load und dem Prätest ja hinterher dann Zahlen gehabt oder sozusagen Punkte und eben auch ein Gesamtergebnis und mit diesen Punkten haben wir dann weitergerechnet.
Janine: Das heißt, ihr habt das, was ich vorhin ganz am Anfang gesagt habe, dass das nicht zählbar ist, ihr habt das nicht zählbare zählbar gemacht dadurch.
Ina: Wir haben es versucht.
Leonie: Genau, wir haben es versucht, das Ganze zählbar zu machen, um es dann eben auswerten zu können. Ich glaube aber, dass sowohl Ina als auch ich ganz viele zwischenmenschliche Dinge eben auch bemerkt haben, die nicht zählbar sind, die wir für uns aber mitnehmen können.
Janine: Sehr schön.
Ina: Genau und da musste man das Zählbare auch irgendwie vergleichen und das haben wir mit Hilfe von einer Varianzanalyse gemacht. Das heißt, wir haben versucht herauszufinden, okay, haben unsere verschiedenen Interventionen auch unterschiedliche Lernerfolge mit sich gebracht. Das heißt, wir haben dann diese Varianzanalyse gemacht, mit der man dann drei oder mehr Gruppen, in unserem Fall waren es ja vier Gruppen, eben vergleichen kann und versucht herauszufinden, okay, besteht da irgendwie ein Unterschied. Konkret haben wir das mit dem Kruskal-Wallis-Test gemacht. Da hat uns glücklicherweise auch unsere Dozentin ganz viel unterstützt. Das war wirklich großartig. Mit den ganzen Tests dann.
Leonie: Großes Danke an dieser Stelle.
Ina: Genau. Mit diesem Test konnten wir dann im Grunde schauen, okay, unterscheiden sich mindestens zwei von den vier Gruppen signifikant voneinander. Also, dass es auch irgendwie ein messbarer Unterschied ist und nicht zufällig. Und dieser Test allein hat uns aber noch nicht gesagt, welche der Gruppen sich unterscheiden. Das heißt, da musste noch mal weitere Tests gemacht werden. Das waren dann die Post-Hoc-Tests.
Helena: Ah okay.
Ina: Und die konnten uns dann wirklich genauer sagen, okay, Gruppe A unterscheidet sich von Gruppe C signifikant und dann konnten wir das wieder auswerten und schauen, okay, was war das für eine Gruppe und was lässt sich daraus interpretieren. Und dann haben wir halt zusätzlich zu diesen Signifikanzen auch noch die Effektstärke berechnet, um dann auch zu schauen, okay, hat das denn wirklich auch einen Effekt und bringt es wirklich dann, was sich die Mühe zu machen? Oder sind das vielleicht zwei Unterschiede, die aber nicht wirklich hilfreich sind, um das Verständnis zu fördern?
Helena: Genau. Signifikanz meint dabei, dass es unwahrscheinlich ist, dass das durch reinen Zufall passiert ist. Da wird häufig so eine fünfprozentige Wahrscheinlichkeit, dass es durch reinen Zufall passiert ist. Angenommen, ein Problem ist, wenn man im Laufe der Auswertung das Auswertungsverfahren ändert, ist, dass man natürlich auch an diesen fünf Prozent manipulieren kann. Also das sollte man grundsätzlich mitbedenken. Deswegen ist es auch sehr relevant, noch die Effektstärke zu messen und sich anzugucken. Also wie groß ist eigentlich der Unterschied? Weil es bringt ja nichts, dass etwas, keine Ahnung, mit hoher Wahrscheinlichkeit signifikant ist, wenn man trotzdem kein, ja nur sieht, ja die wissen jetzt vielleicht ein Detail mehr. Das würde ja vielleicht den Aufwand gar nicht rechtfertigen. Deswegen ist die Effektstärke als zusätzlicher Faktor eigentlich auch sehr wichtig. Aber wenn man jetzt nur zwei Leute hat, denen man was beigebracht hat und die eine Person hat es verstanden und die andere nicht, dann ist die Effektstärke sehr groß, potenziell. Aber dass das rein zufällig aufgrund der Auswahl der Personen passiert, ist wiederum auch sehr hohe Wahrscheinlichkeit. Da ist dann die Signifikanz nicht gegeben. So als Gegenbeispiel. Und ihr habt ja mit zwölf Klassen doch eine recht nennenswerte Anzahl von einigen hundert Menschen gehabt.
Leonie: Ja.
Helena: Das ist ja schon ganz gut.
Ina: Genau, wir hatten 247 Lernde, die teilgenommen haben.
Wie sieht das Ergebnis aus? (00:47:44)
Janine: Sehr gut. Jetzt natürlich die spannende Frage, wie das so mit den Ergebnissen aussieht. Mir fällt es gerade tatsächlich selber schwer, die Frage richtig gut zu formulieren, weil ihr bestimmt auch nicht eindeutig sagen könnt, gerade wegen der vielen Unterschiede, die ihr auch während der Aufgabenstellung oder während des Bearbeitens der Aufgaben schon festgestellt habt, ist es wahrscheinlich gar nicht so leicht zu sagen, okay, das ist jetzt unser absolutes Ergebnis. In der Gruppe hat es am allerbesten funktioniert. Oder gibt es da so etwas?
Ina: Ja, also es war sehr kompliziert, weil wir ja auch ganz viele verschiedene Kategorien hatten. Leonie hat ja gerade erklärt, dass wir beim Posttest diese Kodierleitfaden hatten. Der hatte ja über zehn Kategorien. Und das heißt, wir hatten ja ganz viele Hypothesen und ganz viele Fragestellungen mit so Details vom Kohlenstoffkreislauf, was vielleicht verstanden wurde oder auch nicht. Und da mussten wir da erst mal versuchen, so ein Muster auch drin zu sehen. Das war gar nicht so einfach. Und eins von unseren Forschungsinteressen war ja auch zu schauen, schaffen sie es, noch die Destruenten zu ergänzen auf der Abbildung. Denn wir haben im Posttest ja eine Zeichnung vorgegeben, wo schon ein Busch zu sehen war und ein Hirsch, aber das war ja nur der Produzent und der Konsument. Aber die Gruppe der Destruenten hat da ja noch gefehlt. Das heißt, uns hat zum Beispiel interessiert, okay, schaffen sie es, die Destruenten auch noch zu ergänzen, die ja für den gesamten Kreislauf auch eine genauso wichtige Rolle spielen wie dann die Produzenten oder die Konsumenten. Und da haben wir uns nämlich an vorangegangener Forschung orientiert. Die haben nämlich einen ähnlichen Test schon mal gemacht. Das war auch von unserer Uni aus. Und da ist festgestellt worden, dass bei den meisten Lernenden überhaupt nichts ergänzt wurde. Dann haben die nur mit den Produzenten und den Konsumenten gearbeitet, aber die Destruenten sind halt in Vergessenheit geraten. Allerdings ist dabei bei der Untersuchung nichts vorangestellt worden an Erarbeitung. Das heißt, uns hat interessiert, okay, wenn wir das jetzt erarbeiten auf die eine oder andere Weise, bringt das überhaupt was, dass vielleicht auch die Destruenten dann auftauchen? Da haben wir dann festgestellt, es hat funktioniert. Also es haben ganz viele Lernende die Destruenten ergänzt. Allerdings, wenn wir jetzt unser Forschungsinteresse in Bezug auf Multimedia-Prinzipien oder auf Stoffe-Verfolgen genau anschauen, dann kann man da eigentlich keine Unterschiede sehen. Also es haben sowohl die Lernende mit dem Basismaterial oder der Basisaufgabe geschafft, die Destruenten zu ergänzen, aber auch die mit Stoffe-Verfolgen oder Multimedia-Prinzipien. Aber es gab jetzt keine nennenswerten Unterschiede, dass sie es mit den Multimedia-Prinzipien besser geschafft haben, als die mit dem Basistext und dem Basisbild. Das heißt, das war jetzt erstmal interessant, dass es mit der Erarbeitung geklappt hat, das zu ergänzen, dass dann Bewusstsein für entstanden ist, aber jetzt nichts, was spezifisch auf unsere Forschungsschwerpunkte zurückzuführen wäre.
Janine: Ihr hattet ja ein Problem am Anfang skizziert, dieses Switchen zwischen Kohlenstoff und Sauerstoff. Habt ihr da auch etwas beobachten können?
Ina: Also wir haben etwas beobachten können, aber das war nicht so, wie wir es erwartet haben. Und zwar haben wir ja gedacht, dadurch, dass wir jetzt bei den Multimedia-Prinzipien wirklich auch den Kohlenstoff zum Beispiel durch die Farben hervorheben und auch mal genau gekennzeichnet haben oder durch das Stoffe-Verfolgen, dass die sich ja genau den Kohlenstoff anschauen sollen und durch den Kreislauf verfolgen sollen, dass dadurch ja eigentlich hätte entgegengewirkt werden sollen, dann zum Sauerstoff zu wechseln. Das hat allerdings gar nicht so gut geklappt, wie wir das erst erwartet haben, denn wir konnten bei ja eigentlich allen Gruppen sehen, dass die Lernenden oder dass immer noch ein großer Teil der Lernenden immer wieder zwischen den Atomen gewechselt ist. Also dass dann mal der Kohlenstoff verfolgt wurde, dann ist der Kohlenstoff aber vergessen worden und dann wurde doch wieder beim Sauerstoff weitergemacht, obwohl ja der Kohlenstoff gezeichnet werden sollte. Das heißt, wir mussten feststellen, dass eigentlich das, was wir versucht haben, ja denen beizubringen oder auch dieser Knackpunkt, dass der gar nicht so rübergekommen ist, wie wir das allein auf Basis der Theorie erwartet haben. In allen Gruppen gab es Lernende, die haben wirklich nur den Kohlenstoffkreislauf beschrieben und sind dabei geblieben, aber es gab auch in allen Gruppen Lernende, die eben nicht konsequent beim Kohlenstoff geblieben sind und dann manchmal wieder zum Sauerstoff gewechselt sind. Das heißt, da wäre so ein Punkt, wo man dann noch mal weiter überlegen müsste, wie man das Ganze überarbeiten kann.
Janine: Gab es denn irgendeinen Punkt, an dem euch wirklich Unterschiede aufgefallen sind zwischen dem Material?
Ina: Ja, also ein bisschen was haben wir dann doch feststellen können. Und zwar habe ich ja ganz am Anfang, wo ich versucht habe, den Kohlenstoffkreislauf zu erklären, habe ich ja bei diesen verschiedenen Organisationsebenen erwähnt. Das heißt, man hat einmal die Ebene vom Organismus, wo man sich jetzt nur die Pflanze anschaut oder nur das Tier anschaut. Und dann gibt es aber auch noch die Ebene von den Molekülen. Und das ist dann eine andere Organisationsebene, wo man dann sich anschaut, okay, was gibt es denn da für eine chemische Reaktion zum Beispiel zwischen Sauerstoff und Kohlenstoff, die dann zum Beispiel zu Kohlenstoffdioxid sich ja auch vereinen, wenn man das jetzt so ganz platt ausdrücken möchte. Ja, da haben wir dann festgestellt, dass das doch Effekte hatte. Also es wurden jetzt keine Fressbeziehungen beschrieben, wo einfach nur gesagt wurde, ja, das Tier frisst die Pflanze und scheidet das wieder aus und stirbt. Sondern es hat auch funktioniert, dass die Lernenden aufgeschrieben haben, okay, da ist gerade CO2, da ist Glucose, da haben wir vielleicht noch Wasser oder Sauerstoff und die reagieren damit. Das heißt, man konnte öfter diesen Wechsel auf die Organisationsebene der Moleküle sehen, was halt wichtig ist, um auch die Veränderung, zum Beispiel die Veränderung des Aggregatzustands vom Kohlenstoff zu verstehen. Und das heißt, das hat schon irgendwie funktioniert, aber es hat noch nicht so in dem Maß geklappt, wie wir uns erhofft haben, dass sie etwas lernen dabei.
Leonie: Was man vielleicht auch noch sagen kann zu den Ergebnissen, uns war es von Anfang an wichtig, dass wir allen Schülern die Möglichkeit geben, was aus der Unterrichtsstunde mitzunehmen. Also wir wollten auch die Kontrollgruppe, dass die etwas mitnimmt und dass die den Kohlenstoffkreislauf eben in der Stunde auch ordentlich bearbeiten. Dadurch hatte das Material, welches eben auch die Kontrollgruppe hatte, das haben wir ebenfalls bearbeitet. Also die Darstellung war nicht die ursprüngliche aus dem Buch und auch der Text war in gewissen Ansätzen angepasst. Natürlich lange nicht so wie beim Multimediamaterial, aber wir haben hinterher in der Interpretation eben auch festgestellt, dass diese kleinen Überarbeitungssachen, die wir in den Basistext irgendwie drin hatten, eben schon eine große Wirkung erzielt haben, weil auch die Kontrollgruppe in vielen Bereichen eben auch bei den Trophie-Ebenen zum Beispiel durchaus was mitgenommen hat. Für mich zeigt das eben für zukünftige Lehrmaterial, auch kleine Veränderungen können da finde ich schon ganz, ganz viel bringen. Also es war irgendwie unser Anspruch, dass wir jetzt nicht die Kontrollgruppe, dass die gar nichts lernt, aber das ist vielleicht etwas, was unsere Ergebnisse dahingehend halt sehr stark beeinflusst hat, wo die Gruppen dann nicht mehr so stark voneinander sich unterschieden hätten, als hätten wir der Kontrollgruppe jetzt ein viel, viel, viel schlechteres Material an die Hand gegeben.
Helena: Das habt ihr denn verglichen mit dem Stand der Forschung? Also die Kontrollgruppe, was die gelernt hat im Vergleich zu dem, was ihr gelesen habt, was da die Kontrollgruppen gelernt haben? Oder woher wisst ihr, dass das was gebracht hat?
Ina: Wir haben es im Grunde damit verglichen, was die sich vorgestellt haben bei der gleichen Aufgabe, wo vorher nichts erarbeitet wurde, wo es einfach vorher mal im Unterricht drangekommen ist. Genau, und ursprünglich war auch die Idee, es mit so einem normalen Material, was direkt so im Schulbuch zu finden war, zu erarbeiten. Allerdings ist halt in der Forschung vor uns so verschiedene Kriterien dargestellt, die überhaupt eine Voraussetzung sind, damit es möglich ist, zum Beispiel Stoffe verfolgen zu machen. Und die waren leider bei keinem der Schulbuchmaterialien gegeben. Also eins der Kriterien war beispielsweise, dass Photosynthese und Zellatmung beide vorkommen müssen. Aber ganz oft wurde zum Beispiel die Zellatmung ausgelassen auf der Schulbuchseite über den Kohlenstoffkreislauf. Und dadurch würde ja schon die Hälfte von vornherein fehlen, was die gar nicht lernen können, sodass wir halt dementsprechend auch wieder aussortiert haben. Oder eine andere Voraussetzung war halt, dass man überhaupt den Kohlenstoff erkennen kann im Material, also beispielsweise durch etwas, was eingezeichnet wird als Molekül oder durch etwas, was sprachlich sichtbar wird. Oder auch die Ausgangsstoffe und die Endstoffe der jeweiligen Prozesse, die mussten auch angegeben sein, damit es überhaupt möglich ist, Stoffe verfolgen, durchzuführen. Und dementsprechend haben wir dann auch feststellen müssen, dass es nicht klappt, eine normale Schulbuchseite zu nehmen, sondern mussten das dann auch schon etwas überarbeiten.
Janine: Geschweige denn wahrscheinlich Schulbuchmaterial aus den 90ern.
Ina: Genau.
Was waren die größten Schwierigkeiten? (00:56:23)
Janine: So ein bisschen klang es ja auch jetzt gerade so an. Was waren denn so eure größten Schwierigkeiten, auf die ihr im Laufe eurer Untersuchung gestoßen seid?
Leonie: Ja, vor allen Dingen in der Vorarbeit, also bevor wir überhaupt eingestiegen sind und in die Schulen gegangen sind. Das Lernmaterial zu gestalten, hat mehrere Überarbeitungsschleifen benötigt. Wir haben sehr viel darüber gesprochen, bis wir hinterher ein Lernmaterial hatten, wo wir gesagt haben, so, damit sind wir zufrieden, damit können wir jetzt weitermachen. Und darauf aufbauend waren bei uns sehr, sehr große Schwierigkeiten, überhaupt mögliche Lerngruppen zu finden, die das Lernmaterial bearbeiten. Der ursprüngliche Plan war, in die 9./10. Klasse zu gehen, also das eher mit älteren Schülern durchzuführen. Wir haben aber super wenig Rückmeldung von Lehrerinnen und Lehrern bekommen und mussten dann eben das Ganze etwas ausweiten, weil die Stichprobe sonst einfach viel zu klein geworden wäre. Dadurch haben wir dann auch noch 8. Klassen eben mit einbezogen und auch EF hatten wir dann nachher mit drin. Also wir haben das Ganze dann deutlich erweitert, um eben eine große Strichprobe erhalten zu können.
Janine: Wofür steht EF?
Leonie: Das ist die Einführungsphase, also sozusagen nach der 10., wenn die Schülerinnen und Schüler dann weitermachen und in die Oberstufe gehen.
Janine: Ah ja, okay.
Leonie: Genau, und zum Beispiel die Wahl auf die 8. Klasse ist dann auch gefallen, weil wir von mehreren Lehrkräften auch rückgemeldet bekommen haben, so, ja, fachlich p
01:10:35
dl048: vesuv challenge
Episode in
datenleben
Vor fast 2000 Jahren wurde eine antike Bibliothek bei einem Vulkanausbruch verschüttet -- und jetzt ist es vorstellbar, dass die damals beschädigten Schriftrollen trotz ihres Zustandes gelesen werden können. Wir beschäftigen uns mit der Vesuv Challenge, einem Wettbewerb, der 2023 dazu aufgerufen hat mit Machine Learning Methoden die Texte wieder lesbar zu machen. Welche Voraussetzungen braucht es, damit derart beschädigte Papyri mit digitalen Methoden erschlossen werden können? Welche Machine Learning Methoden können eingesetzt werden? Und gleichzeitig ist auch die Frage: Was werden wir zu lesen bekommen?
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl018: 3d-modelle aus fotos
Wikipedia: Herculaneum
Wikipedia: Villa dei Papiri
https://scrollprize.org/
YouTube.com, University of Kentucky: Herculaneum scrolls: A 20-year journey to read the unreadable
YouTube.com, 60 Minutes: Deciphering the ancient scrolls of Herculaneum | 60 Minutes Archive
GitHub.com, younader: Vesuvius-Grandprize-Winner
scrollprize.org: What does the scroll say?
philosophie magazin: Epikureismus
degruyter.com, Kilian Fleischer: Die Papyri Herkulaneums im Digitalen Zeitalter (Open Access)
Schlagworte zur Folge
Machine Learning, Vesuv, Herkulaneum, Forschung, Kultur
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 48. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch mitnehmen in die Welt der Daten. Was ist Data Science? Was bedeuten Daten für unser Leben? Woher kommen sie und wozu werden sie benutzt? Das sind Fragen, mit denen wir uns in diesem Podcast auseinandersetzen. Dabei gehen wir Themen nach, die uns alle und die Welt, in der wir leben, betreffen.
Thema der Folge (00:00:41)
Janine: Und wie in der letzten Folge schon angekündigt, haben wir mal wieder ein Thema auf dem Tisch, bei dem es auch um Machine Learning geht, aber es geht auch um Schriftrollen, die fast 2000 Jahre alt sind. Wir gucken uns nämlich heute an, was die Vesuv-Challenge ist, beziehungsweise Vesuvius Challenge auf Englisch, die erstmals 2023 ausgerufen wurde und vor allem, was da genau passiert, gemacht wurde. Im Einspieler gibt es gleich ein bisschen Hintergrundgeschichte zu den Schriftrollen, um die es geht, wie sie verloren gingen und auch wiedergefunden wurden. Und ja, danach befassen wir uns kurz damit, was dazu geführt hat, dass es jetzt möglich ist, mit diesen zerbrechlichen Objekten aus Herkulaneum zu arbeiten. Und Helena erzählt dann etwas dazu, welche technischen Verfahren und Machine Learning Methoden hier eingesetzt wurden, um die Schriftrollen eben lesbar machen zu können, ohne sie zu zerstören. Und gegen Ende reden wir dann nochmal darüber, was bisher so gefunden werden konnte und vor allem, wie es auch weitergeht mit dieser Challenge, denn die gibt es auch dieses Jahr.
Warum ist das Thema interessant? (00:01:49)
Helena: Ja, und wir fanden das Thema interessant, einfach weil hier Methoden aus dem Data Science Bereich mal mit einem völlig anderen Thema oder Gebiet verbunden werden, nämlich mit der Archäologie und dadurch Dinge möglich sind, die vorher nicht möglich waren. Insbesondere ermöglicht das Machine Learning hier, dass man sich Dinge angucken kann, ohne sie dabei zu zerstören. Ja, und ehe wir dann in die technischen Details kommen, nochmal was zum historischen Hintergrund im Einspieler.
Einspieler: Die Geschichte der Schriftrollen aus Herkulaneum (00:02:19)
Janine: Die Geschichte der Schriftrollen aus Herkulaneum. Es ist das Jahr 79 nach unserer Zeitrechnung, also vor fast 2000 Jahren. Wir blicken auf den Golf von Neapel an der italienischen Küste. Es muss Ende Sommer oder Anfang Herbst sein, etwa zur Mittagszeit, als der große aktive Vulkan, den wir als Vesuv kennen, dem Druck des Erdinneren nachgibt. Eine gewaltige Eruption bricht sich Bahn, sprengt die Spitze des Vulkans und es entsteht eine über Stunden immer weiter aufsteigende Eruptionssäule. Ihre Hitze beträgt über 700 Grad Celsius. Nach und nach geht in der Umgebung vulkanisches Material nieder, feiner Aschestaub und schwere Gesteinsbrocken, Magma und heißer Wasserdampf. Zuerst wurden die Städte in Windrichtung getroffen, Pompeji, Oplontis und Stabiae. Die Eruption wird über Stunden immer wieder von Explosionen begleitet, bis schließlich gegen Mitternacht die Eruptionssäule zusammenbricht. In der Folge gibt es mehrere pyroklastische Ströme, die die Ortschaften, auch Herkulaneum, trafen. Die Städte und bis zu 5000 Bewohner*innen, die bis zu diesem Zeitpunkt nicht geflohen waren oder fliehen konnten, wurden von einer bis zu 20 Meter dicken Schicht von Vulkanmasse begraben. Der römische Schriftsteller Plinius der Jüngere war Zeuge dieser Katastrophe und berichtete ausführlich über die Ereignisse. Mit der Zeit entstanden neue Siedlungen und Ortschaften auf der verfestigten Oberfläche der vergangenen Katastrophe. Anfang des 18. Jahrhunderts wurden dann beim Anlegen eines Brunnens Reste eines Theaters aus Herkulaneum entdeckt, Ausgrabungen wurden vorangetrieben und schließlich wurde 1750 durch einen weiteren Brunnenbau eine prunkvolle Villa entdeckt, in deren Inneren eine Bibliothek gefunden wurde. Etwa 1800 Papyrusrollen, die herkulanischen Papyri, konnten geborgen werden und geben der Villa heute den Namen Villa dei Papyri. Sie haben viele Jahrhunderte überdauert, einerseits durch das umgebende Vulkanmaterial konserviert, andererseits durch Hitze und Asche zusammengepresst und brüchig zurückgelassen. Die Rollen haben sich verformt, zusammengezogen und durch die Hitze alle Flexibilität verloren, kurzum, sie sind verkohlt, aber immer noch vollständig. Erste Versuche, sie zu entrollen und zu entziffern, führten dazu, dass die entsprechenden Rollen zerstört wurden. Es wurden zwar bessere Methoden entwickelt, aber es gelang nicht, die Papyri nicht zu beschädigen. Unter den Fragmenten der geöffneten Rollen wurden Texte von Epikur oder Philodemus von Gadara entdeckt, die aus dem 3. bis 1. Jahrhundert vor unserer Zeitrechnung stammen. Und es könnten weitere berühmte und vielleicht verloren geglaubte Texte in dieser Bibliothek enthalten sein oder sogar noch weiterhin vergraben in den noch nicht erkundeten Bereichen der Villa. Es wurde aber schließlich entschieden, die Schriftrollen ruhen zu lassen, bis es eine Möglichkeit gäbe, sie zu entziffern, ohne sie zu zerstören. Und diese Zeit beginnt jetzt, denn in den letzten Jahrzehnten wurden sowohl wissenschaftliche als auch technische Fortschritte erzielt, womit neue Verfahren möglich sind, die eingesetzt werden können, ohne die Schriftrollen drastisch zu gefährden. Es wird mit Spannung erwartet, wann die Texte wirklich wieder lesbar sind, erstmals in diesen Fassungen seit fast 2000 Jahren, und noch mehr, was in dieser Sammlung alles zu Tage kommen wird.
Warum werden wir die Schriftrollen vermutlich lesen können? (00:05:42)
Helena: Ja, die Schriftrollen. Also im Prinzip kann man sich das ja so naiv vorstellen wie ein aufgerolltes Blatt Papier. Nur eben völlig verkohlt. Also bei den Schriftrollen, um die es jetzt hier im Wesentlichen geht. Also im Prinzip kann man sich das ein bisschen so vorstellen, wie wenn man eine ganze Zeitung ins Feuer wirft und die nicht komplett verbrennt, aber verkohlt. Ich weiß nicht, vielleicht haben das einige Leute ja schon mal gesehen. Teilweise ist es dann sogar möglich, ja in der Asche noch die Schrift zu lesen, aber sobald man es berührt, zerfährt alles zu Staub. Und es ist nicht ganz so schlimm, so wie ich das verstanden habe, mit diesen Schriftrollen, dass die sofort zu Staub zerfallen. Aber nennenswert besser ist die Situation auch nicht.
Janine: Ja, genau. Es gibt einen Grund, warum sie nicht vollständig vernichtet wurden, weil, wie Helena gerade meinte, wenn man eine Zeitung aufgerollt ins Feuer wirft, die würde ja eigentlich anfangen zu brennen und dann eben sehr schnell komplett in Asche zerfallen irgendwann. Und die Schriftrollen in Herkulaneum, denen ist das eben nicht passiert, weil da verschiedene Faktoren zusammenkamen. Es ist nämlich so, dass zum einen, anders als in Pompeji, die andere Stadt, die bei diesem Vulkanausbruch vollständig zerstört und in Ruinen hinterlassen wurde und unter Asche begraben wurde, sind in Herkulaneum die Häuser nicht eingestürzt, ehe Vulkanmasse dort ankam, weil gar nicht so viel Asche auf die Häuser im Vorfeld gefallen ist. Das heißt, die Häuser waren an sich intakt. Und dann ist folgendes passiert, nämlich der pyroklastische Strom, wie es so schön heißt, aus diesem ganzen Vulkanmaterial, hat die Stadt erst mal relativ flach getroffen. Der war nicht sehr hoch, es war nicht sehr viel Masse und dabei wurden die Gebäude gewissermaßen erst mal verfüllt. Und zerstört wurde deswegen nicht viel, weil man sich das, glaube ich, so vorstellen kann, der pyroklastische Strom hat eine derartige Hitze, ich glaube, es sind über 300 Grad, dass die Berührung mit dem Material das Material dann halt gar nicht erst Feuer fängt, sondern aufgrund der Hitze das Wasser aus dem Material, aus allem Organischen, so schnell entzogen wird, dass es halt direkt verkohlt und gar nicht beginnt zu brennen. Dadurch, dass es nicht brennt, direkt verkohlt wurde und dann sofort auch umschlossen wurde von der Masse, luftdicht versiegelt wurde gewissermaßen, sind diese Rollen in ihrem Zustand so erhalten geblieben. Sie wurden dabei natürlich deformiert, so ein bisschen zusammengeschrumpft, verschoben, zusammengeknautscht. Die sehen nicht mehr so aus wie vorher und eben, sie sind auch komplett geschwärzt, karbonisiert, wie es auch heißt. Und erst im weiteren Verlauf des Vulkanausbruchs kamen dann weitere dieser pyroklastischen Ströme, die dann schließlich den Rest der Stadt auch verfüllt und überdeckt haben, sodass sie ja bis zu 20 Meter im Untergrund lag, nachdem dieser Vulkanausbruch, diese Katastrophe, vorbei war. Genau, und irgendwann hat man sie ja halt gefunden und man wollte wissen, was da drin steht und sie sind eben sehr oft zerfallen. Es gibt Schriftrollen in unterschiedlichen Erhaltungsgraden, manche sind zerbrechlicher, andere vielleicht ein bisschen geeigneter. Es wurde vieles versucht früher, unter anderem sie zu entrollen, also aufzurollen und anzusehen. Und auch dabei ist halt, weil die Flexibilität nicht mehr im Material drin ist, durch den Entzug des Wassers, sind sie dann eben in der Regel auch zerbröckelt. Man hat aber damals im 18. Jahrhundert durchaus ein paar Fragmente finden und auch lesen können und übersetzen können. Wo eben der Erhalt es hergegeben hat. Naja, aber der Rest ist in diesem Zustand, den man eigentlich nicht ändern kann. Und jetzt ist es gelungen, in sie hineinzusehen, ohne sie überhaupt zu öffnen. Und ja, wie kam es denn dazu?
Helena: Ja, also der erste Schritt, der nötig war, um jetzt da reingucken zu können, war die Entwicklung der Röntgenstrahlung Ende des 19. Jahrhunderts. Und Röntgenstrahlung kennen sicherlich die meisten. Ja, da kann man in Menschen reingucken. Gut, Menschen sind ein bisschen größer als so ein paar Schriftzeichen, das heißt, das ging dann damals schon sehr gut. Ja, ich komme später nochmal darauf, was genau jetzt verbessert wurde, damit das eben auch einsetzbar ist, diese Technik, die hier kam. Aber man hat ähnliche Verfahren durchaus auch zum Beispiel schon bei Pyramiden in den 80er Jahren verwendet, um zu gucken, ob da noch irgendwelche Geheimgänge drin sind, und ohne dass man immer alles wieder aufmachen muss. Also die Idee, dass man bildgebende Verfahren, die man woanders schon kannte, in der Archäologie einsetzt, ist jetzt auch nicht unbedingt neu. Aber eben das Ganze an diesen Schriftrollen zu machen, ist jetzt noch eine recht neue Entwicklung. Ja, zunächst einmal wurde das Ganze schon von einigen italienischen Forschern ausprobiert vor ein paar Jahren. Die haben durchaus Messungen gemacht, wo man einzelne Wörter erahnen konnte bei, aber daraus folgte noch nicht, dass man plötzlich die ganzen Schriftrollen lesen konnte. Es gab dann auch einen anderen Wissenschaftler aus UK, der auch an diesem Thema gearbeitet hatte. Der hatte dann aber zwischendurch noch eine andere Schriftrolle in die Finger gekriegt, nämlich aus Israel, die nicht auf dieselbe Weise verkohlt war oder aus anderen Materialien bestand, weshalb man das dann plötzlich lesen konnte. Ich werde da gleich auch noch mal drauf eingehen, wo genau der Unterschied ist zu den jetzigen Schriftrollen aus Herkulaneum. Ja, aber dadurch, dass dieser Wissenschaftler eben eine andere Schriftrolle zeigen konnte, dass er in der Lage ist, die zu vermessen und dann lesbar zu machen, wurden ihm dann tatsächlich auch einzelne der Herkulaneum-Schriftrollen zur Verfügung gestellt und die wurden dann 2019 gescannt. Und auf Basis dieser Scans fand jetzt im letzten Jahr die Vesuv-Challenge statt.
Was ist die Vesuv Challenge? (00:12:01)
Janine: Genau. Es sind vier Schriftrollen, meine ich, die da gescannt wurden und die Daten werden Forschenden bereitgestellt, um daran zu arbeiten und Verfahren zu entwickeln, die Schrift lesbar zu machen. Damit das überhaupt möglich ist, wurden Preisgelder gesammelt und zwar für die Challenge 2023 kamen über eine Million Dollar zusammen, die dann ausgeschrieben wurden in verschiedenen kleinen Abschnitten. Es war sozusagen ein gestaffelter Preis, der mit ersten Findings anfing, erste Ergebnisse, auf denen dann immer weiter aufgebaut werden konnte, sodass dann die Preisgelder gegen Ende immer etwas höher wurden. Und diesem Aufruf zur Challenge sind tatsächlich viele Menschen und Teams gefolgt und da hat sich eine ganze Community gebildet, um gemeinsam daran zu arbeiten oder auch gegeneinander daran zu arbeiten, denn es ist auch eine Form von Wettbewerb. Ja, und dabei wurden dann verschiedene Ansätze und Ideen eingebracht und vor allem auch aus verschiedenen Bereichen Menschen, die sich mit den unterschiedlichen Problemen befassen, die bei dieser Arbeit überhaupt anstehen. Zum Beispiel ein erster Preis, der ausgegeben wurde, wurde für First Ink ausgegeben, also das Erkennen, wo Tinte auf dem verbrannten Papyrus ist, oder auch First Letters, also die ersten lesbaren Buchstaben oder auch erste lesbare Worte dann überhaupt zu erkennen. Und ja, das wurde dann über das Jahr immer ausgeweitet und das Hauptziel des Preises, der Grand Prize, war vier Passagen von 140 Schriftzeichen, jeweils mit Minimum 85 Prozent von erkennbaren Buchstaben.
Helena: 140 Zeichen klingt so, als wäre das so eine Oldschool Twitter Nachricht, alter Twitter Thread, den man da recoveren wollte.
Janine: Ja, also ich glaube, es hängt damit zusammen, dass diese Schriftrollen meistens in so Spalten beschrieben sind und da natürlich auch nur eine bestimmte Anzahl von Zeichen reinpasst, weil die in der Regel irgendwie eine ähnliche Laufweite haben. Naja, am Ende jedenfalls, Ende 2023, konnte sogar angekündigt werden, dass das Ziel übertroffen wurde. Es wurden statt vier sogar 15 Textblöcke mit mehr als 2000 lesbaren Buchstaben eingereicht am Ende, woraufhin auch dafür dann der Grand Prize vergeben wurde. Die spannende Frage, die wir uns aber auch gestellt hatten jetzt, war, welche Methoden wurden dabei entwickelt oder verfeinert und welche Herausforderungen hatten die Forschenden dabei zu überwinden?
Was sind die Herausforderungen und Methoden? (00:14:38)
Helena: Ja, und da fange ich mal an mit der ersten Methode, die erstmal überhaupt die komplette Basis dafür ist, auch bekannt als CT. Und zwar ist das eine Form der Röntgentomographie, nämlich die Computertomographie, bei der man eben die Röntgenstrahlung mit dem Computer misst und dann ganz viele Bilder hat. Also Tomographie selber bedeutet im Wesentlichen, dass man ganz viele Bilder macht, etwas in ganz viele einzelne Bilder, die dann einzelne Scheiben quasi von dem Objekt, was man sich angucken will, darstellen sollen. Und dann kann man aus diesen einzelnen Scheiben hinterher ein komplettes, dreidimensionales Bild zusammensetzen.
Janine: Das ist ein bisschen wie aus dem 3D-Drucker, der mit Flüssigresin arbeitet. Da werden ja auch immer Scheiben auf Scheiben gesetzt und am Ende hast du das Objekt.
Helena: Genau, nur eben andersrum.
Janine: Ja.
Helena: Gut, ich meine, solche CTs gibt es natürlich in vielen Krankenhäusern. Die sind allerdings jetzt nicht geeignet für diese Art von Messung, weil man ja mit relativ kleinen Schriftzeichen es zu tun hat, die man irgendwie erkennen will. Man möchte ja für jedes Schriftzeichen auch eine nennenswerte Anzahl an Pixeln zur Verfügung haben. Ja, um das besonders gut zu messen, hat man deswegen Teilchenbeschleuniger genutzt. Und zwar gibt es relativ viele Teilchenbeschleuniger, deren Zweck es ist, im Prinzip bestimmte Formen von Röntgenstrahlung, sogenannte Synchrotonstrahlung, zu emittieren, um eben verschiedenste Messungen damit zu machen. Also das ist dann nicht so, dass man einfach nur ins nächste Krankenhaus fährt und die Schriftrollen da reinlegt, sondern man muss zu dem nächsten Teilchenbeschleuniger fahren. Aber es gibt irgendwie so 50 oder so auf der Welt, die dazu geeignet wären. Also das ist ein sehr Standardinstrument in verschiedenen Forschungsbereichen inzwischen. Und das Ganze haben die dann eben Mini-CT genannt, damit man kleine, also eine sehr große Auflösung hat. Gut, man hat also ein 3D-Bild, was dann eben aus Scheiben aufgebaut ist. Auf der Webseite von der Vesuv Challenge gibt es eine ganz schöne Animation dazu, wie man sich das auch vorstellen kann, außer beim 3D-Drucker. Und zwar haben die da einen Teig genommen und auf diesem Teig mit einem anderen Teig in einer anderen Farbe einen Buchstaben drauf gemalt und das Ganze dann aufgerollt. Und das, was das CT dann im Wesentlichen macht, ist, es nimmt immer eine Scheibe davon, die wird abgeschnitten und dann kann man ein Foto davon machen. Und das sind dann die Fotos, die man letztlich hat zur Verfügung. Für einige der Themen, die wir heute besprechen, empfehle ich auf jeden Fall, dass man sich die Webseite mal anguckt. Da sind richtig schöne Animationen drauf. Gut, das heißt, man hat jetzt erstmal ein 3D-Bild. Und bei einem 3D-Bild gibt es dann auch so etwas wie Pixel, die nennt man in 3D dann allerdings "Voxel". Und die haben dann irgendwie bestimmte Werte und ja dann ist die Frage, welche Werte entsprechen jetzt Tinte und welche nicht oder gibt es da noch andere Dinge. Und das Gemeine jetzt an den herkulerneums Schriftrollen ist, die sind halt auf Papyrus geschrieben. Papyrus sind Pflanzenfasern, die man eben zu einem Blatt zusammengebaut hat. Und die Tinte, die hier verwendet wurde, basiert ja auch auf Kohlenstoff, also kann man vielleicht mit einem Bleistift vergleichen. Das heißt, man hat im Prinzip Kohlenstoff auf Kohlenstoff. Das heißt, es gibt keinen besonders großen Kontrast zwischen Tinte und Untergrundmaterial.
Janine: Besonders nicht, wenn es alles verkohlt ist.
Helena: Ja, besonders nicht, wenn es verkohlt ist. Was jetzt der eine Wissenschaftler schon einmal gemacht hatte, war eine andere Schriftrolle, genau auf diese Weise vermessen, und zwar eine, die in Israel gefunden wurde. Und in dem Fall war die Tinte eine metallhaltige Tinte und Metall verhält sich eben in Röntgenstrahlung doch sehr anders als Kohlenstoff. Und in dem Fall war auch das Ganze nicht auf Papyrus, sondern auf Tierhaut geschrieben. Ich glaube, der Teil ist jetzt nicht ganz so entscheidend, wie das eben die Schrift aus Metallbasis war und deswegen der Kontrast einfach vorhanden war. Das heißt, im Wesentlichen, das, was man hier bei der Schriftrolle aus Israel machen musste, war nur der erste Schritt quasi, den man jetzt auch noch bei den Herkuler Neum rollen machen muss, und zwar das Entrollen. Und dann konnte man die bereits lesen, weil dann der Kontrast schon groß genug war. Und da hatte man festgestellt, oh, es ist ein Teil der Bibel. Buch Leviticus wurde damals gefunden. Und zwar in einer sehr alten Fassung. Gut, und weil man das eben gemacht hatte, wusste man dann, ja, okay, wir können das im Prinzip, aber es gibt noch eine weitere Herausforderung außer das Entrollen, nämlich eben auch das Tinte erkennen. Und um jetzt so Methoden wie maschinelles Lernen und so einsetzen zu können, ist es ja eigentlich immer nötig, dass man auch die gleichen Messungen gemacht hat mit Objekten, wo man weiß, was herauskommt, auf die man dann trainieren kann. Und so tragisch es auch ist, dass man einige Rollen vermutlich verloren hat, dadurch, dass man sie auch versucht hat zu entrollen, gab es jetzt ja doch diese Fragmente. Und die hat man eben genau mit derselben Methode gescannt. Der Vorteil an diesen Fragmenten ist halt, wenn man jetzt mit Infrarotkameras misst, dann ist der Kontrast der Schrift sehr groß. Also wenn man da tatsächlich drauf gucken kann mit einer Infrarotkamera, dann sieht man die Schrift. Und ja, das heißt, man kann dann, dadurch, dass man die gleichen Messungen mit diesen Fragmenten gemacht hat, diese als Trainingsdaten verwenden. Ja, da hat man diese Trainingsdaten. Und dann gibt es im Wesentlichen zwei große Herausforderungen. Eben das Entrollen, das wird dann auch in Segmentation, in Flattening aufgeteilt. Und eben die Schrifterkennung, beziehungsweise Ink Detection.
Wie funktioniert das digitale Entrollen? (00:20:38)
Also bei dem Entrollen, also es geht dann ja nicht nur darum, dass man ein flaches Bild hat, sondern bei der Segmentation ist dann das Ziel auch, weil die Schrift ist dann immer in so Blöcken. Dass man auch diese Blöcke schon identifiziert als Block. Wo endet dieser Block? Und so. Weil wenn man weiß, da ist ein Block und da ist der zu Ende, ist es auch leichter... In der näheren Umgebung weiß man dann, da sollte vielleicht noch Tinte sein oder nicht. Das hilft ja auch, diese Erkenntnis. Genau, und das Entrollen funktioniert im Prinzip so, dass man sich erstmal nur eine Ebene anguckt von diesem 3D-Bild, so wie das der Tomograph ja auch gemacht hat. Und wenn man sich jetzt so ein aufgerolltes Stück Papier vorstellt und von oben drauf guckt, dann sieht man ja, da wo Papier ist, Linien und dazwischen ist es potenziell dunkler. Oder wenn man eine Lampe hinterhält, vielleicht auch heller. Aber man sieht relativ deutlich, wo das Papier erstmal verläuft. Einfach weil man Linien sieht. Und Linienerkennung ist in der computergestützten Bildbearbeitung etwas, was schon seit Jahrzehnten überhaupt kein Problem ist. Wenn man bei Linienerkennung einfach nur guckt, ändern sich die Werte der Pixel relativ stark. Und dann kann man relativ gut tatsächlich Linien erkennen. Und dann kann man diese Linien einzeichnen quasi, wo man die erkannt hat. Und dann guckt man sich eine Ebene weiter hinten, das nächste Bild, an. Und guckt, dass man versucht, die gleichen Linien wiederzufinden. Weil so eine Rolle, wenn die zerknickt ist, zum Beispiel, wenn man beim Papierbeispiel ist, dann kann sich ja auch die Position der Linie auch verändern. Und das heißt, man kann dann, wenn man Ebene für Ebene durchgeht, immer gucken, wo hat sich die Linie hin bewegt. Und dann weiß man, welche von den Voxeln des 3D-Bildes zu welcher Papierebene gehören. Beziehungsweise bei der Schriftrolle Papyrus-Ebene. Wenn man das Ganze dann entrollt, dann tut man das nicht, indem man nur genau die Pixel, wo diese Linie ist, anguckt, beziehungsweise Voxel, sondern man nimmt auch die drumherum. Weil Tinte kann ja auch oberhalb auf dem Papyrus sein, beziehungsweise auch eingesickert sein, bis zu einer gewissen Ebene. Und deswegen braucht man dann von jedem Stück Papier quasi, was man da rauszieht, von jedem flachen Stück Papier auch mehrere Ebenen nochmal. Weil man ja nur ein 3D-gescanntes Bild hat und man kann ja nicht von oben einfach drauf gucken, weil es ja nicht entrollt ist, physisch, sondern das muss ja virtuell erfolgen.
Janine: Ja, auch für das, was Helena gerade beschrieben hat mit dem Entrollen, gibt es auch einige dieser schon erwähnten Animationen auf der Seite, also mindestens eine auf jeden Fall, wo man sich das vielleicht auch noch ein bisschen besser vorstellen kann, was die Problematik darin ist, wie die aufgerollte Struktur aussieht und sich so ein bisschen vorstellen kann, wenn man jetzt von der Seite auf so ein im Halbkreis gebogenes Blatt guckt, ist es halt schwieriger, die Buchstaben zu erkennen, als wenn es flach vor einem liegt. Und das sieht man da so ein bisschen, wie man sich das vorstellen kann, dass das Zusammensetzen dann im Computer funktioniert, damit da eine flach liegende Seite bei rauskommt.
Helena: Und die flach liegende Seite braucht man jetzt nicht nur, weil es natürlich einfacher ist, auf flachen Seiten was zu lesen, sondern auch, weil die Trainingsdaten der Fragmente ja auch flach sind. Das heißt, dieser Schritt des Entrollens, den muss man auch erst einmal machen, bevor man dann tatsächlich mit der Schrifterkennung anfangen kann, weil man ja nur auf der Ebene trainieren kann erst mal. Das heißt, man hat dann eben flache Fragmente als Trainingsdaten, wo man eben weiß, was herauskommt, und dann braucht man irgendwie Modelle, mit denen man die Schrifterkennung trainieren kann.
Wie funktioniert die Schrifterkennung? (00:24:24)
Und zwar werden hier tatsächlich verschiedene Machine Learning-Modelle parallel verwendet, insbesondere, was wohl auch die besten Ergebnisse geliefert hatte, ist das sogenannte TimeSformer-Modell. Das ist ein Modell, das im Prinzip auf den Transformer-Modellen basiert. Also das T in ChatGPT steht auch für ein Transformer-Modell. Das ist also eine bestimmte Klasse von Machine Learning-Modellen. Und das ist allerdings auf eine bestimmte Weise verändert. Und zwar, wenn man sich jetzt so ChatGPT vorstellt, das hat halt eine Reihe von Text, mit der es arbeitet, und kann dann auf Basis dieses Textes dann irgendwie Vorhersagen machen, was jetzt als nächstes zu erwarten wäre, als Wort und so weiter. Das ist dann quasi aber eine Reihe von Dingen, die hintereinander kommen. Und bei dem TimeSformer-Modell geht es eher, also es wurde eigentlich für Videobearbeitung oder -verarbeitung entwickelt. Das heißt, es gibt nicht nur die Reihe von Dingen, die hintereinander kommen, sondern jedes Ding, was dann in einer Ebene ist, entspricht auch ganz vielen Pixeln. Und im Grunde genommen ist jetzt ein Video auch nicht so viel anders wie ein 3D-Bild, nur dass man eben bei einem 3D-Bild als dritte Achse auch eine Raumdimension hat, und bei einem Video ist es halt die Zeit. Deswegen ist es irgendwie naheliegend gewesen, dass man ja einfach Video-Modelle nehmen könnte. Also ich weiß nicht, wie naheliegend das war, ich weiß jetzt nicht, ob alle Teams so da herangegangen sind, aber so im Nachhinein betrachtet ist es doch irgendwie sehr naheliegend, das damit zu probieren, erst mal.
Janine: Ich muss auch gerade dran denken an die Folge 18 mit Lisa, wo es darum ging, aus Bildern halt quasi 3D-Informationen für 3D-Modelle zu generieren. Also vielleicht ist da ja auch so ein bisschen eine Verbindung, fiel mir gerade dabei ein.
Helena: Ja, da weiß ich gerade gar nicht mehr, was für ein Modell die benutzt haben. Ja, jedenfalls eines der Probleme, die man hier mit sowas wie ChatGPT sehr gut kennt, ist, dass es sich manchmal, wenn man den Fragen stellt, Dinge einfach ausdenkt, was man ja auch Halluzinieren nennt. Und das will man natürlich hier nicht, man will ja, dass das, was da steht, auch wirklich da steht. Ich meine, ein Vorteil, den man jetzt natürlich hier hat, ist, wenn die Leute, die dann die Schrifterkennung trainieren und am Ende das einreichen, selber kein Altgriechisch lesen können und nicht in der Lage sind, zu erkennen, ob das sinnvolle Wörter sind oder nicht, hat man immer an einer Ebene eine Absicherung dagegen, dass jemand absichtlich irgendwie Dinge da versucht reinzubekommen.
Janine: Auf jeden Fall, ja.
Helena: Insbesondere, würde man ja erkennen, ob man den Text schon kennt oder nicht. Das ist, glaube ich, hier relativ vorteilhaft. Und wenn es sich irgendwas halluziniert, ist im besten Fall das tatsächlich auch Nonsens, also Wörter, die nicht existieren. Aber damit will man sich nicht zufriedengeben, deswegen hat man noch ein anderes Machine Learning-Modell verwendet, das ResNet-3D-Modell. Und das basiert im Gegensatz zu den Transformer-Modellen auf sogenannten convolutional neural networks, also faltungsbasiert. Das ist eben eine andere mathematische Methode, mit der man eben solche neuronalen Netze aufbauen kann. Und solche convolution-Netzwerke sind eigentlich ein bisschen älter schon. Die Transformer waren letztlich dann etwas, was schon das Ganze revolutioniert hat und sowas wie ChatGPT überhaupt erst möglich gemacht hatten. Aber der Vorteil ist, wenn man jetzt einfach noch ein unabhängiges Modell hat, dann sollte man zumindest erhoffen, dass es andere Dinge halluziniert und die dann sich einfach widersprechen. Und dann weiß man, man kann dem nicht so gut trauen und deswegen benutzt man auf jeden Fall mehr als eins. Also die, die gewonnen haben, haben das zumindest so gemacht.
Janine: Ich habe mal in die Bedingungen für die 2024er Challenge geguckt und da steht tatsächlich auch explizit dieses Problem mit dem Halluzinieren mit drin. Und zwar, dass wenn Menschen etwas einreichen, müssen sie auch die Frage beantworten, ob sie die Erfahrung gemacht haben, dass ihr Modell oder ihre Anwendung zum Halluzinieren neigt und wie sie mit diesem Problem umgehen. Also welche Maßnahmen sie dagegen haben.
Helena: Ja, da bin ich mal gespannt, was dann daraus kommt. Ja, was man jetzt natürlich zu der letztjährigen Challenge noch sagen kann, ist, die bezog sich nur auf die Schrifterkennung, also die Ink-Detection. Das Entrollen und Segmentieren selber war nicht Teil der Challenge, weil dadurch, dass man ja nicht wusste, was da drauf ist, wollte man das jetzt nicht irgendwie noch komplizierter machen. So, dann haben die Leute, die Challenge gemacht haben, das erst mal so gemacht. Trotzdem hat das Gewinner-Team auch ein Segmentierungsmodell eingereicht, wo ich jetzt nicht drauf eingehen werde. Aber die haben sich trotzdem auch mit diesem Problem beschäftigt, obwohl das nicht mal Teil der Challenge war. Das fand ich dann auf jeden Fall ganz gut.
Was steht in den bisher entdeckten Bereichen? (00:29:15)
Helena: Ja, jetzt gibt es ein Gewinner-Team, das tatsächlich Dinge lesbar gemacht haben. Und ich habe mir das angeguckt und habe eindeutig griechische Schriftzeichen erkannt. Aber ich kann jetzt kein Altgriechisch. Was steht denn da so drin?
Janine: Ja, Altgriechisch kann ich auch nicht, aber ja, was steht denn in den bisher entdeckten Bereichen? Also erst mal vielleicht noch ein bisschen historisch. Es war vorher schon ein bisschen bekannt, aus den früheren Versuchen, die Schriftrollen zu öffnen, wo sie ja eben häufig aber auch leider kaputt gegangen sind, ist ersichtlich geworden, dass der größte Teil der Schriftrollen Texte eines Philosophen namens Philodem sind. Außerdem wurden viele kopierte Schriften von Epikur entdeckt und ansonsten auch noch andere bereits bekannte Autoren der griechischen Antike. Und ja, einen kleineren Teil an Schriftrollen, die gefunden wurden, sind auch in lateinischer Schrift, die aber tatsächlich vermutlich erst später zu der Bibliothek hinzugefügt wurden, nachdem dieser Philodem von Gadara, wie er heißt, dort gewirkt hat. Denn was als relativ gesichert gilt, ist, dass die gefundene Bibliothek von eben diesem, na ja, zumindest aufgebaut wurde. Und die Villa selbst, in der das alles lag, soll Lucius Calpurnius Piso gehört haben. Und Philodem war dessen Hausphilosoph, wie Cicero einmal über ihn sagte. Also auch kein sehr unbekannter Mensch in der Zeit. Und dieser Lucius Calpurnius Piso war, glaube ich, Helena, korrigier mich, falls ich falsch liege, der Schwiegervater von Caesar?
Helena: Das weiß ich nicht. Aber was man jetzt daraus vielleicht sieht, weil das auch Cicero was über den gesagt hat, der ist 100 Jahre vor dem Vulkanausbruch gestorben, der Philodem.
Janine: Ja.
Helena: Und der war auch Lehrer von Vergil, den man vielleicht kennt, wenn man ein bisschen mit lateinischen Texten schon mal was zu tun hatte. Aber der ist auch vorher schon gestorben. Das heißt, es kann sehr gut sein, dass Dinge nachträglich hinzugekommen sind.
Janine: Jedenfalls hat Philodem dort gearbeitet und in der Zeit dort auch gelebt. Und danach wurde eben die Bibliothek noch weiter fortgeführt. Das so zum Hintergrund, es sind damals auch schon Textfragmente übersetzt und auch wissenschaftlich von Philologen untersucht worden. Da gibt es auf jeden Fall schon Sachen zu finden. Die Frage ist aber, was war jetzt das erste Wort, das während dieser Challenge, der Vesuv-Challenge, entdeckt wurde und zwar mit den Methoden, die angewendet wurden, ohne die ganzen philologischen, papyrologischen Maßnahmen, die da im Vorfeld gelaufen waren. Und zwar gibt es ein Wort, das erste vollständig und klar lesbare Wort war "purple", also lila oder violett.
Helena: Aber "purple" ist doch dann auch schon die englische Übersetzung, oder?
Janine: Ja, genau. Ich kann halt auch leider kein Altgriechisch. Ich habe es jetzt von der Webseite zitiert.
Helena: Ist das Bild da irgendwo?
Janine: Ja, es gibt ein Bild davon. Unter "Gewinner 2023" oder so ähnlich ist das einmal aufgezeigt. Naja, Ende 2023, mit Abschluss der Challenge, gab es auch ein Ergebnis. Wie gesagt, es ist übertroffen worden, das Ziel. Es konnten jetzt insgesamt 5% der ersten Schriftrolle entrollt und gelesen werden, beziehungsweise ja, die 15 Spalten, die ich schon erwähnt hatte. Und die Beschäftigung mit den Texten ist dann wiederum Papyrologen und geisteswissenschaftlichen Expert*innen überlassen. Und diese wurden auch hinzugezogen und es wurde eine vorläufige Transkription erstellt, auch in die altgriechischen Worte. Es gibt keine englische Übersetzung dieser Passagen auf der Challenge-Seite. Ich habe mal versucht, das Griechisch in DeepL einzusetzen. Allerdings ist das von mäßigem Erfolg gekrönt. Das ist doch alles viel zu doppeldeutig, die Abschnitte zu kurz. Da kommt einfach nicht wirklich etwas Sinnvolles bei raus. Aber was die Papyrologen festgestellt haben, ist, dass es sich um wirklich einen bisher nicht überlieferten Text aus der Antike handelt. Und zwar einen Text von Philodem, der bisher noch nirgendwo veröffentlicht war. Zu Lebzeiten hat er, glaube ich, auch relativ wenig publiziert, Schrägstrich ist, sehr wenig erhalten davon. Und in seiner Bibliothek waren eben auch Manuskripte oder Arbeitstexte noch vorhanden. Es ist also keine Abschrift oder Kopie hier, sondern ein bisher noch unbekannter Text. So. Und soweit die Fragmente bisher angesehen werden konnten, geht es vor allem um das Thema Vergnügen.
Helena: Okay. Ich habe gerade nachgeguckt, Porphyras ist das griechische Wort für Purple. Also das Wort, was die tatsächlich gelesen haben.
Janine: Sehr schön.
Helena: Was hat Lila jetzt mit Vergnügen zu tun?
Janine: Genau. Wie schon in den ersten Erkenntnissen, auch schon aus dem 18. Jahrhundert ersichtlich war, es sind vor allem epikurierische Philosophie, die in diesen Texten enthalten ist. Und eine zentrale Rolle spielt da eben dieses Thema quasi Vergnügen. Es sind die, wie hieß das doch? Ach ja, ich habe hier ein Zitat aus dem Philosophie Magazin. Epikureismus ist in moralischer Hinsicht ein asketischer Hedonismus, also das Streben nach Lust, das praktiziert wird auf eine Weise, in der die Vergnügen ohne Exzess und mit vernunftgeleiteter Einsicht erlebt werden.
Helena: Okay.
Janine: Ja, also hab Spaß, genieß das Leben, aber übertreib es nicht - vielleicht. Ganz kurz zusammengefasst und Philodem war eben, glaube ich, auch ein Schüler von Epikur oder mindestens in seiner Denkschule sehr bewandert und hat auch dazu beigetragen, diese Schule der Philosophie zu verbreiten. Und in den zwei aufeinanderfolgenden Spalten, die auf der Seite auch einmal transkribiert ins Altgriechische dastehen, geht es vor allem um die Verfügbarkeit von Gütern und wie sich deren Verfügbarkeit, beispielsweise Lebensmittel, auf das Vergnügen auswirkt, das durch sie entstehen kann. Also haben wir mehr Spaß an Sachen, die weniger verfügbar sind? Gibt es einen Unterschied, was es ist? Und dergleichen hat er offensichtlich Überlegungen angestellt. Ja, also so ein bisschen die Beschäftigung mit Mangel und Überfluss und dazu das Thema Vergnügen. Und in anderen Textstellen wird auch noch ein Mensch namens Xenophantus erwähnt, die Forschenden vermuten, dass es sich da um einen Musiker handeln könnte, der bereits in einem im 18. Jahrhundert gefundenen Text von Philodem aus den Herkulaneum-Schriftrollen genannt wurde und da schon gefunden werden konnte. Und da ging es eben um Musik.
Helena: Okay, ja, spannend.
Janine: Ja, was machen wir damit und was bedeutet es eigentlich, diese Sachen zu finden? Es hat im Jahr 2020 Kilian Fleischer eine Vorlesung gehalten mit dem Titel "Die Papyri Herkulaneums im digitalen Zeitalter" und das ist auch als Buch publiziert worden und zwar Open Access, das heißt, wer sich sehr dafür interessiert, findet auch den Link dazu in den Shownotes. Und er gibt darin eben eine Einschätzung der Bedeutung dieser Schriftrollen und er sagt, dass der primäre Wert darin läge, dass die Papyri "einen vertieften, authentischen Einblick in die epikuräischen Philosophie und ihre literarischen Spielarten gewähren, also in eine Philosophie-Richtung, deren Schriften das spätantike Nadelöhr der Überlieferung nicht passiert haben und fast gänzlich verloren gingen." Die epikurische Schule hatte nämlich ein Problem, sie war nicht sehr beliebt.
Helena: Okay.
Janine: Es gab andere Schulen, die sie ein bisschen übertrumpft haben und deswegen wurden weniger Texte davon überliefert und kopiert in gewissen Zeiten und das ist auch der Grund, warum viele sagen, wir haben hier wirklich die einzige erhaltene antike Bibliothek vor uns, die noch nicht durch spätere Zeitalter kuratiert wurde.
Helena: Ja, das ist auf jeden Fall spannend. Und die Stoiker haben es besser gemacht als die Epikurier, oder?
Janine: Ja, ich glaube schon. Die waren nämlich sehr gegen die Epikurier, soweit ich das im schnell nochmal nachschlagen gesehen habe.
Helena: Die waren ja auch zeitlich danach, die waren ja ungefähr zu der Zeit, wo das jetzt passiert ist mit dem Vulkan, ja.
Janine: Und außerdem sagt Kilian Fleischer auch noch, dass viele Philosophen noch da drin sind, Historiker und Grammatiker und Dichter in diesen Schriftrollen, die eben nicht nur zu dieser Schule gehörten. Das heißt, da gibt es auch noch andere vielleicht spannende Sachen zu entdecken. Er möchte, glaube ich, gerne Gedichte von Sappho lesen. Naja, auf jeden Fall. Darüber hinaus dann eben auch die Bedeutung für buchgeschichtliche und paleografische Studien, weil es eben ja um das Material auch geht. Und er verweist darauf, dass damit auch Funde aus Ägypten eingeordnet und ergänzt werden könnten. Also es wird sehr viel zu tun geben für Philologen und Papyrologen, wenn da mehr Texte und mehr Material erschlossen wird.
Helena: Ja, ich bin sehr gespannt, was da noch kommt. Und ich hoffe, dass es jetzt nach und nach klappt, auch einfach alle tatsächlich sich anzugucken. Also bisher ist ja noch nicht mal eine ganze Schriftrolle gelesen worden.
Wie geht es jetzt weiter? (00:38:49)
Helena: Ja, wie geht es denn jetzt weiter?
Janine: Ja, die Vesuv-Challenge war extrem erfolgreich. Wie gesagt, sie haben ihr Ziel übertroffen. Und ja, Brent Seals, der auch maßgeblich diese Challenge mit vorangetrieben hat, hat in einem Video auch unter anderem erzählt, wie er seit 20 Jahren in gewissem Maße daran arbeitet. Und das Problem, die Herkulaneums Tinte zu identifizieren, hat jetzt drei Monate gebraucht. In diesen drei Monaten haben über 1000 Teams daran gearbeitet, an dem sonst maximal fünf Forschende beteiligt gewesen wären, wenn es ein normales Forschungsprojekt gewesen wäre und keine Challenge.
Helena: Ja.
Janine: Das auf jeden Fall schon mal. Und er sagt halt, in diesen drei Monaten sind etwa zehn Lebensjahre an Arbeitszeit von Menschen investiert worden und zwei Jahre Rechenzeit geleistet.
Helena: Ja, ich meine, der Vorteil ist natürlich bei so einer Challenge, dass auch sehr viele Leute mit relativ wenig Aufwand sich mal angucken können und eine Idee ausprobieren können. Und wenn die Idee halt von Anfang an relativ gut war, ist die Wahrscheinlichkeit auch höher, dass man dann weitermacht. Und das heißt, auch wenn jetzt zehn Lebensjahre aufgewendet wurden, ist die sicherlich nicht verschwendet worden bei den Leuten, die jetzt nicht gewonnen haben. Die haben es halt mal ausprobiert, es hat vielleicht nicht so gut funktioniert und haben so was anderes gemacht. Aber nicht so wie, wenn jetzt fünf Forscher zehn Jahre lang daran arbeiten, aber niemand genau die richtige Idee hatte, das richtige Modell anzuwenden oder so.
Janine: Genau. Und auch der Austausch in der Community hat ja auch dazu geführt, dass neue Erkenntnisse oder neue Methoden oder zusammengefasste Methoden existieren konnten. Und deswegen wird es das auch für 2024 geben. Es hat quasi gerade begonnen. Anfang März wurden die Preise und die Ziele verkündet. Und es gibt dieses Mal insgesamt über 500.000 Dollar, die wieder gespendet wurden und für die Preise ausgeschrieben werden. Und das Ziel ist es, Ende 2024, dass von den vier Schriftrollen, deren Daten vorliegen, 90 Prozent lesbar gemacht werden können.
Helena: Das wäre schon ganz schön gut.
Janine: Dass das Ziel an sich überhaupt erreichbar ist, daran wird im Grunde nicht mehr gezweifelt durch die Ergebnisse, die wir 2023 bekommen haben. Allerdings ist ein Faktor, der 2024 in der Challenge eine Rolle spielt, die Zeit, in der das überhaupt möglich gemacht werden kann. Also zum Beispiel der Preis für First Automated Segmentation, also die erste automatisierte Segmentierung, hat in den Kriterien drinstehen, dass der Human Input, die Zeit, die ein Mensch investiert, um die Segmentierung anwenden zu können, maximal vier Stunden betragen darf und die Rechenzeit der Anwendung maximal 48 Stunden betragen darf. Und das ist deswegen nötig, weil die Segmentierung, die innerhalb der 2023er Challenge erreicht werden konnte, immer noch sehr viel Zeit braucht. Und deswegen soll jetzt die Verbesserung der Anwendbarkeit quasi im Vordergrund stehen. Zum Beispiel aber auch die Verbesserung nicht nur der Segmentierung, sondern auch des Scans der noch vorhandenen Schriftrollen, denn es gibt ja immer noch hunderte Schriftrollen, die noch überhaupt nicht gescannt wurden auf diese Art und Weise, sodass die Texte ja quasi durch die neuen Methoden gar nicht erfasst werden können. Also da müssen auch noch Scans gemacht werden und wie das optimiert werden kann, damit die Kosten gedrückt werden können, die tatsächlich enorm hoch sind, als auch aber die Daten, die die Scans produzieren, mit einem besseren finanziellen Aufwand produziert werden können, also verbessert werden können. Ja, das ist so, worum es geht. Und wenn das gelungen ist, gibt es tatsächlich noch im Masterplan der Vesuv Challenge, steht auch auf der Homepage, noch einen dritten und vierten Schritt. Im dritten Schritt wird nämlich dann der Fokus auf das Einscannen nochmal gelegt und das Lesen der Schriftrollen mit einem geschätzten Zeitaufwand von zwei bis drei Jahren, die dann dafür aufgewendet werden müssen, um circa 300 Schriftrollen einzuscannen und zu lesen. Und ja, der vierte und abschließende Schritt ist dann gar nicht mehr in den Händen der Vesuv Challenge oder der Leute, die dieses Projekt so vorangebracht haben, sondern das Ziel des vierten Schrittes ist, Menschen davon zu überzeugen, im Wesentlichen in der Politik aktive Menschen, überhaupt Geld in die Hand zu nehmen, weitere Ausgrabungen zu tätigen, um noch weitere Schriftrollen, die in der Villa vermutet liegen, zu erschließen und dann auch rausholen zu können und einscannen zu können, weil die Hoffnung ist halt, dass auch hier, wenn die Ergebnisse vorgezeigt werden, der früheren Stages, Schritte, die diese Challenge hatte, dann genug Motivation da ist, in Ausgrabungen zu investieren und zu gucken, was dort noch für kulturelle Schätze liegen.
Helena: Ich hoffe, das klappt. Aber gut, das ist der Schritt vier. Vorher gibt's ja auch erstmal noch ganz schön viele Schriftrollen, die man auch erstmal einscannen muss. Das ist ja auch nicht trivial.
Janine: Genau.
Fazit (00:43:58)
Helena: Ja, schön. Also ich fand, das war ein sehr spannendes und schönes Thema, dass hier Machine Learning mal in einem Bereich angewendet wird, wo man sonst nicht wirklich irgendwas hinkriegen würde ohne diese Technik. Und dass man eben zerstörungsfrei dann verkohlte Schriftrollen lesbar machen kann, finde ich schon ziemlich gut. Und ich hoffe, dass das dann auch auf andere Dinge, die man in der Zukunft irgendwo findet, angewendet werden kann.
Janine: Ja, ich fand das Thema auch sehr spannend, weil, ja, wie du sagst, das Ineinandergreifen hier der Methoden, um das wieder lesbar zu machen, ist halt zum einen sehr spannend und zum anderen eben aber auch, was liegt da alles, was für Texte erwarten uns? Also Menschen sind schon immer neugierig und im Speziellen darum, wenn es darum geht, solche Sachen wieder zu erschließen und zu erfahren. Also der Brent Seals hat auch in einem Interview gesagt, dass es halt ja auch sehr emotional für ihn ist, dieses Projekt, weil es ja auch darum geht, mehr über sich selbst vielleicht erfahren zu können. Also über die Vergangenheit, über Sachen, die sich entwickelt haben, über Denkweisen und auch aus einer einfach ganz menschlichen Sicht da mal drauf zu gucken. Deswegen ist das schon sehr spannend.
Nächste Folge: Lehrerfolge an Schulen messen im April (00:45:17)
Helena: Ja, und in der nächsten Folge beschäftigen wir uns mit dem Thema, wie man eigentlich an Schulen Dinge messen kann. Habt ihr euch auch schon gefragt, woher wir eigentlich wissen, wann eine Lehrmethode erfolgreich ist? Und es gibt Noten für Schüler*innen, aber gibt es auch Noten für Lehrmethoden? In der nächsten Folge haben wir zwei Gästinnen bei uns, die ihre Masterarbeiten über dieses Thema geschrieben haben. Und sie haben anhand eines Themas untersucht, welche Lehrmethode in den Klassenstufen 8 bis 10 welche Erfolge erzielt. Und ja, da gibt es eine ganze Menge zu beachten und auch einige Hindernisse und Herausforderungen zu überwinden. Und darum geht es das nächste Mal.
Call to Action (00:45:59)
Janine: Ich bin schon sehr gespannt drauf. Vor allem haben wir mal wieder Gästinnen da. Das freut mich sehr. Ja, und wenn ihr die nächsten Folgen auch nicht verpassen wollt, hier der übliche Aufruf. Folgt uns doch gern auf Mastodon unter @datenleben@podcasts.social oder besucht unsere Webseite www.datenleben.de. Da könnt ihr uns auch sehr gerne Feedback hinterlassen, also auf unserem Mastodon-Account natürlich auch immer. Und ja, darüber freuen wir uns nämlich, wenn wir wissen, dass ihr auch gerne hört, was wir hier machen. Und ihr könnt uns natürlich aber auch, wenn euch unsere Arbeits- und Denkweise gefällt, als Data Scientist buchen für Analysen und Projekte, kontaktiert uns gerne. Auch wenn ihr Fragen habt oder Themen, die euch interessieren.
Helena: Ja, dann bleibt mir nur noch, für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao.
Janine: Tschüss.
Outro (00:46:47)
46:58
dl047: starkregen
Episode in
datenleben
Mit dieser Folge nehmen wir am Wettbewerb Fast Forward Science 2024 teil. Es geht um das Thema Starkregen. Wir gucken uns erstmal an, was Starkregen eigentlich ausmacht. Und dann werfeln wir einen Blick darauf, wie Starkregen-Gefahrenkarten entstehen. Diese geben Aufschluss über die Auswirkungen von Starkregen auf die gezeigten Regionen und mit welchen Ausmaßen gerechnet werden muss. Einen genaueren Blick werfen wir dabei auf die Starkregenanalyse der Stadt Braunschweig - und wir haben uns auch gefragt, wie uns das dabei helfen kann, auf Warnmeldungen zu reagieren.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Deutscher Wetterdienst: Hydro-klimatologische Einordnung der Stark- und Dauerniederschläge in Teilen Deutschlands vom 19. Dezember 2023 bis 5. Januar 2024
Deutscher Wetterdienst: Hydro-klimatologische Einordnung der Stark- und Dauerniederschläge in Teilen Deutschlands im Zusammenhang mit dem Tiefdruckgebiet „Lambert“ vom 22. bis 23. Juni 2023
Deutscher Wetterdienst: Wetter- und Klimalexikon. Starkregen
Bundesministerium für Umwelt, Naturschutz, nukleare Sicherheit und Verbraucherschutz: Welche Vorsorgemaßnahmen kann ich gegen Starkregen und Hochwasser treffen?
Landesanstalt für Umwelt Baden-Württember: Leitfaden Kommunales Starkregenrisikomanagement in Baden-Württemberg
youTube.com, NYS Department of Agriculture and Markets: Basic Hydrology QGIS (Timestamp ab Minute 17:21)
regionalHeute.de: Braunschweig. Stadt veröffentlicht Karte und Analyse zu Starkregengefahren
braunschweig.de: Starkregen
braunschweig.de: Leitfaden Schutz und Vorsorge vor Starkregen (PDF 3,8 MB)
geoportal.braunschweig.de: Starkregenanalyse
https://www.widsworldwide.org/
.widsworldwide.org: 7th Annual WiDS Datathon 2024 Challenges: Equity in Healthcare
Schlagworte zur Folge
Starkregen, Starkregengefahrenkarte, Modellierung, Katastrophenschutz, Topografie, Hydrologie
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 47. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten mit euch die Welt der Daten erkunden. Daten begleiten uns fast überall und sind eine wichtige Grundlage für unsere Entscheidungen. Wer erhebt Daten? Welche Daten werden erhoben? Wie werden sie aufbereitet? Diesen Fragen gehen wir anhand konkreter Themen in unserem Podcast nach.
Thema der Folge (00:00:43)
Janine: Und dieses Mal haben wir uns ein Thema ausgesucht, das uns in den letzten Jahren gefühlt immer häufiger begegnet ist und auch ein Thema ist, von dem Klimaforscher*innen ausgehen, dass es auch tatsächlich in den nächsten Jahren immer mehr zunehmen wird. Es geht nämlich um Starkregenereignisse und damit einhergehende Hochwasser- oder Überschwemmung. Und zwar wollen wir uns ansehen, welche Faktoren dazu führen, dass Überschwemmungen entstehen und wie man mit dem Betrachten dieser Faktoren und Analysen dazu zu einem besseren Umgang mit solchen Ereignissen kommen kann. Also seien es etwaige Vorhersagen oder auch Handlungsoptionen für konkrete Ereignisse, die eben in der nahen Zukunft liegen. Helena hat sich dafür den Leitfaden für kommunales Starkregenmanagement aus Baden-Württemberg angesehen, der uns da sehr interessant und ausführlich erschien. Da werden verschiedene Faktoren benannt, die in die Analyse eingehen. Und anschließend gucken wir uns noch die Starkregenanalyse der Stadt Braunschweig an, weil das für uns regional betrachtet einfach naheliegend ist. Ich habe mir nämlich anhand dieser die Frage gestellt, wie ich eigentlich selbst diese Analysen und Daten zum Beispiel nutzen kann, um zu wissen, wie ich mit Warnungen zu angekündigten Starkregenereignissen umgehen sollte. Also quasi wie Katastrophenschutz für zu Hause aussehen kann. Das ist dann der letzte Teil. Und ja, ach so, am Ende haben wir noch einen kleinen Mitmachaufruf, denn auch dieses Jahr findet der globale Women in Data Science Datathon statt und es gibt wieder einige Challenges, an denen sich beteiligt werden kann. Und Helena und ich würden gerne wieder mal daran teilnehmen. Und ja, vielleicht ja auch wer von euch. Also das gibt es am Ende nochmal.
Warum ist das Thema wichtig? (00:02:39)
Helena: Ja, warum finden wir das Thema wichtig beziehungsweise interessant? Nun, es gab in den letzten Jahren einige Starkregenereignisse in Deutschland. Davon hat insbesondere das katastrophale Hochwasser im Ahrtal vor drei Jahren sehr viele Schlagzeilen gemacht. Und ja, jetzt gerade im Winter gegen Ende Dezember, wo ergiebiger Dauerregen, wenn auch kein Starkregen, aber aufgrund der Zeit ebenfalls zu weitreichenden Überschwemmungen geführt hatte. Aber auch im letzten Sommer gab es einige Starkregenereignisse, von denen auch Braunschweig betroffen war unter anderem. Und spätestens, wenn die eigene Stadt oder Region betroffen ist, stellt sich die Frage, wie kann denn der Katastrophenschutz für zu Hause aussehen? Ja, deswegen halten wir das Thema für wichtig, auch weil ähnliche Ereignisse bedingt durch den Klimawandel künftig immer häufiger auftreten können.
Fast Forward Science (00:03:33)
Helena: Ja, außerdem wollen wir diese Folge auch bei einem interessanten Wettbewerb namens "Fast Forward Science" einreichen. Und zwar hatte Lisa, die in Folge 18 zu Gast gewesen ist, uns letztes Jahr vorgeschlagen, dass wir das ja mal machen könnten. Allerdings war da die Einreichefrist schon um und deswegen haben wir uns das dann für dieses Jahr vorgenommen. Ja, der Wettbewerb richtet sich an Menschen, die Forschung und Wissenschaft für andere zugänglich machen, was wir hier ja tun. Und es gibt dort einen Audio Award für wissenschaftliche Hörbeiträge aller Art, wo wir eben auch diese Folge einreichen möchten. Ja, außerdem gibt es dann noch einen Wettbewerb in den Kategorien "Young Scientist Award" und dann einen Sonderpreis für das beste Debüt. Da sind wir jetzt natürlich nicht drin vertreten. Unseren Podcast gibt es ja mittlerweile auch schon länger.
Einspieler: Was ist ein Starkregenereignis? (00:04:23)
Janine: Was ist ein Starkregenereignis? Von Starkregen wird dann gesprochen, wenn eine große Menge an Niederschlag in einer festgelegten Zeit auftritt. Wenn es zu Starkregen kommt, können die Folgen sein, dass Wasserstände in Gewässern schnell ansteigen und auch zu Überschwemmungen führen. Es kann auch dort zu Überschwemmungen kommen, wo keine Gewässer sind, aber das Wasser nicht schnell genug abfließen kann. Außerdem kann Starkregen auch zu Bodenerosionen führen, also Bodenmaterial abtragen. Solche Ereignisse können sowohl für Menschen als auch die Infrastruktur wie Straßen, Gebäude und dergleichen gefährlich werden. Deswegen kann der DWD, der Deutsche Wetterdienst, Warnmeldungen in drei Stufen ausgeben. Die Warnstufe richtet sich nach einem Schwellenwert, der laut Wetterprognose vermutlich erreicht oder überschritten wird. Die erste Warnstufe ist eine markante Wetterwarnung. Hier werden Regenmengen von 15 bis 25 Liter pro Quadratmeter in einer Stunde oder 20 bis 35 Liter pro Quadratmeter in sechs Stunden erreicht. Bei einer Unwetterwarnung fallen bereits Regenmengen größer 25 bis 40 Liter pro Quadratmeter in einer Stunde oder größer 35 Liter pro Quadratmeter bis 60 in sechs Stunden. Von einer Warnung vor Extremem Unwetter wird dann gesprochen, wenn die Regenmengen größer 40 Liter pro Quadratmeter in einer Stunde oder größer 60 Liter pro Quadratmeter in sechs Stunden angenommen werden. Die festgelegte Zeitspanne für ein Starkregenereignis bezieht sich also laut Warnstufen auf eine oder auf sechs Stunden. Ähnliche Auswirkungen können allerdings auch durch Dauerregen erzeugt werden. Auch dafür gibt es Warnmeldungen in den drei Warnstufen Dauerregen, ergiebiger Dauerregen und extrem ergiebiger Dauerregen. Die Zeitspannen, die hier genannt werden, befinden sich zwischen 12 und 72 Stunden. Warum ist es wichtig, sich damit zu befassen? In erster Linie, um schnell reagieren zu können. Denn was zum Beispiel Starkregen besonders gefährlich macht, ist, dass es unter Umständen nur eine sehr kurze oder sogar gar keine Vorwarnzeit gibt. Dazu schreibt das Bundesministerium für Umwelt, Naturschutz, nukleare Sicherheit und Verbraucherschutz:
Häufig gibt es keine Vorwarnzeit, da jedes aufziehende Unwetter Potential für Überflutungen liefert und sich Extremwetterereignisse mitunter sogar lokal erst bilden. Dann kann nicht einmal eine Unwetterwarnung des Deutschen Wetterdienstes rechtzeitig herausgegeben werden.
Wenn solche Warnmeldungen ausgegeben werden können, enthalten sie aber wichtige Informationen. Nicht nur über die möglicherweise betroffenen Gebiete, sondern auch über die Dauer des Ereignisses und über die prognostizierten Regenmengen. Das ermöglicht eine erste Einschätzung, ob es notwendig ist, selbst zu handeln und Vorkehrungen zu treffen. Für diese Warnmeldungen gibt es verschiedene Apps, um eben den eigenen Wohnort oder den aktuellen Aufenthaltsort eingeben zu können und Meldungen zu erhalten. Mit der Warn-App hat der Deutsche Wetterdienst eine eigene App, in der direkt die aktuellen Warnmeldungen zu finden sind. Darüber hinaus gibt es noch die Warn-App NINA, die vom Bundesamt für Bevölkerungsschutz und Katastrophenhilfe betreut wird. Darin sind ebenfalls die Warnungen des DWD enthalten, aber auch andere Gefahrenlagen. Es existieren aber noch viele weitere Apps, die teilweise für einzelne Regionen nutzbar sind. Es ist daher immer gut, sich zu informieren, welche Warn-App für den eigenen Standort sinnvoll ist. Inzwischen gibt es in Deutschland "Cell Broadcast", die Möglichkeit, alle Handys je nach Standort mit Warnmeldungen zu erreichen. Und außerdem findet seit 2020 jährlich am 2. Donnerstag im September der bundesweite Warntag statt. Er soll nicht nur ein Belastungstest für die Warnsysteme sein, sondern auch über dieses wichtige Thema informieren.
Wie entstehen Hochwasser- und Starkregengefahrenkarten? (00:08:07)
Helena: Ja, die erste Frage, mit der wir uns beschäftigen, ist, wie entstehen eigentlich so Hochwasser- und vor allen Dingen Starkregen-Gefahrenkarten? Ich kannte jetzt vor letztem Sommer eigentlich nur die Hochwasser-Gefahrenkarten und hatte da auch schon immer mal geguckt, wo ich denn so wohne und wie betroffen das denn von potenziellen Hochwassern ist. Und das ist dann ja immer eingeteilt in so Jahrhundert-Hochwasser und häufigere Hochwasser und so. Und ja, eine Hochwasser-Gefahrenkarte bezieht sich vor allen Dingen auf Gewässer. Damit sind dann eben Flüsse oder Seen gemeint. Da geht es dann darum, wie gut das Wasser da abfließen kann. Und wenn sehr viel Wasser da ist, was dann alles überflutet werden kann. Und wenn man halt nicht an einem Gewässer direkt wohnt, dann ist doch die Wahrscheinlichkeit davon betroffen zu sein eher gering. Dann gibt es noch die Starkregen-Gefahrenkarten, was ich jetzt auch erst vergangenen Sommer kennengelernt habe. Und diese behandeln hingegen Überflutungen infolge von Starkregen-Ereignissen, die eben auch unabhängig von Gewässern zu Überflutungen führen können. Und somit im Prinzip alle Orte betreffen können. Ja, wie man halt solche Karten erstellt und dann eben den Leuten in der eigenen Region zur Verfügung stellt, haben wir vor allen Dingen aus dem Leitfaden für kommunales Starkregen-Risikomanagement aus Baden-Württemberg entnommen. Die hatten einfach die beste Publikation zu diesem Thema. Und zwar geht in so eine Gefahrenkarte verschiedene Faktoren ein. Einmal eben die Niederschlagsmenge, das ist ja offensichtlich der wichtigste Teil, wie viel regnet es überhaupt? Dann die Oberflächenbefestigung, ja, so was da für Straßen, Gebäude sind. Dann Bodentyp und Bodenart. Dann aber auch die Bodenvorfeuchte, weil ein Boden, der schon komplett voll mit Wasser ist, kann halt auch nichts mehr abfließen. Aber auch die Bodennutzung spielt eine Rolle, weil ja verschiedene Bodentypen daraus entstehen können. Also ob da jetzt irgendwie Pflanzen wachsen, macht einen Unterschied zu, ob da einfach nur Rasen ist oder ob das einfach nur brachliegendes Land ist. Ja, und das Ganze wird dann in ein hydrologisches Modell gegeben, und zwar dann pro Quadratmeter gerechnet. Und dann zeigt so eine Hochwassergefahrenkarte eben Fließwege des Oberflächenabflusses bis zum nächsten Gewässer auf. Also wo geht das Wasser lang, wenn es denn überhaupt abfließen kann? An manchen Stellen kann es ja auch gar nicht abfließen. Ja, und berechnet werden dann in der Regel drei verschiedene Szenarien für diese Starkregengefahrenkarten, und zwar einmal das seltene Ereignis, was von den drei Kategorien das häufigste ist, dann das außergewöhnliche Ereignis und das extreme Ereignis. Ich glaube, bei den Gefahrenkarten in Braunschweig heißen die auch ein bisschen anders als in Baden-Württemberg.
Janine: Ja, ich glaube auch ein bisschen, aber dazu komme ich dann später noch. Da vergleichen wir dann noch ein bisschen die beiden Analysen.
Helena: Ja, und es gibt im Wesentlichen drei Verfahren, die für die Analyse von Überflutungsgefährdung eine Rolle spielen. Also es gibt einmal die vereinfachte Gefährdungsanalyse ohne spezielle Hilfsmittel, dann die topografische Gefährdungsanalyse und dann noch die hydraulische Analyse durch Überflutungssimulation.
Janine: Die erste Analyseoption klingt ein bisschen nach "Wir gehen rum und gucken uns alles einmal an".
Helena: Genau, bei der vereinfachten Gefährdungsabschätzung geht es darum, dass man, wenn ein Ereignis auftritt, einmal kartiert, was es für Schäden gibt und so schon mal einen groben Überblick bekommt. Bei dieser Methode werden in erster Linie die offensichtlichen Problembereiche ermittelt. Dann gibt es in der nächstkomplexeren Analysenmethode die sogenannte topografische Gefährdungsanalyse. Dazu muss man eben eine gute Karte haben über die Orte, die zumindest auch die Höhenprofile kennt für alle Orte. Also nicht nur was wo ist, sondern auch wie hoch es ist. Auf der Basis dieser topografischen Daten kann man dann eben sehen, ja, hier liegt eine Fläche besonders tief oder wo würde das Wasser nicht hin abfließen. Um eben eine höhere Genauigkeit für diese topografischen Karten zu bekommen, benutzt man LIDAR-Messungen. Das ist dann so etwas ähnliches wie Radar, nur mit Lasern. Wenn man das Ganze von einem Flugzeug aus macht, kann man eben deutlich höher aufgelöst die Topografie vermessen. LIDAR ist etwas, was auch in manchen Autos zukünftig eingebaut wird. Aber zum Beispiel mein Staubsaugroboter benutzt auch LIDAR, um Möbel und Wände zu erkennen und den Ort zu kartieren. Das ist also eine durchaus nicht unübliche Technik, auch im Hausgebrauch. Auch wenn man jetzt selber vielleicht nicht unbedingt mitbekommt, dass das benutzt wird, wenn man sich nicht damit intensiver beschäftigt. Genau, das LIDAR benutzt man heutzutage, weil die Technologie jetzt da ist. Man könnte aber auch eine klassische Topografie-Karte verwenden für eben diese topografische Gefährdungsanalyse. Ja, und auf so Topografie-Karten sieht man in der Regel so Linien. Und eine Linie ist dann immer eine konstante Höhe. In der Regel sind diese dann auch geschlossen, außer die sind am Rand der Karte. Wenn sehr viele Linien auf so einer Topografie-Karte näher beieinander sind, dann ist es an dieser Stelle steiler. Was man auch gut aus den Linien erkennen kann, ist, wenn man jetzt zwei Hügel hat, dann sieht man halt, zwischen den Hügeln gibt es irgendwie einen Sattelpunkt, wo dann die Linien voneinander immer wegführen. Also die eine Linie auf der einen Seite geht niemals auf die andere Seite von den beiden Hügeln. Und das heißt dann im Wesentlichen, dass das Wasser, was auf der einen Seite runterkommt, auch auf dieser bleibt und nicht plötzlich den Ort zwischen den beiden Hügeln wechseln wird, weil es keinen Abflussweg dazwischen gibt. Genau, dann sieht man zum Beispiel in solchen Karten auch Bachläufe. Da sind die Konturlinien meistens sehr spitz, weil einfach Bachläufe in der Regel ein bisschen niedriger sind als die Umgebung. Das heißt, da ist es dann nach kurzem Moment ein bisschen steiler. Und daran erkennt man auch, dass da potenziell ein Gewässer ist. Aber dabei zeigt die Spitze dann auch immer nach oben. Ja, das erste Ziel bei so einer topografischen Gefährdungsanalyse ist es eben die Wasserscheiden zu identifizieren. So ein Ort, wo wenn auf beiden Seiten von dieser Wasserscheide Wasser runterkommt, dass es sich niemals wieder trifft. Oder was heißt niemals wieder? Erst nach dem Gewässer, auf dem man dann vielleicht den Abfluss berechnet. Also zum Beispiel gibt es ja große Flüsse, hier in der Gegend vor allen Dingen Weser und Elbe, zwischen denen wir liegen. Und da gibt es dann eben eine Wasserscheide, die besagt, dass alle Gewässer auf der einen Seite gehen in die Weser und alle auf der anderen Seite gehen in die Elbe. Und die treffen erst in der Nordsee wieder aufeinander. Genau, und wenn man eben sich diese Karten so angeguckt hat und weiß, wo das Wasser lang fließt, dann sieht man eben bei dieser Topografieanalyse auch, dass es nicht sogar Orte gibt, die gar keinen Abfluss haben. Und da fällt dann natürlich sehr schnell auf, wo sich das Wasser stark sammelt. Aber man weiß natürlich nicht unbedingt, wie viel Wasser wo lang fließt und wie schnell. Man kann höchstens feststellen, ja, da, wo es gar nicht abfließen kann, da bleibt es jetzt auf der und der Höhe. Also da ist es auf jeden Fall erstmal überflutet. Das lässt sich mit der topografischen Gefährdungsanalyse schon ganz gut ermitteln. Dann gibt es noch die dritte Methode, das ist dann die hydraulische Gefährdungsanalyse, die durch eine Überflutungssimulation stattfindet. Und da wird jetzt nicht nur die Topografie mit berücksichtigt, die spielt schon auch eine Rolle, aber eben noch andere Informationen. Und bei der Topografie muss man dann bedenken, dass, ja, also man braucht schon die Topografie und diese LIDAR-Messungen haben schon auch mindestens einen Messpunkt pro Quadratmeter und modernere Messungen oder frischere Messungen haben oft auch schon mehr Punkte pro Quadratmeter. Aber das kann nicht alle Informationen ersetzen. Deswegen muss man bestimmte Bauwerke und Strukturen noch manuell hinzufügen, damit die Simulation überhaupt sinnvoll funktionieren kann. Zum Beispiel kann man per LIDAR, wenn man das per Überflug misst von oben, jetzt nicht so gut Durchlässe und Unterführungen messen. Aber auch für die Höhe von Mauern und Bordsteinen reicht die Auflösung nicht aus, um sicher zu erkennen, dass da Mauern oder Bordsteine sind. Und das Gleiche gilt dann eben auch für manche Dämme und Wälle. Aber auch Gräben sind oft weniger als einen Meter breit. Also potenziell misst ein LIDAR-System die nicht. Ja, und dann gibt es auch bestimmte Bauwerke, die ein Abflusshindernis darstellen. Und ja, kleine Gewässer oder kleine Bäche sind halt potenziell auch zu klein. Und woher soll das LIDAR wissen, dass da Wasser fließt. Aber eben auch Straßenabläufe, also da, wo das Wasser wegfließen kann. Ja, dann gibt es die Oberflächenabflusswerte für die drei Szenarien, die man dann eben ermittelt auf Basis der Oberflächeneigenschaften. Und dann braucht man auch die Landnutzungsdaten, unter anderem zur Rauchigkeitsbestimmung, weil je nachdem wie rau die Oberfläche ist, fließt das Wasser unterschiedlich schnell. Also durch ein sehr glattes Rohr fließt das deutlich schneller, als wenn da zum Beispiel Rasen drauf wächst, dass das immer ein bisschen abblenkt. Ja, und dann gibt es auch noch die Wirkung bestimmter Bauwerke zu berücksichtigen, wie, ja, so Hauptsammler der Kanalisation, wo explizit Wasser gesammelt werden soll. Wobei jetzt bei dieser Gefährdungsanalyse nur das seltene Ereignis überhaupt davon ausgeht, dass die Kanalisation noch nützlich ist und Dinge Wasser abfließen lassen kann, weil bei den Extremereignissen oder bei dem außergewöhnlichen Ereignis geht man immer davon aus, dass die Kanalisation bereits komplett voll ist und nichts mehr aufnehmen kann und der Boden bereits so verschlemmt ist, dass er auch nichts mehr aufnehmen kann. Und da haben wir ja durchaus in der Praxis gesehen, dass das sehr sinnvolle Annahmen sind für die Extremereignisse, weil das ist dann auch eigentlich immer der Fall.
Janine: Ja, ein bisschen was zu quasi Vergleich und Überprüfbarkeit der Modelle kommt dann später auch noch bei der Starkregenanalyse der Stadt Braunschweig. Also zwei, drei Sätze auf jeden Fall.
Helena: Ja, die Berechnung von diesen Simulationen erfolgt dann iterativ. Das heißt, man berechnet einmal für eine Region eben das Modell und verschiedene Szenarien und dann schaut man eben, ob das Modell überhaupt mit den Erfahrungswerten aus der Vergangenheit zusammenpasst und wiederholt dann die Berechnung, indem man kleine Änderungen durchführt. Und wenn das gut zusammenpasst, dann geht man davon aus, dass das schon ungefähr so klappen könnte. Ja, was kommt dann da raus bei der Berechnung? Also zum einen die Überflutungsausdehnung, welche Fläche ist überflutet. Dann die Wasserspiegellage über Normal Null. Damit ist dann eben gemeint, wie hoch steht das Wasser verglichen mit Normal Null. Also man sagt oft Meeresoberfläche. Diese Information ist jetzt nicht so für den Endanwender interessant. Für den ist dann eher die Überflutungstiefe interessant, weil das dann, wie hoch steht das Wasser über der Oberfläche. Dann eben noch die Fließgeschwindigkeit und der zeitliche Ablauf dieses Ereignisses.
Janine: Das klingt auf jeden Fall alles nach sinnvollen Angaben, die dann dabei rausfallen. Aber es gehen echt sehr, sehr viele Daten da rein und auch aus verschiedenen Quellen.
Helena: Genau, deswegen gibt es eben auch drei Verfahren, weil das natürlich beste Verfahren, was auch die genauesten Daten liefert, eben auch den größten Aufwand bedeutet und man trotzdem auch Methoden braucht, um erstmal überhaupt einen Ansatz zu bekommen, wenn man noch nicht den Aufwand getrieben hat, diese Starkregengefahrenkarten zu erstellen.
Wie sieht die Starkregengefahrenkarte im Ergebnis aus? (00:20:15)
In der Starkregengefahrenkarte werden dann Teile des Ergebnisses dargestellt und vor allem die Wassertiefen und manchmal werden auch Fließgeschwindigkeiten eingetragen. Also bei Hochwassern werden die Gefahrenkarten ja oft in so Jährlichkeitskategorien geparkt wie Jahrhunderthochwasser. Aber das wird bei Starkregengefahrenkarten nicht gemacht, weil man irgendwie ja, sich da nicht so sicher ist. Also ganz grob heißt häufig bei einem Starkregenereignis, dass das alle ein bis zehn Jahre passiert und mit selten ist dann gemeint, das sollte eigentlich nur alle 30 bis 50 Jahre passieren. Und außergewöhnlich und extrem sind dabei als möglich anzusehen, aber eben sehr selten Ereignisse, wo man nicht sagen kann, ja, das passiert nur alle 1000 Jahre oder so, weil das weiß man nicht. So lange hat man keine Daten.
Janine: Ja und wie auch so ein bisschen im Einspieler ja auch rauskam, so Starkregenereignisse können ganz massiv lokale Unwetter sein, die vorher gar nicht so richtig planbar sind und sich aus verschiedenen Faktoren ziemlich plötzlich und heftig entladen können.
Helena: Ja und wenn das so lokal ist, dann ist es ja vielleicht immer noch so, dass jetzt auf die gesamte Fläche Deutschlands berechnet die Häufigkeit immer noch nur 1 pro 1000 Jahre ist, aber für die Orte, wo es dann passiert, ist es halt passiert.
Janine: Genau und vielleicht passiert es da ja auch öfter, weil die Bedingungen da nun mal so sind, dass Wetterlagen sich so entwickeln.
Helena: Das kann auch sein, ja.
Janine: Ja, aber das ist Spekulation. Ähm, gut. Was machen wir denn jetzt noch?
Wofür werden solche Analysen genutzt? (00:21:54)
Helena: Genau, also man kann diese Daten, außer um selber abzuschätzen, wie gefährdet man ist, natürlich auch nutzen, um, ja, Neubauten zu planen. Und wenn man jetzt zum Beispiel in Städten neue Anlagen plant, dann plant man das so, dass Stadtzentren und Gewerbegebiete ja einmal in 30 Jahren überflutet sein sollen. Ja und bei ländlichen Gebieten rechnet man eher mit einmal in 10 Jahren und bei Wohngebieten ist die Zahl eher einmal in 20 Jahren. Das ist natürlich nur, das sollte das maximal häufigste Szenario sein. Es gibt natürlich Gebiete, die viel seltener gefährdet sind. Das heißt, nur weil man das noch nie erlebt hat, heißt das nicht, dass es überall einmal in 20 Jahren das Wohngebiet überflutet sein kann. Aber das ist so die höchste Seltenheitsstufe, die man planen kann.
Janine: Genau, es wird quasi so geplant, dass, wenn es passiert, dass das Maximum ist.
Helena: Genau, dass halt nicht plötzlich das Wohngebiet alle 10 Jahre überflutet ist. Also das ist halt das Ziel. Wenn es regelmäßig überflutet wird, maximal alle 20 Jahren ist.
Janine: Das heißt, man würde wahrscheinlich dann sowas machen wie, in diesem Gebiet sagt die Starkregen-Gefahrenkarte, das und das kann passieren. Diese Überflutungstiefen können wir erreichen, also müssen wir entsprechend die Kanalisation anlegen, sodass das abgefangen werden kann, wenn so ein Ereignis eintritt. So ein bisschen in die Richtung, wahrscheinlich mit so einem Mittelwert, wie wahrscheinlich ist es, dass es eintritt.
Helena: Ja, oder auf welchen Höhen man das überhaupt machen kann. Sollte man heutzutage noch neben einem Fluss bauen. Also sicherlich nicht im Auffangbecken.
Janine: Ja.
Helena: Aber wahrscheinlich ist das dann auch einer der Gründe, warum bei Neubauten eben Keller seltener werden. Zusammen damit, dass es natürlich auch mehr Energie bedarf im Winter, wenn man auch einen Keller mitheizen muss. Ja, im Gegensatz zu diesen ganzen Dingen wie Wohngebiete, Stadtzentren, Gewerbegebiete und so weiter, gibt es natürlich auch noch andere Nutzungsarten, wie zum Beispiel unterirdische Anlagen, also Tiefgaragen oder Unterführungen. Und die werden eigentlich so geplant, dass sie maximal einmal in 50 Jahren überflutet sein sollen. Weil dadurch, dass sie tiefer liegen, sind sie natürlich auch deutlich gefährdeter. Das heißt, man muss hier auch deutlich mehr Aufwand treiben, das zu verhindern, weil das Wasser ja auch gar nicht einfach so abfließen kann, wenn es dann zum Beispiel ein Starkregenereignis oder das Hochwasser vorbei ist. Ja, und einmal in 50 Jahren finde ich jetzt, gut, wahrscheinlich kann man nicht seltener das einplanen, aber das finde ich jetzt durchaus gar nicht so selten. Also wenn man sein Leben lang in einem Haus wohnt, wo man eine Tiefgarage hat, kann man damit rechnen, dass die einmal überflutet sein wird.
Janine: Ja, das stimmt.
Helena: Oder sogar zweimal im eigenen Leben.
Wird es künftig häufiger Starkregen geben? (00:24:40)
Janine: Wir hatten jetzt schon hier und da angedeutet, dass die Intensität und die Häufigkeit von Starkregen zunimmt. Wie sieht denn das da so aus? Gibt es dazu überhaupt so konkrete Aussagen? Weil es steht halt überall, aber wo finden wir dafür so eine Art Beleg?
Helena: Ja, also der Deutsche Wetterdienst hat sich mal mit der Frage beschäftigt. Die haben ja auch die Wetterdaten.
Janine: Ja.
Gut. Und wenn man jetzt sich die Häufigkeit von Starkniederschlagstagen anguckt, also das sind dann Tage, an denen mehr als 20 Liter pro Quadratmeter runterkommen und 20 Liter pro Quadratmeter entspricht dann eben auch einer Höhe von 20 Millimetern, weil das zufälligerweise genau rauskommt. Ein Millimeter entspricht einem Liter auf einem Quadratmeter.
Janine: Ah!
Helena: Die Zahlen sind dann die gleichen, nur die Einheiten kann man unterschiedlich sehen. Genau. Und wenn dann eben mehr als 20 Liter pro Tag sind, dann wird das gezählt eben als entsprechender Tag. Und die Häufigkeit hat in Deutschland über die letzten 70 Jahre nur sehr geringfügig zugenommen. Und die stärksten Änderungen ist dabei im Winter. Also im Winter hat die Menge an Starkregen Tage irgendwie um ein Viertel zugenommen, während es im Sommer sich jetzt nicht unbedingt geändert hat, wie oft Starkregen passieren. Und das wird jetzt darauf zurückgeführt, dass zum einen es einfach weniger regnet aufgrund des Klimawandels. Also das beobachtet man halt schon. Aber dann, wenn es regnet, ist für ein einzelnes Regenereignis selber die Wahrscheinlichkeit höher, dass es Starkregen wird. Und das hat sich zumindest in Deutschland bisher weggemittelt, sodass es noch keine Zunahme an Starkregen an sich gibt im Sommer.
Janine: Also sozusagen nicht die Häufigkeit, aber die Intensität eventuell schon, weil es gibt weniger Regen und wenn es regnet, dann dafür stärker.
Helena: Ja, also dann ist die Wahrscheinlichkeit für, dass es stärker regnet, höher. Weil insgesamt regnet es ja, ist Starkregen selber ja nicht mehr geworden. So die einzelnen Ereignisse sind intensiver gewesen oder schlimmer und auffällig. Aber jetzt übers ganze Land gemittelt ist es halt nicht mehr geworden.
Janine: Ja, spannend.
Wie sieht die Starkregenanalyse der Stadt Braunschweig aus? (00:26:55)
Helena: Gut, das war jetzt eher allgemein. Jetzt gab es natürlich in Braunschweig das Starkregenreignis letztes Jahr, bei dem ich zufälligerweise gerade im Urlaub war und deswegen nur von allen Leuten, die ich so kenne, mitgekriegt habe, was da eigentlich los war, aber selber nicht gesehen habe oder erlebt habe, wie das war. Aber du warst ja da in Braunschweig. Kannst du mir erzählen, wie war denn das?
Janine: Ja, ich war da. Es war ziemlich heftig. Also ja, das war im Juni 2023. Da hat es in Braunschweig, also es ist ja dieses Starkregengebiet, ist über einen großen Teil von Deutschland gezogen und hat in vielen Regionen Überschwemmungen verursacht. Also was mir jetzt noch einfällt, sind, ist zum Beispiel die Region Kassel, war auch stark betroffen. Und in Braunschweig habe ich dann später gelesen, sind irgendwie drei Gewitterzellen oder so aufeinandergekommen, weswegen es dann eben besonders heftig wurde. Ich habe auch auf der Seite der Stadt Braunschweig gesehen, dass dieses Starkregenereignis von der Intensität her in die höchste Kategorie eingestuft wird. Und ja, aber da gleich noch mal etwas zu. Es führt auf jeden Fall auch dazu, dass ich hier beobachtet habe, also unser Keller ist vollgelaufen zu einem nicht gerade geringen Teil. Und ja, man konnte halt ganz viel über Social Media ja auch verfolgen, wie die Stadt überflutet war. Der gesamte Innenstadtbereich um den Bohlweg rum war auch relativ hoch überflutet, was ich so auch noch nicht erlebt habe in den letzten fast 20 Jahren oder so.
Helena: Ja, ich kannte auch nur, dass so an alten Kunstwerken oder Skulpturen oder so gab es ja manchmal so so Marker mit. Dann und dann war hier, stand hier das Wasser auf der Höhe bei dem und dem Hochwasser. So das kannte ich schon.
Janine: Ja.
Helena: Also ich hatte schon mal gesehen, dass das irgendwann in der Vergangenheit schon mal gab.
Janine: Ja, und was aber jetzt eigentlich der Punkt ist, warum wir die Folge machen, war gar nicht so sehr das Ereignis im Juni selbst, sondern dass im August oder September ich bin mir gerade nicht mehr genau sicher, vom Deutschen Wetterdienst nochmals eine Warnmeldung vor einem Starkregenereignis rausgegeben wurde. Und ich habe mir die Meldung halt angeguckt und war ja so ein bisschen durch die Erlebnisse im Juni quasi vorgeprägt und habe mir gedacht, gut, hoffentlich wird es nicht wieder genauso schlimm. Und in den Warnmeldungen vom Deutschen Wetterdienst sind eben auch diese Literangaben enthalten. Das heißt, es wird dann angegeben, wie auch im Einpsieler beschrieben, wie viel Liter pro Quadratmeter in entweder einer oder in sechs Stunden fallen. Und mich hat diese Literangabe sehr interessiert. Da stand irgendwie circa, ich glaube, 75 Liter oder so. Und ich habe mich dann gefragt, ist das jetzt genauso intensiv wie das, was im Juni passiert ist, ja oder nein? Und habe ich mich auf die Suche gemacht, ob ich noch Angaben finde, wie hoch die Niederschlagsmenge war, die im Juni bei diesen Überschwemmungen gefallen ist. Und habe dann auf der Seite der Stadt Braunschweig eben tatsächlich die Starkregenanalyse gefunden, wo unter anderem auch das Ereignis vom 22. Juni beschrieben war, und zwar wurde da dann genannt, dass 80 Liter Niederschlag pro Quadratmeter gefallen sind innerhalb einer Stunde. War also tatsächlich noch etwas mehr, aber ich meine, nicht sehr viel mehr als bei der Warnung, die dann im August, September da rausging. Also war ich so ein bisschen alarmiert und habe halt wieder Vorbereitungen getroffen. Und ja, tatsächlich hat sich dann dieses zweite Ereignis als weniger dramatisch herausgestellt. Es hat zwar sehr viel geregnet. Es standen auch, stand auch das Wasser teilweise, aber es ist nicht so intensiv geworden wie das Ereignis im Juni. Das heißt also, die Warnung war gut. Es hätte passieren können, weil man weiß ja nie, wie sich das lokal entwickelt. Aber es ist dann zum Glück nicht noch mal so heftig geworden. Aber ja, das war der Grund, warum ich eben dann über diese Starkregenanalyse gestolpert bin und fand das doch ein extrem spannendes Thema. Die Stadt Braunschweig hat diese Analyse beauftragt bei einem Ingenieursbüro und wurde dann, hat diese Analyse dann Ende 2022 veröffentlicht.
Helena: Also rechtzeitig.
Janine: Also rechtzeitig, ja, sogar vor Juni 2023. Ich habe mir das dann angeguckt. Also ja, erst mal auch die Stadt Braunschweig gibt an, Ziel solcher Analysen ist, dass Bereiche der Stadt erkannt werden sollen, in denen so ein Ereignis besondere Konsequenzen haben kann, die besonders betroffen sind. Und wie Helena ja auch erklärt hat, werden dann eben diese verschiedenen Daten genommen und daraus wird eine Modellierung gemacht, die dann in einer kartografischen Darstellung, nämlich der Starkregengefahrenkarte, mündet. Also das Ergebnis ist quasi die Karte und die zeigt auch für die Stadt Braunschweig die Ereignisse in drei verschiedenen Szenarien beziehungsweise ja Intensitäten an. Wir hatten uns auch gefragt, wie eigentlich diese Modellierungen tatsächlich stattfinden. Also Helenas Frage war insbesondere, welche Modellierungen werden angewendet. Das konnten wir leider nicht in Erfahrung bringen. Wir hatten versucht, mit der Stadt Braunschweig noch zu reden, aber leider kamen deren Antworten jetzt nicht rechtzeitig. Sie geben zumindest an auf der Homepage, dass die Analyse mithilfe einer hydraulischen Computermodellierung mit dem Programm Surface Water Modelling System gemacht wurde, also ein Oberflächenwasser Modellierungssystem und Hydro AS2D. Whatever that means, das ist nicht mein Spezialgebiet. Und sie geben eben auch die wesentlichen Eingangsdaten an, die neben dem Niederschlag wichtig sind. Das ist das Geländemodell. Auch wie Helena schon erklärt hat, das Raster ist ein Quadratmeter oder ein Meter Raster, das steht hier. Und dann werden halt die verschiedenen Annahmen im Vorfeld getroffen, um überhaupt eine Analyse möglich zu machen. Also auch es wird eben, was Helena alles erklärt hat, führt die Stadt Braunschweig hier auch auf. Es wird der Wasserabfluss angenommen, mögliche Rück- oder Überstauereignisse, was Kanäle angeht. Und ja, manches wird nicht berücksichtigt, weil es keine Eingangsdaten gibt. Und dann werden eben Testsimulationen durchgeführt. Und eine der wichtigen Annahmen ist eben auch, dass der Boden nahezu gesättigt ist, keinen Niederschlag mehr aufnimmt. Fließhindernisse wie Gebäude werden eben wieder erfasst. In diesem Fall wurden keine Vor-Ort-Begehungen durchgeführt. Deswegen geben sie auch an, es kann aufgrund dessen auch im Einzelfall zu Fehlern kommen, weil eben örtliche Durchlässe nicht erfasst sind oder so. Also was Helena auch meinte, nur der Überflug von oben reicht ja eigentlich nicht. Ich muss ja auch wissen, wie sieht die Unterführung aus und so weiter. Wurde hier auch nicht gemacht. Das ist dann unter Annahmen gefallen. Ja, das im Vorfeld noch dazu, wie die Stadt Braunschweig das gemacht hat. Sehr viel mehr geben sie dazu nicht an. Und bei der Braunschweiger Gefahrenkarte sind die Ereignisse eingeteilt in intensiven Starkregen, außergewöhnlichen Starkregen und extremen Starkregen.
Helena: Und intensiv ist quasi das Äquivalent zu dem, was bei Baden-Württemberg selten genannt wird, außer dass bei Braunschweig, glaube ich, auch da schon von einer vollgenaufenen Kanalisation die Rede war.
Janine: Genau, so habe ich das auch verstanden.
Helena: Ja.
Janine: Die Szenarien sind in einen Starkregenindex eingeteilt. Der intensive Starkregen hat einen Starkregenindex von 4 bis 5. Dabei wird eine Niederschlagsumme von 41 Millimetern, also äquivalent zu 41 Litern pro Stunde angenommen. Dazu sagt die Stadt, dass so ein Ereignis statistisch etwa alle 30 Jahre auftrat und gibt an dieser Stelle aber auch an, durch den Klimawandel verkürzen sich allerdings in der Tendenz diese Wiederkehrzeiten. Also die gehen schon davon aus, dass es häufiger auftreten wird. Das außergewöhnliche Starkregenereignis entspricht dem Starkregenindex 7. Es wird eine Niederschlagsumme von 51 Millimetern pro Stunde angenommen. Und sie geben hier an, statistisch tritt so ein Ereignis etwa alle 100 Jahre auf.
Helena: Okay, und bei dem Extremereignis?
Janine: Ja, das ist der Starkregenindex 10. Es wird eine Niederschlagsumme von 75 Millimetern pro Stunde angenommen. Und tatsächlich, da hast du ja vorhin die Zahl auch schon benutzt, statistisch tritt so ein Ereignis etwa alle 1000 Jahre auf.
Helena: Ja gut, und wie oft tritt Statistik das Ereignis auf, was wirklich passiert ist? Im Vergleich dazu, wo ist das in dieser Kategorisierung?
Janine: Zum Vergleich sagt die Stadt Braunschweig zwischen 1985 und 2020 gab es in Braunschweig mindestens 10 Starkregenereignisse. Eines dieser Ereignisse lag bei einem Starkregenindex von 6 und einer Wiederkehrzeit von 65 Jahren. Und das bisher größte Starkregenereignis, von dem wir jetzt quasi auch inspiriert sind, diese Folge zu machen, vom Juni 2023, hat ja eben tatsächlich den Starkregenindex 10 erreicht. Aber genauer geben sie es tatsächlich leider nicht an.
Helena: Man kann auf jeden Fall sagen, es gab mehr Niederschlag als in dem Extremereignis auf der Karte der höchsten Seltenheitsstufe drin war.
Janine: Ja.
Helena: Also es war schlimmer als das schlimmste Szenario für das Veröffentlichung existierten.
Janine: Genau, und das ist ein Punkt, den wir auch im Hinterkopf behalten können. Denn wenn wir uns dann die Karte angucken, wir haben übrigens alle sinnvollen Links versucht, so gut es geht, in den Shownotes wiederzugeben. Leider kann ich nicht direkt auf die beste Ansicht für die Starkregengefahrenkarte verlinken. Da muss man sich ein bisschen durchklicken, weil das keinen Direktlink gibt zu allen Informationen. Es gibt da auf jeden Fall, wenn man sich so ein bisschen durchklickt, unter der Starkregenanalyse noch eine Legende. Und was halt zu sehen ist auf der Karte dann ist, dass man die Layer auswählen kann, welches Starkregenereignis man sich angucken möchte. Entweder eben das intensive, das außergewöhnliche oder das Extremeereignis. Dann hat man halt so eine Karte der Stadt und es sind in fünf Varianten von weiß bis dunkelblau sozusagen, also in fünf Farbabstufungen, die Überflutungshöhen angegeben. Alles, was weiß belassen ist, ist beim extremen Starkregen halt 0 bis 5 Zentimeter. Also nicht zwingend gar nicht, sondern 0 bis 5 Zentimeter überflutet. Dann die geringe Überflutungshöhe ist ein sehr helles Blau, das von 5 bis 10 Zentimeter gibt. Dann die mäßige von 10 bis 30, die Überflutungshöhe hoch, 30 bis 50. Und wo es sehr hoch überflutet ist, mehr als 50 Zentimeter, ist es dann eben sehr dunkelblau. Dann kann man eben in die Karte reinzoomen und die einzelnen Gebiete angucken, wo für dieses Szenario eben diese Überflutungshöhe angegeben ist. Das hat mich natürlich auch sehr interessiert, weil ich ja quasi den visuellen Vergleich hatte. Ich wusste, wie hoch stand bei uns im Hof das Wasser. Und ich habe mir das dann auf der Starkregengefahrenkarte angesehen und konnte tatsächlich feststellen, dass diese Abschätzung sehr gut war.
Helena: Oh.
Janine: Das hat mich ein bisschen überrascht tatsächlich, dass das so zutreffend war. Und es war eben die Überflutungshöhe, die hier für das Extremereignis prognostiziert wurde. Und ja, das hat dann schon den Vorteil, dass wenn man einmal ein Erlebnis hatte und das eben selbst auch vergleichen kann, vielleicht tatsächlich viel besser einschätzen kann, wie sehr ist die direkte Umgebung, in der ich lebe, betroffen und was kann ich oder muss ich für Maßnahmen tun? Das ist eben der große Vorteil dann daran, wenn man sich damit mal auseinandergesetzt hat. Was ich auch noch sehr interessant fand, war, auf der Homepage der Stadt Braunschweig stand im Anschluss an das Starkregenereignis im Juni 2023 hat die Stadtverwaltung Bürgerinnen und Bürger darum gebeten, Fotos einzureichen, um die Starkregen-Simulationen, die sie haben, zu evaluieren, zu vergleichen und zu gucken, wie zutreffend ist eigentlich die Modellierung, die sie im Dezember 2022 veröffentlicht haben. Und dann wurden tatsächlich Fotos eingereicht und der Abgleich mit diesen Fotos hat dann ergeben, dass es eine sehr hohe Übereinstimmung mit den berechneten Überflutungen gibt. Das war so für die Stadt eine wichtige Bestätigung dafür, dass halt die Simulationen, die sie da drin stehen haben, recht zuverlässige Auskünfte gibt, mit welchen Überflutungen eben bei Starkregen gerechnet werden kann in den Bereichen, die da angegeben waren.
Helena: Ja.
Wie hilft so eine Karte? (00:40:09)
Janine: Das ist schon so ein bisschen die Frage, auf die ich auch noch eingehen wollte. Wie hilft so eine Karte? So eine Karte allein hilft natürlich nicht. Ich muss die Warn-Apps haben, die mir sagen, es steht ein Starkregenereignis an.
Helena: Ja.
Janine: Und ich muss halt interpretieren können, was bedeutet die Wassermenge, die in dieser Warnmeldung ausgegeben wird. Und dann kann ich eben mit Hilfe der Karte gucken, wie hoch kann die Überschwemmung sein in dem Gebiet, in dem ich lebe. Und in diesem Fall hilft mir halt akut dann so eine Karte oder jedem anderen Menschen, der sich auch diese Informationen beschafft und damit eben umgeht. Genau. Gibt noch so ein paar Vorsorgesachen, die jeder Mensch dann für sich selbst so treffen kann, wenn so ein Ereignis ansteht. Wir hatten zum Beispiel eine Webcam im Keller aufgebaut und zu gucken, ob Überflutung stattfindet oder nicht. Also nach dem Ereignis tatsächlich.
Helena: Für das potenziell zweite Ereignis.
Janine: Ja, auch wir wussten ja nicht. Es war halt noch, es hat noch sehr, sehr lange geregnet nach dem Starkregenereignis im Juni. Und wir wussten einfach nicht, ja, können wir jetzt schlafen gehen? Das ist das Thema jetzt vom Tisch. Oder kommt da noch mal was? Und dann hatten wir einen Wasserstandsensor in den Keller gesetzt an eine Stelle, wo, wenn Überflutung stattfände, wir das sehr schnell mitkriegen und eben eine Videokamera, so dass man mal runtergucken kann, ohne direkt hinrennen zu müssen. Es sind so kleine technische Sachen, die man dann vielleicht machen kann. Aber ja, das Wichtigste ist halt zu wissen, es gibt diese Informationen und dazu kann es eben auch helfen, sich auf den Seiten der eigenen Kommune, der Region zu informieren. Gibt es vielleicht für meine Region eine Starkregengefahrenkarte? Oder welche Informationen stellt die Kommune bereit, auf die ich dann irgendwie zurückgreifen kann? Gibt es Vorherfahrungen, Berichte, die ich mir angucken kann, um halt einfach für solche Sachen gewappnet zu sein, wenn sie denn wieder auftreten. Also zusammengefasst wäre das halt Informationen sammeln, Angaben von Regenmengen in irgendeiner Form einordnen können, vielleicht durch Vergleichsereignisse und dann für sich selbst festlegen, was ist der Schwellwert, ab dem ich mich tatsächlich konkret kümmern muss? Und dann halt künftige Warnmeldungen genau daraufhin untersuchen.
Helena: Hmhm.
Janine: Genau. Was ich, glaube ich, noch ganz wichtig finde, ist, weil nämlich bei dem zweiten Ereignis waren wir so ein bisschen auf dem Sprung zum Wegfahren. Falls man in einem Gebiet wohnt, das betroffen sein könnte, ist es natürlich auch nicht verkehrt, ein kleines Netzwerk zu haben aus Familie oder Nachbarschaft, die gegebenenfalls auch einspringen und helfen können und sich über die Infrastruktur des eigenen Hauses informieren. In unserem Gebäude gibt es einen Abfluss im Keller und es ist gut zu wissen, dass so ein Abfluss zum Beispiel eine Rückstaufunktion hat, sodass halt kein Wasser von unten in den Keller gedrückt werden kann.
Helena: Ja, wenn die Kanalisation voll ist und dann kommt das Wasser einfach durch die Kanalisation, ist das dann schon besonders unschön.
Janine: Bei uns war tatsächlich das Problem, dass die Rückstaufunktion hat funktioniert, es kam kein Wasser von unten. Aber weil die Kanalisation so massiv überlastet war, konnte das Wasser aus dem Keller auch nicht abfließen.
Helena: Nee, natürlich nicht.
Janine: Und so, also es war dann sehr schnell weg, als das genug abgeklungen ist. Das war so ein bisschen unser Glück, sodass wir da nicht so richtig viel Aufwand mit hatten, dass wir irgendwie die Feuerwehr rufen mussten oder so. Und ja, das ist so der nächste Punkt. Was mache ich, wenn? Auf jeden Fall nicht in überflutete Räume gehen. Tu das nicht. Es gibt Strom und wenn der nicht aus ist, kann das gefährlich werden. Das ist immer so ein Hinweis, den es gibt. Die Stadt Braunschweig zum Beispiel hat einen netten Flyer zusammengestellt mit verschiedenen Informationen, wie sich im Falle einer Überflutung richtig verhalten werden kann. Den verlinken wir auf jeden Fall auch. Da gibt es so ein paar Punkte zur Vorsorge, wie mit einer Warnmeldung umgegangen wird, wie die akute Situation ablaufen sollte und was dann nach der Überflutung getan werden kann oder sollte in Verbund mit wichtigen Rufnummern der Stadt. Also es empfiehlt sich auch da zu gucken, ob die eigene Kommune oder Stadt solche Flyer hat, weil da manchmal konkrete Telefonnummern für bestimmte Dienste oder notwendige Hilfeleistungen angegeben sind, die jetzt nicht den allgemeinen Notruf betreffen.
Helena: Ja, da gibt es so Richtwerte, wie wenn jetzt in der Starkregengefahrenkarte steht, ja, bei dem Extremereignis ist beim eigenen Haus das Wasser potenziell höher als einen Meter. Dann sollte man rechtzeitig vielleicht das Gebäude verlassen, weil ab einem Meter, je nachdem wie alt und woraus das Haus gebaut ist, man nicht mehr hundertprozentig sicher sein kann, dass es stabil ist. So als ganz groben Richtwert.
Janinen: Genau, und das ist ja auch zum Beispiel etwas, was die Situation im Ahrtal so extrem gefährlich und katastrophal gemacht hat, dass eben da tatsächlich solche Mengen geflossen sind, dass die Integrität von Gebäuden einfach aufgegeben hat und vom Boden grundsätzlich.
Helena: Wenn der Boden wegrutscht, dann muss ja nicht mal im Gebäude so schlimm sein. Das ist aber noch mal unabhängig davon.
Janine: Genau, also es gab auch beide Fälle da. Und ja, das sind einfach wichtig zu wissende Sachen und so etwas. Also ich denke, viele waren einfach von der Intensität damals überrascht. Und ja, das sind Gedanken, die man sich dann erst macht, wenn so etwas mal vorgekommen ist. Aber es sind eben wichtige Gedanken, weil sie für die Zukunft doch hilfreich sein können.
Helena: Ja, und jetzt bezahlt die Versicherung der Leute, bezahlen nur Neubauten am selben Ort.
Janine: Ja, kein Kommentar. Aber ich würde sagen, dann können wir so ein bisschen zum Fazit kommen.
Fazit (00:45:59)
Helena: Ja, Fazit. Ja, keine Ahnung, willst du anfangen, soll ich anfangen?
Janine: Ich kann gerne anfangen. Erstmal hoffe ich natürlich, dass auch wenn das Thema - Achtung Wortspiel - relativ trocken ist mit den ganzen Aufzählungen, die wir gemacht haben, hoffe ich doch, dass es interessant für euch war, zu erfahren, dass eben bestimmte Informationen wie die Bodenbeschaffenheit in diese Untersuchungen eingehen, um herauszufinden, wann, wo, etwas, wie stark überflutet werden kann, dass da die topografischen Informationen eben relevant sind und all diese ganzen Sachen, die da grundsätzlich einfließen und vor allem hoffe ich, dass ihr was daraus mitnehmen konntet, wie ihr vielleicht selbst mit solchen Starkregen-Gefahrenkarten dann eben umgehen könnt, dass bestimmte Informationen und Schwellenwerte dann daraus für euch selbst abzulesen sind, dass ihr sinnvoll handeln könnt, wenn so etwas eure Region betrifft.
Helena: Ja, ich fand es auf jeden Fall gut, mich mal mit dem Thema zu beschäftigen. Mir war, bevor das Hochwasser im Ahrtal so kurzfristig so schlimm geworden ist, nicht klar, dass wir hier so gefährdet sind. Und erst recht, als dann auch Braunschweig betroffen war. Klar, mit einem ganz anderen Level an Zerstörung als jetzt das Ahrtal. Aber auch hier ist immer noch das extreme Ereignis deutlich über dem oder beziehungsweise das tatsächliche Ereignis war immer noch über dem höchsten Ereignis, was man als extremes Szenario berechnet hatte.
Janine: Ja.
Helena: Also es ist halt realistisch, es kann halt passieren. Nur weil man selber nicht davon betroffen ist, heißt das nicht, dass man nicht irgendwann mal betroffen sein könnte. Von daher macht es Sinn, damit zu rechnen, auch mit den Worst-Case-Szenarien. Fand es auf jeden Fall auch ganz interessant herauszufinden, wie jetzt eigentlich diese Berechnungen durchgeführt werden. Jetzt nicht auf dem Level, was jetzt ein Hydrologe oder eine Hydrologin hätte, aber zumindest so grob, dass man eben außer der Topografie eben noch verschiedene andere Informationen braucht, wie was für eine Oberfläche hat man, wie gut kann das Wasser abfließen, wohin soll das überhaupt abfließen, wie rechnet man das? Und dass man auch eben davon ausgeht, dass die Kanalisation zu ist, dass die nicht mehr funktioniert. Das fand ich auch interessant, weil in Braunschweig hat man nach diesem Ereignis öfter gehört, ja, ein Problem sei auch gewesen, dass die ganzen Abflüsse verstopft gewesen seien. Aber man hat ja immerhin eingeplant dieses Szenario.
Janine: Ja, ich finde das auch interessant, dass das eben tatsächlich auch ein Ereignis ist, wo man eben, also eigentlich sagen wir immer so, kenne dein Messverfahren, das heißt, wisse über die Daten, die du hast, wie du es umsetzt und woher das alles kommt und so weiter. Aber hier werden ja großzügig Annahmen getroffen, Vermutungen als Grundlage genommen, um eine Modellierung zu machen und dass diese dann am Ende aber trotzdem im Abgleich mit einem realen Ereignis so zutreffend war. Das ist dann schon eigentlich wirklich sehr spannend.
Helena: Ja, und gleichzeitig wird das neue Ereignis genutzt, um die Modelle noch besser zu machen.
Janine: Ja.
Helena: Weil man die Details, wo man wirklich nur Annahmen hatte, wo es dann fehlgeschlagen oder falsch lag dann auch jetzt ausmerzen kann. Das ist auch sehr schön.
Aufruf Women in Data Science Datathon (00:49:10)
Janine: Ja, bevor wir dazu kommen, die nächste Folge anzukündigen, hatte ich ja ganz am Anfang schon gesagt, wir haben hier noch einen kleinen Aufruf. Und zwar möchten wir wieder beim Women in Data Science Datathon mitmachen. Für diese Folge haben wir jetzt mehr mit Beschreibungen von Herangehensweisen zu tun. Bei diesem Datathon geht es aber darum, tatsächlich selbst mit Daten an interessanten Fragestellungen zu arbeiten. Also es ist halt, wie vorhin schon gesagt, eine globale Veranstaltung. Das findet weltweit und digital statt. Es gibt auch wohl hier und da an Universitäten einzelne Präsenzveranstaltungen dazu. Aber ja, insgesamt geht es darum, Data Science Skills anzuwenden, kennenzulernen und auch weiterzuentwickeln, und zwar auf allen Niveaus. Es werden Daten zur Verfügung gestellt, Aufgaben und Probleme, und die können dann entweder allein oder im Team bearbeitet werden. Und die Lösung kann dann am Ende eingereicht werden. Und ja, die Themen sind meistens wirklich sehr interessant und beschäftigen sich mit einem kritischen Blick zum Beispiel auf Klimawandel oder auf soziale Inhalte. Dieses Jahr ist das Thema Equity in Healthcare, also Gerechtigkeit im Gesundheitswesen. Und da gibt es drei Wettbewerbe beziehungsweise drei Datathons. Die ersten zwei sind Challenges, die eher auf Einstiegsniveau angesiedelt sind. Die erste läuft aktuell schon und wir würden gerne an der zweiten teilnehmen, die am 9. April startet. Und ja, der Aufruf ist jetzt entweder macht doch selbst mit und sucht euch Leute, mit denen das spaßig wäre zu machen. Also wir hatten beim letzten Mal sehr viel Spaß in unserer Vierergruppe und wir würden eben auch gerne dieses Mal wieder mit Menschen zusammenarbeiten. Das heißt, wenn hier ein bis zwei Leute zuhören, die Interesse hatten, mit uns ein Team zu gründen und sich dieser zweiten Challenge zu stellen, dann schreibt uns gern bis zum 25. März, entweder über Mastodon oder auch per E-Mail. Ihr findet alle Links dazu und auch zum Datathon in unseren Show Notes. Wir würden uns freuen, weil selbst mit Daten umgehen ist natürlich auch immer was Schönes.
Nächste Folge: Die Vesuv Challenge Ende März (00:51:26)
Helena: Ja, die nächste Folge, die dann Ende März erscheinen wird, voraussichtlich, dreht sich dann mal wieder um das tolle Thema Machine Learning. Und zwar geht es um die Vesuv-Challenge, bei der es darum geht, dass man vor einigen hundert Jahren Schriftrollen ausgegraben hat.
Janine: Genau, und zwar wurde im Jahr 79 nach unserer Zeitrechnung die antike Stadt Herkulaneum unter einer bis zu 20 Meter dicken Vulkanschicht begraben.
Helena: Ja, wo es dann teilweise noch erhaltene Gebäude gibt, aber eben auch Schriftrollen, die jetzt halt komplett verkohlt sind. Man hat die damals aufgerollt und kaputt gemacht erfolgreich und dann beschlossen, ja, wir lassen die jetzt in Ruhe in der Hoffnung, dass man später die vielleicht analysieren kann. Und die Zeit ist jetzt scheinbar schon gekommen. Und zwar gab es eben diese Challenge und man konnte da teilnehmen. Und das Ziel war es, einen Text von einer Schriftrolle zu entziffern. Und wie das jetzt gelungen ist und wie das funktioniert
Janine: Vor allem ohne sie zu zerstören.
Helena: Darum soll es in der nächsten Folge gehen.
Call to Action (00:52:32)
Janine: Ja, und wenn ihr das nicht und auch jede weitere Folge nicht verpassen möchtet, dann folgt uns doch gerne auf Mastodon unter @datenleben@podcasts.social oder besucht unsere Webseite www.datenleben.de Da findet ihr auch alle unsere Folgen. Ihr könnt uns da auch gerne Feedback hinterlassen zu unseren Episoden. Darüber freuen wir uns immer sehr. Und ja, ansonsten, wenn euch unsere Arbeits- und Denkweise gefällt, könnt ihr uns auch als Data Scientist buchen für Projekte. Oder ihr habt interessante Themen, die wir uns mal näher angucken können, dann könnt ihr uns auch das gerne jederzeit schreiben. Ja, die E-Mail-Adresse ist podcast@datenleben.de Wir freuen uns, wenn ihr euch meldet.
Helena: Dann bleibt mir nur noch für eure Aufmerksamkeit zu danken. Ja, vielen Dank und bis zum nächsten Mal. Ciao.
Janine: Tschüss.
Outro (00:53:25)
53:37
dl046: kaffee
Episode in
datenleben
Viele Menschen trinken gerne - oder aus Gewohnheit - Kaffee. Wir haben uns gefragt wie viele eigentlich Kaffee trinken und wie sich der Kaffeekonsum entwickelt hat. Das Themenspektrum rund um dieses Heißgetränk ist ziemlich riesig, denn Kaffee ist heutzutage eigentlich ein ziemlich gut untersuchtes Alltagsgetränk. Aber wir sparen hier bewusst medizinische und gesundheitliche Themen aus, auch wenn sie furchtbar interessant sind. Dafür fragen wir uns, was die Klimakrise für eine Auswirkung auf den Kaffeeanbau haben könnte und reden über eine Studie, die erstmal weniger optimistisch klingt.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl008: temperaturkurven
Kaffekonsum:
Deutscher Kaffeeverband: Deutscher Kaffeemarkt 2021 erneut gewachsen
destatis, Statistisches Bundesamt: Pressemitteilung Nr. N037 vom 22. Juni 2023
about-drinks.com: „So trinkt Deutschland Kaffee“ – Studie des Deutschen Kaffeeverbandes
sciencedirect.com, Social Science & Medicine, Volume 26, Issue 2, 1988, Pages 259-264, Elina Hemminki et al.: Coffee drinking among Finnish youth
worldpopulationreview.com: Coffee Consumption by Country 2024
zdf.de, dpa: So viel Kaffee trinkt Deutschland
Wikipedia: Tasse
Klimakrise 2023 & Klimaszenarien:
dwd.de: Deutschlandwetter im Jahr 2023. Erwärmungstrend hält an: 2023 mit neuem Rekord und reichlich Niederschlag
climate.copernicus.eu: Erwärmungstrend hält an: 2023 mit neuem Rekord und reichlich Niederschlag
dwd.de: RCP-Szenarien. Die neuen RCP-Szenarien für den 5. IPCC Sachstandsbericht
wiki.bildungsserver.de: RCP-Szenarien
Kaffeeanbau und Klimakrise:
National Geographic, Deborah Roth: Studie: Kaffee wird künftig knapp
Plos One, Roman Grüter et al.: Expected global suitability of coffee, cashew and avocado due to climate change
Schlagworte zur Folge
Kaffee, Konsumverhalten, Closed Data, Open Data, Messgrößen, Messverfahren, Klima, Klimawandel, Klimakrise
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zu unserer 46. Folge beim Datenleben-Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten mit euch die Welt der Daten erkunden. Es wird immer wichtiger, diese Daten in das große Ganze einordnen zu können. Wer schon immer mehr über Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.
Thema der Folge (00:00:38)
Janine: Ja, und den Effekt auf unser Leben, den die Daten haben, die wir uns heute angucken, ist wahrscheinlich bei vielen recht groß. Wir wollten uns nämlich mit Zahlen befassen, die mit dem Thema Kaffee zu tun haben. Zum einen hat Helena versucht herauszufinden, wie sich so der Kaffee-Konsum in den letzten Jahren entwickelt hat und was es dabei vielleicht auch für Schwierigkeiten gab. Darum geht es dann gleich. Und dann hatte ich ja auch im letzten Jahresrückblick schon gesagt, ich würde mir gern wieder ein bisschen mehr das Thema Klima angucken. Und Kaffee und Klima ist tatsächlich ein Thema, das ganz gut zusammenhängt und aktuell immer mehr auch in den Fokus von Berichterstattungen gerät. Im Zuge der Klimakrise. Deswegen gucken wir da auch einmal hin. Und ja, es gibt einige Sachen, über die wir beim Thema Kaffee nicht reden werden. Denn ja, wenn es um Kaffee geht, gibt es ein ziemlich großes Themenspektrum. Und das meiste hängt irgendwie dann zusammen, wann, wie, warum wir Kaffee konsumieren. Es ist ein Thema, das mit Gesundheit zu tun hat. Koffein und medizinische Themengebiete kommen da zusammen. Das ist ein sehr, sehr großes Fass, das wir hier einfach nicht aufmachen möchten. Und deswegen sparen wir hier bestimmte Dinge aus, auch wenn sie furchtbar interessant sind. Kaffee als Ritual und Sucht und gesellschaftlich anerkannte Praxis in Sachen Koffein-Doping und so. Das klammern wir auch alles aus.
Warum ist das Thema interessant? (00:02:21)
Helena: Genau, uns geht es vor allen Dingen darum, wie viel Kaffee konsumiert wird und wie sich das vielleicht geändert hat. Und wie sich das in Zukunft vielleicht ändern wird aufgrund des Klimawandels. Und ja, ich fand das Thema einfach mal interessant und wollte da mehr drüber wissen. Und deswegen dachten wir, uns machen wir doch eine Folge dazu.
Einspieler: Die kaffeeeske Verwandlung (00:02:40)
Janine: Die kaffeeske Verwandlung. Als Sandra G. eines Morgens aus unruhigen Träumen erwachte, fand sie sich in ihrem Bett zu einem ungeheuren Monster verwandelt. Sie lag auf einem viel zu steifen Rücken. Und konnte, wenn sie ihren Kopf hob, nur einen undeutlichen und klebrig verschleierten Blick auf die Realität werfen. Ihre scheinbar unnötig vielen kläglichen Gliedmaßen flimmerten hilflos vor ihren Augen bei dem Versuch, die Motorik in Gang zu bringen. Was ist mit mir geschehen?, dachte sie. Sandras Blick richtete sich zum Fenster. Trübes Wetter, Regentropfen, die auf das Fensterblech schlagen. "Wie wäre es, wenn ich noch ein wenig weiter schliefe und alle Narrheiten vergäße?, dachte sie. Aber das war gänzlich undurchführbar. Was für einen anstrengenden Beruf habe ich gewählt? Tag aus, Tag ein ins Büro. Der Teufel soll das alles holen. Sie fühlte eine leichte Flauheit im Magen und beim Heben des Kopfes einen leichten Schmerz, den sie nicht zu beurteilen verstand. Sie ließ sich wieder aufs Bett sinken. Dies frühzeitige Aufstehen, dachte sie, macht einen ganz blödsinnigen. Der Mensch muss seinen Schlaf haben. Wenn ich nicht eine Miete zu zahlen und Essen zu kaufen hätte, ich hätte längst das System verlassen. Ihr Blick geht zur Uhrzeit. Ach du, ich bin ja längst zu spät. Sollte der Wecker nicht geläutet haben? Er muss geläutet haben. Ja, aber es war unmöglich, dieses Möbel erschütternde Leuten ruhig zu verschlafen. Nun, ruhig hatte sie ja nicht geschlafen, aber wahrscheinlich desto fester. Was aber sollte sie jetzt tun? Das klebrige Gefühl in den Augen setzte sich auch in ihrem Mund fort und in ihren Gedanken. Als sie all dies überlegte, krochen ihre Gedanken zäh und langsam weiter voran, ohne dass sie sich entschließen könnte, das Bett zu verlassen. Da läutete das Telefon. Sandra, es war eine Kollegin. Es ist schon spät, wo bleibst du denn? Sandra erschrak, als sie ihre antwortende Stimme hörte, die wohl unverkennbar ihre frühere war, in die sich aber wie von unten her ein nicht zu unterdrückendes, schmerzliches Piepsen und Grollen mischte, das die Worte entsetzlich verfremdete. Was ist denn? Ist dir nicht wohl? Bin schon fertig, versuchte sie zu sagen, war sich selbst aber nicht sicher, ob sie ihre eigenen Worte verstanden hätte. Du klingst völlig fertig, ja. Vielleicht solltest du dir schleunigst einen Kaffee machen und dann zusehen, dass du hier antanzt, sonst wird es gänzlich ungemütlich für dich. Sandra brummelt noch etwas als Antwort und legt auf. Die Decke abzuwerfen war ganz einfach, aber weiterhin wurde es schwierig, besonders, weil sie so ungemein unbeweglich war. Mit einigem Zappeln und Drehen und Schwungholen gelang es, in Bewegung zu kommen. Aber als sie den Kopf endlich außerhalb des Bettes in der freien Luft hielt, bekam sie Angst, denn wenn sie sich schließlich so fallen ließe, musste geradezu ein Wunder geschehen, wenn der Kopf nicht verletzt werden sollte. Mit mehr Glück als Verstand gelang es aber, mit einem anderen Schwung unelegant aus dem Bett zu kommen, halb fallend, halb sich abrollend. Mehr Überlebenswille als bedachtes Vorgehen rettete sie vor diesem Sturz. Als sie sich mit einiger Mühe aufrichtete, sah und spürte sie ihre Gliedmaßen gegeneinander kämpfen. In diese willkürlichen Bewegungen Ordnung zu bringen, wirkte zunächst unmöglich. Mit einiger Anstrengung jedoch und unter weiteren irritierend-kehligen Geräuschen schleppte sie sich bis in ihre Küche. Der klebrige Schleier vor den Augen war störend, aber ab hier passierten die Handgriffe merkwürdig automatisch, bis das gluckernde Geräusch der Kaffeemaschine langsam in ihre Gehörgänge sickerte und schließlich ein Geruch aufstieg, den sie tief einatmen konnte. Ab jetzt wurde alles leichter. Die Gedanken wacher, der Blick etwas klarer, die Laute aus ihrer Kehle wurden wohlklingender. Und als der Kaffee fertig war und langsam Schluck für Schluck im Körper ankam, kehrte ihre Handlungsfähigkeit gänzlich zurück. Der bittere Geschmack des Koffein spülte allmählich den Montagmorgen aus ihren Synapsen.
Wie hat sich über die letzten Jahre der Kaffeekonsum entwickelt? (00:07:20)
Helena: Ja, wie hat sich der Kaffeekonsum über die letzten Jahrzehnte entwickelt? Das war so die Eingangsfrage. Mit der ich in diese Folge reingegangen bin, um dann festzustellen, dass es gar nicht so einfach ist, dafür Statistiken zu finden. Das liegt zum einen daran, dass, ja, wenn man nach Kaffee sucht und Kaffeekonsum, wird man schon auch sehr stark bombardiert mit dem Thema, wie sich denn Kaffee auf unsere Lebenserwartung oder auf unsere Gesundheit auswirken würde. Und da gibt es tausende Studien zu, die natürlich dann zuerst kommen, aber dadurch, dass das auch so viel ist, kann man sich erst damit beschäftigen, weil das Thema noch ein sehr gut erforschtes Thema ist, wo sich auch viel geändert hat oder die Erkenntnisse. Keine Ahnung, ich kann die jetzt nicht zusammenfassen, aber ich wollte eigentlich auch das gar nicht recherchieren. Aber es waren die hauptsächlichen Ergebnisse, die ich fand. Dann habe ich gedacht, gucke ich mal beim Statistischen Bundesamt nach, weil man sollte ja zumindest herausfinden können, wie viel Kaffee importiert wird und vielleicht auch wieder exportiert wird, weil in Deutschland ja durchaus auch Kaffee geröstet wird. Was daran liegt, dass Kaffee, wenn man den röstet, an Haltbarkeit einbüßt, also gerösteter Kaffee hat eine geringere Haltbarkeit oder schmeckt am besten, wenn er relativ schnell konsumiert wird und würde man den häufiger in den Herkunftsländern rösten und dann per Schiff transportieren, dann würde man die beste Zeit, wo der am leckersten schmeckt, verlieren. Ja, deswegen gibt es verschiedene Statistiken, die auch den Export betreffen. Also Deutschland exportiert auch relativ viel. Das Problem ist, dass die Außenhandelsstatistik, die ich beim Statistischen Bundesamt gefunden habe, Kaffee unter anderem mit Gewürzen in einer Gruppe führt, sodass ich jetzt nicht wirklich sagen konnte, was davon ist jetzt Kaffee und was nicht. Dann gibt es in Deutschland noch den Kaffeeverband und die veröffentlichen so zumindest in den letzten 10, 15 Jahren Pressemitteilungen, wie sich denn der Kaffeemarkt in Deutschland entwickelt hat. Also ob jetzt dieses Jahr 10 Liter pro Person mehr getrunken wurden oder nicht oder ob man öfter ins Café gegangen ist oder nicht. Aber da gibt es nur die Pressemitteilungen online und deren eigentlichen Untersuchungen lassen sich nicht so einfach beschaffen, weil das ist natürlich ein Verband, der ein Zusammenschluss von verschiedenen Kaffeeplayern ist. Ich weiß jetzt nicht genau, welche da drin sind. Aber die haben natürlich ein kommerzielles Interesse daran, die Daten für sich selber zu nutzen, die sie erheben. Und dann eben nur punktuell Sachen in Veröffentlichungen zu packen, also in Pressemitteilungen.
Janine: Wahrscheinlich ist dann auch gar nicht gut einsehbar, was sie überhaupt für Datengrundlagen haben für die Ergebnisse, die sie präsentieren, oder?
Helena: Ja, also die Info gab es schon. Also die machen Befragungen bei durchaus mehr als 10.000 Menschen...
Janine: Ahja.
Helena: ...in einem Jahr. Also das ist, glaube ich, schon eine ganz gute Datenbasis. Ja, aber so ein Ergebnis ist dabei zum Beispiel gewesen, dass im Jahr 2021 der Pro-Kopf-Konsum in Deutschland bei 169 Litern liegen würde in einem Jahr, was auf die Gesamtbevölkerung gerechnet dann 500 Millionen Tassen entsprechen würde.
Janine: Also ganz Deutschland hat dann 500 Millionen Tassen getrunken.
Helena: Genau, das ist so deren Aussage. Ja, dann habe ich allerdings noch weitergeguckt. Und dann gab es zum Beispiel auch beim Statistischen Bundesamt durchaus auch Pressemitteilungen, wo das Thema Kaffee drin vorkam. Und da wurde gesagt, dass 1962 in der Bundesrepublik Kaffee hauptsächlich per Hand aufgebrüht wurde. Also da wurde jetzt nicht gesagt, wie viel Kaffee getrunken wurde, aber dass nur vier Prozent der Haushalte eine Kaffeemaschine hatten Anfang der 60er Jahre. Und verglichen wurde das dann mit heutzutage, wo 82 Prozent der Haushalte eine Kaffeemaschine haben. Und davon hat die Hälfte eine Filterkaffeemaschine. Und etwas mehr als ein Viertel benutzen so Kaffeepads oder Kapseln. Und noch mal ein Viertel hat auch so Kaffeevollautomaten. Und andere Zubereitungsmethoden wurden da jetzt nicht mit aufgeführt. Das ist jetzt insofern interessant, als dass ich auch noch die Information gefunden habe, dass Kaffeetrinkende, also Leute, die tatsächlich Kaffee trinken, im Schnitt 1,8 Systeme der Kaffeezubereitung hätten. Ja, da dachte ich dann auch, okay, ja. Also in diesem Haushalt gibt es jetzt auch eine Filterkaffeemaschine, eine Espressomaschine, so eine Espressokanne, die man auf den Herd stellt. Und dann haben wir noch so eine French Press, mit der man den dann so runterdrückt. Gerade letzteres ist fürs Camping ziemlich nützlich, weshalb wir das haben.
Janine: Also hebst du den Durchschnitt ein bisschen an mit fünf Kaffeesystemen, wenn ich jetzt mitgezählt habe?
Helena: Ich bin jetzt gerade auf vier gekommen. Filterkaffeemaschine, Espressomaschine, Mocha-Pot und French Press.
Janine: Ach so, ja, ich war, irgendwie bin ich bei Kaffee-Vollautomat, hat mein Gehirn mitgezählt.
Helena: Nein, sowas besitze ich nicht. Der ist in der Statistik sehr beliebt, weil man, also was jetzt auch in den letzten Jahren immer mehr verkauft wurde, ist Kaffee in ganzen Bohnen. Und Kaffee-Vollautomaten dürfen hier der Hauptgrund sein, weil man dann frisch gemahlenen Kaffee zubereiten kann.
Janine: Ja.
Helena: Und die Idee dahinter ist, dass Kaffee auch sehr viele ätherische Öle enthält, die durchaus mit dem Geschmack zusammenhängen und die verfliegen halt, wenn man Kaffee gemahlen hat nach einer Weile. Und bei so Kapselmaschinen ist es ja auch so, dass diese Kapseln oft aus Aluminium sind und das wird erst beim Brühvorgang tatsächlich aufgestochen, um eben genau den gleichen Effekt zu haben wie bei einem Vollautomaten oder bei frisch gemahlenem Kaffee, dass dann eben die Aromen nicht so schnell verschwinden wie bei, wenn man einfach nur Pulver benutzt.
Janine: Ich weiß auch einen Kaffee-Fakt, den ich beisteuern kann, glaube ich. Je höher der Druck ist, desto besser wird auch der Kaffee, oder? Also das ist so ein Vorteil an Kapselmaschinen, glaube ich, dass die mit einem recht hohen Druck den Kaffee aufbrühen und nicht wie beim Filterkaffee das Wasser einfach nur durchsickert.
Helena: Also ich glaube, das ist ein, das ist auch ein großes Fass, das man aufmachen kann, weil Filterkaffee bei Kaffee-Nerds durchaus sehr beliebt ist, weil man, wenn man mit der Hand aufbrüht den Filterkaffee, statt es in einer Maschine zu tun, auch die Flussrate deutlich besser beeinflussen kann. Und gerade wenn der Kaffee leichter geröstet ist und man mehr Ursprungsaromen wahrnimmt als bei einer dunklen Röstung, merkt man da bestimmte Unterschiede auch sehr gut. Bei Kaffee macht es einen Unterschied, ob der jetzt auf verschiedene Geräte optimiert ist. Also Filterkaffee verhält sich anders, aber ist deswegen nicht automatisch schlechter.
Janine: Ja.
Helena: Als Kaffee aus einer Espressomaschine oder einer Kapselmaschine.
Janine: Ich meine auch, es ging hauptsächlich um den bitteren Geschmack, der wohl weniger sein sollte. Aber klar, wenn die Kaffeesorte an sich vielleicht gar nicht dafür so anfällig ist, dann ist es eventuell auch egal.
Helena: Also bitterer Geschmack kommt bei Kaffee ja daher, dass man sehr gut extrahiert und man sehr viel Koffein löst.
Janine: Ahja.
Helena: Und Koffein ist von Natur aus bitter. Im Prinzip möchte man das Ganze möglichst gleichmäßig haben. Und da gibt es ganz viele Einflussfaktoren wie, welche Temperatur hat denn das Wasser, das man benutzt. Also man nimmt in der Regel nicht kochendes Wasser, sondern wenn man mit der Hand aufbrüht, wartet man ein bisschen, bis es wieder abgekühlt ist, damit es eben nicht zu bitter wird. Der Wasserdruck ist ein Faktor. Es gibt ja auch Espressomaschinen, wo man all die Sachen einzeln einstellen kann. Sowas habe ich jetzt nicht. Aber das gibt es, also Temperatur, Wasserdruck und die Geschwindigkeit, mit der das rausgedrückt wird. Und die wird vor allen Dingen dadurch dann beeinflusst, wie fein man den Kaffee mahlt.
Janine: Also ich würde auf jeden Fall mal bei den 1,8 Systemen zur Kaffeezubereitung drauf tippen, dass das 0,8 System meistens so ein Espresso-Teil für den Herd ist oder eben eine...
Helena: French Press.
Janine: French Press, genau. Die vielleicht sogar noch nicht mal mehr richtig vollständig ist.
Helena: Möglich.
Janine: Gut, das war ein Exkurs zur Kaffeezubereitung.
Helena: Ja, aber ich fand es durchaus interessant irgendwie, dass so in den 60ern nur irgendwie 4% der Haushalte eben die Kaffeemaschine hatten, während es heutzutage 80% sind.
Janine: Ja, und das ist auf jeden Fall ein Anstieg.
Helena: Das ist ein ziemlich deutlicher Anstieg, ja. Und das ist eben, dass viele dann doch mehr als eine haben. Das fand ich interessant. Ja, was ich dann noch gefunden habe, ist, dass es nicht nur den Kaffeeverband gibt, der einen Report veröffentlicht, sondern seit 2012 macht es auch Tchibo, also einer der größten deutschen Hersteller oder Händler von Kaffee. Die machen das zusammen mit Kooperationspartnern wie Statista und Brand1, was ja auch ein Magazin ist von einer der großen Tageszeitungen. Ja, und das fand ich dann ganz interessant. Da habe ich dann immerhin auch mal ein paar Zahlen gefunden.
Janine: Yay.
Helena: Und zwar wurden in Deutschland 2011, also vor über zehn Jahren, 2,6 Tassen pro Kopf im Durchschnitt getrunken. Und da gab es dann auch Zahlen für Schweiz und Österreich. In der Schweiz waren es 2,7 Tassen und 2,9 in Österreich.
Janine: Also es wird mehr weiter südlich.
Helena: Ja, so sieht das zumindest aus. Auch wenn der Unterschied ja marginal ist, würde ich sagen. Ja, aber da gab es durchaus dann auch Zahlen für 1990. Und wenn man die dann... Also das wurde dann nicht in Tassen angegeben, sondern in Kilogramm. Und dann habe ich das eben runtergerechnet auf die Bevölkerung 1990 und 2010 im Vergleich, um dann festzustellen, dass es 2,1 Tassen waren 1990.
Janine: Das heißt, es ist gestiegen in den 20 Jahren, so ein bisschen zumindest.
Helena: Genau. Und dann hatte ich noch ein anderes Suchergebnis, obwohl ich nicht hundertprozentig weiß, wie ich dieser Zahl trauen kann. Aber die Behauptung der Bing-Suchmaschine war, dass der Pro-Kopf-Konsum in den 70ern bei 1,5 Tassen gelegen hätte.
Janine: Mhm.
Helena: Das ist so stark eingestiegen.
Janine: Ja. Na gut, so wenn man ruminterpretieren möchte, kann das natürlich ganz gut erklärbar sein. Vermutlich mit den üblichen Sachen, die in Deutschland oft für Erklärungen, was Konsumverhalten angeht, herhalten können. Dass zu einer gewissen Zeit, nach der Nachkriegszeit, wo länger nicht so viel Lebensmittel zur Verfügung standen oder zumindest nicht so umfangreich und nicht sehr spezialisierte, dann wahrscheinlich irgendwann das einfach angestiegen ist. Und je weiter man sich von dieser Epoche entfernt, umso mehr konnte auch wieder global gehandelt und eingekauft und sich geleistet werden.
Helena: Ja. Was ich in dieser Hinsicht auch noch interessant fand, war, dass ich eine Studie aus den 80ern gefunden habe, die sich um finnische Jugendliche gekümmert hat. Keine Ahnung, warum die sich ausgerechnet Jugendliche angeguckt haben, die Kaffee getrunken haben.
Janine: Da könnte ich auch einen educated guess zu geben.
Helena: Ja, was denn?
Janine: Dass Kaffeekonsum tatsächlich schon seit dem 18. Jahrhundert, zumindest hat mir das vorhin der Wikipedia-Artikel, den ich kurz quer gelesen habe, gesagt, auch häufiger in der Kritik stand. Es gab sogar immer wieder auch Länder oder Städte, die Kaffeekonsum verboten haben. Also vielleicht hat man sich Sorgen um die finnischen Jugendlichen gemacht bei deren Kaffeekonsum und deswegen explizit hingeschaut.
Helena: Ja, das passt, glaube ich, auch ganz gut zu dem, was da in Informationen bei rausgefallen sind. Und zwar haben die gesagt, dass 1977 der Kaffeekonsum höher war als 1985. Also das war so der Zeitraum, den die sich angeguckt haben. Und das lag dann irgendwie so bei 2,3 bis 3,1 Tassen pro Tag. Und gleichzeitig hatten irgendwie 70 Prozent der Jugendlichen Kaffee konsumiert. Und das ist dann auf 50 Prozent gesunken in 85. Und ja, es ist in dem Zeitpunkt runtergegangen, was ja erstmal den anderen Zahlen für Deutschland, die wir uns angeguckt haben, widersprochen hat.
Janine: Ja.
Helena: Was dann noch interessant war, was vielleicht zu dem Grund, warum sich das angeguckt haben noch passt, war die Feststellung, dass bei den Schüler*innen, die besonders viel Kaffee getrunken haben, die im Schnitt schlechteren Noten hatten.
Janine: Okay.
Helena: Und gleichzeitig auch mehr ungesunde Dinge wie Rauchen gemacht haben. Also die Studie geht halt davon aus, dass Kaffee einen schlechten Ruf hätte, weil es angeblich ungesund wäre.
Janine: Ah ja.
Helena: Also das war deren These, dass dieser Ruf dazu geführt hat, dass der Kaffeekonsum geringer wurde. Was ich interessant finde in der Hinsicht ist, wenn man das mit heute vergleicht, weil das wollte ich natürlich auch erstmal wissen. Finnland ist das Land mit dem größten Kaffeekonsum pro Kopf weltweit. Und zwar sind es heutzutage vier Tassen im Schnitt. Und pro Person werden 12 Kilogramm Kaffee konsumiert.
Janine: Das klingt sehr krass.
Helena: Das einzige Land, was von dem Kilogrammkonsum, wenn ich jetzt über die letzten zehn Jahre geguckt habe, ab und zu mal da drüber gelegen hätte, wäre Luxemburg gewesen, wo dann immer aber beistand, dass man den Zahlen so nicht trauen kann, weil Luxemburg klein ist und wahrscheinlich viele Leute aus den Nachbarländern einfach Kaffee da gekauft haben.
Janine: Ah ja.
Helena: Was dann natürlich die Statistik etwas verschlechtert. Es ist jetzt allerdings immer noch in den Top Ten, wenn man das irgendwie mit berücksichtigt. Und insgesamt, wenn man jetzt bei dem Pro-Kopf-Konsum bleibt, dann ist in Skandinavien bzw. Nordeuropa der Konsum halt am höchsten und in Kanada. Also ich frage mich, ob das damit irgendwie zusammenhängt, also dass das auch eher reiche Länder sind oder ob es auch daran liegt, dass das eher dunkle Länder sind, gerade im Winter. Und ansonsten sind in den Top Ten halt dann auch noch so Länder, wie Niederlande, Luxemburg und die Schweiz, dass es eher reichere Länder sind, sprechen würde.
Janine: Ich kann mir auch vorstellen, dass es vielleicht an der gesellschaftlichen und grundsätzlich der Infrastruktur von Wohngebieten liegt. Also wenn es jetzt Länder sind, die eher verteiltere Siedlungsgebiete haben und nicht so viele große Ballungszentren und viele Menschen eben auch eher, ich sag mal, ländlich leben, dann kann ich mir schon vorstellen, dass das so ein bisschen ist wie früher auf dem Dorf, wo das tägliche Kaffeetrinken mit Familie und oder Nachbarn schon irgendwie zum Alltag gehört hat auf jeden Fall.
Helena: Ja, das hatte ich in dem einen Kaffeereport von Tchibo durchaus auch gefunden als Aspekt, dass Leute gerne so am Kaffeetrinken mögen, ja, dass Überraschungsbesuche dazu führen, dass man gerne Kaffee trinkt. Und dass das ja so schön ist. So als einer der Gründe, warum trinken Leute Kaffee, das war da so einer der Punkte, die ich gesehen hatte.
Janine: Ja, also es ist ein fester sozialer Rahmen, der da geboten wird. Und das Kaffeetrinken an sich.
Helena: Ja, ich meine, man nennt es halt Kaffeetrinken, aber ich kenne auch genug Leute, die tatsächlich dann gar keinen Kaffee trinken, sondern halt Tee oder was auch immer.
Janine: Ja.
Helena: Sondern es ist einfach das soziale Event, dass man sich nachmittags trifft für eine Stunde oder so, ist halt Kaffeetrinken.
Janine: Ja, absolut.
Helena: Gut, Deutschland ist ja nicht in der Liste der Länder, die in den Top 10 des Pro-Kopf-Konsums bei Kaffee wären. Aber wenn man sich auf den Gesamtverbrauch bezieht, dann führen die USA und Deutschland die Liste an. Das heißt, mengenmäßig wird in den USA am meisten Kaffee konsumiert und Deutschland liegt auf Platz zwei. Und da wäre auch meine Vermutung, dass es eben Länder sind, in denen Kaffeekonsum halt relativ normal ist und dass eben unter diesen Ländern halt auch die wirtschaftlich stärksten sind.
Janine: Ja.
Helena: Also jetzt zum Beispiel in Japan oder China wird halt auch viel mehr Tee getrunken und viel weniger Kaffee. Und Länder wie Frankreich, die auch sehr weit oben in dieser Liste sind, haben einfach nicht so viele Einwohner wie Deutschland zum Beispiel. Was dann natürlich auch heißt, dass hier halt mehr Kaffee konsumiert wird, als in den Ländern, in denen es produziert wird, weil die tendentiell nämlich noch mehr Einwohner haben. Bei den produzierenden Länder sind ja Brasilien und Vietnam die größten. Und was heißt das denn auf den Kaffeekonsum in Deutschland heutzutage? Also jetzt gerade ist wohl Kaffee das beliebteste Getränk noch vor Wasser. Was ich irgendwie seltsam finde, weil ich finde, Wasser ist mir persönlich wichtiger als Kaffee.
Janine: Oh ja.
Helena: Ja, und Kaffeetrinkende würden jetzt gerade auch vier Tassen pro Tag trinken im Schnitt. Was 3,2 Tassen entsprechen würde, wenn man sich anguckt, dass es auch nur 80 Prozent der Bevölkerung überhaupt Kaffee trinken, laut den Umfragen. Aber ich finde es irgendwie schwierig, wenn jetzt von irgendwie Tassen die Rede ist, die Zahlen miteinander zu vergleichen. Weil hier stand jetzt für heute vier Tassen pro Tag bei Kaffeetrinkenden. Während eben bei 2011, als ich da irgendwie bei 2,6 Tassen pro Kopf war, nicht diese Info hatte, sodass ich davon ausgehe, dass es auf die Gesamtbevölkerung gerechnet ist.
Was bedeutet 'eine Tasse'? (00:25:28)
Janine: Wo du sagst, schwer zu vergleichen. Ist es überhaupt irgendwie zu vergleichen, also du hast ja vorhin auch schon hin und her gerechnet zwischen Kilogramm oder Liter und Tassen. Wie können diese ganzen verschiedenen Zahlen überhaupt verglichen werden? Was bedeutet denn eine Tasse?
Helena: Ja, also ich finde, Liter ist die schlechteste Einheit hier, weil, naja, also eine Tasse Espresso versus eine Tasse Filterkaffee hat ja einen völlig anderen Gehalt an Flüssigkeit. Aber trotzdem kann der Koffeingehalt in dieser Tasse ja der gleiche sein.
Janine: Ja.
Helena: Eigentlich fände ich es ganz gut, wenn man in Kilogramm rechnen würde, weil das ist dann immerhin vergleichbar. Und ich habe auch nur in einer einzigen Quelle in einem der Berichte von Tchibo eine Info gefunden, was denn eine Tasse wäre. Und bei denen ist eine Tasse die Menge Kaffee, die man aus sieben Gramm Kaffeepulver gebrüht hat.
Janine: Das heißt, auch da ist es eigentlich egal, wie viel Flüssigkeit letztendlich drin ist, ob ich das auf eine Espressotasse gieße oder auf einen großen Kaffeebecher oder so?
Helena: Genau.
Janine: Ahja.
Helena: Gut, die haben auch gesagt, sie rechnen mit zwei Gramm Pulver bei Instantkaffee, weil da eben ein anderes Verhältnis zu, wie das dann hinterher gelöst ist, an Koffein existiert, um ein ähnlich starkes Getränk zu machen. Und die haben auch zwei Gramm losen Tee gerechnet. Aber ich finde das ganz interessant, weil wir wissen ja nicht, ob die anderen die gleichen Zahlen genommen haben, aber sieben Gramm gilt so als die klassische Menge Kaffeepulver, in einem klassischen italienischen Espresso.
Janine: Mhm.
Helena: Deswegen halte ich es für denkbar, dass auch andere, die von Tassen reden, das so gerechnet haben könnten. Aber gleichzeitig ist es ja so, wenn man Menschen befragt, wie viel Kaffee sie trinken würden und nach Tassen, wie viele Tassen Kaffee man fragt, kann man sich ja nicht darauf verlassen, dass die Menschen, die man befragt, das auch genauso rechnen und so. Und wer weiß schon, wie viel Kaffee man nimmt.
Janine: Ja.
Helena: Also ich wiege das zufälligerweise aus und ich trinke zwei Tassen am Tag, aber nach dieser Definition trinke ich eher vier Tassen am Tag.
Janine: Und es ist ja auch eh, Tassen sind ja nicht alle gleich groß. Es ist ja nicht so, dass die Tasse ein genormtes Objekt wäre.
Helena: Ja. Aber was auch, es gibt ja auch so Kaffeelöffel und die haben meistens ein Fassungsvolumen von acht Gramm.
Janine: Ah.
Helena: Das heißt, wenn man überhaupt nicht in Gramm rechnet, sondern diese Löffel hat, dann kann man trotzdem immer ungefähr gleich viel trinken und dann wäre halt es nicht sieben Gramm pro Tasse, sondern vielleicht acht. Oder ein Vielfaches davon, je nachdem, wie voll man die macht.
Janine: Ja.
Helena: Ja. Aber was ist denn eine Tasse? Das ist... Keine Ahnung. Ich weiß nicht, seit wann man mit sieben Gramm rechnet und ob alle mit sieben Gramm rechnen.
Janine: Ja, es macht halt ähnlich wie in der Temperaturdatenfolge den historischen Vergleich auch einfach schwierig, ne?
Helena: Ja. Also ich weiß, dass halt als ich aufgewachsen bin, wenn es dann irgendwie Kaffeetassen gab, dann waren die halt viel kleiner als die Tassen, die ich heutzutage nehme. Da würde wahrscheinlich dann... Das wäre dann wahrscheinlich eher näher dran, dann dieser sieben Gramm pro Tasse.
Janine: Okay. Hast du sonst noch etwas zu Kaffeekonsumverhalten zu sagen?
Helena: Glaube nicht. Also ich meine, es gibt natürlich noch unheimlich viele Kleinigkeiten.
Janine: Ja.
Helena: Aber so das Wesentliche, was mich interessiert hat, ja, war nicht so leicht herauszufinden, aber es ist auf jeden Fall... Der Kaffeekonsum ist stark gestiegen in den letzten Jahrzehnten.
Janine: Ist er auch in den letzten Jahren nochmal gestiegen? Hint. Hint.
Helena: Es ist auch in den letzten Jahren nochmal gestiegen. Ich habe durchaus auch die Info bekommen oder gefunden, dass es nach der Pandemie mehr Kaffee getrunken wird als vor der Pandemie.
Janine: Hm. Wäre auch mal interessant, warum und wie und so. Ich glaube, wir sind alle müder geworden.
Helena: Alle müder.
Janine: Nein, wahrscheinlich nicht. Ja gut.
Was passiert mit dem Kaffee, wenn die Erde zu heiß wird? (00:29:43)
Janine: Dann würde ich sagen, schließen wir das Thema Kaffeekonsum der Gegenwart ab und gucken mal auf das Thema, wie sich vielleicht der Kaffeekonsum der Zukunft darstellen könnte, bedingt durch globale Veränderungen in unserem Klimasystem. Also ja, ich habe mir die Frage gestellt, was passiert eigentlich mit dem Kaffee, wenn die Erde wärmer wird, schrägstrich zu heiß. Es gab ja, falls ihr die Nachrichten verfolgt habt oder hier und da Zeitungen und Online-Medien konsumiert, habt ihr es vielleicht mitbekommen, dass Ende Dezember die Nachricht die Runde gemacht hat, dass 2023 ein Jahr war, das den Titel wärmstes Jahr seit Beginn der Wetteraufzeichnungen ausgehändigt bekommen hat. Und sogar darüber hinaus gibt es einige Nachrichten, in denen zu lesen war, dass es das wärmste Jahr seit 125.000 Jahren gewesen sei. Und mit wärmstes Jahr ist hier die globale Jahresdurchschnittstemperatur gemeint. Das trifft zum einen für Deutschland selbst zu, aber eben auch global gesehen trifft das so zu. Und auf den Klimaseiten vom Erdbeobachtungsprogramm Copernicus, das von der EU ins Leben gerufen wurde, kann man sich die Zahlen auch sehr gut ansehen und sie sind deutlich, zeichnen sich deutlich in den Grafiken ab, dass 2023 eben viel wärmer war. Jetzt wissen wir natürlich, dass so eine globale Erderwärmung sich eben auf alles auswirkt, was auf diesem Planeten passiert. Deswegen kann man sich natürlich auch die Frage stellen, inwiefern spielt das für Kaffee eine Rolle. Und ja, das betrifft dann natürlich nicht nur Menschen, die gerne Kaffee trinken, was hier in Europa in den Schlagzeilen am meisten das dominierende Thema ist, sondern in erster Linie betrifft das auch Menschen, die im Kaffeeanbau tätig sind. Es betrifft ja sogar die ganze Wirtschaft, die damit zusammenhängt, auch wenn mir die persönlich ein bisschen egaler ist als der Rest davon. Und ja, das betrifft auf jeden Fall sehr viele Menschen. Und wir haben ja gerade schon gehört, der Kaffeekonsum an sich ist steigend.
Helena: Ja, nicht nur hier, sondern weltweit.
Janine: Genau, weltweit. Das heißt, das ist durchaus ein Thema, was viele Menschen auch im Alltag beschäftigen könnte, wenn es denn bedeuten würde, dass durch den Klimawandel der Kaffeeanbau bedroht ist. Ich habe viele verschiedene Quellen gefunden. Mir ging es ähnlich wie Helena bei der Recherche, dass man erstmal mit sehr vielen Artikeln dazu, mit Meinungen und Aufreißern, die sehr dramatisch klingen im ersten Moment, ja, dass die die Suche ein bisschen fluten. Und ich habe mich dann dazu entschieden, mich nur auf einen Artikel zu konzentrieren, beziehungsweise eine Studie, die in dem Artikel genannt wurde. Das war ein Artikel des National Geographic, der über eine Studie berichtet, die zum Ergebnis kam, dass Kaffee künftig recht knapp werden könnte. Die ist veröffentlicht worden Ende Januar 2022, also zwei Jahre alt jetzt. Und ja, ich habe mir die Kernaussagen der Studie mal angesehen. Nebenbei ging es nicht nur um Kaffee, sondern auch um den Anbau von Cashew und Avocado. Das klammere ich hier mal aus. Warum Kaffee auch an sich besonders interessant ist in dieser Konstellation ist, dass die Kaffeepflanze selbst die empfindlichste Pflanze ist in dieser Zusammenstellung. Und ja, deswegen auch am ehesten wahrscheinlich unter den Auswirkungen zu leiden haben wird. Ähm, aktuell, ist es so, dass klimatische gute Bedingungen für Kaffeeanbau in Mittel- und Südamerika, Zentral- und Westafrika, sowie in Teilen von Süd- und Südostasiens herrschen. Also die sind aktuell am besten für den Kaffeeanbau geeignet. Und es gibt bestimmte Klimafaktoren, die eben Kaffeeanbau beeinträchtigen können. Das wären zu lange Trockenzeiten, hohe Jahresmitteltemperaturen und zu niedrige mittlere Mindesttemperaturen des kältesten Monats.
Helena: Ja, die wollen es nicht zu kalt haben, aber auch nicht zu warm, aber gleichzeitig auch möglichst sonnig.
Janine: Genau.
Helena: Wo es nicht so viele Orte gibt, wo das alles zutrifft und meistens sind die auch eher in Gebirgen, wo es halt kälter ist als, ja, niedriger. Aber es darf halt nicht zu kalt sein.
Janine: Ja. Ich guck grad nochmal kurz, ob ich nebenbei nochmal herausfinde, wer diese Untersuchung gemacht hat. Tatsächlich nicht? Dann, ähm, gut. Genau. Also Kaffee ist sehr empfindlich und braucht wirklich eine bestimmte Bandbreite an Temperaturen und nichts darüber und nichts darunter. Außerdem haben die Forschenden in dieser Studie noch weitere Faktoren benannt, die für einen Kaffeeanbau wichtig sind. Das ist ein niedriger pH-Wert des Bodens und die Bodentextur muss halt für die Pflanze einfach passen. Und es dürfen keine steilen Hänge sein. Eine wichtige Feststellung, die sie dabei getroffen haben, ist, dass aufgrund dieser weiträumigen Verteilung, also man könnte von einem Kaffeegürtel um die Erde sprechen...
Helena: Mhm.
Janine: ... ähm, ist es auch so, dass überall in jedem Anbaugebiet ganz unterschiedliche klimatische Anforderungen herrschen können. Beziehungsweise der Klimawandel sich auch ganz unterschiedlich auf diese Gebiete auswirken kann und wird. Also in Zentral- und Südvietnam ist es halt teilweise schon schwierig, weil zu hohe Jahrestemperaturen da so ein bisschen die Eignung einschränken. Also im Süden liegt der Kaffee zu hoch, in den nördlichen Bergen zu niedrig und die Mindesttemperaturen passen nicht so ganz. Und ja, das ist da ein bisschen ein begrenzender Faktor. Und unter diesen Aspekten haben sie sich halt die unterschiedlichen Anbauregionen alle angeguckt. Und es wurde über die künftige Kaffee-Eignung der Region quasi ein Urteil gefällt unter Berücksichtigung verschiedener Klimamodelle bis zum Jahr 2050.
Helena: Das ist nicht so lange hin.
Janine: Genau. Also man muss auch dazu sagen, es werden hier angelegt die Klimawandelszenarien, wie sie auch seit dem fünften Sachstandsbericht des IPCC benutzt werden. Das sind die RCP-Szenarien, representative concentration pathways, also repräsentative Konzentrationspfade. Und zwar beschreiben die, also jedes Modell nimmt einen bestimmten Anstieg von Treibhausemissionen an und wie die sich auf das Klimasystem der Erde auswirken mit Blick auf bestimmte Jahre und je näher diese Jahre dran sind, desto genauer ist dieses Modell und später wird mit weniger genauen Zahlen natürlich gearbeitet. Deswegen sind... ist der Blick in die nähere Zukunft meist sehr viel genauer anhand dieser Modelle als noch weiter weg. Wahrscheinlich auch ein Grund dafür, dass sie es auf 2050 quasi gesetzt haben.
Helena: Ja. Du fragtest ja gerade oder meintest, ob du kurz herausfinden kannst, wo die Studie herkommt. Die kommt von der Uni Zürich.
Janine: Ah ja, die Uni Zürich war es. Sehr gut. Die Klimawandelszenarien, die sie hier benutzt haben, sind RCP 2.6, 4.5 und 8.5. Die sind halt sozusagen verschieden intensiv. Also bei 2.6 werden die wenigsten Treibhausgasemissionen angenommen. Also ist es das mit der am wenigsten ansteigenden Jahresmitteltemperatur und je höher die Zahl geht, desto höher ist halt auch die Auswirkung auf den Klimawandel, ergo auch die Auswirkung auf die Pflanzen.
Helena: Und 8.5 war doch das, was das Szenario, wenn wir nichts machen.
Janine: Genau. Aus diesen Modellen wird dann halt die Temperaturveränderung abgeleitet, aber auch der Niederschlag und dann wurden die Regionen betrachtet und zwar wurden die Anbauregionen durch die Forschenden eingeteilt in Eignungsstufen 1 bis 3 und 1 ist die am besten geeignete. Das heißt, sie haben nicht einfach alle Anbauregionen gleich behandelt, sondern geguckt, welche sind eigentlich gerade klimatisch und so weiter am besten geeignet und wie wirkt sich dort der Klimawandel aus. So haben sie das ein bisschen aufgeteilt, damit sie sehen können, ja, wie geeignet halt einfach die Anbaufläche bleiben wird, sich entwickeln wird. Und um ein Ergebnis vorweg zu nehmen gleich, die Anbauflächen, die in der höchsten Eignungsstufe sind, werden in allen drei Klimawandelszenarien, also auch im mildesten, um mehr als 50 Prozent abnehmen.
Helena: Ja, das ist ja schon relativ viel. Da gibt es dann sehr viele Kaffeebauern, die wohl dann nicht mehr so gut Kaffee anbauen können.
Janine: Genau das. Also, was ich jetzt aus der Zusammenfassung und den Ausführungen da nicht ersehen konnte, ist, ob sich das auf die Qualität und die Menge der Ernte bezieht oder ob grundsätzlich dann ein ganzer Wegfall der Fläche angenommen wird. Oder ob durch die Herabstufung auf eine niedrigere Eignungsstufe das dann sozusagen aufgefangen wird. Aber selbst quasi im besten Fall verlieren wir Anbauflächen der Eignungsstufe 1 von mehr als 50 Prozent bis 2050, laut dieser Berechnung. Unter der schlechtesten Annahme kann das übrigens bis zu 97 Prozent der Stufe 1 Flächen betreffen.
Helena: Ohje.
Janine: Ja, und auch die Eignungsstufen 2 und 3 werden abnehmen. Also, da wird sich die Fläche verringern. Denn, ja, in den meisten Regionen wird es sich einfach grundsätzlich verschlechtern. Es gibt einige wenige Regionen, die allerdings auch davon profitieren werden, weil zum Beispiel die Mindesttemperaturen des kältesten Monats anheben werden, laut der Modelle. Also, da wird dann quasi die Grenze nach unten, wie kalt erträgt der Kaffee es, wird dann angehoben und dadurch steigt die Eignung in diesen Regionen.
Helena: Aber das ist nur ein kleiner Teil im Vergleich zu denen, wo es schlechter wird.
Janine: Also, ich würde auch mal davon ausgehen, dass sie das dann in die Stufe 3 auch mit eingerechnet haben und es da mit drin stecken dürfte in den Zahlen, die es dann dazu gibt. Aber das ist jetzt eine Annahme. Ja, was die Forschenden aber auch gemacht haben, ist, sich mehrere andere Studien angeguckt zu haben, die sich mit Kaffee und dessen Anbaugebieten befasst haben. Und da wird auch meistens tatsächlich das bestätigt, was sie in ihrer eigenen Untersuchung herausgefunden haben, nämlich, dass die Auswirkungen des Klimawandels sich auf globaler und nationaler Ebene sehr unterscheiden können. Aber eben eine konkrete Auswirkung auf den Kaffeeanbau haben werden.
Helena: Ja, ich meine, etwas, was jetzt in der Studie ja nicht drinsteckt, ist, wie ist jetzt der eigentliche Anteil der möglichen Flächen? Wie viel wird schon genutzt davon? Weil es kann ja durchaus kompensiert werden, jetzt so auf die Gesamtproduktion gesehen, wenn man jetzt die Flächen, die dann noch verbleiben, effizienter nutzt. Das betrifft dann, natürlich vor allem die lokalen Bauern, die dann teilweise komplett aus dem Markt raus müssen, weil sie keinen mehr anbauen können.
Janine: Genau.
Helena: Aber an anderen Stellen, wo es sich nur ein bisschen verschlechtert, könnte man trotzdem die Plantagen größer machen, zum Beispiel.
Janine: Genau, das steckt auch gar nicht so drin. Was sie auch herausgefunden haben, was zum Beispiel in den vorhergehenden Studien nicht mit drin war, die haben sich auch hauptsächlich mit dem Einflussfaktor Temperaturveränderung beschäftigt. Aber in dieser Studie haben die Forschenden dann eben einen zweiten Aspekt mit hinzugezogen, nämlich auch Land und Boden mit berücksichtigt, wie dort überhaupt Kaffee angebaut werden kann und das wahrscheinlich in ihre Eignungsstufen dann einfließen lassen. Das ist ein bisschen ein differenzierterer Ansatz als in den vorhergehenden Studien, aber die Ergebnisse scheinen ja trotzdem relativ ähnlich zu sein. Sie haben geschrieben, ich zitiere mal einen Satz, warum das nämlich mit dem Boden wichtig ist.
Dies ist wichtig für Modellierungsstudien, um neue Kaffeeplantagen nur in Gebieten zu planen, in denen der Kaffee lokal angepasst ist und ein Minimum an zusätzlichen Inputs erfordert und in denen es keine größeren Umweltkonflikte gibt.
Helena: Ja, ich meine, es ist ja schon sinnvoll, da neue Plantagen hinzumachen, wo es halt auch der Kaffee eh am besten wächst. Das ist ja gut, wenn man die Info hat.
Janine: Genau. Und entsprechend haben sie tatsächlich auch sehr sinnige Schlussfolgerungen gezogen. Also die meisten Artikel, die ich zu diesem Thema gefunden habe und so ja auch der Artikel, des National Geographic heben halt darauf ab. Es wird sich der Kaffeeanbau grundsätzlich verringern. Wir werden bis 2050 eine Verknappung des Kaffees erleben und dadurch wahrscheinlich steigende Preise und Kaffee könnte durchaus wieder zu einem erheblichen Luxusgut werden, auch für an Kaffee gewöhnte Menschen in Europa. So irgendwie der Tonus der Artikel finde ich manchmal, aber die Forschenden gehen in ihren Schlussfolgerungen da ein bisschen differenzierter vor. Sie sagen eben, dass die künftigen Modellierungsversuche diese Klima- und Bodenparameter kombinieren müssen, um halt auch die Bedeutung des Anbaugebiets vom Boden her zu erhöhen und das insbesondere eben auf regionaler oder lokaler Ebene, weil ja so global betrachtet ist einfach ein zu großer Filter. Genau und die Anpassungen an den Klimawandel, die ja durchaus vorgenommen werden können in den meisten wichtigen Anbauregionen, die müssen halt aber eben gut geplant werden und sie machen Vorschläge für Anpassungsmaßnahmen. Also halt standortspezifische Bewirtschaftungsoptionen müssen angeguckt werden, Züchtungsbemühungen für Sorten, die besser an höhere Temperaturen oder Trockenheit angepasst sind, dass vielleicht auch die Sorte gewechselt wird, dass nämlich nicht halt in Anbaugebieten, in denen aktuell noch Arabica-Kaffee angebaut wird, dort dann später Robusta eher angebaut wird, weil wie der Name auch schon sagt, hier ist es ein bisschen robuster.
Helena: Ja, im Prinzip wäre es ja auch denkbar, dass man auch ganz andere Kaffeesorten, die heutzutage gar nicht in dem normalen Verbrauch mit drin sind, auch mal ja besser erschlossen werden. Vielleicht sind einige davon ja noch robuster und lassen sich einzüchten. Ich meine, heutzutage hat Robusta halt einen etwas schlechteren Ruf, warum auch immer. Eigentlich ist das sogar der Kaffee mit dem höheren Koffeingehalt. Das heißt, wenn es einem auch ums Wachmachen gehen würde, würde es ja Sinn machen, mehr davon zu trinken.
Janine: Ja.
Helena: Und die Geschmacksvielfalt soll beim Arabica wohl größer sein, aber letztlich ist, wie man das röstet, viel entscheidender als die Frage, welche Kaffeesorte das ist. Also es sind beides relevante Aspekte, aber im Grunde spricht nichts dagegen, wieder mehr Robusta-Kaffee zu trinken, außer dass es nicht so leicht ist, heutzutage welche zu kriegen. Also meistens sind das dann die dunklen Röstungen, die halt auch ein bisschen stärker sind, aber jetzt irgendwie andere, die stärker auf Robusta gehen, habe ich jetzt auch noch nicht unbedingt gefunden. Also da ist durchaus Potenzial beim Sortenwechseln, dass man da vielleicht auch nochmal andere Geschmacksrichtungen erschließt.
Janine: Ja, absolut. Und was Sie eben auch sagen, ist, neue Produktionsstandorte in höheren Lagen und anderen Breitengraden könnten erschlossen werden. Das wären dann wahrscheinlich die Regionen, die sich aktuell noch nicht klimatisch für den Anbau eignen, durch die Veränderung dann aber schon, und das könnte eben auch neue Marktchancen eröffnen. Aber, und das finde ich sehr gut, Sie geben auch gleich noch den Hinweis mit, das Erschließen neuer Produktionsstandorte sollte auch sinnvoll stattfinden, und mit, also sinnvoll ist jetzt meine Bewertung, Sie sagen, es müssen mit politischen Maßnahmen sichergestellt werden, dass die Verlagerung der Produktionsstandorte nicht zu negativen Umweltauswirkungen führen könnte. Also Beispiele, die Sie dann nennen, ist halt eben Abholzung von bestehenden Wäldern, um eben Plantagen errichten zu können, und dadurch eben einen Verlust der biologischen Vielfalt zu riskieren, und die Ökosystemleistungen auch runterzuschrauben, was ja wiederum auch dem Klimawandel in die Hände spielen würde. Und ich denke, das haben Sie explizit nicht genannt, aber ich glaube auch, weil Sie das mit den Bodenparametern erwähnt haben, ich denke, es geht hier auch um Sachen wie Dünger und Pestizide, was da ja noch mit reinspielen könnte, in Anbausachen und vielleicht ungeeignete Gegenden. Also ja, ich finde so insgesamt ist es schon eine recht dramatische Erkenntnis, die Sie da bieten, weil also nicht jetzt unbedingt, weil es um Kaffee geht, sondern weil dieses eine Beispiel Kaffee einmal zeigt, wie drastisch die Änderungen in den nächsten, gar nicht so weit weg, Jahren sein können. Und dass man dieses Kaffeebeispiel vielleicht einfach mal nehmen kann, um auch für sich selbst festzustellen, auch wenn es nicht unbedingt die ganze Zeit um Überschwemmungen geht und so, es gibt auch andere Bereiche, durch die alle Welt irgendwo betroffen ist und die Auswirkungen sehr schnell spüren kann. Und ja, nicht wegen des Kaffees sollten wir jetzt die Klimakrise abwenden müssen, aber der Kaffee ist ein Beispiel, der zeigt, wie akut die Auswirkungen gerade schon sind, finde ich. Deswegen fand ich das sehr interessant, mich mit dieser Studie mal zu beschäftigen.
Helena: Ja, ich bin gespannt, wie sich das entwickelt und was es für Maßnahmen drumherum gibt. Ich meine, meistens gibt es ja schon irgendwelche Optionen, um auszuweichen. Ah, Ersatzkaffeeprodukte...
Janine: Ja.
Helena: ...gibt es ja auch schon immer. Koffein kann man künstlich herstellen, also daran wird es nicht mangeln.
Janine: Aber das ist ja halt auch ein Problem, warum es mit der Klimakrise so weit fortschreiten kann, weil wir für alle Einflussfaktoren, wo wir es vielleicht dran merken, immer Umwege finden.
Helena: Ja, zumindest hier.
Janine: Ich würde sagen, war es jetzt von mir zu dieser Studie. Ich hoffe, ihr fandet es genauso interessant wie ich, weil es eben wirklich ein sehr greifbares Beispiel für Auswirkungen der Klimakrise sind, wie ich finde. Und damit könnten wir zum Fazit kommen.
Fazit (00:49:07)
Helena: Ja, Fazit der Folge. Also, eine Erkenntnis ist, der Kaffeekonsum steigt und zwar nicht nur in Deutschland, sondern weltweit. Und es wird entsprechend auch immer mehr produziert. Also auch die Produktion steigt immer noch. Und jetzt haben wir natürlich gelernt, dass ja, die potenziell nutzbaren Flächen abnehmen werden aufgrund des Klimawandels und das ist dann, ja, wird interessant sein zu beobachten, was für Konzepte es gibt oder ob es überhaupt welche gibt, das aufzufangen oder ob tatsächlich einige Länder komplett aus der Kaffeeproduktion aussteigen müssen.
Janine: Was ich aus Helenas Teil noch mitgenommen habe, es ist gar nicht so leicht, offene Daten zu Kaffee zu finden oder zu Kaffeekonsum, weil es meistens dann direkt entweder medizinische Themen sind, Gesundheitsthemen oder eben auch einfach die Daten in einem wirtschaftlichen Kontext eingeschlossen sind. Also, dass man eben Mitglied in einem Verband sein muss, um an gute Daten zu Kaffeekonsum ranzukommen, auch mal wieder interessant. Und ja, es ist eben ein sehr, sehr großes Thema, Kaffee, das teilweise sehr breit und auch sehr oberflächlich diskutiert wird und es ist auch schwierig, diese einzelnen Studien, die dann vielleicht doch zu finden sind, untereinander zu vergleichen, weil jeder irgendwie anders herangeht, weil was zum Henkel ist eine Tasse? Und ja, für mich auch noch das Fazit, die Studie, die wir uns eben gerade angeguckt haben über Kaffee und Klimawandel, es sieht sehr bedrohlich aus, aber ich finde, man kann sich trotzdem differenziert damit auseinandersetzen, also man muss jetzt nicht dem Horrorszenario folgen. 2050 wird sich kein Mensch mehr Kaffee leisten können, aber wie Helena bin ich da auch gespannt, wie sich die Sachen entwickeln und was so tatsächlich dann die Auswirkungen sind, weil solche Studien sind dann ja auch interessant, noch mal in 20 Jahren anzugucken, wie sich das so verhält mit den Sachen. Also ich hoffe, da gibt's irgendwann mal ein Follow-up zu und ansonsten war's das, glaube ich.
Nächste Folge: Starkregen und Hochwasser im Februar (00:51:14)
Helena: Ja. Und in der nächsten Folge geht's dann um Starkregen und Hochwasser. Ja, es gab in den letzten Jahren einige Starkregen-Ereignisse in Deutschland, zum Beispiel im Ahrtal, aber auch verschiedene Überflutungen, jetzt gerade im Winter, vor allen Dingen, glaube ich, deutschlandweit, dass alles überflutet war und auch wenn da jetzt nicht unbedingt Starkregen jetzt für die Winterflut verantwortlich war, ist doch irgendwie die Wasserverteilung sehr ungewohnt. Es gab aber auch letzten Sommer einige Starkregen-Ereignisse, von denen auch Braunschweig betroffen war, unter anderem. Was dann die Frage eröffnet, wie kann denn der Katastrophenschutz für zu Hause aussehen, also sehr konkret werden. Wir wollen uns dann mal verschiedene Daten angucken, welche Informationen man nutzen kann, um selber das persönliche Risiko einzuschätzen oder zu gucken, was ist denn mit dem Starkregen eigentlich passiert? Und wann muss ich handeln?
Call to Action (00:52:18)
Janine: Ja, und wenn ihr die Folge über Starkregen nicht verpassen möchtet oder auch andere Folgen nicht, dann folgt uns doch gerne auf mastodon unter at datenleben at podcast.social oder besucht unsere Webseite www.datenleben.de. Spätestens dort findet ihr auch unseren RSS-Feed zum Abonnieren, den ihr ganz bequem in den Podcatcher eurer Wahl werfen könnt. Und ihr könnt uns da auch gerne Feedback hinterlassen. Wir freuen uns immer sehr, wenn wir Kommentare zu unseren Folgen bekommen. Und ja, ihr könnt uns natürlich auch, wenn euch unsere Arbeits- und Denkweise gefällt, als Data Scientists buchen für Analysen und Projekte. Kontaktiert uns da gerne und falls ihr Fragen habt oder Themen, die euch interessieren, dann schreibt uns.
Helena: Ja, dann bleiben wir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao!
Janine: Tschüss!
Outro (00:53:08)
53:19
dl045: jahresrückblick 2023
Episode in
datenleben
Willkommen zum traditionellen Jahresrückblick. Wir nehmen uns wieder Zeit, etwas über unser Podcastjahr zu reflektieren. Und dann stellen wir uns natürlich der Frage, welche Data Science Themen dieses Jahr im Fokus standen. Spoiler: wir landen wieder bei der sogenannten KI und verschiedenen Anwendungen. Und wir kommen auf einzelne Themen von vergangenen Folgen nochmal zurück, zu denen wir noch kleine Ergänzungen gefunden haben. Wie zum beispiel zu unserer Folge über Whisper oder zu den Gartenvögeln. Und am Ende fragen wir uns wieder, was uns im neuen Jahr wohl erwarten wird.
Bilder zur Folge
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl034: jahresrückblick 2022
dl043: perspektiven auf data science
dl036: graphentypen 2 – graphentypen 2 - histogramme, boxplots, etc.
dl035: heuschnupfen
dl001: data science
dl021: python lernen!
dl002: coronadaten
dl037: citizen science und die gartenvögel
dl042: die erde, asteroiden und wahrscheinlichkeiten
dl038: data feminism
dl009: jahersrückblick 2020
dl031: können computer malen?
dl040: wie nutzen wir whisper für transkripte?
dl020: drogenkonsum
Links
BBC Reel: How artificial intelligence is helping us talk to animals
heise online, Dr. Wolfgang Stieler: Bessere Wettervorhersage mit Künstlicher Intelligenz?
VICE, Chloe Xiang: A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got an Invoice Instead.
Github, Acly: Generative AI for Krita
ARD, 11KM der tagesschau-Podcast: Deepfake: Bei Anruf Klon
AP, Larry Neumeister:Lawyers blame ChatGPT for tricking them into citing bogus case law
OpenAI, Blog: ChatGPT can now see, hear, and speak
Ars Technica, Benj Edwards: Google will shield AI users from copyright challenges, within limits
The Verge, Jon Porter: ChatGPT continues to be one of the fastest-growing services ever
NASA, Erin Morton: NASA’s OSIRIS-REx Achieves Sample Mass Milestone
tagesschau.de, Uwe Gradwohl: Asteroidenkrümel begeistern NASA-Team
nature mental health, Theresa R. Lii et al.: Randomized trial of ketamine masked by surgical anesthesia in patients with depression
waldrapp.eu: Jungvögel am Flug nach Norddeutschland und Schweden
waldrapp.eu: 32 Waldrapp-Jungvögel in Schweden, Dänemark und Norddeutschland
Schlagworte zur Folge
Jahresrückblick, KI, Neuronale Netze, Maschinelles Lernen, Sprachmodelle, Bildgenerierung, Podcastrückblick, Wissenschaft, Bennu, Citizen Science
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 45. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch mitnehmen in die Welt der Daten. Was ist Data Science? Was bedeuten die Daten für unser Leben? Woher kommen sie und wozu werden sie benutzt? Das sind alles Fragen, mit denen wir uns auseinandersetzen. Wer schon immer mehr über Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.
Thema der Folge (00:00:40)
Janine: Genau, und dieses Mal sage ich willkommen zum traditionellen Jahresrückblick. Inzwischen immerhin schon der vierte, den wir hier machen. Und ich hoffe, er wird genauso gern gehört wie die ersten drei. Ah ja, wir fangen wieder ein bisschen damit an, für uns das Podcastjahr ein bisschen zu reflektieren. Natürlich auch nicht ohne den Schnelldurchlauf noch davor zu setzen mit den letzten Monaten. Das Jahr ist ja noch nicht ganz voll, aber aus organisatorischen Gründen bietet es sich gerade an, jetzt den Jahresrückblick schon zu machen. Und wir haben dann auch wieder einige Themen im Gepäck. Dazu gehören eben ein paar Daten zu unseren Folgen, Ranking, Feedback. Und natürlich dann die Kernfrage, welche Data Science Themen waren dieses Jahr sehr dominant? Ja, Spoiler an dieser Stelle: Wir landen wieder bei der sogenannten KI und verschiedenen Anwendungen von eben dieser, beziehungsweise maschinellem Lernen, neuronalen Netzen und dem ganzen Zeug. Ah ja, und wir kommen auch wieder auf einzelne Themen von Folgen zurück, wo wir noch was gefunden haben, was wir vielleicht gern ergänzen würden, was vielleicht nicht in die Folgen gepasst. Zum Beispiel ist das Thema Whisper hier nochmal zu nennen oder auch die Gartenvögel-Folge und Drogen. Drogen wird es auch geben, so in etwa. Und ja, am Ende fragen wir uns dann natürlich wieder, was uns wohl im neuen Jahr erwarten wird.
Warum ist das Thema interessant? (00:02:15)
Helena: Ja, und wir machen mal wieder den Jahresrückblick, weil wir das halt als Tradition so eingeführt haben. Und das immer eine gute Möglichkeit ist, auch mal meta über den Podcast zu reden und auch eine Möglichkeit ist, mal Ergänzungen zu alten Folgen hinzuzufügen.
Janine: Ja, und jetzt viel Spaß beim Schnelldurchlauf durch Teile von 2023.
Einspieler: Jahresrückblick — 2023 im Schnelldurchlauf (00:02:39)
Janine: Jahresrückblick 2023 im Schnelldurchlauf.
* 01. Januar: Die Grundversorgung mit Hartz IV -- also das Arbeitslosengeld II -- wird vom nicht wesentlich verbesserten neuen Bürgergeld abgelöst.
* 01. Januar: In Kroation wird der Euro ab dem 01. Januar zur offiziellen Währung.
* 08. Januar: In Brasilien demonstrieren Anhänger des früheren Präsidenten Bolsonaro gegen den neu gewählten Präsidenten Lula da Silva. Hunderte stürmen währenddessen für mehrere Stunden randalierend den Nationalkongress, das Oberste Bundesgericht und den Regierungssitz Brasilia. (Nebenbemerkung: Der Sturm auf das Kapitol in Washington D.C. durch Anhänger von Donald Trump ereignete sich fast auf den Tag genau 2 Jahre zuvor, 2021.)
* 11. Januar: Im Rheinischen Braunkohlerevier beginnt die Polizei mit der Räumung des Dorfes Lützerath, das von Klimaaktivst*innen besetzt wurde, um die Förderung der Braunkohle an diesem Ort zu verhindern.
* 01. Februar: Über den USA wird ein großer chinesischer Beobachtungsballon gesichtet, der am 04. Februar von den USA abgeschossen wird, was zu diplomatischen Spannungen zwischen den beiden Staate führte. In den folgenden Tagen wurden weitere unbekannte Flugobjekte abgeschossen, die sich offenbar als Forschungsprojekte privater Unternehmen herausstellten.
* 03. Februar: Im Bundesstaat Ohio, USA, entgleist beim Ort East Palestine ein sehr langer Zug beladen mit Chemikalien. Menschen mussten evakuiert werden und die Chemikalien wurden kontrolliert abgebrannt.
* 06. Februar: Zwei Erdbeben mit den Magnituden 7,8 und 7,5 treffen den Südosten der Türkei und den Norden Syriens. Es werden mehr als 54.300 Tote geborgen und über 110.000 Verletzte registriert.
* 21. Februar: Der russische Präsident Wladimir Putin verkündet, dass Russland die Teilnahme am derzeit gültigen New START Vertrag aussetzt. Dieser Vertrag ist ein Abrüstungsabkommen zwischen den USA und Russland zur gemeinsamen Reduzierung strategischer Trägersysteme für Nuklearwaffen.
* 02. März: In der Cheops-Pyramide wird eine unbekannte leere Kammer entdeckt. Bis dahin war die Kammer aufgrund von langen Untersuchungsreihen nur eine Vermutung, die sich schließlich mit dem Fund bestätigt haben.
* 05. März: Die Vereinten Nationen einigen sich auf ein Abkommen zum Schutz der Hohen See, die jenseits staatlicher Hoheitsgewalt liegt. Bis zum Jahr 2023 sollen 30% des Gebietes unter Schutz gestellt werden.
* 17. März: In Den Haag wird vom internationalen Strafgerichtshof ein Haftbefehl gegen den russischen Präsidenten Wladimir Putin erlassen.
* 12. April: In Berlin stellen die Bundesminister Lauterbach und Özdemir Eckpunkte zur Legalisierung von Cannabis in Deutschland vor.
* 15. April: Berlin/Deutschland: Die letzten drei deutschen Kernkraftwerke werden abgeschaltet.
* 16. April: Nur einen Tag später geht im finnischen Kernkraftwerks Olkiluoto der leistungsstärkste Atomreaktor in Europa in Betrieb.
* 05. Mai: Nach 3 Jahren und 96 Tagen wird die "gesundheitliche Notlage internationaler Tragweite" beüglich der COVID-19-Pandemie von der Weltgesundheitsorganisation aufgehoben.
* 06. Mai: Die Krönung von König Charles III. und Königin Camilla wird in der Westminster Abbey vollzogen.
* 24. Mai: Die Generalstaatsanwaltschaft München leitet gegen sieben Mitglieder des Klimabündnisses Letzte Generation Ermittlungen ein. Es bestehe der Verdacht auf Bildung einer kriminellen Vereinigung.
* 06. Juni: In der Ukraine wird im Kontext des Krieges der Kachowka-Staudamm vermutlich durch eine Sprengung zerstört. Das zog gravierende Überschwemmungen nach sich.
* 12. Juni: Das Großmanöver [Air Defender 23] beginnt. Mitgliedsstaaten der NATO und weitere Staaten haben eine der größten Luftoperationsübrungen durchgeführt, die schwerpunktmäßig im Luftraum der Bundesrepublik Deutschland stattfand.
* 18. Juni: Das Tiefsee-Tauchboot namens Titan implodiert bei einer touristischen Tauchfahrt zum Wrack der Titanic. Zunächst wird eine aufwändige Suche gestartet, die Trümmerteile werden erst später entdeckt. Alle fünf Passagiere kamen ums Leben. Dieses Ereignis erregt große öffentliche Aufmerksamkeit, besonders in den Sozialen Medien.
* 01. Juli: In Australien wird weltweit erstmals die Verschreibung von MDMA und Psilocybin zur Behandlung bestimmter psychischer Erkrankungen zugelassen.
* 01. Juli: In Deutschland wird der Skywalk Willingen eröffnet. Mit einer Länge von 665 m ist es die zweitlängste Fußgänger-Hängebrücke der Welt.
* 05. Juli: Vom Weltraumbahnhof Kourou in Französchisch-Guayana startet zum letzten Mal eine Trägerrakete vom Typ Ariane 5 erfolgreich ins Weltall.
* 06. Juli: Die Niederlande kündigen an, dass sie 478 Artefakte, die in der Kolonialzeit angeeignet wurden, nach Indonesien und Sri Lanka zurückzubringen.
* Im August: Auf Hawaii, in Kanada und Griechenland gibt es über den Monat August verteilt verheerende Waldbrände.
* 01. August: Die Royal Mail führt die erste regelmäßige Postzustellung durch Drohnen ein. Auf der schottischen Inselgruppe Orkney wird die Post jetzt mit Skyports-Drohnen ausgeliefert.
* 30. August: In Kirgisistan kündigt das Ministerium für Kultur, Information, Sport und Jugendpolitik an, dass die Plattform TikTok verboten werden soll. Grund: Schutz der Gesundheit von Kindern.
* 08. September: Marrakesch/Marokko: Bei einem Erdbeben nahe Marrakesch kommen mehr als 2900 Menschen ums Leben. Dabei werden viele Bergdörfer teils zerstört und auch das Weltkulturerbe in der Altstadt von Marrakesh beschädigt.
* 10. September: Beim G20-Gipfel im indischen Neu-Delhi wird die Afrikanische Union wird als neues Mitglied der G20 aufgenommen.
* 25. September: Seit diesem Tag existiert die Bundesrepublik Deutschland länger als ihre Rechtsvorgängerin das Deutsche Reich, das von 1871 bis 1945 bestand.
* 06. Oktober: Dem im Iran inhaftierten Menschenrechtsaktivistin Narges Mohammadi wird der Friedensnobelpreis zugesprochen.
* 07. Oktober: Mit einem schweren Terrorangriff der Hamas auf Israel wird der Konflikt erneut intensiviert. Als Reaktion auf die schwere des Überfalls, ruft israelische Ministerpräsident Benjamin Netanjahu zum ersten Mal seit 1973 den Kriegszustand aus.
* 10. November: Australien schließ mit dem Inselstaat Tuvalu, der durch den steigenden Meeresspiegel bedroht ist, eine Vereinbarung. Es dürfen jährlich 280 Tuvaluer – von aktuell 11.200 Einwohnern – nach Australien übersiedeln. Sie dürfen ausserdem die australische Staatsbürgerschaft erhalten, um dort zu arbeiten, zu studieren und zu leben.
* 23. November: In Dublin greift ein Mann mit einem Messer drei Schulkinder an. In der Folge randalieren 200-300 Menschen in der Innenstadt, legen Feuer und plündern Geschäfte. Es kommt zu einem Großeinsatz der Polizei. Neben viel Sachbeschädigung und verletzten Menschen, gibt es zahlreiche Verhaftungen und 32 Anklagen.
* 06. Dezember: Die Bundestagsfraktion Die Linke löst sich auf.
* Dezember: Was uns sonst noch im Dezember erwartet, kann aufgrund der Linearität unserer Zeitwahrnehmung noch nicht gesagt werden.
Wie sehen die datenleben-daten für 2023 aus? (00:09:50)
Janine: Erste Frage, erstes Thema. Wie sehen die Datenleben? Wie sehen die Daten für 2023 aus? Wir hatten letztes Jahr eine Prognose gemacht, aufgrund der Daten, die wir erhoben hatten. 2020 war unser erstes Podcastjahr. Da hatten wir eine gewisse Datenmenge bzw. Downloads im Jahr 2020, in den Monaten, in denen wir eben gepodcastet haben. Und haben dann mal geguckt für 2021, wie viel waren die Downloads da so im Verhältnis. Und es ist eine ganze Ecke gestiegen. Und auch 2022 ist wieder in etwa genauso viel Wachstum hinzugekommen, was die Downloadzahlen für das Podcastjahr anging. Also so die absoluten Zahlen quasi. Und naja, daraus hatten wir dann eine Prognose gemacht für das Jahr 2023 und einen ähnlichen Anstieg angenommen. Und das in eine kleine Grafik gezeichnet, mit einem schraffierten Balken für 2023. Und das Ganze sah relativ linear aus. So, ja, das war dann unsere Prognose für dieses Jahr, dass das Wachstum genauso bleibt. Aber kurz gesagt, das ist nicht passiert. Es ist auch nicht mehr geworden. Tatsächlich ist der Balken für 2023 zu diesem Zeitpunkt, wir machen die Aufnahme am 28. November schon, noch nicht so viel mehr wie die Jahre davor. Also der Balken für 2023 ist tatsächlich gar nicht so viel größer als für 2022. Ihr findet die Grafiken auch, die aktualisierten, in den Shownotes übrigens. Ja, also das Wachstum ist nicht dabei geblieben. Unsere Prognose traf also nicht zu.
Helena: Ja gut. Kann sich ja noch ändern, falls dieser Jahresrückblick besonders beliebt ist.
Janine: Ja, der kann noch ein bisschen was machen. Und was aber ich ganz interessant finde, ist, dass trotzdem, andere Bereiche der Zahlen irgendwie doch ganz gut gestiegen sind. Also wir haben zwar irgendwie fast genauso viele Downloads wie letztes Jahr, aber dafür haben unsere Folgen, wenn sie erscheinen, jeweils mehr Downloads am ersten Tag als letztes Jahr zum Beispiel. Das heißt also, ja, vielleicht bildet sich das Wachstum dieses Jahr anders ab, indem wir vielleicht einfach sagen können, wir haben mehr Zuhörende gewonnen, die regelmäßig auch direkt in unsere neuen Folgen reinhören.
Helena: Ja.
Janine: Ja, die zweite Grafik, die wir letztes Jahr gemacht haben, bezog sich auf die Downloads pro Tag. Da verhält sich das natürlich ganz ähnlich dann. Ich bin mal gespannt, wie sich das dann jetzt weiterentwickelt. Was die Ranglisten angeht von Folgen, gab es im Jahr 2023 ganz klare Favoriten. Überraschenderweise steht an Platz 1 eine Folge, die noch gar nicht so alt ist, nämlich die Folge 43, Perspektiven auf Data Science. Die hat die meisten Downloads dieses Jahr geholt, was die Folgen angeht. Und an Platz 2 steht tatsächlich, was mich auch überrascht, Grafentypen 2, Histogramme und Boxplots. Und Platz 3 geht an Heuschnupfen. Also viele Grüße an die Mitleidenden da draußen, die diese Folge vielleicht deswegen gehört haben.
Helena: Ja.
Janine: Und was wir auch immer einmal angucken, sind die Gesamt-Downloads über alle Jahre. Wir podcasten jetzt fast seit dreieinhalb Jahren. Und wie jedes Jahr steht unsere erste Folge an Platz 1 die Data Science-Folge, wo wir uns unseren Podcast und Data Science einmal vorstellen. An Platz 2 steht die wunderbare Folge Python Lernen, in der wir PiKo interviewt haben zum Thema Python und wie sich dieses Themenfeld so gut erschlossen werden kann, dass, ja, Punkt, dieser Satz hört einfach hier auf. Und an Platz 3 ist eine Folge, die letztes Jahr nicht in dieser Rangliste auftauchte, sondern wieder eingestiegen ist, nämlich die Corona-Daten-Folge.
Helena: Ja, das finde ich ja durchaus interessant, weil bei Corona-Daten hätte ich jetzt erwartet, ja, die Daten, über die wir geredet haben, sind ja seitdem lange outdated. Da gibt es bestimmt viele aktuellere Informationen zu. Warum ist das immer noch so interessant?
Janine: Ja, ich glaube, weil es ja auch für uns so ein bisschen die Grundlagen ja auch einmal erklärt hat. Also wie wird überhaupt der R-Wert berechnet, die Inzidenz und so. Und das verändert sich ja an sich eigentlich nicht. Nur die Daten, mit denen wir umgegangen sind, sind andere geworden.
Helena: Ja, schon. Aber wer guckt denn vor dem Download auch auf die Inhalte ganz konkret drauf, dass wir das genau erklären? Das überrascht mich nämlich. Also keine Ahnung.
Janine: Ja, also ich gucke tatsächlich bei Podcast-Folgen vorher drauf, bevor ich die downloade.
Helena: Also vorher in die Shownotes, okay.
Janine: Ja, weil ich vielen Podcasts gar nicht so unbedingt bei jeder Folge dabei bin, sondern mir tatsächlich Themen aussuche und meinem Podcatcher auch verboten habe, Sachen sofort runterzuladen, die ich abonniert habe. Und dann kann ich da sehr selektiv tatsächlich vorgehen. Vielleicht machen das Menschen auch so.
Helena: Ja, vielleicht.
Unsere Lieblingsfolgen in 2023? (00:15:23)
Janine: Gut, dann ist eine Frage, die ich immer sehr mag. Was sind denn so unsere Lieblingsfolgen aus 2023? Helena, was war denn deine Lieblingsfolge von diesem Jahr?
Helena: Ja, meine Lieblingsfolge in diesem Jahr war die über die Gartenvögel. Da habe ich ganz viel gelernt. Also nicht nur über einzelne Vogelarten, sondern eben auch wie, ja, so Messverfahren bei Tierpopulationen überhaupt funktionieren. Und dass da auch gerade so Data-Science-Projekte wie die Gartenvögel unheimlich nützlich für sind. Das fand ich sehr schön.
Janine: Ja, und das ganze Citizen-Science-Thema, was da mit drin steckt, hat mir auch sehr gefallen bei der Folge.
Helena: Ja, und was war deine Lieblingsfolge?
Janine: Ich kann mich nicht entscheiden. Ich schwanke zwischen Folge 42, Asteroiden und die Wahrscheinlichkeit, mit der sie die Erde treffen können, weil das, ich weiß nicht, ich finde, das ist einfach ein schönes Thema. Dieses ganze Weltraumzeug. Grundsätzlich. Und ja, als Kind der 90er bin ich da auch ein bisschen vorgeimpft, was die Medien, Filme und Serien angeht. Deswegen hat die besonders Spaß gemacht. Auch schon allein in der Recherche und im Zusammenstellen. Ja, und die zweite Folge ist die Data-Feminism-Folge, weil ich es einfach sehr schön fand, mich da so thematisch reinzudenken und sie zu den weniger technischen Folgen gehört, die wir gemacht haben, wo mein literaturwissenschaftliches Gehirn einfach sehr viel Spaß dran hatte. Und ich finde das Thema auch einfach sehr wichtig, unterschiedliche Perspektiven auf die Dinge zu bringen und diese auch ernst zu nehmen und nicht gleich wegzuwischen mit das ist doch Feminismus. Nein, das kann allen Menschen helfen.
Helena: Ja, fand das auch eine gute Folge.
Feedback zu datenleben (00:17:14)
Helena: Ja, außer dass wir verschiedenste Folgen veröffentlicht haben, gibt es ja auch immer mal wieder Feedback zu unserem Podcast und einiges von diesem Feedback kommt auch auf unserer Webseite an. Und in diesem Jahr gab es mal ein ganz besonderes Feedback. Und zwar haben wir Feedback von ChatGPT bekommen oder so in der Art, weil da war dann auch ein Webseiten-Link bei, dass irgendwie so ein, jemand hat ChatGPT geklont, also quasi irgendwie eine Oberfläche dafür gemacht und versucht jetzt irgendwie Werbegeld abzugreifen oder so. Und über Spam wird das Ganze dann halt, dieser Link irgendwie verbreitet, damit Leute das finden. Und ja, das Feedback kam im Juli rein, war aber auch zur letzten Jahresrückblicks-Folge, also passend. Und das möchte ich jetzt einmal vorlesen.
Lieber Datenleben-Team, ich möchte euch für diesen großartigen Jahresrückblick 2022 danken. Ihr habt es wirklich geschafft, das vergangene Jahr auf eine informative und unterhaltsame Art und Weise Revue passieren zu lassen. Die Artikel sind gut strukturiert, lesenswert und mit interessanten Informationen gespickt. Ich habe mich durch den Jahresrückblick regelrecht gewühlt und konnte so viele spannende Details entdecken. Weiter so. Herzliche Grüße, GPT[...].
Helena: Und dann der komische GPT-Klon-Name. Ja, da sind natürlich offensichtliche Fehler drin, wie man das von ChatGPT ja durchaus auch kennt. Irgendwie hat es nicht so richtig verstanden, dass es ein Podcast ist. Ich meine, seit diesem Jahr haben wir ja immerhin vollständige Transkripte. Das heißt, man kann das auch rein durchlesen machen. Aber ja, fanden wir lustig, haben wir trotzdem nicht freigeschaltet. Aber finde ich doch überraschend, dass man irgendwie, wenn man so eine Webseite betreibt, unheimlich viel Spam kriegt. Und das ist das einzige Mal, ich meine, da steht jetzt sogar, dass es von ChatGPT oder Ähnlichem gemacht ist, drin. Aber alle andere Spam passt ja überhaupt gar nicht. Da hat niemand irgendeinen GPT drauf gelassen oder ein Sprachmodell. Das ist immer wieder überraschend, dass das noch so unverbreitet ist. Obwohl das technisch doch mittlerweile so einfach sein sollte.
Janine: Wobei unser Spam-Filter gerade wieder ein bisschen besser funktioniert. Vielleicht kriegen wir es gerade nur nicht mit.
Helena: Ja, aber das ist auch erst eine Änderung in den letzten paar Monaten gewesen. Davor, wo das hier erschienen ist, war der ja noch nicht verbessert. Da hätte das auch sein können, dass man öfter sowas sieht. Aber das ist bisher noch gar nicht so passiert.
Janine: Bei uns jedenfalls nicht. Falls euch so etwas in einem Projekt, wo ihr tätig seid, begegnet ist, sagt gern Bescheid.
Was nehmen wir mit aus 2023 an Themen oder Erkenntnissen? (00:19:58)
Janine: Das war es aus dem Bereich zum Podcast. Jetzt kommt der große Abschnitt. Was nehmen wir aus 2023 an Themen und Erkenntnissen mit? Also ja, es ist halt irgendwie das große Jahr der Sprachmodelle. Und was wir beobachten, weil wir hatten dieses Thema, also künstliche Intelligenz, neuronale Netze, ja auch schon in den letzten Jahresrückblicken oder zumindest vor allem im Letzten sehr dominant. Und so langsam haben wir zumindest das Gefühl, das war so ein bisschen eine Erkenntnis, das Umgehen damit hat sich jetzt so ein bisschen verschoben von das gibt es jetzt, das ist da, damit spielen alle einmal rum, zu damit arbeiten wir jetzt wirklich produktiv. Also in unserem Alltag, teilweise auch im Beruf, hört man ja auch immer wieder. Und ja, dazu, kommen wir auf jeden Fall gleich noch in der Tiefe. Und vorher dachten wir, kommen wir noch zu den persönlichen Eindrücken. Ja, ich fange einfach mal an. Und weil ich nicht wusste, was ich machen soll, greife ich mein Thema vom letzten Jahr auf. Da habe ich im letzten Jahresrückblick gesagt, dass ich 2022 nur acht Bücher beendet habe, was mich echt ein bisschen schockiert hat. Und ich hatte mich dann damit beschäftigt, wo meine Zeit sonst reingeflossen ist. Und dann stellte sich raus, dass ich, dass ich an 75 Rollenspiel-Sessions beteiligt war. Und ich glaube, da ist so ein bisschen meine Lesezeit hin abgeflossen. Das wollte ich ein bisschen umstellen in 2023 und hatte mir das hehre Ziel gesetzt, 23 Bücher zu lesen. Muss ja irgendwie zu schaffen sein. Früher habe ich ein Vielfaches davon gelesen und die quasi weggeatmet. Und ich bin ja auch schließlich in zwei Lesezirkeln aktiv. Also irgendwas muss da gehen. Naja, die harte Realität und meine Erkenntnis damit für dieses Jahr, das sich allein vorzunehmen und zu wünschen oder gerne mal wieder zu machen, reicht nicht. Ich habe tatsächlich zum jetzigen Stand exakt acht Bücher wieder beendet, was eigentlich genauso viele wie letztes Jahr sind. Aber ich habe mehrere fast beendete Bücher.
Helena: Ja, dann hast du ja noch die Chance, dass das klappt, noch mehr zu beenden.
Janine: Genau, es werden definitiv keine 23 werden. Aber ich habe bis Ende des Jahres noch Zeit, wenigstens drei Bücher zu beenden. Dann wäre ich bei elf; ist ja auch schon mal ein Anstieg. Ja, falls sich jetzt jemand fragt, wie war denn das dann mit den Rollenspiel-Sessions? Hat sich da auch was getan? Ja, ich hatte dieses Jahr bis zum jetzigen Zeitpunkt 104.
Helena: Ja, deutlich mehr als im Jahr davor. Das Jahr ist noch nicht mal um.
Janine: Ja, es macht halt aber auch leider einfach so viel Spaß. Und irgendwo ist es ja auch das Gleiche. Man beschäftigt sich mit anderen Perspektiven, einer anderen Welt und kann sich darin reinversenken. Und das macht einfach unglaublich viel Spaß. Ja, deswegen habe ich auch ein bisschen gelernt, okay, das Steuern von Interessen klappt irgendwie einfach nicht. Das Gehirn will, was es will, ist eigentlich auch keine neue Erkenntnis. Aber hin und wieder schlägt sie wieder relativ überraschend zu. Ja, das dazu. Helena, was hast du denn für 2023 so im Blick an Erkenntnissen?
Helena: Ja, also du hast ja vorhin schon mal erwähnt, dass es offensichtlich das Jahr der großen Sprachmodelle ist. Und eine Sache, die eben auch daraus folgt, ist, um solche Sprachmodelle überhaupt trainieren zu können, muss man unheimlich viel Geld investieren. Das heißt, das ganze künstliche Intelligenz oder maschinelles Lernthema ist jetzt auch ein Thema, das mit, ja, man muss große Finanzmittel haben einhergeht. So wie das ja auch sonst immer bei, wenn man eine Fabrik bauen wollte, brauchte man viel Geld. Aber jetzt ist es auch so, wenn man ein solches Modell trainieren möchte selber, braucht man sehr viel Geld. Aber auch, um es anwenden zu können, sind die Hardware-Anforderungen ja doch deutlich größer, als zum Beispiel, als wir letztes Jahr noch über die Bildgenerierung geredet haben. Also, das heißt, auch hier kommen höhere Kosten auf einen zu, wenn man das einfach nur mal selber damit entwickeln möchte.
Janine: So wie du das sagst, das betrifft dich wahrscheinlich auch persönlich.
Helena: Ja, so für unsere letzte Folge zum Thema künstliche Intelligenz über die Bildgenerierung hatten wir, also konnte ich das alles selber auf meinem eigenen Rechner machen. Mittlerweile ist das deutlich schwieriger geworden, weil für viele dieser Modelle eher so 24 Gigabyte Grafikspeicher benötigt werden. Wobei es auch immer wieder mal Software gibt, die angeblich auch auf dem normalen Rechner laufen soll. Das habe ich jetzt noch nicht ausprobiert. Aber sobald wir das alles getestet haben und mehr darüber sagen können, werden wir bestimmt auch mal eine Folge zu diesem Thema machen. Ansonsten war ich auch mal wieder auf einer Veranstaltung zum Thema. Was ist denn gerade so los hier mit Computern und so? Und da war ChatGPT auch einfach das große Thema, dass man damit unheimlich viel machen kann, wie zum Beispiel Excel-Dateien analysieren oder Grafiken erstellen und all solche Dinge. Das sind natürlich dann Features, die der kostenpflichtigen Version vorbehalten sind. Und ChatGPT ist mit irgendwie 20 Euro im Monat doch relativ teuer dafür, dass man vielleicht mal nur ein bisschen damit rumspielen möchte. Es gibt allerdings ja auch die kostenfreie Version. Und ja, eine Sache, die auch mir aufgefallen ist bei so einer Veranstaltung ist ja, die Wörter, mit denen man irgendwie so Data Science Anwendungen bewirbt haben, sich doch stark geändert. Also niemand hat das Wort Big Data noch benutzt. Das war vor einigen Jahren das große Ding oder irgendwie Data Mining. Ist schon länger irgendwie nicht mehr so interessant, scheinbar als Begriff. Dafür neu hinzugekommen ist das sogenannte Prompt Engineering. Also das meint letztlich, was für Texte man sowas wie ChatGPT oder auch Stable Diffusion für die Bildgenerierung oder ähnlichen Modellen sagen soll als Begriffe, damit es das Richtige tut. Und das kann man eben auch in der kostenlosen ChatGPT Version zum Beispiel benutzen, indem man immer den Kontext gleich mit liefert, wer man ist, in welchem Kontext man handelt. Das kann man standenmäßig einstellen und dann muss man das nicht mehr jedes Mal sagen, weil je nachdem, wie der Kontext ist, gibt einem dieses Sprachmodell ja unterschiedliche Dinge. Und deswegen ist das offenbar auch gerade ein großes Thema, auch für die Leute, die nur ein bisschen damit arbeiten und nicht auch selber die Software entwickeln. Ein anderes Ding ist, ich meine ChatGPT ist ja eindeutig gehypt worden dieses Jahr und die letzten Jahre gab es ja durchaus so Hypes wie Blockchain oder NFTs und ich würde sagen, dass das, was ChatGPT kann, etwas ist, was uns auch langfristig erhalten bleiben wird und mehr ist als die anderen Hypes, die ich gerade erwähnt habe. Selbst wenn am Ende die Software nicht mehr ChatGPT heißen wird, sondern vielleicht anders wie Copilot, wie die Marke, die Microsoft jetzt gerade verwendet oder so. Aber welche Software sich dann in zehn Jahren oder so durchgesetzt, das weiß ich nicht und vielleicht gibt es auch für verschiedene Anwendungen ganz viele verschiedene. Aber die zugrunde liegende Technologie, würde ich schon erwarten, bleibt vorhanden und wird unser aller Leben weiterhin in irgendeiner Form beeinflussen.
Janine: Ja, das glaube ich auch. Also es gibt Kritikpunkte, die man daran definitiv üben kann und soll und auch nicht aus den Augen verlieren sollte, aber im Wesentlichen existiert es und wird benutzt und allein deswegen ist es schon wichtig, sich damit zu beschäftigen, was es ist, wie es funktioniert und so weiter.
Tut sich noch was bei der Bildgenerierung? (00:27:47)
Janine: Ja, dann kommen wir doch mal gleich rüber zu den konkreten Data Science Themen 2023 und fangen mit der Bildgenerierung an. Was hast du denn dazu noch hinzuzufügen?
Helena: Ja, genau. Und in der Folge ging es insbesondere um Stable Diffusion, was eine Software ist, die man eben auch auf dem eigenen Rechner kostenfrei einsetzen kann. Und nicht nur diese Software, sondern auch andere basieren auf dem sogenannten LAION-Datensatz, und was mich da jetzt überrascht hat im Laufe des Jahres, gab es irgendwie eine Meldung dazu, in dem dann irgendwie plötzlich von deutschen Gerichten die Rede war, so dass ich mir das nochmal genauer angeguckt hatte und wenn man bei denen im Impressum guckt, dann steht da, dass das irgendwie ein deutscher Verein ist, der noch eingetragen werden solle laut Impressum. Aber das heißt, dass es tatsächlich unter deutsches Recht fällt, die Trainingsdaten. Und hier gibt es durchaus das Thema Data Mining, das nach deutschem Recht, soweit ich das beurteilen kann – ich habe nichts mit Jura zu tun, also ist das nur eine Einschätzung eines Laien. Ja, aber soweit ich das verstanden habe, ist nach deutschem Recht unter bestimmten Voraussetzungen Data Mining im Internet erlaubt. Und so wie ich das verstehe, würde es nach deutschem Recht ausreichen, wenn man die robots.txt, das ist so eine Datei, die man auf Servern hat, in denen drinsteht, ob Google zum Beispiel alle Seiten in die Suchmaschine aufnehmen darf, oder nicht, dass man auch da eben Bilder drüber schützen kann, vor in Trainingsdaten aufgenommen zu werden. Und wenn man das nicht gemacht hat oder das nicht tut, dann hat man so gesehen die Einwilligung gegeben, beziehungsweise ist es eher ein, man muss dem halt aktiv widersprechen. Aber das kann man auch. Ich bin mal gespannt, was jetzt in Bezug auf die Copyright-Klagen, die es da gibt, herauskommt. Und wenn es dann irgendwelche Urteile gibt, werden wir sicherlich in einem der nächsten Jahresrückblicke auch nochmal drüber reden.
Janine: Ja.
Helena: Und was ich auch gesehen habe, ist, es gibt die Malsoftware Krita. Das ist so eine Software, mit der man, wenn man digital malen möchte am Computer, gut arbeiten kann. Die ist auch Open Source und kann einfach heruntergeladen werden. Dafür gibt es jetzt eine Stable Diffusion-Integration. Das heißt, man kann sich Stable Diffusion dann entweder auf dem eigenen Rechner laufen lassen, notfalls kann man das aber auch über die Cloud machen und das anbinden. Und darüber lassen sich dann Elemente von Bildern, die man selber gemalt hat, im eigenen Stil anpassen. Also, dass dann irgendwie Teile geändert werden sollen oder all die Dinge, die Stable Diffusion halt so kann mittlerweile. Also, wenn man ein Bild gemalt hat oder skizziert hat, dass man das dann generieren lassen soll, dass es dann ausgemalt wird. Ja, dass Details hinzugefügt werden sollen, wenn man an manchen Stellen mehr Details haben möchte. Solche Sachen lassen sich damit machen. Und das betrifft jetzt nicht nur diese Software Krita, sondern eben auch die ganzen Adobe-Programme wie Photoshop, die jetzt sehr viele von diesen KI-Tools drin haben, mit denen sich Bilder bearbeiten lassen. Das heißt, auf der einen Seite wurden jetzt für solche Trainingsdaten Daten von Künstlern teilweise ungerechtfertigterweise genutzt, ohne dass sie das wollten. Auf der anderen Seite können jetzt viele Künstler auch einfach damit arbeiten, ohne dass es alles generiert ist, sondern nur Teile vielleicht ein bisschen vereinfacht werden dadurch. Gerade bei der Fotobearbeitung gehe ich mal davon aus, dass das auch dauerhaft genutzt werden wird. Wenn man jetzt irgendwie einen schönen Strand fotografiert und die Leute raus editiert haben möchte oder den Müll.
Janine: Das kann ich mir auch vorstellen.
Kann Whisper inzwischen mehr? (00:31:42)
Janine: Ja, kommen wir mal von Bildern zur Sprache. Wir haben Whisper angefangen zu benutzen. Und zwar stich letzte Jahresrückblicks-Folge, also Folge 34, das war die erste, haben wir unsere Audiodateien, unserer Podcast-Folgen, eben Whisper zugeworfen, was Helena auf ihrem Server installiert hat, um eben unsere Folgen komplett zu transkribieren, in der Hoffnung, damit auch eben so ein bisschen Barrieren abzubauen beziehungsweise Inhalte leichter zugänglich zu machen. Whisper ist etwas, das auch durch OpenAI entwickelt wurde. Es ist auf GitHub verfügbar. Es gibt inzwischen, ich glaube, mehrere Versionen, Ableger, Verbesserungen und nicht nur noch das Originale, wie OpenAI es bereitgestellt hat. Im Sommer hatten wir schon mal eine Folge gemacht mit einem Fazit, was uns bisher so aufgefallen ist, wie so das Experiment bisher für uns gelaufen ist. Das war Folge 40, wie nutzen wir Whisper für Transkripte. Und da hatten wir kurz zusammengefasst so das Fazit, dass im Vergleich zu den selbst angefertigten Shownotes, die recht ausführlich mit Stichpunkten bestückt waren, hat uns das schon enorm Zeit gespart. Es hatte allerdings auch Grenzen. Wir haben so ein kleines Experiment gemacht und Menschen auch Stellen transkribieren lassen und das miteinander verglichen. Was Menschen vor allem tun, ist auch Emotionen abbilden in Transkripten, haben wir dabei festgestellt. Also quasi Metadaten zum reinen Text mit aufgeführt, wie wenn eine von uns gelacht hat oder ähnliche Stellen. Und was auch die Menschen gemacht haben, was Whisper noch nicht gemacht hat, war in Sprechende zu unterteilen, also vorzuschreiben, wer was gesagt hat. So, das waren so die Sachen, die uns aufgefallen waren, die Whisper nicht tat. Ich habe jetzt letztens mal mit einer anderen Whisper-Installation, die auf einem Windows-Rechner lief und für die Grafikkarte optimiert war und nicht auf einem anderen Speicher lief, eine Folge transkribiert. Und da ist mir etwas aufgefallen. Bisher war es immer so bei Helenas-Installation, dass die Gender-Gaps, die wir sprechen, mit einem Binnen-I markiert waren. Und bei der letzten Transkription auf dem anderen Rechner habe ich dann erstmals das Sternchen als Gender-Gap gefunden und auch erste Versuche, die Sprechenden voneinander zu unterscheiden. Ich weiß zwar nicht, warum wir Siebert und Dominik heißen.
Helena: Ja, Sprechende werden unterschieden, aber mit völlig erfundene Namen.
Janine: Ja, manchmal auch nur mit den Buchstaben als Abkürzung. Und ja, das war auf jeden Fall sehr interessant. Das hat auch nicht an allen Stellen funktioniert, das tauchte einfach random im Text auf. Aber ich nehme das mal als Zeichen dafür, dass es anfängt, auch bei Whisper die Stimmen tatsächlich zu unterscheiden und dass sich das dann vielleicht noch ausbaut und demnächst besser funktionieren wird.
Helena: Ja, aber so wie das bisher von den Trainingsdaten her funktioniert, ist es ja doch eher so, dass es einfach Text versus Tonaufnahme im Training verwendet. Und das Risiko, was ich da sehe, ist, naja, Leute wie wir und andere auch schreiben halt die Namen noch zusätzlich davor bei dem Transkript. Aber diese Information steht ja nirgendwo in dem Ton. Und bis Whisper raus hat, dass die Namen vielleicht doch im Ton existiert haben oder dass man die vielleicht extern zufüttern sollte, ich glaube, da müssten die auch die Software umbauen und nicht nur das mit Modellen trainieren.
Janine: Ja, also ich kann mir dann vorstellen, dass man vielleicht so Angaben macht. Zum Beispiel, wenn ich Whisper starte und sage, transkribiere diese Folge, sage ich ja auch, gib mir übrigens bitte aus, wie lang es gedauert hat, das zu transkribieren. Und dann kann ja auch dazu gesagt werden, zwei Sprechende, Speaker 1 Name sowieso, Speaker 2 sowieso. Also es kann ja in den Befehl, Whisper auszuführen, durchaus mit rein. Aber interessant wäre auf jeden Fall erstmal, das überhaupt sauber hinzukriegen. Auch wenn mir dann Siebert und Dominik heißen, dann kann ich das mit Search and Replace trotzdem recht zügig ändern.
Helena: Ja, aber Whisper hat halt nicht den kompletten gehörten Text als Kontext, sondern der Kontext ist ja noch relativ gering. Das hatten wir ja in der Folge. Ich weiß jetzt nicht, ob, also es wurde ja ein neues Modell veröffentlicht, was jetzt eben wahrscheinlich zu diesen Sternchen und den Benennungen geführt hatte. Ob das jetzt auch einen längeren Kontext mitspeichert, aber der war ja so kurz.
Janine: Das stimmt.
Helena: Das kann ich mir nicht vorstellen, dass das sonderlich viel hilft.
Janine: Du meinst, es scheitert daran, dass die einzelnen Sprechabschnitte so lang sind, dass quasi der andere Sprechende aus dem Puffer rausgefallen ist?
Helena: Ja, genau. Es werden ja immer nur so und so viele Zeilen nochmal wieder als Kontext geliefert, die nur wenigen Sekunden entsprechen oder so. Und dann geht das, glaube ich, verloren einfach über die Zeit.
Janine: Ja, das kann sein, natürlich. Daran hatte ich jetzt gar nicht gedacht. Stimmt. Ja, wir werden das weiter beobachten. Vielleicht haben wir da nächstes Jahr dann mal ein Update zu
Wie gut sind Audio Deepfakes inzwischen? (00:37:01)
Janine: Was ich vorhin noch meinte, ist, dass es ja nicht nur Sprache zu Text gibt, sondern auch Text zu Sprache. Und da kommen die Audio-Deepfakes ins Spiel, dass halt Texte mit beliebigen Stimmen, von denen Stimmproben existieren, vorgelesen werden können. Da gab es einige verschiedene Sendungen, Podcast-Folgen, Nachrichtensendungen schon zu und haben da über Deepfakes geredet. Wir verzichten jetzt selbst auf diesen Kniff unserer eigenen Stimmen, einmal zu faken, was in vielen dieser Sendungen passiert. Eine sehr gute Sendung möchte ich aber empfehlen zu dem Thema. Das fand ich, war die Folge Deepfake bei Anruf Klon von 11KM zu finden in der ARD Audiothek. Da kommt Svea Eckert zu Wort und spricht eben über Audio-Deepfakes, die mit Hilfe von KI erstellt werden. Und ein wichtiges Thema dieser Folge ist halt so die Frage, wie sehr können wir Stimmen und ihre Echtheit eigentlich noch vertrauen und was resultiert daraus? Und es geht da auch um Betrug, nämlich darum zum Beispiel, dass Firmenchefs gefaked werden und sich so Geld von Firmen erschlichen wird. Aber solche Fakes können uns auch im kleinen und im privaten Raum betreffen, wenn wir zum Beispiel an diese ganzen Enkeltrick- oder Schockanrufe denken. Ja, das kann fast alle Menschen betreffen. Also Helena's und meine Stimme zum Beispiel sind ziemlich leicht zu kopieren. Wir sind in diesem Internet zu finden. Unsere Stimmdateien sind zu Stunden aufgefüllt.
Helena: Ja.
Janine: Und ja, es gibt es auch von vielen anderen Menschen, die etwas übers Internet teilen. Von daher ist sowas natürlich ein leichtes Ziel. Aber das kann auch einzelne Menschen betreffen, zum Beispiel durch Anrufe, dass Bandansagen von der Mailbox aufgenommen werden oder irgendwelche Fake-Umfragen stattfinden, wobei die Stimme aufgenommen wird. Und mit nur relativ wenig Sprechzeit kann eine Stimme schon ziemlich gut nachgebildet werden. Deswegen finde ich es auch wichtig, also es ist sowieso wichtig mit der Familie und vor allem mit Menschen, die etwas unbedarfter sind, vielleicht darüber zu reden, was solche Anrufe bewirken können, genauso wie Phishing-Mails zum Beispiel. Aber ja, da vielleicht, ja, Vertrauen ist halt schwierig geworden dadurch. Und eventuell wäre es an der Zeit, mit einzelnen Menschen vielleicht so eine Art Codewort abzusprechen, womit sie checken können, gerade bei so Schockanrufen wie ich hatte einen Autounfall, habe Fahrerflucht begangen oder ich wurde verhaftet oder ich brauche Geld. Gerade bei solchen Anrufen einfach nachhaken zu können und auf ein bestimmtes Stichwort zu warten, ob das jetzt real ist oder nicht.
Helena: Ja, ich meine, solche Sachen kommen ja auch gerne dann von der falschen Nummer, wenn sie gefakt sind. Und bisher gab es da vor allen Dingen ja so SMS, wo es dann oft schon gereicht hätte, einfach mal zu fragen, ja, wie heißt du denn überhaupt, wenn du meine Tochter bist? Das hatten vielleicht viele mittlerweile im Familienumfeld schon mal erlebt. Aber in dem Moment, wo der Angreifer tatsächlich recherchiert hat, wie die Familienverhältnisse sind und eine Stimmaufnahme hat und einen so anruft, reicht das dann ja nicht mehr, nach dem Namen zu fragen. Die Stimme ist ja offensichtlich schon verwendet worden. Und ja, man kann nur davon ausgehen, dass diese Art von Betrug immer häufiger wird.
Janine: Ja, und auch einfach ins Blaue hinein. Also ob sich die Menschen vorher wirklich informieren oder nicht. Es ist ein Leichtes, eine Stimme aufzunehmen, einen Text zu generieren und zu gucken, ob es zufällig passt. Also ja, das muss noch nicht mal sehr ausgefeilt sein. Und der Moment, auf den gezählt wird, ist ja auch das Schocken und das Überrennen mit Informationen, zu einer Handlung zu drängen und so. Also ja, schon wichtig, mit Menschen darüber zu reden, was inzwischen möglich ist, finde ich.
Helena: Ja.
Wo steht chatGPT nach einem Jahr? (00:41:00)
Helena: Ja, was inzwischen möglich ist. Ich will nochmal auf das Thema Chat-GPT zurückkommen. Also letztes Jahr 2022 hatten wir so als Jahr der Bildgenerierungsmaschinen gesehen. Und 2023 ist jetzt eindeutig das Jahr der großen Sprachmodelle. Und das GPT-Modell ist eins davon. Und das gibt es eigentlich auch schon seit mehreren Jahren. So, GPT-3, was so die Grundlage von Chat-GPT dann war, haben wir schon im Jahresrückblick 2020 erwähnt. Aber es war halt nicht einfach zugänglich und nicht leicht zu benutzen. Und Chat-GPT wurde ja auch schon im letzten Jahr Ende November veröffentlicht. So, dass es dann auch schon im letzten Jahresrückblick Erwähnung fand. Ja, und seitdem ist einiges passiert. Insbesondere gibt es seit Februar dann eben auch die kostenpflichtige Version. Am Anfang war das ja nur eine Demo, wo jede Person irgendwie teilnehmen konnte. Bei der kostenpflichtigen Version kann man sich zum einen daraus rauskaufen, dass man selber als Trainingsdatum benutzt wird. Aber die kann auch eine ganze Menge andere Sachen, ja, die sich auch im Laufe des Jahres verbessert haben. So, auch im Februar integriert dann Microsoft Chat-GPT und investiert auch sehr viel Geld da rein. Und es wird dann eben die Suchmaschine Bing in, also die Suchmaschine von Microsoft heißt Bing. Und da wird Chat-GPT integriert und nennt sich dann auch Bing Chat. Ja, am 23. Februar veröffnet Meta, das ist die Firma, die früher mal Facebook hieß und jetzt Facebook unter anderem noch betreibt, sowie WhatsApp und Instagram. Die veröffentlichen das Modell LLAMA. LLAMA ist letztlich auch von Large Language Model inspiriert als Name. Also LLM ist so die Abkürzung typischerweise. Und hier ist das Besondere, dass das Modell geleakt wird, also sie veröffentlichen das Modell an sich, aber wie das dann trainiert, welche Werte man wo eintragen muss, war eigentlich geheim. Das wird aber geleakt innerhalb der ersten Woche und ist seitdem die Basis für viele Open Source Large Language Models. Und das ist insofern interessant, als dass eine Sache, die eben bei dieser ganzen künstlichen Intelligenz eine Rolle spielt, ist, wenn man erstmal einen Trainingsstand hat, und ein Modell, dann kann man von da aus weiterarbeiten und muss nicht mehr alle Ressourcen haben, die man vorher investiert hat. Und deswegen war eben dieses LLaMA sehr nützlich für viele Leute, um eigene Modelle und eigene Entwicklungen anfangen zu können. Ja, am 14. März wurde dann GPT-4 veröffentlicht, also die neueste Version, die sich allerdings nur über die Bezahlvariante von ChatGPT nutzen lässt. Und auch im März, am 21. März zeigt Google, dann das erste Mal BART, was so die Konkurrenz zu ChatGPT sein soll. Im Juni haben dann zwei Anwälte zugegeben in den USA, dass sie ChatGPT für eine Verteidigung in einem Fall verwendet haben. Und in diesem Verteidigungsschriftsatz wurden verschiedene nicht existente Fälle als Referenz von ChatGPT halluziniert. Das machte dann große Schlagzeilen und zeigt einfach nochmal, wie unzuverlässig ChatGPT auch sein kann.
Janine: Ja, beziehungsweise nicht wie unzuverlässig, sondern was es einem vorgaukelt.
Helena: Ja, wenn man zu sehr bedrängt, dann erfindet es einfach Dinge, die nicht stimmen. Und das ist ja durchaus etwas, was alle, die das schon mal ausprobiert haben, auch erlebt haben. Es ist auf der einen Seite sehr nützlich, auf der anderen Seite darf man dem auch nicht alles glauben. Im September bekam ChatGPT dann die Möglichkeit zu sprechen. Also es gab ja vorher schon so Assistenten wie Siri und Alexa, die geredet haben, die ja auch eingeschränkt nützlich waren. Jetzt kann ChatGPT sowas in der Art auch. Man kann jetzt Fragen per Worte stellen und kriegt dann auch eine Antwort. Und letztlich werden auch solche Sachen wie eben Siri und Alexa durch solche Sprachmodelle langfristig sicherlich auch verbessert werden. Ja, man kann ChatGPT jetzt auch Fotos zeigen und Fragen zu Teilen des Fotos stellen. Also es ist jetzt nicht mehr nur rein Sprache, sondern die haben eben auch die Bildmodelle da rein integriert.
Janine: Das wird inzwischen auch schon zum verbesserten Shopping-Erlebnis im Internet benutzt, in dem Fotos von Produkten geteilt werden können und die KI-Suchmaschine sagt einem dann, wo man das zu welchem Preis bekommt.
Helena: Echt?
Janine: Ja.
Helena: Das kann ja dann eigentlich nicht ChatGPT sein, weil die auch in der Bezahlvariante jetzt nicht die neuesten Infos haben.
Janine: Nee, das läuft, glaube ich, tatsächlich. Wo hab ich denn das letztens gesehen? Ja, ich meine, Google macht dafür Werbung oder so.
Helena: Ach so.
Janine: Ja, genau.
Helena: Ja, Google macht Werbung. Nachdem deren Bart-Start erstmal total gefloppt ist, weil das Modell noch nicht fertig war, das ist das erste Mal verkündet worden, machen sie jetzt Werbung. Aber das greifen wir vor. Denn im Oktober hat Google das sogenannte Copyright Shield für ihre AI-Nutzer angekündigt, was im Prinzip manche Nutzer, die bestimmte von ihren AI-Tools kostenpflichtig nutzen, davor schützen soll, wenn sie jetzt Copyright-Claims bekommen, weil das, was sie da generiert haben, irgendwie Copyright verletzen würde, dass dann Google eben sie dann gerichtlich dagegen verteidigen würde und notfalls auch für die Kosten aufkommen würde. Wie viel man davon halten mag und ob man sich darauf verlassen kann, das weiß ich nicht. Aber auch Open AI, die Firma hinter ChatGPT, hat dann auch was Ähnliches irgendwie verkündet. Ja, und im November gab es dann die Nachricht, dass ChatGPT pro Woche von 100 Millionen verschiedenen Menschen verwendet wird und es 2 Millionen Entwickler*innen gibt, die Zugriff auf deren Programmierschnittstelle haben, um eigene Anwendungen auf Basis von ChatGPT zu entwickeln.
Janine: Das klingt nach einer Menge.
Helena: Das ist definitiv eine Menge. Also man kann es ja nicht nur selber benutzen, sondern man kann eben auch das als Schnittstelle benutzen und eigene Entwicklungen machen. Und im Prinzip heißt 2 Millionen EntwicklerInnen, dass jede große Firma irgendwie damit arbeitet. Ja, was auch im November passiert, ist es dann, dass bei Open AI die Firma hinter ChatGPT erst die Führungsriege rausgekegelt wurde, also deren Chef. Inzwischen wurde er wieder eingestellt. Keine Ahnung. Also ich meinte ja schon, wer weiß, ob es Open AI und ChatGPT in 10 Jahren noch in dieser Form gibt und ob die dann immer noch die Position haben, die sie jetzt haben als Innovator und Marktführer. Wer weiß das schon? Solche Machtkämpfe innerhalb einer Firma können natürlich genau das auch langfristig verhindern, weil das Vertrauen schwindet. Wer weiß. War auf jeden Fall einiges Chaos im November um die Firma. Ja, was im Dezember passieren wird, das wissen wir jetzt noch nicht.
Janine: Man darf gespannt sein, wo das alles hinführt. Oh, Moment. Ich habe da noch was zu. Genau. Es ist nämlich zum Beispiel auch Stand 27.11. zu einem Abkommen zum Schutz vor KI-Missbrauch geschlossen worden. Und zwar ist das ein internationales Abkommen, in dem sich 18 Länder, darunter auch Deutschland, dazu entschlossen haben, für mehr Kontrolle von Anbietern von KI-Modellen zu sorgen. Allerdings ist das natürlich mal wieder so eine Art Resolution. Das ist eine recht unverbindliche Geschichte. Es ist eine Absichtserklärung. Und es gab ja auch in diesem Jahr einige Länder schon, die die Nutzung zum Beispiel von ChatGPT in ihrer Entscheidungsdomäne untersagt haben. Also ja, da wird sicher auch noch einiges passieren. Und man darf gespannt sein, wie sich das entwickelt.
Helena: Ja.
Was haben wir sonst noch gefunden? - Die Bennu-Proben (00:48:49)
Janine: Gut. Ich finde, das war genug künstliche Intelligenz für den Moment.
Helena: Ja.
Janine: Es ist ja ein kurzer Ritt durch die verschiedenen Themenbereiche, die damit zusammenhängen. Wir hatten aber auch noch andere Themen in diesem Jahr, die wir auch spannend fanden und wo wir denken, vielleicht noch eine interessante Nachricht zum Jahresende jetzt gefunden zu haben, womit wir das ergänzen können. Ich fange mal damit an, indem ich an Part 1 meiner Lieblingsfolgen anknüpfe, nämlich an die Asteroiden. Und als die Folge gerade rauskam, kam auch eine Raumsonde zurück zur Erde und hat hier eine Kapsel abgeworfen. Und in dieser Kapsel befanden sich oder befinden sich auch noch immer Proben eines Asteroiden, nämlich von dem Asteroiden Bennu.
Helena: Um den es ja in der Folge ging, unter anderem.
Janine: Genau. Das war eine lang angelegte wissenschaftliche Mission, mit einer Kapsel Proben auf diesem Asteroiden zu sammeln und sie dann zur Erde zurückzubringen. Die Sonde OSIRIS-REx ist jetzt auf der Reise zum nächsten Asteroiden. Ich glaube, Apophis möchte sie jetzt besuchen oder soll sie? Und hat hier aber eben Proben zurückgelassen mit Steinen und Staub von Bennu, die dort aufgenommen wurden. Und das kam kurz nach unserer Folge dann hier an. Und das Interessante daran ist, am 20.10. ist zum Beispiel ein Bericht von der NASA erschienen, dass tatsächlich bereits 70 Gramm aufgesammelt werden konnten. Ursprünglich war geplant, dass 60 Gramm zur Erde zurückkommen. Und das Lustige daran ist, dass diese 70 Gramm noch nichtmal aus dem Behälter stammen, sondern aus dem Gerät drumrum um den Behälter, weil das ist natürlich insgesamt aufgetroffen auf dem Asteroiden und hat da auch Reste aufgesammelt. Und gerade sind die Wissenschaftler*innen bei der NASA dabei, auch den Behälter öffnen zu wollen. Allerdings sind zwei der 35 Bolzen oder Verschlussmechanismen, die dieses Ding sichern, defekt und können nicht geöffnet werden. Ja, jetzt wird in den nächsten Wochen noch überlegt und geforscht, wie da rangekommen werden kann, ohne dass die Probe kontaminiert wird. Einfach aufbohren wird nicht funktionieren. Dann sind Metallreste mit drin. Und das Ganze kann auch nur in einem sehr beengten Raum stattfinden, weil diese Kapsel in einer Kiste ist, wo die Erdatmosphäre keine Rolle spielt, damit die Proben nicht kontaminiert werden können. Das ist in so einer sogenannten Glovebox, wo man so mit so Handschuhen reinfassen kann. Deswegen ist der Raum auch recht beengt und die Möglichkeiten. Ich glaube, das ist gerade frustrierend und spannend gleichermaßen für die Forschenden, darin zu arbeiten.
Helena: Ja, den ersten Ergebnissen nach bestanden die Staubproben vor allem aus sehr viel Kohlenstoff und Wasser. Und die Kohlenstoffverbindungen waren teilweise sogar in organischen Verbindungen vorliegend. Was genau das jetzt im größeren Kontext heißt, muss man dann später mal gucken, wenn noch mehr untersucht wurde.
Janine: 25% der Proben werden auf die ganze Welt verteilt an Wissenschaftler*innen und Einrichtungen. Der Rest verbleibt bei der NASA, wovon ein kleiner Teil tatsächlich unangetastet bleiben und gleich gut verpackt werden wird, um nämlich mehrere Jahrzehnte eingelagert zu werden, damit Forschende der nächsten Generation potenziell die Möglichkeit haben, mit eventuell verbesserten Untersuchungsmethoden und Gerätschaften dieses Material nochmal zu untersuchen und vielleicht zu anderen, besseren, feineren Ergebnissen zu kommen. Was ich auch eine ganz coole Praxis finde.
Helena: Ja.
Janine: Dass die Menschen nicht denken, nur wir jetzt können alles erschließen, was dahinter steckt.
Helena: Ne, die Geschichte hat gezeigt, dass es oft eine gute Idee ist, noch zu warten, weil früher konnte man manche Dinge nur untersuchen, indem man sie kaputt gemacht hat. Während es mittlerweile so mit verschiedenen Röntgen oder Mikroskopieaufnahmen auch Varianten gibt, wo man nicht Dinge zerstören muss. Und die kann man jetzt gerne machen, aber es ist immer gut, auch Dinge erstmal unangetastet zu lassen.
Was haben wir sonst noch gefunden? - Eine Ketamin-Sudie (00:53:01)
Janine: Welches Thema hast du denn nochmal ausgegraben?
Helena: Ja, vor zwei Jahren hatten wir eine Folge über Drogen gemacht und dabei ging es auch unter anderem um Ketamin, was mittlerweile bei der Behandlung schwer therapierbarer Depressionen eingesetzt wird, auch in Deutschland. Da gibt es eine neue Studie zu. Ja, im Grunde ist das Problem, was die Studienautoren bei Ketaminbehandlung sehen, dass auch bei einer niedrigen Dosis, die man gegen Depressionen einsetzt, immer noch bestimmte Nebenwirkungen oder vielleicht ist es auch die Wirkung, wer weiß das schon so genau, existieren, die dazu führen, dass die Leute, die tatsächlich das Medikament nehmen, es relativ schnell merken, dass sie wirklich das Medikament nehmen und nicht den Placebo. Und da hatten die dann die These, dass es vielleicht ja sein kann, dass wenn man merkt, man nimmt wirklich das Medikament und nicht den Placebo, dass sich der Placebo-Effekt eben verstärkt. Also es gibt durchaus Nachweise, dass der Placebo-Effekt auch von der Erwartungshaltung abhängt. Wenn man damit rechnet, das wirkt eh nicht, was man nimmt, wirkt es halt auch schlechter oder auch der Placebo wirkt dann eben schlechter, als wenn man davon ausgeht, dass es wirkt. Was die deswegen gemacht haben, um das auszuschließen, ist bei Leuten, die für eine Ketaminbehandlung in Frage kommen und gleichzeitig aber auch ein anderer körperlicher Eingriff, der eine Narkose fordert, eh stattfinden sollte, dass man das kombiniert hat und dass man dann eben bei 40 Leuten das gemacht hat, dass man dann sagt so, ja, ihr kriegt jetzt eh eine Narkose und wir geben euch jetzt entweder ein Placebo oder eben das Ketamin intravenös und die merken dann aber nicht, ob sie das Medikament genommen haben oder nicht, weil sie ja in Narkose sind. Und da haben jetzt die ersten Ergebnisse keine nennenswerten Unterschiede wahrgenommen zwischen beiden Gruppen. Also die Leute, die tatsächlich Ketamin genommen haben oder das Placebo, das war relativ ähnlich und auch der Anteil der Leute, die erraten haben, ob sie jetzt Placebo oder Ketamin genommen haben, lag unter 50 Prozent, was ja dann schon heißt, wenn man das so schlecht erraten kann, dass es wirklich nicht offensichtlich ist. Also das ist ja durchaus etwas, was man auch nutzen kann, um zu unterscheiden, können die Leute erraten, ob sie Placebo nehmen oder nicht? Und wenn die das sehr gut können, ist es wahrscheinlich so, dass man irgendwie einen Fehler hat in dem Doppelblindversuch oder dass einfach der Effekt so stark ist, dass man sofort merkt, das funktioniert. Das kann ja auch sein, dass die eigentliche Wirkung so gut ist, dass es gar nicht möglich ist, das vom Placebo nicht zu unterscheiden. Ja, aber das lag hier nicht vor. Man konnte das nicht unterscheiden. Und ja, es lag in beiden Fällen ein relativ guter Effekt vor, weshalb jetzt eine Idee ist, vielleicht funktioniert Ketamin doch gar nicht so gut, sondern die Leute glauben nur, dass es besonders gut wirken würde. Aber es sind nur 40 Proband*innen gewesen. Das heißt, das ist jetzt noch nichts, was irgendwie dem Einsatz von Ketamin in der Therapie von Depressionen, verhindern würde, weil es sehr viele Studien gibt, die eben auch zeigen, dass es sehr viel bringt bei gerade schwer behandelbaren Depressionen. Das kann ja auch sein, dass einfach das, was man spürt, was dazu führt, dass man merkt, dass man das Ketamin nimmt im Vergleich zum Placebo, ja auch genau das ist, was die Wirkung verursacht. Deswegen ist das jetzt keine klare Widerlegung. Aber ich fand die Idee einfach interessant, dass man in solchen Fällen auf diese Weise eben versucht, den Placebo-Effekt noch anders rauszubekommen.
Janine: Ja, auf jeden Fall auch etwas, das interessant ist zu verfolgen, weil ja gerade unter Depressionen leiden ja auch viele Menschen. Und es wäre ja schön, wenn es da etwas gäbe, was auch den Leuten hilft, die da nicht so einfach wieder rauskommen, wobei so einfach in Anführungszeichen in alle Richtungen bitte zu verstehen ist.
Helena: Ja.
Was haben wir sonst noch gefunden? - Waldrapp im Norden (00:57:15)
Janine: Ich habe noch mal ein Thema ausgegraben zur Gartenvögel-Folge und zu Citizen Science. Es gibt Waldrappen. Das sind große Vögel, fast so groß wie Gänse. Sie sind schwarz gefiedert und gehören zur Familie der Ibisse. Es ging ja auch um Vogelpopulationen in der Gartenvogel-Folge. Und die Waldrappen sind eine Vogelart, die einst in Europa ziemlich verbreitet war, aber im 17. Jahrhundert durch Bejagungen und so weiter recht deutlich ausgerottet wurde. Mitte der 1990er Jahre gab es von ihnen nur noch gut 200 Exemplare in freier Wildbahn. Und seitdem bemühen sich verschiedene Projekte darum, die Waldrappen wieder anzusiedeln und die Vogelpopulation wieder aufzubauen. Und deswegen gibt es auch tatsächlich wieder Brutgebiete. Und zwar befinden die sich hauptsächlich in Süddeutschland, Österreich und der Schweiz. Und Waldrappen sind Zugvögel, die woanders überwintern. Sie fliegen noch eine ganze Ecke in den Süden, um dort dann den Winter zu verbringen und dann in die Brutgebiete zurückzukommen. Das heißt, ich sag mal, oberhalb von Bayern sieht man Waldrappen wahrscheinlich extrem selten. Die Vögel sind auch besendert und werden beobachtet. Man kann auch mit einer App das Live-Tracking für die besenderten Vögel verfolgen. Und so kam es dann, dass auch am 28. Oktober sehr schnell festgestellt werden konnte, dass sich etwas sehr Ungewöhnliches ereignet. Nämlich sind circa 23 Jungvögel aufgebrochen und nach Norden geflogen und haben innerhalb von drei Tagen über 1600 Kilometer zurückgelegt mit teilweise einer Fluggeschwindigkeit von bis zu 100 km h. Das müssen sehr gute Windbedingungen gewesen sein, denn eigentlich geben die Forschenden an, dass die so um die 40 bis 50 km h fliegen. Die Gruppe ist nicht die ganze Zeit zusammengeblieben, sondern hat sich zwischendrin auch getrennt. Und gerade deswegen haben die Menschen aus den Waldrapp-Projekten auch dazu aufgerufen, Vogelbeobachtungen zu melden und auch gegebenenfalls mit Bildern zu belegen und zu zeigen, wo die Vögel sind. Es sind einzelne Gruppen unterwegs gewesen, wo auch nicht besenderte Vögel dabei waren, wo dann halt sehr unklar war, wo die hinfliegen, was die machen. Und ja, wie sich vorgestellt werden kann, hier wird so langsam Winter, aktuell liegt hier gerade zum Beispiel ein bisschen Schnee und irgendwann sollten die Vögel eigentlich in den Süden und sind jetzt tatsächlich bis Schweden geflogen, einige von ihnen. Aktuell sagen die Forschenden dazu, da finden sie noch genug Nahrung und gute Bedingungen vor, aber irgendwann wird es zu kalt und wenn sie dann nicht den Sprung in den Süden schaffen, dann ziehen sie nicht in ihr Überwinterungsquartier und werden es schwer haben. Deswegen war es besonders wichtig, da Meldungen zu bekommen und es gibt auch einige Fotos jetzt von den Vögeln in Schweden, was ganz cool ist, sich auch mal anzugucken, weil eigentlich sind die echt ziemlich hübsch. Und ja, das Ding ist nämlich, dass die Jungvögel teilweise selbst noch nie ins Überwinterungsgebiet geflogen sind und wenn sie nicht mit erfahreneren Vögeln auch mal diesen Flug antreten, wissen sie zwar, dass es irgendwie nach Süden geht, aber nicht ganz exakt, wohin wahrscheinlich und es wäre einfach gut, wenn sie mit erfahreneren Vögeln dorthin flögen. Wenn das nicht passiert, dafür gibt es jetzt allerdings inzwischen auch einen Notfallplan. Also es gibt eine Kooperation mit einem Zoo in Schweden, die Vögel sollen dann gegebenenfalls eingefangen und im Zoo überwintert werden, damit sie auch im nächsten Jahr dann wieder freigelassen werden können und dann vielleicht tatsächlich zu ihrem Überwinterungsgebiet fliegen, nachdem sie vorher wieder in ihrem Brutgebiet ausgelassen wurden. Das ist, finde ich, auch wieder ein schönes Beispiel dafür, wie zwar moderne Technik zum Einsatz kommt, indem mit Sendern nachzuverfolgen ist, zu jeder Sekunde, wo sich einer dieser Vögel gerade befindet, aber dann teilweise doch auch die Hilfe von Menschen, die sich in der Natur umsehen, gefragt ist, um nachvollziehen zu können, was diese Vögel machen, gerade wenn nicht die ganze Gruppe Sender mit sich trägt.
Helena: Ja, ist doch echt. Ich wüsste auch gerne, warum sind die in die falsche Richtung geflogen?
Janine: Ja, also im ersten Artikel, den ich auch verlinkt habe, steht so ein bisschen drin, es ist für die Forschenden selbst auch völlig unklar, warum sie sich so verhalten. Es ist absolut untypisch. Eigentlich fliegen die gar nicht so in den Norden und schon gar nicht so weit, aber es wird auch so leicht angedeutet, der Herbst war recht warm. Aktuell sind die Bedingungen noch sehr gut und die Waldrappen fliegen grundsätzlich relativ spät los. Also ja, vielleicht können spätere Untersuchungen oder Beobachtungen zeigen, dass es eventuell mit der Temperaturverschiebung zusammenhängt in der Hinsicht. Aber ja, so genau kann das einfach auch jetzt gar nicht gesagt werden. Es ist auf jeden Fall recht ungewöhnlich, dass die einfach mal nach Schweden fliegen.
Helena: Wenn die da normalerweise eh nicht sind und dann eigentlich nicht nördlicher als Bayern fliegen. Ja, ungewöhnlich. Wir werden uns das nochmal angucken.
Janine: Genau, bin auch ein bisschen angefixt, das Thema weiter zu beobachten.
Was erwartet uns wohl im Jahr 2024? (01:02:38)
Janine: Damit haben wir es eigentlich für dieses Jahr, um das mal so brachial zusammenzuzurren. Die letzte Frage ist eigentlich, was erwartet uns wohl im Jahr 2024?
Helena: Ja, eine Sache, die ich jetzt gerade so beobachte und wahrscheinlich auch im Jahr 2024 wohl noch gelten wird, ist, dass die Relevanz vom ehemaligen Twitter wohl weiterhin irgendwie noch gegeben sein wird, weil es immer mal wieder Nachrichtensituationen gibt, wo ich doch in der internationalen Presse oft Zitate von Twitter dann noch lese, also ehemals Twitter. Während es in Deutschland eigentlich quasi ja ausstirbt und sich immer mehr davon zurückziehen, wie auch dieser Podcast.
Janine: Ja.
Helena: Wir sind da auch schon nicht mehr. Ja, dann würde ich erwarten, dass sich die Anwendung von sowas wie den Sprachmodellen und der Bildgenerierung weiter herauskristallisieren wird. Also, dass es einige Situationen gibt, wo das komplett sinnlos ist, wo man jetzt versucht, damit zu arbeiten. Wird es sicherlich geben, aber auch Dinge, wo es sich sehr nützlich herausstellt.
Janine: Ja, also ich würde zumindest für mich für 2024 sagen, so welches Thema mich da auch so ein bisschen mehr erwartet oder wo ich auch wieder mehr Augenmerk drauf lenken will, ist das Klimathema, weil ich einfach merke, dass ich da gerade komplett den Anschluss verloren habe. Also öfter sehe ich so einzelne Berichte auftauchen, die jetzt so sagen, die jetzt zum Beispiel sagen, ich glaube, der Oktober war der wärmste Oktober seit 125.000 Jahren und solche Dinge. Und das sind aktuell nur noch so Lichtblitze von einem Thema, das so groß geworden ist, dass es fast nur noch Hintergrundrauschen ist. Und da würde ich also von mir selbst einmal erwarten, dass ich da wieder mehr hingucke. Und zum anderen glaube ich aber auch, dass das noch dringender werden wird und auch so Projekte vielleicht mehr in den Fokus rücken müssen, die Sachen voranbringen und nicht sowas wie die Wirtschaft beschwert s
01:07:43
dl044: datenvisualisierung mit ggplot
Episode in
datenleben
Unsere Reihe zum Thema Datenvisualisierung geht weiter! Wir reden über ggplot, das ist nämlich ein nützliches Tool, um Graphen mit der Programmiersprache R zu erstellen. Am Anfang geht es um das Buch "Grammar of Graphics" und die darin vorgestellten Prinzipien für das Erzeugen von Plots. Danach erläutert Helena, wie sich diese Prinzipien in der Arbeit mit ggplot angewendet werden. Und dann gehen wir auch mit Beispielen ein bisschen konkreter auf einzelne Sachen ein, die dabei eine Rolle spielen. Und zum Schluss wollen wir noch ein bisschen die Vor- und Nachteile abwägen.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl013: daten visualisieren
dl019: standarddatensätze
dl006: #FrauenLesen
Einspieler
Wikipedia: R (Programmiersprache)
R for Data Science (2e)
Comprehensive R Archive Network
tidyverse
Leland Wilkinson: Grammar of Graphics. 2. Auflage, Springer (Berlin, Heidelberg)
ggplot2: Elegant Graphics for Data Analysis (3e)
Wikipedia: Tableau Software
Schlagworte zur Folge
Programmieren, R, ggplot, ggplot2, tidyverse, Datenvisualisierung, Datenanalyse, Daten visualisieren, Visualisierung
Beispiele in R mit ggplot2
In ggplot gibt es keine Funktion für ein Tortendiagramm. Stattdessen
erstellt man ein Balkendiagramm mit einem Balken, aber Farben für die
einzelnen Kategorien:
library(palmerpenguins)
library(ggplot2)
ggplot(penguins) + geom_bar(aes(x="", fill=species))
Und um das ganze in ein Tortendiagramm umzuwandeln wird nur das
Koordinatensystem auf Polar-Koordinaten umgestellt (also
Kreiskoordinaten):
library(palmerpenguins)
library(ggplot2)
# theta="y" heißt, dass der y-Wert der Kreisvariabeln zugeordnet wird
ggplot(penguins) + geom_bar(aes(x="", fill=species)) + coord_polar(theta="y")
Weil man dann die Kategorien zur Gruppierung verwenden kann, und dann
wird automatisch eine Legende erstellt:
library(palmerpenguins)
library(ggplot2)
library(tidyr)
penguins_long <- penguins %>%
tidyr::pivot_longer(
cols = ends_with("length_mm")
)
plot_long <- ggplot(penguins_long) + geom_point(aes(body_mass_g, value, color=name))
print(plot_long)
Es ist auch möglich zwei Ebenen im Plot zu erstellen bei ggplot, ohne
die Daten umzuformatieren, aber dann kann ggplot nicht selbst eine
Legende erstellen:
library(palmerpenguins)
library(ggplot2)
plot_wide <- ggplot(penguins) + geom_point(aes(body_mass_g, flipper_length_mm), color="darkgreen")
plot_wide <- plot1 + geom_point(aes(body_mass_g, bill_length_mm), color="darkviolet")
print(plot_wide)
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 44. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch die Welt der Daten näher bringen. Was für Daten umgeben uns? Wie werden Daten für uns lesbar? Und was können wir aus ihnen lernen? Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.
Thema der Folge (00:00:37)
Janine: Und dieses Mal beschäftigen wir uns wieder mit dem Thema Datenvisualisierung, das wir hier ein bisschen weiterführen möchten. Und zwar soll es heute um ggplot gehen. Das ist nämlich ein nützliches Tool, um Graphen mit der Programmiersprache R zu erstellen. Und ja, dafür wird Helena gleich erstmal auf ein wunderbar grundlegendes Buch eingehen mit dem Titel "Grammar of Graphics". Da werden nämlich sechs grundlegende Prinzipien vorgestellt und davon gehen wir dann weiter zu ggplot und wie sich diese Prinzipien in der Arbeit mit ggplot, naja, erkennen und anwenden lassen. Und dann gehen wir auch mit Beispielen ein bisschen konkreter auf einzelne Sachen ein, die dabei eine Rolle spielen, also wie zum Beispiel verschiedene Datenformate ins Spiel kommen, was die verschiedenen Arbeitsschritte von ggplot sind, ob es eine Grafik tatsächlich angezeigt wird und zum Schluss wollen wir noch ein bisschen die Vor- und Nachteile abwägen, die ggplot so mit sich bringt.
Warum ist das Thema wichtig? (00:01:39)
Helena: Ja, und wir befassen uns mit diesem Thema, weil Datenvisualisierung ja ein wichtiges Thema ist, mit dem wir uns immer mal wieder auseinandersetzen. Deswegen befassen wir uns dieses Mal in der Folge mit einem sinnvollen Tool eben für Datenvisualisierung und zwar ggplot. Das verwende ich tatsächlich auch sehr viel beruflich und deswegen reden wir heute darüber.
Einspieler: Allgemein zum Thema (00:02:03)
Janine: Was ist R? R ist eine freie Programmiersprache, die eine der Standardsprachen für statistische Problemstellungen ist. Und sie wird in vielen Gebieten angewendet, besonders auch in der Wissenschaft. Mit R können nämlich statistische Berechnungen gemacht und dazugehörige Grafiken erstellt werden. Dabei hilft die relativ benutzer*innenfreundliche Entwicklungsumgebung namens RStudio, das auch anzuwenden. Ein großer Vorteil dieser Programmiersprache ist, dass nur wenige Zeilen Code notwendig sind, um recht komplexe statistische Probleme zu bearbeiten. Wofür R unter anderem eingesetzt werden kann, ist Datenvisualisierung, Umwandlung von Daten, Säubern von Datensätzen, Import von Daten aus verschiedenen Quellen und das Anwenden verschiedener statistischer Verfahren auf die vorhandenen Datensätze. Ein weiterer Vorteil ist, dass R kompatibel ist mit einer Reihe anderer Programmiersprachen. So können auch verschiedene Arbeitsschritte tatsächlich in anderen Programmen erledigt werden, die für bestimmte Teilaufgaben vielleicht besser geeignet sind. Oder umgekehrt, R wird nur für eine sehr spezielle Aufgabe in andere Anwendungen einbezogen. Es gibt eine große Menge von Paketen, die für R entstanden sind und zusätzliche Funktionen oder spezielle Anwendungsfälle unterstützen. Pakete sind hierbei Programmbibliotheken, die eben diese bestimmten Funktionen enthalten können. 29 Pakete sind standardmäßig in R enthalten, wenn es installiert wird, wovon 14 die grundlegenden Funktionsweisen bereitstellen und auch jedes Mal automatisch geladen werden, wenn R benutzt wird. Alle weiteren Pakete, die für einen bestimmten Zweck benötigt werden, werden auch nur dann mittels Code geladen, wenn sie auch tatsächlich eingesetzt werden, was das Ganze eben etwas schlanker macht. Was R zum Beispiel konkret kann, sind Zeitreihenanalysen, Glättungsverfahren, Clusteranalysen, Wahrscheinlichkeitsverteilungen, es unterstützt bei klinischen Studien und Metaanalysen. Die größte Sammlung an Paketen, die es für R gibt, ist die Comprehensive R Archive Network und darin sind derzeit fast 20.000 Pakete enthalten. Viele sind einem bestimmten Thema gewidmet oder erweitern bestehende Pakete um zusätzliche Funktionen. Darin kommen zum Beispiel Pakete vor wie DS4Psy, Data Science for Psychologists, also ein spezielles Thema für eine spezielle Gruppe von Menschen, dieses Paket wird wahrscheinlich alle Funktionen enthalten, die für genau diese Anwendung sinnvoll sein können. Es gibt aber auch so Sachen wie rTrack, Data Analysis Relating to Star Trek, das heißt, ja, warum nicht mal mit Daten von/aus über Star Trek beschäftigen. Und wie eben schon angedeutet, manche Pakete ergänzen auch bestehende Pakete, ein Paket ist ggplot und ein ergänzendes Paket ist aplot, das ja, ein mit ggplot gestaltete Grafik um weitere Informationen ergänzen kann. Es gibt aber auch Sammlungen von Paketen, die deutlich spezieller sind und schon mehrere enthalten, zum Beispiel das tidyverse. tidyverse ist eine Sammlung von R-Paketen, die die Anwendungen für Data Science Probleme deutlich vereinfachen, weil hier viele Pakete zusammenkommen, die eben bestimmte Schritte übernehmen können und Funktionen bereitstellen, die speziell für Data Scientists spannend sind. Darin ist zum Beispiel eben auch ggplot enthalten, ein Paket, das die Möglichkeiten für grafische Darstellung deutlich vergrößert.
Was steckt hinter Grammar of Graphics? (00:06:06)
Helena: Ja, und das gg in ggplot steht für Grammar of Graphics. Und das ist eigentlich der Titel eines Buches, das eben die von dir gerade schon genannten sechs grundlegenden Prinzipien einführt. Das ist ein Buch von Leland Wilkinson und der hat früher bei SPSS gearbeitet, was eines der großen Statistikprogramme ist, die es so gibt, mit denen viele Leute arbeiten, und der hat auch in der Software Tableau mitgewirkt, die auch innerhalb von Statistikmenschen eine gewisse Bekanntheit hat. Ja, und das Ganze startet erstmal damit, dass ein mathematischer Graph erstmal ein abstraktes Konstrukt ist. Also wir haben vielleicht noch irgendwie Kurvendiskussionen aus der Schule in Erinnerung oder sowas und hat man dann irgendwie einen Graphen, den man malt und dann kann man damit irgendwelche Dinge ausrechnen und so weiter. Und dieses abstrakte Konstrukt kann man erstmal nicht sehen, sondern erst wenn man daraus eine Grafik macht, wird das Ganze sichtbar. Das heißt, wir brauchen Datenvisualisierung, um irgendwas sichtbar zu machen. Und die Idee bezüglich dieser Grundprinzipien ist halt, ja, Grafiken zu statistischen Daten sollen bestimmten Regeln folgen. Man kann zum Beispiel nicht einfach irgendeinen Punkt irgendwo hinmalen und die Position von diesen Punkten verändern, ohne dass man über die Daten lügen würde. Das heißt, man möchte schon, dass das, was man darstellt, auch akkurat ist auf Basis der Daten und nicht einfach irgendwas ist. Und deswegen besteht eben jede Grafik bei Grammar of Graphics aus sechs grundlegenden Komponenten und die erste davon sind einfach die Daten. Das heißt, jede Grafik muss erstmal auf Basis von Daten erzeugt werden. Dann gibt es sogenannte statistische Transformationen der Daten. Also, wenn ich zum Beispiel die Häufigkeiten von bestimmten Ereignissen in einem Histogramm darstellen möchte, muss ich diese Häufigkeiten erstmal berechnen. Das heißt, auf Basis der Daten berechne ich Dinge, die dann dargestellt werden. Ein anderes Beispiel, das wir auch schon in vergangenen Folgen hatten, ist der Boxplot. Auch das basiert erstmal darauf, dass man eine statistische Auswertung macht auf Basis der Daten und diese dann darstellt.
Janine: Wir hatten da ja in der einen Folge drüber geredet und ich erinnere mich jetzt so an dieses Stichwort "abgeleitete Werte". Also, aus der statistischen Transformation fallen dann vielleicht auch unter Umständen neue Werte raus, die dargestellt werden.
Helena: Das ist die Frage, was du mit "neuen Werten" meinst.
Janine: Ja, also halt die statistische Transformation vollzieht so eine Art Berechnung und dabei entstehen halt Ergebnisse und die werden mit einbezogen.
Helena: Genau, oder nur diese Ergebnisse werden überhaupt dargestellt. Die basieren immer noch auf den Daten, aber ja, ist halt die Frage, wie man diese Daten darstellen will. Genau, das dritte grundlegende Prinzip ist, mit welchen Skalen man diese Daten darstellt, also zum Beispiel ob sie linear geplottet werden oder logarithmisch. Dann Koordinatensysteme, also zum Beispiel kathesische Koordinaten versus Polarkoordinaten. Dann, das fünfte Prinzip, sind die grafischen Elemente und ihr Aussehen. Also erstmal die Frage, malt man überhaupt Punkte oder Linien? Welche Farben haben die? Welche Formen? Also ein Boxplot hat ja eine bestimmte Form im Gegensatz zu einem Punkt. Ein Punkt hat auch eine bestimmte Form und eine Linie kann ja auch gestrichelt sein zum Beispiel. Und dann gibt es als sechstes Prinzip noch die Orientierungshilfen, die in einer Grafik enthalten sein sollen. Und damit ist gemeint sowas wie die Achsen, die Beschriftung, die Legenden, die dann sagen, ja, diese Punktform bedeutet folgendes oder diese Farbe bedeutet folgendes und so weiter. Ja, und dann basiert das Bearbeiten einer Grafik aus vier Grundprinzipien, nämlich erstmal die Spezifikation, bei der man sagt, was für einen Plot man haben will. Dann das Zusammensetzen all dieser Sachen zu einem Gesamtkonstrukt. Dann das Anzeigen der Grafik, also zum Beispiel, wenn man jetzt irgendwie eine Bilddatei generieren möchte oder dass es auf dem Computerbildschirm dargestellt wird. Und das vierte ist dann das Überarbeiten. Das heißt, im Prinzip ist das so eins, das alle drei anderen umfasst, indem man dann sagt, man hat jetzt ein Ergebnis gesehen und fängt an, es wieder zu modifizieren, indem man ein bisschen eine Spezifikation ändert zum Beispiel. So, das Überarbeiten ist jetzt nicht unbedingt für jede Grafik nötig, wenn man schon vorher genau sich ein Kochrezept ausgedacht hat für eine Grafik. Aber es ist relevant, es eben als Grundprinzip noch mit aufzunehmen, weil das Überarbeiten einer Grafik soll ja auch einfach sein. Und da gibt es halt auch einige Tools, wo man erstmal etwas, wenn man etwas hingemalt hat, dann wird es schwer, das wieder zu ändern. Deswegen ist es schon ein mitzudenkender Aspekt.
Janine: Und auch nicht verkehrt hinsichtlich von Fehlerkorrekturen, glaube ich. Also wenn ich jetzt an Audioschnitt oder Videos erstellen denke, das erste, was man exportiert, das erste Ergebnis ist nie das finale.
Helena: Ja, genau. Das heißt, man hat dann einmal angezeigt und dann sieht man, ah, da will ich aber noch was ändern. Und dann ist es gut, wenn es leicht ist, das zu ändern. Ja, das waren jetzt eben diese vier Schritte quasi, Spezifikation zusammensetzen, anzeigen und überarbeiten. In der Regel hat man in den meisten Fällen wahrscheinlich, und das ist auch bei ggplot nicht anders, eher damit zu tun, dass man eher spezifiziert. Und zusammensetzen und anzeigen passiert beides so im Hintergrund. Darüber reden wir später aber nochmal genau. Warum es trotzdem unterschiedliche Schritte sind.
Janine: Ja, ich versuch's nochmal ganz kurz zusammenzufassen, was diese sechs Prinzipien oder Grundlagen sind. Also in Frageform, erstens, welche Daten liegen vor? Zweitens, welche statistische Transformation möchte ich mit den Daten vollziehen? Drittens, wie soll die Skala für die Darstellung aussehen? Viertens, welches Koordinatensystem kommt zur Anwendung? Fünftens, wie setze ich die grafischen Elemente ein und gestalte sie? Und sechstens, welche Orientierungshilfen wie Achsen oder Legenden möchte ich anwenden? So, das sind die Prinzipien. Und wie funktioniert das jetzt mit ggplot?
Wie funktioniert ggplot? (00:12:27)
Helena: Ja, ggplot, beziehungsweise ggplot2, wie das eigentlich genauer heißt. Wobei mir ehrlich gesagt nicht bekannt ist, wo die 2 herkommt. Weil ich habe noch nie mit ggplot ohne 2 gearbeitet, aber gut. Ja, ggplot ist ein Programmpaket für R, um ja eben diese Prinzipien von Grammar of Graphics umzusetzen. Dabei orientiert es oder fokussiert es sich vor allem auf statistische 2D-Grafiken. Das heißt, in dem Buch selber wird das Ganze auch für dreidimensionale Grafiken diskutiert, aber mit ggplot lassen sich nur 2D-Grafiken darstellen und erzeugen. Ja, das Schöne an ggplot ist eben, dass es mit sehr guten Standardeinstellungen kommt. Das heißt, wenn man nicht so viel spezifiziert, dann hat man schon mal einen sehr guten Plot. Also zum Beispiel ist der Hintergrund immer eher grau und die Linien in dem Plot, also die Hilfslinien sind dann so weiß, sodass diese nicht von den eigentlichen Daten ablenken, aber gleichzeitig, wenn man das Ganze auf zum Beispiel auf einer Konferenz vorstellt, wenn man auf einem sehr hellen Beamer einen Vortrag hält, strengt es die Augen nicht so sehr an, weil es kein weißer Hintergrund ist, sondern eben ein leicht grauer Hintergrund. Wenn man das nicht mag, kann man das natürlich ändern. In meiner Erfahrung kam das bei Leuten, die das nicht gewohnt waren, dass das ja auch so aussehen könnte, manchmal nicht so gut an, wenn man alte Tools gewohnt war, aber ja.
Janine: Gewohnheiten.
Helena: Ja, Gewohnheiten. Und die Umsetzung der Grundprinzipien können wir mal im Beispiel des Boxplots beschreiben. Also es gibt die sogenannten Geometrien in ggplot. Die fangen wir mit "geom_" an. Das ist dabei, was wir vorhin als grafische Elemente hatten als Grundprinzip, die beschreiben, wie etwas aussehen soll. Also ein Boxplot ist halt eine Box mit bestimmten Linien und eine Linie ist eine Linie und ein Punkt ist ein Punkt. Beziehungsweise können dann natürlich noch verändert werden. Aber da gibt es ganz viele Sachen von. Und für Boxplot und Histogramm zum Beispiel, die wissen dann auch in der Regel, dass man bestimmte statistische Transformationen machen will. Deswegen werden die automatisch, wenn man diese Geometrie Boxplot auswählt, auch automatisch berechnet. Das muss man nicht mehr machen und explizit sagen. Man kann es aber ändern. Man kann eben auch sagen, ja, er soll jetzt aber meine eigene Funktion, die ich selber geschrieben habe, für den Boxplot verwenden.
Janine: Und wer das sich gleich nebenbei mal angucken möchte, wir haben auch Beispiele vom R-Code in den Shownotes stehen. Da ist das auch mal drin, wie zum Beispiel geom_point dann definiert wird, im Code, was Helena eben gerade beschrieben hat, wie das aussehen soll und welche Eigenschaften das hat.
Helena: Genau. Dann gibt es die sogenannten Aesthetics. Das ist letztlich, ja, welche Eigenschaften hat denn dieser Plot auf Basis der Daten. Also das ist quasi, wie die Daten auf bestimmte Dinge in dem Plot übersetzt werden. Eine Aesthetik kann zum Beispiel sein, welche Werte sind auf der x-Achse. Also, welche Spalte in den Daten beschreibt die x-Achse oder halt auch die y-Achse. Aber auch die Farbe. Und die Farbe hat dann wieder verschiedene Kategorien, weil eine Farbe kann eine Linienfarbe sein, aber auch eine Füllfarbe. Das heißt, man kann bestimmte Sachen, wenn man jetzt irgendwie ein Balkendiagramm hat, auch über die Linienfarbe darstellen, während man meistens eher mit der Füllfarbe arbeitet zum Beispiel. Und bei anderen Geometrien, wie zum Beispiel Linien oder Punkten, kann auch der Linientyp gemeint sein. Also gestrichelt, gepunktet oder eine durchgezogene Linie. Oder die Punktform kann auch verändert werden, dass man da stattdessen Xe hin macht. Und da haben halt diese Punktformen eine bestimmte Bedeutung auf Basis der Daten. Ja, ein Punkt, den ich gerade schon angerissen hatte, ist ja die Berechnung der Box beim Boxplot passiert innerhalb von ggplot. Das heißt, ich gebe nicht vorher schon die statistischen Werte rein, sondern es wird automatisch eine sogenannte stat-Funktion innerhalb der Geometrie aufgerufen. Eine Statistikfunktion, die jetzt einfach Standardeinstellungen hat für den Boxplot, aber man könnte das auch ändern. Und da ist dann natürlich schon mal eine Frage, warum soll das denn überhaupt so ein Grafiktool machen, diese statistischen Umwandlungen? Ja, zum einen müsste man Mehrschritte selber machen, wenn man vorher die selber ausrechnen möchte, um das darzustellen. Ja, und wenn man Mehrschritte machen muss, verliert man auch ein bisschen Flexibilität, wenn man den Plot bearbeiten möchte, weil dann muss man ja auch die Berechnung vorher verändern. Und wenn das Grafiktool selbst erst die Statistiken berechnen kann, dann lassen sich die selben Daten gleichzeitig auch für mehrere verschiedene Auswertungen darstellen. Da muss man nicht mehrere Auswertungen selber ausrechnen, sondern kann die einfach darstellen lassen. Und man behält die Verbindung zwischen den Eingangsdaten und dem, was dargestellt wird. Wenn man Zwischenschritte hätte, würde man diese Verbindung ja wahrscheinlich eher verlieren. Oder es wird zumindest schwerer nachvollziehbar, wo genau jetzt ein bestimmter Punkt herkommt. Und wenn man sich dann dem Skalenprinzip beschäftigt, also die Skalen als Grundprinzip von Grammar of Graphics, heißt dann im Boxplot zum Beispiel, dass ich auf der x-Achse als Skala einfach die verschiedenen Boxen haben will, was auch immer ich dann nutze als, ja, daraus möchte ich meine Gruppen berechnen, dann ist das die eine Skala und die andere wäre dann mit der y-Achse wahrscheinlich. Also man kann das natürlich auch switchen, aber potenziell die y-Achse stellt dann die eigentlichen Werte dar. Das sind dann einfach Zahlen in dieser Skala. Und ja, standardmäßig benutzen Boxplot bei ggplot als Koordinatensystem dann eben kathesische Koordinaten mit einer, ja, linearen Skala und...
Janine: Kannst du nochmal kurz sagen, was kathesisches Koordinatensystem bedeutet?
Helena: Das ist das Standardkoordinatensystem, was man typischerweise in der Schule gelernt hat, wenn man ein Koordinatensystem gelernt hat. Bei dem gilt zum Beispiel, dass Parallellinien sich nicht schneiden können, solche Dinge.
Janine: Ja, und du hattest vorhin noch, wenn wir jetzt schon beim Nachfragen sind, die Polarkoordinaten erwähnt. Was bezeichnet das?
Helena: Also es gibt sogenannte Kreiskoordinaten, die nennt sich dann eben auch Polarkoordinaten. Und da hat man dann eben, ja, den Abstand zum Mittelpunkt als eine Koordinate und den Drehwinkel, um auf diese eine Position zu kommen. Man kann im Prinzip mit Polarkoordinaten auch den gleichen zweidimensionalen Raum abbilden wie mit kathesischen Koordinaten. Also man kann die ineinander umrechnen ohne Probleme. Aber wenn man Polarkoordinaten benutzt, dann kann man halt einfach Dinge auf Kreise malen zum Beispiel. Und ein Beispiel, was wir aus unserem Alltag kennen, was jetzt in ggplot nicht drin ist, weil es dreidimensional ist, sind ja so Koordinatensysteme wie das, was bei GPS benutzt wird, das ja dann Zahlenwerte auf einer Kugel mappt. Da hat man bei einer Kugel hat man dann auch quasi zwei Koordinaten, die so einen Winkel darstellen. Das ist dann Längengrad und Breitengrad. Und die Höhe, was der Abstand zum Mittelpunkt der Kugel ist. Was man dann in der Regel nur als Höhe über Normal ull oder so hat. Weil das sind die Werte, mit denen wir auch wirklich sinnvoll arbeiten können. Aber das ist auch ein Koordinatensystem, was eben nicht kathesisch ist, weil auf einer Kugel gibt es keine parallelen Linien.
Janine: Okay.
Helena: Also zumindest nicht, wenn diese Linien auch Kreise sein sollen, also Vollkreise sein sollen.
Janine: Ja.
Helena: So gesehen.
Janine: Sehr gut, dann nähern wir uns weiter den Sachen. Ich habe noch eine letzte Frage an dieser Stelle. Ich habe mir die Frage gestellt, inwiefern sich überhaupt Skala- und Koordinatensystemen wirklich unterscheiden. Gehört das nicht irgendwo auch zusammen, weil man es immer zusammen sieht? Wie sieht das da aus? Warum wird da eine Unterscheidung gemacht?
Helena: Also zum einen kann eine Skala ja auch sowas wie Kategorien enthalten. Also zum Beispiel Parteien, wenn man Wahlergebnisse sich anguckt, dann ist die eine Skala, die Farbskala in der Regel, sind Kategorien. Das ist ja so gesehen jetzt nicht unbedingt eine Koordinate. Und dann gibt es eben noch, ja man kann das zum Beispiel von dem Tortendiagramm erklären. Ein Tortendiagramm gibt es in ggplot nicht. Warum nicht? Weil man sagt, ja in Grammar of Graphics kann ich einfach das Koordinatensystem ändern. Das heißt, ich mache einfach ein Balkendiagramm, wo ich einen Balken habe mit verschiedenen Farben, der dann zum Beispiel den Parteien entsprechen kann mit ihren Wahlergebnissen. Und dann sage ich, ja ich möchte das Ganze jetzt als Polarkoordinaten darstellen. Und dann muss ich nur noch sagen, ja welcher Teil der Koordinate entspricht dann welchen Werten. Und das, was vorher die y-Koordinaten waren in dem Balkendiagramm, wäre dann zum Beispiel die Kreis-, also die Winkelkoordinate. Ja, und dann habe ich ein Tortendiagramm. Also man sieht ja sofort, dass die Darstellung komplett anders aussieht, aber es ist halt bis auf das Koordinatensystem komplett identisch. Und die Skalen sind auch die gleichen. Weil die Werte, der Wertebereich ist ja quasi von 0 bis 100 Prozent. Also einmal den Kreis rum im Tortendiagramm und einmal bis 100 Prozent im Fall von dem Balkendiagramm. Das heißt, die Skala ist die gleiche, aber die Koordinaten, auf denen das dargestellt wird, ist eben anders.
Janine: Und am Ende ist nur die Frage, wie möchte ich es anzeigen?
Helena: Genau. Und manchmal werden Dinge auch leichter auszurechnen. Also das geht jetzt vielleicht von ggplot weg. Aber jetzt so, der Grund, weshalb wir eben mit Kugelkoordinaten arbeiten, wenn wir mit GPS arbeiten, liegt halt daran, dass, ja das sieht dann so aus, als hätten wir Koordinaten, die auf einer 2D-Fläche sind, wenn wir uns nur die Kreiskoordinaten angucken. Wenn man jetzt mit kathesischen Koordinaten arbeiten würde, dann würden die sich ja die ganze Zeit ändern und man würde nicht verstehen, was das mit der eigenen Bewegung zu tun hat, weil die Zahlen dann völlig abstrakt wären. Also deswegen wird es oft einfacher für manche Fragestellungen in bestimmten Koordinatensystemen zu denken.
Janine: Das kann ich nachvollziehen. Ja, genau zu diesen Sachen sehe ich, hast du auch die Beispielcodes gemacht zum Tortendiagramm und dem Koordinatensystem auf Polarkoordinaten einmal umgestellt, oder beziehungsweise andersrum.
Helena: Genau, das findet sich dann auch in den Shownotes.
Was muss ich zu Datenformaten und ggplot wissen? (00:23:25)
Janine: Wenn ich jetzt daran gehen möchte, so etwas anzuwenden, dann brauche ich ja vor allem erst mal eins, die Daten, mit denen ich arbeiten möchte. Ja, wir hatten ja schon in früheren Folgen, ich weiß gar nicht mehr in welcher, ich glaube, das war in der Frauenlesen-Folge, wo wir einmal die Datenformate long und wide erklärt haben. Ja, aber irgendwann in unserem Podcast habe ich schon gelernt, dass es verschiedene Datenformate gibt. Wenn ich jetzt ggplot benutzen möchte, was muss ich denn da beim Datenformat beachten?
Helena: Ja, also grundsätzlich möchte ggplot das sogenannte long Datenformat haben. Und zwar, weil wir hatten ja schon über die Ästhetics geredet, also dass die Farbe zum Beispiel bestimmt werden kann aufgrund einer Gruppenzugehörigkeit. Und dazu muss man eine eigene Spalte haben, die man ggplot dann mitteilen kann, die eben diese Gruppenzugehörigkeit darstellt. Und wir können das Ganze ja mal an unserem Lieblingsbeispiel erläutern, an den Pinguinen. Wir hatten ja schon mal über den Pinguindatensatz geredet, den man in R verwenden kann, um Beispiele zu zeigen. Das tun wir jetzt auch hier. So, in diesem Datensatz hat ein Pinguin eine Spezies, dann sowas wie eine Schnabellänge, Körpergewicht und eine Flossenlänge. Und es ist jetzt relativ üblich, dass man sagt, jeder Pinguin hat genau eine Zeile. Daten, die zu einem Pinguin gehören, sind dann in einer Zeile. Und das wäre jetzt das sogenannte "wide", also breite Datenformat. Mit sehr wenig Einträgen ist jetzt, warum das eine breit und das andere lang heißt, vielleicht nicht ganz so offensichtlich, aber ich hoffe, es ist gleich offensichtlich, warum das andere lang heißt. Gut, wenn ich jetzt in ggplot die Schnabellänge über dem Körpergewicht plotten möchte, dann lässt sich das ja relativ gut verwenden, weil es gibt einmal die... eine Körpergewichtsspalte und die Schnabellängesspalte. Aber was ist, wenn ich jetzt sowohl Schnabellänge als auch Flossenlänge im selben Plot haben möchte? Dann würde man in vielen anderen Plottools einfach die beiden Spalten auswählen und sagen, ja, ich möchte die jetzt einfach über dem Körpergewicht geplottet haben. Und in ggplot ist das nicht so einfach. Man könnte das zwar im Prinzip machen, würde dann aber einige der Features von ggplot verlieren. Und deswegen müsste man in ggplot jetzt die Daten umformatieren. Und zwar so; Körpergewicht bleibt da immer noch eine eigene Spalte und dann hätte man eine Spalte in der, die nennt sich dann zum Beispiel "Kategorie", wo dann eben die Kategoriennamen drin stehen, also Flossenlänge und Schnabellänge und in der anderen Spalte der Wert. Dann hat man statt den ersten drei Spalten jetzt plötzlich andere drei Spalten. Aber ein relevanter Unterschied ist, diese Tabelle ist doppelt so lang. Deswegen heißt es "Langes Datenformat", weil für jeden Pinguin jetzt zwei Einträge existieren. In einem eben für die Schnabellänge und der andere für die Flossenlänge. Und das Ganze möchte man deswegen für ggplot haben, weil man dann ggplot sagen kann, ja, ich möchte jetzt als Farbe zum Beispiel, also wenn ich jetzt das Ganze als Punkte darstellen möchte, möchte ich sagen, ja, die Farbe hängt jetzt davon ab, welcher Datengruppe das zugehört. Also in diesem Fall wäre das, ist das jetzt ein Punkt für Schnabellänge oder Flossenlänge? Und dann ist die Schnabellänge eine Farbe und die Flossenlänge hat eine andere Farbe. Und dann erzeugt ggplot auch automatisch eine Legende und so weiter.
Janine: Das heißt, durch das Long-Format bekomme ich sozusagen mehr Flexibilität wieder.
Helena: Genau. Ja, und man nutzt halt auch die Features von ggplot besser aus. Man kann zwar jetzt auch irgendwie zwei verschiedene Linien malen und denen auch eine feste Farbe geben, die nicht auf Basis der Daten passiert, aber dann würde man keine automatische Legende bekommen. Und ich fand, als ich angefangen habe, mit ggplot zu arbeiten, weil eben dieses Datenformat, das halt sehr anders dann teilweise ist und noch ein bisschen Konvertierung erfordert, sehr gewöhnungsbedürftig. Also wenn etwas eine Hürde war, dann das. Also das fand ich zumindest. Wir haben auch dafür ein Beispiel, ja, wo das Datenformat umgewandelt wird und wie das geht in das lange Datenformat. Das benutzt dann das tidyr-Paket, was auch zum tidyverse gehört. Ja, ein anderer Vorteil jetzt zum Beispiel am longen Datenformat wäre, wenn man jetzt sagt, ja, ich möchte einen... also wenn man einen Pinguin immer in einer Zeile hat, wie beim breiten Datenformat, beim wide Format, was macht man dann, wenn man den selben Pinguin nochmal wiegt und vermisst? Zum Beispiel, wenn man ihn als Kind gewogen und vermessen hat und so weiter. Und da müsste man ja für jeden Messwert nochmal Spalte einfügen. Wenn man aber diese ganzen Messungen gar nicht für alle Pinguine immer macht, dann hätten ja ganz viele dieser Spalten ganz viele leere Werte und damit könnte man auch nicht so viel anfangen. Das heißt, auch deswegen kann es sinnvoll sein, das long Datenformat zu verwenden, weil man dann nicht für jeden Pinguin eine Spalte hat, sondern zum Beispiel für jede Messung, die man durchführt, eine Zeile. Und dann kann ein Pinguin auch mehrere Zeilen beanspruchen.
Janine: Ein mehrzeiliger Pinguin.
Was gehört alles zur Spezifikation? (00:29:06)
Janine: Das ist dann jetzt so unsere Grundlage mit den Daten. Ich bin jetzt überzeugt, ich möchte das long Format benutzen und bereite die Daten entsprechend auf. So wäre jetzt mein nächster Schritt wahrscheinlich, dann die Grafik zu erstellen. Was muss ich dafür denn machen, wenn jetzt meine Daten im richtigen Format vorliegen?
Helena: Also der erste Schritt ist ja die sogenannte Spezifikation. Ich spezifiziere meinen Plot, ich sage, welche Daten ich benutzen möchte. Also im Fall von den Pinguinen sage ich, ja, ich möchte jetzt die Pinguine im Datenformat long benutzen. Und dann sage ich, welche Geometrie ich haben will, also in diesem Fall Punkte. Und da muss ich nur noch sagen, ja, was sind denn meine Aesthetics? Also auf der x-Achse möchte ich das Gewicht haben, auf der y-Achse möchte ich eben die Werte angezeigt bekommen und als Farbe möchte ich haben, ob es jetzt Schnabellänge oder Flossenlänge ist. Und dann bin ich auch schon fertig, weil andere Sachen werden in ggplot automatisch festgelegt, wenn ich die nicht benenne. Sind es kathesische Koordinaten, lineare Skala und so weiter auf den Achsen. Und ja, dann gebe ich nur noch den Plot aus.
Wann passiert das Zusammensetzen und Anzeigen? (00:30:23)
Janine: Okay, ganz am Anfang hattest du noch einen anderen Schritt erwähnt, da war noch vor dem Anzeigen das Zusammensetzen. Da hast du jetzt noch nichts zu gesagt. Wo und wann kommt dieses Zusammensetzen denn vor?
Helena: Ja, also wenn ich standardmäßig in ggplot ein Plot ausgebe, dann wird zuerst der Plot zusammengesetzt und dann angezeigt. Und das Zusammensetzen ist quasi der Schritt, in dem ggplot alle Sachen aus der Spezifikation nimmt und sich dann anguckt, ja, was mache ich denn jetzt damit? Also es guckt sich dann die Daten an und welche verschiedenen Ästhetics ich habe und dann kann es zum Beispiel sagen, ja, ich habe jetzt folgende Gruppen und für jeder Einzel dieser Gruppen soll ich einen Boxplot ausrechnen. Und das passiert in diesem Schritt. Das heißt, hier werden die Statistiken angewendet und es wird auch geguckt, auf welche Punkte was dargestellt werden soll, welche Achsen ich brauche, welche Legende ich brauche, wo die Legende steht, wie viel Platz diese Legende braucht. Das heißt, wenn die Legende sehr lange Texte enthält, wird der Plot kleiner zum Beispiel. All diese Dinge werden jetzt ausgerechnet.
Janine: Also sozusagen das passiert, sobald ich quasi meinen Code ausführe?
Helena: Das passiert, wenn du deinen Plot ausgeben willst bei ggplot standardmäßig. Also den Code für die Spezifikation hast du zu dem Zeitpunkt schon längst ausgeführt und machst das nicht mehr. Genau. Und in ggplot heißt das Ganze dann ggbuild. Das ist eine Funktion, die kann man auch aktiv aufrufen. In der Regel macht man das allerdings nicht. Und was dabei herauskommt bei dieser Funktion, ist dann eben eine Tabelle, in der all die typischen Elemente von so einem Plot drin sind. Also die Achse, die Beschriftung, Titel vielleicht von dem Plot. Und dann steht da auch immer drin, zu den einzelnen, wie groß die Sachen sind und so weiter. Diese Tabelle wird dann am Ende verwendet, um tatsächlich das Ganze zu rendern, also als Grafik darzustellen. Das heißt, der erste Schritt ist erstmal unabhängig davon, mit welcher Grafik es am Ende wird. Es ist schon noch relevant, wie viele Pixel zum Beispiel eine Grafik haben soll und wie groß die Schrifttypen sind. Das muss man schon vorher wissen beim Zusammenbauen, weil ja berechnet wird, wie groß ist denn die Legende zum Beispiel. Aber man hat jetzt noch keinen Punkt gemalt. Erst wenn man das alles zusammen gerechnet hat, dann kann man anfangen, Punkte zu malen. Auf zum Beispiel einer png-Datei oder auf dem Bildschirm und so weiter. Während man in der Regel diesen Unterschied nicht sieht, ergibt das allerdings schon Sinn, auch manchmal diese Zwischenschritte zu machen und damit zu arbeiten. Weil wenn ich jetzt zum Beispiel irgendwie einen Plot habe und auf einer Webseite anzeigen lasse, dann irgendwo hinklicke und wissen will, welcher Wert gehört denn jetzt zu diesem Pixel, dann muss man ja irgendwie in der Lage sein, auszurechnen, welcher Wert zu diesem Pixel gehört. Und dazu braucht man dann eben die Werte aus diesem Zusammensetzen, aus dieser Tabelle, um dann zu wissen, mit welchem Pixel korrespondiert denn das überhaupt. Und das lässt sich damit ausrechnen. Zum Beispiel auch wenn man so eine Zoom-Funktion haben will. Man möchte einen Bereich markieren am Computer, da muss ja irgendwie R auch wissen, welcher Bereich wurde denn jetzt angeklickt. Und man kriegt ja erstmal die Pixel, die auf der Grafik sind, zurück. Und da muss man das auch ausrechnen. Das hatte ich zum Beispiel für einen Kunden gemacht, um ja ein bisschen Interaktivität herzustellen.
Janine: Also ich versuche es ja immer in Vergleichen und vielleicht sind mehr Menschen, die zuhören, mit LaTeX vertraut als mit R oder ggplot. Ich weiß es nicht. Die Chance ist vielleich ganz gut...
Helena: Aber LaTeX ist jetzt auch nicht so verbreitet.
Janine: Nee, vielleicht nicht. Es ist selbst bei mir angekommen. Aber da ist es ja auch so, wenn ich mein Dokument dann anzeigen lassen möchte, mein fertiges PDF, das dann eben, also ich drücke auch im Prinzip auf Anzeigen oder Build und dann entsteht das PDF und dabei werden ja auch mehrere Schritte vollzogen, wenn ich Literaturverweise habe, auf welche Seite die sich beziehen und so. Das sind ja mehrere Durchläufe, die LaTeX macht, bis es sich quasi richtig zusammengesetzt hat und sich anzeigen kann. Also kann man das vielleicht so ein bisschen vergleichen?
Helena: Ja, im Prinzip schon.
Janine: Okay.
Helena: Gerade wenn man auch noch anfängt, Änderungen zu machen. Weil wenn man diese Tabelle hat, kann man ja auch anfangen, die zu benutzen und dann Werte in dieser Tabelle zu ändern. Also wenn man jetzt zum Beispiel mehrere Grafiken in einem Plot anzeigen möchte und zwar untereinander so, dass die x-Achse immer die gleichen Werte hat, dann hat ggplot dafür eine fertige Funktion, nämlich die sogenannten Facets. Da kann man dann quasi die gleichen Daten in verschiedene Plots aufteilen. Das ist grundsätzlich ganz gut, aber für einen Kunden hatte ich dann auch die Anforderung, dass jeder dieser Plots auch eine eigene Legende haben sollte und das kann ggplot dann wieder nicht selber. Das heißt, ich musste das ein bisschen nachbauen und um das zu machen, habe ich dann eben diese Tabellen genommen, die ggplot erzeugt hat für die verschiedenen Plots und dann die Größen von den einzelnen Elementen angepasst, sodass dann auch wirklich die beiden x-Achsen genau untereinander dargestellt werden konnten. Ggplot hat zwar immer noch alles zusammengebaut, aber danach habe ich halt ein bisschen was modifiziert und das danach erst gerendert. Das gehört natürlich eher zu den fortgeschrittenen Möglichkeiten, die man mit ggplot durchaus auch hat, aber die findet man nicht unbedingt in der Doku, sondern die findet man eher, wenn man sich existierenden Programmcode von anderen Leuten oder auch von ggplot selber anguckt. Das habe ich auch öfter deswegen gemacht, um herauszufinden, was eigentlich da passiert.
Janine: Ja, klingt auf jeden Fall sehr gut und auch sehr variabel noch in den Möglichkeiten, die sich am Ende so anschließen, wenn man das so ein bisschen durchstiegen hat, was da passiert.
Helena: Ja, genau. Und das, was ich jetzt gerade als Beispiel hatte, dafür gibt es mittlerweile auch ein passendes ggplot-Erweiterungspaket, ...
Janine: Ahja!
Helena: ...dass das schon automatisch macht. Als ich diese Anforderungen hatte vor ein paar Jahren, gab es das noch nicht.
Janine: Ja, das ist natürlich auch der Vorteil, dass die Leute, also die Community drumherum es immer weiterentwickelt auch und nachbessert, was halt jetzt erforderlich wird.
Helena: Ja.
Welche potentiellen Nachteile hat ggplot? (00:36:49)
Janine: Wir haben ja jetzt einige Sachen gehört, die doch irgendwie, habe ich so das Gefühl, sehr für ggplot sprechen. Du sagst ja auch, du arbeitest viel damit. Von daher ist es auch das Tool deiner Wahl sozusagen.
Helena: Ja.
Janine: Aber die meisten Sachen haben ja auf zwei Seiten und du hast, glaube ich, auch schon so die ein oder andere kleine Grenze erwähnt. Wie sieht es denn bei ggplot aus mit den Nachteilen? Also was muss ich abwägen, so vor-/nachteilsmäßig, wenn ich daran denke, ggplot einsetzen zu wollen?
Helena: Ja, also ein Nachteil bei ggplot, den ich durchaus schon öfter mal gesehen habe, ist, dadurch, dass Spezifikation und das Zusammensetzen eben getrennt voneinander sind, fallen manche Fehler in der Spezifikation erst auf, wenn man es zusammensetzen will. Das heißt, in dem Moment, wo ich dann die eine Codezeile, die irgendwie Quatsch produziert, ausführe, funktioniert alles, aber erst wenn es dann zusammengesetzt werden soll, ist es kaputt. Und das macht es ein bisschen schwierig, Fehler zu finden und ggplot zu debuggen. Wenn man jetzt so eine interaktive Sitzung hat, dann zeigt man sich auch einfach nach jedem einzelnen Spezifikationsschritt einmal ein bisschen an, was da passiert. Aber das muss man dann halt auch wissen, warum man das tut, sonst wundert man sich hinterher, ja, ich habe jetzt diese Gruppierung vorgenommen und am Ende sind die Gruppen alle leer und dann funktioniert die Statistische Analyse nicht mehr, aber man sieht erst mal gar nicht, warum.
Janine: Ja, und was ist da so dein Workflow, um solche Fehler dann zu identifizieren? Ist das wie bei anderen Sachen, dass man bestimmte Abschnitte erst mal auskommentiert und guckt, wo es scheitert oder wie kann man da dran arbeiten?
Helena: Ja, also ich würde jeden einzelnen Schritt erst mal mir angucken, jeden Zwischenschritt. Und ja, wenn das Ganze nicht interaktiv läuft, dann baue ich da eher Abfragen ein, ob bestimmte Listen vielleicht null sind.
Janine: Also quasi zwischen Ergebnisse prüfen.
Helena: Ja, zwischen den Status prüfen und die Annahmen überprüfen, dass das überhaupt zu dem Plot passt, was man an Daten reingibt zum Beispiel. Daran kann es ja auch scheitern, dass irgendwie die Daten, die sind alle leer. Fällt auch nicht auf, wenn man die Daten ggplot gibt, sondern alles beim Anzeigen. Ein weiterer Nachteil kann eben sein, dass weil eben ggplot selber diese Gruppen ausrechnet, zu denen dann statistische Analysen gerechnet werden. Ich weiß auch nicht so genau warum, das ineffizient ist manchmal. Aber dieses Aufteilen der Daten in Gruppen produziert sehr großen RAM-Verbrauch, wenn die Daten sehr groß sind. Das heißt, man kann teilweise ein bisschen unnötig viel Speicher verbrauchen an dieser Stelle. Was man natürlich nicht als Problem hat, wenn man vorher die Statistik schon selber berechnet hat. Was dann auch wieder dazu führt, dass ich nicht so richtig verstehe, warum das so ist. Weil ich mache ja doch auch nichts anderes als ggplot.
Janine: Vielleicht muss es sich nebenbei zu viel merken auf einmal...
Helena: Ja.
Janine: ...bis es dann das fertige Ergebnis hat.
Helena: Ja, vielleicht. Aber das ist auf jeden Fall auch schon eine Sache, wo ich dann doch dieses Prinzip mit, dass ggplot die Statistik berechnen soll, einmal aufgeweicht habe und gesagt habe, ja, ich baue jetzt meine eigene Boxplot-Geometrie, wo ich tatsächlich nur die ausgerechneten Werte reinschmeiße. Weil das für manche Fälle einfach vom RAM-Verbrauch her nicht mehr ertragbar war und auf den System wo das lief halt nicht mehr funktioniert hat. Ja, und ggplot ist ja durchaus in erster Linie für statistische Grafiken gebaut worden und das merkt man insbesondere, wenn man mit sogenannten "time-series-data" zu tun hat, also Daten, bei denen auf der x-Achse die Zeit steht. Also ich meine, ggplot kann das ja gut und für statistische Analysen passiert das durchaus auch, dass es das darstellt, das kann dann auch schön das Datumsformat irgendwie anpassen und so weiter. Das ist zum Beispiel eine andere Skala noch, dass man einfach sagt, ich möchte in der Skala Tage haben oder so. Das Problem ist, das sind aber dann teilweise in der Physik zum Beispiel Daten oder jetzt zum Beispiel bei der Podcast-Aufnahme sogenannte Wellenformen, da misst man irgendwie 40.000 Messwerte pro Sekunde, das heißt, wenn man sich irgendwie eine ganze Minute anguckt, sind das schon über eine Million Datenpunkte. Und ja, Tools, die extra dafür gebaut sind, wissen dann genau, dass sie nicht jeden Punkt einzeln malen müssen.
Janine: Ja.
Helena: Sondern nur sagen müssen, ja, dass man Ausschläge sieht, dass man auf jeden Fall für jeden Zeitpunkt irgendwie Minimum und Maximum dargestellt bekommt, aber man muss nicht jeden einzelnen Punkt malen. Das ist allerdings nicht das, was ggplot tut. Wenn ich da jetzt irgendwie sage, ich möchte Liniendiagramm haben oder ein Punktdiagramm, malt es auch jeden einzelnen Punkt und jede einzelne Linie. Das heißt, wenn ich eine Million Datenpunkte als Linien darstellen will, dauert das sehr lange. Das sollte man damit nicht darstellen, weil andere Programme kriegen das innerhalb von einer Sekunde hin ohne Probleme. Das ist einfach nicht darauf optimiert. Das, was ggplot gut kann, kann es gut, aber eine Million Datenpunkte darstellen gehört nicht dazu.
Janine: Ja, okay. Was sind denn vielleicht so als abschließende Frage nochmal dazu so deine Lieblingsanwendungen? Wann bist du dir immer sehr sicher, jetzt ist ggplot das Richtige?
Helena: Ja, also ggplot, ja, lässt sich sehr dynamisch verwenden. Das heißt, ich kann eine ganze Menge anpassen. Klar gibt es den Nachteil, dass es manchmal ganz spezielle Begrenzungen gibt, die das sehr viel komplizierter machen. Aber in den allermeisten Fällen ist es viel einfacher als andere Plots, weil viele Dinge mit viel weniger Code möglich sind. Also wenn ich meinen Plot sehr stark farblich und stilistisch anpassen möchte, dann gefällt es mir sehr gut, weil es schnell geht und weil ich sehr gute Möglichkeiten habe, es so anzupassen, wie ich es gerne hätte. Und andere Plottools, die ich so benutzt habe, waren doch sehr umständlich. Entweder weil man da sehr viel rumklicken muss, wie bei zum Beispiel Excel oder so was wie Origin, was wir in Physiklaboren öfter mal hatten, so ein grafisches Tool. Und programmatisch ist es halt viel klarer strukturiert als so was wie Matplotlib für Python. Also mit Matplotlib gibt es irgendwie das Problem im Gegensatz zu ggplot, dass dieselbe Sache irgendwie, je nachdem, wie man sie verwendet, verschiedene Namen haben kann und anders funktioniert und die Doku beinhaltet immer nur eine Variante, die dann aber nicht besonders gut performt, wenn man mehrere Grafiken gleichzeitig darstellen möchte oder so. Und das sind alles Dinge, die ggplot halt einfach so kann. Man hat immer einen Plot und dieser Plot lässt sich gut abspeichern. Man kann dann einfach, wenn man verschiedene Variablen hat, verschiedene Plots einfach benutzen und damit arbeiten.
Janine: Würdest du auch sagen, also wir hatten ja in der Folge 13 über Datenvisualisierung eben diese verschiedenen Funktionen oder Ansätze aufgemacht, wofür Datenvisualisierung benutzt werden kann, also halt Kommunikation, ich möchte zeigen, was da passiert, oder eben auch Exploration. Würdest du sagen, aufgrund der Flexibilität von ggplot, dass es sich besonders für die Datenexploration eignet, um überhaupt zu erkunden, was in den Datensätzen verborgen ist?
Helena: Ich finde, es eignet sich sehr gut für Kommunikation, weil man halt sehr gute, hübsche Plots generiert. Bei Exploration gibt es so ein paar Kleinigkeiten, wo es gibt halt auch ein Standardplottingtool in R, das in der Regel ziemlich hässliche Plots macht, aus meiner Perspektive, aber für ganz bestimmte explorative Aufgaben durchaus schneller funktioniert, weil wenn man jetzt irgendwie eine Tabelle hat mit zehn Einträgen und diese Einträge alle gegeneinander plotten und so weiter, funktioniert zum Beispiel mit dem Standardplottool viel besser, was für eine Exploration halt schon auch nützlich ist. Also es ist auch mit ggplot gut machbar, aber manchmal ist dieses Standardtool doch ein bisschen schneller, also in der Anwendung. Wenn man einfach nur einmal ganz groben Überblick haben will, wenn man nicht will, dass das irgendwer anders zu Gesicht bekommt, dann kann das schon manchmal effizienter sein, einfach die normale Plotfunktion zu benutzen auf eine Tabelle.
Janine: Dann würde ich sagen, haben wir eigentlich einmal alles abgearbeitet, was wir so ansprechen wollten, oder? Und könnten zum Fazit kommen.
Helena: Ja.
Fazit (00:45:18)
Janine: Ja, ich fange vielleicht dieses Mal an. Also ich habe gelernt, ich habe schon sehr oft aufgrund des Zusammenarbeitens mit dir ggplot gehört, den Begriff, aber ich wusste tatsächlich nicht, dass da wirklich Grammar auf Graphics hinter steckt, also die Grammatik der Graphen quasi wirklich die Grundlagen dafür, wie Grafiken zusammengesetzt werden, sozusagen. Also ja, das nehme ich auf jeden Fall mit. Und eben diese sechs Prinzipien, dass es halt wirklich ganz gut ist, so diese Schritte sich vor Augen zu führen, wie ich von den Daten, die ich habe, bis hin zu einer Anzeige komme, die für andere auch lesbar und nutzbar ist. Das habe ich jetzt vor allem mitgenommen. Und ja, dass es halt eben Vor- und Nachteile gibt, was wir eben am Ende hatten.
Helena: Ja, mein Fazit ist, also ich finde das Konzept, Grafiken eben durch so eine Art sogenannte Grammatik irgendwie strukturierter zu machen, sehr schön, weil dadurch das, was man zu tun hat, halt auch immer eine klare Funktion erfüllt. Und während es natürlich manchmal auch sehr schön ist, wenn man einfach dynamisch beliebig Dinge malen kann, ist es eben für statistische Auswertung schon schön, wenn das gewissen Regeln folgt, die einfach die Nachvollziehbarkeit erhöhen.
Janine: Ja, definitiv.
Helena: Und ich würde allen Leuten, die zweidimensionale Grafiken machen wollen, definitiv empfehlen, mit ggplot zu arbeiten.
Janine: Ja, und ihr findet auch einige interessante Links dazu in den Shownotes. Da haben wir ein bisschen was zusammengesammelt, worüber wir hier gesprochen haben, was wir angerissen haben, und da könnt ihr euch nochmal umgucken.
Nächste Folge: Jahresrückblick im Dezember (00:47:00)
Helena: Ja, und in der nächsten Folge gibt es unseren Jahresrückblick, ja, im Dezember. Also wir hatten ja bisher jedes Jahr einen Jahresrückblick gemacht, zu jedem Jahr, und diesmal machen wir den eben als nächstes, weil es irgendwie bei Jahresrückblicken durchaus nicht unüblich ist, dass irgendwie noch mehrere Wochen fehlen.
Janine: Mal gucken, was wir dann im Januar noch ergänzen.
Helena: Ja, wir haben auf jeden Fall fleißig über das Jahr gesammelt, was es so an spannenden Themen gab und auch Updates zu Themen, die wir im Laufe des Jahres oder des Podcasts allgemein hatten.
Call to Action (00:47:35)
Janine: Ja, und wenn ihr das und andere Folgen von uns hören möchtet und nichts verpassen wollt, folgt uns gern auf mastodon unter @datenleben@podcasts.social. Ihr könnt uns auch auf der Webseite besuchen, www.datenleben.de, da findet ihr übrigens auch unseren RSS-Feed, nur mal so nebenbei. Und ja, hinterlasst uns gerne Feedback, wir würden uns darüber sehr freuen. Und dieses Mal nochmal der Hinweis, wir haben übrigens auch einen YouTube-Kanal, wo wir kleine Videos zu unseren Einspielern veröffentlichen. Wenn ihr also kurze Themen oder Geschichten mit Leuten teilen möchtet, die ihr kennt und sich so etwas durchaus mal anhören würden, aber eben keine ganze Stunde, dann könnt ihr die Videos auch rumreichen. Und ja, schaut vorbei, klickt, liked, macht all diese Dinge.
Outro (00:48:23)
Helena: Ja, dann bleiben wir nur noch für die Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao!
Janine: Tschüss!
48:40
dl043: perspektiven auf data science
Episode in
datenleben
Wir glauben, dass in Data Science sehr viele verschiedene Perspektiven stecken. Deswegen wollten wir mal verschiedene Menschen aus dem Bereich Data Science sprechen und fragen, was sie so machen. In kurzen und nicht ganz so kurzen Interviews wollten wir herausfinden: Was macht ihr als Data Scientist/mit Data Science? Wie seid ihr dort hingekommen, das jetzt zu machen? Und: Was interessiert oder begeistert euch am meisten an dem, was ihr tut? Es wird um Sensordaten gehen, um die verschiedenen Wege, die Menschen zu Data Science gebracht haben und natürlich auch... große KI-Modelle wie Chat-GPT.
Bilder zur Folge
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl025: luftdaten
dl038: data feminism
dl031: können computer malen?
dl009: jahresrückblick (2020)
Datenzwerge
https://datagnome.de/
Wie man einen Datenzwerg baut
Kontakte
foosel: https://foosel.net/l
Romses: @Romses@chaos.social
Emma: @comoelcometa@chaos.social
Schlagworte zur Folge
Data Science, Sensordaten, Ausbildung, Naturwissenschaften, Psychologie, Sprachwissenschaft, Künstliche Intelligenz, Maschine Learning, Lebenswege
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 43. Folge beim Datenleben-Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch die Welt der Daten näher bringen. Was ist Data Science, was bedeuten Daten für unser Leben und was können wir aus ihnen lernen? Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.
Thema der Folge (00:00:37)
Janine: Und diese Folge heißt Perspektiven auf Data Science, weil nämlich eine ganz konkrete Idee dahinter steckt. Wir wollten mit verschiedenen Menschen aus dem Bereich Data Science sprechen und fragen, was sie so machen. Das Ganze war als Idee damit verknüpft, dass ich auf dem Chaos Communication Camp unterwegs war, dem alle vier Jahre stattfindenden großen Event des Chaos Computer Club, und dann dort in Person mit Menschen reden wollte. Das klang erst mal so ganz schön, aber wie das oft so ist mit Ideen, das kommt manchmal ganz anders, aus verschiedenen Gründen hat sich das nicht so ergeben. Deswegen habe ich es nur zu einem Interview auf dem Camp geschafft, aber ich habe nachträglich noch zwei Personen gefunden, die sich dann remote mit mir getroffen haben. Und um diese Interviews soll es heute gehen. Und ja, deswegen könnt ihr euch auf drei interessante Interviews freuen, rund um oder mit Menschen, die Dinge mit Data Science machen oder auch nicht wirklich machen.
Warum ist das Thema interessant? (00:01:43)
Helena: Ja, Data Science ist ein sehr vielfältiges Gebiet und deswegen dachten wir uns, wäre doch mal spannend, auch andere Stimmen und nicht immer nur meine zu hören. Insbesondere Lebens- und Ausbildungswege anderer Menschen sind unterschiedlich und können vielleicht auch inspirieren für die eigene Zukunftsplanung.
Janine: Genau. An dieser Stelle kommt sonst ein Einspieler, den lassen wir an dieser Stelle mal aus in dieser Folge, weil wir nicht wussten, wie wir das irgendwie zusammenführen können und uns gedacht haben, dann starten wir doch mal gleich direkt mit der Folge. Ein kleiner Disclaimer vorweg, diese Folge ist etwas experimenteller als sonst. Also allein von der Idee her, mehrere Interviews zu führen, die sehr kleine Ausschnitte abbilden. Und ja, das Ganze schlägt sich dann auch in der Audioqualität etwas nieder. Es gibt Außenaufnahmen und die sind offensichtlich noch nicht ganz meine Stärke. Vor Ort wirkte alles etwas weniger dramatisch, auch beim Reinhören der Probeaufnahme. Im Nachgang ist es vielleicht doch ein bisschen viel Atmosphäre. Also es war schon die Idee, Atmosphäre zu kriegen, aber es ist vielleicht ein bisschen viel geworden. Deswegen für die auditiv-sensiblen Menschen, wie mich selbst auch, vorweg, jedes Interview, auch die beiden, die dann remote gemacht wurden, klingt deutlich anders.
Helena: Ja, und notfalls überspringt ein Interview die Audioqualität ist sehr unterschiedlich in dem Sinne davon, dass die anderen beiden Interviews keine Atmosphäre haben. Das heißt, wenn die stört, zu viel Bass oder so auf den Ohren ist, kann man es einfach überspringen und die anderen sind dann anders.
Janine: Ja, und zum Inhaltlichen. Im Wesentlichen haben wir drei Fragen vorbereitet. Nämlich, was machst du im Bereich Data Science? Wie bist du dahin gekommen und was interessiert dich im Besonderen daran? Die variieren leicht in den einzelnen Interviews und besonders im ersten Interview werdet ihr sehen, dass das doch noch mal völlig aus dem Rahmen fällt. Aber... nun ja, unser Plan ist jetzt, die Interviews laufen zu lassen und Elena und ich sagen dann vielleicht noch ein paar Sachen drumherum. Gucken wir mal, wie dieses Experiment so läuft. Und damit, hier ist das erste Interview.
(Kurzer Musikschnippsel)
Interview zu den Datenzwergen (00:04:01)
Janine: Ich bin hier auf dem Camp, auf dem Chaos-Communication-Camp vom Chaos-Computer-Club. Es ist das Jahr 2023 und wir haben Tag 4, d.h. alle Menschen haben schon ein bisschen was hinter sich. Einige lange Nächte, einige Unwetter, einige heiße Tage, es ist gerade auch sehr heiß. Und trotzdem habe ich zwei Menschen gefunden, die mit mir reden möchten und zwar sitzen bei mir Romses und Foosel, weil ich einen Aufruf gemacht habe, wer über Data Science reden möchte. Und die beiden ins Boot geholt wurden, oder habt ihr euch selbst ins Boot geholt, ich weiß es gerade nicht.
Romses: Du hast einen Aufruf auf Mastodon gestartet und ich habe geantwortet und habe gefragt, ob das Projekt für euch interessant ist oder nicht.
Janine: Ja, und ich habe gesagt ja und deswegen seid ihr jetzt hier und ich freue mich sehr darüber. Ihr habt nämlich die Datenzwerge dabei.
Romses: Genau.
Foosel: Richtig.
Janine: Erste Frage, was macht ihr mit Data Science, macht ihr etwas mit Data Science?
Foosel: Nein.
Romses: Naja, ich habe zu Hause für mich privat ein paar Sensoren in meinem Haus verteilt, in meinem Garten verteilt. Ich habe auch einen Sensor, der bei dem ehemaligen Luftdaten-Info-Projekt mitmacht, das jetzt glaube ich die Sensor Community ist.
Janine: Ja.
Romses: Viel mehr mache ich auch nicht mehr mit Data Science, aber Daten sind interessant und deswegen mache ich da sowas.
Foosel: Ja, ich würde halt auch sagen, absolut kein formeller Data Scientist, aber meine halbe Wohnung ist vollgestopft mit Sensorik, deswegen, ich finde es einfach spannend mir Dashboards anzuschauen und Temperaturdaten, Environmental-Kram zu visualisieren, rauszufinden, was in der Welt um mich herum passiert.
Janine: Ja, sehr cool. Und ihr habt Datenzwerge. Was sind Datenzwerge?
Foosel: Datenzwerge sind im Grunde genommen kleine Wetterstationen, sagen wir mal Gartenzwerge mit einem Innenleben. Wir haben da drinnen einen Temperaturfühler, Luftdruck, Luftfeuchtigkeit, einen kleinen Sensor vorne in der Mütze, der den UV-Index misst und ein Mikrofon im Inneren, das versucht, den Schalldruck auch noch zu bestimmen. Ich sage versucht, weil wir da ein bisschen naiver waren, als wir hätten sein sollen anscheinend. Also es stellt sich heraus, Sound-Processing ist sehr schwierig. Zumindest auf dem äußerst günstigen Hardware-Kram, auf dem wir uns da bewegen.
Romses: Ja. Technisch gesehen haben wir da einen ESP8266 drin, der dann einen BMI280 ansteuert. Das ist ein Wetterdatenchip, der eben die drei Daten, Temperatur, Luftfeuchtigkeit, Luftdruck aufnimmt. Dann haben wir eine kleine Fotodiode drin, ein kleines UV-Sensing-Modul, was eben in der Mütze klebt, was über einen analogen Ausgang dann eben den Wert ausgibt, der...
Foosel: ...gemappt werden kann...
Romses: ...der gemappt werden kann auf den UV-Index. Ein kleines Mikrofon drin.
Foosel: Und das Ganze läuft halt eben über so Standard-Lipos, die man so in Powerbanks findet. Da haben wir sie auch her. Und läuft so drei bis vier Tage auf einer Zelle, weil die Dinger halt wirklich nur 30 Sekunden wach sind und dann jeweils zehn Minuten schlafen. Davon haben wir zehn Stück hier auf dem Camp verteilt.
Janine: Ja.
Foosel: Wir haben auch schon die ersten Leute, die die alle gefunden haben, denen wir jetzt eine Mate schulden.
Janine: Eine kleine Schnitzeljagd.
Romses: Ja.
Foosel: So ein bisschen, ja. Also wir haben das nicht geplant so, aber als dann die ersten Leute anfingen zu sagen, wir haben den gefunden und den gefunden und den gefunden und den gefunden, haben wir dann halt gesagt, okay, wenn du alle findest, dann sag uns Bescheid.
Janine: Okay. Wie seid ihr grundsätzlich auf die Idee gekommen? Also du hast ja gerade schon gesagt, deine Wohnung steckt voller Sensorik und du guckst dir gerne so Sachen an und du hast auch Sensoren zu Hause. Was war so die initiale Idee zu den Datenzwergen?
Romses: Das war auf der GPN diesen Jahres.
Janine: Ja.
Romses: Wir waren zusammen auf der GPN und haben das Event genossen. Und dann so am letzten Tag sind wir dann auf unserem Hotel zur GPN gegangen, haben darüber geredet. Ja, es ist ja bald das Camp und da gibt es bestimmt wieder auch coole Sachen. Und eigentlich bräuchten wir ja auch irgendein cooles Projekt. Und was könnte man denn da machen? Irgendwas mit Sensoren. Und es war heiß, wir konnten ja Temperatur und so weiter aufnehmen.
Foosel: Und dann kam dieses Wortspiel.
Romses: Genau.
Foosel: Gartenzwerg, Datenzwerg.
Janine: Und ihr habt ja auch gerade einen mitgebracht. Ich sehe ihn vor mir. Das ist wirklich ein putziges, kleines, 3D gedrucktes Kerlchen. Und ja, so sehr gartenzwergig. Ihr habt vorher auf Mastodon auch immer ganz viel schon geschrieben. Ich hatte das vorher tatsächlich schon gesehen und deswegen mich auch gefreut, dass ihr euch gemeldet habt. Und habt so ein bisschen das Projekt begleitet. Ich habe immer so 3D-Drucke zwischendurch gesehen.
Romses: Ja, es gab das Hashtag Datenzwerg-Leaks. Da wurden immer mal wieder Informationen von uns geleakt zum aktuellen Stand des Projektes.
Foosel: Genau.
Janine: Sehr gut.
Foosel: Ja.
Janine: Also wer sich dafür interessiert, wie sich das so entwickelt hat, kann wahrscheinlich auf euren Mastodon-Accounts noch mal nachgucken, wie sich das so entwickelt hat.
Foosel: Oder auch auf datanome.de...
Janine: Ja.
Foosel: ...weil da haben wir auch nochmal die Historie zusammengefasst. Da gibt es auch eine Bauanleitung. Da sind sämtliche Dashboards verlinkt. Die Dashboards werden das Camp nicht ewig überleben, weil wir die Serverinfrastruktur wahrscheinlich irgendwann zusammenpacken und die Daten einfach dann auch zusammenzippen und irgendwo ablegen, dass Leute darauf zugreifen können.
Janine: Ah, sehr schön.
Foosel: Aber halt eben nicht jetzt ewig die Infrastruktur weiterlaufen lassen wollen, wo die Dinger jetzt gerade hinloggen. Aber ja, alles was historisch ist, wird da landen und da ist auch eine Masto-W all verlinkt und alles Mögliche.
Janine: Habt ihr dann auch vor, das vielleicht auf weitere Events mitzubringen - so auf den Congress?
Foosel: Ursprünglich nein.
Romses: Aber das ist eigentlich jetzt mehr und mehr die Idee gewachsen. Ich habe bereits 100 Ideen für eine Version 2 von dem Datenzwerg.
Foosel: Ja, ja. Also wir haben, ne.
Romses: Du hast natürlich auch 100 Ideen dafür. Und vermutlich wird es darauf hinauslaufen, dass wir jetzt erstmal die Plattform stabilisieren, ein bisschen professionalisieren und dann mal gucken, ob man dann eventuell mal mehr davon produziert.
Foosel: Ja.
Romses: Hängt von vielen Faktoren ab.
Foosel: Für den Kongress hatten wir zum Beispiel schon die schnappste Idee, ob wir es vielleicht irgendwie schaffen, irgendwo günstig an CO2 Sensoren zu kommen, die auch wirklich ordentlich was messen können. Weil gerade Indoor, wir haben immer noch eine Pandemiesituation. Das ist ja alles so eine Sache. Da wäre es vielleicht auch ganz interessant, wenn man die ein bisschen verteilen kann. Nun werde ich wahrscheinlich auf dem Kongress nicht sein.
Romses: Ja, aber den Part übernehme ich dann.
Foosel: Den kann er dann. Das macht er dann gegebenenfalls. Und auf jeden Fall sind wir halt definitiv am Brainstormen in Richtung spätestens in vier Jahren.
Romses: Ja.
Janine: Ah, sehr schön. Also dann kann man irgendwann die Historie über die Events, auch die Daten vergleichen und vielleicht auch so eine Art Klimaprotokoll daraus ableiten.
Foosel: Es wäre auf jeden Fall auch sehr spannend, dem Ding auch irgendwie einen Regensensor zu verpassen. Solarzelle, damit wir nicht laufend Batterien tauschen müssen hier. Es gab auch schon die Idee eines Anemometers. Ja. Vielleicht so.
Janine: Was ist ein Anemometer?
Foosel: Windmessung.
Janine: Ah!
Foosel: Ja.
Romses: Könnte man hier auf die Mütze von dem Zwerg so einen kleinen Propeller verpassen.
Foosel: Und dann halt die Drehgeschwindigkeit messen.
Janine: Ja.
Foosel: Aber ja. Also insgesamt ist das ganze Projekt... hat gebraucht von der Schnapsidee bis zum Deployment auf dem Camp ziemlich genau zwei Monate.
Janine: Oh, das ist rasant.
Romses: Ja.
Foosel: Ja. Also deswegen ist halt alles so ein bisschen mit der heißen Nadel gestrickt. Aber dafür war es erstaunlich stabil jetzt die letzten Tage. Es gab hier und da ein paar kleine Ausfälle, aber eigentlich nichts gravierendes. Nichts, was wir nicht hätten irgendwie da beheben können. Am Anfang gab es ein bisschen Probleme mit dem WLAN, aber auch das ist inzwischen weitgehend in Ordnung. Je nachdem, wo auf dem Camp man sich befindet.
Janine: Ja.
Foosel: Ja, und das Schöne war halt eben auch jedes Mal, wenn wir mit den Zwergen hier irgendwie übers Camp marschiert sind, weil wir sie gerade gewartet hatten, weil wir auch, wir hatten sie mehr so Stück für Stück deployed.
Janine: Ja.
Foosel: Wir sind laufend angehalten worden. Was ist das denn? Die Leute haben einfach nur gelächelt und auch sehr viel Gesprächsstoff, waren dann auch neugierig, wo sie die Daten finden. Deswegen ist auch ein Sticker auf jedem Datenzwerg, wo halt erklärt wird, wo er das findet, wo das gefunden wird.
Janine: Und mit QR-Code sehe ich gerade.
Romses: Genau.
Foosel: Ja. Und halt sowohl auch in Deutsch als auch in Englisch und wo halt eben auch informiert wird, hey, ich bin einer von zehn, wo sind die anderen?
Janine: Ja.
Foosel: Und das hat wohl dann wohl auch so eine leichte Schnitzeljagd gespawnt bei manchen Leuten hier, was auch sehr schön zu sehen ist. Wir sehen dann auf Mastodon immer mal nur so morgens, hey, ich habe einen Zwerg gefunden. Das ist großartig.
Janine: Und sie haben auch alle einen Namen.
Foosel: Ja.
Romses: Es gibt sieben kanonischen Namen.
Foosel: Naja, Disney-kanonischen Namen.
Romses: Disney-kanonischen Namen. Und wir hatten aber insgesamt Material für zehn Datenzwerge. Dementsprechend sind drei zusätzliche Zwerge entstanden.
Foosel: Ja, also wir haben halt eben...
Romses: Kinky, Nerdy und Hefty.
Foosel: Hefty. Wir haben einen Schlumpf rekrutiert noch. Ja.
Janine: Sehr gut.
Foosel: Also es sind zehn Stück und wir wissen grob, wo sie stehen. Immerhin.
Janine: Haben Sie auch einen GPS-Sensor drin?
Romses: Nein.
Foosel: Nee, wir haben tatsächlich überlegt, aber das hätte den Kosten der (unverständliches Wort) einfach komplett explodieren lassen. Insgesamt sind wir, glaube ich, jetzt für alle zehn Zwerge beide so mit so um die 100 Euro reingegangen. Ja. Pro Zwerg kann man sagen, so irgendwas zwischen 20 und 25 Euro steckt da jetzt an Material drin.
Janine: Ja.
Foosel: Über die Arbeit reden wir nicht.
Romses: Ja.
Janine: Ein Liebhaber-Projekt.
Foosel: Ja, auf jeden Fall.
Janine: Und ihr hattet eben noch erwähnt, auf der Internetseite wäre eine Bauanleitung.
Romses und Foosel: Ja.
Janine: Das heißt, ihr habt da einmal alle technischen Details aufgelistet, welche Inhalte drin sind.
Foosel: Alles, was man braucht. Welche Sensorik.
Romses: Wie man das auf einem Perfboard anordnen kann. Wie man dann die Lötspuren setzen muss. Wir haben auch, das müssen wir jetzt nochmal gucken, ob das tatsächlich dem finalen Stand entspricht. Wir haben auch so genannte Gerber-Files dastehen. Mit denen kann man zu einem PCB-Manufaktur gehen und kann sich dann ein gedrucktes PCB besorgen. Janine: Ah ja.
Romses: Was der ganzen Sache natürlich dann nochmal ein bisschen eine professionelle Aussehen gibt.
Janine: Ja. Und die 3D-Druckdatei, ist die auch mit dabei?
Foosel: Das ist alles dabei. Ja.
Janine: Perfekt.
Foosel: Ich hoffe, dass niemand komplett mich versucht, deswegen zu steinigen. Ich musste furchtbare Dinge in Blender tun, um diesen Zwerg. Das war ein Zwerg, den haben wir online gefunden unter einer offenen Lizenz. Das Grundmodell. Wir haben das, wie war das, 20% nach oben und 40% in beide Richtungen.
Romses: Er ist ein bisschen chonkier geworden.
Foosel: Er ist ein Chonky-Guy jetzt, ja. Und da musste halt noch ausgehöhlt werden. Es mussten Mounting-Points für Magneten, damit wir sie halt eben wirklich öffnen können und einfach an die Innereien drankommen.
Janine: Er wurde gerade halbiert, für alle, die das jetzt nicht sehen können. Die Füße bleiben stehen und oben im oberen Teil, das tatsächlich hohl ist, da steckt die ganze Technik drin.
Foosel: Genau. Und die Verbindungspunkte sind halt jeweils drei Magneten und es ist noch so ein bisschen so ein Lüftungsschlitz, um so leicht für eine Ventilation zu sorgen.
Janine: Ja.
Foosel: Das musste halt alles irgendwie in dieses 3D-Modell rein, was uns nur als Mesh vorlag. Also nicht als, wir hatten da keine Step-Dateien, die einfach zu editieren gewesen wären, sondern da musste halt wirklich mit Blender einzelne Dreiecke gesetzt werden. Das habe ich getan. Es ist ein bisschen...
Romses: Da bin ich dir auch sehr dankbar für.
Foosel: ...es ist hässlich an ein paar Stellen, also vor allem vom Design her, aber es druckte.
Romses: Es musste schnell gehen.
Foosel: Ja. Insgesamt haben wir 60 Stunden, nur für die Zwerge, die jetzt hier deployed sind, an Druckzeit auch gehabt. Also das Oberteil brauchte irgendwie fünf Stunden pro Zwerg, das Unterteil eine und mit einer sehr großen Nozzle.
Janine: Ja.
Romses: Die ersten zwei elektronischen Innenleben haben jeweils acht Stunden gebraucht, da haben wir uns zusammengesetzt, haben an einem Wochenende mal die ersten zwei gebaut, erstmal so designt, wie soll das überhaupt aussehen und dann haben wir uns ein zweites Wochenende gedruckt und die restlichen acht zusammengebaut.
Foosel: Von Hand, alle gelötet.
Romses: Alles handgelötet.
Foosel: PCB wäre schöner gewesen, aber wir waren uns nicht sicher, ob das zeitlich noch hinkommt, weil wenn da ein Fehler auf der Schaltung gewesen wäre, den dann zu bereinigen, das nochmal machen zu lassen und so, und so haben wir es halt einfach alles von Hand gemacht.
Janine: Ja, also auch eine aufwendige Betreuung der Datenzwergenherde sozusagen.
Foosel: Ja, wir haben hier einige Laufkilometer mittlerweile auf den Schuhen drauf.
Janine: Schön, ich finde es ein wundervolles Projekt, dass ihr euch darum kümmert und auch die Daten zur Verfügung stellt, damit Menschen da nochmal reingucken können, auch wie das Camp so war und vielleicht mit dem Nächsten vergleichen können. Habt ihr noch irgendetwas zu sagen, zu droppen? Was macht ihr sonst so? Möchtet ihr noch irgendwelche Projekte highlighten sonst? Oder habt ihr noch was?
Foosel: Ja, ich meine, also lass es mich so sagen, das ganze mit dem 3D-Druck ging mir sehr einfach von Hand, weil ich auch die Maintainerin und Erfinderin von Octoprint bin, Frontend für 3D-Drucker recht weit verbreitet und das war dann so ein Projekt, wo ich endlich auch mal wieder selber zum Drucken kam und nicht immer nur die Ansteuerungssoftware für den Drucker geschrieben habe. Von daher, ja.
Janine: Sehr schön.
Romses: Ja, wie gesagt, ich habe jetzt eigentlich kein Irgendwie öffentlich sichtbares Projekt, von dem man mich kennen könnte oder so, aber ich baue halt schon privat, ich habe da ein großes Interesse dran. Jede Menge auf dieser Plattform ESP8266, die wir hier haben. Das ist so mein Feld-, Wald- und Wiesencontroller, mit dem ich gerne arbeite und die Sensoren waren mir auch relativ gut bekannt. Und dazu haben wir jetzt, wir haben noch gar nicht über die Software gesprochen. Die Firmware, die auf den ESPs läuft, ist ein ESPHome. Das ist ein Projekt, was aus der Home Assistant Community kommt.
Janine: Ja.
Romses: Und die Software haben wir so ein kleines bisschen gehijackt. Also wir haben die Haupt-API, die das Ding normalerweise verwendet, haben wir abgeschaltet und haben aber unsere eigene API dann dafür eingebaut. Das Ding stellt auch öffentlich zwei API-Endpunkte bereit. Das eine ist eine Influx-DB, das ist eine Datenbank, auf die wir lesenden Zugriff ermöglichen. Damit kann man sich die komplette Historie der Zwerge angucken. Und dann gibt es als zweite API noch eine MQTT-API, die dann jeweils immer nur die aktuellen Werte anzeigt.
Janine: Das heißt, so ein bisschen reingefrickelt und ein bisschen anders gemacht. Aber wenn ich jetzt zum Beispiel ein Home Assistant zu Hause hätte und würde mir so ein Datenzwerg nach eurer Anleitung zusammenbauen, könnte ich den dann in den Garten setzen und mit dem eigenen Home Assistant connecten.
Romses: Genau.
Foosel: Absolut, ja. Man müsste vielleicht eine kleine Änderung noch an der Firmware-Datei... Also man sollte dazu sagen, ESPHome erlaubt einem, dass man im Grunde genommen nur so eine Konfigurationsdatei anlegt, die ist in YAML geschrieben. Das ist relativ easy eigentlich. Also wesentlich easier auf jeden Fall, als wenn man jetzt anfangen müsste, C-Code zu schreiben, um irgendwas anzupassen. Da müsste man eine Kleinigkeit anpassen, dann könnte man das auch direkt in seinen Home Assistant loggen lassen. Und ja, das hat uns halt... Also ursprünglich wollten wir ja eigene Firmware schreiben, ...
Romses: Ja.
Foosel: ...aber wir hatten dann ein Prototyp auf ESPHome aufgesetzt und festgestellt, wie unglaublich viel Zeit uns das einfach gespart hat jetzt. Also auch gerade mit Sensorik, die da noch angebunden werden musste.
Janine: Das glaube ich. Also wir haben einen Home Assistant auch zu Hause, deswegen frage ich auch noch mal nach. Da wurde schon mal dazu angehalten, mich damit auch mal zu beschäftigen und in der YAML Sachen zu konfigurieren. Das kann man wirklich, wenn man sich das mal angeguckt hat, eigentlich ganz gut nachvollziehen. Es gibt eine gute Doku dazu. Man kann das wirklich gut integrieren, glaube ich, wenn man das eh schon zu Hause hat.
Romses: Also im Großen und Ganzen die einzigen Änderungen, die gemacht werden müssen, man muss das heimische WLAN jetzt anpassen, weil wir haben jetzt hier das Camp-WLAN aktiviert. Dann muss man die ESPHome-API wieder aktivieren und bei Bedarf das InflexiBI-API und die MQTT-API deaktivieren. Und dann ist man voll kompatibel mit Home Assistant.
Foosel: Ja.
Janine: Sehr cool. Schön. Also habt ihr auch noch ein sehr nachhaltiges Projekt gemacht.
Foosel: Versehentlich.
Janine: Dass Leute dann auch zu Hause nachbauen können, um Sachen zu machen. Sehr schön. Das klingt sehr gut. Ja, dann sind wir, glaube ich, am Ende. Und ich habe mich gefreut, mich mit euch unterhalten zu können darüber. Danke, dass ihr Zeit hattet hier auf dem Camp bei der Hitze auch noch mal. Wahrscheinlich macht ihr das die ganze Tag eh schon, über Datenzwerge zu reden.
Foosel: Recht viel, ja.
Janine: Und das dann auch noch mal für uns gemacht habt. Ja, war sehr schön. Vielen Dank und Wiedersehen.
Romses: Ich habe zu danken.
Foosel: Vielen, vielen Dank.
(Kurzer Musikschnippsel)
Helena: Ja, ist auf jeden Fall interessant, weil das klingt auf jeden Fall nach einem super schönen Data Science Thema oder was für mich auch interessant ist irgendwie, weil Daten gesammelt werden. Aber nicht jeder, der Daten sammelt, muss halt auch selber Data Science machen. Und ja, ich fand die Idee mit den Datenzwergen schon ganz witzig, als ich die vor dem Camp gesehen hatte auf Mastodon. Und finde ich cool, dass das geklappt hat, dass du das Interview geholt hast, dass du die interviewt hast und vielen Dank. Ja, ein paar Begriffe sind jetzt gefallen, die wir vielleicht noch mal aufgreifen wollen. So was wie API, das ist so eine Programmierschnittstelle, mit der andere Programmierer dann die Daten abfragen können von den Datenzwergen. Und so ähnlich ist auch MQTT, was hier gefallen ist, worüber auch Daten verteilt werden können. Das ist aber mehr so ein Nachrichtenaustauschverfahren, um Nachrichten zwischen verschiedenen Computern oder Programmen auszutauschen. Und in diesen Nachrichten sind dann eben dann die Messdaten drin.
Janine: Mir hat das Interview auch viel Spaß gemacht, wie man vermutlich auch gehört hat. Und ich fand das sehr schön, dass Foosel gesagt hat, ausversehen nachhaltig, weil andere auch damit arbeiten können. Weil die Dinge bereitstehen, die du ja auch gerade erklärt hast, noch mal, was das begrifflich ist.
Helena: Ja.
Janine: Und ich fand es auch ganz schön, also welcher Aspekt mir jetzt so im Nachgang noch mal auffällt, ist halt wirklich CO2-Sensoren in die Datenzwerge bauen und sie dann vielleicht zum Congress mitnehmen. Das klingt auf jeden Fall ganz gut. Wo der Herbst gerade immer mehr anzieht.
Helena: Ja, eine Sache, die ja auch immer interessant ist, ist ja auch diese Vergleichbarkeit der Daten, wenn man die Datenzwerge dann zu anderen Veranstaltungen mit hinnimmt. Dazu wollte ich dann noch anmerken, ja, ändert bitte nicht die Sensoren für die Daten, die ihr bereits nutzt, sondern fügt nur neue hinzu, einfach um die Vergleichbarkeit zwischen den verschiedenen Jahren zu verbessern. Und wenn man neue Sensoren haben möchte, vielleicht für ein paar Veranstaltungen mit den alten parallel laufen lassen, damit man in der Lage ist, die Unterschiede aufzufangen. Weil ja, unser Motto ist ja, kenne dein Messverfahren. Und wenn man einfach die Sensoren ändert, ohne darauf zu achten, dass die auch wirklich genau gleich messen oder vielleicht eine Abweichung haben, die man vielleicht wegrechnen könnte, wenn man später vergleichen möchte. Ja, das sollte man halt bedenken und messen am besten.
Janine: Ja, das erinnert mich auch sehr stark tatsächlich an, deswegen war ja das Datenzwergthema so interessant, an unsere Luftdatenfolge. Da haben wir ja auch über Sensoren und die Vergleichbarkeit geredet, vor allem auch mit den Bundesstationen vom Umweltbundesamt, weil die ja anders oder überhaupt geeicht sind im Vergleich zu denen, die jetzt so in den meisten gekauften kleinen Sensoren stecken.
Helena: Ja, beziehungsweise kalibriert.
Janine: Ja, kalibriert, das war das Wort, genau.
Helena: Eichen ist ein gesetzlicher Vorgang, während Kalibrieren ein messtechnischer Vorgang ist.
Janine: Ihr findet natürlich alle Links, die hier erwähnt wurden, zum Beispiel zur Beschreibung, wie dieses Projekt sich entwickelt hat und wie man das nachbauen kann zu Hause selbst. All das findet ihr dann auch in den Shownotes, die Links werde ich euch reinpacken, weil ja, zum selber probieren und tun und machen ist das ganz cool. Und dafür mag ich auch solche Projekte. Es ist ja nicht so, dass das jetzt völlig anders ist als beispielsweise das Airrohr von der Sensor Community, aber es ist halt ein Projekt, wo man selber nochmal wieder mitbasteln kann und überhaupt Projekte machen es einfach schön.
Helena: Ja, außerdem wenn man Gartenzwerge mag, kann man das ja auch nutzen, um sich selber eins in den eigenen Garten zu stellen.
Janine: Ja.
Helena: Müsste man vielleicht dann noch mit einer dauerhaften Stromversorgung versehen, weil das war jetzt eher mehr eventbasiert mit den Batterien.
Janine: Genau.
Helena: Für ein Gartenprojekt ist das dann, finde ich, eher uninteressant.
Janine: Ja, vielleicht gibt es ja bald das Solar-Upgrade.
Helena: Ja, das wäre sicherlich auch nice, wenn man dann die Steuerung hätte, das mit Solar und die Batterien dann laden und dass es dann genug hält. Aber ja, müsste man mal gucken, wie gut das funktioniert mit dem Stromverbrauch.
Janine: Ja, in dem Sinne nochmal schöne Grüße an euch beide, Romses und Foosel. War sehr gut. Wir treffen uns bestimmt mal wieder auf einem Event. Ja, das war jetzt dieses Interview, was etwas für sich steht, weil es ein bisschen anders war als das, was wir ursprünglich geplant hatten oder sich so entwickelt hat, weil es jetzt konkret eher auch um das Projekt dann ging in dem Gespräch. Aber jetzt kommen noch zwei Interviews, wo ich mit einzelnen Menschen über ihre Arbeit oder ihre Betätigung im Bereich Data Science geredet habe. Und das erste Interview ist mit Leo.
Interview mit Leo (00:23:47)
Janine: Ich habe jetzt an Helena nochmal eine Frage vorher.
Helena: Ja.
Janine: Also, und zwar fallen so zwei, drei Begriffe, wo ich denken könnte, dass es noch ganz gut ist, dass wir die vorher erklären. Kannst du vielleicht einmal kurz, bevor wir in das Interview mit Leo reinhören, sagen, was Knowledge Graphs sind?
Helena: Ja, also Knowledge Graphs beziehungsweise Wissensgraphen wäre das deutsche Wort, ist jetzt auch nicht unbedingt so viel deutlicher, weil das Wort Graph in diesem Fall eine bestimmte Bedeutung hat. Im Grunde genommen, man kann sich das so ähnlich vorstellen, also eine Variante wäre zum Beispiel so etwas wie ein Entscheidungsbaum, dass man irgendwo einen Punkt hat, wo man eine bestimmte Information hat, wie zum Beispiel ja ein Wald besteht aus Bäume und daneben ist dann ein anderer Kasten mit einer anderen Information, der dann etwas über Bäume sagt. Und wenn man ganz viele solcher Kästen aufmalt mit ganz vielen anderen Informationen und diese Informationen dann verbindet, das ist dann ein Knowledge Graph beziehungsweise ein Wissensgraph, also ein Wissensnetz.
Janine: Mich erinnert es an den einen R-Kurs, den ich mal belegt habe, wo das eine Beispiel war Passagiere der Titanic, die dann aufgeschlüsselt wurden, also die Anzahl und dann nach Klasse, also wie viele waren in der ersten Klasse, wie viele in der zweiten Klasse, so in die Richtung, meinst du das sozusagen, dass sich eine Gesamtmenge dann immer weiter unterteilt auch?
Helena: Ja, genau.
Janine: Okay. Und eine Frage habe ich noch, ich habe zwar auch eine grobe Vorstellung davon, aber White Box Classifier.
Helena: Ja, also wenn man das wörtlich auf deutsch übersetzen wäre, das weiße Kiste Classifier, das ist nicht ganz sinnvoll so zu übersetzen, eher transparente Classifier. Also wenn man irgendwie ja ein System hat, das durch maschinelles Lernen zum Beispiel irgendwie auf Fotos Katzen oder Hunde unterscheiden soll, dann spricht man eben von einem White Box Classifier, wenn das System, was das unterscheidet, wenn man die Gründe versteht, warum es das tut, wenn man versteht, was da passiert.
Janine: Mhm.
Helena: Und in vielen von den ganzen neuronalen Netzen, die man jetzt so hat, die jetzt auch viele der großen KI-Systeme, die jetzt gerade in aller Munde sind, ja, antreiben, weiß man das nicht, diese Information fehlt. Deswegen ist es eigentlich sehr interessant, dass man weiß, warum Entscheidungen getroffen werden oder warum eine bestimmte Klassifizierung vorgenommen wird. Weil wenn man irgendwelche KI-Systeme einsetzen will, wollen die Entscheidungen über Menschen zum Beispiel treffen, dann muss man ja auch die Entscheidung anfechten können. Und dazu muss man überhaupt erstmal wissen, auf was die basiert ist. Da können ja auch falsche Informationen drin sein.
Janine: Das stimmt. Das klingt auf jeden Fall schon mal sehr spannend, das jetzt so nochmal zu hören. Und ich hoffe, das verdeutlicht auch, wie cool das ist, was Leo gleich erzählt. Und deswegen hören wir jetzt mal in das Interview mit Leo rein.
(Kurzer Musikschnippsel)
Janine: Hallo Leo.
Leo: Hallo.
Janine: Wir möchten ja Menschen aus dem Bereich von Data Science interviewen und da so ein bisschen die Vielfalt abdecken. Was genau machst du denn?
Leo: Ich bin Doktorand*in der Informatik und ich beschäftige mich mit Erklärbarkeit von künstlicher Intelligenz und da bin ich in einem Nischenbereich, wo wir mit Knowledge Graphs arbeiten und mit Beschreibungslogik.
Janine: Ich habe mal in den Link reingeguckt, den du mir mitgeschickt hattest und bin da auf das Projekt gestoßen, in dem du mitarbeitest. Das scheint ja so eine Schnittstelle anzubieten zwischen Mensch, Maschine und Verständnis. Kann man das so sagen?
Leo: Ja, also das Projekt, in dem ich arbeite, ist ein größeres, das ist interdisziplinär angelegt. Da sind unter anderem Sprachwissenschaftler*innen beteiligt und Psycholog*innen und eben auch Leute aus der Informatik. Mein Teilbereich bezieht sich auf eine Form von Whitebox-Classifiern. Es gibt sogenannte Concept Learner, mit denen man auf der Basis von Knowledge Graphs Konzepte lernen kann und die benutzen, um weitere Individuen in dem Knowledge Graph zu klassifizieren. Der Vorteil daran ist, dass das ein Whitebox-Verfahren ist, dass man also aus dem Konzept unmittelbar entnehmen kann, was ist der Grund für die Klassifikation. Meine Aufgabe in dem Bereich ist dann, kontrafraktische Erklärungen zu generieren, also logische Regeln den Algorithmus anwenden zu lassen, um aus diesem Konzept eine Erklärung zu generieren, die die Frage beantwortet, was müsste ich tun, damit die Klassifikation anders ausfällt.
Janine: Okay, also es klingt auf jeden Fall sehr komplex, was du da machst. Wie bist du denn dazu gekommen, in diesem Bereich zu arbeiten?
Leo: Ich bin da relativ über Umwege reingekommen. Ich bin eigentlich Psycholog*in und habe meinen Bachelor und Master eben in Psychologie gemacht, mir dann überlegt, was will ich machen und habe mich auf Jobs im Bereich Data Science beworben, aber die Arbeitgeber*innen konnten sich alle nicht vorstellen, dass ein Psycholog*innen mit Data Science was am Hut hat. Tatsächlich ist das Psychologiestudium eine große Menge von Datenanalyse, wissenschaftliche Methoden und geht schon sehr in dem Bereich. An einigen Unis benutzt man beispielsweise auch R, um Analysen durchzuführen, also die Programmiersprache. Von daher sind Psycholog*innen teilweise auch bereits mit Programmierung vertraut und der Einstieg würde eigentlich Sinn machen. Also ich habe mich auf Stellen beworben, wo Leute gesucht wurden, die mit R arbeiten können oder Ähnliches, ja aber trotzdem nach einem Jahr erfolgloser Bewerbung festgestellt, dass der Arbeitsmarkt da nicht offen für ist. Also falls Arbeitsgeber*nnen zuhören, ihr könnt Psycholog*nnen einstellen, die können das.
Janine: Ja.
Leo: Am Ende bin ich dann ebenso mehr durch Zufall auf einer zunächst anderen, auch als Promotionsstelle gedachten Stelle an einer Fachhochschule gelandet. Da war es im Bereich Mensch-Technik-Interaktion und ging so um Smart Homes. Da durfte ich mir dann mein eigenes Thema suchen und habe da für mich die Ecke gefunden, wie kann man Erklärbarkeit von intelligenten Smart Home Systemen verbessern und wie kann man da den User mehr einbeziehen. Da habe ich zwei Jahre gearbeitet und das Projekt lief aus, da ja solche Forschungsprojekte immer begrenzt sind.
Janine: Ja.
Leo: Also habe ich mich nach einer neuen Stelle umgeschaut und bin dann da gelandet, wo ich jetzt bin.
Janine: Das klingt auf jeden Fall nach einem sehr, sehr spannenden Weg. Also auch eher quer eingestiegen in Data Science über, naja, ich sage mal, wie du es schon erklärt hast, auch verwandte Bereiche. Was hat dich daran am meisten interessiert? Warum bist du diesen Weg gegangen?
Leo: Das ist eine schwer zu beantwortende Frage. Also ich habe gemerkt im Studium, dass mir wissenschaftliches Arbeiten Spaß macht.
Janine: Mhm.
Leo: Ich hatte auch anfangs überlegt, eine Karriere in der Wissenschaft vielleicht anzustreben. Ein wesentlicher Grund, warum ich davon abgekommen bin, ist auch die Replikationskrise in der Psychologie.
Janine: Ja.
Leo: Das würde jetzt ein großes neues Thema aufmachen. Aber ja, ich habe dann im Grunde was gesucht, wo ich auch analytisch arbeiten kann. Und ja, da war Data Science naheliegend.
Janine: Ja, sehr schön. Dann danke ich dir dafür, dass du dir Zeit genommen hast, die Fragen zu beantworten. Und ich hoffe, das inspiriert vielleicht auch andere Menschen, die zuhören, sich mal umzugucken und zu schauen, was so mit ihrer Ausbildung oder ihrem Ausbildungsweg so funktionieren kann, wenn Data Science für sie interessant wäre. Vielen Dank.
Leo: Tschüss.
(Kurzer Musikschnippsel)
Helena: Ja, also ich muss sagen, nachdem ich oder während ich das gehört habe, das Interview, war ich auch sehr empört über die ganzen Firmen, die sie nicht eingestellt haben. Also, weil sie ja auch sagt, wenn man Psychologie studiert, macht man viel Statistik. Und einige von denen haben dann eben auch Spaß daran, damit zu programmieren. Von daher, dass irgendwie, und können es dann halt auch, das gar nicht erst auszuprobieren, kann ich nicht nachvollziehen. Gerade weil, in meiner Erfahrung, viele Data-Science-Teams eben interdisziplinäre Hintergründe haben. Das heißt, sehr viele verschiedene Naturwissenschaften kommen da zusammen. Und Informatiker oder Leute, die Data-Science studiert haben, sind tendenziell die Ausnahme. Letzteres auch, weil es diesen Studiengang noch nicht so lange gibt. Aber ja, das ist halt auch so ein Punkt.
Janine: Ja, ich denke auch, das ist etwas, was der Arbeitsmarkt definitiv überwinden sollte, zu starre Strukturen zu haben. Weil ich habe eigentlich das Gefühl so, es ist immer mehr erforderlich eigentlich, sich in unterschiedlichen Bereichen gleich gut auszukennen und Sachen zusammenbringen zu können. Weil Dinge nicht einfach nur rein technisch oder rein geisteswissenschaftlich sind, sondern da definitiv inzwischen, meine ich, eine deutlich größere Überlappung besteht, als noch vor einigen Jahrzehnten. Und das sollte der Arbeitsmarkt eigentlich endlich auch mal abbilden können.
Helena: Ja. Ja, eine Sache, wo Leo jetzt nicht so darauf eingegangen ist…
Janine: Weil das Thema zu groß ist, meinst du?
Helena: Weil das Thema zu groß ist, ist die Replikationskrise in der Psychologie. Und was damit gemeint ist, ist, dass es sehr viele Studien gibt, wenn man die wiederholt, die dann irgendwie zu anderen Ergebnissen kommen. Das heißt, es ist deutlich schwerer in der Psychologie aus einer Studie die Erkenntnisse zu verallgemeinern. Das kann zum Beispiel daran liegen, dass selbst wenn man versucht, eine Studie eins zu eins nachzubauen, dass man irgendwo eine Kleinigkeit dann doch ändert, weil man einfach ein anderes Teilnehmendenspektrum hat oder so. Und das kann schon der Grund sein, oder weil man die statistische Auswertung unsauber macht und dann immer nur die signifikanten Dinge hinterher berichtet in den Veröffentlichungen. Und eine Variante, gerade gegen das Letztere vorzugehen, ist, dass man ja vorher, bevor man die Studie macht, bereits veröffentlicht, dass man sie macht, einschließlich der Auswertung. Also wie man das auswertet. Die Daten muss man danach erst gewinnen, aber wie man das auswerten will, muss man vorher schon festlegen, damit man nicht während der Auswertung von irgendwie 100 möglichen Auswertvarianten die eine rauspickt, die dann ein scheinbar statistisch signifikantes Ergebnis liefert. Aber das liegt dann einfach nur an reinem Zufall. Aber weil es so viele Varianten gibt, das auszuwerten, mag es dazu führen, dass man sich genau das rauspickt. Und um das zu verhindern, gibt es eben dieses, dass man vorher bereits berichtet, wie man es auswertet.
Janine: Ja.
Helena: Das wird nicht nur in der Psychologie angewendet. Das wurde zum Beispiel auch am CERN, als das Higgs-Boson in der Physik die große Runde machte vor zehn Jahren, angewendet, dass man die Messung an dem Teilchenbeschleuniger halt durchgeführt hat. Aber das Verfahren, wie man das gemacht hat, stand vorher schon und man hat erst quasi am Tag der Pressekonferenz erst die Auswertung laufen lassen.
Janine: Ahja.
Helena: Man hat getestet, dass die Software und alles funktioniert mit Testdaten, aber die tatsächliche Auswertung hat man erst dann gemacht, damit man unabhängige Ergebnisse kriegt von Beeinflussung der Leute, die die Analysen machen.
Janine: Ja, so eine Art Vermeidung eines Bias, was das schönste Ergebnis wäre - so in etwa.
Helena: Ja, genau. Das hindert einen nicht daran, dass man hinterher nochmal die Daten hernehmen kann und andere interessante Dinge herausfinden kann. Aber da sollte man dann sagen, ja, das ist jetzt etwas, was wir dann in einer neuen Studie untersuchen und auch so auswerten wollen...
Janine: Ja.
Helena: ...auf diesen Faktor, um irgendwie zu gucken, in welche Richtung könnte man weiterforschen, ist das okay? Aber in manchen Feldern ist es halt schwierig, wenn man die Auswertung ja, hinterher macht, weil es zu viele Möglichkeiten gibt.
Janine: Ja, und also auch was Leo erzählt hat mit den Whitebox-Classifiern, das dient dann ja quasi eigentlich auch dazu, Sachen besser zu verstehen und genauer zu nachvollziehen zu können.
Helena: Ja, das stimmt.
Janine: Ja, das war dieses Interview auch wirklich sehr spannend und auch tatsächlich im Bereich KI, was du ja vorher schon erwähnt hattest, ehe wir in das Interview gegangen sind, als wir über die Begriffe geredet haben.
Interview mit Emma (00:37:10)
Janine: Ja, dann können wir jetzt gespannt sein auf das nächste Gespräch mit Emma.
(Kurzer Musikschnippsel)
Janine: Für das nächste Interview habe ich mich jetzt mit Emma getroffen. Hallo, Emma.
Emma: Hallo und vielen Dank für die Einladung.
Janine: Sehr gern. Schön, dass du dir die Zeit dafür nimmst. Genau, und ich fange einfach mal direkt mit unserer ersten Frage an. Was machst du als Data Scientist? Beziehungsweise würdest du dich selbst tatsächlich so bezeichnen?
Emma: Ja, das ist eine sehr gute Frage, weil die Antwort auf diese Frage hat sich über die letzten Jahre immer mal wieder verändert. Aktuell tue ich mir ein bisschen schwer. Ich sage immer, ich bin so eine Data Person. Und ich glaube, alle scheinen damit leben zu können. Um so ein bisschen zu erklären, warum das gerade so ist, würde ich so ein bisschen ausholen.
Janine: Ja, sehr gern.
Emma: Ich bin hier nicht aufgewachsen und habe im Erststudium Translation, also Übersetzung und Dolmetschen studiert und so bin ich nach Deutschland gekommen. Nach ein paar Jahren in diesem Leben, in Sprachgedöns, habe ich entschieden, doch noch mal in die Uni zu gehen, weil mir die Perspektiven da nicht so gut gefallen haben. Und ich war schon vorher als Jugendliche so ein bisschen nerdiger als meine Peer-Gruppe, war die Einzige im Translationsstudium, die irgendwie mit Linux gearbeitet hat und so ein Krams. Und so habe ich entschieden, irgendwie dachte ich mir so, ja, Computer und Sprachen passen ganz gut zusammen. Also studiere ich irgendwie Informatik, um in die Richtung Computer Linguistik, Natural Language Processing zu gehen, irgendwas zu tun. Und spannenderweise während des Informatikstudiums bin ich so ein bisschen da abgewogen und kam von diesem, okay, ja, um Natural Language Processing zu machen, muss man irgendwie so mit größeren Datenmengen umgehen. Das ist super spannend, ich mache alles, was mit größeren Datenmengen zu tun hat.
Janine: Das heißt, du hast dann angefangen, mit größeren Datenmengen zu arbeiten?
Emma: Genau, also ich habe so alle diese Sachen an der Uni mich interessiert und immer weiter vertieft und dann habe ich angefangen, in so einem ganz anderen Bereich als Sprache zu arbeiten, nämlich bei so einem Energieversorger. Und da habe ich angefangen, all diese angrenzenden Themen halt immer tiefer kennenzulernen, mich dafür zu interessieren und aber auch in so ein, okay, es ist schön, irgendwelche, wie sagt man, Spaßmodelle zu bauen, aber es ist dann auch irgendwie ganz wichtig, die in Production zu bringen, weil wenn ich irgendwas in einem Jupyter-Notebook baue, weil niemand das benutzen kann, ja, bringt das nicht so viel. Und dann bin ich meinem damaligen, sozusagen, Mentor in einen neuen Job gefolgt und da war auch so ein Data Science Team und war sehr, von unserem Aufgabenspektrum sehr breit. Also mussten wir relativ viel auch Softwareentwicklung machen, also das ganze Gedöns von Daten holen, Daten vorbereiten, ein bisschen irgendwelche Modelle in Production setzen und irgendwie die Ergebnisse erklären und so weiter.
Janine: Ja.
Emma: Und jetzt bin ich seit einem Jahr bei einem neuen Arbeitgeber und da habe ich angefangen als irgendwas zwischen Data Scientist und Data Engineer. Ich tat mir da an der Stelle ein bisschen schwer mit dem Begriff nur Data Scientist, weil ich in der Zeit das Gefühl hatte, wenn man sagt, okay, man ist nur Data Scientist, macht man nur die Modelle und den Rest drumherum nicht. Und mir war an der Stelle wirklich wichtig zu sagen, okay, ja, Modelle sind schön und wichtig, aber den Rest drumherum auch. Wie gesagt, so ein Single-Modell im Jupyter-Notebook bringt dann an der Stelle auch nicht mehr viel, wenn man nicht in der Lage ist, dann irgendwie Richtung, weiß nicht, Production oder was auch immer man für Ziel hat zu bringen. So war zumindest meine Erfahrung.
Janine: Das heißt, du hast gewissermaßen Interesse daran, den gesamten Prozess mitzumachen und mitzuerleben und mit daran zu arbeiten.
Emma: Ja, vor allem hatte ich so ein bisschen das Gefühl, dass das Ganze drumherum, also das Modellbauen und so, alle haben Lust darauf. Und alles, was noch passiert, wird manchmal so ein bisschen stiefmutterlich behandelt. Und ich bin manchmal der Meinung, okay, ein weniger krasser, verrückter Modell, der aber ein bisschen erklärbarer ist und der ein bisschen productionfähiger ist, ist wahrscheinlich, also finde ich, so wertvoller manchmal.
Janine: Ja.
Emma: Und jetzt seit einem halben Jahr hat sich alles ein bisschen verändert, weil in meinem Unternehmen kam ein großes Interesse auf, ja, was können wir mit großen Sprachmodellen machen? Und da kam ich so ein bisschen zufälligerweise in diese Gruppe an Leute, die das verantworten. Und seitdem sieht mein Arbeitsalltag total anders aus, als es war vor noch ein halbes Jahr.
Janine: Okay.
Emma: Genau, und jetzt ist meine Aufgabe, so ein bisschen zu gucken, okay, was haben wir für Use Cases? Wie können wir solche Modelle irgendwie sinnvoll nutzen? Und da aber auch diese Data Science, diese Brille zu setzen. Okay, wie kann ich dafür sorgen, dass ich, wenn mein Modell irgendwas sagt, dass ich irgendwie gucke, dass das, was es sagt, ist richtig. Also das ist die klassische Fähigkeit einer Prediction. Inwiefern weiß ich, dass diese Prediction irgendwie halbwegs stimmt.
Janine: Ja.
Emma: Das ist jetzt mit so einem großen Sprachmodell irgendwie ganz anders zu lösen. Aber finde ich genau die gleiche Fragestellung. Deswegen finde ich es sehr interessant. Und für mich dieses Zurückkommen auf natürliche Sprachen ist auch sehr, sehr spannend. Weil damals an der Uni hat alles noch so anders ausgesehen, als jetzt.
Janine: Das glaube ich.
Emma: Genau.
Janine: Das heißt, wenn du jetzt sagst, es hat sich so vor einem halben Jahr nochmal stark verändert mit diesem neuen Fokus, würdest du da auch sagen, dass jetzt so die neueren Entwicklungen, was Chat-GPT und auch Übersetzungsmodelle angeht, wie Whisper, was wir zum Beispiel tatsächlich auch für den Podcast nutzen, um unsere Transkripte zu machen,...
Emma: Mhm.
Janin: ...dass diese ganzen Fortschritte, die da jetzt passiert sind im letzten Jahr so circa, dass das tatsächlich auch Einfluss auf deinen Arbeitsbereich hatte?
Emma: Komplett. Also für mich ist es jetzt, also mein Alltag basiert tatsächlich darauf, große Sprachmodelle irgendwie zu gucken, wie sie nutzbar gemacht werden können. Und zwar nicht nur für diesen, okay, ich schreibe mir meine E-Mail.
Janine: Ja.
Emma: Also so auch ein bisschen im größeren Rahmen auch im Unternehmen. Und dadurch, dass es so einerseits eine, wie ich finde, schon relativ disruptive Entwicklung ist und zwar nicht inhaltlich, aber so dieses, es ändert die Art und Weise, wie wir mit Computer umgehen. Und das ist für Leute, die halt nicht sich schnell irgendwie Python nehmen können, um Daten zu analysieren oder so, schon ein großer Unterschied, finde ich.
Janine: Ja.
Emma: Also das ist jetzt mein Alltag. Und das alles mit so ein bisschen, diese auch kritische Sicht. Okay, was können wir Chat-GPT oder äquivalente Modelle fragen? Und was sollten wir lieber nicht tun? Und wie funktionieren diese Modelle für sich aus? Und weshalb sollte ich das vielleicht tun oder nicht tun? Das ist auch eine super spannende Frage. Aber da geht es aktuell auch manchmal auch ein bisschen in diese Organisationsfrage. Von wegen okay, ja, also mein Unternehmen wird verboten oder nicht verboten oder interne Lösungen oder irgendwie ganz viel Sensibilisierung auch Richtung ethische Bedenken und so weiter. Das ist ein bisschen aktuell in diese Richtung. Aber ich hoffe, ich komme mal wieder demnächst wieder ein bisschen näher in dieses rein Technische.
Janine: Ja, das klingt auf jeden Fall extrem spannend, was du erzählst. Und auch Sachen, mit denen wir uns tatsächlich auch gern schon mal im Podcast beschäftigen. So diese Frage, was passiert eigentlich, wenn wir das so nutzen? Und da gibt es ja auch schon ganz viele andere kluge Menschen, die sich da Gedanken drüber machen, auch was so Quellen angeht, wie vertrauenswürdig sind Fakten, die da durch solche Modelle generiert werden teilweise oder präsentiert werden. Ja, richtig spannend.
Emma: Ja, auf jeden Fall. Und ich glaube, da ist ziemlich viel Potenzial, aber auch ziemlich viele Gefahren. Und da muss man so ein bisschen wachsam bleiben. Also so dieses, das Modell ist cool. Also aus meiner Sicht sind diese Modelle so disruptiv, dass sie viele Sachen konsumierbar machen. Aber das, was dahintersteckt, muss da woanders gelöst werden durch andere Modelle, klassische Modelle oder sinnvolles Data-Engineering oder Anbindung an Quellen und so weiter. Und das ist alles viel komplizierter. Aber ja, das ist ein spannendes Thema auf jeden Fall. Aber da tue ich mir auch ein bisschen schwer zu sagen, ja, ich bin Data Scientist, weil aktuell bin ich das, glaube ich nicht ganz. Ich weiß nicht, was ich bin. Das wäre ein Dataproblem fast, glaube ich.
Janine: Ja, finde ich auch einen schönen Ausdruck, ehrlich gesagt, insgesamt dafür. Ja, du hast ja auch schon ein bisschen erzählt, das wäre sonst meine nächste Frage gewesen, wie du da hingekommen bist. Das ist ja tatsächlich auch eher so über Umwege. Ich habe so das Gefühl, das passiert vielen Menschen im Data-Science-Bereich, dass oft aus anderen Themen oder vielleicht auch fachverwandten Themen jemand rüber wechselt, so wie du jetzt. Das ist auch sehr spannend.
Emma: Auf jeden Fall.
Janine: Ich glaube, das ist gar nicht so selten, oder?
Emma: Ich denke auch. Also so in meinem Bekanntenkreis und so sind ganz viele. Also ich glaube, ich bin einer der wenigen, die tatsächlich Informatik studiert haben irgendwann. Zumindest in meinem Kreis. Irgendwie Physik oder ein lieber Kollege von mir ist Biologe oder Mathematik. Naturwissenschaftler sind ganz häufig mit dabei.
Janine: Ja.
Emma: Ich habe auch Bekannte, die auch über so sprachwissenschaftliche Sachen und dann auch Informatik studiert haben, aber auch im zweiten Anlauf sozusagen. Aber ja, das ist eine spannende Frage, warum genau da so häufig so ist, oder?
Janine: Ja, also ich glaube, tatsächlich hängt es teilweise damit zusammen, dass es die Studiengänge, die konkreten, dazu noch nicht so lange gibt. Ja, und eben, dass das vielleicht tatsächlich einfach so ein interdisziplinärer Bereich ist.
Emma: Das stimmt, ja. Auf jeden Fall.
Janine: Du hattest gerade noch gesagt, dass du hoffst, dann demnächst wieder mehr in den technischen Bereich zu kommen. Deswegen frage ich einfach nochmal, was interessiert dich an dem, was du machst, eigentlich so am meisten? Also, wo liegt so dein Hauptinteressengebiet im Umgang mit Daten zum Beispiel?
Emma: Aktuell ganz stark akut dieses, okay, wie kann ich das messbar machen? Wie kann ich eine Metrik entwickeln, um zu sagen, okay, das, was mir das Modell gesagt hat, ist Murks oder nicht und es verwertbar oder nicht oder es erfüllt nicht die Kriterien, die ich gesetzt habe, ist spannenderweise eine Frage, die mich auch vorher sehr viel, als ich mit zum Beispiel Zeitseriendaten gearbeitet habe, viel beschäftigt hat. Okay, wie kriege ich diese Observability sozusagen?
Janine: Ja.
Emma: Also so rein in das tägliche Doing, wie kann ich mein Modell monitoren und sehen, okay, wann ist es ein Data-Shift oder sowas? Und all diese Sachen haben mich schon lange begleitet. Die finde ich am spannendsten.
Janine: Also sozusagen eine Art Beweisführung?
Emma: Nicht unbedingt Beweisführung, aber dieses Erklärbarmachen machen, okay, wie gut ist tatsächlich die Prognose, die aus diesem Modell kommt oder wie gut ist die Antwort, die aus diesem Modell kommt und kann ich das dann auch über die Zeit nachvollziehen, rein weg von meinem Validation-Set oder so und auch in diesem täglichen Production-Betrieb sozusagen kann ich weiterhin irgendwie sicher sein, dass die Ergebnisse gut sind. Also wie teste ich mein Modell im breitesten Sinne?
Janine: Mhm.
Emma: Über den Punkt hinweg, wo ich das Modell gebaut habe. Das ist, glaube ich, das, was mich am meisten interessiert an verschiedenen Aufgaben. Und ich muss zugeben, ich habe so eine nerdige Ader, ich mag Python sehr gerne und Python zu verstehen in sich, so dieses Ökosystem und so, ist wahrscheinlich auch ein bisschen mehr in dieser Softwareentwicklungsseite als in der Data Science-Seite, aber immer mehr in das, wie die Sprache funktioniert, sich einzugraben, finde ich, das ist sehr sehr spannend. Und zu guter Letzt, diese ethischen Aspekte. Ich habe gesehen, ihr habt über das Buch Data Feminism geredet, in einer vorherigen Folge, und all diese Fragen, wie verbinde ich meine Technik mit meinem Verständnis von Gesellschaft und so, das ist auch etwas, was mich sehr beschäftigt, auch jetzt mit der Arbeit mit Large-Angle-Models. Ja, genau.
Janine: Ja, sehr schön. Dann vielen Dank, Emma, dass du dir die Zeit genommen hast und so kluge Sachen, glaube ich, auch gesagt hast. Es hat mir sehr viel Spaß gemacht, mit dir zu reden.
Emma: Danke, mir auch.
(Kurzer Musikschnippsel)
Helena: Ja, also bei diesem Interview, als es so anfing, hatte ich schon irgendwie gedacht, oh, sie hat vorher mal was mit Sprachen gemacht und dann macht sie was mit Daten. Und wir haben ja gerade den ganzen Chat-GPT-Hype. Bestimmt läuft es am Ende wieder darauf hinaus. Und so kam es dann auch. Das fand ich irgendwie doch sehr schön, dass dieser Weg am Ende für sie da landete, dass sie dann die beiden Sachen, die sie interessant findet, vereinen kann.
Janine: Ja, das stimmt.
Helena: Ja, was sie auch sagt, so mit Data-Person statt Data-Scientist. Also irgendwie gibt es mehrere Begriffe, sowas wie Data-Engineer und so. Ja, so richtig einheitlich ist es nicht, wie man das benutzt. Data-Engineer wird manchmal für die Leute benutzt, die dann so für die Modelle die Automatisierung machen. Aber für mich ist jetzt so Data-Scientist eigentlich der Oberbegriff für alles das. Und manchmal wird es halt noch kleiner zerteilt, sowas wie Data-Analyst, wenn man dann das macht, was sie gesagt hatte, mit man analysiert Daten und baut Modelle in einem Jupyter-Notebook auf und der Data-Engineer braucht daraus dann eine Software, die auf einem Server laufen kann und die ganze Zeit Auswertung macht, ohne dass ein Mensch eingreifen muss.
Janine: Ja.
Helena: Ja, ich weiß nicht, ob man das braucht. Jetzt gibt es ja auch noch so tolle neue Begriffe wie Prompt-Engineer. Also die, wenn man jetzt bei Chat-GPT irgendwie einen Text eingibt, die dann zum einen sagen, welchen Text man da eingeben soll, aber auch das Drumherum-Formulieren, dass man irgendwie sagen kann, ja, so Kontextinformationen möchte ich vorher schon mitgeben an das System. Das gehört dann eben zu diesem Prompt-Engineering. Das ist so der neueste Hype-Job, den es so gibt. Ja, im Grunde genommen wird das, was Emma macht, auch im Prompt-Engineering sein einfach, weil wenn man diese großen Sprachmodelle, wie man sowas wie Chat-GPT auch nennt, ja, irgendwie nutzbar machen will für verschiedene Anwender, dann ist eben das, was man da an Kontexten und so mitliefert, ein nennenswerter Teil vom Prompt-Engineer, von der Beschreibung des Jobs.
Janine: Ja, was ja auch mitschwang und auch sehr interessant war, ist ja eben auch diese Ebene, inwiefern es ist vertretbar, mit diesen Modellen zu arbeiten und in welcher Hinsicht können sie überhaupt genutzt werden und wann vielleicht auch einfach nicht. Das ist ja auch etwas, womit wir uns einfach auseinandersetzen müssen, weil die Modelle sind ja jetzt nun mal da und sie gehen nicht wieder weg.
Helena: Nee, wahrscheinlich nicht.
Janine: Und du hattest das ja vorhin auch schon einmal erwähnt, dass die meisten Teams so rund um Data Science, die da zusammenarbeiten, so super interdisziplinär sind. Das ist ja auch etwas, was Emma jetzt noch mal bestätigt hat quasi...
Helena: Ja.
Janine: ...dass das einfach aus vielen unterschiedlichen Richtungen kommt und da eben gar nicht so der Data Scientist als der Ausbildungsabschluss sozusagen dahinter steckt bei den meisten.
Helena: Ja, ich meine, ich bin ja selber ein Beispiel davon.
Janine: Ja.
Helena: Ich habe ja auch nicht Informatik studiert, sondern Physik. Ich habe dann in meinem Master halt Vorlesungen besucht zum Thema maschinelles Lernen und also im Prinzip war das mein Nebenfach. Aber ich komme nicht aus der Informatik selbst. Ja, und das, was wir im Studium gelernt hatten, das ist nicht annähernd, das deckt nicht annähernd das ab, was man heutzutage macht. Also, das ist schon, da geht es mir genauso wie Emma. Wie man jetzt mit neuronalen Netzen arbeitet, ist völlig anders, als wir das damals gelernt haben.
Janine: Und die Entwicklung ist ja auch super schnell passiert. Also, ich meine, im Wesentlichen kann man sagen, dass die letzten zwölf Monate ist das noch mal richtig explodiert, das Thema. Und hat ordentlich an Fahrt aufgenommen, was wahrscheinlich auch letztes Jahr, Anfang des Jahres, noch niemand so gedacht hat, dass das jetzt so auf Schlag auf Schlag kommt. Also, vielleicht schon, aber…
Helena: Ja, erst kamen die ganzen Bildgenerierungstools, darüber haben wir ja letztes Jahr auch eine Folge gemacht, und dann kam halt Chat-GPT. Ja. Im Gegensatz zu den Bildgenerierungstools hilft Chat-GPT jetzt schon viel mehr Leuten in ihrem Arbeitsalltag. Also, ich denke, bei all den Hypes ist das eine Technologie, die gehypt ist, die auch irgendwie bleibt.
Janine: Ja, definitiv. Ich weiß auch noch, wir haben in einer Jahresrückblicksfolge über, hattest du Sachen zu GPT-3 gesagt...
Helena: Genau. Das war halt damals noch nicht in der Chatvariante. Also, die zugrunde liegende Technologie hatten wir schon erwähnt, aber das, was es wirklich benutzbar gemacht hatte, war dann tatsächlich dieser engeenierte Prompt, dass man das quasi über den Chat einfach verwenden kann. Das war, ja, ich glaube, der letzte Schritt, der gefehlt hatte.
Janine: Ja. Also, ich finde es jedenfalls sehr spannend, dass wir jetzt auch ausgerechnet, also es ist ja reiner Zufall, dass wir jetzt zwei Menschen quasi erwischt haben, die im Data Science-Bereich arbeiten und sich eben beide mit großen KI-Modellen beschäftigen.
Helena: Ja, aber mit völlig verschiedenen Modellen.
Janine: Ja, sehr schön. Ja, ich würde sagen, dann können wir so eine Art Fazit machen, wa?
Fazit (00:54:43)
Helena: Ja, ich fand es sehr schön, auch nochmal was zu den Datenzwergen zu hören, aber eben auch zu hören, wie jetzt die verschiedenen KI-Modelle ja in der Praxis angewendet werden oder werden können. Und einfach mal zu hören, wie es anderen Data Scientists ging, das hat mich sehr gefreut. Danke dafür.
Janine: Ja, sehr gern. Ich fand es sehr schön, dass du dieses Experiment mal mitgemacht hast, nachdem ich das vorgeschlagen habe, dass wir mal die Folge so herum aufnehmen. Und ich weiß jetzt ein paar Dinge, die ich beim nächsten Mal vielleicht besser machen kann, aber ich fand es halt wirklich spannend, mich mit den verschiedenen Menschen zu unterhalten und diese Einblicke und Eindrücke zu bekommen. Und ja, wenn ihr das auch spannend fandet und das Format vielleicht gerne so nochmal hören wollen würdet, gebt uns gerne Feedback dazu, dann machen wir das mal wieder. Weil ja, ich finde, da entstehen wirklich interessante Einblicke in das, was gerade aktuell im Data Science-Bereich wirklich Thema ist. Und ich finde es auch schön, dass auch mit drin war, dass Data Science nicht nur diese großen Modelle sind, mit denen wir uns gerade alle irgendwie im Internet mal hier und da beschäftigen, sondern eben auch, dass es immer noch sein kann, Spaß mit Daten zu haben und selber Projekte zu machen und das auch auf Ebenen, wo nicht unbedingt ein ganzes Studium hinterstecken muss, dass man da spaßige Sachen machen kann und sich dafür interessieren kann, wie die Welt um einen herum so aussieht. Also das ist so, was ich aus dieser Folge vor allem mitnehme.
Nächste Folge: ggplot im November (00:56:21)
Helena: Ja, das war unsere Oktoberfolge und weiter geht es dann im November mit der Novemberfolge. Und da reden wir über ggplot. ggplot ist quasi eine Ergänzung unserer Datenvisualisierungsreihe und das ist ein Tool, das man insbesondere in R verwendet. Und wir wollen darüber reden, was ist so die Grundidee hinter ggplot, was heißt Grammar of Graphics, wofür das GG steht für Grammatik der Grafiken, was damit gemeint ist, wollen wir ansprechen und eben auch, warum es anders funktioniert als andere Plot Tools, warum es so gut ist, wie es ist, aber auch, welche Schwächen es hat.
Call to Action (00:57:02)
Janine: Genau und wenn ihr diese Folge und alle weiteren nicht verpassen möchtet und uns weiterhören möchtet, folgt uns doch auf Mastodon unter @datenleben@podcasts.social oder besucht unsere Webseite www.datenleben.de. Hinterlasst uns gerne Feedback, darüber freuen wir uns immer sehr. Ihr könnt Kommentare unter unsere Folgen schreiben und ja, ihr könnt uns außerdem auch als Data Scientist buchen für Analysen oder Projekte. Und ja, falls ihr Fragen habt oder Themen, die euch interessieren, dann schreibt uns.
Helena: Ja, dann bleiben wir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao.
Janine: Tschüss.
Outro (00:57:37)
57:49
dl042: die erde, asteroiden und wahrscheinlichkeiten
Episode in
datenleben
Willkommen zur Folge mit der Antwort auf das Leben, das Universum und den ganzen Rest. Es geht um Wahrscheinlichkeiten. Und zwar darum, wie Asteroiden beobachtet werden und deren Flugbahnen berechnet werden. Wie wahrscheinlich ist so ein Ereignis? Und wie gefährlich kann es uns werden, wenn es eintritt? Wir haben uns angesehen, wie das berechnet wird. Aber auch, welche Objekte am Himmel gerade unter Beobachtung stehen. Ausserdem auch, was die Erde schon getroffen hat und was es mit dem Asteroiden Bennu auf sich hat, der schon viele Jahre von Forschenden genauestens unter die Lupe genommen wird. Und natürlich müssen wir auch kurz darüber reden, wie solche Ereignesse verhindert werden können, wenn sie nur früh genug entdeckt werden.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social und Twitter @datenleben
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl041: barrierearme datenvisualisierung
Einspieler
Royal Museums Greenwich: The Tunguska Event
Armagh Observatory and Planetarium: Tunguska Event
Armagh Observatory and Planetarium, Rok Nežič: 110 Years Since The Tunguska Event
National Geographic, Markus Röck: Was geschah in Tunguska?
mdr.de Wissen, Guido Meyer: Neue Theorie: Tunguska-Ereignis war ein Eisenmeteorit
Beobachtung von Asteroiden:
Wikipedia: Kleinkörper
Science Blogs, Florian Freistetter: Der Meteor über Russland: Eine Zusammenfassung
ESA, Near-Earth Objects Coordination Centre: Risk List
ESA, Near-Earth Objects Coordination Centre: 2023QF5
DLR BLOG, Manfred Gaida: Vor zehn Jahren: der Meteoritenfall von Tscheljabinsk
Wikipedia: Meteor von Tscheljabinsk, Koinzidenz (367943) Duende
Wikipedia: 2023 CX1
scinexx.de, Nadja Podbregar: Asteroid verglüht über Nordfrankreich. Astronomen hatten den Ein-Meter-Brocken auf Erdkurs erst sieben Stunden zuvor entdeckt
heise.de: Frankreich, Italien und Texas: Über 20 Fragmente von Meteoriten in einer Woche
slate.com, Phil Plait: Very Bright Fireball Over Europe Saturday Night
Arbeitskreis Meteore e.V.: Feuerkugelberichte
EarthSky.org, Eddie Irizarry: Update: 2015 TB145 likely a dead comet
Wikipedia: 2015 TB145
Abwehr:
Minor Planet Center: Sky Coverage Plots
ESA: Noch Zukunft: Die Asteroidenabwehr
NASA: NASA Confirms DART Mission Impact Changed Asteroid’s Motion in Space
Wikipedia: Double Asteroid Redirection Test
Schlagworte zur Folge
Wahrscheinlichkeit, Wahrscheinlichkeiten, Asteroiden, Astronomie, Asteroidenabwehr
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 42. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch in die Welt der Daten mitnehmen. In unserer Welt wird es immer wichtiger, Daten in das große Ganze einzuordnen. Deswegen wollen wir Data Science anhand von Themen erklären, die uns alle betreffen.
Thema der Folge (00:00:36)
Janine: Und in diesem Fall vielleicht sogar treffen könnten. Willkommen zu der Folge mit der Antwort auf das Leben, das Universum und den ganzen Rest. Es ist die 42. Folge und natürlich können wir es uns nicht nehmen lassen, Folge 42 einem Thema zu widmen, das vielleicht dem großartigen Werke Per Anhalter durch die Galaxis von Douglas Adams ein bisschen würdig ist. Und worum könnte es dabei gehen? Vielleicht um Wahrscheinlichkeiten. Es ist nicht ganz die Frage, wie wahrscheinlich ist es, dass die Erde für eine intergalaktische Umgehungsstraße gesprengt wird, aber so in der Art eventuell. Wir wollen nämlich über die Wahrscheinlichkeit reden, mit der Asteroiden die Erde treffen könnten oder nicht. Also es geht um Wahrscheinlichkeit und Gefährlichkeit von so etwas, welche Asteroiden gerade unter Beobachtung stehen und wo und wie das eingesehen werden kann, wie zum Beispiel der Orbit von Asteroiden berechnet wird, was bisher schon so die Erde erwischt hat und was eigentlich beim Asteroiden Bennu so los ist, der schon lange auf der Beobachtungsliste steht. Naja und natürlich geht es auch ein bisschen darum, wie so ein Einschlag vielleicht sogar verhindert werden könnte, wenn er denn mal eintreten würde, können, können würde oder so in der Art.
Warum ist das Thema interessant? (00:02:02)
Helena: Ja. Ja, Wahrscheinlichkeiten umgeben uns in allen möglichen Themenbereichen und sie sind hilfreich, da sie ein Maß bieten, um abzuschätzen, ob Ereignisse passieren können und ob man sich darauf vorbereiten sollte. Dabei ist es allerdings nicht nur relevant, wie wahrscheinlich ein Ereignis ist, sondern auch, wie groß die Folgen sind, die es auslöst. Deswegen dachten wir uns, befassen wir uns zum Thema Wahrscheinlichkeiten mal anhand des Themas Asteroideneinschläge.
Einspieler: Der Tag des Asteroiden (00:02:34)
Janine: Der Himmel hat sich zweigeteilt. Hoch über dem Wald brannte ein Feuer. Der Riss durch den Himmel wuchs an und der ganze Norden war von Feuer bedeckt. In diesem Moment wurde es so heiß, dass es schien, als würde meine Kleidung brennen. Dann fielen die Bäume um. Die Zweige brennend. Es wurde unbeschreiblich hell, als gäbe es eine zweite Sonne. Die Augen schmerzten, dass ich sie schließen musste. Das ist die Beschreibung eines Augenzeugen, die auf der Seite des Royal Museums Greenwich zu finden ist. Am Morgen des 30. Juni 1908 ereignete sich etwas Unbeschreibliches über Tunguska, das bis heute viele Menschen rätseln lässt, was die Ursache dafür war. Seit über einem Jahrhundert versuchen Forschende, die Puzzleteile zusammenzusetzen. Es gibt immer noch nicht die eine wahre Erklärung, die ohne Widersprüche ist. Es gibt immer nur eine am meisten akzeptierte Erklärung und die besagt, dass ein Asteroid oder ein Komet in die Erdatmosphäre eingedrungen ist, als Meteor über den Himmel zog, bis er schließlich unter der Hitze und dem Druck zerborsten ist, ehe er auf der Erde aufschlug. Es wird vermutet, dass der Meteor mit einer Größe von 30 bis 50 Metern in einer Höhe von etwa 10 Kilometern explodierte. Die freigesetzte Energie zerstörte eine Fläche von rund 2000 Quadratkilometern. Etwa 80 Millionen Bäume wurden wie kleine Zahnstocher umgeknickt. In über 60 Kilometern Entfernung zum Ereignis wurden Fenster eingedrückt. Menschen wurden vermutlich nicht verletzt, aber hunderte Rentiere starben durch die Explosion. Die Explosion war auch in 1000 Kilometern Entfernung noch zu hören. Und der Nachthimmel im weit entfernten Nordirland wurde hell genug, um ohne eigenes Licht die Zeitung zu lesen. Es wurde weder ein Einschlagskrater gefunden, noch Überreste eines Objektes, das hier vielleicht eingeschlagen ist. Auch deswegen wurde viel spekuliert, was passiert sein könnte. Neben dem explodierenden Himmelskörper wurde auch spekuliert, ob nicht auch ein sehr dichter Himmelskörper aus Eisen an der Atmosphäre abgeprallt sein könnte, oder es wird über einen vulkanähnlichen Ausbruch von Erdgas spekuliert. Selbst der Absturz eines UFOs wurde zahlreich vermutet. Auch wegen vieler Ungereimtheiten, Dingen, die nicht ganz zusammenpassen, bleibt dieses Ereignis interessant. Selbst wenn sich die Wissenschaft einig ist, vermutlich werden wir nie absolut sicher aufklären können, was passiert ist. Was davon bleibt, ist, dass jedes Jahr am 30. Juni mit dem Tag des Asteroiden daran erinnert wird und uns damit ins Bewusstsein gerufen wird, dass in unserer Galaxie Dinge vorgehen, auf die wir besser einen Blick haben sollten.
Wie werden Wahrscheinlichkeit und Gefährlichkeit betrachtet? (00:05:34)
Helena: Ja, und bei Asteroideneinschlägen ist es nicht nur, wie gesagt, relevant, wie wahrscheinlich ist es, dass wir getroffen werden, sondern auch, wie gefährlich dieses Ereignis dann ist. Es gibt nämlich Asteroiden, die sind winzig klein, manche machen einfach nur kleine Sternschnüppchen, manche sind schon größer und einige können ja auch potenziell ganze Zivilisationen auslöschen. Und um das darstellen zu können, gibt es in der Astronomie verschiedene Skalen, um Asteroiden zu bewerten. Und zwar gibt es da einmal die Turin-Skala, nach der Stadt Turin benannt, und diese Skala ist eine Mischung aus der aktuellen Wahrscheinlichkeit, dass ein Asteroid die Erde trifft, und des potenziellen Schadens, den er anrichten kann. Dabei gibt es feste Kategorien. Null heißt, es passiert nichts, also die Wahrscheinlichkeit ist so klein, dass es keinen Grund dafür gibt, irgendwie anzunehmen, dass wir getroffen werden. 1 heißt dann, dass ein Asteroid neu entdeckt wurde und dass der Orbit des Asteroiden bisher kaum bekannt ist, aber es innerhalb dieses kaum bekannten Orbits eben die Möglichkeit gibt, dass der auch die Erde treffen könnte. Dann gibt es die Stufen 2 bis 4, die im Wesentlichen bedeuten, dass Astronomen weiter den Asteroiden beobachten müssen, um eben den Orbit und das Risiko besser einschätzen zu können. Das ist letztlich auch bei Stufe 1 bekannt. Das heißt, die Stufen 1 bis 4 heißen, ja, es ist Aufmerksamkeit von Astronomen benötigt. Und ein wichtiger Punkt der Skala von 1 bis 4 ist dann auch, ja, dass man davon ausgeht, dass es höchstwahrscheinlich wieder irgendwann auf Null sinken wird, sobald man genug Beobachtungen gemacht hat. Und bisher war der Asteroid Apophis mit Klasse 4 das am höchsten eingestufte Objekt. Das war so Anfang der 2000er. Es wurde, nachdem es auf Klasse 4 eingestuft wurde, auch recht schnell wieder auf Stufe 1 zurückgestuft und ist seit über 10 Jahren mittlerweile auf Stufe 0. Derzeit, also zum Zeitpunkt der Aufnahme, gibt es seit etwa zwei Wochen ein neues Objekt, das auf Stufe 1 ist. Das heißt, es ist bisher noch sehr wenig beobachtet worden und deswegen, ja, soll man das jetzt noch weiter beobachten. Und die Wahrscheinlichkeit, die dem Ganzen zugeordnet ist, derzeit ist, dass es uns in neun Jahren dieses Objekt mit einer Wahrscheinlichkeit von 3 zu einer Million treffen wird. Das ist eine sehr geringe Wahrscheinlichkeit. Aber dieses Objekt ist eben sehr groß, 700 Meter schätzungsweise. Janine wird dazu gleich noch etwas mehr sagen. Aber das ist gerade das einzige Objekt auf der Turin-Skala, das eben einen Wert hat, der nicht Null ist.
Janine: Tatsächlich hat sich das seit gestern geändert.
Helena: Wat? Was hat sich seit gestern geändert?
Janine: Naja, gestern haben wir in die Liste geguckt, da stand da immer noch Stufe 1. Ich habe jetzt eben gerade die Liste aufgerufen, jetzt steht da Stufe 0.
Helena: Ah, tatsächlich. Ich habe die Seite nochmal neu aufgemacht, ich habe auch den Stand von gestern noch offen, damit ich das vergleichen kann und tatsächlich ist es jetzt auf Stufe 0. Das heißt, dass passiert mit diesem Objekt, das war zwei Wochen lang auf Stufe 1, was Stufe 1 auch erwartet, dass die Sachen wieder auf Stufe 0 zurücksinken. Das heißt, zum Zeitpunkt der Aufnahme gibt es gar kein Objekt Stufe 1.
Janine: Ja, aber wir waren sehr aufgeregt, dass da kurzfristig eins war, kurz bevor wir diese Aufnahme gemacht haben.
Helena: Ja.
Janine: Und jetzt ist eine Messung mehr in die Berechnung eingepflegt worden und die fünfte hat dafür gesorgt, dass es jetzt auf Stufe 0 betrachtet wird.
Helena: Ja, und gestern hieß es noch, die Wahrscheinlichkeit ist 3 zu 1 Million, jetzt ist die Wahrscheinlichkeit 3 zu 10 Millionen, dass es uns treffen würde im Jahre 2032. Also, ja, jetzt ist es wieder auf Stufe 0 zurückgestuft worden, das ist ja auch angemessen. Aber das waren jetzt erstmal nur die Stufen 0 bzw. 1 bis 4, die einfach nur heißen, ja, Astronomen sollten sich damit beschäftigen, damit man den Orbit besser bestimmen kann. Und kein Objekt hat diese Stufen je überschritten. Aber was sind denn die anderen Stufen? Es gibt dann noch die Stufe 5 bis 7, das sind Bedrohungsszenarien, und dann gibt es noch die Stufen 8 bis 10. Da ist es dann nicht mehr eine Frage der Wahrscheinlichkeit, ob wir getroffen werden, sondern dann weiß man bereits, dass wir getroffen werden und dann muss gehandelt werden. Die Stufe 8 heißt dann so viel wie, es ist ein lokales Event, das Schaden anrichtet, und 10 im Gegensatz dazu hieße dann, ja, es könnte die komplette Zivilisation auslöschen, so was wie das Dinosauriervernichtungsereignis. Die Turin-Skala ist halt sehr nützlich, um auch Risiko zu kommunizieren an die Allgemeinheit. Das Problem ist jetzt, dadurch, dass es einfach nur Kategorien sind und eigentlich alle bisher bekannten Asteroiden bei Null sind, ist es jetzt nicht unbedingt geeignet, um für Astronomen oder für die Wissenschaft zu sortieren, wie viel Aufmerksamkeit man einem Objekt geben sollte. Um das zu ermöglichen, gibt es dann noch die sogenannte Palermo-Skala, und bei der Palermo-Skala werden Zahlen berechnet, die eben dann nicht feste Kategorien sind, sondern dann auch eben Kommazahlen sein können, die eine feinere Sortierung ermöglichen. Hierbei wird außer der Wahrscheinlichkeit eines Treffers, auch noch der Schaden und wie lange es dauert, bis das Objekt uns dann treffen würde, mit eingerechnet. Weil wenn etwas in zehn Jahren uns treffen würde, muss man halt viel mehr Aufmerksamkeit dadrauf geben, als wenn das noch 100 Jahre hin wäre, zum Beispiel. Ziel ist es, wie gesagt, zu gucken, welchem Objekt man wie viel Aufmerksamkeit geben sollte. Joa, jetzt kannst du Janine uns mal erzählen, welche Objekte denn gerade so beobachtet werden.
Welche Objekte werden gerade beobachtet und wie wird das Risiko bewertet? (00:11:56)
Janine: Erstmal, was für Objekte überhaupt, weil vielleicht ist es euch schon öfter mal begegnet in Nachrichten oder anderen Dingen, Filmen. Es kursieren eine Menge Begriffe, also wir haben jetzt bisher Asteroid benutzt, es gibt aber auch noch Meteoriden, Meteoriten und Meteore und natürlich Kometen und all diese Dinge. Zusammengefasst sind das alles Kleinkörper. Das klingt teilweise gar nicht ganz so klein, wenn man bedenkt, dass Asteroiden durchaus auch mal über einen Kilometer groß sein können. Allerdings ist Kleinkörper im, naja, kosmischen Maßstab ein bisschen anders gefasst. Es sind nämlich alles Körper unter 300 Kilometer Durchmesser, die außerdem um die Sonne kreisen. Das ist allen gemein. Die Grenzen sind nicht immer ganz eindeutig, zum Beispiel Meteoriden und Asteroiden. Ich habe die Beschreibung gefunden, Meteoriden sind deutlich kleiner. Das ist zum Beispiel etwas, was wir als Sternschnuppen am Himmel wahrnehmen könnten, wenn sie denn die Erdatmosphäre berühren und Asteroiden sollen einfach größer sein. Aber es gibt keinen richtigen Schwellenwert, wann Meteoriden Meteoriden sind und wann sie vielleicht sogar Asteroiden sind. Zumindest habe ich keinen gefunden bisher. Bei Florian Freistetter habe ich eine Definition gefunden im Zusammenhang mit einem Meteor, warum er zum Beispiel über einen Meteor schreibt und nicht über einen Asteroiden oder Meteoriten oder sonstiges. Das Ganze lässt sich vielleicht so zusammenfassen. Ein Asteroid kann im Weltraum beobachtet werden und dringt dieser Asteroid in die Erdatmosphäre ein, verglüht er dabei oder beginnt zumindest durch Reibung Hitze zu entwickeln und zieht dann als Feuerball, also als sogenannter Meteor über den Himmel. Und wenn es dann diesem Stück gelingt, auch bis auf die Erde zu kommen und aufzuschlagen, dann kann er dort als Meteorit aufgesammelt werden. Das heißt also, all diese ganzen Begriffe sind im Wesentlichen unterschiedliche Zustandsbeschreibungen für ein und das gleiche Objekt. Also Asteroiden im Weltraum, Meteore am Himmel und Meteoriten auf der Erde, die aufgesammelt werden können. Das nur mal so als kleine Differenzierung zwischendurch. Ja, und dann gibt es eben, was Helena eben schon leicht angesprochen hat, Objekte, die wir näher beobachten wollen, weil sie uns interessieren oder vielleicht sogar gefährlich werden können. Und dafür gibt es zum Beispiel von der ESA die Risikoliste erdnaher Objekte, also Near-Earth-Objects. Die werden beobachtet und dann auch anhand der von Helena beschriebenen Skalen sortiert. So, eine Liste – findet ihr auch, den Link übrigens, in unseren Shownotes – ist ganz spannend, weil sie ist in diesem Fall auch sortierbar gemacht. Wir hatten ja in der letzten Folge darüber geredet auch, dass sortierbare Listen ganz wundervoll sind, weil man besser durch sie durchnavigieren kann und auch gezielter an Informationen rankommen kann, die gerade gefragt sind im Zusammenhang mit barrierearmer Bildbeschreibung. Ja, die ESA stellt hier so eine sortierbare Liste zur Verfügung. In der hatten wir auch das Objekt 2023QF5 gefunden. Das war eben jenes, welche Objekt, das vor 14 Tagen neu aufgenommen wurde in die Liste der Near-Earth-Objects. Die umfasst gerade 1504 Objekte und war da eben auf Stufe 1 und hatte auf der Palermo-Skala einen Wert von minus 1,23, was sehr niedrig ist, was auch der niedrigste Wert war, den es gab. Deswegen stand das ganz oben, weil, ja, wie Helena schon sagte, ist es nicht nur etwas, was recht groß ist, das Ding hat ca. 700 Meter im Durchmesser, sondern auch etwas, das uns recht bald treffen können würde, ja, wenn sich die Bahnen dann kreuzen würden, nämlich schon am 10.03.2032. Und aus dieser Summe heraus entsteht eben, dass es ganz oben steht, auf dieser Liste an Objekten, die gerade mit dem höchsten Risiko, sozusagen, versehen werden. Was da vielleicht noch interessant ist und wie man diese Liste verstehen und benutzen kann, ist, dass viele Objekte, der Durchmesser zum Beispiel in Metern angegeben wird, aber mit einem Sternchen dahinter, das bedeutet, dass noch nicht ganz klar ist, was der tatsächliche Durchmesser ist, sondern dass nur so in etwa der Durchmesser ist, der gerade an der Stelle mit dem größten Durchmesser angenommen wird. Die Objekte sind meistens nicht kreisrund, deswegen kann man die sich nicht als Kugeln vorstellen, sondern manchmal sind sie auch länglich, und diese 700 Meter beziehen sich eben auf den größtmöglichen, wahrscheinlichen Durchmesser, der aber noch nicht bestätigt ist. Es gibt einige Objekte, die haben kein Sternchen dran, da ist die Zahl relativ genau durch viele Beobachtungen dann angegeben, und es kann in dieser Liste auch auf historische Daten zugegriffen werden. Da wird halt jede andere Berechnung, die bisher durchgeführt wurde und in die Liste eingegangen ist, auch aufgefasst, sodass gesehen werden kann, dass zum Beispiel dieses neue Objekt von vor 14 Tagen am 24.08. das erste Mal in die Liste aufgenommen wurde mit Daten und da auf der Palermo-Skala auf dem Maximum eine minus 3,23 hatte, und das ist dann in den nächsten Beobachtungen immer geringer geworden bis zum 05.09., bis jetzt schließlich die aktuellste Berechnung eingepflegt wurde, die ist vom 06.09., also es braucht manchmal offensichtlich ein paar Tage, bis die auftauchen, die halt von minus 1,23 wieder auf minus 2,42 hochgesprungen ist, weswegen es jetzt auf Stufe 0 ist. So, das mal dazu, was da überhaupt so für Daten mit drin stecken.
Helena: Aber das heißt jetzt immer noch auf Platz 3. Es war gestern noch auf Platz 1, aber jetzt ist es immer noch auf Platz 3.
Janine: Genau.
Helena: Weil es einfach so nah ist, das Ereignis, oder wäre.
Janine: Exakt. Direkt unterhalb der Risikoliste, wo jetzt dieses Objekt mit drin ist, ist auch noch eine Special Risk List, und in der sind nur zwei Objekte drin, und zwar ist dort 101955 Bennu, das Objekt, was wir eigentlich dann nur als Bennu bezeichnen, der ist recht gut beobachtet inzwischen, dazu kommen wir gleich auch noch, und ja, der hat gerade das Palermo-Skalen-Maximum von minus 1,59, und dann drunter ist ein Objekt, das deutlich größer ist, aber uns auch erst potenziell in über 800 Jahren treffen würde, das ist 290751950DA, also es hat noch keinen Namen bekommen, taucht da drin aber auf, weil es uns mit einem Wert auf der Palermo-Skala von minus 2,13 treffen könnte. Und eben, was Helena gerade mit Platz 3 meinte, wenn wir jetzt den aktuellen Wert von unserem neuesten Objekt angucken, dann ist der halt tatsächlich mit minus 2,42 direkt dahinter, und alle anderen fangen erst später an, wenn man das nach der Palermo-Skala sortiert. Außerdem gibt es auch noch andere Listen, es gibt noch die Close Approaches List, dort kann eingesehen werden, welche Objekte uns als nächstes passieren werden, auch welche Größe sie haben und in was für einem Abstand. Manchmal habt ihr vielleicht schon gehört, dass so etwas gesagt wird wie in so und so viel lunarer Distanz oder lunar distance, das ist die Entfernung des Mondes zur Erde als Maßeinheit dafür, wie dicht Objekte an uns vorbeifliegen. Zum Beispiel am 23.12. diesen Jahres ein Objekt von circa 40 Metern Durchmesser an uns vorbeifliegen wird in der 0,9-fachen Mondentfernung. Das heißt also, theoretisch zwischen uns und dem Mond einmal durchhuscht. Frage ist nur, wo im Orbit das dann liegt, es muss nicht exakt dazwischen durch sein, aber die Entfernung ist kürzer als die Entfernung, die der Mond zur Erde hat. Das ist die Close Approaches Liste und dann gibt es eben noch eine Priority List. Dort wird nach Priorität sortiert und zwar geht es da eher meistens darum, welche Objekte kommen uns demnächst nahe und können dabei beobachtet werden und wie lange können sie beobachtet werden. Das heißt also, das ist eine Liste, wo sich Astronomen ja quasi drum bemühen können, drauf zu gucken, welche Objekte sind in der Reichweite und können erneut beobachtet werden, weil, wie eben ja schon klar geworden ist, vermutlich je mehr Beobachtungen ein Objekt hat, desto genauer kann eben bestimmt werden, wo auf der Skala es einsortiert wird und dafür ist auch diese Priority List. Und dann gibt es auch noch eine Liste Removed from Risk List, also was oft genug beobachtet wurde und wo oft genug ausgeschlossen werden konnte, dass die Erde getroffen wird, das wird dann irgendwann auch von der Risikoliste entfernt und landet in einer eigenen Liste. Die ist allerdings noch nicht furchtbar lang, weil sie noch nicht sehr lang geführt wird. Also sie wird im Laufe der Zeit vermutlich anwachsen.
Helena: Also da ist man sich dann sicher, dass die auf keinen Fall noch treffen wird.
Janine: Genau. Und es gibt noch eine Liste mit vergangenen Einschlägen, die enthält aber gerade eine Total Number of 7 und die verstehe ich auch noch nicht so ganz so richtig, da muss ich ganz ehrlich sein. Die erscheint mir gerade auch nicht so spannend, weil da auch Ereignisse drauf sein könnten, theoretisch, die ich da gerade vermisse und deswegen klammer ich die hier mal jetzt ein bisschen aus. Ja, das ist auf jeden Fall, was gerade so grob in Beobachtung ist und wo das überhaupt eingesehen werden kann und wie. Guckt da gerne mal rauf, ihr könnt ein bisschen dran rumspielen an den Tabellen und auch die Objekte selbst näher angucken, da sind dann noch genauere Informationen, wenn ihr auf das Objekt klickt und da findet ihr dann auch noch ein paar spannende Infos, wie ich finde. Vielleicht versteht man nicht alle auf Anhieb, aber sich das so ein bisschen anzugucken und anzueignen kann ganz interessant sein.
Wie wird der Orbit von Asteroiden berechnet? (00:23:01)
Janine: Und in diese Tabellen fließt ja eigentlich schon ein, wie der Orbit von Asteroiden so aussehen müsste, könnte, aber die Frage ist jetzt natürlich, wie wird das überhaupt berechnet? Und ja, das weiß Helena.
Helena: Ja, um so ein Orbit von einem Asteroiden oder auch von Planeten überhaupt berechnen zu können, muss man dieses Objekt beobachten und zwar mehr als einmal, weil wenn man es nur einmal beobachtet, dann kann es erstmal irgendwo sein, aber aus einer einzelnen Beobachtung folgt halt nicht die Geschwindigkeit und die Richtung und deswegen bedarf es einfach mehrerer Beobachtungen und dann bestimmt man aus diesen Beobachtungen den sogenannten wahrscheinlichsten Orbit. Mathematisch geschieht das dann über die Methode der kleinsten Quadrate, die ja auch bereits von Gauß verwendet wurde, um Planetenbahnen zu berechnen. Dabei guckt man sich dann an, man hat mehrere Beobachtungen, diese Beobachtungen schreibt man dann auf, weil Bahnparameter sind etwas mehr, als man jetzt für so eine normale Linie hätte und dann guckt man die Abweichung an zwischen einem theoretisch berechneten Orbit und den Messdaten und fragt sich dann ja, wo ist denn dieser Abstand zwischen dem theoretischen Orbit, dem berechneten Orbit und den Messdaten am kleinsten und zwar nicht einfach nur am kleinsten, wenn man alle diese Abstände von dem Orbit und den Beobachtungen aufsummiert, sondern man summiert die Quadrate auf. Deswegen die Methode der kleinsten Quadrate und das ist in ziemlich vielen Bereichen der Mathematik, wenn man irgendwie so Linien berechnen möchte zum Beispiel, die einfachste Methode und eine schon ziemlich gute Methode, um ein Modell zu bestimmen, das ja die höchste Wahrscheinlichkeit hat zuzutreffen, auf Basis der gegebenen Messdaten, gut, dann hat man jetzt einen Orbit und dieser Orbit könnte natürlich jetzt den Erdorbit schneiden oder eben nicht und vielleicht auch dazu führen, dass da ein Impact ist oder nicht, aber der erlaubt keine Wahrscheinlichkeitenberechnung, weil man hat nur einen Orbit berechnet und das ist eben der Orbit mit der höchsten Wahrscheinlichkeit. Um jetzt eine Wahrscheinlichkeit berechnen zu müssen, muss man bedenken, ja, so eine Beobachtung ist ja nicht immer ganz exakt. Man kann ja nicht, wenn man von der Erde sich etwas anguckt, die Position am Himmel eines Objektes irgendwie auf einen Millimeter genau bestimmen und weiß dann genau, wie der Orbit sein muss, sondern es gibt verschiedene Parameter, die so einen Orbit beeinflussen können oder eine Messung beeinflussen können und all diese Parameter haben einen gewissen Fehlerbalken, also eine gewisse Ungenauigkeit aufgrund verschiedener Messmethoden oder auch einfach, weil man bestimmte physikalische Prozesse nicht so gut kennt. Und um jetzt eine Wahrscheinlichkeit zu berechnen, ja, hat man eine Zeit lang quasi ganz viele Orbits berechnet auf Basis eben dieser Messunsicherheiten und der anderen Parameter, die man nicht so genau wusste und statt jetzt irgendwie ganz viele Orbits zu berechnen, also man berechnet immer noch ganz viele Orbits, versucht man jetzt nicht irgendwie geschickt gute Orbits sich anzugucken, sondern man versucht jetzt durch die Rechenpower, die man in den letzten Jahren dazu gewonnen hat, möglichst einfach alle theoretisch denkbaren Orbits zu berechnen und dann ist eben der Anteil der Orbits, die eine Kollision beinhalten, die Wahrscheinlichkeit. Also wenn man dann irgendwie eine Million Orbits berechnet hat für ein Objekt und drei davon treffen die Erde, dann ist die Wahrscheinlichkeit eben drei zu einer Million. Wahrscheinlich berechnet man mehr als eine Million, weil es doch sehr viele Parameter gibt. Ja, ich habe gerade gesagt, es gibt physikalische Effekte, die man nicht so genau weiß. Also der erste physikalische Effekt, der den allergrößten Einfluss hat auf den Orbit eines Asteroiden, ist die Gravitation und die versteht man ziemlich gut. Man kennt dann ganz viele Objekte wie Planeten und all die gehen dann eben ein in den Orbit von so einem Asteroiden. Welcher Planet ist da nah? Und da kann es zum Beispiel sein, wenn so ein Asteroid sehr nah an der Erde vorbeifliegt, also zwischen Erde und Mond, dass je nachdem, wo genau der dann langfliegt, er unterschiedlich stark beeinflusst wird. Und so etwas verändert dann eben die Wahrscheinlichkeiten, die sich danach ergeben. Das ist dann gut, wenn man nach so einem nahen Vorbeiflug einmal alles neu berechnet und sich genau beobachtet, wie hat sich das jetzt verändert. Es erschwert allerdings ein bisschen die Vorausberechnung von solchen Kollisionswahrscheinlichkeiten, weil teilweise kann eben sowas drastisch den Orbit verändern. Und in der Raumfahrt wird das ja auch aktiv eingesetzt. Da gibt es die sogenannten Fly-By-Manöver, wo eine Sonde, die zum Beispiel zum Jupiter oder zum Saturn fliegen soll, die fliegt dann teilweise erst Richtung Venus und dann noch dreimal an der Erde vorbei, um Schwung zu holen, eben auf Basis dessen, dass die Gravitation halt unter den richtigen Voraussetzungen ermöglicht, die Umlaufbahn stark zu beeinflussen. Und den Effekt nutzen wir da gezielt aus. Der kann es allerdings ja auch ein bisschen erschweren, eben so einen Orbit vorauszuberechnen, wenn man nicht alle Parameter genau kennt. Was man ja in der Regel bei Raumfahrzeugen, die man losgeschickt hat, kennt man die tendenziell relativ gut, im Gegensatz zu einem Asteroiden, den man irgendwie dreimal beobachtet hat bisher. Das andere Problem, das man hat, ist, es gibt nicht nur gravitative Kräfte, die den Orbit beeinflussen können, sondern auch noch andere Dinge, wie wenn ein Komet zum Beispiel sehr viel Masse verliert, dadurch, dass die Sonne drauf scheint. Und so ein Komet besteht ja aus sehr viel Eis und das Eis ausströmt. Das wäre zum Beispiel eine Möglichkeit. Und eine andere Möglichkeit ist der sogenannte Jakowski-Effekt. Und dieser Effekt besagt, ja, wir haben jetzt einen Asteroiden und dieser Asteroid hat eine Umlaufbahn. Und der Asteroid dreht sich um sich selbst, so wie die Erde auch. Es gibt da quasi Tag und Nacht auf diesem Asteroiden. Und das heißt, dass die eine Seite warm wird, wenn sie von der Sonne beschienen wird, die andere Seite kühlt ab. Dadurch, dass der sich dreht, ist dann da, wo der sich von der Sonne gerade weggedreht hat, ist immer noch warm und der strahlt dann eben die Wärme in eine andere Richtung ab, als er die Wärme von der Sonne aufgenommen hat. Und je nachdem, wie schnell diese Energie wieder durch Wärmestrahlung abgestrahlt wird, verändert sich ganz leicht der Orbit. Das ist zwar nur ein sehr kleiner Effekt, wenn man sich jetzt anguckt im Vergleich zu gravitativen Effekten, was passiert. Aber wenn man so einen Asteroiden einige hundert Jahre lang beobachtet, dann kann er schon einen gravierenden Unterschied machen. Das wollte man sich dann näher angucken. Und deswegen gab es tatsächlich auch vor einigen Jahren eine Satellitenmission zu einem Asteroiden. Und das war Bennu, über den reden wir später dann noch mal mehr.
Welche bemerkenswerten Einschläge gab es bereits? (00:30:39)
Janine: Ich fand, man kann über dieses Thema gar nicht reden, ohne nicht auch darüber zu reden, welche bemerkenswerten Einschläge es bereits gab.
Helena: Ja, das stimmt.
Janine: Und deswegen habe ich mir ausgedacht, ich erzähle nochmal was dazu. Es gab natürlich das Tunguska-Ereignis, das lange auch heiß diskutiert war, was die Ursachen anging, weil es eben so verdammt wenig Menschen beobachtet haben. Im Einspieler gab es dazu ja schon einiges. Und es gab den berühmten Zwischenfall, den Helena eben auch schon erwähnt hat, mit den Dinosauriern vor etwa 66 Millionen Jahren. Zwischenfall ist vielleicht etwas milder ausgedrückt. Sehr viele Tiere und Pflanzen sind dabei vernichtet worden. Es ist eines der großen Massensterben, das dieser Planet bereits erlebt hat und wo vermutlich ein Asteroideneinschlag für verantwortlich ist. Also da ist sich die Wissenschaft heutzutage relativ sicher. Ich glaube, letztes Jahr wurde sogar herausgefunden, dass das im Frühling passiert ist.
Helena: Oh.
Janine: Also man kennt das genaue Jahr nicht, aber die Jahreszeit aufgrund von archäologischen Untersuchungen in der Nähe der wahrscheinlichen Einschlagstelle. Interessante Artikel kann ich gerne verlinken. Auf jeden Fall, ja, was sind denn bemerkenswerte Einschläge darüber hinaus, die vor allem vielleicht auch in jüngerer Zeit passiert sind? Da ist natürlich, eventuell erinnern sich einige dran, der Meteor zu erwähnen, der am 15. Februar 2013 über dem Ural in Russland in die Erdatmosphäre eintrat und explodierte und dabei sogar recht viel Zerstörung ausgelöst hat. Es haben einige dieser Dashcams, Kameras in Autos, die in Russland sehr verbreitet sind, haben das aufgezeichnet. Deswegen ist es auch relativ gut dokumentiert. Es war in den frühen Morgenstunden, viele Menschen waren schon unterwegs und plötzlich zog ein gleißender Feuerball über den Himmel und explodierte in einem sehr grellen Licht. Und dann gibt es noch wiederum einige Überwachungskameras, wo gezeigt wird, wie daraufhin in einem recht großen Gebiet Fensterscheiben zerborsten sind, Wände gewackelt haben und eben auch Menschen verletzt wurden. Dieser Meteor ist in etwa 20 Kilometern Höhe zerborsten, man bezeichnet es auch als Airburst, nahe der russischen Stadt Chelyabinsk und dabei wurden mehr als 7000 Gebäude beschädigt und über 1500 Personen verletzt. Im Bericht vom DLR zum 10. Jahrestag wird außerdem erwähnt, dass einige Personen sogar einen leichten Sonnenbrand erlitten haben, weil nämlich als der Airburst stattfand, die UV-Strahlung eine Intensität erreicht hat, die kurzfristig 30 mal heller als die Sonne gestrahlt haben soll. Also dieser Lichtblitz, in dem der Meteor zerbarst, war 30 mal heller als die Sonne und deswegen haben Menschen einen leichten Sonnenbrand erlitten.
Helena: Äh, krass.
Janine: Ja, da steckt einiges an Energie hinter. Und woher kommt diese Energie? Nun ja, in dem Bericht des DLR ist weiterhin zu lesen, dass das größte Trümmerstück, das von diesem Meteor gefunden werden konnte, 540 Kilogramm schwer gewesen sein soll. Das ist das fünftschwerste je geborene Meteoritenstück. Und jetzt ist natürlich die Frage, warum wussten wir das vorher nicht? Warum kam das so ohne Vorwarnung? Nun, der DLR sagt, nun ja, es war halt nur so groß wie ein Mehrfamilienhaus und damit eigentlich ziemlich klein, wenn man die Größe unseres Himmels betrachtet. Und er ist in horizontaler Richtung der aufgehenden Sonne angeflogen. Das heißt, er konnte recht schwer gesehen werden, denn ja, es ist im Prinzip die dunkle Seite, die uns gezeigt wird. Und deswegen war er eigentlich nicht wirklich sichtbar im hellen Licht der Sonne. Und ja, größere unbekannte Asteroiden, die sich auch im Streulicht sozusagen der Sonne anschleichen, könnten eben eher eine größere Gefahr werden. In diesem Fall wurden ja tatsächlich auch recht viele Menschen verletzt. Das lag aber, wie auch Florian Freistetter in seinem Bericht zu dem Ereignis klarstellt, nicht an einem Einschlag, sondern eben tatsächlich an der in der Luft passierten Explosion. Und ja, warum ist das explodiert? Die Kurzfassung ist, Hitze und Kompression durch die Atmosphäre. Wer das genauer wissen mag, der sollte gerne den Artikel von Freistetter lesen, der auch verlinkt ist, der erklärt das einmal ganz gut, wie so ein Airburst überhaupt zustande kommt und warum da so viel Energie freigesetzt wird. Was er auch schreibt, ist, dass die meisten tatsächlich nicht bemerkt werden und dass Objekte mit einem Durchmesser von einem Meter durchschnittlich pro Monat einmal die Erde treffen. Und Objekte mit einem Durchmesser von 15 Metern, so wie der russische Asteroid eben circa war, die treffen uns im Schnitt einmal in 100 Jahren.
Helena: Joa.
Janine: Also ein Jahrhundertereignis. Wir kennen das ja auch von der Jahrhundertflut. Das heißt aber nicht, dass es nur einmal in 100 Jahren auftritt, sondern dass die Wahrscheinlichkeit nur so hoch ist, dass es einmal auftritt. Aber wie Wahrscheinlichkeiten so sind, sagen sie nicht, was passiert, sondern nur, was passieren könnte.
Helena: Ja, es kann ja auch mal ein paar hundert Jahre lang keinen Treffer geben und dann gibt es zwei in Folge. Dann wäre immer noch die Wahrscheinlichkeit gewahrt.
Janine: Genau. Ja, was an dem Ereignis ganz interessant ist, ist, dass es zu einigen Verwechslungen kam. Nämlich etwa 16 Stunden später war ein vorher auch schon bekanntes Ereignis, nämlich der Vorbeiflug des Asteroiden Duende, der zu diesem Zeitpunkt wohl der dichteste beobachtete Vorbeiflug sein soll. Und deswegen haben Menschen spekuliert, dass es vielleicht damit zusammenhängt, dass nur weil Duende vorbeifliegt, dieser Meteor in Russland aufgetreten ist. Aber die Astronomen haben ganz schnell klargemacht, das war wirklich Zufall, weil vor allem aufgrund völlig verschiedener Bahnen ein Zusammenhang einfach ausgeschlossen werden kann. Die kamen aus ganz unterschiedlichen Richtungen.
Helena: Ja, gab es denn auch Asteroiden, die uns mit Vorwarnung getroffen haben?
Janine: Ja, die gab es. Und zwar fast auf den Tag genau zehn Jahre später. Nämlich am 13. Februar 2023.
Helena: Also dieses Jahr.
Janine: Genau, ja, das war dieses Jahr. Oh verdammt, das Jahr war schon so lang. Und zwar ist da in der Nacht zum 13. Februar über Nordfrankreich auch ein Meteor verglüht. Und der war etwa ein Meter groß und konnte gut beobachtet werden, weil der Asteroid etwa sieben Stunden vorher tatsächlich entdeckt werden konnte. Und zwar hat ein Observatorium in Ungarn ihn entdeckt und dann an das Minor Planet Center der NASA gemeldet, wo solche Asteroidenmeldungen gesammelt werden. Und dann konnten auch weitere Astronomen das knapp eine Stunde später schon beobachten und bestätigen. Und die Bahnberechnungen haben dann ergeben, dass eine hundertprozentige Einschlagswahrscheinlichkeit besteht. Und ja, das wurde dann eben beobachtet. Sichtbar war das Ereignis in Belgien, den Niederlanden, im Süden Englands und dem Nordwesten Deutschlands. Und ja, weil der Durchmesser eben nur ein Meter war, hat das Ereignis wahrscheinlich auch gar nicht so große Wellen geschlagen. Aber es ist erst der siebte Asteroid, der noch vor seinem Eintritt in die Erdatmosphäre entdeckt worden ist. Und die letzten dieser drei Fälle haben sich tatsächlich auch im letzten Jahr ereignet. Und in einem Artikel von Scinexx steht dann nach Ansicht der ESA illustriert genau das, dass sich die Überwachung potenzieller Impact-Ereignisse in jüngster Zeit verbessert habe. Naja, gut. Andererseits ist rund ein Viertel von den mehr als 140 Meter großen Asteroiden überhaupt bekannt, die so in der Erdnähe sind.
Helena: Also von denen man ausgeht, dass es sie überhaupt gibt.
Janine: Genau. Von dem französischen Asteroiden konnten dann auch Meteoritenstücke gefunden werden. Was da auch interessant ist, dass um wenige Tage versetzt sowohl auch in Texas als auch in Italien Meteoritenstücke gefunden werden konnten von Ereignissen, die beobachtet wurden. Und das ist ganz interessant, weil es halt relativ nah beieinander liegt, aber auch in diesem Fall nichts miteinander zu tun hat. Nur, ja, die Häufigkeit ist halt hier ein bisschen auffällig. Manche haben gemunkelt, das ist eine interessante Art, den zehnten Jahrestag der Explosion des Meteors von Chelyabinsk zu gedenken. Warum das eigentlich alles so faszinierend ist, Menschen beschäftigen sich sehr gerne damit und Menschen sehen auch sehr gerne Sachen darin. Ich habe zum Beispiel auch einen Meteor gesehen, der auch auseinandergebrochen ist beim Eindringen in die Erdatmosphäre. Das war ein recht schönes Ereignis eigentlich, weil es sehr, sehr interessant aussah. Also es war eigentlich grellgrün alles und das Zerbrechen war wie so ein Lichtblitz im Objekt. Und ich habe euch mal einen Link reingetan, denn davon gibt es tatsächlich auch Videoaufzeichnungen und da könnt ihr das sehen. Das Ganze passierte nämlich am 31.10.2015, und zwar an Halloween, sozusagen. Deswegen hat der auch ein bisschen Beachtung bekommen und weil es in den frühen Abendstunden passiert ist, gab es auch sehr viele Beobachtungen. Es gibt übrigens auch eine Internetseite, auf der Feuerbälle gemeldet werden können und wo Menschen selber eintragen können, was sie gesehen haben. Und das ist auch ganz spannend, da mal durchzurecherchieren. Vielleicht findet man da auch Sachen, die man selbst schon gesehen hat. In meinem Fall ja. Da gibt es einige Beobachtungen zu. Und auch dieser Meteor, den ich gesehen habe, hat so eine gewisse Koinzidenz mit einem zweiten Asteroiden. Überhaupt nichts miteinander zu tun wieder, aber es gab einen Vorbeiflug an Halloween 2015 und dieser Asteroid ist besonders häufig in den Nachrichten gewesen, weil die Aufnahmen, die von ihm gemacht wurden, so aussehen, als sei es ein Schädel.
Helena: Ein Totenschädel. Ja, wenn ich mir den angeguckt hätte, bevor du das erwähnt hättest, hätte ich gern nicht gewusst, ob ich es dann erkannt hätte. Nachdem ich den erst danach angeguckt habe, habe ich das sofort gesehen, was gemeint ist in dem Bild. Aber ja, ein rotierender Schädel... es ist natürlich kein Schädel.
Janine: Nein, aber es zeigt sehr schön, dass die Leute immer sehr bereit sind, Sachen in Dingen zu sehen. Es gibt ja auch das berühmte Mars-Gesicht, das aufgrund der... des wenigen Detailgrades der Videoaufnahmen oder der Satellitenaufnahmen vom Mars eben wirklich so aussah, als wäre da ein Gesicht auf der Oberfläche, was es tatsächlich aber nicht ist. Spätere Aufnahmen haben das ein bisschen demontiert. Und ja, so ähnlich ist es vielleicht auch bei dem Halloween-Asteroiden, aber es ist auch wieder ein schöner Zufall. Und insgesamt die ganzen Zufälle, die sich um diese Einzelereignisse häufen, finde ich, zeigen auch, wie viel wirklich am Himmel los ist, ohne dass wir es mitkriegen. Und wie viel parallel passiert, ohne dass es etwas miteinander zu tun hat.
Helena: Ja, es gibt einfach unheimlich viele von diesen erdnahen Objekten.
Trifft uns der Asteroid Bennu? (00:42:38)
Janine: Genau, und eines davon hatten wir jetzt schon häufiger erwähnt, das ist Bennu. Aktuell, so wie wir die Tabellen und Skalen verstanden haben, sieht alles ganz gut aus und Bennu wird uns nicht treffen oder nur mit einer sehr geringen Wahrscheinlichkeit treffen. Aber ja, was ist denn, was steckt denn dahinter?
Helena: Ja, also Bennu ist ein Asteroid, der uns potenziell in über 100 Jahren treffen könnte. Der hat nämlich auch gerade die höchste Wahrscheinlichkeit. Die höchste Wahrscheinlichkeit in diesem Fall heißt 1 zu 1800. Das heißt, die Wahrscheinlichkeit, dass das wirklich passiert, ist sehr gering, aber dadurch, dass der jetzt auch gar nicht so klein ist, sondern ungefähr 500 Meter Durchmesser hat, wäre der Schaden immer noch sehr groß. Und dieser Asteroid ist jetzt auch schon seit einer ganzen Weile unter Beobachtung. Und da der eben die bisher größte Wahrscheinlichkeit hat, und das auch schon länger, hat man da eine Sonde hingeschickt, nämlich Osiris-Rex. Das Ziel von Osiris-Rex war es eben, die Oberfläche und das Material des Asteroiden zu untersuchen, um dabei eben den angesprochenen Jakowski-Effekt besser berechnen zu können. Also wie viel Sonneneinstrahlung wird absorbiert, wie wird die wieder ausgestrahlt, um dann eben berechnen zu können, wie das langfristig den Orbit verändert. Bevor man diese Messung gemacht hatte und die letzte große Berechnung der Wahrscheinlichkeit berechnet hatte, war die 2014 die Wahrscheinlichkeit schon mal nur 1 zu 2700, also kleiner als jetzt. Die Zahl ist größer, aber das heißt, aktuell ist es quasi wahrscheinlicher laut Berechnung, als es im Jahr 2014 war. Genau, im Jahr 2014 sah es aus, als wäre die Trefferwahrscheinlichkeit noch geringer als jetzt. Aber dann hat man eben diese Messung durchgeführt und durch die neue Messung ist eben die Wahrscheinlichkeit, von Bennu getroffen werden, gestiegen. Die ist immer noch klein, aber eben größer. Und im Jahr 2135 gibt es einen Vorbeiflug von Bennu, das ist noch in über 100 Jahren, wo Bennu zwischen Mond und Erde vorbeikommt und das ist so der Punkt, da werden wir nicht getroffen, auf jeden Fall nicht, aber dieser Vorbeiflug könnte eben diese Umlaufbahn relevant verändern, sodass danach entweder sicher wäre, dass wir getroffen würden, oder die Wahrscheinlichkeit dann auf 0 sinkt. Das ist so der aktuelle Stand. Das heißt, man muss auf jeden Fall den Vorbeiflug im Jahr 2135 sich angucken und danach weiß man genaueres.
Janine: Das klingt jetzt für uns so ein bisschen ernüchternd.
Helena: Ja gut, wir kriegen das jetzt nicht mit, was da passieren wird. So alt werden wir wahrscheinlich nicht. Der Einschlag von Bennu, wenn Bennu treffen würde, würde 25 Mal die Energie freisetzen, die die derzeit stärkste Atombombe hätte. Also sollte sich dann eben die Trefferwahrscheinlichkeit nach diesem Vorbeiflug als sicher herausstellen, dann sollten wir auf jeden Fall etwas dagegen tun.
Janine: Ja.
Helena: Und eine relevante Sache, die auch eine Rolle spielt, wenn man irgendwas dagegen tun kann, ist eben zu wissen, woraus besteht Bennu jetzt eigentlich. Deswegen hatte man ja die Sonde hingeschickt. Und jetzt im September, nachdem diese Folge erschienen ist, soll tatsächlich eine Probe von Osiris-Rex auf der Erde ankommen, wo man dann bestimmen kann, woraus besteht Bennu und was kann man mit diesen Materialien so anfangen. Und wenn man dann weiß, woraus das besteht und so weiter, was lässt sich dann tun, um Einschläge zu verhindern?
Was lässt sich tun, um Einschläge zu verhindern? (00:46:23)
Janine: Nun ja, der Himmel ist verdammt groß über uns und wir können die Augen nicht gleichzeitig überall haben. Womit sich Einschläge auf jeden Fall verhindern lassen könnten, so als grundlegende Basis, ist die Beobachtung. Also wir müssen Objekte überhaupt erst mal wahrgenommen haben, um gucken zu können, ob wir etwas dagegen tun können. Und um überhaupt Beobachtungen machen zu können, sind eben auch die Umstände wichtig. Also wir hatten das vorhin ja schon, wenn aus der Richtung der Sonneneinstrahlung zum Beispiel Asteroiden kommen, das erschwert die Suche erheblich, weil sie dann vielleicht gar nicht richtig gesehen werden können. Es wird zwar grundsätzlich auch die Überwachung des Himmels ausgebaut und Abwehrmethoden werden erforscht. Und die scheinen ja auch immer besser zu werden, wie eben vorhin kurz erwähnt. Aber in dem Zusammenhang hatte 2013 bereits Florian Freistetter auch etwas gesagt, dass eben die Situation auch noch nicht ganz ideal ist und die Suche mehr Ressourcen und Geld vertragen könnte, um überhaupt effektiver sein zu können. Also es gibt eine Internetseite vom, wie hieß das Ding jetzt, Moment, von der International Astronomical Union und dem Minor Planet Center. Dort kann zum Beispiel eingesehen werden, wie zu einem bestimmten Zeitpunkt die Sky Coverage aussah. Man kann sich da einen Plot erstellen, der einem zeigt, zu welchem Zeitpunkt zu wie viel der Himmel tatsächlich abgedeckt beobachtet werden konnte. Je größer der Zeitraum ist, desto größer ist auch die Abdeckung. Man kann ein bisschen mit rumspielen, wenn man mehrere Monate sich anguckt, sieht man zum Beispiel ganz gut, was Florian Freistetter auch erwähnt hat, dass die Südhalbkugel relativ schlecht abgedeckt ist. Man sieht auch, wenn man einen kleineren Zeitraum von Wochen wählt, zum Beispiel sehr gut, dass die Meere, also über den Meeren der Himmel, auch relativ schlecht abgedeckt ist. Das ändert sich bei größeren Zeiträumen. Und wenn man jetzt zum Beispiel den 12. bis 13. Februar diesen Jahres nur auswählt, sieht man, wie wenig Beobachtung an einem einzelnen Tag eigentlich stattfindet. Das heißt, es wird gar nicht jeden Tag der ganze Himmel beobachtet, sondern immer nur Auszüge zu bestimmten Zeiten und das Ganze wird dann zusammengenommen. Das heißt, man müsste, um kurzfristige Ereignisse feststellen zu können, auch eine grundsätzliche Überwachung des Himmels gewährleisten können. Aber, und das ist der nächste Punkt, das kostet wiederum Geld und Ressourcen. Wir bräuchten vielleicht mehr Teleskope und vor allem auch mehr Teleskope im Weltraum, die aus anderen Perspektiven den Himmel untersuchen könnten. Und die Teleskope, die wir haben, werden ja auch oft für ganz andere Untersuchungen benutzt. Eben zum Beispiel, um schwarze Löcher sich näher anzugucken und da schöne Bilder von zu generieren und die ganze Arbeit drumherum und so. Und das ist auch ein Thema, was Freistetter angesprochen hat. Asteroiden entdecken ist in der Wissenschaft aktuell nicht so prestigeträchtig und gibt deswegen vielleicht auch nicht so viele Fördergelder wie andere Untersuchungen eben. Also das heißt, mehr Ressourcen und mehr Geld könnte helfen, auch noch einen größeren Bereich erfassen zu können oder über längere Zeit erfassen zu können. Das ist das, was wir grundsätzlich noch als Abwehrmaßnahme einschieben müssten, um da besser aufgestellt zu sein. Dennoch gibt es ja einiges, was gemacht und probiert wird.
Helena: Aber es ist halt die Frage, ob das Aufgabe der Grundlagenwissenschaften ist oder ob man dafür nicht eher Programme braucht, die staatlich oder politisch gewollt sind. Um genau das Ziel zu haben, alle potenziellen Impacts zu finden.
Janine: Ja.
Helena: Also statt irgendwie immer extra Forschungsgeld dafür sowas zu beantragen, wäre es eher sinnvoll, da ein Programm zu finanzieren oder mehrere Programme von der ESA und der NASA, die halt auszustatten mit mehr Geld, dass die dann alles theoretisch finden könnten.
Janine: Genau.
Helena: Weil im Moment passiert sehr viel der Asteroidenentdeckung ja gar nicht von großen Forschungsinstituten, sondern ein nennenswerter Teil wird durch Amateur-Astronomen abgedeckt, die einfach, weil sie Spaß haben, den Himmel beobachten und die meisten erdnahen Objekte kommen eben daher. Das heißt, es ist sehr stark Hobby-getrieben.
Janine: Exakt.
Helena: Die Berechnung dann für die Orbits und so, dafür gibt es dann eben die großen Institute, die das machen, aber die machen halt nur einen sehr kleinen Teil der Beobachtung.
Janine: Und wenn jetzt so eine Beobachtung aber dann tatsächlich passiert ist, egal auf welcher Grundlage, dann kann eben darüber nachgedacht werden, was zu tun ist. Und zwar gibt es zwei Optionen laut der ESA. Die eine Option ist ablenken und die andere zerstören. Zerstören ist tatsächlich bei größeren Objekten gar nicht so trivial und Stand heute eher nicht möglich, beziehungsweise auch nicht ratsam, weil dabei ja auch größere Trümmerteile entstehen können und unvorhersehbar ist, wo und wie die sich dann verhalten, wo die langziehen. Deswegen wird das eher verworfen und dann bleibt noch das Ablenken. Und das Ablenken, da werden auch unterschiedliche Möglichkeiten diskutiert. Zum Beispiel könnte man Raketenantriebe oder Nuklearantriebe an Asteroiden anbringen und einfach dadurch ihre Bahn verändern, dass man ihnen einen Schub gibt damit. Oder ein Sonnensegel drauf anbringen, das einfach auch die Bahn verändert.
Helena: Ja, wenn man genug Zeit hätte, ein Sonnensegel ist sicher nicht schlecht.
Janine: Genau. Allerdings, ja, Zeit ist manchmal so der Faktor, wenn wir die Sachen erst sehr spät finden. Eine andere Option ist noch das Rammen von Objekten mit anderen kleineren Objekten oder Dinge darauf einschlagen lassen. Und manches ist vielleicht nicht so wirklich möglich, vielleicht technisch nicht, vielleicht zeitlich nicht. Und die Frage ist auch wirklich, wollen wir versuchen, irgendwie mit riesigen Wasserstoff- oder Nuklearsprengköpfen so ein Ding auseinanderzudingsen? Ich meine, das müssten wir vorher auf diesem Planeten hier haben und wir sind Menschen. Also, naja, vielleicht auch nicht so die klügste Idee, insgesamt so eine große Waffe zu bauen und deswegen Ablenken. Aber wie? Inzwischen sind die Überlegungen dazu so weit gegangen, dass die DART-Mission inzwischen schon abgeschlossen ist. Das heißt, wir überlegen nicht nur, wie kann das passieren, sondern wir haben schon versucht, wie das passieren kann. Und die DART-Mission, das ist der Double Asteroid Redirection Test, also der Doppel-Asteroiden-Neuausrichtungstest.
Helena: Ja.
Janine: Was ist da passiert? Es wurde ein Objekt gebaut, das recht schwer war, und es wurde ein Asteroidenpaar ausgesucht. Das ist nämlich der Doppel-Asteroid Didymos und sein Begleiter Dimorphos. Die Forschung hat berechnet, wie groß ein Objekt sein müsste, um Dimorphos vielleicht in seiner Bahn zu beeinflussen. Es wurden einige Instrumente und Module an diesem Objekt angebracht, die dann auch Messungen durchführen konnten für den Zeitpunkt des Aufschlags und was danach passiert ist. Und dann ist im November 2021 eine Rakete gestartet, die DART ins All gebracht hat. Dann ist dieses DART-Modul dahin gereist und ist im September 2022 auf den kleineren Asteroiden, der den größeren umkreist, eingeschlagen. Das Ziel dieser Mission war es, eine Verkürzung der Umlaufzeit, also der kleine Asteroid hat um den größeren herum eine bestimmte Umlaufzeit. Der Einschlag war so kalkuliert, circa, dass 10 Minuten kürzer die Umlaufzeit sein sollte. Die ersten Messungen danach haben ergeben, dass sich tatsächlich die Umlaufzeit verkürzt hat, aber sogar um 33 Minuten.
Helena: Das ist ja schon ziemlich erfolgreich gewesen. Andererseits wusste man vorher auch nicht, welche Masse der Asteroid genau hat.
Janine: Genau.
Helena: Und deswegen wusste man jetzt auch nicht, wie genau der Effekt des Einschlags wird.
Janine: Ja. Das ist nämlich auch, was Helena gerade sagte. Wir sind zu Bennu geflogen und haben uns da Proben abgeholt, die jetzt hier landen werden, Ende des Monats, um überhaupt wissen zu können, woraus besteht der denn, um eben solche Masseberechnungen machen zu können und wissen zu können, was wäre denn nötig, um zum Beispiel eine Ablenkung des Asteroiden überhaupt durchführen zu können. Weil, ja, dabei werden ja Impulse übertragen von dem einschlagenden Objekt auf das in seiner Umlaufbahn befindliche Objekt, damit diese überhaupt verändert werden kann. Und nun ja, welche Masse braucht es denn halt, damit da überhaupt ein Effekt eintritt? Und überhaupt, wie sieht der Effekt über die lange Zeit aus? Im Fall der DART-Mission soll eine Folgemission das überprüfen. Die wird HERA genannt und soll zwischen 2024 bis 2027 eben neue Erkenntnisse bringen und nochmal den Asteroiden besuchen und die Folgen des Einschlags überhaupt genauer erfassen können, damit die Forschung da noch nähere Erkenntnisse draus ziehen kann für weitere Überlegungen, wie denn Asteroidenabwehr aussehen kann.
Helena: Bin gespannt, was da rauskommt. Es hat ja leider nicht geklappt, HERA gleichzeitig mit DART loszuschicken und das während des Tests schon alles mitzumessen. Das wäre optimal gewesen, aber ja, aufgrund von Budgetkürzungen hätte das dann nicht mehr geklappt.
Janine: Aber es gab ja auch ein paar Erkenntnisse dann direkt vom Einschlag und vielleicht ist so ein zeitversetztes Ding auch gar nicht so verkehrt.
Fazit (00:56:47)
Helena: Ja, das war jetzt alles und das war ja schon ziemlich viel, was wir zum Thema Wahrscheinlichkeiten und Asteroiden sagen konnten. Dann kommen wir doch mal zum Fazit. Also ich fand es auf jeden Fall sehr spannend, das zu recherchieren und nochmal nachzugucken, wie man jetzt eigentlich die Wahrscheinlichkeit berechnet, dass man eben möglichst versucht, alle denkbaren Orbits mitzunehmen, die auf Basis der Messdaten möglich sind, um dann eben eine möglichst akkurate Wahrscheinlichkeit zu berechnen. Mir war jetzt auch nicht klar, dass es eben diese Palermo-Skala gab, bei der auch wie lange dauert es denn eigentlich, bis der Asteroid uns trifft, eine Rolle spielt. Ja, und gleichzeitig wurde wir bisher, seit wir das beobachten, noch nicht so oft getroffen mit Vorwarnung. Aber es passiert jetzt langsam. Das heißt, es wird besser und es gibt erste Ansätze zum Abwehren von Asteroiden und sollte uns Bennu tatsächlich dann treffen, können wir das verhindern. Das ist schon sehr beruhigend.
Janine: Ich habe, glaube ich, tatsächlich gar nicht so viel. Also du hast eigentlich schon alles gesagt, was ich auch in ein Fazit packen könnte. Ich finde es auf jeden Fall ein super spannendes Thema, wie eigentlich alle Themen, die wir uns angucken. Es hat ja Gründe, dass wir sie uns angucken. Okay, das gebe ich zu. Wir können es uns halt selbst aussuchen. Aber es ist ein sehr spannendes Thema, weil da so viel mit dran hängt. Also man kann über Wahrscheinlichkeiten reden, darüber, was eigentlich in diesem Universum passiert und wie uns das auf der Erde beeinflusst. Und das ist schon sehr schön. Das ist vielleicht das Fazit, das ich hier noch dranhängen kann, auch wenn das jetzt sehr schwammig klingt.
Helena: Ja, und außer zu wissen, wie wahrscheinlich etwas ist, ist es eben auch wichtig zu wissen, wie groß ist denn das damit verbotene Risiko oder der Einfluss von diesem Ereignis wie dem Asteroideneinschlag.
Nächste Folge: #CCCamp23 und Data Science im Oktober (00:58:48)
Helena: Gut, dann die nächste Folge handelt von Janines Besuch auf dem Chaos Communication Camp, dem Camp, das alle vier Jahre vom Chaos Computer Club veranstaltet wurde. Du bist unterwegs und hast ein paar Interviews oder ein Interview eingesammelt von Leuten, die etwas mit Data Science machen. Und wir sind gespannt, was dabei herausgekommen ist.
Janine: Genau. Ja, es ist alles ein bisschen anders gelaufen, als es vorher gedacht war. Deswegen müssen wir da noch so ein bisschen nachimprovisieren. Aber ihr werdet es hören.
Call to Action (00:59:24)
Janine: Wenn ihr das hören möchtet, dann folgt uns doch gerne auf mastodon unter at datenleben at podcast.social oder auf Twitter unter at datenleben. Besucht gerne unsere Webseite www.datenleben.de und hinterlasst uns da gerne Kommentare unter unseren Folgen. Darüber freuen wir uns eigentlich immer sehr. Und ihr könnt uns natürlich auch als Data Scientist buchen für Analysen oder Projekte. Falls ihr noch andere Fragen oder Themen habt, die euch interessieren, dann schreibt uns gerne.
Helena: Ja, dann bleiben wir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao!
Janine: Tschüss!
Outro (00:59:57)
01:00:08
dl041: barrierearme datenvisualisierung
Episode in
datenleben
In dieser Folge geht es endlich mal wieder um Datenvisualisierung. Wir haben uns die Frage gestellt, wie visualisierte Daten möglichst barrierearm zur Verfügung gestellt werden können. Dafür haben wir uns mit Anne-Victoria Meyer (Anvi) unterhalten. Sie hat sich in ihrer Masterarbeit intensiv mit diesem Thema beschäftigt – und zwar aus der Perspektive einer Webentwicklerin. Dabei hat sie auch eine praktische Studie durchgeführt anhand eines eigenen Prototypen für barrierearme Datenvisualisierung.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social und Twitter @datenleben
YouTube: @datenleben
Erwähnte datenleben-Folgen
dl013: daten visualisieren
dl038: data feminism
Links zur Folge
media.ccc, Anne-Victoria Meyer: Barrierearme Datenvisualisierungen im Web (Video)
Slides zum Vortrag
Anne-Victoria Meyer: Accessibility of web-based data visualizations for people who are blind or visually impaired (Diploma Thesis, Technische Universität Wien)
https://media.ccc.de/v/fire-shonks-2022-49284-barrierefrei-posten-bildbeschreibungen-auf-social-media
Anne-Victoria Meyer: Diagramm-Prototypen
Chartability: https://chartability.fizz.studio/
Jonathan Schwabish, Susan J. Popkin, Alice Feng: Do No Harm Guide: Centering Accessibility in Data Visualization
Alan Lundgard, Arvind Satyanarayan: Accessible Visualization via Natural Language Descriptions: A Four-Level Model of Semantic Content
W3C: Webcontent Accessibility Guidelines
media.ccc, Casey Kreer: Barrierefrei posten: Bildbeschreibungen auf Social Media
Schlagworte zur Folge
Barrierefreiheit, barrierearm, Datenvisualisierung, Accesability
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 41. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch die Welt der Daten näher bringen. Was für Daten umgeben uns? Wie gehen wir mit diesen Daten um und was können wir aus ihnen lernen? Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.
Thema der Folge (00:00:37)
Janine: Und in der diesmaligen Folge möchten wir wieder an das Thema Datenvisualisierung anknüpfen, worüber wir schon mal relativ allgemein geredet haben, aber diesmal mit einem bestimmten thematischen Schwerpunkt. Und zwar geht es uns nämlich um Bildbeschreibungen von Datenvisualisierung, also die Frage, wie können visualisierte Daten wiederum so beschrieben werden, dass sie auch ohne das, was man sieht, verständlich sein können. Weil wir das Thema super spannend finden, aber selbst vielleicht noch nicht unbedingt so viel darüber nachgedacht hatten, haben wir uns heute eine Person eingeladen, die schon sehr viel mehr darüber nachgedacht hat als wir. Und zwar werden wir gleich mit Anvi reden, die über das Thema Barrierefreiheit von Datenvisualisierung eine Masterarbeit geschrieben hat und darüber einen Talk auf dem Fireshonks gehalten hat. Das fanden wir sehr spannend und deswegen haben wir sie gefragt, ob sie bei uns mal noch mehr darüber reden möchte.
Warum ist das Thema wichtig? (00:01:32)
Helena: Ja, und wir finden das Thema generell einfach spannend, so wie alle Themen, die Datenvisualisierung betreffen. Aber auch, weil es darum geht, wie kommuniziere ich meine Daten auch an Menschen, die die Visualisierung eben nicht sehen können oder für die die Visualisierung nicht sonderlich informativ sind. Und ja, dazu haben wir dich eingeladen, Anvi. Möchtest du dich einmal vorstellen?
Wer ist anvi? (00:01:59)
Anvi: Hi, ja, vielen Dank für die Einladung. Ich freue mich sehr, hier zu sein. Ich bin Anne Viktoria oder kurz Anvi. Meine Pronomen sind sie, ihr. Ich arbeite seit einigen Jahren als Frontend Entwicklerin und habe jetzt vor kurzem meinen Master im Bereich Mensch-Computer-Interaktion abgeschlossen. Und eben als Thema meiner Masterarbeit habe ich mir dieses Thema ausgesucht, Barrierefreiheit von Datenvisualisierung. Eben weil ich auch als Web-Entwicklerin arbeite, ist hier mein Fokus oder meine Perspektive natürlich die einer Web-Entwicklerin. Das heißt, ich habe mich recht darauf fokussiert, auch was können Web-Entwickler*innen zum Beispiel beachten, wenn sie Visualisierungen auf Seiten einbinden, gerade wenn sie sie zum Beispiel mit Libraries wie D3.js entwickeln, um diese Datenvisualisierung auch Menschen mit Behinderungen zugänglich zu machen. Bei dem Stichpunkt möchte ich kurz dazu sagen, dass ich hier auch die Perspektive habe von jemandem, der sich sehr für das Thema interessiert und sich dafür einsetzen möchte, aber dass ich selber keine Behinderung habe und deshalb nicht aus dieser Perspektive darüber sprechen kann.
Janine: Vielen Dank für deine Vorstellung. Es ist auf jeden Fall sehr spannend, sonst wärst du ja auch nicht hier und wir hätten dich nicht gefragt, wenn wir es nicht auch so sehen würden. Und da gehen wir gleich nochmal ein bisschen ins Detail, aber vorher haben wir noch einen kleinen Einspieler wie sonst auch zum Thema. Und zwar durfte ich hier Anvis Einleitungen ihrer Masterarbeit verarbeiten.
Einspieler: Stell dir vor... die Hälfte wird dir nicht gesagt (00:03:27)
Janine: Stell dir vor, du öffnest einen Artikel. Er handelt von den aktuellen Entwicklungen eines globalen Ereignisses, wie zum Beispiel der Coronavirus-Pandemie. Direkt unter dem Titel, noch ehe der eigentliche Artikel beginnt, stößt du auf folgenden Text. 26.02. 12.03. 26.03. 09.04. 23.04. 0 200 400 600. Gleitender 7-Tage-Durchschnitt. Du bist irritiert, fragst dich, was das sein soll. Vielleicht ein Fehler, vielleicht hat die Autor*in dieses Artikels versehentlich etwas aus einer Kalkulationstabelle eingefügt und es dann vergessen, vor der Veröffentlichung wieder aus dem Artikel zu entfernen. Dieser Text ist aber nichts Ungewöhnliches. Er ist sogar ziemlich typisch für das, was eine blinde oder sehbehinderte Person hört, wenn sie einen Artikel mit ihrem Bildschirmlesegerät anhört. Und zwar meistens dann, wenn sie auf eine Datenvisualisierung auf einer Webseite stößt. Während die eine Person ein überzeugendes Diagramm mit Statistiken über die Entwicklung der Pandemie sieht, hört eine andere Person eine unverständliche Aneinanderreihung von Daten und Zahlen ohne Kontext. Leider sind Datenvisualisierungen auf Webseiten für blinde oder sehbehinderte Menschen häufig unzugänglich. Diese Unzugänglichkeit ist insbesondere dann zu beobachten, wenn blinde oder sehbehinderte Personen eine Bildschirmlesesoftware verwenden, die die Informationen mit Text-to-Speech wiedergibt, also aus den schriftlichen Informationen der Webseite eine sprachliche Wiedergabe erzeugt. Eben vorliest, was andere visuell erfassen würden. Bei genauer Betrachtung des obigen Beispieltextes könnte man vermuten, dass es sich bei den Datumsangaben am Anfang um die Markierung der einen Achse eines Diagramms handelt und bei den folgenden Zahlen um die Markierung der anderen Achse. Der Text, gleitender 7-Tage-Durchschnitt, am Ende könnte dann eine Legende oder eine Beschriftung einer Datenreihe im Diagramm sein. Wenn wir nur den Text hören oder lesen, können wir jedoch nur spekulieren, was die Visualisierung, aus der dieser Text stammt, eigentlich zeigen soll. Die Zugänglichkeit von Datenvisualisierungen für Menschen mit Behinderung ist ein Thema, das von der Forschung bisher leider vernachlässigt wurde. Wenn ich mir als Mensch aber etwas vorstellen können soll, dann brauche ich die Informationen, um diese Vorstellung mit etwas auffüllen zu können. Es reicht nicht, einfach nur Zahlenreihen und eine Beschriftung zu hören. Ich muss verstehen können, was dargestellt ist, so wie alle anderen es eigentlich vielleicht auch verstehen können oder zumindest die Chance haben, es zu verstehen, indem sie einfach hinsehen. Welche Informationen fehlen? Welche brauche ich, um überhaupt eine Vorstellung von etwas haben zu können? Diese Frage ist sehr wichtig und die Antwort darauf noch umso wichtiger, vor allem, wie das umgesetzt werden kann.
Was ist Datenvisualisierung? (00:07:04)
Janine: Um uns diesem Thema anzunähern, möchten wir nochmal ein bisschen zurückblicken und die Frage nochmal aufmachen, was ist Datenvisualisierung? Und deswegen, ja, möchte ich hier nochmal ganz kurz darauf verweisen. Wir haben in Folge 13, die genau so heißt nämlich, Datenvisualisierung, schon darüber gesprochen und da aufgemacht, welche Zwecke und Ziele Datenvisualisierung haben kann. Und ja, Helena, wiederholst du einmal kurz, was wir da so besprochen haben?
Helena: Ja, im Grunde meinen Datenvisualisierung jede Sichtbarmachung von Daten. In der Regel nicht Tabellenformen, sondern zum Beispiel grafische Darstellungen. Aber die Zwecke sind sehr unterschiedlich und in der Folge haben wir insbesondere über die Exploration von Daten geredet, also darum, dass man mal einen Überblick bekommt, was überhaupt man für Daten hat. Und ein weiterer Zweck von Datenvisualisierung, den wir besprochen hatten, ist die Validierung von Modellen, die man auf Basis dieser Daten gemacht hat, also dass man bestimmte Sachen analysiert hat und dann guckt, passt die Analyse überhaupt zu diesen Daten. Dafür gibt es auch spezielle Formen von Datenvisualisierung und der Teil, den Menschen, die selber nicht mit Daten arbeiten, wahrscheinlich am öftesten sehen, ist die Anwendung der Kommunikation der Daten, um eben für andere Menschen Daten verständlicher zu machen. Die ersten Bereiche sind halt auch für Leute, die mit Daten arbeiten, selber, während die Kommunikation eben auch dafür da ist, anderen Leuten Daten verständlich zu machen. Da gibt es sehr viele verschiedene Methoden und da sollte man sich auch immer Gedanken über die Zielgruppe machen. Für wen möchte ich oder wem möchte ich die Daten jetzt kommunizieren? Weil Leute, die mehr technisches Wissen haben, könnten vielleicht andere Darstellungen bevorzugen als Leute, die weniger spezifisches Wissen in manchen Bereichen haben.
Janine: Wo uns die häufigste Form der Datenvisualisierung glaube ich vorkommt, ist in den Nachrichten häufiger, wenn da zum Beispiel über Wahlergebnisse geredet wird oder über irgendwelche Arbeitsmarktquoten. Ich muss hier gerade auch noch an die Data-Feminism-Folge denken, wo auch noch mal so ein bisschen genau über solche Aspekte geredet wurde. Aber ja, Datenvisualisierung, wir werden damit recht häufig konfrontiert. Anvi, was waren denn so deine Berührungspunkte mit Datenvisualisierung?
Anvi: Ja, zuletzt jetzt natürlich prominent meine Masterarbeit, wo ich mich intensiv mit der Barrierefreiheit von Datenvisualisierung beschäftigt habe und wo ich auch selber einen Prototyp umgesetzt habe in Form einer Webseite mit zwei Datenvisualisierungen.
Was hast du zu barrierefreier Datenvisualisierung erarbeitet? (00:09:43)
Helena: Aber worum ging es denn in deiner Masterarbeit?
Anvi: Also in sich, grob habe ich es ja schon gesagt, im Genaueren muss man natürlich sich immer ein bisschen einschränken bei so einer Masterarbeit. Das heißt, ich habe mich einerseits speziell fokussiert auf Datenvisualisierung, die direkt auf Webseiten eingebunden werden. Ich bin von diesem Fall ausgegangen, dass wir sagen, wir haben schon die Daten und wir wollen mit Code etwas umsetzen, was auf einer Webseite eingebunden wird, was dann eine Datenvisualisierung ist. Ich habe mich speziell eben auch damit beschäftigt, was man dabei beachten kann, dann als Entwickler*in, wenn man das umsetzt. Und ich habe mich auch speziell damit beschäftigt, was man beachten muss für die Barrierefreiheit von Menschen mit Sehbehinderung. Hier möchte ich dazu sagen, natürlich Menschen mit Sehbehinderung sind nicht die einzigen Menschen, die hier das Thema Barrierefreiheit betrifft. Es gibt auch andere Behinderungen, die hier auf jeden Fall relevant sind. In meiner Masterarbeit haben wir jedoch den Fokus so gewählt, dass ich mich primär mit Barrierefreiheit für Sehbehinderung beschäftigt habe.
Helena: Okay, aber könnte man sagen, dass damit das, was du dir angeguckt hast, nicht ganz übertragbar wäre, wenn man die jetzt in Social Media verwenden würde? Das wäre dann wahrscheinlich ein etwas anderer Fokus.
Anvi: Genau, das wäre natürlich ein anderer Fall dann wieder, weil man natürlich, wenn man die Kontrolle über die Webseite hat und über den Code, hat man ganz andere Möglichkeiten, das einzubinden und das barrierearm umzusetzen, als wenn man jetzt zum Beispiel in Social Media was postet und man nur ein fertiges Bild hat, was man hochladen kann und dem man maximal vielleicht eine Bildbeschreibung dazu geben kann, wo es aber nicht die Möglichkeit gibt, zum Beispiel unter dem Bild dann noch eine gut formatierte Tabelle einzubinden oder so etwas.
Helena: Okay, ja, und was hast du dann gemacht?
Anvi: An sich in meiner Masterarbeit wollte ich herausfinden, was gibt es eigentlich schon an Wissen dazu, wie man Datenvisualisierung barrierearm machen kann und wie gut funktioniert es, wenn man das in der Praxis versucht umzusetzen und wie nützlich ist es dann auch wirklich für Menschen mit Behinderungen, wenn man diese Techniken anwendet. Deswegen habe ich in meiner Masterarbeit im ersten Schritt geguckt in der Literatur, was gibt es schon für Empfehlungen aus vorherigen Studien oder anderen Werken, was man berücksichtigen sollte, um die Datenvisualisierung möglichst barrierearm umzusetzen. Daraus habe ich dann so 19 Guidelines entwickelt. Die habe ich dann wiederum angewendet in einem Prototyp mit zwei Datenvisualisierungen, den ich implementiert habe mit D3.js, also die Datenvisualisierung sind mit D3.js umgesetzt, und das habe ich dann wiederum evaluiert in einer kleinen Studie mit fünf Personen mit Sehbehinderungen, wo wir uns jeweils in Zoom getroffen haben und diese Personen dann zuerst Aufgaben bearbeitet haben mithilfe des Prototyps. Und hinterher habe ich ihnen dann noch ein paar Fragen gestellt zur Usability und welche Features ihnen gefallen haben und so weiter.
Helena: Okay.
Janine: Das heißt, du hast gleich irgendwie versucht, einen praktischen Zugang dazu zu finden und nicht nur theoretisch darüber nachgedacht, wie man es machen könnte, sondern auch mit Menschen zusammengearbeitet, um das eben auszuprobieren und dann zu Ergebnissen zu kommen.
Anvi: Genau, also das war mir auch wichtig in meiner Masterarbeit, dass ich, ich sage mal, möglichst nah an der Praxis und möglichst nah an den Menschen, die es betrifft, arbeite, dass ich nicht jetzt, wie es halt leider häufig passiert, irgendwo in meinem Kämmerlein sitze und mir irgendwas ausdenke. Ich als Person ohne Behinderung denke mir irgendwas aus, was meiner Meinung nach super cool wäre für Leute mit Behinderung und schreibe dann da irgendwas drüber. Und in Wahrheit geht es total an der Lebensrealität von den Menschen vorbei. Deswegen war das für mich eben wichtig, was zu machen, einerseits was konkret anwendbar ist mit aktuell vorhandenen Web-Technologien und halt dann auch wirklich zu gucken mit Menschen, die Behinderungen haben, ob es für sie gut funktioniert.
Helena: Okay, du hattest gerade was von 19 Empfehlungen, die du umgesetzt hättest, erzählt. Was hast du da gemacht konkret?
Anvi: Unterschiedlich. Es ist schwierig, das zusammenzufassen, ohne jetzt diese 19 Punkte durchzugehen. Aber ich kann euch ein paar Beispiele geben.
Helena: Ja, das ist gut.
Anvi: Also ich möchte jetzt nicht behaupten, dass es die wichtigsten wären, weil ich hier jetzt keine Hierarchie der Wichtigkeit aufbauen möchte. Aber ein Beispiel zum Beispiel, was ich immer empfehlen würde und was auch Teil von diesen Guidelines war, ist, die Daten als Tabelle anzubieten, zusätzlich zur Datenvisualisierung. Es ist egal, wie gut die Datenvisualisierung umgesetzt ist, ob sie zum Beispiel für Screenreader-User*innen gut zugänglich ist oder ob es eine gute Beschreibung gibt. Es ist immer sinnvoll, auch eine Tabelle mit einzubinden, wo die Daten dargestellt sind. Und das ist zum Beispiel eine von den Empfehlungen. Dann zum Beispiel auch, dass die Farben ausreichend Kontrast haben sollten, so dass sie gut erkennbar sind. Sie sollten gut unterscheidbar sein, auch für Menschen, die zum Beispiel eine Farbsehschwäche haben. Schrift sollte gut lesbar sein. Es sollte alles gut beschriftet und gelabelt sein. Wenn man zum Beispiel einen Screenreader verwendet, ich weiß nicht, soll ich erklären, was ein Screenreader ist?
Janine: Ja, mach gern mal.
Anvi: Ein Screenreader ist eine Software, die häufig von Menschen mit Sehbehinderung genutzt wird, aber nicht nur von dieser Gruppe, die sie verwenden, um sich das vorlesen zu lassen, was auf dem Bildschirm zu sehen ist. Also der Screenreader parsed alles, was auf dem Bildschirm zu sehen ist. Und wenn wir jetzt über Webseiten reden, dann parsed er alles, was auf der Webseite ist, schaut sich an zum Beispiel, was für Überschriften gibt es und so weiter und macht das dann für die Person verfügbar, die über bestimmte Tastaturbefehle dann diese Webseite durchgehen kann, zum Beispiel zwischen den Überschriften hin und her springen kann. Und das wird dann meistens über Sprachausgabe ausgegeben. Dann wird zum Beispiel vorgelesen, was die Überschrift ist, auf der man sich aktuell befindet. Und Screenreader sind zum Beispiel sehr typisch für Menschen, die blind sind, die damit dann zum Beispiel Webinhalte konsumieren.
Woher kann ich wissen, was ich machen muss, für Barrierefreie Zugänge? (00:16:19)
Helena: Jetzt mal abgesehen von deiner Masterarbeit. Woher kann ich denn wissen, wenn ich eine Webseite baue, worauf ich achten sollte? Was kann ich mir denn mal angucken oder gibt es da irgendwelche Richtlinien für, die das irgendwie mir als Person, die selber noch nicht so genau weiß, worauf es ankommt, zugänglicher macht, um zu wissen, was ich machen kann?
Anvi: Also wenn wir jetzt allgemein über Barrierefreiheit von Webseiten sprechen, dann gibt es schon seit langer Zeit die Webcontent Accessibility Guidelines vom World Wide Web Consortium. Das sind Richtlinien, die bestimmte Kriterien vorgeben, was erfüllt sein sollte, damit eine Webseite möglichst barrierearm ist. Da stehen dann so Sachen drin, wie zum Beispiel, achte drauf, dass die Schriftgröße mindestens so und so groß ist, Bilder müssen Bildbeschreibungen haben, die Navigation sollte konsistent und verständlich sein und solche Sachen. Natürlich, allein diese Kriterien zu erfüllen, garantiert noch nicht, dass die Webseite irgendwie irgendwo in der Nähe von barrierefrei ist. Das kommt halt sehr viel immer darauf an, dass man auch das so umsetzt, dass es irgendwie auch verständlich ist, dass es gut benutzbar ist, dass es Sinn ergibt. Aber an sich ist das so die Grundlage, wonach sich die meisten richten, wenn sie versuchen, eine Webseite möglichst barrierearm zu machen.
Helean: Ja, und wenn es jetzt konkret bezogen auf Daten, kannst du da auch was empfehlen?
Anvi: Genau, also an sich, diese Webcontent Accessibility Guidelines sind recht allgemein formuliert, so dass sie möglichst auf alle Arten von Webseiten passen sollten. Das ist einerseits sehr gut, weil man sie dann sehr breit anwenden kann, aber es ist eben auch ein Problem, wenn man dann so doch recht spezifische Arten von Content hat auf einer Webseite, wie eben Datenvisualisierung, die schon ein bisschen spezieller sind teilweise, gerade wenn sie interaktiv sind. Und da ist es häufig dann gar nicht so klar, wie eigentlich diese Richtlinien anzuwenden und zu verstehen sind in Bezug auf Datenvisualisierung. Was ganz cool ist, ist, es gibt ein Projekt, das nennt sich Chartability, und dort gibt es Richtlinien, die sehr ähnlich aufgebaut sind wie die Webcontent Accessibility Guidelines und zielt speziell ab auf die Barrierefreiheit von Datenvisualisierung. Und dieses Chartability würde ich zum Beispiel empfehlen, wenn man auf seiner Webseite Datenvisualisierung einbindet und man sich dann beschäftigen möchte, wie kann ich die möglichst barrierearm umsetzen, worauf sollte ich achten? Dann hilft es auf jeden Fall, dass es so einen Kriterienkatalog vorgibt, den man durchgehen kann, um zu schauen, wo eventuell noch Barrieren sind in der Datenvisualisierung.
Was sind typische Barrieren? (00:19:14)
Janine: Und was sind da die typischen Barrieren, die es da gibt?
Anvi: Was typisch ist zum Beispiel gerade für Screenreadernutzer*innen, sind häufig Datenvisualisierung gar nicht als solche erkennbar. Normalerweise ein Screenreader sagt zum Beispiel an, wenn auf einer Webseite ein Bild ist, und man dorthin navigiert, wo dieses Bild ist, dann sagt der Screenreader an, hier ist ein Bild, und wenn es eine Bildbeschreibung gibt, dann wird die Bildbeschreibung auch vorgelesen. Das Problem mit Datenvisualisierung ist, dass sie häufig so umgesetzt sind, dass überhaupt nicht erkennbar ist, dass dort überhaupt etwas ist, oder dass nur erkennbar ist, hier ist irgendwas, hier sind irgendwelche Zahlen, ich höre irgendwelche Zahlen, aber ich höre nicht, was das eigentlich ist. Das heißt, häufig ist ein Problem, dass gar nicht klar ist, dass eine Datenvisualisierung gerade vorhanden ist. Und andererseits auch, wenn es irgendwie verständlich ist, dass es hier gerade eine Datenvisualisierung ist, passiert es auch häufig, dass der Screenreader-Output nicht wirklich nützlich ist. Wenn jetzt nicht irgendwelche speziellen Schritte unternommen wurden, um diese Datenvisualisierung barrierearm zu machen, und diese Datenvisualisierung zum Beispiel mit D3.js umgesetzt wurde und aus SVG-Elementen besteht, dann würde der Screenreader höchstwahrscheinlich einfach das vorlesen, was er an Text findet in dieser Datenvisualisierung. Und das sind eben dann so Sachen wie irgendwie Text, der in der Legende steht, oder die Tickmarks an einer Achse, wenn es eine Achse gibt, oder ein Label, was neben einer Linie steht. Aber nicht zum Beispiel, was das für eine Visualisierung ist, wie sie aussieht, warum sie dort ist, was da drin zu erkennen ist, was für Daten da drin sind, was die Trends in den Daten sind, und all dieses, was eigentlich interessant wäre, warum man eigentlich meistens diese Visualisierung auch einbindet auf der Seite, das ist dann meistens überhaupt nicht erkennbar, wenn man einen Screenreader benutzt.
Janine: Zum Beispiel, wie du es auch in der Einleitung gemacht hast, die ich hier im Einspieler verarbeiten durfte, wo eben einfach nur vorgelesen wurde, verschiedene Daten, verschiedene Zahlen und dann eben das vermutliche Label mit dem Sieben-Tages-Wert, der dann mit dabei stand. Das war ja auch so kontextlos. Also gut, ich habe dann vielleicht gewusst, um welche Daten es geht, also an welchem Tag etwas war und was sozusagen die Bandbreite der Skala war, nämlich von 0 bis 600, aber dazwischen fehlt alles andere an Informationen.
Anvi: Genau, also das war jetzt zum Beispiel auch ein konkretes Beispiel von einer echten Seite, ich sage nicht welche, auf der ich mit einem Screenreader war und da war eben genau so eine Statistik der Sieben-Tage-Inzidenz und das war eben genau dieser typische Fall, dass nur eigentlich die Beschriftungen vorgelesen wurden, aber es keinen Zugang gab zu den eigentlichen Daten und es auch eben keine Möglichkeit gab, auf die Daten selber zuzugreifen.
Janine: Ja, oder überhaupt zu wissen, warum diese Zeile da jetzt auftaucht.
Anvi: Also was es manchmal gibt, ich weiß jetzt nicht, ob das in dem Fall der Fall war, ist eben zum Beispiel ein Link dann zu einer Datentabelle. Das ist natürlich cool, wenn es das gibt, weil das zumindest dann eine Alternative schon mal gibt, auf die Daten zuzugreifen. Aber diese Tabellen sind halt auch nicht die Norm, noch nicht.
Janine: Ja, mir ist gerade noch eingefallen, was ja für Screenreader tatsächlich auch einen Unterschied macht, ist zum Beispiel, wie ich Schrift benutze. Also ich denke jetzt, was ich in Social Media bisher mitbekommen habe, ist, wenn Hashtags benutzt werden, meinetwegen #DatenlebenLeaks. Das hatten wir schon öfter mal als Hashtag benutzt. Und wenn alles klein geschrieben wird, kann es für den Screenreader schwer sein, das zu interpretieren. Und deswegen setzt man bei sowas, weil Hashtags müssen ja in einem Wort geschrieben werden, um so anklickbar zu sein. Deswegen benutzt man eben Großbuchstaben, um die Worte einzeln vorlesbar zu machen, sodass der Screenreader das dann besser interpretieren kann. Also das ist jetzt so etwas, was mir gerade noch einfällt. Trifft wahrscheinlich auf die meisten Datenvisualisierung in dem Fall jetzt nicht zu. Ist bestimmt Social Media spezifisch, aber ja, kann helfen, die Worte verständlich zu machen.
Anvi: Aber das ist natürlich auch ein Punkt hier, sag ich mal, dass man möglichst mitdenken oder mit Screenreader ausprobieren sollte, wie sich die Sachen mit Screenreader anhören. Und das ist natürlich auch relevant bei Daten, gerade wenn es zum Beispiel um Zahlen geht. Da ist es nämlich zum Beispiel wichtig, dass man möglichst die Daten so formatiert, wenn das zum Beispiel so eine Zahl ist wie 7,5 Millionen, dass man sie schön mit den ordentlichen Tausender- und Dezimal-Trennzeichen versieht, dass dann der Screenreader das auch vorliest als 7,5 Millionen und nicht als 7 5 0 0 0 0 0. Weil das nämlich auch dann den Cognitive Load erhöht und das natürlich das schwerer verständlich macht, wenn man mit dem Screenreader so eine Datenvisualisierung durchgeht und anstatt, dass man die Zahl verständlich vorgelesen kriegt als 7,5 Millionen, man dann die einzelnen Ziffern nur angesagt bekommt, weil die Zahlen nicht richtig formatiert wurden. Also das ist auch so ein Punkt, dass man das immer mitdenken sollte. Natürlich ist das häufig auch eine Sache, die unterschiedlich ist zwischen verschiedenen Screenreadern und die teilweise auch eine Einstellungssache ist, weil natürlich Screenreader auch Einstellungen haben, zum Beispiel wie verbos die Sachen vorlesen, welche Sonderzeichen wie vorgelesen werden und so weiter. Ich habe es in meiner Studie zum Beispiel auch gehabt, dass, ich glaube, bei vier von fünf Personen wurden die Zahlen super vorgelesen und bei einer Person wurden aus irgendeinem Grund die Ziffern alle einzeln vorgelesen, was es halt total schwierig macht, mit den Daten zu arbeiten.
Helena: Ja.
Janine: Als ich den einen Spieler eingesprochen habe, hatte ich das Problem tatsächlich auch. Und dann habe ich gedacht, naja, aber vielleicht hätte der Screenreader das ja auch schon als Datum interpretiert und wahrscheinlich 12.3., 26.3. und so was weiter gesagt. Da war ich selbst verwirrt und ich hatte kurz überlegt, ob ich dich noch anfrage, wie ich es denn vorlesen soll. Weil ja, mir hat da auch der Kontext gefehlt. Was war das Ergebnis? Wie wurde das gemacht? Und ja, das finde ich spannend. Natürlich geht so den Programm selbst auch, wenn man das jetzt mal so menschlich sagt, wenn denen vorher nicht gesagt wird, wie funktioniert das, dann werden sie da ein ganz anderes Ergebnis ausspucken.
Helena: Ja, aber es ist bei Zahlen generell so, wenn man zu viele Nachkommastellen dahinschreibt, wenn die gar nicht relevant sind, dass das dann generell Daten weniger leicht verständlich macht. Oft sind die Nachkommastellen ja sogar nur komplette Berechnungsartefakte und komplett irrelevant ab einem gewissen Punkt. Und wenn man die jetzt wahrscheinlich mit zehn Nachkommastellenzahlen irgendwohin macht, dann hilft das jetzt gerade auch mit Screenreadern natürlich auch nicht weiter. Die würde ja eh niemand lesen.
Anvi: Genau, aber das ist natürlich ja auch eine Sache, die für Accessibility auch wichtig ist, jetzt unabhängig von Sehbehinderungen zum Beispiel, weil das natürlich auch eine Dimension von Accessibility oder von Barrierefreiheit ist, dass ich gucke, wie mache ich die Datenvisualisierung so, dass sie möglichst leicht verständlich ist? Und leichter verständlich ist natürlich, wenn die Zahl irgendwie sinnvoll gerundet und schön formatiert ist, als wenn die da irgendwie in einer unnötig hohen Präzision oder mit unnötig vielen Nachkommastellen drinsteht.
Was kann ich tun, um auf Barrierefreiheit hinzuarbeiten? (00:26:51)
Helena: Ja, aber kommen wir doch noch mal zu dem Thema, was kann ich denn tun, um die Barrierefreiheit beziehungsweise die Barriere, ja, die Barrieren zu reduzieren?
Anvi: Ja, Barrierefreiheit ist so ein komisches Wort, oder? Weil also wirklich kann man je hundertprozentige Barrierefreiheit erreichen, das ist zu bezweifeln.
Helena: Ja.
Janine: Das stimmt.
Anvi: Genau, also ich kann gerne mal noch ein paar Tipps geben, Beispiele geben dazu. Wenn ich jetzt mal mir die Situation vorstelle, ich bin Webentwicklerin oder Webentwickler, möchte auf meiner Webseite eine Datenvisualisierung umsetzen, was sind da typische Sachen, die es zu beachten gibt? Da kann ich gerne eine Übersicht geben, jetzt von den Sachen, die man beachten könnte, die man natürlich auch in zum Beispiel Chartability wiederfinden wird, deswegen hier muss jetzt niemand mitschreiben, kann gerne ein paar Sachen erzählen, aber in Zweifelsfall würde ich euch empfehlen, bei Chartability reinzuschauen. Aber was zum Beispiel eine Sache ist, die ich in der Literatur immer wieder gelesen habe und die ich selber auch in meiner Studie festgestellt habe, ist, dass es unglaublich wertvoll ist, die Daten und die Visualisierung auf mehreren Wegen zugänglich zu machen. Das heißt zum Beispiel, dass ich einerseits die Visualisierung selber anbiete, das kann zum Beispiel jetzt in einem simplen Fall einfach ein Bar Chart sein, und dass ich dem zum Beispiel als erste Alternative eine Bildbeschreibung gebe, wo beschrieben wird, was für eine Art von Chart ist das, was ist darin zu sehen, warum ist das Chart hier, was möchte ich mit dem Chart ausdrücken. Und dass ich dann als weitere Alternative zum Beispiel eine Datentabelle anbiete, unter dem Chart oder als Link, dann auf einer eigenen Seite, für Menschen, für die das einfach einfacher ist, zum Beispiel das als Tabelle aufzurufen. Oder auch zum Beispiel, dass die Daten als Download angeboten werden, dass man einfach sagt, okay, wir bieten einen Download an und wer die Daten lieber in einem eigenen Programm öffnen möchte, kann die Daten einfach runterladen und in einem eigenen Programm öffnen. Dann kann man natürlich auch noch Sachen machen, wie dass man zum Beispiel versucht, wirklich die Elemente der Visualisierung selber barrierearm zu machen, also barrierearm meine ich jetzt gar nicht, sondern ich meine Screenreader zugänglich in diesem Fall, dass man sagt, okay, die einzelnen Elemente können auch mit dem Screenreader zum Beispiel durchgegangen werden. Oder dass ich zum Beispiel auch eine Audio-Version anbiete, wo die Daten nicht visuell dargestellt werden, sondern zum Beispiel in Form von Tönen. Und das sind einfach jetzt so Beispiele dafür, wie man die Daten auf viele verschiedene Arten und Weisen zugänglich machen kann. Und der Trick ist hier einfach, je größer die Anzahl ist von Wegen, auf denen man diese Daten zugreifen kann, desto größer ist die Wahrscheinlichkeit, dass das für eine bestimmte Person dann einer dieser Wege funktioniert.
Helena: Okay, ja.
Janine: Ist das etwas, was du in deiner Masterarbeit dann mit deinen Proband*innen auch rausgefunden hast? Also hast du diese Rückmeldung auch bekommen?
Anvi: Es war recht interessant, weil ich das so stark gar nicht erwartet hatte. Meine Proband*innen, es waren insgesamt fünf, waren alle, sag ich mal, auf dem Spektrum von komplett blind bis stark sehbehindert und sie haben sehr unterschiedliche Features eigentlich genutzt im Prototyp und es haben ihnen auch unterschiedliche Features gefallen. Ich habe zum Beispiel textuelle Beschreibungen von den Visualisierungen drin gehabt und es gab eine Person, die hat sehr viele von den Aufgaben, die ich gestellt habe, einfach gelöst, indem die Person die textuellen Beschreibungen durchsucht hat oder sich angehört hat und dort schon die Lösung gefunden hat oder dort einen Hinweis gefunden hat, zumindest in welchem Bereich der Daten sie suchen muss, um den richtigen Wert zu finden. Dann gab es zum Beispiel andere Personen, die total viel mit der Tabelle gearbeitet haben und die auch gesagt haben, total super, dass die Tabelle drin ist, die gesagt haben, die Tabelle ist für sie persönlich sehr wichtig und würden sie begrüßen, wenn mehr Seiten sowas hätten. Es gab dann auch wiederum eine Person, die ein Feature sehr viel genutzt hat, das war die Zoom-Funktion. Und zwar habe ich eine Zoom-Funktion eingebaut, wo man die Datenvisualisierung in Fullscreen öffnen kann und man dann rein und raus zoomen kann auf das Chart. Und da gab es eben eine Person, die das sehr viel genutzt hat und die sich sehr drüber gefreut hat, dass es dieses Feature gab. Und da war ich eigentlich schon überrascht, dass, obwohl ich nur fünf Proband*innen hatte, was eine eher geringe Anzahl ist, es doch recht divers war, welche Features sie genutzt haben und welche Features ihnen gefallen haben.
Helena: Ja, ich meine, letztlich kriegt man ja bei allen Themen immer komplett verschiedene Antworten, wenn man Leuten fragt, ja, wie nutzt ihr denn diese eine Sache? Oder welcher Teil davon ist für euch wichtig? Das ist ja immer unterschiedlich, die Antworten. Deswegen ist das ja auch ein guter Punkt, darauf hinzuweisen, dass man eben verschiedene Arten anbieten sollte. Und insbesondere die Tabelle wäre ja technisch auch besonders leicht umzusetzen, ohne großen Mehraufwand. Also nicht jede Person, die eine Webseite betreibt, hat vielleicht die Kapazitäten und die Tabelle ist, glaube ich, dann das Einfachste, was man machen kann. Also das sollte eigentlich immer machbar sein. Ja, was ich auch schön fände, wäre, wenn Standardprogramme, die Datenvisualisierung bereitstellen, auch ein automatisches Feature hätten, dann passende Tabellen auszuspucken.
Anvi: Ja, das gibt es bei manchen. Ich glaube das, oder ich sage mal, ich hoffe, das wird jetzt auch mehr. Aber ich weiß, bei manchen gibt es das schon.
Helena: Ja.
Janine: Also wir hatten ja auch schon mal über ggplot geredet, womit Helena gerne Grafik gemacht. Und da kann man ja auch schon die verschiedenen Farbschemata reinladen, die eben für Farbsehschwächen hilfreich sind, um Graphen besser lesbar zu machen.
Helena: Aber irgendwie automatisches Extrahieren wiederum von bestimmten Informationen habe ich da jetzt noch nicht gesehen. Ich habe aber auch noch nicht nachgeguckt, ob es das da schon gibt.
Was gibt es beim Thema Kontrast zu beachten? (00:33:11)
Janine: Eine Sache, die du gerade ja schon angesprochen hattest für die Verbesserung von Barrieren oder den Abbau von Barrieren war der Kontrast. Gibt es da bestimmte Sachen zu beachten oder wie gehe ich damit um?
Anvi: Genau, das ist natürlich auch eine typische Barriere bei Datenvisualisierung, dass einerseits die Schrift zu klein, zu wenig kontrastreich, zu schlecht lesbar ist. Aber auch häufig, dass die grafischen Elemente selber zu wenig Kontrast haben, schlecht unterscheidbar sind und häufig für Menschen mit Farbsehschwäche zum Beispiel auch schwer zu unterscheiden ist, was dann zu was gehört in der Legende und in der Visualisierung. Und deswegen ist es natürlich dann auch wichtig, was das Visuelle angeht, dass man alles möglichst gut lesbar macht, dass man möglichst große und gut lesbare Schrift wählt, dass man gut unterscheidbare Farben wählt und dass man alles möglichst kontrastreich macht, würde ich mal sagen. Da gibt es ja auch zum Beispiel Online-Tools, mit denen man das Kontrastlevel überprüfen kann. Es gibt auch Tools, die einem helfen, Farbpaletten zu generieren für Datenvisualisierung, die für Menschen mit Farbsehschwäche auch gut unterscheidbar sein sollten. Also da gibt es viele Tools, die einem auch helfen können, zum Beispiel dann richtige Farben für Sachen zu wählen, die dann gut lesbar und gut unterscheidbar sind. Und was natürlich jetzt, sag ich mal, noch super cool wäre, ist, wenn man Möglichkeiten zur Anpassung von Farben und Kontrast einbindet. Also, wenn man zum Beispiel die Möglichkeit anbietet, in der Datenvisualisierung selber das Farbschema zu ändern oder die Schrift größer zu machen oder den Kontrast zu erhöhen. Das wäre natürlich optimal.
Helena: Ja, das kann ich mir vorstellen, weil würde man maximalen Kontrast einstellen, wird es ja dann wieder für viele Menschen unangenehm anzugucken. Also normalsichtige Menschen, ich weiß nicht, ob das ein gutes Wort ist. Aber ich kenne das von einigen Programmen, wenn ich auf maximal Kontrast gestellt habe, um das mal auszuprobieren, dass es für mich dann plötzlich schwieriger wird, mir Grafiken anzugucken, weil für meine Sehgewohnheit das nicht so gut passt. Und deswegen finde ich den Vorschlag, das anzubieten, dass man das interaktiv einstellen kann, eigentlich ziemlich gut, weil eben die Ansprüche oder die Barrieren für Leute ja unterschiedlich sind.
Janine: Ja.
Helena: Und man nicht alles mit einer einzigen Visualisierung abfangen kann.
Janine: Also aus der Bildbearbeitung weiß ich auch, wenn mich nicht alles täuscht zumindest, dass je höher ich den Kontrast drehe, desto mehr Informationen gehen aber verloren. Also Farben bleiben dann irgendwann auf der Strecke, weil nur noch die kontrastreichsten dann irgendwann über bleiben und wenn man einfach nur am Kontrast dreht, kann es auch schnell zu Sachen kommen, die miteinander verschwimmen.
Helena: Ja.
Janine: Von daher sind so ganz unterschiedliche Einstellungen, die vorgenommen werden können. So ein bisschen mehr Interaktivität mit der Darstellung garantiert von Vorteil.
Helena: Aber wenn man bei einer grafischen Darstellung von Daten zu viele verschiedene Farben hat, dann ist das generell für alle unverständlich.
Janine: Das stimmt.
Anvi: Genau. Irgendwann sollte man sich auch überlegen, ob es dann nicht Zeit ist, eine andere Art der Visualisierung zu wählen. Wenn man 20 verschiedene Linien in 20 verschiedenen Farben hat, dann sollte man vielleicht hinterfragen, ob man wirklich alle diese Linien nebeneinander anzeigen muss.
Janine: Ja.
Helena: Ja, genau. Das kann niemand unterscheiden.
Janine: Gibt es denn noch weitere Sachen, wo eine individuelle Anpassung sinnvoll wäre, jetzt nicht nur bei der Farbauswahl oder dem Kontrast?
Anvi: Wo es natürlich cool wäre, aber schwierig umzusetzen, sage ich mal, ist bei textueller Beschreibung, bei der textuellen Beschreibung der Datenvisualisierung. Das ist nämlich etwas, wo die Präferenzenrechte auseinandergehen. Ich weiß nicht, wer sich schon mal damit beschäftigt hat, eine gute Bildbeschreibung zu schreiben. Ist schon, ja, ich würde sagen, eine Form der Kunst, so eine gute zu schreiben, die halt angemessen ist für das, was man kommunizieren möchte, die das präzise, ohne zu lang ausschweifen zu werden, rüberbringt. Und gerade bei textuellen Beschreibungen gehen die Präferenzen auch recht stark auseinander. Einerseits, wie lang oder kurz sie sein sollte, und auch, welche Inhalte jetzt interessant sind. In meiner Studie zum Beispiel hatte ich den Fall, ich habe an sich Bildbeschreibungen für die Datenvisualisierung inkludiert. Da drin wurde beschrieben, allgemein, was ist das für ein Diagramm, welche Achsen gibt es, wo liegen die Extremwerte, was für Trends sind zu sehen. Und all diese Sachen wurden beschrieben in dieser Bildbeschreibung. Das heißt, es war recht ausführlich. Und wie ich vorhin schon gesagt habe, gab es eben eine Person zum Beispiel, die diese Bildbeschreibung total gerne mochte, die damit sehr viel gearbeitet hat in der Studie und die auch gesagt hat, sie würde sich wünschen, dass andere Webseiten auch sowas hätten. Und diese Person hat zum Beispiel gesagt, wenn sie sich aussuchen könnte, dann hätte sie es sogar lieber, dass diese Bildbeschreibung noch ausführlicher wäre und dass dann noch mehr Daten, also das noch genauer beschreiben würde, wie der Trend zum Beispiel verläuft in der Datenvisualisierung. Andererseits hatte ich dann eine Person in der Studie zum Beispiel, die am liebsten eigentlich die Bildbeschreibung auf ein Minimum reduziert hätte. Diese Person hat gesagt, dass es ihr am liebsten wäre, wenn in der Bildbeschreibung nur drinsteht, was das für eine Visualisierung ist und warum die hier ist. Und dass diese Person von der Bildbeschreibung eigentlich nur möchte, dass die Bildbeschreibung kommuniziert, was für ein Element ist das hier. Und diese Person würde danach dann direkt zum Beispiel zu einer Tabelle gehen wollen und dann direkt nur mit der Tabelle arbeiten, was zum Beispiel dann die Person in der Studie auch gemacht hat. Ich habe auch in der Literatur zum Beispiel eine Studie gelesen, wo Personen Bildbeschreibungen bewerten sollten. Ich glaube, das haben sie mit sehenden und nicht sehenden Personen gemacht. Es ist sowohl zwischen den beiden Gruppen ziemlich auseinandergegangen, teilweise auch innerhalb der Gruppen, welche Art von Informationen diese Menschen gerne in einer Bildbeschreibung hätten von einer Datenvisualisierung und welche Informationen sie zum Beispiel nicht gerne hätten. Und deshalb wäre das wahrscheinlich eine Sache, wo es cool wäre, wenn das irgendwie auch anpassbar wäre. Wie viel textuelle Beschreibung bekomme ich zu der Datenvisualisierung? Wenn ich gar keine haben möchte, dann bekomme ich nur ganz kurz eben einen Satz dazu, was das da für ein Element ist. Oder wenn ich jemand bin, der total gerne damit arbeitet, der am liebsten gerne noch zusätzliche Erklärungen, Kontextinformationen, Erklärungen der Trends und so weiter hätte, dass ich eben auch diese Informationen dann noch textuell bekommen kann. Wie man das am besten umsetzen könnte? Keine Ahnung, aber cool wäre es sicher.
Janine: Ja, das klingt auf jeden Fall so.
Was sollte eine Bildbeschreibung enthalten? (00:40:29)
Helena: Wenn wir jetzt schon beim Thema textuelle Beschreibung sind. Wenn ich jetzt eine ausführliche Beschreibung machen möchte. Wie sollte ich da vorgehen? Ich meine, wenn es ein bestimmtes Schema gibt, kann ja vielleicht die eine Person ja auch einfach weiterspringen, die dann das nicht so ausführlich haben will.
Anvi: Wenn man jetzt zum Beispiel in Social Media etwas postet, dann ist es ja häufig so, dass man wirklich nur einen Text eingeben kann als Bildbeschreibung und keine Möglichkeit hat, das zu formatieren. Der große Vorteil ist natürlich, wenn man selber das umsetzt auf einer Webseite, dass man nicht gezwungen ist, das als einen Fließtext, als einen langen Block umzusetzen, sondern dass man eben die Möglichkeit hat, weil es eine Webseite ist, Markup zu verwenden und dass man zum Beispiel auch so eine längere Beschreibung dann gliedert in zum Beispiel Unterüberschriften, die dann sagen, hier ist eine kurze Beschreibung allgemein, dann ist hier eine kurze Beschreibung der Trends, die zu sehen sind und hier ist eine kurze Erklärung des Kontexts von dieser Datenvisualisierung. Das ist natürlich eine Sache, die man machen kann, die da helfen könnte. Ansonsten, was den Inhalt selber angeht, gab es zum Beispiel einen Vorschlag einer Strukturierung von solchen Bildbeschreibungen von Datenvisualisierung von zwei Wissenschaftlern von Lundgard und Satyanarayan und die haben eben so ein Modell entwickelt, wo sie gesagt haben, es gibt eigentlich vier Ebenen, auf denen man so eine Datenvisualisierung beschreiben kann. Sie haben jetzt nicht gesagt, man muss von allen vier Ebenen die Informationen mit reinnehmen. Da gab es eben ja auch diese unterschiedlichen Präferenzen zwischen den Leuten, welche Informationen für sie nützlich waren und welche nicht. Aber ich kann einmal kurz erklären, was die vier Ebenen sind, auf denen man eine Datenvisualisierung beschreiben kann. Das erste wäre Übersicht und Aufbau. Das sind so grundlegende Informationen wie, was ist das eigentlich für eine Datenvisualisierung? Ist das ein Liniendiagramm? Ist das ein Balkendiagramm? Ist das ganz was anderes? Dann auch, was zum Beispiel ist der Titel? Was für Achsen gibt es zum Beispiel in dieser Visualisierung? Und wie sind die Daten codiert? Das wäre so die ganz grundlegende Ebene. Hier haben wir noch nichts über den Inhalt erfahren. Hier haben wir nur was über den Aufbau der Visualisierung erfahren. Dann die zweite Dimension wäre ein statistischer Überblick. Das sind alle Informationen, die man aus den Daten statistisch berechnen kann. Das sind so Sachen wie, wo liegt hier der Median in der Datenreihe? Wo liegen die Extremwerte? Oder auch einfache Vergleiche, wie zum Beispiel, die eine Datenreihe verhält sich so und so zur anderen Datenreihe in bestimmten Punkten. Dann die dritte Ebene oder Dimension wären die sichtbaren Phänomene. Hier geht es dann darum, dass man die Sachen, die für sehende Personen eben sichtbar sind, als zum Beispiel Trends in den Daten, in der Visualisierung, als bestimmte Muster, als Cluster oder als Outlier, dass man diese Sachen in Text beschreibt, damit eben diese wertvolle Information auch Screenreadernutzer*innen zugänglich gemacht wird. Und dann die vierte Dimension. Das sind, ja so ich sag mal, zusätzliche Kontextinformationen. Das sind so Sachen wie Erklärungen der allgemeinen Thematik um dieses Chart drumrum. Zum Beispiel, wenn das jetzt eine Visualisierung von Bevölkerungsdaten ist, dann könnte dort zum Beispiel eine Erklärung sein zum demografischen Wandel oder etwas so. Oder es könnte zusätzliche Kontextinformationen geben, warum zum Beispiel die Bevölkerung in dieser Statistik in einem bestimmten Jahr stark gewachsen, stark gesunken ist. Vielleicht gab es ein bestimmtes Event, was damit zu tun hatte oder es wurde ab einem bestimmten Zeitpunkt anders gezählt oder etwas. Alle diese zusätzlichen Informationen würden in diese vierte Kategorie zählen.
Helena: Okay, also für mich klang das Vierte jetzt nach, wenn man eine Webseite macht, auf der auch Text zu der allgemeinen Erklärung für alle steht, die dann auch eigentlich für alle relevant wäre.
Janine: Oder auch Interpretationen zu der Darstellung vielleicht an diesem Punkt.
Anvi: Mhm.
Janine: Also gut kenntlich gemachte Interpretationen muss es natürlich sein. So stelle ich mir das gerade vor. Der Aufbau liest sich für mich sehr vom Allgemeinen ins Spezielle runter steigend. Und dann natürlich die Abgrenzung bei den zusätzlichen Informationen gegebenenfalls zu dem, was sind die Schlüsse, die daraus gezogen werden. So, vielleicht. Ich kann es mir auf jeden Fall, finde ich das sehr verständlich strukturiert.
Anvi: Aber da hast du eben was Interessantes auch gesagt, mit dem, was hast du gemeint, gut kenntlich gemacht. Das ist tatsächlich auch ein Punkt oder einer der Gründe, warum häufig dann die Meinungen zu den Bildbeschreibungen so auseinandergehen, weil es nämlich häufig eben auch berechtigt, sage ich mal, die Kritik gibt, dass das immer irgendwie eine Interpretation ist. Das ist quasi, wenn ich eine Beschreibung von einer Datenvisualisierung lese, die entweder automatisch generiert wurde oder die von jemandem per Hand geschrieben wurde, dann ist da immer eine gewisse Interpretation mit drin. Zumindest, ich sage mal, ab dieser Ebene der sichtbaren Phänomene, wo dann immer natürlich bewusst eine Auswahl getroffen wird. Was sind für mich als sehende Person, die jetzt diese Bildbeschreibung schreibt, die sichtbaren Phänomene? Was sind für mich die Phänomene, die ich als wichtig genug erachte, sie jetzt in die Bildbeschreibung mit reinzuschreiben? Und was sind jetzt die Annahmen, die ich treffe, was interessant wäre, zum Beispiel für eine sehbehinderte Person, zu wissen über dieses Chart? Da ist es natürlich, finde ich, auch verständlich, dass dann manche Leute sagen, sie möchten lieber selber möglichst guten Zugriff auf die Daten haben, weil sie eben nicht diese Daten nur so durch die Beschreibung einer anderen Person mediiert quasi erleben möchten, sondern weil sie selber direkten Zugang haben möchten. Und das ist eben ein häufiger Vorbehalt, der natürlich auch begründet ist.
Janine: Ja, absolut. Das hatten wir auch in der Data-Feminism-Folge auf einer anderen Ebene, nämlich eben, dass die Darstellung selbst ja auch schon eine Auswahl von Daten ist. Und da war auch einer der Punkte, dass das gleichzeitige Zurverfügungstellen der Rohdaten verhindert, dass es nur auf die Interpretation ankommt. Genau, deswegen kann ich mir das auch gut vorstellen, dass hier der zusätzliche Zugang zu den Daten innerhalb einer Tabelle beispielsweise dann eben auch davor schützt, nur auf die Interpretation angewiesen zu sein.
Anvi: Ja. Ein anderer Punkt, von dem ich aus anderen Studien gelesen habe, ist auch, dass es leider häufig das Problem gibt, dass bei Datenvisualisierung, wenn sie eine Bildbeschreibung haben, häufig die Bildbeschreibung nicht aktuell ist. Das heißt, gerade wenn es um so Sachen geht wie irgendwelche Dashboards von aktuellen Entwicklungen, die vielleicht täglich oder mehrmals täglich aktualisiert werden, dass diese Bildbeschreibung, gerade eben, wenn sie nicht automatisch generiert, sondern per Hand geschrieben wird, einfach vergessen wird, mit zu aktualisieren. Und dass halt dann häufig Screenreadernutzer*innen auch schon schlechte Erfahrungen gemacht haben, dass sie zum Beispiel eine Bildbeschreibung sich angehört haben, dort die vermeintlich aktuellen Daten sich angehört haben, und dann wechseln sie zur Tabelle und stellen auf einmal fest, das ist hier eine Beschreibung von vor zwei Wochen, die ich gerade gehört habe, und der Wert für mich ist genau null davon. Das ist eben auch so ein Punkt, warum halt dann manche skeptisch gegenüber solchen Beschreibungen sind und sagen, okay, wenn ich mir die Beschreibung anhöre und hinterher erst merke, dass die irgendwie total out of date war, dann bitte gebt mir einfach direkt die Daten.
Helena: Ja, deswegen wäre es für solche Sachen natürlich gut, wenn man eine Methode findet, dass man die Bildbeschreibung auch generieren kann aus den Daten.
Anvi: Das wird teilweise auch empfohlen, dass die direkt automatisch generiert werden, eben aus solchen Gründen, damit es nicht möglich ist, das zu vergessen, sie zu aktualisieren, wenn die Daten sich ändern.
Helena: Ja, das ergibt auf jeden Fall Sinn, ja.
Was ist dein Fazit aus deiner Masterarbeit? (00:49:04)
Janine: Ja, wir haben ja jetzt schon über ganz viele verschiedene Punkte gesprochen. Hast du denn aus deiner Masterarbeit, was ist denn so dein Fazit, was du daraus noch gezogen hast?
Anvi: Eigentlich, was recht erfreulich war für mich, war die Erkenntnis, dass wir im Prinzip auf einem guten Weg sind in Richtung Abbau von Barrieren bei Datenvisualisierung, auch wenn natürlich aktuell in der Praxis, sage ich mal, auf realen Webseiten der Zustand in diesem Bereich noch katastrophal ist. Nichtsdestotrotz habe ich gemerkt, dass wenn man die Literatur sich anschaut, wenn man sich anguckt, was andere sich überlegt haben, was andere herausgefunden haben und das wirklich anwendet, dass dabei eigentlich was ganz Passables rauskommt. Es konnten die Aufgaben ziemlich gut bearbeitet werden in meiner Studie mithilfe des Prototypen. Auch das Feedback von den Probanden zum Prototyp war sehr positiv. Das heißt, wenn man es wirklich will, dann kriegt man es auch möglichst barrierearm hin mit dem, was wir aktuell haben an Technologie, mit dem, was wir aktuell haben an Wissen. Natürlich ist das jetzt noch eine Sache, dass es dann auch gewollt und priorisiert werden muss in der Praxis, aber prinzipiell sind wir auf einem guten Weg, würde ich sagen, und das hat mich eigentlich recht gefreut.
Janine: Das klingt sehr schön und vielversprechend.
Anvi: Bei der Tabelle, wie sollte ich die denn dann machen? Hast du da irgendeine Erkenntnis zu, was ist einer Tabelle nützlich? Weil irgendwie denke ich ja, der Standardscreenreader wird ja nicht irgendwie selber in der Lage sein, Tabellen leicht zugänglich zu machen oder wie muss ich mir das vorstellen? Kann ich da sinnvoll drin suchen oder wie funktioniert das?
Anvi: Bei den Tabellen sollte man natürlich allgemein beachten, dass man die Accessibility Best Practices beachtet, einfach was das Umsetzen von HTML-Tabellen angeht, also zum Beispiel, dass man von Headern den Scope setzt, dass klar ist, worauf sie sich beziehen, damit dann die Screenreader, wenn man durch die einzelnen Einträge durchnavigiert, auch ansagen können, in welcher Spalte bin ich gerade, in welcher Zeile bin ich gerade, worauf bezieht sich das gerade? Das ist die eine Sache und ansonsten, was sehr wichtig wäre, dass man die Tabelle nicht nur als statische Tabelle anbietet, sondern dass man sie auch interaktiv macht. Das habe ich tatsächlich in meinem Prototyp nicht gehabt. Ich habe nur eine statische Datentabelle gehabt und das wurde mehrfach genannt von den Proband*innen, dass es super nützlich wäre, wenn diese Tabelle sortierbar wäre und wenn sie durchsuchbar wäre, weil ich zum Beispiel so Aufgaben hatte in meiner Studie, wo dann gefragt wurde, in welcher Altersgruppe sind die meisten Menschen in der Datenvisualisierung? Und da habe ich dann das Feedback bekommen, ja, diese Frage könnte ich super schnell beantworten, wenn die Tabelle sortierbar wäre, aber da sie nicht sortierbar ist, müsste ich jetzt hier den ganzen Tag sitzen und jeden Eintrag einzeln anhören und mir im Kopf merken und mit den anderen Einträgen im Kopf vergleichen, um dann hinterher irgendwie hoffentlich sagen zu können, was jetzt der größte Eintrag war.
Helena: Mhm.
Anvi: Was halt einfach nicht haltbar ist. Deswegen, das ist halt so eine kleine Sache, die aber das Leben unglaublich viel leichter machen kann, dass man diese Tabelle sortierbar und durchsuchbar macht.
Helena: Ja, ich meine, für alle Leute, die mit einer Tabelle arbeiten, ist es angenehmer, wenn man die sortieren kann. Oder auch filtern, dass man dann nur bestimmte Einträge sich anzeigen lässt und die dann sortiert zum Beispiel.
Anvi: Ja, auf jeden Fall.
Helena: Ja, und etwas, was du auch noch angesprochen hattest, war so das Hörbemachen von Grafiken. Das ist etwas, was ich jetzt so aus verschiedenen Raumfahrtkontexten oder irgendwie Astronomie- kontexten öfter mal gehört hatte, wo, wenn ich mir das anhöre, ich dann denke, ja, okay, es klingt manchmal ganz nett, aber ich wüsste jetzt erst mal mit dieser Hörbarmachung nicht so viel anzufangen. War das denn irgendwie bei deinem Prototypen erfolgreicher oder wie war das Feedback da?
Anvi: Genau, bei meinem Prototyp hatte ich an sich für die Visualisierung jeweils so eine kleine Sonification eingebaut. Da konnte man über einen Playbutton einfach einen Track starten, wo dann in der Reihenfolge, in der die Daten in der Datenvisualisierung von links nach rechts angezeigt werden, genau in dieser Reihenfolge einfach Töne abgespielt werden. Zum Beispiel hatte ich ein Balkendiagramm und dort wurde dann pro Balken ein Ton abgespielt und im Liniendiagramm pro Zeitpunkt, den ich jeweils hatte auf der x-Achse, wurde ein Ton abgespielt und die Höhe des Tons hat dann angezeigt, wie hoch oder niedrig dieser Datenwert war. Und da musste ich sagen, dass einfach so, wie ich das umgesetzt habe, das überhaupt nicht nützlich war. Also das war für niemanden nützlich in der Studie. Es war nicht ganz klar, was genau diese Sonification jetzt eigentlich bringen sollte im Sinne von Use Case. Also es war nicht, es fehlte ein klares Konzept, ob diese Sonification jetzt nur wie so einen kurzen hörbaren Thumbnail einfach einen Überblick über die Daten geben soll oder ob es möglich sein soll, anhand der Sonification wirklich die Daten zu analysieren und quasi einzelne Datenpunkte nacheinander abzuspielen, vor und zurück zu navigieren und so weiter. Das hat einfach gefehlt bei mir, dieses Konzept für die Sonification. Und entsprechend war die Sonification recht nutzlos in der Form, in der ich sie eingebaut habe. Die Proband*innen haben recht schnell die Orientierung verloren. Es war zum Beispiel nicht klar, wenn ich jetzt einen Ton höre, der eine bestimmte Höhe hat, war nicht klar, ist das jetzt gerade ein sehr niedriger Wert, ist es ein sehr hoher Wert oder ist es ein eher so durchschnittlicher Wert gerade? Und teilweise waren die Sonifications auch recht lang, vor allem bei dem einen Diagramm, was einen recht langen Zeitraum umfasste, wo die Personen dann irgendwann auch die Orientierung verloren haben von in welchem Jahr befinde ich mich eigentlich gerade, bin ich gerade eher so in der Mitte der X-Achse oder eher schon so gegen Ende irgendwo?
Helena: Mhm.
Anvi: Also ich will überhaupt nicht ausschließen, dass Sonifications nützlich werden können. Ich weiß nicht, ob es jetzt einfach nur meine Implementierung war in dem Fall, die mangelhaft war, aber da kann ich einfach nicht wirklich was zu sagen. Also vielleicht, wenn es jemand anders noch mal probiert, dann ist es vielleicht viel nützlicher.
Helena: Ja, ich kann mir auch vorstellen, weil bei vielen anderen visuellen Darstellungen ist es auch so, wir werden darauf trainiert, dass wir die oft sehen und wenn es noch keinen wirklichen Standard gibt für bestimmte Darstellungen, sind wir auch nicht gewohnt, damit zu arbeiten. Wenn es da einen Standard gäbe, den viele Leute einsetzen würden, wären die wahrscheinlich besser nachvollziehbar, weil man dann weiß, wie man das zu interpretieren hat, weil es oft vorkommt. Aber solange das immer nur einzelne Experimente bleiben, kann es ja diese Art von Gewöhnung gar nicht geben.
Anvi: Ja, also ich schätze, das betrifft beide Seiten. Zum einen natürlich, dass User*innen sich dann erst daran gewöhnen müssen, was eine Sonification ist und wie man sie bedient. Und zum anderen müssen sich wahrscheinlich auch erst so Patterns und Best Practices finden dafür, wie man sie umsetzt, so gewisse Standard-Interaktionsmuster, die dann die User*innen mit der Zeit auch lernen können und wo sie dann auch wissen, ah, das ist jetzt wieder eine Sonification. Da gibt es wahrscheinlich jetzt ein Play-Button und wahrscheinlich ein Vor- und Zurück-Button und dass sie ungefähr wissen, worauf sie sich auch einstellen können. Ja, das kann ich mir gut vorstellen. Ja, und ich kann mir auch vorstellen, dass es letztendlich vielleicht auch einfach darauf ankommt, welches Mittel für welche Inhalte sich gut eignet. Also vielleicht eignet es sich nicht, um etwas Größeres darzustellen, sondern vielleicht für kleinere Datensätze oder für Sachen, die gar nicht jetzt sich unbedingt auf gesammelte Daten beziehen, sondern auf aktuelle Werte. Das ist zum Beispiel, ich meine, wir wissen es ja, im Prinzip ist ja ein Feuermelder auch so eine Form von Sonification. Er informiert uns über einen zu hohen Wert von etwas in der Luft, so dass wir wissen, jetzt müssen wir handeln.
Anvi: Mhm.
Janine: So, das ist ja auch so etwas in die Richtung und ich kann mir vorstellen, dass vielleicht auch einfach das Ziel und der Zweck von so etwas eine Rolle spielt bei der Umsetzung.
Anvi: Ja, auf jeden Fall. Ich denke, das braucht einfach noch einige Arbeit, bis wir da dann schlauer sind, was das Thema angeht, wie wir Sonification sinnvoll einsetzen können.
Was waren die Schwierigkeiten bei der Umsetzung deines Prototypen? (00:57:43)
Helena: Ja, was hattest du denn insgesamt für Schwierigkeiten bei der Umsetzung von deinem Prototypen?
Anvi: Du meinst jetzt meine Perspektive quasi als Designerin und Entwicklerin dieses Prototyps?
Helena: Genau, als Webentwicklerin, die technisch Dinge umgesetzt hat.
Anvi: Ja, was tatsächlich recht schwierig war, war, dass es recht wenig Guidance gab einfach dafür bisher, wie man Datenvisualisierung wirklich so implementiert, dass sie möglichst barrierearm sind. Zum Beispiel habe ich ja mit die D3JS gearbeitet, was aus den Daten SVG-Elemente generiert und zum Beispiel musste ich mir da selber dann recht viel überlegen und rumprobieren, wie ich zum Beispiel die einzelnen SVG-Elemente innerhalb von der Datenvisualisierung dann so markieren kann, so taggen kann, dass sie auch zum Beispiel von Screenreadern erkannt werden, sodass es zum Beispiel möglich ist, mit der Tastatur oder mit dem Screenreader dann zum Beispiel von Datenpunkt zu Datenpunkt zu navigieren innerhalb der Visualisierung.
Helena: Hast du auch noch andere Libraries in JavaScript mal ausprobiert, sowas wie Plotly oder so, im Vergleich zu D3?
Anvi: Ich habe jetzt tatsächlich in meiner Masterarbeit nur mit D3.js gearbeitet. Natürlich gibt es unterschiedliche und natürlich arbeiten die Libraries auch recht unterschiedlich. Also D3.js zum Beispiel arbeitet ja recht, wie nenne ich das, recht low-level, dass man eigentlich sehr viel Code selber schreiben muss dazu, wie man das visualisiert.
Helena: Man kann dafür auch viel Code selber schreiben.
Anvi: Genau, das heißt zum Beispiel so, out of the box gibt einem D3.js gar nichts, was Accessibility angeht, aber dadurch, dass man sehr viel selber macht, kann man eben auch sehr viel dann tüfteln und ausprobieren.
Helena: Ja.
Anvi: Gibt auch andere Libraries, die zum Beispiel, denen man einfach sagt, hier sind die Daten, gib mir mal einen Bar Chart und dann gibt die Library einem einfach ein fertiges Bar Chart, wo man natürlich dann viel weniger Kontrolle hat und wo es dann einfach darauf ankommt, hat die Library zum Beispiel eine Funktion, dass man eine Bildbeschreibung einbindet? Hat sie die Möglichkeit, dass man die einzelnen Elemente, Tastatur benutzbar, Screenreader benutzbar macht? Hat sie die Möglichkeit, dass man die Farben manuell auswählt und so weiter? Also Libraries direkt verglichen habe ich jetzt nicht. Ich weiß, es gibt manche Libraries, die schon auch Accessibility Features mit eingebaut haben. Gibt manche, die es besser machen, manche, die es schlechter machen, aber genaue Aussagen kann ich dazu nicht machen.
Helena: Ja, abgesehen von dem, was du jetzt gerade erzählt hast, was war denn noch schwierig?
Anvi: Was recht tricky war dabei, war vor allem auch, wie ich die Semantik richtig kommunizieren kann. Also wie ich zum Beispiel die einzelnen Elemente in der Visualisierung so implementieren kann, dass der Screenreader sinnvoll damit interagieren kann und sinnvoll dann dem Benutzer oder der Benutzerin kommunizieren kann, was das eigentlich ist. Was ich damit jetzt meine ist, es gibt in HTML viele Elemente, die inhärent eine gewisse Semantik haben. Und deswegen im Bereich Accessibility wird zum Beispiel auch immer wieder wiederholt die Aufforderung, dass man semantisches HTML schreiben soll. Das heißt zum Beispiel, die Hauptüberschrift auf einer Webseite sollte immer mit einem h1-Tag umgesetzt werden, weil Screenreader eben diese Standard-Elemente, wie zum Beispiel h1, kennen und auch die Semantik davon kennen und das dann entsprechend ansagen können. Das heißt, der Screenreader erkennt, dort ist ein h1 und kann dann dem Nutzer oder der Nutzerin ansagen, Hauptüberschrift oder Überschriftebene 1 und dann die Überschrift vorlesen. Oder zum Beispiel, wenn wir ein Button-Element verwenden, dann weiß der Screenreader zum Beispiel, dass ist etwas, wo drauf geklickt werden kann, dass ist etwas, was interaktiv ist, weil eben ein Button-Element diese Semantik direkt mitbringt und diese Interaktionsmöglichkeiten. Und für eben viele typische Inhalte, die es auf Webseiten gibt, eben wie Überschriften, wie Buttons, wie Links, wie Tabellen, wie Listen und Listen-Elemente, gibt es eben schon diese vorgefertigten HTML-Elemente, die gewisse Funktionalität und eine gewisse Semantik out of the box mitbringen, die von den Screenreadern auch so erkannt werden. Was es dann möglichst bequem macht oder was es dann häufig bequem macht, damit zu interagieren, so haben zum Beispiel viele Screenreader auch Features, um zum Beispiel Tabellen effizient zu navigieren oder um zum Beispiel sich eine Liste geben zu lassen von den Überschriften, die es auf einer Seite gibt oder um von Link zu Link zu springen und solche Sachen, so dass eben auch eine effiziente Navigation möglich ist. Wenn wir uns jetzt wieder Datenvisualisierungen angucken, da gibt es natürlich auch gewisse typische Elemente, die häufiger vorkommen in den Visualisierungen, wie zum Beispiel eine Achse, eine x-Achse mit einer Beschriftung, eine y-Achse mit einer Beschriftung oder zum Beispiel einen Balken in einem Balkendiagramm oder etwas wie ein Tooltip, wo die Daten zu einem Datenpunkt drinstehen und solche Sachen. Und die Schwierigkeit, die ich hatte oder ich sag mal, was ich mir gewünscht hätte, wäre, dass es halt eben auch, wenn nicht von HTML selber, aber wenn es zumindest irgendwelche Best Practices gäbe, wie ich die Sachen umsetzen und markieren kann, so dass eben vom Screenreader dann auch eine effiziente Navigation ermöglicht wird und dass eben auch der Person gut kommuniziert werden kann vom Screenreader, dass hier ist gerade eine Achse, auf der du bist oder du bist gerade innerhalb vom Tooltip und diese drei Zeilen von Text gehören zu diesem Tooltip noch dazu. Oder dass es die Möglichkeit gibt, zum Beispiel so wie es die Möglichkeit gibt, von Link zu Link zu springen, dass es die Möglichkeit gäbe, von Balken zu Balken zu springen. Das sind natürlich alles Sachen, die man manuell implementieren kann und eben das ist natürlich auch, was ich dann gemacht ha
01:12:42
dl040: wie nutzen wir whisper für transkripte?
Episode in
datenleben
Machine Learning und Neuronale Netze sind mittel, um uns potentiell Arbeit abzunehmen. Whisper ist zum Beispiel ein Machine Learning Modell, das Sprache in Audiodateien erkennen und in Text verarbeiten kann. Damit die Inhalte unserer Folgen für viele Menschen gut zugänglich sind, haben wir seit Anfang 2023 komplette Transkripte in unseren Shownotes, die wir mit Hilfe von Whisper erstellen. Zeit mal darüber zu reden, wie wir das finden, was für Erfahrungen wir gemacht haben und -- besonders spannend -- ob Whisper halten kann, was wir uns davon versprochen haben.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social und Twitter @datenleben
YouTube: @datenleben
Erwähnte Folgen
dl031: können computer malen?
dl021: python lernen!
Quellen und weiterführende Links:
https://openai.com/research/whisper
https://github.com/openai/whisper
https://cdn.openai.com/papers/whisper.pdf
Sounds:
https://freesound.org/people/ZyryTSounds/sounds/219244/
https://freesound.org/people/Bigvegie/sounds/580709/
Schlagworte zur Folge
Machine Learning, Neuronale Netze, Künstliche Intelligenz, Whisper, Transkript, Erfahrungsbericht
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur vierzigsten Folge beim datenleben-Podcast, dem Podcast über Data Science. Wir sind Helena ...
Janine: ... und Janine ...
Helena: ... und möchten euch die Welt der Daten näher bringen. Was für Daten umgeben uns? Was können wir mit ihnen machen und was aus ihnen lernen? Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.
Thema der Folge (00:00:37)
Janine: Und dieses Mal reden wir mal wieder nicht über künstliche Intelligenz, sondern nur über Machine Learning und neuronale Netze. Allerdings über eine ganz bestimmte Anwendung. Es geht nämlich um Whisper. Das ist eine Anwendung von OpenAI, die mit einem Machine Learning Modell Sprache in Text umwandelt und dann eben als Text auch ausgibt. Diese Anwendung nutzen wir inzwischen selbst und zwar seit unserer ersten Folge in diesem Jahr, um unsere Folgen komplett zu transkribieren und dieses Transkript dann auch in den Shownotes stehen zu haben und es da anbieten zu können, sodass alles, was wir sagen, wirklich auch niedergeschrieben ist. Und wir wollen in dieser Folge mal unsere Erfahrungen mit Whisper angucken, die wir bisher so gesammelt haben, dabei ein paar Vergleiche anstellen vielleicht und ein kleines erstes Fazit ziehen für uns. Dabei gucken wir nach folgenden Fragen: Wie gut funktioniert das für uns wirklich? Wie viel Zeit kostet das im Vergleich zum vorherigen Vorgehen? Also zu relativ ausführlichen Shownotes mit Stichpunkten, aber nicht im kompletten Text. Und wie sieht der Vergleich zwischen Mensch und Maschine hier aus? Dafür haben wir ein kleines Experiment gemacht, wo Menschen sich beteiligt haben. Ja, und was gibt es so im Umgang mit Whisper zu beachten, ist dann hoffentlich das, was rechts und links dabei rausfällt als mehr oder weniger sinnvolle Info.
Warum finden wir das Thema interessant? (00:02:11)
Helena: Warum finden wir das Thema interessant? Also uns geht es auch um den Abbau von Barrieren, also dass unser Text nicht nur als Podcast vorliegt, sondern wenn es möglich ist eben, dass es auch den Text zum Nachlesen gibt. Da hatten wir schon länger überlegt, wie man das umsetzen könnte und ja, Ende letzten Jahres dann festgestellt, dass sich Whisper dafür eignet, dass auch die deutsche Sprache gut kann und recht zuverlässig ist. Wie zuverlässig, darum geht es heute. Und dass es eben nicht darauf basiert, dass man die Daten die ganze Zeit zum Beispiel an Google schickt, und die das für einen machen, sondern man das selber machen kann. Außerdem ist Whisper auch für uns ganz konkret als Data Science Thema interessant, weil es im Gegensatz zur Bildgenerierung, zu der wir auch eine Folge gemacht haben, jetzt schon unser Tagesgeschäft geworden ist, aber eben auch auf neuronalen Netzen basiert.
Einspieler: Überall Künstliche Intelligenz – Was machen wir daraus? (00:03:06)
Janine: Ich komme nach Hause, scrolle durch das Internet. Alle reden schon wieder über künstliche Intelligenz. Schlagzeilen auf allen möglichen Nachrichten oder Newsseiten. Künstliche Intelligenz. Chance oder Jobkiller. Eine neue KI-Ampel regelt den Verkehr an Kreuzung in Hamm. Würde künstliche Intelligenz die Welt besser regieren? Das sagt die KI dazu. Stability-AI-Gründer: In fünf Jahren gibt es keine Programmierer mehr. Mordversuche in der Queen: KI-Chatbot soll Attentatspläne abgesegnet haben. Meine Gedanken schweifen ab, während ich durch diesen Newsfeeds scrolle. Wir reden bereits völlig selbstverständlich von KI. Dabei sind es bisher nur gut trainierte Modelle. Intelligenz impliziert Bewusstsein. Ein Bewusstsein, das mehr ist als ein Modell, das aufgrund zahlreicher, zur Verfügung stehender Daten so tun kann, als ob es ein Bewusstsein hätte. Aber mehr ist es doch noch nicht. Ein Teil des Problems ist vermutlich, dass wir nicht erkennen werden als Menschen, wann es nicht mehr nur ein gut simuliertes Bewusstsein ist, wenn es zum vermeintlich echten Bewusstsein wird. Vermutlich werden wir keinen wirklichen funktionierenden Turing-Test haben, keine Blade Runner, die den Leuten anhand ihrer Emotionen ablesen können, wer oder was sie sind. Wir wollen digital das menschliche Gehirn nachbauen und nennen es künstliche Intelligenz, weil wir an eine Utopie glauben, weil Dinge dadurch vielleicht wirklich besser werden können. Und daneben gibt es diese anderen Menschen, die die Umrisse einer Dystopie, einer Katastrophe zeichnen. Wer hat heutzutage nicht den Terminator gesehen? Skynet? Die Menschen entwickeln Technologien für ein Morgen, als ob es selbiges nicht gäbe. Sie machen sich wenig Gedanken, sie sind wie Kinder, die im Sand spielen und Burgen bauen und Welten erschaffen, und sie genießen diesen kreativen Moment. Und im Hintergrund rückt schon die Flut an, die für all das steht, was sie vorher nicht bedacht haben. Die Flut wird kommen, aber keiner weiß, wie hoch. Ich fange an, mich zu fragen, wie klug wir Menschen wohl sein werden. Fast alle Technologien, die wir im Laufe der Jahrtausende entwickelt haben, haben immer zwei Seiten. Sie können konstruktiv sein, sie können destruktiv sein. Es liegt an uns, sie richtig einzusetzen, die richtigen Schlüsse auf den aktuellen Stand des Wissens zu ziehen. Aber wie kann das beim Thema Künstliche Intelligenz wirklich funktionieren, wo wir doch davon ausgehen können, dass eines Tages die KI selbst Schlüsse zieht und Entscheidungen trifft? Sind wir gerade Ikarus auf dem Weg an der Sonne vorbei mit Flügeln aus Wachs, oder haben wir alles fest in der Hand? Über diesen Gedanken schlafe ich ein und beginne zu träumen. Die Bilder meines Traumes werden von MidJourney erstellt. Bizarre Kulissen einer verzerrten Realität, die auf Hochglanz gezogen wurde. Neonlichter. Die Dialoge der vielen Figuren... haben sie manchmal drei Arme?... hat JettGPT geschrieben. Sie reden und reden und alles klingt plausibel, aber nichts hat Hand und Fuß. Und eine dritte KI ohne Namen hat anhand meiner Social Media Accounts meine Bedürfnisse analysiert. Die Traumwelt wird immer weiter überarbeitet, verfeinert, bis sie zu einem glatten, widerspruchsfreien Spiegel meiner Wünsche wird. Ich werde nicht mehr aufwachen. Ich bleibe hier im idealen Traum in meiner neuen idealen Welt. Nur noch fünf Minuten murmel ich dem Wecker entgegen, als er am Morgen klingelt. Der Traum war ja schreckend schön. In welcher Welt werden wir wohl eines Tages wach werden, wenn wir erkennen, was wir geschaffen haben?
Wie funktioniert Whisper? (00:07:23)
Helena: Ja, wie funktioniert Whisper? Whisper ist ein neuronales Netz, das zur Spracherkennung genutzt werden kann. Dabei kann es auch mehrere weitere Funktionen erfüllen. Also es kann Sprache erkennen und in Text umwandeln. Es kann gesprochene Texte übersetzen, aber das nur nach Englisch. Es kann dann in den Text auch noch Zeitstempel einfügen, also zu welchem Zeitpunkt in dieser Audiodatei wurde das gesagt. Und es kann erkennen, welche Sprache verwendet wurde, also ob Englisch, Deutsch oder was anderes. Und es kann erkennen, ob überhaupt gesprochen wurde oder ob es vielleicht Musik ist oder was anderes. Und wenn man eine längere Audiodatei hat, wie zum Beispiel dieser Podcast, und das transkribiert werden soll, dann wird diese Datei zuerst in 30 Sekunden lange Snippets aufgespalten und das Modell arbeitet dann nur auf diesen 30 Sekunden. Um trotzdem Kontextinformation zu haben, wird der transkribierte Text vom Snippet vorher mit übergeben. Dabei kann das Modell dynamisch anpassen, wo die 30 Sekunden anfangen. Also es wird nicht am Anfang alles in 30 Sekunden Snippets aufgeteilt, sondern es wird dann durchaus auch mal ein paar Sekunden verschoben. Ja, im ersten Schritt wird aus einem Snippet dann ein sogenanntes Spektrogramm berechnet. Das ist eine mathematische Methode, um aus einem Audiosignal für jeden Zeitpunkt die Frequenz zu berechnen. Und ein Spektrogramm ist dabei auch eine zweidimensionale Darstellungsform. Also es ist auch ein Graphentyp, der dann, ja, für bestimmte Zeitpunkte mehrere Frequenzen gleichzeitig darstellt und die dann werden in der Regel als Farben dargestellt. Aber es wird nicht nur die Frequenz in Hertz berechnet, sondern schon umgewandelt auf eine Tonwertskala, der sogenannten MEL-Skala, die dann ja besser darstellt, welche Töne wie gut für Menschen unterscheidbar sind. Das reduziert eben dann auch die Anzahl an Ton- oder Frequenzdaten, die man braucht. Und für jeden Zeitpunkt gibt es dann 80 Frequenzwerte, die berechnet werden. Und jeder dieser Zeitpunkte besteht aus 25 Millisekunden, wobei immer zwei hintereinander liegende 25 Millisekunden Zeitblöcke 10 Millisekunden wiederum Überlapp haben. Ich finde diese 25 Millisekunden Wahl durchaus interessant, weil wir als Menschen ab 30 Millisekunden Zeitunterschied zwei akustische Ereignisse als unterschiedliche Ereignisse wahrnehmen können. So ein klassisches Experiment dafür ist, wenn man jetzt zwei Kugeln fallen lässt irgendwie gleichzeitig und dann immer den Abstand um ein paar Millisekunden erhöht, in denen die fallen und man sich das anhört, dann ist bei 30 Millisekunden ungefähr der Punkt, wo man hört, ja es sind wirklich zwei Kugeln und vorher kann man die nicht unterscheiden. Und diese 25 Millisekunden liegen eben darunter und durch den Überlapp kann man dann schon annehmen, ja das sind dann Snippets, die der Mensch auch wirklich ungefähr auf der Zeitskala hören und wahrnehmen kann. Ja, das sind dann aber immer noch sehr viele Daten und um das nochmal weiter zu reduzieren, wird, bevor dann das neuronale Netz anfängt, nochmal ein bisschen Signalprozessierung gemacht. Also es wird gefaltet, um die Anzahl der Punkte zu reduzieren. Dabei ist eine Faltung auch ein bestimmtes mathematisches Verfahren, wo dann einfach weniger Punkte rauskommen, aber es immer ungefähr gleich ist. So, dann kommt das neuronale Netz und das neuronale Netz besteht aus mehreren verschiedenen Stufen. Die erste Stufe ist dabei der Transformer Encoder und dieser Transformer Encoder kann auch aus mehreren Schichten bestehen und die haben auch für verschiedene Modelle verschiedene Anzahlen an Schichten benutzt und das Signal, was hier rauskommen soll, stellt quasi eine abstrakte Darstellung der Wörter dar, die Menschen sagen oder sprechen können.
Janine: Was genau meinst du mit abstrakt?
Helena: Naja, das ist halt keine Darstellung, die irgendwie menschlich verständlich ist, sondern es ist eine, die nur für dieses neuronale Netz einen Sinn hat. Man hat einfach eine Matrix aus ganz vielen Zahlen.
Janine: Wenn es noch nicht das exakte Wort ist, ist es dann vielleicht sowas wie der Klang oder die Laute, die erstmal grob erkannt werden, ehe das dann in Silben übersetzt wird?
Helena: Ja, genau.
Janine: Ah, Okay.
Helena: Das wird später, wenn es ums Training geht, auch nochmal relevant, warum diese Unterscheidung sinnvoll ist. Dann kommt das Ergebnis davon in den Decoder. Der Decoder ist dann der Teil, der darauf trainiert ist, tatsächlich aus dem, was aus diesem Encoder rausfällt, tatsächlich Wörter als geschriebene Sprache, ja, ausspuckt, also wo das dann rauskommt. Das heißt, für jedes Ergebnis vom Decoder ist dann immer ein Wort und dann immer ein Wort nacheinander und dann wird der ein Zeitschritt weiter ausgeführt und gibt dann das nächste Wort an. Dieser Decoder, der dann tatsächlich Wörter schreibt, der bekommt dann auch noch, ja, die Position mit eingegeben, aber auch zum Beispiel den Satz, der vorher herausgekommen ist als Input. Und in diesem Schritt kann man dann eben auch noch diese anderen Funktionen machen, wie die eigentliche Sprache, die gesprochen ist, erkennen und übersetzen und so weiter. Hier werden auch eben die Timestamps dann reingegeben. Whisper wurde eben auf verschiedene Varianten trainiert, mit verschieden großen Modellen. Also die Größe des Modells hängt dann davon ab, wie viele Ebenen vom Encoder man hat und wie viele Ebenen vom Decoder man hat. Und mehr Ebenen heißt dann tendenziell, dass das Modell auch bessere Ergebnisse liefert, aber dass es eben auch größer ist. Also dass es selber größer ist und komplizierter zu speichern ist und auch länger braucht, um ein Ergebnis zu liefern. Die kleineren Modelle haben dabei eben den Vorteil, dass sie Echtzeit-Transkripte ermöglichen. Da kann man zum Beispiel an Sprachsteuerung denken. Wenn man jetzt zu Hause irgendwie sprachgesteuert Dinge steuern möchte, aber nicht will, dass die Daten an Google, Apple oder Amazon gehen, könnte man jetzt auf irgendeinem kleinen Computer eben Whisper laufen lassen. Und eben mit einem kleineren Modell, dass es auch auf wenig stromverbrauchender Hardware immer noch sinnvolle Ergebnisse liefert. Das wird sicherlich irgendwann auch kommen. Ich habe jetzt noch nichts gesehen, was das gut genug macht, aber ich denke, das wird eine Anwendung von Whisper sein, weil vorher war das eben auch nicht wirklich möglich. Gut, aber jetzt hat man mehrere Modelle, die unterschiedlich gut sind oder gut sein sollen, weil sie unterschiedlich intensiv trainiert wurden.
Wie funktioniert das Training für Whisper? (00:14:44)
Helena: Dann ist die Frage, wie macht man denn überhaupt das Training? Das ist nämlich auch ein sehr wichtiger Punkt bei Whisper. Also generell gibt es verschiedene Trainingsmethoden. Das eine ist das sogenannte supervised learning, ein Trainingsverfahren, bei dem man quasi das Audio hat und aber auch ein komplettes Transkript hat, wo man auch die Qualität geprüft hat. Das heißt, das Transkript ist sehr gut, das Audio ist sehr gut und man hat alle Infos, die man am Ende haben möchte, auch da. Und das Problem hier ist, dass es für dieses Level an Trainingsdaten nur einige tausend Stunden an Datenmaterial gibt, wo man wirklich die Mühe reingesteckt hat, die Transkripte auch entsprechend zu überprüfen. Demgegenüber steht dann das sogenannte unsupervised learning, bei dem zum Beispiel über Clustering, also Clustererkennung, Ähnlichkeiten in verschiedenen Texten erkannt werden können. Und diese Ähnlichkeiten können dann durchaus, wenn verschiedene Leute ähnliche Textstellen oder ähnliche Wörter benutzen, auch erkennen, dass das die gleichen Wörter sein sollen. Aber die Schwäche ist hier, dass der Decoder nicht so richtig weiß, welches Wort er dann aufschreiben soll. Das ist nämlich genau das, was du gerade angesprochen hattest, dass nämlich der Encoder an dieser Stelle schon ziemlich gut trainiert sein kann, dass er erkennt, ja, die Leute benutzen das gleiche Wort, einfach durch unsupervised learning, durch Vergleiche, aber der nicht weiß, wie man das schreibt. Also im Prinzip kann man sagen, ja, das ist dann vielleicht ein Kind, das schon sprechen gelernt hat, aber noch nicht in der Schule war, um auch schreiben zu lernen. Das ist nochmal eine ganz eigene Fähigkeit. Whisper hat dann etwas gemacht, was eben auch bei der Bildgenerierung, wie StableDiffusion gemacht wurde, und das ist das sogenannte Weak Supervision. Das heißt, man hat nicht irgendwie Texte, die man alle manuell überprüft hat, genommen, sondern man hat auch ein bisschen darauf vertraut, dass man Sachen übers Internet finden kann, Texte und Audiodateien, wo ein Transkript vorliegen soll, das man eben nicht überprüft hat, aber mit denen man dann weitergearbeitet hat. Bei der Bildgenerierung war das dann so, dass Leute dann irgendwie Kommentare, Texte unter die Bilder geschrieben hat oder manchmal auch Bildbeschreibungen da waren. Da hat man nur durchaus die Qualitätskontrolle auch automatisiert durchgeführt, dass Sachen, die nicht zusammenpassen, vielleicht noch rausgefiltert werden, aber dass man eben so die Menge an Trainingsdaten deutlich erhöht hat im Vergleich zu, wenn man das alles aufwendigst überprüfen würde. Und im Falle von Whisper heißt das dann, dass man auf 700.000 Stunden Audio gekommen ist, die man jetzt verwenden konnte für das Weak Supervised Training. Also es ist dann im Grunde ein Supervised Training, aber weil man von den Texten, gegen die man trainiert, nicht von allen genau weiß, wie gut die sind, ist es quasi nur eine schwache Überprüfung oder schwaches... Ja, fällt mir jetzt das richtige Wort nicht ein. Ich meine, aber der Vorteil hiervon ist, zum Beispiel bei der Bildgenerierung, dass man natürlich dann auch für Beschreibungen von Bildern deutlich mehr verschiedene Menschen hat, die beschreiben, was man sieht und dann auch mehrere Arten etwas zu beschreiben hat, als wenn man nur Menschen unter Texte nimmt, die sehr ausführlich sind zum Beispiel, weil man dann ja auch wenige ausführliche hat, die trotzdem eindeutige Sachen sagen. Inwiefern das jetzt bei Transkripten eine Rolle spielt, weiß ich nicht. Was aber noch so ein Punkt bei Weak Supervision ist, ist, dass man denkt, ja irgendwo ist dann halt die Grenze, weil die durchschnittliche Qualität von Transkripten, die man im Internet findet, hat nur ein bestimmtes Level und besser könnte es dann nicht mehr werden, wenn man nicht deutlich mehr richtig gut kontrollierte Texte hat. Das ist so eine Sorge. Das hängt unter anderem auch damit zusammen, wenn jetzt alle Leute Whisper benutzen, um Transkripte zu benutzen, dann kann es ja sein, dass die nächste Vision von Whisper vielleicht zehn Millionen Stunden findet, aber davon sind neun Millionen Stunden mit Whisper erzeugt. Da kann es halt nicht mehr besser werden.
Janine: Das ist ja auch ein Problem, was schon bei der Bildgenerierung besprochen wurde, dass irgendwann die Trainingsdaten vielleicht selbst schon aus generierten Bildern bestehen.
Helena: Ja, und ja, von den 700.000 Stunden, die jetzt im Training verwendet wurden, waren 120.000 andere Sprachen als Englisch. Etwa 125.000 waren andere Sprachen Audio, aber der Text auf Englisch übersetzt. Deswegen kann es eben auch Dinge auf Englisch übersetzen, aber nicht auf andere Sprachen. Aber 120 Stunden Audio auf anderen Sprachen, wie viel jetzt Deutsch davon waren, weiß ich nicht, aber schon ein paar Zehntausend. Aber das ist dann ja immer noch nicht so unendlich viel im Vergleich zu Englisch. Das heißt, wahrscheinlich ist es deutlich besser auf Englisch. Den Vergleich haben wir jetzt nicht gemacht. Gut, wenn man jetzt Whisper benutzen möchte, dann ist das Ganze ein Python-Script. Zu Python haben wir ja auch schon eine Folge gemacht. Das ist eine der Standard-Programmiersprachen im Machine Learning. Und dieses Python-Script kann dann eben auf dem Computer, auf einem normalen Prozessor rechnen. Aber man kann auch Grafikkarten verwenden. Wie wir das jetzt für unseren Podcast anwenden, ist, dass das Skript einfach auf dem Server läuft, wo auch der Podcast ausgespielt wird. Und da wird dann einfach nur die CPU zum Rechnen benutzt. Das dauert dann mehrere Stunden für eine Podcast-Folge, weil so eine CPU ja nicht so viel parallel rechnen kann wie eine Grafikkarte. Aber es läuft einfach nebenbei. Und wenn man das über Nacht laufen lässt, ist es dann halt auch einfach fertig. Und würde ich jetzt meinen Machine Learning-Rechner für jedes Mal, wenn wir das in der Folge aufgenommen haben, immer zum richtigen Zeitpunkt hochfahren, um die Grafikkarte benutzen zu können, wäre das doch irgendwie ein bisschen umständlich.
Janine: Ich habe gerade auch nochmal reingeschaut gehabt in die Zeiten, die ich miterfasst habe, wenn ich Fußball gestartet habe. Und die Realzeit ist auf Helenas Server jetzt bei so circa 400 Minuten Bearbeitung für eine Stunde Podcast circa.
Helena: Ja, das ist schon sehr rechneraufwendig. Ja, wenn man das Ganze dann laufen lässt, kann man eben auch einstellen, dass man Timestamps, also die Zeitpunkte für die einzelnen Wörter haben möchte. Die werden dann auch in verschiedenen Formaten erzeugt. Das ist insofern nützlich, weil z.B. YouTube ein eigenes Untertitelformat hat als andere Programme. Und laut den Entwicklern von Whisper sind die Schwächen, ja, dass wenn es die 30 Sekunden Snippets anpasst, dass es dann sich auch schon mal schafft, die so weit anzupassen, dass es sich dann auffängt und man die gleichen 30 Sekunden machen will.
Janine: Okay.
Helena: Und dass es eben für andere Sprachen als Englisch immer noch zu wenig Daten im Training hatte. Und dass es manchmal Textphrasen komplett halluziniert.
Wie sieht die Arbeit mit dem fertigen Transkript aus? (00:22:08)
Helena: Gut, das waren jetzt die technischen Details zu Whisper. Wie sieht denn die Arbeit mit einem fertigen Transkript dann aus?
Janine: Ja, also was Helena ja gerade schon gesagt hatte, war, dass man verschiedene Formate ausgeben lassen kann. Wenn ich Whisper benutze, fallen am Ende fünf Dateien heraus. Und zwar eine reine Textdatei, wo eben nur das Transkribierte drin steht, mit relativ vielen Zeilenumbrüchen. Und ja, das ist die Datei, mit der ich auch am hauptsächlichsten arbeite. Was ebenfalls rausfallen kann, ist eine Datei mit der Endung VTT. Das ist eine Datei, die hat Absätze. Und die Absätze bestehen jeweils aus zwei Zeilen. Die erste Zeile hat immer einen Zeitstempel mit von bis. Und die zweite Zeile ist der Text, der in diesem Zeitraum gesprochen wird. Dann gibt es noch eine SRT, die sieht fast genauso aus wie die VTT. Allerdings steht vor jedem Absatz noch eine Nummer. Also die Absätze sind dann fortlaufend nummeriert, was zum Beispiel bei Folge 35 dazu geführt hat, dass 865 Absätze erfasst wurden.
Helena: Okay, ja, SRT kenne ich noch von Videodateien und Untertiteln.
Janine: Genau, das ist auch die Datei, die ich dann für YouTube benutze, zum Beispiel für unsere kurzen Videos. Da mache ich auch einmal Whisper über das, was gesprochen wurde, damit ich eben die Untertitel relativ schnell einpflegen kann. Das funktioniert an sich auch ganz gut, aber hat auch ein paar Probleme, dass man hier und da noch manuell nachkorrigieren muss. Im Wesentlichen erleichtert es die Arbeit aber enorm. Dann gibt es eine Datei, die die Endung TSV hat. Das ist eine tabellarische Erfassung gewissermaßen. Also da gibt es durch Tabs getrennte Spalten und zwar drei Stück, nämlich Start, End und Text. Und entsprechend sieht dann jede Zeile so aus, dass es eine Startzeit gibt, dann kommt ein Tab, da steht die Endzeit, dann kommt ein Tab und dann der Text, der in diesem Zeitraum erfasst wurde. Wer schon andere Folgen von uns gehört hat, kann da vielleicht eine Parallele zu CSV-Dateien erkennen. Also zumindest für mich sah das dann so ein bisschen aus. Also es ist halt nicht in einem Excel-Dokument in einer Tabelle drin, aber durch die Tabs wird halt diese Tabellensortierung simuliert.
Helena: Ja, also ich meine, TSV steht ja auch für Tab-Separated Values. Das ist wie eine CSV-Datei.
Janine: Und für was steht das C nochmal dann?
Helena: Komma. Außer für deutsche Excel-Version, da ist es Semikolon.
Janine: Okay, ja, fantastisch. Ja, ihr seht die Parallelen. Wie gesagt, ich benutze davon eigentlich meistens nur die Textdatei, wo das Transkript in Textform drin erscheint und hin und wieder halt auch die SRT für die YouTube-Sachen. Achso, ein Dateiformat habe ich gerade vergessen. Das habe ich mir nämlich zum Schluss aufgehoben. Das will ich jetzt natürlich nicht unterschlagen. Es gibt auch noch eine Datei mit der JSON-Endung, also J-S-O-N. Da steht zunächst einfach auch der komplette Text drin, wobei dieser keine Sonderzeichen direkt geschrieben enthält, sondern diese durch Zeichenkombinationen ersetzt wurden, die wahrscheinlich in einer JSON-Datei dann entsprechend interpretiert werden, als die Sonderzeichen, Umlaute zum Beispiel, für die, die dann stehen. Und nachdem der ganze Text da ist, kommt nochmal der Text. Aber hier hat dann jeder Abschnitt, der wahrscheinlich während des Transkribierens bearbeitet wurde, so wie Helena das eben beschrieben hat, und diese Textabschnitte sind unter sich abgetrennt und haben jeweils Attribute zugewiesen bekommen. Und zwar Beginn, Ende, die Textzeile und noch Tokens, die dort aufgelistet werden. Da drin stehen auch Dinge wie die Kompressionsrate und anderes. Das ist also eine extrem ausführliche Datei. Ich weiß nicht, an welcher Stelle sie sinnvoll ist. Dann meine Beobachtung. Wir haben am Anfang ein bisschen mit der Größe des Modells herum experimentiert und tatsächlich auch mal ein eher niedrigeres Modell ausgewählt, das sehr viel schneller transkribiert. Und da ist auch aufgefallen, was Helena eben schon gesagt hat, es ist relativ ungenau. Meistens passt der Klang, aber die Buchstaben überhaupt nicht. Und die Kommasetzung ist da auch sehr kreativ. Also am wenigsten Arbeit entsteht tatsächlich, wenn das größte Modell benutzt wird. Und deswegen ist da auch die Bearbeitungszeit dann dafür, dass man das Transkript vielleicht veröffentlichen möchte, am geringsten.
Helena: Ja, das wäre irgendwie völlig unsinnig an der Stelle dann zu sparen, wenn der Rechner einfach über Nacht gelaufen lassen werden kann.
Janine: Genau. Eines der lustigsten Dinge, das mir gleich am Anfang aufgefallen ist, war, dass da Sätze vorkamen, die überhaupt gar nicht gesprochen wurden.
Helena: Halluziniert wahrscheinlich.
Janine: Genau. Und was hat Whisper da hin halluziniert ans Ende des Transkripts, wo dann dieser schöne Satz auftauchte? Untertitel im Auftrag des ZDF für funk 2017.
Helena: Joa, wo könnten wohl die Trainingsdaten hergekommen sein? Ich meine, es ist irgendwie naheliegend, dass man Fernsehsendungen nimmt, weil es oft Untertitel gibt.
Janine: Ja, das sind so, ich nenne es mal Trainingsartefakte.
Helena: Ja.
Janine: Sie tauchen nicht immer auf. Ich glaube, es war zwei oder drei Mal, wenn ich sowas gemacht habe. Spannend ist es allemal. Was an den Transkripten auch direkt auffällt, ist die Frage, haben einige vielleicht schon im Kopf gehabt, wird denn danach Sprecher*innen unterschieden? Nein, die Sprechenden werden nicht differenziert. Es wird einfach nur die Sprache identifiziert, erfasst und ausgegeben, ohne dass sie in irgendeiner Form mit extra Informationen ausgezeichnet wird, wie Speaker1, Speaker2 oder so. Das passiert nicht.
Helena: Hast du dir die JSON-Datei mal genauer angeguckt, ob das da vielleicht doch drin ist wieder? Weil eigentlich ist das technisch schon wirklich das einfachste, würde ich behaupten. Aber wenn...
Janine: Ja.
Helena: ... wenn Whisper nicht darauf ausgelegt ist, ich habe es jetzt auch nicht gesehen in dem Paper, was sie veröffentlicht haben dazu, dass sie das tun würden. Aber ich kann mir auch vorstellen, dass es zumindest bei typischen Untertitelformaten ja meistens nicht mit drinsteht, wer spricht. Ja, und vielleicht deswegen haben sie es auch nicht darauf trainiert. Aber das wäre etwas, wo dann unsupervised learning wahrscheinlich nützlich wäre, das im ersten Schritt den gleichen Sprecher wiederzufinden oder so.
Janine: Also ich gucke mal, was hier drin ist. Da ist der Text, dann kommen Tokens, die unterschiedliche Zahlen haben. Temperature, AVG Lockprop, Compression Ratio, No Speech Prop, ID, Seek, Start and Text. Ne, falls nichts von dem irgendwas über Speaker aussagt, dann ist es da tatsächlich nicht drin. Aber ich weiß auch nicht, was Temperature und AVG Lockprop und No Speech Prop so ausmachen.
Helena: Ja, No Speech ist wahrscheinlich die Wahrscheinlichkeit, dass das keine Sprache ist.
Janine: Stimmt, das muss ja auch irgendwo getestet werden.
Helena: Ja.
Janine: Ja, das passiert jedenfalls hier nicht, dass nach Sprechenden irgendwie differenziert wird, weswegen ich das dann schließlich manuell mache. Was auch interessant ist und vielleicht mit dem zusammenhängt, wo festgestellt wird, ob etwas Sprache ist oder nicht, in der Regel werden die allermeisten Ähms und Ähs komplett ignoriert. So viele Ähms und Ähs, wie wir doch noch in der Folge drin haben, die ich nicht rausgeschnitten habe, so viele landen definitiv nicht im Transkript. Ich finde das an der Stelle auch nicht schlimm, weil es den Lesefluss durchaus ja auch stören kann, wenn da ständig Ähms und Ähs drin sind. Manchmal kann es aber vorkommen, dass die doch mit transkribiert werden. Helena hat zum Beispiel einmal ein Äh bekommen von Whisper, wo Helena sagte, äh, nicht ganz. Das war offensichtlich ein für sich stehender, vollständig genugger Satz, wo das Äh eine Aussage hatte. Ich weiß es nicht.
Helena: Ja, aber klingt auch so. Also klingt für mich so, als wäre das schon Teil des Satzes, das man darstellen muss, dass ich gerade nachgedacht habe...
Janine: Ja.
Helena: ...und dass das Ergebnis ist, dass ich sage, nicht ganz, während man beim normalen Sprechen ja öfter mal nachdenkt und dann Äh sagt und das ist dann wirklich völlig irrelevant für den Text am Ende.
Janine: Ich bin mir nicht sicher, ob das wirklich tatsächlich so differenziert entschieden wird bei Whisper. Eine andere Interpretation wäre, dass das Äh vielleicht nachdrücklich deutlich und lang genug war, um nicht als Hintergrundgeräusch abgetan zu werden.
Helena: Ja.
Janine: Auch eine Option. Was dann jedenfalls auch auffällt ist, was Helena ja auch schon gesagt hatte, manche Stellen werden eben einfach nicht als Sprache identifiziert. Zum Beispiel auch, wenn Musik läuft, also in unserem Intro etwa oder am Ende. Und an den Stellen macht Whisper einfach nichts. Also es stehen dann auch keine Kommentare wie Musik. Das ist zum Beispiel etwas, was ich dann bei den YouTube-Untertiteln manuell ergänze. Whisper zeichnet nicht auf, dass da etwas passiert akustisch, sondern da gebe ich dann manuell noch einmal im Untertitel Klemmer auf Musik Klemmer zu an, damit eben auch ersichtlich ist, da passiert gerade akustisch trotzdem was. Das macht Whisper einfach nicht. Was Whisper auch nicht erfasst und in irgendeiner Form mit Informationen hinterlegt ist, wenn eine von uns lacht. Hin und wieder kommt das ja vor, wenn wir podcasten.
Helena: Ja.
Janine: Das wird auch nicht erfasst. Wenn parallel etwas gesagt wird, Während eine zum Beispiel lacht oder irgendwie auch gerade redet, kann es durchaus sein, dass nicht genau genug Sprache erfasst werden konnte vielleicht oder so. Und dann steht da auch einfach mal nichts. Auch hier macht Whisper keine Auslassungszeichen oder keine Informationen, da fehlt etwas, das konnte nicht validiert werden als Sprache. Dann steht es da einfach nur nicht da. Das betrifft zum Beispiel auch so kurze Zwischenrufe, Sachen wie ja oder mhm wird auch nicht so richtig erfasst. Das ist das. Lustig wird es im nächsten. Eine interessante Beobachtung fand ich auch, ist, dass manche Worte einfach komplett neu interpretiert und verstanden und auch erfunden werden. Das fällt vielleicht wieder in den Bereich der Halluzinationen. Es gab eine Folge, wo das Wort Kaffeesatz drin vorkam, was dann zu Kaffeesalz interpretiert wurde und im Skript so ausgegeben wurde.
Helena: Was mich schon sehr überrascht, weil der Trend, dass man in Kaffee Salz reintut, ist noch gar nicht so alt.
Janine: Das machen wirklich Menschen? Ja?
Helena: Ja, wenn der Kaffee ein bisschen zu sauer ist, kann man ein bisschen Salz reinmachen.
Janine: Okay, also es ist tatsächlich nicht ein komplett erfundenes Wort und wahrscheinlich gibt es schon eine Industrie, die sich drauf stürzt und nur noch Kaffeesalz produziert. Ich weiß es nicht...
Helena: Ich habe dieses Wort noch nie vorher gehört.
Janine: Ich halt auch nicht. Welches Wort ich auch nicht gehört habe, war Schokoladenkurve. Ich fand das sehr niedlich. Also Helena sagte so einen Satz in einer Folge, der da lautete: dass man die Daten ganz gut nutzen kann, um jetzt sowas wie eine Gaussche Glockenkurve reinzumalen. Was Whisper verstanden hat, war, dass man die Daten ganz gut nutzen kann, um jetzt sowas wie eine Gauss-Schokoladenkurve reinzumalen. Im direkten Vergleich nebeneinander kann sich ja durchaus vorgestellt werden, wo das herkommt. Also das Gaussche produziert ein sehr deutliches Sch und Glockenkurve ist jetzt vielleicht nicht so das sinnvolle Wort, dann halt Schokoladenkurve.
Helena: Ich bin sehr gespannt, was Whisper an dieser Stelle vom Podcast macht.
Janien: Ja, und das werden wir dann bei der nächsten Folge wissen. Und das Interessante war jetzt aber, und auch dafür hat uns Helena eben eigentlich schon den Grund erklärt, dass Whisper in der Folge konsequent dabei geblieben ist, Schokoladenkurve zu schreiben, auch wenn danach das Gaussche nicht mehr erwähnt wurde, sondern nur noch ... Glockenkurve ... gesagt wurde. Dann stand da halt die ganze Zeit wieder Schokoladenkurve drin. Jetzt erinnern wir uns kurz, was Helena eben ausgeführt hat: Das Transkript des Satzes davor wird in den nächsten Satz mit rübergezogen.
Helena: Ja.
Janine: Wahrscheinlich wurde dann das Wort an das Verständnis des ersten Satzes direkt angeglichen. Da wurde dann zwar ganz eindeutig Glockenkurve gesagt, ohne einen Zusatz, aber weil ja vorher Schokoladenkurve rausgekommen ist, wurde Schokoladenkurve wahrscheinlich weiter benutzt.
Helena: Ja, sehr konsequent. Ich mache das ja auch für die Nachbearbeitung leichter, das zu korrigieren.
Janine: Das stimmt. Suchen und Ersetzen ist hier absolut schön und sinnvoll. Was aber daran noch lustiger ist, ist, dass vielleicht zwei, drei Minuten davor Whisper das tatsächlich richtig erkannt hatte und Gaussche Glockenkurve schrub.
Helena: Ja.
Janine: Da merkt man dann auch wieder, okay, der Abstand zu der ersten Erfassung dieses Begriffs war halt schon zu groß. Das wurde sinnfällig nicht mehr weitergetragen in den nächsten Satz hinein, weil das Wort da nicht auftauchte. Und als dann das nächste Mal Gaussche Glockenkurve aufkam, wurde es halt neu erfasst, neu transkribiert und dann kam halt Gauss-Schokoladenkurve raus.
Helena: Ja.
Janine: Die Nichtkonsequenz von Whisper, was die Gleichmäßigkeit oder Homogenität von Ausdrücken angeht, sieht man dann auch in Abkürzungen. In Folge 35 hat Whisper viermal z.b. benutzt und zwölfmal zum Beispiel ausgeschrieben. Und das Gleiche passiert dann auch mit dem Wort Prozent. Mal steht es ausgeschrieben dort und mal das Prozentzeichen im Transkript. Also das ist da nicht konsequent in der Durchführung durch das ganze Skript hindurch, das variiert einfach. Und die letzte Beobachtung ist, dass Whisper manchmal auch in die Satzstruktur eingreift und einfach Worte ändert, die ähnlich sind oder auch den Satz ganz umstellt. Leider habe ich gerade kein Beispiel mehr für so eine komplette längere Umstellung parat. Was ich aber jetzt gerade noch gefunden hatte, war, dass Helena an einer Stelle sagte, genau, Violinenplots sind eben eine moderne Variante. Und Whisper dann im Transkript geschrieben hatte, ja, Violinenplots sind eben eine moderne Variante. Ich weiß nicht, ob Whisper festgestellt hat, dass wir ständig genau sagen und öfter mal ja benutzen könnten und das quasi eine stilistische Entscheidung war. Ich verstehe nicht, wie aus genau ja werden kann. Aber das Gleiche passiert manchmal auch eben mit Satzstrukturen. Die Verben werden weiter nach vorne gestellt oder weiter nach hinten. Hier und da passieren manchmal so leichte Verschiebungen, dass es nicht wortwörtlich ist.
Helena: Ja. Witzig.
Janine: Ja. Zusammengefasst, was muss also nachträglich noch im Transkript gemacht werden? Die offensichtlichsten Dinge sind eben die Absätze nach Sprecherinnen verteilen. Für den Podcast füge ich meistens auch noch die Überschriften ein, damit das Transkript beim Durchscrollen besser zugänglich ist und auch zu den einzelnen Kapiteln passt und zu sehen ist, wann die anfangen. Dann höre ich die Folge, während ich das Transkript durchgehe und dabei korrigiere, denn da fallen eben noch manche Dinge besser auf, wie das mit diesen Satzumstellungen. Und ja, alles was unter Beobachtung oben erwähnt wurde, versuche ich auch irgendwie zu berücksichtigen. Also das Kaffeesalz statt Kaffeesatz zum Beispiel. Da muss man schon sehr genau hingucken, um diesen Fehler überhaupt zu finden.
Helena: Ja.
Janine: Und den Satz vielleicht wieder richtig hinstellen, wenn ich eher dazu geneigt bin, die Sachen so dastehen zu haben, wie sie tatsächlich gesagt haben und nicht einfach irgendwie. Eine der Fragen, die wir ja dann am Anfang hatten, wie viel Zeit beansprucht das Überarbeiten des Transkripts durch Whisper im Vergleich zu dem, was wir vorher nämlich gemacht haben, den ausführlichen Stichworten in den Shownotes, die ich selbst zusammengetippt habe aus unseren Notizen für das Skript. Also für die Shownotes in Stichpunkten habe ich in den Folgen 1 bis 33 im Schnitt 432 Minuten gebraucht. So, Zeit für die Shownotes mit Transkript. Um das zu korrigieren, also ab Folge 34 bis 39 habe ich jetzt auf die Daten geguckt. Es waren nur sechs Folgen, aber da waren das durchschnittlich 263 Minuten.
Helena: Also mehr als zwei Stunden schneller. Ja, das ist jetzt ausführlicher und schneller.
Janine: Genau. Die Frage ist, warum trotzdem noch 260 Minuten? Ich meine, es sind auch immer noch fast vier Stunden an Arbeitszeit, die ich da wirklich investiere. Dabei passieren allerdings auch so Sachen, auch in den Minuten für die Shownotes in Stichpunkten war das enthalten, wie Links raussuchen, Quellen nachpflegen, alles vernünftig formatieren und all solche Dinge. Das passiert dann in diesen 263 Minuten auch. Das ist nicht nur das reine den Text bearbeiten und vernünftig aufbereiten. Und die Übersetzungszeit oder die Transkriptionszeit, die Whisper braucht, können wir unter den Tisch fallen lassen, weil das passiert in der Nacht.
Helean: Ja, das ist keine menschliche Arbeitszeit.
Janine: Ja, das waren so die Beobachtungen. Dann kommen wir doch mal zu den Vergleichen.
Wie sieht der direkte Mensch vs. Maschine Vergleich aus? (00:41:00)
Helena: Ja, Vergleiche heißt jetzt, gut, wir haben jetzt Whisper, also eine künstliche Intelligenz, beziehungsweise ein Neuronales Netz, was sonst Texte produziert aus unserem Podcast. Und jetzt natürlich die Frage, wie gut ist es eigentlich? Man muss einiges dran nacharbeiten, aber wie gut ist es im Vergleich zu einem Menschen? Das haben wir uns gefragt und deswegen nach Leuten gesucht. Und offenbar haben insgesamt vier Menschen teilgenommen. Und dafür hattest du, Janine, sechs Beispiele rausgesucht, also kurze Tonschnipsel aus unseren transkribierten Folgen. Und über die können wir dann mal reden.
Janined Ja, vier Personen haben sich freiwillig gemeldet, für uns diese Transkripte dann anzufertigen. Und wir haben das auch Whisper nochmal gegeben. Also es gab so eine wenige Minuten lange Datei. Ich habe an diese vier Personen anonyme Namen verteilt. Wir haben hier Ahorn, Flieder, Holunder und Feige. Und dann gucken wir doch mal, was da passiert ist bei Beispiel 1.
Beispiel 1 - Gendergap (00:42:01)
Janine: Beispiel 1.
Helena: Und dafür gibt es die BIK Kennzahl. Das ist eine Kennzahl nach der Orte, nach Bevölkerungsdichte und Ballungsraumstruktur bewertet werden. Und Orte, die kleiner als irgendwie tausend EinwohnerInnen sind, wurden für diese Studie auch zusammengelegt.
Janine: Ja, was ist hier passiert? Beziehungsweise worauf haben wir das Augenmerk gelegt? Ich habe jedes Beispiel nach einem bestimmten Thema ausgesucht. Und wie vielleicht zu hören war, war in diesem Beispiel ein Gender Gap vorhanden, den Helena gesprochen hat, nämlich tausend Einwohner*innen.
Helena: Ja.
Janine: Wie sind Whisper und unsere vier Personen damit umgegangen?
Helena: Ja, also Whisper hat das durchaus gehört tatsächlich und das Ganze dann mit Binnen-I gegendert, das EinwohnerInnen. Also eigentlich auf eine Weise gegendert, wo man diese Sprachlücke nicht so wirklich drin hat, weil zu der Zeit, als ich das Binnen-I gelernt hatte, hat das noch niemand so gesprochen. Das ist erst später gekommen, als man so was wie das Sternchen hatte. Manchmal sieht man auch den Unterstrich. Manchmal wird ja auch noch der Doppelpunkt benutzt. Das hat Ahorn auch so gemacht. Ahorn hat den Doppelpunkt benutzt, während Flieder und Holunder jeweils das Sternchen benutzt haben. Und Feige hat das gar nicht benutzt und nicht gegendert. Was auch noch auffällt, also ich hatte extra dazu geschrieben in die Aufgabenstellung, wir machen Whisper keine Vorgabe, wie es transkribieren soll. Also bekommen die Teilnehmer*innen dieser auch keine Vorgaben. Feige hat hier als einzige Person dann zum Beispiel noch A und B für die Sprechenden hinzugefügt, nämlich mein Beispiel 1 als A markiert mit Doppelpunkt und B Doppelpunkt dann das, was Helena gesagt hat. Das ist sozusagen eine Zusatzinformation, die hier mit reingekommen ist. Genauso wie bei Holunder zum Beispiel ersichtlich ist, dass am Ende steht, Sternchen lach Sternchen. Da ist also auch eine zusätzliche Information noch mit reingekommen, die Whisper zum Beispiel nicht abbildet.
Helena: Ja.
Janine: Aber Whisper erkennt einen Gender Gap sprachlich und markiert das auch irgendwie, was ist mir, weil wir das mit Sternchen in unseren Transkripten machen möchten. Es dann aber trotzdem auch leicht macht, das mit Suchen und Ersetzen schnell zu ändern über das ganze Transkript hinweg.
Helena: Das stimmt.
Janine: Dann kommen wir mal zum nächsten Beispiel. Helena und Janine reden übereinander.
Beispiel 2 - Übereinander reden (00:44:42)
Beispiel 2. Die Linie hätte man auch einfach nur länger zeichnen können. Vielleicht als Beispiel oder so.
Janine: Sag du doch mal als erstes, was fällt dir auf, wenn du auf die vier Personen und Whisper guckst?
Helena: Ja, also wenn ich auf Whisper gucke, dann ist das einfach eine lange Zeile, wo das hatten wir generell schon als Thema überhaupt nicht zwischen den Sprechenden unterschieden wird. Das ist jetzt erstmal der erste auffällige Teil, während zwei Personen, nämlich Flieder und Feige, jeweils das sehr deutlich unterscheiden. Ahorn macht es nicht und Holunder macht es einfach nur durch neue Zeile im Gegensatz zu denen, die dann noch Person 1 und 2 oder A oder B davor geschrieben haben, meine ich jetzt. Und hier fällt auch wieder auf, dass das Lachen mit transkribiert wurde bei Ahorn und Flieder. Und ja, Feige hat genau das Problem auch gehabt und es angemerkt, dass die Reihenfolge nicht ganz eindeutig sei zwischen den beiden Sätzen, die da aufgeschrieben wurden. Ich meine, das war ja der Sinn von diesem Beispiel, genau das zu testen.
Janine: Genau, ich habe gerade nebenbei versucht herauszufinden, was ich denn daraus gemacht habe, weil was ich auffällig finde, es hat wirklich keine Person identisch aufgeteilt.
Helena: Ja.
Janine: Bei Ahorn ist ja keine Unterscheidung zwischen den entsprechenden Flieder hat. Die Linie hätte man auch einfach nur länger zeichnen können. Person 2 ja, vielleicht als Beispiel oder so. Person 1 ja. Das ist im Prinzip, was ich auch in unserem Transkript dann geschrieben habe, in dem das veröffentlicht wurde. Bei Holunder sieht es sehr ähnlich aus, allerdings ist da das Hätte man irgendwie zweimal reingerutscht.
Helena: Ja.
Janine: Da ist sozusagen ein Wort da, das gar nicht gesprochen wurde. Bei Feige sind viel mehr Wechsel vorhanden.
Helena: Ja.
Janine: Und das ist auch was, was ich so aus der Erfahrung von den Transkripten, die wir auch beim haecksenwerk angefertigt haben bisher, aufgefallen ist, dass manchmal Menschen, die beim Transkribieren helfen, wenn sie nicht mit den Stimmen vertraut sind, tatsächlich Probleme haben, diese auseinander zu halten. Was einfach daran liegt, dass man sich unglaublich stark darauf konzentrieren muss, sobald übereinander geredet wird, auch für Menschen.
Helena: Und das passiert ja relativ schnell.
Janine: Ja.
Helena: Man könnte natürlich, weil wir unterschiedliche Tonspuren aufnehmen, das theoretisch ja trennen, aber das wäre auch Aufwand, weil es ja inhaltlich manchmal auch keinen Sinn ergibt, das zu trennen.
Janine: Also das ist tatsächlich schon auch was, was ich mache im Schnitt manchmal, dass ich gucke, wenn die Option besteht, Worte, die gleichzeitig gesprochen werden, vielleicht in kleinen Sprechpausen leicht zu verschieben. Aber ab einer gewissen Spannbreite ergibt es einfach gar keinen Sinn mehr, das zu verschieben. Und dann heißt es nur, entweder bleibt es drin oder es wird komplett rausgelöscht. Ja, das sind so die Produktionsentscheidungen dann. Genau, kommen wir mal zu Beispiel drei. Hier war der Fokus auf den Auslassungspunkten, was ich natürlich vorher niemandem gesagt habe, worauf die letzte Fokus lag.
Helena: Ja.
Janine: Weil sonst hätte es ja weniger Spaß gemacht. Hören wir mal kurz rein.
Beispiel 3 - Auslassungspunkte (00:48:03)
Janine: Beispiel drei. Ich hatte noch eine vierte Sache genannt, die kumulierte Häufigkeit. Was zum... ist das?
Janine: So, das hatte mich nämlich tatsächlich interessiert, weil Whisper wirklich Auslassungspunkte geschrieben hat.
Helena: Ja, Whisper hat Auslassungspunkte benutzt, aber auch drei der vier Transkribierenden. Und die Personen, die nicht die Punkte benutzt haben, hat es mit Pause markiert.
Janine: Was daran ersichtlich ist, dass sowohl Menschen die Konvention erkannt haben, hier wird etwas bewusst nicht gesagt, als auch, dass Whisper diese Sprechpause tatsächlich markiert hat. Also, obwohl ja sonst eigentlich extra Informationen von Whisper nicht geliefert werden, sowas wie Lachen oder andere Dinge, Sprecherwechsel und dergleichen.
Helena: Was sich auch immer unterscheidet, sowohl bei Whisper als auch zwischen den Transkribierenden, ist die Interpunktion.
Janine: Ja.
Helena: Hier hatten jetzt zum Beispiel auch zwei Leute Doppelpunkte gesetzt, was ich auch sehr gut nachvollziehbar finde. Und Whisper einmal einen Punkt gesetzt hatte und wir haben es zweimal laufen lassen auf diese Beispiele und einmal ein Komma.
Janine: Das ist mir tatsächlich auch aufgefallen, dass die Interpunktion, die Whisper zur Verfügung stellt, eine reduzierte Palette ist. Also es gibt Punkt und Komma bei Whisper, aber Doppelpunkte oder gar ein Semikolon werden in dem Sinne nicht gesetzt, um Sätze strukturieren zu können.
Helena: Ja.
Janine: Aber von Menschen. Und hier auch wieder, Menschen können da wahrscheinlich auch anders drauf hören, wie Sprechpausen zu interpretieren sind. Wobei Whisper ja die Auslassungspunkte erkannt hat.
Helena: Ja.
Janine: Dann kommen wir doch mal zu Beispiel vier, das ich völlig versaut habe, weil eigentlich wollte ich den Abschnitt nehmen, wo die Schokoladenkurve als erstes drin vorkam. Aber naja, hören wir mal in das Beispiel rein.
Beispiel 4 - Satzzeichen und -länge (00:49:57)
Beispiel vier. Manche Leute sind größer, manche kleiner, aber wenn man alle zusammenzählt, hat man halt nur so eine bestimmte Kurvenform. Das ist ja dann die Gaussche Glockenkurve. Beziehungsweise ist das eines der Modelle, die man da gut ranlegen kann. Und das kommt auch in der Physik sehr oft vor, deswegen bin ich da auch sehr mit vertraut. Und wenn man dann zwei solche Glockenkurven hat, die verschiedene Ursachen haben und in eine Grafik zeichnet, dann hat ja verschiedene Ursachen. Und deswegen, wenn ich dann zwei so glockenartige Dinge oder zwei Hügel sehe in so einem Histogramm, dann denke ich, da das sind doch wahrscheinlich zwei verschiedene Dinge zusammengemischt, zum Beispiel zwei Arten Pinguine.
Janine: Das war jetzt etwas länger und wie gesagt, das war leider nicht der Abschnitt jetzt wie gesagt nicht der Abschnitt wo Whisper beim ersten Mal die Schokoladenkurve erkannt hat, sondern der Abschnitt aus der Folge, wo auch gleich die Gaussche Glockenkurve richtig erkannt wurde. Warum dieser Abschnitt aber trotzdem relativ interessant war, ist, was Helena eben schon gesagt hat: die Interpunktion. Weil es jetzt ein relativ langer Abschnitt war, wie das jetzt verteilt wird. Mein Eindruck ist, Whisper kann durchaus dazu neigen, sehr lange Sätze zu benutzen.
Helena: Ja, das sind schon beeindruckend lange Sätze, also der letzte Satz ist bei der einen Whispervariante sehr lang.
Janine: Wobei ich überraschend find, dass beispielsweise Feige, gar keine Interpunktion so richtig benutzt, nein, tatsächlich gar keine.
Helena: Ja.
Janine: Da ist nur der reine Text da, aber mit Groß-Klein-Schreibung und bei den anderen Personen gibt es auch wiederum Kommata, die alles strukturieren. Und tatsächlich neigt zum Beispiel Holunder zu einem wesentlich längeren Satz als Whisper. Das ist ja dann die Gaußsche Glockenkurve, bzw. ist das eines der Modelle die man da gut ranlegen kann und das kommt auch in der Physik sehr oft vor, deswegen bin ich da auch sehr vertraut und wenn man dann zwei solche Glockenkurven hat, die als verschiedene Ursachen haben und in eine Graphik zeichnet, dann hat ja verschiedene Ursachen und deswegen wenn ich dann zwei so glockenartige Dinge oder zwei Hügel sehe so in einem Histogramm, ja dann denke ich das sind doch wahrscheinlich zwei verschiedene Dinge zusammengemischt, zum Beispiel zwei verschiedene Arten Pinguine... . Da war kein Punkt zwischen.
Helena: Aber Kommas.
Janine: Genau, aber Kommata. Und Whisper hat mehr Punkte verteilt. Ich glaube ich neige auch eher dazu weniger Punkte zu verteilen, wenn ich selber transkribiere würde. Einfach weil mündliche Sprache nicht extrem so dazu gedacht ist, in vollständigen Sätzen zu reden. Also die ist durchaus viel flexibler als schriftliche Sprache und hier wird halt einfach mündliche Sprache verschriftlicht. Und ich denke mal aufgrund der 30 Sekunden, die Whisper sich rausnimmt, kann es vielleicht doch dazu kommen, dass mehr Punkte gesetzt werden, als wenn Menschen trankribieren.
Helena: Könnte sein.
Beispiel 5 - Daran vs. Darin (00:52:49)
Janine: Gut, dann Beispiel 5. Daran vs. Darin. Habe ich es genannt, das Problem hier.
Helena: Ja, gut. Das war jetzt diese Folge. Und ja, die nächste Folge erscheint am 17. Juni. Und daran geht es um natürliche Experimente.
Helena: Ah ok, hier war das Ding, dass alle darin schreiben, aber Whisper daran.
Janine: Genau.
Helena: Und was haben wir gesagt?
Janine: Ähm, daran. Also beziehungsweise es war ein Daran, dass vielleicht kurz vor Ende des Wortes noch zu einem darin geworden wäre sein könnte. Aber es klingt tatsächlich wie ein daran. Aber ich habe mich dann tatsächlich auch dazu entschieden ein darin daraus zu machen. Also manchmal erkennt Whisper Sachen korrekt...
Helena: Ja.
Janine: ... aber vielleicht entscheidet sich dann der Mensch, der für ein Transkript verantwortlich ist, trotzdem dafür es nicht zu übernehmen, sondern das richtige Wort zu schreiben, damit es einfach beim Lesen angenehmer ist.
Helena: Ja, weil daran ist ja eindeutig ein Versprecher.
Janine: Ja.
Helena: Das ergibt ja keinen Sinn das Wort an dieser Stelle, das ist schon richtig, wenn man sagt darin. Gut, das haben die Menschen auch alle hingekriegt. Und Whisper hat halt das Wort, was gesagt wurde, genommen.
Janine: Ein bisschen spannend war, dass Flieder tatsächlich am 3. Juni geschrieben hat, schlicht und ergreifend verhört vielleicht oder kurz was anderes gemacht und dann einfach eine 3 ran gesetzt statt des 17. Juni. Aber ja, Fehler können halt auch Menschen passieren. Gut, dann kommen wir noch zum letzten Beispiel. Das ist auch noch mal ein langes, weil ich da eigentlich das mit der Interpunktion noch mal mit erfassen wollte, aber es geht an sich um ein doppelt vorkommendes Wort, das wir jetzt mal kurz hören werden.
Beispiel 6 - irgendwie ... irgendwie (00:54:37)
Janine: Beispiel 6.
Helena: Bezogen auf das US-Militär. Ich habe jetzt keine Informationen über irgendwie den Stand irgendwie in Deutschland oder so, wo das Konzept ja ein bisschen anders funktioniert, wie die Leute ausgewählt werden. Aber die These ist jetzt einfach, dass Leute, die weniger Optionen in ihrem Leben haben, zu gestalten, was sie eigentlich in ihrem beruflichen Leben machen wollen, eher dann auch zum Militär gehen. Und Leute, die eher weniger Optionen haben, potenziell auch die Leute sind, die eher weniger verdienen.
Janine: Ja, was habe ich hier gemacht? Ich habe einfach nur geguckt, wie Menschen mit dieser doppelten Erwähnung des Irgendwies, was ja dann auch eigentlich überflüssig ist, umgehen. Helena sprach, ich habe jetzt keine Informationen über irgendwie den Stand irgendwie in Deutschland. Und das hat jede Person auch so erfasst. Und Whisper hat es, als die Folge transkribiert wurde, einfach ausgelassen. Da hat Helena schlicht und ergreifend gesagt, ich habe jetzt keine Informationen über den Stand in Deutschland.
Helena: Also keines von den beiden Irgendwies transkribiert.
Janine: Was aber lustig ist, ist, ich habe die Beispiele Whisper auch noch mal transkribieren lassen, die kurze Datei mit allen Beispielen zusammen. Da sind beide Irgendwies mit drin.
Helena: Ja, macht schon nicht immer dasselbe.
Janine: Und was Whisper beim zweiten Mal auch gemacht hat, ist mein Vielen Dank fürs Mitmachen, dass ich am Ende dieser Audiodatei eingesprochen habe, hat es natürlich auch transkribiert. Und das haben auch zwei Personen gemacht, die uns geholfen haben, dieses Experiment durchzuführen. Ach so, ja, und was hier auch noch mal zu sehen ist, sind wieder die Sachen mit den Doppelpunkten. Flieder schrieb zum Beispiel bezogen auf das US-Militär-Doppelpunkt, ich habe jetzt keine Informationen, bla bla bla. Das macht Whisper hier auch wieder nicht und erkennt sozusagen diese Marker nicht, wann Menschen in Doppelpunkten sprechen und wann nicht. Oder es ist schlecht untergreifend egal, weil es ja eigentlich mit einem Komma vielleicht genauso gut, aber eben nicht so exakt abgebildet wird.
Helena: Ja, ich meine, bei gesprochener Sprache ist das vielleicht meistens noch okay, aber würde man jetzt wirklich eine Auflistung aufzählen oder so, wo man das ja immer über Doppelpunkte und dann halt eine Stichprojektliste oder so macht, ja, dann ergibt es irgendwie keinen Sinn, dass da kein Doppelpunkt landet. Aber Whisper würde ja nicht mal Aufzählungspunkte hinkriegen.
Janine: Das denke ich auch, ja. Ich sehe gerade noch, Feige hat zum Beispiel eine Sache gemacht, die ich, wenn ich Texte schreibe, auch super gerne mache und zwar transkribiert, was sie eigentlich in ihrem beruflichen Leben machen wollen und hat hier beruflichen großgeschrieben. Und das mache ich auch super gerne, solche Adjektive, die ich selbst als irgendwie wichtig empfinde, schreibe ich meistens automatisch groß und muss es dann später noch mal korrigieren, wenn ich einen Text zum zweiten Mal lese.
Helena: Ja, ich schreibe meist die Adjektive groß und dann die Nomen dahinter klein.
Janine: Ja, das passiert mir auch öfter dann, dass ich das einfach komplett umdrehe. Manchmal wird beides groß und ja.
Helena: In dem Moment, wo ich das Adjektiv schreibe, ist das für mich ein Ganzes irgendwie, das gehört ja zu den Nomen, denke ich halt an das Nomen schon und schreibe es dann halt groß.
Janine: Also, ich fand, ich hoffe, beim Zuhören ging euch das ähnlich, diesen Vergleich tatsächlich teilweise ziemlich spannend und ich hoffe, ich habe da auch für euch spannende Beispiele rausgesucht. Was mir dabei auf jeden Fall aufgefallen ist, ist so richtig diese Bedeutung von Zusatzinformationen in Transkripten. Und deswegen würde ich einfach sagen, kommen wir jetzt in ein schönes knackiges Fazit.
Fazit (00:58:20)
Helena: Ja, also mein Fazit ist, Whisper ist sehr nützlich und spart auch sehr viel Zeit. Aber man muss auch bedenken, wo dann die Grenzen sind, weil sowas wie, dass man lacht und so, das hilft ja durchaus, wenn man einen Text liest, auch dabei zu erkennen, was eigentlich so eine emotionale Bedeutung eines Satzes ist. Das kriegt Whisper natürlich nicht hin. Und das ist ein generelles Problem von Transkripten, dass man das irgendwie auch transportieren muss.
Janine: Genau. Und mich hat das halt auch dazu gebracht, gerade wo ich jetzt auch gesehen habe, wie unsere menschlichen Teilnehmer*innen da agiert haben, dass ja irgendwie Menschen doch sehr wichtig ist, was da passiert. Wir hatten, wie gesagt, keine Vorgaben gemacht, aber mehrere hatten an unterschiedlichen Stellen eben sowas wie Emotionen, Lachen oder so mit erwähnt und so Zusatzinformationen reingegeben, die jetzt ein Mensch, der nur das Transkript liest und nicht die Podcast-Folge hört oder nicht hören kann, dass diesem Menschen halt auch die Informationen fehlen und damit auch die grundsätzliche Stimmung, die wir beim Podcasten so haben. Und dass das für Menschen doch sehr wichtig zu sein scheint, Whisper hingegen ja völlig egal ist, weil es geht eben um den Text, dafür wurde es gemacht.
Helena: Ja, außerdem, wenn man sich nur den Text anguckt, dann schneidet Whisper schon im Mensch-Maschine-Vergleich ziemlich gut ab. Menschen machen halt auch ab und zu Fehler, genauso wie Whisper. Also man muss, glaube ich, in beiden Fällen, wenn man komplette Transkripte von einem Menschen machen würde, auch da nochmal einen Schritt haben, dass dann jemand anders das sich nochmal anhört, parallel zum Lesen wahrscheinlich, wenn man Qualitätskontrolle machen würde, so wie bei Whisper ja auch.
Janine: Mir ist jetzt noch eingefallen, ich habe eine Frage bekommen gehabt, das passt jetzt vielleicht ins Fazit noch ganz schnell, weil wir haben ja sowas erwähnt, wie sprechende Personen werden nicht unterschieden. Könnte jetzt eigentlich für uns das noch besser gemacht werden? Könnten wir selber unsere korrigierten Transkripte, so wie wir es gerne hätten beispielsweise, zurückfüttern zu Whisper und dadurch dann für unsere individuelle Anwendung das besser machen?
Helena: Also ich meine, wenn Whisper eben nicht in der Lage ist, Menschen auseinanderzuhalten und die Information zu geben, bringt es auch nichts, das Whisper selber zurückzufüttern. Da wäre es eher naheliegend, dass man eben diese Zeitstempel in dem Text mit nutzt und dann nochmal ein anderes neuronales Netz, was einfach nur auf unsere Stimmen zur Klassifizierung trainiert ist, dass es das dann nochmal auseinander dividiert. Das sagt, zu welchen Zeitpunkten hat wer geredet. Da könnte man den Text hinterher dann mit nachbearbeiten mit dieser Information.
Janine: Ja und jetzt aber so inhaltliche Korrekturen beziehungsweise so andere Sachen, die korrigiert werden, jetzt nicht nur Sprecher*innen. Könnte man das auch zurückgeben und Whisper damit für sich selbst besser machen oder müsste das auch über die individuelle eigene Stimmtraining dann sozusagen laufen?
Helena: Also ich kann das jetzt gerade nicht einschätzen, wie viel jetzt irgendwie ein paar Stunden Audio helfen, aber man hat ja das Modell und beim maschinellen Lernen ist es üblich, dass man ein Modell hat und auf Basis dessen halt weiter trainiert. Das heißt, das Modell, was wir uns runterladen können, können wir auch genauso benutzen, um das weiter fortzutrainieren mit unseren eigenen Daten.
Janine: Ahja, okay.
Helena: Das haben wir jetzt nicht gemacht. Das wäre sicherlich auch einiges an Aufwand irgendwie herauszufinden, wie man eigentlich Whisper trainieren kann weiter, wie das technisch, weil man technisch dafür alles irgendwie umsetzen müsste. Aber im Prinzip wäre das möglich, dass man, gerade wenn man jetzt irgendwie noch mehr als wir haben an Texten, dass man da nochmal 100 Stunden oder so drauf trainiert. Ich weiß halt nicht, wie stark die Verbesserungen werden, aber ich kann mir schon vorstellen, dass das was bringt. Ich meine, das sind ja irgendwie hunderttausend Stunden. Wie viele Stunden haben wir jetzt schon trainiert? Auch schon irgendwie sechs oder so.
Janine: Ja, circa, ja.
Helena: Wenn man sich jetzt irgendwie, keine Ahnung, ein größeres Podcast-Label anguckt, für die würde das schon Sinn machen, wenn die auch selber in einem Jahr einige hundert Stunden produzieren, bis tausend Stunden. Das ist dann schon mindestens ein Prozent mehr Daten mit tendenziell einer höheren Qualität, wenn sie selber verbesserte Transkripte nutzen. Könnte sich lohnen.
Janine: Ja, spannend. Gut, und damit sind wir dann tatsächlich durch. Wir haben festgestellt, Whisper funktioniert für uns ziemlich gut, für unsere Zwecke, weil wir das so anbieten möchten, dass unsere gesprochenen Worte auch tatsächlich im Volltext zugänglich sind für Menschen. Aus verschiedenen Gründen kann das ja helfen. Und genau, ist eine sinnvolle Sache. Wer es wirklich fehlerfrei haben will, muss dennoch manuell ein bisschen nachbearbeiten, beziehungsweise in die eigene angenehme Struktur bringen, sodass das dann auch leserlich ist und gut mit Abschnitten unterteilt ist. Und wir können mal überlegen, ob wir künftig in Transkripten vielleicht auch ein bisschen Emotionen mit einbauen. Ich weiß es noch nicht. Es scheint auf jeden Fall für Menschen relevant zu sein.
Nächste Folge: erscheint bestimmt (01:03:49)
Helena: Ja, ja, und unsere nächste Folge erscheint bestimmt. Und ich hoffe, heute nach der Aufnahme entscheidet sich dann auch das Thema.
Janine: Ja, aber wir versprechen jetzt an dieser Stelle erst mal noch nichts. Es ist ja auch ein bisschen Sommer, deswegen erscheint diese Folge hier auch etwas außerhalb des Rhythmus, wie ihr vielleicht festgestellt habt, aber der Sommer ist eben der Sommer. Und wenn wir nicht gleichzeitig Urlaub machen, dann verteilt sich das ganz gut.
Helena: Ja.
Call to Action (01:04:20)
Janine: Wenn ihr die nächste Folge nicht verpassen möchtet, folgt uns doch auf mastodon unter at datenleben at podcasts.social oder auf Twitter unter at datenleben. Besucht gerne unsere Webseite www.datenleben.de und hinterlasst uns da auch gerne Feedback. Darüber freuen wir uns, auch wenn es nur ein Chat-GPT-Spam-Feedback ist, das sehr lustig war. Ja, ihr könnt uns als Data Scientist auch buchen für Analysen oder Projekte. Und falls ihr irgendwelche Fragen habt oder Themen, die euch interessieren und ihr uns die vorschlagen möchtet, dann schreibt uns.
Helena: Dann bleibt mir nur noch, für eure Aufmerksamkeit zu danken und bis zum nächsten Mal.
Outro (01:05:05)
01:05:16
dl039: was sind natürliche experimente?
Episode in
datenleben
Experimente sind eine wichtige Methode, um Erkenntnisse über uns und die Welt in der wir leben, zu gewinnen. Aber nicht alles lässt sich mit planbaren Experimenten im Labor untersuchen. Dann müssen wir auf Beobachtungen zurückgreifen. Wir reden darüber, was Experimente sind und wann sie warum u.a. nicht möglich sind. Und wir gehen der Frage nach: Was sind natürliche Experimente und wie können mit ihnen Erkenntnisse gewonnen werden? ... und wie nicht? Weitere wichtige Schlagworte dieser Folge sind: Korrelation & Kausalität und Ethik.
Links und Quellen
datenleben
www.datenleben.de
Social Media: Mastodon @datenleben@podcasts.social und Twitter @datenleben
YouTube: @datenleben
Francis Bacon
Essener Unikate, Siegfried Gehrmann: Natur, Erfahrung, Experiment. Francis Bacon und die Anfänge der modernen Naturwissenschaft (PDF)
Stanford Encyclopedia of Philosophy: Francis Bacon
Ethik
Genannte Filme
Wikipedia: Armageddon
Wikipedia: Deep Impact (Film)
Wikipedia: Independence Day (1996)
Wikipedia: 2012 (Film)
Ethikrat.org: Gesetz zur Einrichtung des Deutschen Ethikrats (Ethikratgesetz - EthRG)
Wikipedia: Deutscher Ethikrat
ZEKO - Zentrale Ethikkommission: Statut der Zentralen Kommission zur Wahrung ethischer Grundsätze in der Medizin und ihren Grenzgebieten (Zentrale Ethikkommission) bei der Bundesärztekammer
Horizont Europa, Bundesministerium für Bildung und Forschung: Ethik
Natürliche Experimente
Wikipedia: Natural experiment (en)
Wikipedia: 1854 Broad Street cholera outbreak (en)
JSTOR, Joshua D. Angrist: Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social Security Administrative Records
Times of Israel: Maimonides in the classroom: The research that led Angrist to the Nobel
JSTOR, Joshua D. Angrist and Victor Lavy: Using Maimonides' Rule to Estimate the Effect of Class Size on Scholastic Achievement
Schlagworte zur Folge
Experiment, Forschung, Erkenntnis, Natürliche Experimente, Korrelation, Kausalität, Wissenschaft, Ethik, Ethikrat
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zu unserer neununddreißigsten Folge beim datenleben Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten mit euch die Welt der Daten erkunden. Unser ganzes Leben lässt sich über Daten beschreiben, wir finden sie überall um uns herum. Was für Daten sind das, wie können wir sie analysieren und was lernen wir aus ihnen? Diesen Fragen gehen wir nach und erklären dabei Data Science anhand von vielfältigen Themen.
Thema der Folge (00:00:43)
Janine: Und dieses Mal geht es um natürliche Experimente, wir haben nämlich eine Frage ausgegraben und zwar folgende, wie lässt sich Forschung betreiben, wenn geplante Experimente nicht möglich sind? Experimente sind deswegen wichtig, weil sie zu Erkenntnissen führen können. Eine gute Beobachtung unserer Umgebung kann das allerdings auch leisten und ja, was halt im Labor nicht getestet werden kann, kann eventuell in der freien Wildbahn, sag ich mal so, beobachtet werden. Was das für Dinge sein können und wie sich das anstellen lässt, darum geht es heute. Natürlich nicht nur, weil dieses Thema noch so ein paar Randthemen aufmacht, deswegen gibt es auch noch einen kleinen Exkurs zu der beliebten Wortkombination Korrelation und Kausalität und über die Frage, was ein Experiment ausmacht, werden wir auch kurz sprechen, bis hin eben dazu, wie konkret natürliche Experimente aussehen, was Beispiele dafür sind und ein bisschen Ethik wird es hier auch geben müssen, aus Gründen, zu denen wir dann kommen.
Warum ist das Thema wichtig? (00:01:51)
Helena: Ja und wir finden das Thema deswegen wichtig, weil ja, wir wollen eben herausfinden, warum Dinge passieren und um Erkenntnisse zu schaffen, zum Beispiel um Krankheiten besser behandeln zu können, brauchen wir eben so etwas wie Experimente und da diese nicht immer möglich sind, brauchen wir Alternativen und das, warum die nicht immer möglich sind, ist dann eben auch ein sehr ethisch aufgeladenes Thema, deswegen gehen wir auch darauf ein, weil auch dieser Aspekt sehr wichtig ist.
Einspieler: Was beudeten die Begriffe Korrelation und Kausalität? (00:02:26)
Janine: Was bedeuten die Begriffe Korrelation und Kausalität? Das wurde natürlich schon häufig erklärt, aber wir machen das jetzt trotzdem nochmal, nicht weil, das wurde bereits gesagt, aber noch nicht von jedem so gut funktioniert, sondern weil es wichtig ist, das zu unterscheiden. Aber warum ist das so wichtig? Menschen möchten die Welt um sich herum verstehen, sie untersuchen sie, sie wollen Erkenntnisse schaffen. Um gesicherte Erkenntnisse über die Welt um uns herum zu gewinnen, müssen wir zwei wichtige Dinge unterscheiden können. Erstens, zwei beobachtete Zustände treten in einem Zusammenhang auf, gleich Korrelation. Zweitens, ein beobachteter Zustand ist die direkte Konsequenz eines zuvor beobachteten Zustandes, gleich Kausalität. Das Digitale Wörterbuch der deutschen Sprache gibt folgende Bedeutungen an. Korrelation, wechselseitige Beziehung. Kausalität, Zusammenhang von Ursache und Wirkung. Gucken wir uns doch mal Beziehungen und Ursachen vor Gericht an. Auf der Anklagebank sitzen ein Virus, ein Bakterium und ein Parasit. Alle drei wurden verdächtigerweise am Tatort aufgefunden. Alle drei können sehr ähnliche Symptome auslösen, die die kranke Person gerade zu spüren bekommt. Es besteht also bei allen drei eine wechselseitige Beziehung zur ausgelösten Krankheit. Vor Gericht gilt aber die Unschuldsvermutung, wir können jetzt nicht alle drei verurteilen, wenn es vielleicht nur einer war. Das heißt, wir müssen nicht nur die Korrelation, den Zusammenhang erkennen, sondern die Ursache, also die Kausalität, nachweisen. Und nur dann können wir ein Urteil fällen, wer die Krankheit verursacht hat. Was übrigens wichtig ist, denn das Virus muss anders behandelt werden als das Bakterium oder der Parasit. Zusammengefasst, während also Korrelation eine Beziehung beschreibt, beschreibt Kausalität eine Ursache. Experimente können, wenn sie richtig aufgebaut werden, dabei helfen, zwischen Korrelation und Kausalität zu unterscheiden. Damit können wir dann gesicherte Erkenntnisse gewinnen. Und das ist der kleine, feine, aber extrem wichtige Unterschied zwischen Korrelation und Kausalität.
Was ist ein Experiment? (00:04:52)
Helena: Was ist ein Experiment? Der Goldstandard in der Wissenschaft, um Erkenntnisgewinn zu bekommen, ist das Experiment. Bei einem Experiment werden möglichst viele Einflüsse auf den zu untersuchenden Aufbau ausgeschlossen, sodass die Experimentator*innen aktiv die Einflüsse aus- beziehungsweise einschalten können, die dann eben das Ergebnis beeinflussen. Und dadurch, dass eben diese Einflüsse aktiv herbeigeführt werden, lassen sich eben Kausalitäten nachweisen.
Janine: Das war nicht ganz immer so. Also, Experimente gibt es schon lange, Menschen sind sehr experimentierfreudig, aber es gibt einen gewissen Punkt in der Historie, wo tatsächlich das Experiment, ich sage mal, geschärft wurde sodass wir dazu kommen konnten, wie heutzutage Experimente stattfinden. Und zwar beginnt sozusagen diese moderne Naturwissenschaft etwa im 17. Jahrhundert, und eine der Personen, die hier immer wieder genannt wird als Urheber des wissenschaftlicher gestalteten Experimentes, um es mal vorsichtig auszudrücken, ist Francis Bacon. Francis Bacon ist dabei selbst nicht in dem Sinne Wissenschaftler gewesen, eigentlich war er hauptsächlich Politiker, und hat sich aber sehr für die Wissenschaft interessiert und auch selbst irgendwelche Versuche praktiziert. Diese Anekdote gibt es gleich zum Ende über Francis Bacon noch. Nun, ja, Francis Bacon hat sich, wie gesagt, für Wissenschaft interessiert und sich dabei damit auseinandergesetzt, wie Erkenntnisse entstehen können, und zwar über erst mal Kritik hinaus, denn er hat kritisiert, dass sich seit der Antike nicht viel getan hat und nicht viele Erfindungen oder neue Erkenntnisse systematisch hinzugekommen sind, sondern Sachen, die tatsächlich entdeckt oder erfunden wurden, hauptsächlich dem Zufall überlassen waren. Also jeder kennt ja vermutlich die Geschichte vom Penicillin, dass das so ein Unfall war und plötzlich ein hilfreiches Medikament in so einer Petrischale auftauchte, weil sich da Bakterien ausgebreitet haben, nee, gar nicht wahr, Pilze, die gegen Bakterien eingesetzt werden konnten, soll ein Zufallsfund gewesen sein, und Francis Bacon hat gesagt, das ist doch doof, wir könnten schon viel weiter sein als Menschheit, und deswegen müssen wir das irgendwie systematisieren, und er hat sich darüber Gedanken gemacht. Teil seiner Gedanken war, dass Erfahrung wichtig ist, und zwar die Erfahrung, die über die Sinne stattfindet. Also wir können sehen, beobachten, riechen und alles Mögliche, die sinnliche Erfahrung ist sozusagen der Ausgangspunkt für Erkenntnisse, und... aber diese Sinne allein reichen eben nicht aus. Wir können nicht nur beobachten und dann plötzlich alles wissen, sondern wir müssen aktiv damit umgehen und es aktiv benutzen, um Erkenntnisse zu schaffen. Und ja, ich habe dazu einen Artikel von Siegfried Gehrmann gelesen, der sagte das so, also fasste Francis Bacons Ansatz schon so zusammen, das heißt, durch gezielte Veränderungen der Bedingungen, unter denen sich ein Naturvorgang vollzieht, und das war dann eben auch Francis Bacons Ansatz, die Beobachtung selbst annehmen und wahrnehmen, und dann aber Veränderungen herbeiführen und die Beobachtung darunter fortsetzen. So, und diesen Erfahrungstyp hat Francis Bacon dann Experimentum genannt. So, unter anderem, gab da noch andere Begriffe für, aber das war einer dieser Begriffe, die er da benutzt hat, und ja, wie auch Gehrmann in seinem Aufsatz festhält, damit begründete Bacon eben den modernen Begriff des Experiments, und das darunter seit Bacon zu verstehen ist, dass auf der Grundlage einer bestimmten Versuchsanordnung ein willkürlich herbeigeführter Naturvorgang untersucht wird, der sich dann aber theoretisch beliebig oft wiederholen und beobachten lässt. Und erst aus dieser Wiederholbarkeit der Beobachtung durch das Eingreifen in diesen Naturvorgang lässt sich dann gesicherte Erkenntnis ableiten, und das ist sozusagen, was Francis Bacon mit seinen ganzen Schriften und Gedanken rund um Wissenschaft und Erkenntnisgewinn geleistet hat. Was er auch geleistet hat, ist, sein Leben für die Wissenschaft zu geben, das ist nämlich die Anekdote. Er hat selbst geforscht und sich die Frage gestellt, zum Beispiel, ob sich durch Schnee, also durch Einfrieren, der Verwesungsprozess von Fleisch aufhalten lässt, und hat dazu ein Huhn genommen, das er mit Schnee ausstopfte, und in den Schnee gestopft hat, weil es war nämlich Winter, und er war ein bisschen, ich glaube, recht eingeschlossen in der Zeit, und hat das dann eben beobachtet und immer weiter beobachtet, und durch seine Beobachtungen viel Kontakt mit diesem kalten Winter gehabt, sich eine Erkältung zugezogen, die wuchs sich zu einer Lungenentzündung aus, und letztendlich war es dann diese Versuchsreihe mit gefrorenem Hühnchen, die sein Leben beschlossen hat.
Helena: Ja, nun, immerhin ist er nicht an dem Hühnchen selbst gestorben.
Janine: Nein. Moment, ein Datum noch, damit man das nochmal zeitlich etwas besser einordnen kann. Das war das Jahr 1626, in dem er verstarb. Geboren wurde er 1561, also noch im 16. Jahrhundert, und hat dann im 17. Jahrhundert eben diese Grundlage für das, was wir heute als Experiment kennen, geschaffen.
Helena: Ja, und ein Zeitgenosse von Francis Bacon, der selber auch für seine Experimente am Schiefentum von Pisa bekannt geworden ist, war Galileo Galilei, der hat das dann quasi gleich angewendet, eben auf physikalische Themen.
Janine: Genau. Es heißt auch nicht, dass Francis Bacon überhaupt das Experimentieren erfunden hat. Wie gesagt, die Menschheit war schon immer neugierig und hat Experimente gemacht. Es gab auch ausreichend Versuche an sich selbst, bei verschiedenen, aber er hat eben die Methode des Experimentierens konkretisiert und dadurch eben mit das moderne Zeitalter des Forschens eingeleitet.
Helena: Genau, und das Experiment ist eben der Goldstandard in der Wissenschaft, weil eben dadurch die Kausalität überprüfbar ist, und ja, eine der Eingangsvoraussetzungen ist eben, dass man nur bestimmte Eigenschaften des Systems verändert und dieses aktive Verändern eben für diese Kausalitätsüberprüfung nötig ist, und dadurch, dass man die meisten Parameter festhält und nur einzeln entändert, ist eben auch die Wiederholbarkeit gegeben. Also ein Experiment, das nicht wiederholbar ist, also reproduzierbar, da hat man wahrscheinlich irgendwelche Einflüsse übersehen. Das ist ja durchaus auch ein Ergebnis, aber wahrscheinlich hat man dann eben einen Einfluss übersehen und muss dann nochmal darüber nachdenken, was man denn übersehen hat. Ja, zum Beispiel in der Medizin werden Experimente dadurch gemacht, also vor allem dieser Zustand herbeigeführt, dass man nur einen einzigen Aspekt ändert, dadurch erreicht, dass man Menschen in zwei Gruppen einteilt, und eine Gruppe bekommt eben zum Beispiel das Medikament, wenn man ein Medikament untersucht auf Wirksamkeit, und die andere Gruppe bekommt eben den Placebo. Das macht man dann auch so, dass auch die behandelnden Ärzt*innen nicht wissen, ob ein konkreter Patient, eine Patientin, den Placebo bekommt oder nicht, weil würden die Ärzt *innen das wissen, ob sie gerade den Patienten wirklich behandeln oder nicht, würden sie sich ja auch anders gegenüber der Person verhalten, das heißt, das wäre ein weiterer Einfluss, der eine Rolle spielt, und um den auszuschließen, macht man eben diese doppelte Verblindung, Doppelblind-Versuche, und um sicherzustellen, dass die beiden Personengruppen möglichst identische Eigenschaften haben, weil man hat ja nicht dieselben Menschen zweimal, wird dann auch noch, wer in welche Gruppe kommt, ausgelost, sodass das eben wirklich niemand weiß, wer in welcher Gruppe ist, und die möglichst sich ähnlich sind. Das hat sich in der Medizin eben so etabliert, weil es technisch umsetzbar ist, und das ist das, was jetzt typischerweise da dem Experiment an sich am nächsten kommt.
Wann ist ein Experiment nicht möglich? (00:13:49)
Janine: Jetzt ist nur die Frage, wir hatten ja eingangs gesagt, wie lässt sich Forschung betreiben, wenn geplante Experimente nicht möglich sind? Aber da schließt sich ja natürlich noch die andere Frage vorweg an, warum ist es denn manchmal nicht möglich, oder warum ist das nicht immer umsetzbar, und welche Situationen führen dazu, dass das nicht möglich ist? Ja, Helena, sag mal.
Helena: Ja, also, ich meine, es gibt verschiedene Experimente, die einfach technisch unmöglich sind. Das kann zum Beispiel sein, ja, man möchte beobachten, was passiert, wenn Sterne explodieren. Ja, wir können jetzt nicht zu einem Stern hinfliegen und den zum Explodieren bringen. Das heißt, man kann das zwar beobachten, aber wann das passiert und wo, das weiß man nicht. Das heißt, man muss möglichst viel beobachten in der Astronomie, weil man eben keine Experimente in dem Sinne machen kann. Man kann Hypothesen aufstellen, dann kann man vielleicht auch andere Messgeräte bauen, aber auch die beobachten letztendlich nur. Aber wenn man das geschickt macht, kann man ja trotzdem durch Beobachtung Erkenntnisse ableiten.
Janine: Hat ja auch schon Francis Bacon gesagt.
Helena: Ja, und ein anderes Beispiel wäre, wenn man zum Beispiel herausfinden will, ob sich ein bestimmtes Gesetz auf die wirtschaftliche Entwicklung eines Landes auswirkt, oder wie es sich auswirkt. Und ein Experiment wäre dann, wenn man einfach die Erde verdoppelt, das heißt, man hat unseren Planeten doppelt, wo alles identisch ist, alle Staaten sind identisch, und nur auf dem einen Planeten gibt es dieses Gesetz in diesem Land und in dem anderen Planeten eben nicht, auf dem Kontrollplaneten. Und dann kann man die beiden vergleichen nach ein paar Jahren und gucken, wie sich das wirtschaftlich entwickelt hat. Und das Ergebnis ist dann, ja, das geht halt nicht, weil wir haben halt nur einen Planeten. Und man kann entweder ein Gesetz haben oder es nicht haben, aber irgendwie diesen Vergleich herstellen geht nicht, weil man kann auch nicht vorher-nachher vergleichen, weil ja die Welt um uns herum sich mit verändert. Das heißt, irgendwie man kann eine gute Idee haben, etwas zu verändern, aber dann ändern sich die Gegebenheiten und dann passiert doch etwas Unerwartetes, also... das heißt, es ist gar nicht so einfach möglich, da wirklich was herauszuziehen. Ein anderes Beispiel für ein Experiment, das nicht möglich ist, aber aus einem anderen Grund, wäre es zum Beispiel, wenn sich eine neue Krankheit ausbreitet und man dann ein Experiment machen würde, dass man irgendwie tausend Leute nimmt und die dann einfach auf verschiedene Art und Weise versucht, mit dieser neuen Krankheit zu infizieren, mit verschiedenen Dosis von Viren oder was auch immer und keine Ahnung, über Atemwege, über Blut und dann einfach gucken, wie sich die Krankheit entwickelt. Ja, dieses Experiment könnte man technisch schon durchführen, aber das ist unethisch, weil man das Risiko für die Menschen, die mitmachen, gar nicht einschätzen kann. Also man weiß überhaupt nicht, wie groß das Risiko ist, das heißt, kein Mensch könnte eine informierte Entscheidung darüber treffen, ob die Person mitmachen möchte oder nicht. Das heißt, es gibt viele Dinge, die aus ethischen Gründen nicht umsetzbar sind.
Janine: Genau. Niemand kann darüber entscheiden und die Frage ist dann, ja, vielleicht will die Person selbst ja das einfach machen, vielleicht denkt sie, das ist der richtige Weg und gibt sich deswegen... stellt sich zur Verfügung. Aber auch da ist halt die Frage, wie ethisch ist das überhaupt, so Erkenntnisse zu gewinnen?
Helena: Ja, und das Problem an Experimenten ist ja auch, wenn Leute sich freiwillig melden, hat man ja nicht mal eine zufällige Stichprobe der Menschheit, das heißt, es ist nicht mehr repräsentativ. Völlig unabhängig von der Ethik daran.
Janine: Ja, auch das könnte eine Rolle spielen. Ja, ich hatte die Aufgabe, mich ein bisschen mit der Ethik zu beschäftigen und ihr wisst ja vielleicht inzwischen, dass ich mich gerne mit diesen etwas abstrakteren Themen beschäftige, wobei mir wahrscheinlich manche Menschen auf die Finger schlagen würden, Ethik ist nicht abstrakt, Ethik ist sehr nützlich und sinnvoll. Aber ja, ich versuche mich mal dem Thema auch so ein bisschen wieder assoziativ zu nähern und zwar, wenn man jetzt zum Beispiel an Filme und Bücher denkt, an fiktive Geschichten, darin wird oft ein vergleichbares ethisches Dilemma beschrieben in manchen Dingen. Mein Gehirn springt da gern mal zurück zu den 90ern und greift da so verschiedene Katastrophenfilm und Szenarien einfach mal so auf. Vielleicht erinnern sich Menschen daran. Wenn nicht, ist auch nicht schlimm. Jedenfalls gab es damals zum Beispiel die beiden Filme Armageddon und Deep Impact, die jeweils einen nahenden Asteroideneinschlag auf der Erde behandelt haben, der das Potenzial hat, die Menschheit auszulöschen. Independence Day gab es damals auch und was alle drei Filme gewissermaßen gemeinsam haben, ist sich mit der Frage auseinanderzusetzen, wenn jetzt jemand die Menschheit rettet und dabei sein Leben riskiert oder sogar geplant sein Leben dafür hingibt, ist die Frage, wie hoch muss eigentlich die Wahrscheinlichkeit sein, dass das Ergebnis einen positiven Ausgang hat, Klammer auf, die Menschheit gerettet wird, Klammer zu, damit es ethisch richtig ist zu riskieren, eine kleinere Gruppe zu opfern oder einzelne Individuen. Und diese Fragen werden in diesen Filmen teilweise mitdiskutiert, da sind aber auch eben diese Individualentscheidungen immer mit drin. Einzelne Menschen werden irgendwie zu Helden stilisiert, weil sie eben bereit sind, ihr Leben zu opfern oder tatsächlich ihr Leben opfern, um nicht nur die ihnen am nächsten stehenden Menschen zu retten, sondern die gesamte Menschheit. Das wird immer sehr aufgeladen mit großen Idealen, mit der Freiwilligkeit und gewissermaßen wird so eine Form von Heldentod zelebriert und es steht eben immer diese Rechnung individuelles Schicksal versus das Schicksal der Gemeinschaft, Schrägstrich der Menschheit. Ja, manchmal gehen die Filme gut aus und die Menschen überleben, manchmal aber auch nicht und dann wird eben auch das aufgeladen, zelebriert, also das Thema ist halt sehr groß und sehr emotional aufgeladen, auf jeden Fall immer in diesen Filmen. Und dann gibt es aber natürlich auch noch Filme, die sich damit anders auseinandersetzen, nämlich zum Beispiel 2012, das war dieser Film, der das Ende der Welt anhand des Maya-Kalenders voraussagt, beziehungsweise diese Voraussage des Maya-Kalenders, der 2012 endete, darum dazu benutzt, eine Apokalypse durchzuführen, cineastisch. Und da kommt die Fragestellung auch noch mal besonders zweifelhaft drin vor, denn dort geht es auch darum, Deep Impact hat das auch mit drin tatsächlich, zu überlegen, welche Menschen retten wir denn, wenn wir nur einen Teil der Menschheit retten können? Und ja, da geht es eben dann darum, wer darf unter die Erde, um den nuklearen Winter zu überstehen oder auf die Archeschiffe, um gerettet werden zu können und das alles zu überleben. Und immer wieder ist die Frage, wen nehmen wir mit? Und meistens ist die Antwort, jemand, der etwas Großartiges für die Menschheit leisten kann, die danach dann weiter existieren muss. Das sind meistens Forschende, Kunstschaffende sind auch dabei, führende Köpfe in ihren Positionen, Expert*innen aller Bereiche und meistens halt eben nicht der Durchschnittsmensch, der sozusagen nichts zur Rettung der Menschheit beitragen kann. Und was eben dahinter steckt, ist so diese Frage, welches Leben ist es wert, gerettet zu werden und welches nicht? Also nicht nur die Frage, wie viele müssen oder sollen sterben, damit die Menschheit als Ganzes überlebt, sondern auch die Frage, welche Menschen dürfen leben? Und da kommt man dann ganz schnell in Bereiche, die aufzeigen, wie schwierig diese ethische Fragestellung ist, auch wenn es zum Beispiel darum geht, Kollateralschäden zu berechnen. Also eine Bedrohung steht an und würde zu einem gesicherten Teil so und so viele Menschenleben kosten, wenn sie nicht verhindert würde. Wenn wir sie aber verhindern wollen, könnten wir einen geringeren Teil an Menschenleben opfern, damit der größere Teil gerettet wird. Und da beginnen dann ganz schnell so Rechnungen, die irgendwo den Wert des Lebens aufmachen und das ist eine ethisch ganz schwierige Konstellation. Letztendlich sind es aber meistens Bücher und Filme und die kann man zuschlagen oder nach dem Abspannen einfach aufstehen und weggehen und nichts ist passiert, denn es war Fiktion. Und am Ende des Tages hat dann niemand darunter gelitten. In der Realität müssen wir uns aber ganz anders mit solchen Fragestellungen auseinandersetzen, wenn es darum geht, bestimmte Entscheidungen zu treffen. Und was eben wichtig ist, auch gerade wenn man in die Geschichte zurückguckt, die leider auch in Deutschland gar nicht allzu weit weg ist, wo Menschen politische Macht missbraucht haben, um mit anderen Leben Experimente durchzuführen, so wenn man jetzt in die Zeit des Nationalsozialismus zurückreicht, die dann auch tatsächlich Menschen das Leben gekostet haben und viel Leid verursacht haben, dann ist halt vorstellbar, dass es Prinzipien geben muss, auf deren Basis überhaupt ethisches Handeln sichergestellt werden kann. Und ja, was vielleicht einfach grundsätzlich zu sagen ist, solche Entscheidungen dürfen nicht aufgrund von Machtverhältnissen passieren, sie dürfen nicht von Korruption gesteuert sein und auch nicht aufgrund von Idealismus oder Ausgrenzung von Minderheiten passieren. Deswegen ist es wichtig, sich darüber Gedanken zu machen, wie setzen wir eigentlich Ethik um in der Gesellschaft, wenn es auch um Wissenschaft und Forschung geht und auch darum geht, Wissenschaft und Forschung im Sinne der Menschheit zu vollziehen. Ja, kurzes Luftholen. Also deswegen braucht es eben feste Leitlinien, an denen sich orientiert werden kann, die auch immer wieder neu betrachtet und geprüft werden müssen. Und ja, da kommen dann wieder Gremien ins Spiel, wir kennen sie alle, irgendwelche Kommissionen, Räte oder sonst was und da gibt es verschiedene Institutionen, beispielsweise gibt es den Deutschen Ethikrat, der hat einen gesetzlichen Auftrag, in dieser Form besteht er seit 2008, das Vorgängergremium ist 2001, glaube ich, ins Leben gerufen worden. Und das Ziel des Deutschen Ethikrates ist es, ein Gremium zu sein, in dem unabhängige Mitglieder sitzen, die nicht der Regierung angehören und den gesetzlichen Auftrag zu erfüllen, nämlich sowohl die Politik als auch die Öffentlichkeit zu informieren, zu beraten und Empfehlungen auszusprechen. Und sie müssen auch mit internationalen Ethikgremien zusammenarbeiten, damit da ein Austausch und Netzwerk vorhanden ist. Also es geht darum, die ethischen, gesellschaftlichen, naturwissenschaftlichen, medizinischen und rechtlichen Fragen sowie die voraussichtlichen Folgen für Individuum und Gesellschaft, die sich im Zusammenhang mit der Forschung, den Entwicklungen, insbesondere auf dem Gebiet der Lebenswissenschaften und ihrer Anwendung auf den Menschen ergeben. Das ist ein Zitat aus dem Ethikratgesetz gewesen und was da auffällt, und vielleicht dann den Zusammenhang mit meinen vorherigen Ausführungen zu Filmen, wiedergibt, es geht um Individuum und Gesellschaft. Es geht an keiner Stelle darum, das Individuum losgelöst von der Gesellschaft oder andersrum zu betrachten oder das gegeneinander auszuspielen. Beide sind wichtig an der Stelle. Was der Deutsche Ethikrat macht, ist nicht nur medizinische Forschung, sondern auch Stellungnahmen zu KI, Genetik, Pandemie und so weiter, waren da alles mit drin, lässt sich auf der Seite nachlesen. Ja, da kann man gerne mal hingucken. Kritik an solchen Gremien gibt es manchmal auch, und zwar vor allem, was die Zusammensetzung der Menschen betrifft und wie divers die Meinungsbildung tatsächlich sein kann. Also, das sind auch Dinge, die es sich lohnt anzugucken. Und ich glaube, deswegen finde ich es auch wichtig, wenn solche Gremien untereinander vernetzt sind, um eben mehr Austausch zu ermöglichen und vielleicht auch dadurch mehr Diversität. Was Medizin angeht, in Deutschland gibt es die Zentrale Ethikkommission. Das ist die Ethikkommission der Bundesärztekammer, und die hat auch eine auf die medizinische Forschung ausgerichtete Werteordnung und hat da vor allem den Fokus auf Unantastbarkeit der Menschenwürde und den Schutz des Lebens und kümmert sich auch um die ärztliche Tätigkeit oder die biomedizinische Forschung, dass da ethische Grundsätze eingehalten werden. Damit lehnen sie sich an den Weltärztebund an, also das ist auch wiederum eingebettet in ein höheres Netz. Es gibt auch noch Landesärztekammern und überall, wo Forschung stattfindet, läuft, meine ich, auch eine Kontrollinstanz über Ethik. Und wenn jetzt zum Beispiel eine Universität eine Forschung nicht einwandfrei ethisch entscheiden kann, also inwieweit das ethisch vertretbar ist, dann können sie sich auch jeweils an die Zentrale Ethikkommission wenden, um da Feedback einzuholen und Empfehlungen. Und die Ethikkommission kann auch Richtlinien rausgeben. So, und dann gibt es natürlich sowas auch noch auf EU-Ebene mit der Ethikkommission auf der Seite. Und wie gesagt, größeres Netzwerk, verschiedene Institutionen, das habe ich selbst noch nicht ganz so geblickt, aber das ist sozusagen der große Überblick über das, wo Entscheidungen darüber getroffen werden, was aktuell der ethische Standard ist. Und ja, ich denke, das ist sehr wichtig, wie vielleicht auch schon rübergekommen ist, und deswegen sind manche Experimente einfach nicht möglich, weil die Entscheidung ist, das ist keine ethisch vertretbare Forschung, und es ist gut, dass wir solche Instanzen haben. Klammer auf, siehe Vergangenheit, Klammer zu.
Was ist jetzt ein natürliches Experiment? (00:28:25)
Helena: Gut, jetzt wissen wir, warum manche Experimente technisch und nicht umsetzbar sind, beziehungsweis warum manche auch aus ethischen Gründen nicht umsetzbar sind. Eine Lösung, was man da tun kann, ist eben das sogenannte natürliche Experiment. Aber was ist das überhaupt? Ein natürliches Experiment liegt dann vor, wenn die Wissenschaftler*innen selbst keinerlei Experiment durchführen, aber in unserer Welt Bedingungen vorfinden, die einem experimentellen Aufbau ähneln. Das heißt, die Reproduzierbarkeit ist hier leider nicht möglich, weil man es ja nicht selber aktiv machen kann, das Experiment, aber man kann auf Basis der Daten, die man zur Verfügung hat und dessen, wo die Daten herkommen, hinterher sagen, ah, okay, wenn wir die auf diese Art und Weise auswerten, dann entspricht das ja im Grunde einem experimentellen Aufbau. Das ist dann auch genau der Grund, weshalb das in das Data Science-Feld reinfällt, weil man muss halt diese Bedingungen, die man vorfindet, eben auch in Form von Daten haben. Man kann dann eventuell die Daten auch selber noch erheben, wenn ansonsten die Bedingungen schon vorhanden sind, aber man hat sie ja nicht aktiv herbeigeführt. Gut, dafür haben wir jetzt Beispiele.
Was macht eine Cholera-Epedemie zu einem natürlichen Experiment? (00:29:43)
Helena: Ein Beispiel für ein natürliches Experiment ist die Cholera-Epidemie im 19. Jahrhundert in London. Und zwar war es Mitte des 19. Jahrhunderts noch nicht, hatte sich noch nicht durchgesetzt, dass Mikroorganismen für viele Krankheiten verantwortlich sind. Das lag unter anderem daran, dass Mikroskope damals noch nicht, ja, diese noch nicht sichtbar gemacht haben und etwas, was man nicht sehen kann, irgendwie für existierend zu halten, ist halt sehr schwer für uns Menschen. Ja, es gab im Grunde zwei Theorien zu dem Zeitpunkt. Das eine war eben, dass es irgendwas mikroorganismusartiges geben müsste, was potenziell für Krankheiten verantwortlich ist, auch wenn man das nicht gesehen oder verstanden hat. Und die Alternativhypothese war das sogenannte Miasma, was auch mit übler Dunst übersetzt werden kann und besagt im Wesentlichen, dass sogenannte faule Dämpfe für Krankheitsübertragung verantwortlich wären. Ich meine, wie man auf die Idee kommt, ist auch relativ klar, weil viele Krankheiten werden ja wirklich über die Luft übertragen, zum Beispiel durch Tröpfcheninfektionen, wenn man sich gegenseitig anhustet. Und es gibt ja auch Dämpfe, die einfach sehr unangenehm sind und giftig. Also das heißt, es existiert ja durchaus sehr viel, was es naheliegend macht, wenn man nicht mehr weiß, auf die Idee zu kommen, dass im Grunde einfach die Umgebung oder die Luft schuld an Krankheiten ist. Ja, das war auch die vorherrschende und dominierende Theorie während der Cholera von 1849 bis 1854, weil eben die Leute, ja die offiziellen Stellen, die Behörden zu der Zeit waren halt von dieser Theorie geprägt. Es gab aber auch noch davon unabhängige Leute, insbesondere John Snow, der sich eben die Daten angeguckt hat zu diesen Ausbrüchen und versucht hat, irgendwie da ein Schema zu verstehen und der fand, diese Miasma-Theorie passte nicht wirklich rein. Und dann gab es im Jahr 54 ganz konkret in London Soho einen Cholera-Ausbruch, der hatte die besondere Eigenschaft, dass er sich auf eine bestimmte Wasserstelle zurückführen ließ. Bei der Datenanalyse hat sich John Snow insbesondere auf die Teile Londons konzentriert, die zu diesem Zeitpunkt von zwei bestimmten Londoner Wasserversorgungsunternehmen versorgt wurden. Diese Wasserversorgungsunternehmen hatten eben beide das Wasser einfach aus der Themse entnommen und dann eben an verschiedene Orte in London gepumpt und dieser Ausbruch war eben von einer Wasserentnahmestelle, die halt zu einer dieser Firmen gehörte. Gut, die hatten im Wesentlichen alles gleich gemacht, die Firmen. Es gab allerdings einen Unterschied, die haben das Wasser nicht an derselben Stelle entnommen, weil da war ja schon die andere Firma, also musste eine der Firmen das Wasser etwas weiter flussabwärts entnehmen. Das hatte John Snow auch schon von diesem konkreten Ausbruch gesehen. Leute, die von der einen Firma eher das Wasser entnommen haben, waren eher von diesem Ausbruch oder von der Cholera-Epidemie betroffen, als die, die in Gebieten lagen, wo man eher von der anderen Firma das Wasser bekommen hat. Ja, das war jetzt Beobachtung. John Snow hat jetzt niemandem gesagt, ja, hier, trink mal das Wasser von der Firma und dann schauen wir mal, was passiert, sondern es war einfach das natürliche Verhalten der Leute, die dann festgestellt haben, okay, hier ist jetzt der Ausbruch, wir hauen jetzt ab und dann haben sie wieder anderes Wasser getrunken. Aber niemand hat beeinflusst, wer welches Wasser trinkt. Dann hat man eben diese verschiedenen Wasserstellen und da, wo die Leute erkrankt waren, gab es einen wesentlichen Unterschied bei der Firma zu der anderen und dieser Unterschied war, dass die eben weiter flussabwärts lag, also an einer anderen Stelle entnommen hat das Wasser und zwischen den beiden Wasserentnahmestellen der beiden Firmen floss Wasser aus der Kanalisation in die Themse. Das heißt, die eine Firma hat deutlich saubereres Wasser gehabt und die andere Firma hatte halt, ja, mit Kanalisationswasser vermischtes Wasser letztlich bereitgestellt und das wird uns jetzt nicht überraschen, aber die Firma, die flussabwärts das Wasser entnommen hat, das dreckigere Wasser, in deren Gebieten waren deutlich mehr Cholera-Fälle. Daraus hat eben John Snow geschlossen, dass es offensichtlich nicht an der Luft lag, sondern an dem Wasser, was die Leute getrunken haben, dass sie krank werden und hat eben die These aufgestellt, dass es irgendeine Form von Entität oder Partikel in dem Wasser gibt, was diese Krankheiten verursacht. Es hat dann noch zwei Jahrzehnte gedauert, bis Louis Pasteur dann wirklich Nachweise erbringen konnte, die dann eben die Mikroorganismenthese endgültig etabliert hat, aber ihm war das in diesem Zeitpunkt auch schon im Wesentlichen klar und was John Snow auch begründet hat damit, war eben die Epidemiologie, also dass man mit mathematischen Methoden durch Beobachtung von Ausbruchverhalten eben Krankheiten untersuchen kann und das war ein natürliches Experiment, weil er hat nicht beeinflusst, wie die Leute sich verhalten, sondern die Daten genommen und analysiert.
Janine: Also sozusagen die wissenschaftliche Beobachtung nach Francis Bacon auch durchgeführt, also die Sinne eingesetzt, etwas wahrgenommen, die Beobachtung verschärft und dadurch halt genauere Hinweise erhalten und weil es eben, wie du gesagt hast, diesen markanten einzigen Unterschied gab, konnte das ziemlich sicher dann darauf zurückgeführt werden, also ein Erkenntnisgewinn erzeugt werden durch die konkrete Beobachtung kombiniert mit der Analyse der vorliegenden, wie nennt sich das, Zustände.
Helena: Genau. Bei diesem einen Cholera-Ausbruch in Soho, wo eigentlich alle, die betroffen waren, eben von dieser Wasserquelle Wasser genommen hatte, gab es dann noch ein kleines Funfact, denn es gab auch noch eine Gruppe Menschen, die auch von da Wasser entnommen hat, die aber gar nicht betroffen war und das waren die Leute, die in der Brauerei gearbeitet haben, bei der das Wasser so weit erhitzt wurde, dass offensichtlich die Cholera-Bakterien alle getötet wurden und deswegen nicht betroffen waren. Das ist ja durchaus auch eine Erkenntnis, dass man Wasser erhitzt, um was auch immer da drin ist abzutöten. Viele Kulturen haben ja sowas wie Tee-Kultur oder so entwickelt, einfach weil es eben sicherer ist, abgekochtes Wasser zu trinken. In anderen Kulturen mag es dann eher so gewesen sein, dass man Alkohol als Möglichkeit zur Desinfektion sich entwickelt hat und man dann mit Alkohol versetzte Getränke getrunken hat eher. Das erklärt nur im Nachhinein, warum sich diese Sachen in verschiedenen Teilen der Welt entwickelt haben. Nicht, dass irgendwer das absichtlich mit diesem Ziel gemacht hätte, weil die verstanden hätten, warum man das tut. Das ist erst im Nachhinein möglich gewesen.
Janine: Ja, ich glaube, es gibt ja diese Sache auch über das geringalkoholische Bier in Ägypten, das auch eingesetzt wurde, sozusagen semi-bewusst als Medikament, weil die Menschen es getrunken haben, aber da eben auch Penicillin drin enthalten gewesen sein soll. Aber ich weiß nicht, ob mein Gehirn einfach zu viele Dokus geguckt hat und Sachen durcheinander bringt. Also lieber nochmal nachgucken. Aber das fällt mir gerade noch dazu ein. Und das ist vielleicht aber auch nochmal ein guter Punkt für den Unterschied zwischen ich beobachte etwas und denke, dass es gut ist, so zu machen, weil scheinbar hilft es bisher und dem, was Francis Bacon dann eher als Methode eingesetzt hat, nämlich es wirklich mit Absicht zu beobachten und auf den Prüfstand zu stellen, dadurch, dass Bedingungen verändert werden und dann eben gesichert daraus mitzunehmen, das ist eine Erkenntnis, die ich habe und nicht nur, ich mache das jetzt so, weil das funktioniert schon länger so.
Helena: Ja.
Was wäre ein natürliches Experiment in der Wirtschaft? (00:38:06)
Janine: Ja. Das war ein Beispiel. Ich weiß, du hast noch mehr.
Helena: Genau. Ich hatte ja bei den Beispielen gesagt, ja, die wirtschaftliche Entwicklung eines Landes aufgrund von zum Beispiel Gesetzen oder anderen Sachen ist halt schwer durch Experimente zu verifizieren, weil man ja nicht die gleichen Bedingungen mehrmals herstellen kann. Und das ist ein generelles Problem in den Wirtschaftswissenschaften, also in der Ökonomie. Deswegen sind natürliche Experimente dort durchaus mittlerweile ein beliebtes Forschungsfeld. Ein plakatives Beispiel hier wurde 1990 von Joshua Angrist veröffentlicht, der hat auch eben natürliche Experimente als Methode der Ökonomie geprägt. Seine Fragestellung war, wie wirkt sich das Einkommen aus, wenn Mann, also wahrscheinlich vor allen Dingen Männer, beziehungsweise untersucht wurden nur Männer, wenn Männer ein paar Jahre beim Militär gedient haben und das wurde dann in den USA untersucht. Die Frage ist insofern schwer zu beantworten, als dass, wenn man jetzt einfach nur sich anguckt, was verdienen die Leute, die beim Militär waren und die nicht da waren, auf ihr gesamtes Leben betrachtet, dann sieht man erstmal, dass Leute, die beim Militär waren, weniger verdienen, bezogen auf das US-Militär. Ich habe jetzt keine Informationen über irgendwie den Stand irgendwie in Deutschland oder so, wo das Konzept ja ein bisschen anders funktioniert, wie die Leute ausgewählt werden, aber die These ist jetzt einfach, dass Leute, die weniger Optionen in ihrem Leben haben, zu gestalten, was sie eigentlich in ihrem beruflichen Leben machen wollen, eher dann auch zum Militär gehen und Leute, die eher weniger Optionen haben, potenziell auch die Leute sind, die eher weniger verdienen. Und deswegen liegt es nicht unbedingt daran, dass die Leute, weil sie zum Militär gehen, weniger verdienen, sondern vielleicht hätten die auch eh nicht so viel verdient, weil es eine bestimmte Gruppe Menschen angezogen hat. Das ist eine sehr typische Korrelation. Es gibt die Korrelation, Leute, die beim Militär waren in den USA, verdienen in ihrem gesamten Leben weniger Geld als der Durchschnitt. So, Korrelation. Aber das ist ja keine Kausalität, denn was hier reinspielt, ist dann der sogenannte Selection Bias. Die Wikipedia übersetzt das mit Stichprobenverzerrung, was ich jetzt nicht unbedingt verständliche finde, wenn man nicht gerade in der Statistik arbeitet, also letztlich eine Form von Verzerrung dadurch, dass die Gruppen sich selber verzerren. Also die eine Gruppe sind halt Leute, die eher zum Militär gehen und das sind vielleicht schon Leute, die eh nicht so viel verdienen würden, weil sie keine Optionen haben, was anderes zu machen. Und diese Verzerrung macht es halt schwierig, das zu untersuchen. So, wo kommt jetzt das natürliche Experiment herein? Ja, die USA hat ja in den 70er Jahren in Vietnam Krieg geführt. Und das war ein sehr langer Krieg und daher brauchten sie auch sehr viele Soldaten. Und was man damals gemacht hatte, ist, dass man für bestimmte Jahrgänge, die in einem aus deren Sicht guten, wehrfähigen Alter waren, ausgelost haben, wer hin muss. Das hat man so gemacht, dass man dann Zahlen von 1 bis 366 gezogen hat, also 366 als die Tage im Jahr, weil da auch ein Schaltjahr mit bei war. Und je nachdem, welche Zahl gezogen wurde, die Leute, die an diesem Tag geboren wurden, wurden dann zur Musterung herangezogen und alle Leute, die dann irgendwie körperlich geeignet waren, mussten dann halt auch hin. Das heißt, es gab kein Herauswinden. Also es gab mit Sicherheit die ein oder andere Methode, sich herauszuwinden, wenn man sich dann absichtlich, keine Ahnung, irgendwie ins Bein schießt oder so, solche Storys meine ich mal gehört zu haben. Aber das sind dann schon nur Methoden mit sehr drastischen Maßnahmen, dass sie eher selten vorgekommen sind. Das heißt, man hat jetzt hier zwei Gruppen, die jetzt nicht durch den Experimentator Joshua Angrist herbeigeführt wurden, sondern eher politisch herbeigeführt wurden und diese zwei Gruppen waren dann quasi die Leute, die an einem Tag Geburtstag hatten und hin mussten und die, die am nächsten Tag Geburtstag hatten, die nicht hin mussten, sodass man dann auch wirklich Leute exakt aus dem gleichen Jahrgang hatte, die dann auch das gleiche Potenzial hatten wie die andere Gruppe für, ja, was sie in ihrem Leben so verdienen werden. So, das Ganze wurde jetzt von ihm analysiert und er hat das in zwei Gruppen aufgeteilt, die Analyse. Das eine waren eben weiße Veteranen, das andere waren nicht weiße Veteranen, die er dann verglichen hat. Und heraus kam, dass weiße Veteranen 3.500 US-Dollar in 1990er-Währung weniger pro Jahr verdient haben, zehn Jahre nach dem Militärdienst, als die nicht Veteranen aus dem selben Jahrgang aus der Vergleichsgruppe. Gleichzeitig kommt aber nicht das gleiche Ergebnis heraus, wenn man sich nicht weiße Veteranen sich anguckt, sondern da kam dann keine statistisch sinnvolle Aussage raus. Also es kam nicht heraus, dass sie deutlich weniger verdient haben, sondern es war deutlich unklarer. So, jetzt gab es dann eben auch die These, woran das liegen könnte und für die weißen Veteranen war dann die These, ja, man lernt zwar Dinge, während man beim Militär ist, aber das sind Dinge, die man im Berufsleben anschließend in vielen Berufen gar nicht braucht. Also wenn man jetzt nicht gerade irgendwie Pilot geworden ist und danach weiter Pilot ist, dann macht man ja wahrscheinlich etwas völlig anderes. Und wenn man sich jetzt angeguckt hat bei den weißen Veteranen, wie lange sind sie denn in diesem aktuellen Job und das nicht mehr mit dem gleichen Jahrgang vergleicht, sondern mit Leuten, die gleich lange in diesem Job arbeiten, dann haben sie das Gleiche verdient. Das heißt, es liegt nur daran, dass sie einfach Zeit verlieren beim Erfahrungen sammeln im Job, um dann Gehaltserhöhungen entsprechend zu bekommen. Bei nicht weißen Leuten gab es ja diesen Effekt nicht und das könnte daran liegen, das wurde jetzt in dem Paper nicht so ausgeführt, dass generell nicht weiße Menschen in den USA weniger Optionen in ihrem Leben haben und deswegen eh schon öfter zum Militär gegangen sind, weil woanders auch nicht mehr zu verdienen ist und weil sie dann nicht diese Jobs haben, nicht die gleichen Jobs hatten wie weiße Leute, wo man mehr verdient, gab es auch diese Differenz wahrscheinlich nicht, aber das wurde da nicht so genau ausgeführt.
Janine: Könnte man eigentlich quasi das Ergebnis so ein bisschen zweiteilen und sagen, dadurch, dass das für den ersten Teil der Aussage des Ergebnisses relativ eindeutig auf der Hand liegt und sehr klar aussieht, könnte man sagen, dass hier tatsächlich Kausalität nachgewiesen werden konnte, dass weiße Veteranen weniger verdienen als Menschen des gleichen Alters, die nicht im Militär waren, sondern frei ihre Berufe wählen konnten...
Helena: Ja.
Janine: ...und gleichzeitig könnte man sagen, beim zweiten Teil, ja, da gibt es Theorien zu, es wurde jetzt nicht näher untersucht, also ist das eigentlich mehr bloß so ein Ergebnis von Korrelation, was da entstanden ist?
Helena: Das würde ich jetzt auch nicht unbedingt sagen, weil es muss ja auch einen Effekt geben, es muss ja überhaupt zwischen den beiden Gruppen einen Unterschied geben, also zwischen den Veteranen...
Janine: Ja.
Helena: ...und Nicht-Veteranen und bei nicht-weißen Leuten gibt es diesen Unterschied nicht. Das heißt, wenn es diesen Unterschied nicht gibt, kann es ja auch keinen Grund für einen Unterschied geben.
Janine: Ich lege den Kopf schief und versuche nachzudenken. Ja, aber es liegt ja trotzdem nicht auf der Hand, warum es bei den Nicht-Weißen so ist, dass es sich zwischen den Veteranen und Nicht-Veteranen der nicht-weißen Menschen, dass es da so wenig Unterschiede gibt, dafür gibt es kein klares Ergebnis, also das kann nicht ganz kausal hergezeigt werden, es kann nur kausal hergezeigt werden, dass es diesen Unterschied zwischen weißen Veteranen und nicht-weißen Veteranen gibt.
Helena: Genau, aber es muss ja erst überhaupt einen Unterschied geben, um die Gründe für den existierenden Unterschied kausal überprüfen zu können, wenn es gar keinen Unterschied zwischen den beiden Gruppen gibt, also den nicht-weißen Nicht-Veteranen und den nicht-weißen Veteranen, die keinen Unterschied haben, wenn es darum geht, was sie verdienen in einem Jahr, dann wird das nicht durchs Militär beeinflusst, jedenfalls, das kann man sagen.
Janine: Okay.
Helena: Und das ist durchaus auch eine kausale Aussage, auch wenn es keinen Unterschied gibt.
Janine: Und das wäre dann sozusagen etwas, was dann eben einfach noch feiner zu überprüfen wäre, wo man weiter forschen könnte, um die konkreten Gründe herauszuarbeiten.
Helena: Ja, warum es bei der einen Gruppe einen Unterschied gibt und in der anderen Gruppe nicht.
Janine: Okay.
Helena: Ja, Angrist hat auch noch, weil er das Ganze etabliert hat, auch noch andere Sachen untersucht und eine Untersuchung, die er gemacht hatte, war die Frage, ja, wirkt sich die Klassengröße von Grundschulen auf den Lernerfolg der Leute aus, also der Kinder. Und ich meine, man würde ja erstmal sagen, ja, natürlich, kleine Klassen sind immer besser. Ich glaube aus verschiedenen Gründen ist das auch unabhängig, was bei dieser konkreten Frage rauskommt, relevant, kleinere Klassen zu haben. Aber das zu untersuchen ist halt schwer, weil typischerweise ist es ja so, dass der Lernerfolg von Kindern in wohlhabenderen Gegenden ist in der Regel auch größer als in nicht wohlhabenden Gegenden. Und das verzerrt schon mal komplett auch das Thema Klassengröße. Und was deswegen hier untersucht wurde, war dem Umstand geschuldet, dass in Israel Klassengrößen maximal 40 Leute betragen dürfen und sobald es 41 Leute sind, musste die Klasse in zwei Klassen gespalten werden. Deswegen wurden dann Klassen, die 40 Leute enthielten und Klassen, die quasi aufgespalten gerade so 41 enthielten, aber dann in Wirklichkeit zwei Klassen waren, miteinander verglichen, weil eben diese Regel sehr strikt ist, konnte man das einfach machen. Und da kam dann heraus, ja, der Lernerfolg von den kleineren Klassen war definitiv größer. Es gibt allerdings einen Bug daran, der dann ein paar Jahre später immerhin von der gleichen Arbeitsgruppe auch gefunden wurde. Und zwar, wenn man sich die Daten anguckt, sieht man, ja, es gibt auch viel mehr Klassen, die theoretisch 41 Personen gehabt hätten als 40. Warum soll das denn passieren, wenn irgendwo zufällig eine bestimmte Anzahl Kinder existiert? Warum gibt es dann irgendwie mehrmals den Fall 41 als 40? Und die Antwort ist, dass natürlich wohlhabendere Gegenden wiederum sehr viel Wert darauf gelegt haben, Klassen möglichst klein zu bekommen. Das heißt, die haben sich sehr bemüht oder häufiger bemüht, noch eine weitere Person zu finden, um über diese Grenze drüber zu kommen. Dann ist man wieder dabei, dass Schulen in wohlhabenderen Gegenden mehr Lernerfolg produzieren. Und dann ist doch die Aussage zur Klassengröße nicht mehr aus dieser Studie möglich. Und das ist eben ein Beispiel dafür, ja, man hat versucht, möglichst alles bei einem natürlichen Experiment an Einflussfaktoren erstmal herauszurechnen, hat aber einen Punkt vergessen. Und dann ist die Aussage, die man gemacht hat, doch nicht wirklich möglich, weil, ja, das Problem ist, Reproduzierbarkeit ist schwierig, in diesem Fall vielleicht schon eher noch. Das wurde nämlich bei einer Nachuntersuchung von darauffolgenden Jahren festgestellt, dass auch die ursprüngliche Untersuchung diesen Fehler hatte. Aber nicht jedes dieser natürlichen Experimente ist halt wiederholbar. Und in diesem Fall hat die Wiederholung eben dazu geführt, dass man einen Fehler gefunden hat. Das heißt, natürliche Experimente sind zwar ein sehr gutes Mittel, um Sachen zu untersuchen, die sonst schwer zu untersuchen sind, man muss aber immer damit rechnen, dass man einen Einflussfaktor vergessen hat. Und weil man sie halt nicht gut wiederholen kann, weil die meisten dieser Situation kommen halt nicht wieder, ist das nicht, ja, ganz so eine starke Aussage möglich am Ende, wie bei einem richtigen Experiment. Also, es ist eine gute Näherung, aber es ist auch nur eine Näherung.
Janine: Ja, Thema fertig.
Fazit (00:50:54)
Helena: Ja, dann kommen wir zum Fazit. Ja, mein Fazit ist, Experimente sind wichtig, um Erkenntnisse gewinnen zu können, Experimente brauchen eben Wiederholbarkeit und Bedingungen, bei denen man eben bestimmte Einflussfaktoren aktiv herbeiführen kann. Und ein natürliches Experiment ist dann eben der Fall, wo man das nicht selber aktiv herbeiführen kann, aber wo aufgrund von anderen Gründen Zustände erreicht werden, die im Prinzip einem Experiment so sehr ähneln, dass man trotzdem die Daten so auswerten kann, als wäre das ein Experiment gewesen.
Janine: Das ist ein ziemlich knackiges Fazit, glaube ich, über die ganze Folge schon. So, wichtig war halt Reproduzierbarkeit, beziehungsweise die Nichtreproduzierbarkeit des natürlichen Experiments, aber eben die Beobachtung und zwar auf die experimentelle Art und Weise, sodass eben am Ende eine kausale Erklärung stehen kann und relativ gesichert gesagt werden kann, dieses Ergebnis ist unsere Erkenntnis. Aber wie an dem letzten Beispiel gesehen, kann sich das ja auch noch mal ändern, wenn eben neue Fakten auftauchen oder neue Beobachtungen das Ergebnis tatsächlich verändern.
Helena: Ja.
Janine: Aber ein wichtiger Faktor, um überhaupt sich mit der Welt auseinanderzusetzen und deswegen eine gute Grundlage für neue Erkenntnisse, so oder so.
Helena: Ja, definitiv.
Nächste Folge: Whisper im Juli (00:52:20)
Helena: Ja, in unserer nächsten Folge wird es um Whisper gehen. Seit der Jahresrückblicksfolge benutzen wir Whisper, um Transkripte unserer Folgen zu erstellen. Whisper ist dabei ein neuronales Netz, also eine KI, die sich unsere Folgen anhört und dann aufschreibt. Und das ist letztes Jahr veröffentlicht worden und wir benutzen das inzwischen für jede Folge und haben da ein paar Erfahrungen gesammelt. Ja, und über die wollen wir in der nächsten Folge reden.
Call to Action (00:52:54)
Janine: Genau. Wenn ihr das nicht verpassen wollt und unsere Folgen nicht im Podcatcher eurer Wahl habt, sorgt gern dafür, sucht nach uns, datenleben müsste reichen, um zu einem Ergebnis zu kommen. Ihr könnt uns auch auf Mastodon folgen unter at datenleben at podcast.social oder auf Twitter unter at datenleben. Ihr könnt auch unsere Webseite besuchen, www.datenleben.de, da könnt ihr uns auch gerne Kommentare und Feedback unter den Folgen hinterlassen, darüber freuen wir uns immer sehr. Und falls euch unsere Herangehensweise an die Welt und die Wissenschaft gefällt, könnt ihr uns auch als Data Scientist buchen für Analysen oder Projekte. Und falls ihr Fragen oder Themenvorschläge habt, die euch interessieren, dann schreibt uns gerne auch an die genannten Orte.
Helena: Ja, dann bleibt mir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao!
Janine: Tschüss.
Outro (00:53:49)
54:01
You may also like View more
Loop Infinito (by Xataka)
Loop Infinito es un podcast diario de Xataka presentado por Javier Lacort.
Un nuevo episodio cada día de lunes a viernes que analiza la actualidad tecnológica dando contexto y perspectiva.. Updated
Inteligencia Artificial con Jon Hernandez
En este Podcast charlamos con gente que esta adoptando o siendo afectada por la IA, el objetivo es traer todos los puntos de vista posibles sobre esta revolución tecnológica que va a cambiar la sociedad. Charlas distendidas y tranquilas sobre temas que nos afectan a todos de la mano de los que más saben o más sufren la IA. Updated
monos estocásticos
monos estocásticos es un podcast sobre inteligencia artificial presentado por Antonio Ortiz (@antonello) y Matías S. Zavia (@matiass).
Sacamos un episodio nuevo cada jueves. Puedes seguirnos en YouTube, LinkedIn y X. Más enlaces en cuonda.com/monos-estocasticos/links
Hacemos todo lo que los monos estocásticos saben hacer: coser secuencias de formas lingüísticas que hemos observado en nuestros vastos datos de entrenamiento según la información probabilística de cómo se combinan. Updated






















