Buch des Monats November 2019
Data Science - Was ist das eigentlich?!
Annalyn Ng und Kenneth Soo
Beschreibung
von Martin Skrodzki
Big Data, künstliche Intelligenz, maschinelles Lernen, Data Science, Deep Learning, Neuronale Netze,
…. Die Liste solcher Modewörter in der Forschung ließe sich noch fortsetzen.
Aber was genau verbirgt sich hinter all diesen Begriffen? Und ist ein halbes Studium der Mathematik und
der Informatik notwendig, um die Grundlagen zu verstehen?
Die beiden Wissenschaftler Annalyn Ng und Kenneth Soo geben in ihrem Buch „Data Science –
Was ist das eigentlich?!“ direkt im Vorwort eine definitive Antwort auf die zweite Frage.
Denn während von Maschinen getroffene Entscheidungen in immer mehr betrieblichen Abläufen relevant
werden, stellen die Autoren fest, dass erschreckend wenig mit der Anwendung betraute Personen die zugrundeliegenden
Mechanismen dieser Entscheidungen verstehen. Sie formulieren daraufhin das Ziel für ihr Buch als
„Data Science für Uneingeweihte“ wobei „die oft sehr komplexe Mathematik (…)
absichtlich nicht im Detail hergeleitet“ wird. Und tatsächlich gelingt es auf 179 Seiten
Methoden des maschinellen Lernens zu präsentieren, ohne dass auch nur eine einzige Formel abgedruckt wird.
Grundlage für Data Science sind die namensgebenden Daten, denen gleich das erste der insgesamt
zwölf Kapitel gewidmet ist. Es ist doppelt so lang wie die folgenden Beschreibungen einzelner Algorithmen
und legt die Basis für das Verständnis alles Folgenden. Denn rund um Daten stellen sich viele wichtige
Fragen: In welchem Format werden sie bereitgestellt? Wie wird mit fehlenden oder unvollständigen Daten
umgegangen? Und was ist der grundsätzliche Aufbau einer Data Science Studie?
Die folgenden zehn Kapitel widmen sich dann unterschiedlichen Methoden des überwachten und
unüberwachten Lernens. Die besprochenen Methoden umfassen: k-means Clustering, Hauptkomponentenanalyse,
Assoziationsanalyse sowie Support-Vektor-Maschinen und neuronale Netze. Jeder Algorithmus wird dem gleichen
Schema folgend präsentiert: Zunächst stellen die Autoren einen beispielhaften Datensatz sowie eine
korrespondierende Forschungsfrage vor. So geht es in der Sozialen Netzwerkanalyse darum, aus Umsätzen des
internationalen Waffenhandels dominierende Mächte und deren Einflusssphären zu identifizieren.
Anhand dieser Beispieldaten wird dann der Algorithmus und dessen wichtigste Schritte und Parameter erläutert.
Jede dieser Betrachtungen endet mit einem Hinweis auf die Grenzen des jeweiligen Verfahrens, so wird
beispielsweise darauf hingewiesen, dass Entscheidungsbäume zu Instabilität und Ungenauigkeit neigen.
Schließlich werden für jede Methode zentrale Eigenschaften zusammengefasst, die als schnelle
Erinnerungsstütze dienen können.
Das Sachbuch von Ng und Soo wird seinem Ziel gerecht, mathematische Verfahren vorzustellen,
ohne dabei Mathematik selbst, bzw. deren Notation zu nutzen. Diese Stärke ist aber auch zugleich die
größte Schwäche des Werkes, denn es bietet über die oberflächliche Präsentation
hinaus keinerlei weiterführende Hinweise. Der Anhang enthält zwar ein Glossar, dieses fasst aber im
Wesentlichen die Beschreibungen der einzelnen Methoden und Begriffe nochmals zusammen.
Die Referenzen beschränken sich auf Hinweise zu den verwendeten Datensätzen und geben keine
Anregungen für weiterführende oder vertiefende Literatur. Somit hält diese Einführung in
Data Science was sie verspricht: Sie gibt einen Überblick über das breite Feld der maschinellen
Entscheidungen, der sich auch ohne Vorbildung nachvollziehen lässt.
Bibliografische Daten
Autoren: | Annalyn Ng und Kenneth Soo |
Titel: | Data Science – Was ist das eigentlich?! |
Verlag: | Springer |
Preis: | 19,99€ |