Buch des Monats November 2019

Data Science - Was ist das eigentlich?!

Annalyn Ng und Kenneth Soo
 
Ng and Soo: Data Science

Beschreibung

von Martin Skrodzki
Big Data, künstliche Intelligenz, maschinelles Lernen, Data Science, Deep Learning, Neuronale Netze, …. Die Liste solcher Modewörter in der Forschung ließe sich noch fortsetzen. Aber was genau verbirgt sich hinter all diesen Begriffen? Und ist ein halbes Studium der Mathematik und der Informatik notwendig, um die Grundlagen zu verstehen?
Die beiden Wissenschaftler Annalyn Ng und Kenneth Soo geben in ihrem Buch „Data Science – Was ist das eigentlich?!“ direkt im Vorwort eine definitive Antwort auf die zweite Frage. Denn während von Maschinen getroffene Entscheidungen in immer mehr betrieblichen Abläufen relevant werden, stellen die Autoren fest, dass erschreckend wenig mit der Anwendung betraute Personen die zugrundeliegenden Mechanismen dieser Entscheidungen verstehen. Sie formulieren daraufhin das Ziel für ihr Buch als „Data Science für Uneingeweihte“ wobei „die oft sehr komplexe Mathematik (…) absichtlich nicht im Detail hergeleitet“ wird. Und tatsächlich gelingt es auf 179 Seiten Methoden des maschinellen Lernens zu präsentieren, ohne dass auch nur eine einzige Formel abgedruckt wird.
Grundlage für Data Science sind die namensgebenden Daten, denen gleich das erste der insgesamt zwölf Kapitel gewidmet ist. Es ist doppelt so lang wie die folgenden Beschreibungen einzelner Algorithmen und legt die Basis für das Verständnis alles Folgenden. Denn rund um Daten stellen sich viele wichtige Fragen: In welchem Format werden sie bereitgestellt? Wie wird mit fehlenden oder unvollständigen Daten umgegangen? Und was ist der grundsätzliche Aufbau einer Data Science Studie?
Die folgenden zehn Kapitel widmen sich dann unterschiedlichen Methoden des überwachten und unüberwachten Lernens. Die besprochenen Methoden umfassen: k-means Clustering, Hauptkomponentenanalyse, Assoziationsanalyse sowie Support-Vektor-Maschinen und neuronale Netze. Jeder Algorithmus wird dem gleichen Schema folgend präsentiert: Zunächst stellen die Autoren einen beispielhaften Datensatz sowie eine korrespondierende Forschungsfrage vor. So geht es in der Sozialen Netzwerkanalyse darum, aus Umsätzen des internationalen Waffenhandels dominierende Mächte und deren Einflusssphären zu identifizieren. Anhand dieser Beispieldaten wird dann der Algorithmus und dessen wichtigste Schritte und Parameter erläutert. Jede dieser Betrachtungen endet mit einem Hinweis auf die Grenzen des jeweiligen Verfahrens, so wird beispielsweise darauf hingewiesen, dass Entscheidungsbäume zu Instabilität und Ungenauigkeit neigen. Schließlich werden für jede Methode zentrale Eigenschaften zusammengefasst, die als schnelle Erinnerungsstütze dienen können.
Das Sachbuch von Ng und Soo wird seinem Ziel gerecht, mathematische Verfahren vorzustellen, ohne dabei Mathematik selbst, bzw. deren Notation zu nutzen. Diese Stärke ist aber auch zugleich die größte Schwäche des Werkes, denn es bietet über die oberflächliche Präsentation hinaus keinerlei weiterführende Hinweise. Der Anhang enthält zwar ein Glossar, dieses fasst aber im Wesentlichen die Beschreibungen der einzelnen Methoden und Begriffe nochmals zusammen. Die Referenzen beschränken sich auf Hinweise zu den verwendeten Datensätzen und geben keine Anregungen für weiterführende oder vertiefende Literatur. Somit hält diese Einführung in Data Science was sie verspricht: Sie gibt einen Überblick über das breite Feld der maschinellen Entscheidungen, der sich auch ohne Vorbildung nachvollziehen lässt.
 

Bibliografische Daten

Autoren:Annalyn Ng und Kenneth Soo
Titel:Data Science – Was ist das eigentlich?!
Verlag:Springer
Preis:19,99€