Waves of blue light and businessman using on laptop computer and smart phone with digital layer effect as concept

Was Sie schon immer über Big Data wissen wollten

…aber bisher nicht zu fragen wagten

Mit kaum einem anderen Begriff verbinden sich zurzeit so viele Hoffnungen und Bedenken. Dabei sind „Big Data“ eigentlich nur die logische Folge einer exponenziellen Zunahme von Datenvolumen, Vernetzung sowie Speicher- und Verarbeitungskapazitäten.

Definition von Big Data

„Big Data“ sind große Mengen von Daten, die verschiedene Formate, Strukturen und Quellen haben und in stetigem Wandel begriffen sind. Die Daten sind zu umfangreich und komplex, um mit „herkömmlichen“ Mitteln verarbeitet zu werden.

Data Mining Tools und Prozesse können anschließend dazu beitragen, aus dem Datenwust nutzbare Informationen zu erschließen und Erkenntnisse zu gewinnen. Diese wären dann „Smart Data“ – der nächste große Hype.

Quellen von Big Data

  • Das Datenaufkommen wächst seit langem schon exponentiell an. Zu den Daten, die wissentlich erzeugt und gespeichert werden, wie E-Mails, Office-Dateien, Fotos und Social Media, kommen zunehmend auch automatisch erzeugte Daten. Das Internet ist ein Datenfass ohne Boden. Hinzu kommen Logdateien von Telekommunikationsverbindungen sowie Protokoll- und Versionsdaten von Büro- und Wissenschaftsanwendungen.
  • Smartphones und Tablets funken permanent Daten: Kommunikationsdaten, Standortdaten und vieles andere mehr. Apps verlangen oft Zugriff auf eine Fülle von Datenquellen, ehe sie den Zugriff erlauben. Der Verbraucher bezahlt die Nutzung mit seinen Daten statt mit Geld.
  • Letzteres gilt auch für Kundenkarten, mit denen Kunden „Punkte“ oder Rabatte sammeln können. Akribisch führen Spezialfirmen über die Einkäufe Buch und bereiten die Daten für Marketingzwecke auf.
  • Zunehmend werden tragbare Geräte, so genannte Wearables, verwendet. Beispiele sind Fitness-Armbänder, die über Smartphone-Apps oder direkt mit ihren Anbietern vernetzt sind. Vordergründig geschaffen, um Verbrauchern ein besseres Trainingserlebnis zu ermöglichen, sind sie im Hintergrund auch dazu da, Daten über Körperfunktionen an Werbetreibende und Krankenkassen zu funken.
  • Industrie 4.0 und Internet der Dinge (IoT) beruhen darauf, dass Objekte miteinander vernetzt sind, über das Netz kommunizieren und ihre Funktionen, Logistik, Wartung, ja sogar die eigene Montage steuern, ohne dass ein Mensch eingreifen muss. Prominentes aktuelles Beispiel sind ist das „selbstfahrende Auto“, das pro Minute Terabytes an Daten sammelt und weitergibt.
  • Tracker-Programme im Internet sowie Cookies auf dem PC oder mobilen Gerät verfolgen das Surf-Verhalten der User und machen es für Werbetreibende verfügbar.
  • RFID-Transponder funken Standortdaten und mehr. Sie finden sich von A bis Z in Automobilen Wegfahrsperren bis hin zu Zeiterfassungssystemen. Lagermanagement, Tieridentifikation, Banknoten, Müllentsorgung, fast überall sind die kleinen Tausendsassas im Einsatz.
  • Überall, wo Sensoren im Einsatz sind, werden Daten gesammelt und – häufig – gespeichert.
mobile-phone-426559_1920

Verwendung von Big Data

Zwei wichtige Felder in denen Big Data eingesetzt werden, sind:

  • Werbung und Marketing – Werbetreibende sind natürlich elektrisiert von der Aussicht, dass ihnen Big Data eines Tages den „Gläsernen Kunden“ bescheren könnte. Diesem könnte man laufend „Angebote machen, die er nicht ablehnen kann“. Theoretisch fehlt dazu nicht mehr viel, würde man alle Kundendaten aus den verschiedenen Quellen in Echtzeit verknüpfen und verarbeiten. Doch in der Praxis ärgert sich ein Verbraucher, der sich einen Koffer gekauft hat, anschließend drei Jahre lang, dass ihm permanent nur Koffer angeboten werden. Dabei braucht er jetzt doch keinen mehr.
  • Terrorismusbekämpfung – Die Sammlung und Überwachung etwa von Telekommunikations- und Social Media-Daten kann helfen, Terroranschläge bereits im Vorfeld zu vereiteln. Allerdings sind Vorratsdatenspeicherung und die Überwachung von Menschen in westlichen Demokratien ein kontroverses Thema. Nicht jede Datensammelaktion, die möglich ist, ist auch erlaubt.

Weitere mögliche Einsatzgebiete für Big Data sind wissenschaftliche Forschung, Entdeckung von Unregelmäßigkeiten im Finanzverkehr (Fraud Detection) sowie auch medizinische Anwendungen, z.B. in der Epidemiologie.

Herausforderungen

Die größten Herausforderungen für die Nutzung von Big Data sind:

  • Fachkräftemangel – Informatiker und Spezialisten, die mit Big Data-Technologien umgehen können, sind schwer zu finden.
  • Mangelhafte Datenqualität – Die Daten sind so heterogen (teils auch Multimediadaten), von so unterschiedlicher Aussagekraft und so volatil, dass es schwer fällt, sie richtig einzuordnen und zweckgerichtet zu verdichten.
  • Unbefriedigende Ergebnisse – Unternehmen unterschätzen teilweise, wie schwierig es ist, verwertbare Informationen zu erhalten und in unternehmerisches Handeln umzusetzen. Die Ergebnisse bleiben hinter den Erwartungen zurück.
  • Rechtliche Hürden – Zum Glück gibt es sie, aber für Datensammler sind sie ein Hindernis: Gesetze wie z. B. das Bundesdatenschutzgesetz, in dem auch das Recht auf informationelle Selbstbestimmung verankert ist.
  • Technische Schwierigkeiten – Big Data Tools und Techniken machen eine rasante Entwicklung durch und die Verwendung und Administration dieser Technologien ist kein Kinderspiel.

Tools und Services

Eine Marktübersicht über Big Data Tools würde den Rahmen dieses kurzen Ratgebers sprengen. Zumal diese Tools ebenfalls eine heterogene Landschaft bilden. Es gibt Visualisierungstools, Datenbanken, Analysetools, Data und Process Mining Tools und viele mehr. Alle tragen dazu bei, aus unstrukturierten Big Data zweckgerichtete Smart Data zu machen.

Die Microsoft Azure-Welt

Stellvertretend seien hier Big Data und BI Tools und Services von Microsoft kurz zusammengefasst.

  • Azure-Dienste arbeiten mit HDInsight zusammen und umfassen u.a. Folgendes:
  • Stream Analytics – Hilft bei der Echtzeit-Datenanalyse von streamenden Daten
  • Data Factory – skalierbare Datendienste erstellen, planen, überwachen. Datenpipeline (Data Mouvement-as-a-Service) bereitstellen. Möglichkeit, Automatismen einzubinden
  • Data Catalog
  • Event Hubs – Sensordaten und Informationen von Webseiten mit Event Hub erfassen, an Stream Analytics weitergeben, mit SQL auslesen und von Anwendern konsumieren.
  • SQL Database Elastic Pool – Datenbankpooling, Azure SQL Data Warehouse als Data-Warehouse-as-a-Service-Dienst

Slider