Größer, schneller, cloudiger: So sieht der Big Data-Trend für das neue Jahr aus. Der Trend, dass immer mehr Menschen immer mehr Dinge mit ihren Daten schnell erledigen, setzt sich fort. Wie das im Einzelfall aussieht, steht jedoch noch nicht fest. Die Ausbreitung von Self-Service-Datenanalysen führt zusammen mit der zunehmenden Verbreitung von Cloud und Hadoop (und neuen Technologien in Ergänzung zu Hadoop) zu vielfältigen Veränderungen, die Unternehmen entweder nutzen oder auf eigene Gefahr ignorieren können.
1. Der NoSQL-Siegeszug
In der Ausgabe der Big Data-Trends vom vergangenen Jahr haben wir auf die zunehmende Verbreitung von NoSQL-Technologien verwiesen, die sich üblicherweise auf unstrukturierte Daten beziehen. NoSQL-Datenbanken avancieren nun ganz klar zum Kernstück von IT-Unternehmensumgebungen, da sich die Vorteile schemafreier Datenbankkonzepte immer deutlicher abzeichnen. Nichts zeigt dies deutlicher als ein Blick auf den Gartner Magic Quadrant für betriebliche Datenbankverwaltungssysteme, der bisher von Oracle, IBM, Microsoft und SAP dominiert wurde. Beim neuesten Magic Quadrant dagegen überwiegen NoSQL-Anbieter wie MongoDB, DataStax, Redis Labs, MarkLogic und Amazon Web Services (mit DynamoDB) im Gartner Leaders-Quadranten des Berichts gegenüber den traditionellen Datenbankanbietern.
2. Apache Spark bringt Licht in Big Data
Apache Spark hat sich für eine Reihe von Unternehmen von einer Hadoop-Komponente zur bevorzugten Big Data-Plattform weiterentwickelt. Spark verarbeitet Daten erheblich schneller als Hadoop und ist dem Spark-Entwickler und Databricks-Mitbegründer Matei Zaharia zufolge mittlerweile das größte quelloffene Big Data-Projekt. Mittlerweile häufen sich überzeugende Fallbeispiele zu Spark, beispielsweise Goldman Sachs, wo Spark inzwischen zur Weltsprache der Big Data-Analytik avanciert ist.
3. Hadoop-Projekte in der Reifephase: der Übergang vom Hadoop-Machbarkeitsnachweis (PoC) in die Produktion wird immer häufiger
Einer aktuellen Umfrage unter 2.200 Hadoop-Kunden zufolge gehen nur 3 % der Befragten davon aus, dass sie die Nutzung von Hadoop in den kommenden 12 Monaten zurückfahren werden. 76 % der Bestandsanwender wollen Hadoop in den nächsten 3 Monaten stärker nutzen, und fast die Hälfte der Unternehmen, die Hadoop bisher nicht nutzen, haben vor, dies in den kommenden 12 Monaten zu ändern. Dieselbe Umfrage ergab außerdem, dass Tableau das führende BI-Tool in Unternehmen ist, die Hadoop nutzen oder nutzen möchten – Unternehmen mit der höchsten Hadoop-Reife eingeschlossen.
4. Big Data wird erwachsen: Hadoop als Beitrag zu Unternehmensstandards
Auch die steigenden Investitionen in Komponenten für Unternehmenssysteme wie Sicherheitssysteme weisen darauf hin, dass Hadoop sich zu einem zentralen Element in IT-Unternehmensumgebungen entwickelt. Das Apache Sentry-Projekt ist ein System zur Durchsetzung einer genau abgestimmten, rollenbasierten Autorisierung für den Zugriff auf Daten und Metadaten, die in einem Hadoop-Cluster gespeichert sind. Kunden erwarten genau diese Art von Funktionen von ihren RDBMS-Unternehmensplattformen, die sich derzeit an die Spitze der neuen Big Data-Technologien setzen und damit eine weitere Hürde für die Einführung in Unternehmen beseitigen.
5. Big Data wird schneller: neue Optionen für die Beschleunigung von Hadoop
Hadoop wird in Unternehmen immer wichtiger. Damit wächst jedoch auch der anwenderseitige Bedarf an Schnelligkeit bei der Datennutzung, wie Anwender sie von traditionellen Data Warehouses kennen. Um diesen Anwenderbedarf zu erfüllen, setzen sich immer stärker Technologien wie Cloudera Impala, AtScale, Actian Vector und Jethro Data durch, die einen alten Bekannten von Geschäftsanwendern für Hadoop aktivieren, den OLAP-Cube. Damit verwischen die Grenzen zwischen „traditionellen“ BI-Konzepten und der Welt der „Big Data“ weiter.
6. Immer mehr Möglichkeiten, Endanwender auf die Erforschung aller Datenarten vorzubereiten
Self-Service-Datenvorbereitungstools werden immer beliebter. Der Grund dafür liegt zum Teil in der Verlagerung auf von Geschäftsanwendern generierte Data-Discovery-Tools wie Tableau, die das Tempo für die Datenanalyse beschleunigen. Geschäftsanwender möchten außerdem Zeitaufwand und Komplexität der Datenvorbereitung für die Analyse reduzieren. Dies ist bei Big Data insbesondere wichtig, wenn unterschiedliche Datentypen und -formate im Spiel sind. Unternehmen wie Alteryx, Trifacta, Paxata und Lavastorm, die den Schwerpunkt auf die endanwenderseitige Big Data-Datenvorbereitung legen, haben eine Vielzahl entsprechender Innovationen entwickelt, und sogar etablierte führende ETL-Anbieter haben umfassend in diesen Bereich investiert, beispielsweise Informatica mit ihrem Produkt „Rev“.
7. Dynamisches Wachstum bei MPP Data Warehouses – in der Cloud
Es ist bereits seit einer Weile klar, dass das Aussterben des Data Warehouse zu vorschnell ausgerufen wurde, auch wenn sich das Wachstum in diesem Segment unbestreitbar verlangsamt hat. Die Anwendung dieser Technologie verlagert sich nun jedoch im großen Stil in die Cloud. Hier war Amazon mit einem bedarfsbasierten Cloud Data Warehouse in Redshift Vorreiter. Redshift konnte das schnellste Wachstum unter den AWS-Services vorweisen. Dieser hat jedoch inzwischen mit BigQuery von Google und Angeboten von alteingesessenen großen Data Warehouse-Anbietern wie Microsoft (mit Azure SQL Data Warehouse) und Teradata Konkurrenz bekommen. Aber auch immer mehr Startup-Unternehmen wie Snowflake, der Sieger beim Strata + Hadoop World 2015 Startup Showcase, gelingt es, sich in diesem Bereich zu positionieren. Analysten zufolge werden 90 % der Unternehmen, die Hadoop bereits eingeführt haben, auch ihre Data Warehouses beibehalten. Mit den neuen Cloud-Angeboten können diese Kunden Speicherplatz und Rechenressourcen im Data Warehouse je nach den Datenmengen, die im Hadoop Data Lake gespeichert sind, dynamisch herauf- und herunterskalieren.
8. Konvergierende Trends: IoT, Cloud und Big Data verschmelzen
Die Technologie steckt noch in den Kinderschuhen – aber die Daten von Geräten im Internet der Dinge werden eine der großen Anwendungen für die Cloud und eine der Ursachen für die Datenexplosion in den Petabytebereich sein. Führende Cloud- und Datenanbieter wie Google, Amazon Web Services und Microsoft werden daher Services für das Internet der Dinge entwickeln, mit denen sich Daten nahtlos in ihre Cloud-basierten Analytik-Engines verschieben lassen.
Auch wenn diese Dynamik und diese Trends unzusammenhängend erscheinen mögen: Sie werden in der Notwendigkeit der schnellen und unkomplizierten Datennutzung geeint. Mit den Veränderungen bei Big Data und neuen Möglichkeiten zur Verwendung dieser Daten werden sich manche Details ändern. Aber ansonsten bleibt es dabei: Alle sind Datenanalytiker, und es gibt keine spannendere Arbeit.
Von Henrik Jorgensen, Country Manager DACH bei Tableau Software