[Webinar] Build Your GenAI Stack with Confluent and AWS | Register Now

STREAM-DATENVERARBEITUNG

Daten-Streaming: Eine umfassende Einführung

Daten-Streaming, auch bekannt als Stream Processing oder Event Streaming, ist ein kontinuierlicher Datenfluss, der die Verarbeitung und Analyse von Daten in Echtzeit ermöglicht, um sofortige Erkenntnisse zu gewinnen. Jede Branche ist heutzutage auf Echtzeitdaten angewiesen und Streaming-Plattformen wie Confluent ermöglichen die Umsetzung verschiedenster Anwendungsfälle – von Multiplayer-Spielen über Echtzeit-Betrugserkennung und Social-Media-Feeds bis hin zu Trading-Plattformen und GPS-Tracking.

In unserem E-Book erklären wir, wie Daten-Streaming funktioniert, zeigen die häufigsten Anwendungsfälle und Beispiele, wie Daten aus jeder Quelle und über jede Dateninfrastruktur hinweg gestreamt werden können.

streaming data - hero icon

Daten-Streaming – Überblick

Was ist Daten-Streaming?

Das Streaming von Daten, auch bekannt als Event Stream Processing, ist ein kontinuierlicher Datenfluss, der von verschiedenen Quellen erzeugt wird. Mithilfe der Stream-Processing-Technologie können Datenströme in Echtzeit verarbeitet, gespeichert, analysiert und bearbeitet werden.

Was bedeutet Streaming?

Der Begriff „Streaming“ bezeichnet kontinuierliche, unendliche Datenströme, die weder einen Anfang noch ein Ende haben. Sie sorgen für eine konstante Einspeisung von Daten, die genutzt werden können, ohne vorher heruntergeladen werden zu müssen.

Datenströme werden außerdem in unterschiedlichen Formaten und Mengen von allen möglichen Quellen generiert. Von Anwendungen, Netzwerkgeräten und Server-Log-Dateien über Website-Aktivitäten und Banktransaktionen bis hin zu Standortdaten – all diese Quellen können aggregiert werden, um nahtlos Echtzeit-Daten und -Analysen aus einer einzigen Informationsquelle zu erfassen.

So funktioniert Daten-Streaming

SEO-Glossarseite – Grafik zum Daten-Streaming

Früher waren Legacy-Infrastrukturen viel strukturierter, weil nur einige wenige Quellen Daten generierten. Das gesamte System konnte so aufgebaut sein, dass Daten und Datenstrukturen spezifiziert und vereinheitlicht werden konnten. Mit dem Aufkommen von Systemen für die Datenstromverarbeitung hat sich auch die Art und Weise, wie wir Daten verarbeiten, erheblich verändert, um mit den modernen Anforderungen mithalten zu können.

Übersicht – Verarbeitung von Streaming-Daten

Daten stammen heutzutage aus einer grenzenlosen Menge von Quellen: IoT-Sensoren, Servern, Sicherheitsprotokollen, Anwendungen oder internen/externen Systemen. Es ist nahezu unmöglich, die Struktur und die Datenintegrität zu regulieren oder die Menge und Geschwindigkeit der generierten Daten zu kontrollieren.

Während traditionelle Lösungen darauf ausgelegt sind, Daten aufzunehmen, zu verarbeiten und zu strukturieren, bevor sie genutzt werden können, so bieten Streaming-Datenarchitekturen zusätzlich die Möglichkeit, Data in Motion zu nutzen, zu speichern, aufzubereiten und zu analysieren.

Aus diesem Grund werden Anwendungen, die mit Datenströmen arbeiten, immer auf zwei Hauptfunktionen angewiesen sein: die Speichern und die Verarbeitung. Bei der Speicherung müssen große Datenströme auf sequenzielle und einheitliche Weise erfasst werden können. Bei der Verarbeitung geht es darum, mit dem Speicher zu interagieren und Daten zu verwerten, zu analysieren und als Grundlage für Berechnungen zu nutzen.

Dies führt zu weiteren Herausforderungen und Überlegungen, wenn mit überholten Datenbanken und Systemen gearbeitet wird. Mittlerweile gibt es zahlreiche Plattformen und Tools, die Unternehmen bei der Entwicklung von Streaming-Datenanwendungen unterstützen.

Beispiele

Zu den Praxisbeispielen für Daten-Streaming zählen Anwendungsfälle für alle Branchen, einschließlich Echtzeit-Aktienhandel, minutengenaues Bestandsmanagement im Einzelhandel, Social-Media-Feeds, Multiplayer-Spiele und Ridesharing-Apps.

Wenn ein Fahrgast beispielsweise über Lyft eine Mitfahrgelegenheit bestellt, fließen Echtzeit-Datenströme zusammen, um für ein nahtloses Benutzererlebnis zu sorgen. Mithilfe dieser Daten verbindet die Anwendung Echtzeit-Standortnachverfolgung, Verkehrsstatistiken, Preise und Echtzeit-Verkehrsinformationen miteinander, um den bestmöglichen Fahrer für den Fahrgast zu finden, die Preise zu berechnen und die geschätzte Ankunftszeit am Zielort auf Grundlage von sowohl Echtzeit- als auch historischen Daten zu bestimmen.

Streaming-Daten stellen für datengesteuerte Unternehmen somit den ersten Schritt in Richtung Einspeisung, Integration und Echtzeit-Analysen von Big Data dar.

Batch-Verarbeitung vs. Echtzeit-Datenströme

Bei der Batch-Verarbeitung müssen Daten als Batches heruntergeladen werden, bevor sie verwertet werden können, wohingegen Streaming-Daten die gleichzeitige Verarbeitung, Speicherung und Analyse in Echtzeit ermöglichen.

Für die meisten modernen Use Cases mit komplexen Anforderungen ist eine veraltete Batch-Datenverarbeitung nicht mehr ausreichend, da Daten nur in Gruppen von Transaktionen, die über eine gewisse Zeit gesammelt wurden, verarbeitet werden können. Moderne Unternehmen müssen Daten sekundenschnell nutzen, bevor diese schon wieder veraltet sind. Der Echtzeitzugriff auf Daten bietet zahlreiche Vorteile und Anwendungsfälle.

Streaming-Anwendungsfälle

Die Anwendungsfälle für Event-Streaming sind vielfältig. Das liegt daran, dass die Funktionsweise die der realen Welt ähnlich ist. Nahezu jeder Geschäftsprozess lässt sich mit Event-Streaming besser darstellen als mit der Batch-Verarbeitung. Dazu gehören vorausschauende Analysen, maschinelles Lernen, generative KI, Betrugserkennung und vieles mehr.

Event-Streaming wird in einer Vielzahl von Unternehmen eingesetzt, z. B. für Medien-Streaming, Omnichannel-Retail-Erlebnisse, Ridesharing usw.

Wenn ein Fahrgast zum Beispiel Lyft nutzt, weiß die Anwendung nicht nur, welchem Fahrer er am besten zugewiesen werden soll, sondern auch, wie lange die Fahrt dauern wird, basierend auf dem Echtzeit-Standort und historischen Verkehrsdaten. Zudem kann anhand von Echtzeit- und historischen Daten der Preis ermittelt werden.

Typische Use Cases

  • Standortdaten

  • Betrugserkennung

  • Echtzeit-Aktienhandel

  • Marketing-, Vertriebs- und Geschäftsanalysen

  • Kunden-/Benutzeraktivität

  • Monitoring und Reporting für interne IT-Systeme

  • Log-Monitoring: Fehlerbehebung bei Systemen, Servern, Geräten und mehr

  • SIEM (Security Information and Event Management): Analyse von Protokollen und Echtzeit-Event-Daten fürs Monitoring, für Metrics und die Erkennung von Bedrohungen

  • Bestände im Einzelhandel/Lager: Bestandsmanagement über alle Channels und Standorte hinweg und nahtloses Benutzererlebnis auf allen Geräten

  • Zuordnung bei Mitfahrgelegenheiten: Kombination von Standort-, Benutzer- und Preisdaten für prädikative Analysen

  • Zuordnung des Fahrgastes zu den besten Fahrern im Hinblick auf die Nähe, den Zielort, Preis und die Wartezeit

  • Maschinelles Lernen und KI: Durch die Verknüpfung von historischen und aktuellen Daten zu einem zentralen Nervensystem entstehen neue Anwendungsfälle für vorausschauende Analysen

  • Predictive Analytics.

Herausforderungen bei der Entwicklung von Daten-Streaming-Anwendungen

Die größten Herausforderungen bei der Entwicklung von Echtzeit-Anwendungen

Skalierbarkeit: Bei Systemausfällen können die von den einzelnen Geräten kommenden Protokolldaten von einer Übertragungsrate von Kilobit pro Sekunde auf Megabit pro Sekunde ansteigen und zu Gigabit pro Sekunde aggregiert werden. Das Hinzufügen von Kapazitäten, Ressourcen und Servern während der Skalierung von Anwendungen geschieht blitzschnell und erhöht die generierte Menge an Rohdaten exponentiell. Die Entwicklung von skalierbaren Anwendungen ist essenziell, wenn mit Streaming-Daten gearbeitet wird.

Reihenfolge: Die Bestimmung der Datenfolge in Datenströmen ist nicht außer Acht zu lassen, denn für viele Anwendungen ist sie von großer Bedeutung. Ein Chat oder ein Gespräch würden ohne die richtige Reihenfolge auch keinen Sinn ergeben.

Wenn Entwickler versuchen, ein Problem zu lösen, indem sie sich die aggregierten Protokolldaten anschauen, muss jede Zeile an der richtigen Stelle stehen. Oft gibt es Diskrepanzen zwischen der Reihenfolge des generierten Datenpakets und der Reihenfolge, in der es am Zielort ankommt. Auch bei Zeitstempeln und Uhren von Geräten, die Daten generieren, kommt es oft zu Abweichungen. Bei der Analyse von Datenströmen müssen Anwendungen die Voraussetzungen für ACID-Transaktionen berücksichtigen.

Konsistenz und Dauerhaftigkeit: Datenkonsistenz und Datenzugriff stellen immer ein großes Problem bei der Verarbeitung von Datenströmen dar. Die Daten, die zu einem bestimmten Zeitpunkt gelesen werden, könnten bereits in einem Rechenzentrum irgendwo anders auf der Welt modifiziert worden oder veraltet sein. Die Dauerhaftigkeit von Daten bildet auch eine Herausforderung bei der Anwendung von Datenströmen in der Cloud.

Fehlertoleranz und Datengarantien: Diese beiden Aspekte spielen bei der Arbeit mit Daten, bei der Datenstromverarbeitung und bei allen verteilten Systemen eine wichtige Rolle. Sind die vorhandenen Systeme in der Lage, Ausfälle durch einen einzigen Fehlerpunkt zu verhindern, wenn Daten aus zahlreichen Quellen und von unterschiedlichen Standorten kommen und in verschiedenen Formaten und Mengen vorliegen? Können sie Datenströme mit hoher Verfügbarkeit und Dauerhaftigkeit speichern?

Warum Confluent

Um in der heutigen digitalen Welt erfolgreich zu sein, müssen Unternehmen herausragende Kundenerlebnisse und datengetriebene Backend-Abläufe bieten.

Durch die Integration historischer und Echtzeit-Daten in einer einheitlichen, zentralen Informationsquelle hilft Confluent Unternehmen in Echtzeit auf die sich laufend verändernden Daten zu reagieren, zu antworten und sich anzupassen. Confluent wurde von den Erfindern von Apache Kafka entwickelt und ermöglicht eine vollkommen neue Kategorie von modernen, Event-getriebenen Anwendungen, universelle Daten-Pipelines, leistungsstarke, datengetriebene Anwendungsfälle sowie Skalierbarkeit, Sicherheit und Performance auf Enterprise-Niveau.

Heute nutzen Unternehmen wie Walmart, Expedia und Bank of America Confluent – die einzige umfassende Daten-Streaming-Plattform, die darauf ausgelegt ist, Daten aus jeder Cloud und in jedem Umfang zu streamen.

Jetzt in nur wenigen Minuten kostenlos loslegen.

Mit Technologien wie Apache Kafka und Confluent werden Echtzeit-Streaming und -Analysen umsetzbar.

Indem historische und Echtzeit-Daten in eine einzige, zentrale Informationsquelle integriert werden, sorgt Confluent dafür, dass völlig neue Arten von modernen, event-getriebenen Anwendungen erstellt, universelle Daten-Pipelines entwickelt und leistungsstarke, datengesteuerte Anwendungsfälle mit voller Skalierbarkeit, Leistung und Zuverlässigkeit möglich gemacht werden können.

Warum Confluent?

Von Einzelhandel, Logistik und Produktion über Finanzdienstleistungen bis hin zu sozialen Netzwerken – mit Confluent können sich Unternehmen darauf konzentrieren, einen geschäftlichen Nutzen aus ihren Daten zu ziehen, anstatt sich um die zugrunde liegenden Mechanismen wie die Übermittlung, das Hin- und Herschieben oder die Sortierung von Daten zu kümmern.

Heutzutage nutzen unter anderem Walmart, Expedia und Bank of America Confluent, die einzige vollständige Streaming-Datensoftware, die darauf ausgelegt ist, Daten aus allen Quellen und in jedem Umfang zu streamen. Sie wurde von den Schöpfern von Apache Kafka entwickelt und stellt heute die leistungsstärkste Streaming-Datenplattform dar. Dabei kann sie nicht nur Big Data aufnehmen, sondern auch Daten in Echtzeit verarbeiten, weltweite Daten integrieren und während des Streamens Analysen durchführen.

Weitere Informationen zum Einstieg mit der kostenlosen Testversion in nur wenigen Minuten oder dazu, wie Unternehmen dank Confluent von Echtzeit-Daten profitieren, sind hier abrufbar.