[Webinar] Von Notfallmaßnahmen zu Null-Verlust-Resilienz | Jetzt registrieren

Anwendungsfall | CDC-Pipelines

CDC-Pipelines mit Apache Flink® erstellen

Q: How does Confluent Cloud simplify processing Debezium CDC events?

Confluent Cloud provides first-class support for Debezium , an open source distributed platform for change data capture. Pre-built connectors can automatically interpret the complex structure of Debezium CDC event streams, simplifying the process of integrating with Kafka and Flink.

Change Data Capture (CDC) wird genutzt, um Daten zwischen relationalen Datenbanken zu kopieren und ermöglicht wichtige Backend-Vorgänge wie Datensynchronisierung, Migration und Notfallwiederherstellung. Mit der Stream-Verarbeitung können Change Data Capture-Pipelines erstellt werden, die Event-getriebene Anwendungen und zuverlässige Datenprodukte ermöglichen, mit aktuellen, verarbeiteten Daten, die in ältere und moderne, verteilte Systeme integriert sind.

Jetzt erfahren, wie Confluent Apache Kafka® und Apache Flink® zusammenführt, um Streaming-CDC-Pipelines zu erstellen und Downstream-Analysen mit aktuellen, qualitativ hochwertigen Betriebsdaten zu versorgen.

Demos auf GitHub erkunden Kostenlos auf Confluent testen

Von Entscheidungen auf Basis veralteter Daten zu Reaktionen in Echtzeit

Go from making decisions on stale data to reacting in real time

Verarbeitungskosten um 30 % reduzieren

Reduce your processing costs by 30%

Zuverlässige und bereinigte Daten bereitstellen, ohne manuellen Break-Fix-Aufwand

Deliver trusted, clean data without manual break-fix work

3 zentrale Herausforderungen bei herkömmlichen CDC-Architekturen

Die meisten Unternehmen nutzen bereits logbasierte Change Data Capture, um Datenbankänderungen in Events umzuwandeln.

Signifikante Datenlatenz bei der Batch-Verarbeitung. Anstelle von Event-Streams verlassen sich die meisten Unternehmen auf die Batch-Verarbeitung, um Logdaten downstream zu materialisieren. Dies bedeutet, dass die Datensysteme über Stunden oder Tage hinweg nicht synchronisiert sind, bis der nächste Batch-Prozess ausgeführt wird.
Kosten für redundante Verarbeitung. Die zusätzlichen Kosten entstehen sowohl durch den Aufbau und die Wartung von Punkt-zu-Punkt-Integrationen als auch durch die redundante Verarbeitung, die über diese Pipelines hinweg stattfindet.
Vertrauensverlust durch ständige manuelle Reparaturzyklen. Die Aufrechterhaltung der Zuverlässigkeit in all diesen Pipelines ist zeitaufwendig und anfällig für menschliche Fehler. Und dieser Ansatz zwingt die Teams dazu, reaktiv Probleme zu beheben, die erst dann erkannt werden, wenn sie einen anderen nachgelagerten Consumer betreffen.

Eine einfache Architektur für aktuelle, saubere Daten

Durch den Aufbau von CDC-Pipelines mit Kafka und Flink können CDC-Workloads und Batch-Analysen vereinheitlicht und Verarbeitungssilos beseitigt werden. Anstatt auf die Batch-Verarbeitung zu warten und die Kosten für redundante Verarbeitung zu tragen, oder sich auf anfällige Pipelines zu verlassen, ermöglicht diese Architektur:

Change-Data-Capture-Daten als Event-Streams zu erfassen
Flink zu nutzen, um diese Streams in Echtzeit zu verarbeiten
Change-Data-Capture-Streams umgehend in operativen und analytischen Umgebungen darzustellen.

Mehr über Flink erfahren Flink-Demos ansehen

Daten-Value maximieren zu einem Bruchteil der Kosten

Mit serverlosem Apache Flink® auf der Daten-Streaming-Plattform von Confluent kann die Verarbeitung nach links verlagert werden – vor der Dateneinspeisung –, um Latenzen, die Datenportabilität sowie die Kosteneffizienz zu verbessern.

Datenanreicherung: Daten mit zusätzlichem Kontext anreichern, um die Genauigkeit zu erhöhen.
Wiederverwendbarkeit von Daten: Konsistente Datenströme zwischen Anwendungen weitergeben.
Echtzeit überall: Anwendungen mit niedriger Latenz ermöglichen, sofort auf Events zu reagieren.
Kosten senken: Ressourcennutzung optimieren und redundante Verarbeitung reduzieren.

AppDev-Teams können Daten-Pipelines erstellen, die rechtzeitiges Handeln ermöglichen

Ob für einen Shift-Left-Ansatz bei der Data-Warehouse- und Data-Lake-Einspeisung für Analysen, die Erstellung von Suchindizes in Echtzeit, ML-Pipelines oder SIEM-Optimierung.

Mehr über Shift-Left-Analytics erfahren

Analytics-Teams können Daten vorbereiten und aufbereiten, um Event-getriebene Anwendungen zu versorgen, indem sie Berechnungen, Statusaktualisierungen oder externe Aktionen triggern

Dazu gehören Anwendungen für GenAI-Lösungen, Betrugserkennung, Echtzeit-Alerts und -Benachrichtigungen, Marketing-Personalisierung und vieles mehr.

Streaming Agents erkunden

3 Schritte zum Aufbau von CDC-Pipelines mit Confluent Stream-Verarbeitung

Mit Confluent können CDC-Streams verarbeitet werden, bevor sie in der Analyseumgebung dargestellt werden. Einfach mit Flink SQ die in Kafka-Topics erfassten Änderungsdaten filtern, zusammenführen und anreichern. Anschließend können Datenströme sowohl in den operativen als auch in den analytischen Umgebungen dargestellt werden.

Schritt 1. Änderungsdaten einfach erfassen und integrieren mit vollständig verwalteten CDC-Connectors.

Confluent bietet vollständig verwaltete Change Data Capture-Connectors für Quellen wie Oracle, SQL Server, MySQL, Salesforce und Debezium an. Diese Connectors ermöglichen es, eine geordnete Historie aller Einfügungen, Aktualisierungen und Löschungen zu erfassen – was eine Echtzeit- und feingranulare Änderungsdatenintegration ermöglicht – ohne dass Connectors selbst entwickelt, getestet, gewartet oder verwaltet werden müssen.

So können kontinuierlich aktualisierte Tabellen erstellt werden, die Echtzeitänderungen aus den zugrunde liegenden Datenströmen widerspiegeln und live abfragbare Ergebnisse ermöglichen. Debezium CDC-Streams können sogar automatisch interpretiert werden, um die Umwandlung von rohen Datenbankänderungen in kontinuierlich aktualisierte Tabellen zu vereinfachen.

Blog-Beitrag lesen CDC-Connector finden

Schritt 2. Kontinuierliche Anreicherung, Transformation und Optimierung von Streaming-Änderungsdaten mit Flink

Egal woher die Änderungsdaten stammen, mit Confluent Cloud für Apache Flink® kann eine In-Memory-Verarbeitung (stateless und stateful) mit einfacher SQL-Syntax durchgeführt werden. Dank der Stream-Verarbeitungsfunktionen mit geringer Latenz und hohem Durchsatz können CDC-Workloads (auch von nachgelagerten Teams) während der Verarbeitung angereichert und transformiert werden, mit Filterung, Deduplizierung, Aggregation, Verknüpfung und Denormalisierung.

Mit Flink loslegen Flink-Kurs belegen

Schritt 3. CDC-Streams sofort und überall bereitstellen

ETL-Pipelines sind eine anfällige und teure Methode, um operative Workloads an Analyseumgebungen zu senden. Es wird noch komplizierter, wenn die bereinigten, angereicherten Daten in der operativen Umgebung verfügbar sein müssen. Zusätzliche Hops und geplante Batch-Verarbeitungen können die Fähigkeit, Echtzeit- und Event-getriebene Erlebnisse zu bieten, erheblich beeinträchtigen.

Mit Confluent können diese Systeme mühelos integriert, CDC-Workloads in Echtzeit verarbeitet und sofort in analytischen und operativen Apps dargestellt werden. Das umfangreiche Angebot an verwalteten Connectors von Confluent ermöglicht eine nahtlose Integration, während Tableflow die Streaming-Daten in Echtzeit in offene Tabellenformate umwandelt.

Blog-Beitrag lesen Schneller entwickeln mit Connectors

Streaming-CDC-Demos & Case Studies

Confluent-Kunden nutzen Flink, um bestehende CDC-Anwendungsfälle wie Datensynchronisierung und Disaster Recovery zu verbessern und neue Echtzeitfähigkeiten zu erschließen.

Jetzt im GitHub-Repo erfahren, wie Echtzeitanalysen für Customer 360, Vertriebsanalysen oder Sales-Trend-Analysen implementiert werden können.

Es stehen zwei Labs zu Verfügung:

Lab zu Produktvertrieb- und Customer360-Aggregation

Produktverkaufsdaten bereinigen und aggregieren, die angereicherten Daten in Snowflake oder Redshift importieren und anschließend ein Datenprodukt erstellen, das von operativen Datenbanken genutzt werden kann.

Jetzt loslegen

Lab zu täglichen Vertriebstrends

Zahlungen validieren, Verkaufsmuster analysieren, um tägliche Trends zu identifizieren, und anschließend das Kafka-Topic als Iceberg-Tabelle in Amazon Athena darstellen, um tiefere Einblicke zu gewinnen.

Jetzt loslegen

„Die Einführung von CDC hat uns ermöglicht, das Potenzial von Echtzeitdaten auszuschöpfen und letztendlich von Batch-Daten-Workloads auf Stream-Verarbeitung umzustellen.“

Blog-Beitrag lesen

„Mit Flink haben wir jetzt die Möglichkeit, die Verarbeitung nach links zu verschieben und viele Datentransformationen und Rechenvorgänge an unseren Daten frühzeitig durchzuführen, bevor sie Snowflake erreichen. Dies wird unsere Datenverarbeitungskosten optimieren, um die Menge der uns zur Verfügung stehenden Daten erhöhen können.“

Vitaly Shoykhet

Senior VP of Engineering, Audacy

Customer Story lesen

„Mit Confluent können wir jetzt ganz einfach die CDC-Pipelines erstellen, die wir benötigen, um Daten in Echtzeit zu erfassen, anstatt sie alle 10 Minuten in der Batch-Verarbeitung abzurufen, so dass wir Betrug schnell erkennen können.“

Ryohei Nagao

Trust & Safety Engineering, Mercari

Customer Story lesen

„Die größte Herausforderung bestand darin, dass wir nicht über ausreichende interne Ressourcen verfügten, um CDC und den Streaming-Prozess zu entwickeln. Nun können wir problemlos CDC-Systeme erstellen und das Entwicklerteam konnte während der Entwicklung des Streaming-Prozesses seine Arbeitsbelastung reduzieren.“

Trần Thế Chinh

Head of System Platform, One Mount Group

Customer Story lesen

“Mit Confluent Cloud können wir jetzt jedem Team operative Daten in Echtzeit zur Verfügung stellen. Das ist wirklich effektiv und reduziert unseren operativen Aufwand erheblich.”

Siegfried Polysius

VP Cloud & Architecture, BestSecret

Customer Story lesen

Einstieg in CDC-Streaming auf Confluent

Bereit, CDC-Daten in Echtzeit mit Flink zu verarbeiten? Mit Confluent loslegen und eine Stream-Verarbeitung implementieren, die für jede Umgebung geeignet ist.

Confluent Cloud für Apache Flink® testen—verfügbar auf AWS, Google Cloud, Microsoft Azure—um Anwendungen mithilfe von Kafka + Flink mit serverloser, Cloud-nativer Kosteneffizienz und Einfachheit zu entwickeln.

Und mit Confluent Platform für Apache Flink® können bestehende Flink-Workloads auf einer selbstverwalteten Daten-Streaming-Plattform genutzt werden, die lokal oder in einer privaten Cloud bereitgestellt werden kann.

CloudSelf Managed

Confluent Cloud

Ein vollständig verwalteter cloud-nativer Service für Apache Kafka®

Ich habe die Nutzungsbedingungen gelesen und akzeptiere sie

Ich möchte per E-Mail über Produkte, Leistungen und Events von Confluent benachrichtigt werden

Kundensupport

Ich habe bereits einen Account. Anmelden

Durch Klicken auf „KOSTENLOS LOSLEGEN“ wird den Nutzungsbedingungen und der Datenschutzrichtlinie zugestimmt.

Ich habe die Nutzungsbedingungen gelesen und akzeptiere sie

Ich möchte per E-Mail über Produkte, Leistungen und Events von Confluent benachrichtigt werden

Kundensupport

Ich habe bereits einen Account. Anmelden

Durch Klicken auf „KOSTENLOS LOSLEGEN“ wird den Nutzungsbedingungen und der Datenschutzrichtlinie zugestimmt.

Streaming CDC With Flink | FAQs

How does a streaming approach improve on batch ELT/ETL pipelines?

A streaming approach allows you to "shift left," processing and governing data closer to the source. Instead of running separate, costly ELT jobs in multiple downstream systems, you process the data once in-stream with Flink to create a single, reusable, high-quality data product. This improves data quality, reduces overall processing costs and risks, and gets trustworthy data to your teams faster.

Why use Apache Flink® for processing real-time CDC Data?

Apache Flink® is the de facto standard for stateful stream processing, designed for high-performance, low-latency workloads—making it ideal for CDC. Its ability to handle stateful computations allows it to accurately interpret streams of inserts, updates, and deletes to maintain a correct, materialized view of data over time. Confluent offers a fully managed, serverless Flink service that removes the operational burden of self-management.

How do you handle data consistency and quality in real-time CDC pipeline?

Data consistency is maintained by processing CDC events in-flight to filter duplicates, join streams for enrichment, and aggregate data correctly before it reaches any downstream system. Confluent's platform integrates Flink with Stream Governance, including Schema Registry, to define and enforce universal data standards, ensuring data compatibility, quality, and lineage tracking across your organization.

How does Confluent Cloud handle changes to the source database schema?

When your CDC pipeline is integrated with Confluent Schema Registry, it can automatically and safely handle schema evolution. This ensures that changes to the source table structure—like adding or removing columns—do not break downstream applications or data integrity. The platform manages schema compatibility, allowing your data streams to evolve seamlessly.

What are the main benefits of using a Fully managed service for Apache Flink® like Confluent Cloud?

A fully managed service eliminates the significant operational complexity, steep learning curve, and high in-house support costs associated with self-managing Apache Flink®. With Confluent, you get a serverless experience with elastic scalability, automated updates, and pay-as-you-go pricing, allowing your developers to focus on building applications rather than managing infrastructure. In addition, native integration between Apache Kafka® and Apache Flink® and pre-built connectors allow teams to build and scale fast.

How does Confluent Cloud simplify processing Debezium CDC events?

Confluent Cloud provides first-class support for Debezium, an open source distributed platform for change data capture. Pre-built connectors can automatically interpret the complex structure of Debezium CDC event streams, simplifying the process of integrating with Kafka and Flink.