Synthetische Daten in der Marktforschung

Aydin NasseriGeschäftsführer, Cogitaris GmbH

01Was sind synthetische Daten?
02Generierungsmethoden im Überblick
03Echte versus synthetische Daten
04Anwendungsfelder in der Marktforschung
05Versprechen und Realität
06Stand der Forschung
07Der hybride Ansatz
08Praxisbeispiel: MyPersona IQ
09Handlungsempfehlungen für die Praxis
10Fazit: Faktenbasierte Steuerung statt Simulation

Synthetische Daten: Von künstlicher Intelligenz generierte Forschungsdaten, für die kein einziger Mensch aktiv befragt wurde. Die Technologie verspricht schnellere, günstigere und flexiblere Marktforschung – doch kann sie klassische Erhebungsmethoden tatsächlich ersetzen? Laut Gartner werden synthetische Daten bis 2030 in vielen Analyseprojekten dominieren – mit erheblichen Qualitätsfragen.

Dieser Artikel beleuchtet Potenziale und Grenzen synthetischer Daten in der Marktforschung, analysiert den aktuellen Stand der wissenschaftlichen Forschung und zeigt, warum hybride Ansätze den vielversprechendsten Weg darstellen – vor allem im Kontext von Big Data in der modernen Marktforschung.

Was sind synthetische Daten?

Synthetische Daten sind künstlich erzeugte Informationen, die durch algorithmische Verfahren und KI-Modelle generiert werden, um echte Daten nachzuahmen. Die Bandbreite umfasst drei wesentliche Kategorien:

Vollständig synthetische Daten: Komplett algorithmisch erzeugt ohne echte Datenpunkte als Grundlage.
Teilweise synthetische Daten: Eine Mischung aus echten und generierten Elementen, die bestehende Datensätze ergänzen.
Hybride synthetische Daten: Echte Daten dienen als Trainingsbasis für neue KI-gestützte Modelle, die darauf aufbauen.

Das Modell greift dabei nicht auf eine Datenbank mit echten Antworten zurück. Stattdessen generiert es basierend auf statistischen Mustern, die es während des Trainings gelernt hat – ohne direkten Realitätsbezug.

Der typische Ablauf in der Marktforschung mit LLM-basierten Ansätzen folgt einem vierstufigen Prozess: Zunächst werden präzise Zielgruppenprofile definiert. Dann werden Prompts für KI-Modelle formuliert, die digitale Zwillinge mit spezifischen Charakteristiken erstellen. Schließlich werden die synthetischen Antworten aggregiert und ausgewertet.

Generierungsmethoden im Überblick

Verschiedene technische Ansätze kommen bei der Erzeugung synthetischer Daten zum Einsatz. Jede Methode hat ihre eigenen Stärken und Schwächen, die sich direkt auf die Qualität der generierten Daten auswirken – ähnlich wie bei Fragen der Panelqualität in der klassischen Marktforschung.

Generierungsmethoden

Technische Ansätze zur Erzeugung synthetischer Daten

GANsZwei konkurrierende neuronale Netze

VAEsLernen Wahrscheinlichkeitsverteilungen

LLMsGPT-4, Claude, Gemini

RegelbasiertDefinierte Algorithmen

DiffusionSchrittweise Rauschmanipulation

GANs (Generative Adversarial Networks) setzen auf zwei konkurrierende neuronale Netze – ein Generator-Netz erzeugt Daten, während ein Diskriminator-Netz versucht, echte von generierten Daten zu unterscheiden. VAEs (Variational Autoencoders) lernen Wahrscheinlichkeitsverteilungen der Trainingsdaten und können daraus neue Datenpunkte ableiten.

Large Language Models wie GPT-4, Claude oder Gemini sind die heute populärsten Werkzeuge in der marktforscherischen Praxis – wie auch der Artikel zur KI-Textanalyse im B2B-Bereich zeigt. Daneben existieren regelbasierte Systeme mit definierten Algorithmen sowie Diffusionsmodelle, die schrittweise Rauschmanipulation zur Datengenerierung nutzen.

Echte versus synthetische Daten

Echte Daten stammen von realen Ereignissen, Menschen oder Prozessen mit konkreten Realitätsquellen. Sie erfassen Nuancen, Widersprüche, unartikulierte Bedürfnisse und kulturelle Eigenheiten, die Algorithmen nicht simulieren können – wie statistische Methoden der Marktforschung zeigen.

Synthetische Daten sind künstlich generiert, ohne direkte Realitätsentsprechung, aber statistisch plausibel. Sie basieren auf Wahrscheinlichkeitsmodellen und geben wieder, was ein Modell als wahrscheinlichste Antwort berechnet – nicht, was ein Mensch tatsächlich denkt oder fühlt.

Echte Daten

Von realen Menschen erhoben
Authentische Emotionen & Nuancen
Kulturelle Eigenheiten erfasst
Reproduzierbar & validierbar
Hohe Construct Validity

Synthetische Daten

Algorithmisch generiert
Statistische Durchschnitte
Kulturelle Unterschiede nivelliert
Black-Box-Problem
Eingeschränkte Validität

Diese Unterscheidung mag akademisch erscheinen, ist aber praktisch hochrelevant: Wer auf Basis synthetischer Daten Investitionsentscheidungen trifft, operiert auf dem Fundament statistischer Plausibilität – nicht auf dem Boden empirisch verifizierter Realität.

Sie möchten verstehen, welche Datenquellen für Ihre Marktforschung die belastbarsten Ergebnisse liefern? Wir beraten Sie gerne.

Kostenfreie Erstberatung

Anwendungsfelder in der Marktforschung

Synthetische Daten haben durchaus legitime Einsatzgebiete – vorausgesetzt, man versteht ihre Grenzen. Außerhalb der Marktforschung finden sie bereits breite Anwendung in der Softwareentwicklung (Testdaten ohne Datenschutzrisiken), im Gesundheitswesen (Patientendaten für KI-Training) und in der Bildverarbeitung (synthetische Bilder für Computer-Vision).

In der Marktforschung konzentrieren sich die sinnvollen Anwendungsfelder auf spezifische Bereiche:

Silicon Samples: Fragebogenpretests vor der eigentlichen Feldphase, um Fragenverständlichkeit und Logik zu prüfen.
Replikationsstudien: Überprüfung publizierter Studien auf Konsistenz und Robustheit der Ergebnisse.
Messskalen-Entwicklung: Item-Generierung mit finaler Validierung durch echte Daten.
Szenario-Simulationen: Durchspielen verschiedener Marktszenarien, um potenzielle Entwicklungen zu modellieren.
Qualitative Vorstudien: Hypothesengenerierung – mit Vorsicht und stets gefolgt von echten Fokusgruppen.
KI-System-Training: Bias-Identifikation und -reduktion in bestehenden Modellen.
Datenschutz-konforme Analysen: Statistisch äquivalente Ersatzdaten, wenn Originaldaten nicht weitergegeben werden dürfen.

Was all diese Anwendungen eint: Sie funktionieren am besten, wenn es um statistische Muster, um Durchschnittswerte, um grundlegende Zusammenhänge geht – nicht um die Erfassung individueller Realitäten.

Versprechen und Realität

Die Befürworter synthetischer Daten betonen deren Vorteile: 24/7-Verfügbarkeit ohne Survey Fatigue, flexible Stichprobenzusammensetzung und die Möglichkeit, schwer erreichbare Zielgruppen zu simulieren. Doch bei genauerem Hinsehen offenbaren sich erhebliche Einschränkungen.

Das Black-Box-Problem

Sprachmodelle sind Black Boxes. Selbst die Entwickler können nicht exakt nachvollziehen, warum ein Modell eine bestimmte Antwort generiert. Für die Marktforschung hat dies gravierende Folgen: mangelnde Transparenz bei der Datengenerierung und fehlende Reproduzierbarkeit der Ergebnisse.

Fehlende Authentizität

Synthetische Daten basieren auf statistischen Wahrscheinlichkeitsmodellen, nicht auf echten Erfahrungen. Das Resultat sind statistische Durchschnitte statt gelebter Realität – mit dem Verlust von Nuancen und kulturellen Unterschieden, die für fundierte Marktentscheidungen essentiell sind.

Mangelnde Reliabilität und Validität

Die Reliabilitätsprobleme sind vielfältig: Inkonsistenz bei wiederholten Messungen, Halluzinationen – also erfundene, aber plausibel klingende Fakten – sowie Modell-Updates, die Ergebnisse unvorhersehbar verändern.

Die Validitätsprobleme wiegen mindestens ebenso schwer: geringe Construct Validity (misst das Modell wirklich, was es messen soll?), eingeschränkte External Validity (übertragbarkeit auf reale Kontexte) und fehlende Predictive Validity (Vorhersagekraft für tatsächliches Verhalten).

Der Action Gap

Ein besonders kritischer Punkt: Synthetische Daten erzeugen häufig schöne Grafiken ohne Handlungsrelevanz. Die kaufentscheidenden Faktoren – persönliche Erfahrungen, Organisationsdynamiken, politische Konstellationen – werden nicht erfasst. Ein Sprachmodell kann keine persönlichen Erfahrungen oder politische Organisationsdynamiken nachempfinden.

Ethische und methodische Bedenken

Neben den methodischen Problemen gibt es ernst zu nehmende ethische Bedenken: Bias aus Trainingsdaten wird unreflektiert reproduziert, Datenschutzfragen bleiben ungeklärt, und wissenschaftliche Journals lehnen rein synthetische Primärdaten zunehmend ab.

Erfahren Sie, wie Sie KI sinnvoll in Ihre Marktforschung integrieren – ohne auf die Authentizität echter Daten zu verzichten.

Kostenfreie Erstberatung

Stand der Forschung

AI-Replikationsstudien (AI-REPs)

Bei standardisierten Messskalen zeigen sich teilweise ähnliche Faktorstrukturen und grundlegende Zusammenhänge, die reproduzierbar sind. Allerdings offenbaren sich problematische Befunde: Effektgrößen weichen systematisch ab, Interaktionseffekte werden falsch dargestellt, und kulturelle Unterschiede in synthetischen Daten werden nivelliert.

Vergleichsstudien

Je spezifischer der Kontext, desto schlechter die Übertragbarkeit synthetischer Daten. Nischenkontexte und B2B-Kaufentscheidungen zeigen besonders große Schwächen. Faktenfragen werden tendenziell besser beantwortet als komplexe Einstellungsfragen, die persönliche Erfahrung und Kontextwissen erfordern.

Journal-Policies

Renommierte Verlage wie Emerald Publishing haben klare Anforderungen formuliert: vollständige Dokumentation aller KI-Werkzeuge, vollständige Prompt-Offenlegung, Angabe der Modellversion, zusätzliche Validierung durch konventionelle Methoden und Begründung der Notwendigkeit. Viele Top-Journals untersagen rein synthetische Primärdaten komplett.

Der hybride Ansatz

Die Antwort liegt in hybriden Ansätzen, die das Beste aus beiden Welten kombinieren. Das Prinzip: Authentic Foundation, AI Augmentation – also ein authentisches Fundament, das durch Data Science-Methoden und KI skaliert und erweitert wird.

Start with Reality: Echte Tiefeninterviews mit sorgfältig ausgewählten Zielgruppenvertretern als unverhandelbare Basis.
Capture Authenticity: Erfassung von Denk- und Sprachmustern, emotionalen Untertönen und dem spezifischen Kontext der Zielgruppe.
Augment with AI: KI-Skalierung auf Basis echter, spezifischer Zielgruppendaten – nicht generischer Trainingsdaten.

Die KI dient als Werkzeug, um die in den Interviews erfassten Muster, Denkweisen und Argumentationslinien auf neue Fragestellungen anzuwenden – nicht als Ersatz für die empirische Grundlage.

Vergleich

Synthetisch vs. Hybrid – die entscheidenden Unterschiede

Aspekt	Rein synthetisch	Hybrid
Datenbasis	Generische Trainingsdaten	Echte Tiefeninterviews
Emotion & Kontext	Oberflächlich simuliert	Sprachlich eingebettet, authentisch
Validierbarkeit	Black Box	Wissenschaftlich dokumentiert
Denkweise	Statistische Muster	Echte Denkmuster
Reliabilität	Inkonsistenzen möglich	Durch echte Aussagen verankert
Spezifität	Generisch	Hochspezifisch für Zielgruppe

Sie interessieren sich für den hybriden Ansatz? Lassen Sie uns besprechen, wie MyPersona IQ für Ihre Zielgruppe funktionieren kann.

Kostenfreie Erstberatung

Praxisbeispiel: MyPersona IQ von Cogitaris

MyPersona IQ von Cogitaris ist ein konkretes Beispiel für den hybriden Ansatz in der Praxis. Der Prozess beginnt mit einer qualittativen Forschungsphase: 30 und mehr methodisch fundierte Tiefeninterviews mit offener, authentischer Gesprächsführung. Ethnografische Einblicke werden erfasst und durch qualitative Inhaltsanalyse strukturiert.

MyPersona IQ

Der hybride Ansatz von Cogitaris

Qualitative Forschungsphase

30+ methodisch fundierte Tiefeninterviews mit echten Zielgruppenvertretern

Authentizität erfassen

Denk- und Sprachmuster, emotionale Untertöne, kultureller Kontext

Qualitative Inhaltsanalyse

Strukturmodellierung und Typologisierung der Erkenntnisse

LLM-Training

KI-Modell mit Interviewtexten und Typologien trainieren

Interaktives Zielgruppenmodell

24/7 verfügbare, validierte digitale Personas

Auf dieser Basis wird ein LLM mit den Interviewtexten und Typologien trainiert. Das Ergebnis: ein interaktives, 24/7 verfügbares Zielgruppenmodell, das auf echten Daten basiert. Personas sind sofort verfügbar, ohne wochenlange Rekrutierung, und ermöglichen iterative Optimierung.

Anwendungsfälle hybrider Ansätze

Claim- und Kampagnentests: Kreative Varianten vorlegen, emotionale Reaktionen erhalten, iterativ optimieren.
Bewertung von Produktideen: Differenziertes Feedback zu Innovationen und Verpackungsänderungen.
Validierung von Tonalität und Bildwelten: Testen von Ansprache, Begriffen und visuellen Metaphern vor Produktion.
Interaktive Workshops: Die Zielgruppe gewissermaßen an den Tisch holen für Strategiediskussionen.

Die Rolle des Human-in-the-Loop

Der menschliche Experte bleibt essentiell – als kontinuierlicher Qualitätsgarant im gesamten Prozess:

Kontinuierliche Validierung von Modell-Ausgaben gegen die ursprünglichen Interviews.
Plausibilitätsprüfung und Konsistenzüberprüfung jeder generierten Antwort.
Interpretation im spezifischen Kontext der Fragestellung und des Marktes.
Detektion von Halluzinationen und systematischen Verzerrungen.

Die KI ist ein intelligenter Assistent, aber kein autonomer Entscheider. Der menschliche Experte bleibt im Loop – nicht als Formalität, sondern als methodische Notwendigkeit.

Handlungsempfehlungen für die Praxis

Für Marktforscher und Insights-Manager

Bleiben Sie kritisch gegenüber Studien, die ausschließlich auf synthetischen Daten basieren.
Fordern Sie Transparenz von Anbietern: Welche Modelle, welche Trainingsdaten, welche Validierung?
Investieren Sie in Hybridität – das Beste aus beiden Welten kombinieren.
Etablieren Sie Quality Gates für KI-generierte Insights in Ihren Prozessen.
Bleiben Sie am Ball der technologischen Entwicklung, ohne unkritisch zu adaptieren.

Für Entscheider und Auftraggeber

Fragen Sie immer nach der Methodik: Woher stammen die Daten, die Ihre Entscheidung stützen?
Bewerten Sie Investitionsrisiken: Entscheidungen auf Basis rein synthetischer Daten können teuer werden.
Fordern Sie einen Mix aus Datenquellen für strategisch wichtige Entscheidungen.
Nutzen Sie die Geschwindigkeit synthetischer Ansätze für frühe Explorationsphasen.
Bauen Sie eigene Kompetenz auf, um Angebote kritisch bewerten zu können.

Für Forscher und Akademiker

Validieren Sie rigoros: Jede synthetisch gestützte Studie braucht robuste Validierungsmethoden.
Seien Sie absolut transparent über Ihren Einsatz von KI-Werkzeugen.
Replizieren Sie mit verschiedenen Sprachmodellen, um modellspezifische Artefakte zu erkennen.
Publizieren Sie auch Negativergebnisse – sie sind für das Feld ebenso wertvoll.
Entwickeln Sie Standards für AI-gestützte Forschung aktiv mit.

Fazit: Faktenbasierte Steuerung statt Simulation

Synthetische Modelle können das Vertrauen in eine Datenbasis nicht im selben Maße bieten wie validierte Primärstudien mit echten Menschen. Echte Marktforschung erfasst Nuancen, Widersprüche, unartikulierte Bedürfnisse und kulturelle Eigenheiten, die Algorithmen nicht simulieren können.

Der empfohlene Weg: Hybrid nutzen. KI für Analyse, Skalierung und Interaktivität einsetzen, aber alles in der Realität echter Menschen verankern. Beginnen Sie mit solider qualitativer Forschung, setzen Sie dann KI-Augmentierung auf – immer mit einem menschlichen Experten im Loop.

In einer Welt, in der alle Marktteilnehmer gleichberechtigten Zugang zu KI-Werkzeugen haben, wird tiefes, authentisches Zielgruppenverständnis zum entscheidenden Differenzierungsmerkmal. Nur wer die echte Stimme seines Marktes hört – nicht deren statistische Simulation – kann Investitionen sicher steuern und nachhaltige Wettbewerbsvorteile aufbauen.

Marktforschung war immer und bleibt eine zutiefst menschliche Aufgabe – das Bemühen, andere Menschen zu verstehen. KI kann uns dabei unterstützen, beschleunigen, befähigen. Aber ersetzen kann und sollte sie es nicht.

Sie haben Bedarf an Marktforschung, die KI und echte Daten intelligent verbindet? Sprechen Sie mit uns über Ihre Ziele.

Kostenfreie Erstberatung

Synthetische Daten in der Marktforschung – Potenziale, Grenzen und hybride Ansätze

Synthetische Daten in der Marktforschung – Potenziale, Grenzen und hybride Ansätze

Was sind synthetische Daten?

Generierungsmethoden im Überblick

Echte versus synthetische Daten

Anwendungsfelder in der Marktforschung

Versprechen und Realität

Das Black-Box-Problem

Fehlende Authentizität

Mangelnde Reliabilität und Validität

Der Action Gap

Ethische und methodische Bedenken

Stand der Forschung

AI-Replikationsstudien (AI-REPs)

Vergleichsstudien

Journal-Policies

Der hybride Ansatz

Praxisbeispiel: MyPersona IQ von Cogitaris

Der hybride Ansatz von Cogitaris

Anwendungsfälle hybrider Ansätze

Die Rolle des Human-in-the-Loop

Handlungsempfehlungen für die Praxis

Für Marktforscher und Insights-Manager

Für Entscheider und Auftraggeber

Für Forscher und Akademiker

Fazit: Faktenbasierte Steuerung statt Simulation

Das könnte Sie auch interessieren

Big Data in der Marktforschung

Marktforschung im Wandel: Warum KI und menschliche Expertise zusammengehören

Wie Data Science die B2B-Marktforschung transformiert