CHAID Analyse

Heiko Schimmelpfennig

Ansprechpartner
Prof. Dr. Heiko Schimmelpfennig
+ 49 40 25 17 13 35
hschimmelpfennig@ifad.de

CHAID-ANALYSE FÜR DAS OPERATIVE KUNDENKREIS-MANAGEMENT

Unter den verschiedenen Algorithmen, die verwendet werden, um Entscheidungsbäume zu erstellen, ist CHAID (Chi-squared Automatic Interaction Detector) besonders bekannt. Ein Entscheidungsbaum zeigt die schrittweise Aufteilung von Daten in immer homogenere Untergruppen an. CHAID hilft dabei, diesen Baum automatisch zu erstellen, indem es Interaktionseffekte zwischen verschiedenen Variablen analysiert und signifikante Unterschiede zwischen den Gruppen ermittelt. Auf diese Weise kann CHAID helfen, Datenmuster zu identifizieren und Vorhersagemodelle zu erstellen.

BEISPIEL EINER CHAID-ANALYSE

Sie haben Kunden-Stammdaten und wollen wissen, welche Kunden am ehesten auf eine Mailing-Aktion reagieren? Oder aufgrund einer Kundenbefragung liegen Ihnen Akzeptanzwerte Ihrer Marke vor und Sie wollen wissen, bei welchen Kunden und unter welchen Bedingungen die Gefahr eines Wechsels zur Konkurrenz besonders groß ist? Das sind typische Aufgabenstellungen für CHAID-Analysen.

In einem übersichtlichen Baumdiagramm wird in hierarchischer Abfolge gezeigt, welche Teilgruppen eher zu den Beantwortern bzw. zu den Unzufriedenen gehören. So lässt sich leicht ablesen, ob es Merkmale gibt, die zu einer Trennung zwischen den Kategorien der Zielvariablen führen. Vom “Stamm” bis zu den “Zweigen” sind diese Merkmale nach ihrer statistischen Sicherheit angeordnet.

Die Analyse lässt erkennen, dass Frauen deutlich stärker auf die Aktion reagieren als Männer. Kriterium hierfür ist ein vorgegebenes Signifikanzniveau, in diesem Fall 95%. Es kann weitere Merkmale geben, die sich signifikant auf das Antwortverhalten auswirken. Verwendet wird auf jeder Ebene jedoch das Merkmal, das hinsichtlich der Response-Rate am stärksten differenziert.

CHAID Analyse

CHAID-Analyse: Einflüsse kategorialer Daten auf die Response-Rate einer Mailing-Aktion

Bei den Frauen gibt es dann deutliche Unterschiede zwischen jüngeren und älteren. Junge Frauen sprechen mit einem Anteil von 52% auf die Aktion an, eine deutliche Differenz zu den 35% der Gesamtstichprobe. Auch in dieser Gruppe gibt es wieder eine stark differenzierende Variable, nämlich die Bildung. Höhere Bildung führt zu deutlich höherer Antworttendenz. In dieser Gruppe wiederum führt höheres Einkommen zu breiterer Zustimmung.

Für eine möglichst effiziente Mailing-Aktion wäre also die Gruppe der jungen, gebildeten, einkommensstarken Frauen prädestiniert. Sie reagieren mit 72% mehr als doppelt so häufig auf das Mailing wie der Durchschnitt. (Eigentlich kann es sich doch nur um die Aktion eines Versandhauses mit Schuh-Angeboten handeln.)

Auch Männer erreichen jedoch unter Umständen eine hohe Response-Rate, dann nämlich, wenn sie gebildet sind und ein hohes Einkommen haben. Das Alter scheint bei ihnen jedoch keinen Einfluss auf das Antwortverhalten zu spielen.

KATEGORIALE VARABLEN FÜR CHAID-ANALYSE NOTWENDIG

Die Variablen müssen in Kategorien (ordinal oder nominal) vorliegen. Im Vorfeld der Analyse müssen Entscheidungen getroffen werden, mit welcher statistischen Sicherheit gearbeitet werden soll und bis zu welchen Fallzahlen Gruppen getrennt oder zusammengefasst werden sollen.

CHAID ANALYSE LIEFERT KEINE LINEAREN ZUSAMMENHÄNGE

Die Analyse liefert keine linearen Zusammenhänge der Form “je … desto …” wie z.B. die Regressionsanalyse. Es werden Aussagen über einzelne Kategorien und Kombinationen von Kategorien gemacht.