Der Box-Plot (auch Box-Whisker-Plot oder in Excel Kastengrafik) ist ein visuell sehr interessanter Diagrammtyp, der verwendet wird, um die zentrale Tendenz und die Streuung von zwei oder mehr Datenreihen zu vergleichen. Mit einem Box-Plot erhältst Du sehr schnell einen Einblick darüber, in welchem Bereich die Daten liegen und wie sie sich über diesen Bereich verteilen.
Die Daten für den Box-Plot bestehen aus fünf Messwerten:
Messwert | Beschreibung | Lage im Box-Plot |
Minimum | Kleinster Wert | Ende der Antenne (Whisker) bzw. entferntester Ausreißer |
Unteres Quartil | Die kleinsten 25% der Werte sind <= diesem Wert | Anfang der Box |
Median oder Mittelwert | Die kleinsten 50% der Werte sind <= diesem Wert | Strich innerhalb der Box |
Oberes Quartil | Die kleinsten 75% der Werte sind <= diesem Wert | Ende der Box |
Maximum | Größter Wert | Ende der Antenne (Whisker) bzw. entferntester Ausreißer |
Abbildung 1: Klassischer Seite an Seite Box-Plot
Der Box-Plot in Abbildung 1 zeigt den Median als horizontale Linie innerhalb der Box. Du erkennst sehr schön, dass der Median der ersten Datenreihe (linke Box) höher ist als jener in der zweiten Datenreihe (rechte Box).
Die zweite Datenreihe hat eine etwas größere Box weil es eine größere Verteilung der Daten gibt als in der ersten Box.
Die Antennen (Whisker Elemente) erstrecken sich nach unten bis zum Minimumwert und nach oben bis zum Maximalwert.
Beiden Datenreihen zeigen ein X für den Durchschnitt (arithmetisches Mittel).
Fallstudie: Vergleich Gehälter nach Abteilungen
Brainy ist wieder einmal gefordert. Das Management möchte die Gehälter der einzelnen Abteilungen analysieren um herauszufinden, welche Abteilung die höchsten Kosten verursacht.
Für gewöhnlich werden die gesamten Gehaltskosten hergenommen und miteinander verglichen. Doch Brainy möchte eine etwas tiefergehende Analyse machen und entscheidet sich für den Einsatz des Box-Plot Diagramms.
Folgende Gehaltsdaten pro Abteilung liegen zugrunde:
Abbildung 2: Gehaltsdaten pro Abteilung
Wenn Du die Summe pro Abteilung betrachtest, dann würdest Du wohl sofort zum Schluss kommen, dass die Abteilung “Verwaltung” die höchsten Gehaltskosten verursacht. Das ist auch richtig, aber sind die Gehälter in dieser Abteilung generell höher als in den anderen Abteilungen?
Dem will Brainy jetzt mit dem Box-Plot Diagramm auf den Grund gehen.
Um das Box-Plot Diagramm zu erstellen, markiere den gesamten Datenbereich, dann Einfügen –> Diagramme –> Alle Diagramme –> Kastengrafik.
Abbildung 3: Box-Plot (Katstengrafik) einfügen
Mach Dir keine Gedanken wenn einige Zellen im Datenbereich leer sind. Excel ignoriert diese. Das initiale Box-Plot Diagramm sieht wie folgt aus:
Abbildung 4: Initiales Box-Plot Diagramm
Wie gesagt, hätte Brainy nur die Summe der Gehälter verglichen, würde die Verwaltungsabteilung die höchsten Gesamtkosten ausweisen. Doch das initiale Box-Plot Diagramm zeigt uns schon, dass mehr hinter dieser Geschichte steckt.
Es gibt zwei Ausreißer in dieser Abteilung, siehe die beiden Punkte, welche die Kosten explodieren lassen. Wenn diese beiden Gehälter ausgeklammert werden, dann erscheinen die Gehaltskosten in der Verwaltung ziemlich akzeptabel zu sein.
Brainy macht noch ein paar finale Formatierungen, damit das Box-Plot Diagramm leichter zu interpretieren ist und den Data-Storytelling-Regeln entspricht.
1. Aussagekräftiger Diagrammtitel (nicht generisch)
2. Gitternetzlinien weg
3. Datenbeschriftung inkl. €-Zeichen
4. Direkte Beschriftung der Datenreihen (ersetzt die Legende)
Das finale Diagramm bereit zum Präsentieren:
Abbildung 5: Finales Box-Plot Diagramm
Die Auswertung von Brainy enthüllt die Ursache der hohen Verwaltungskosten und Brainy wird seinem Ruf des erbarmungslosen Datendetektives wieder einmal voll und ganz gerecht.