Kapitel 11 Sprechweisen der Statistik

Abschnitt 11.2 Häufigkeitsverteilungen und Prozentrechnung

11.2.5 Diagrammarten


Die graphische Darstellung von qualitativen bzw. quantitativ-diskreten Daten, welche durch eine Stichpobe gewonnen wurden, erfolgt oft mittels Stabdiagrammen (bzw. Balkendiagrammen).
Info 11.2.21
 
Das Stabdiagramm zeigt die absoluten bzw. relativen Häufigkeiten als Funktion der endlich vielen Merkmalswerte in der Stichprobe an. Das Darstellungsmittel ist die Länge der Stäbe bzw. Balken.

Dazu ein Beispiel: Bei 10 Bäumen am Waldrand wurde die Baumart bestimmt. Die möglichen Merkmalsausprägungen des Merkmals X= Baumart sind:

a1 = Eiche     , a2 = Buche     , a3 = Fichte     , a4 = Kiefer, etc. .

Es ergab sich die folgende Urliste:
i 1 2 3 4 5 6 7 8 9 10
xi a2 a1 a1 a3 a1 a2 a1 a1 a3 a3

Daraus ergibt sich die folgende empirische Häufigkeitstabelle:
Ausprägung absolut relativ in %
Eiche 5 0,5 50
Buche 2 0,2 20
Fichte 3 0,3 30

Zu dieser empirischen Häufigkeitstabelle gehört das folgende Stabdiagramm:

Ein Stabdiagramm.

Zur Darstellung qualitativer Merkmale finden dagegen meist Kreisdiagramme Verwendung:
Info 11.2.22
 
Den Merkmalsausprägungen werden entsprechend ihren relativen Häufigkeiten Kreissektoren zugeordnet, wobei gilt:

hj   =   Hj n   =   αj 360

wobei αj der Winkel (in Grad) des Kreissektors zur Ausprägung j ist. Dabei bezeichnet Hj die absolute und hj die relative Häufigkeit der Ausprägung j in der Urliste x=( x1 , x2 ,, xn ).

Auch dazu ein Beispiel: Es wurden n=1000 Haushalte befragt, wie zufrieden sie sind mit einem neuartigen Gartengrill. Es gab die Anwortmöglichkeiten sehr zufrieden (1), zufrieden (2), weniger zufrieden (3), unzufrieden (4).  
Die Befragung ergab das folgende Ergebnis.
Ausprägung absolute Häufigkeiten relative Häufigkeiten in Prozent
sehr zufrieden 100 0,1 10%
zufrieden 240 0,24 24%
weniger zufrieden 480 0,48 48%
unzufrieden 180 0,18 18%
Summe 1000 1 100%

Die Umrechnung für die Winkel ergibt
  • α1 = 360 ·0,1= 36 ,
  • α2 = 360 ·0,24=86, 4 ,
  • α3 = 360 ·0,48=172, 8 ,
  • α4 = 360 ·0,18=64, 8 .

Damit ergibt sich das folgende Kreisdiagramm:

Meist ist es nicht sinnvoll, alle möglichen Ausprägungen in einem Diagramm aufzuführen, sondern sie zu Klassen zu gruppieren und nur die Häufigkeiten der Klassen im Diagramm einzutragen. Dies ist auch die einzige Möglichkeit, die Häufigkeiten stetiger Merkmale in einem Stab- oder Kreisdiagramm zu visualisieren.
Es sei X ein quantitatives (stetiges) Merkmal und x=( x1 , x2 ,, xn ) die Urliste zu einer Stichprobe vom Umfang n. Um eine empirische Häufigkeitsverteilung zu erhalten, ergibt sich das folgende Vorgehen:
  • Man bestimme den kleinsten und den größten Stichprobenwert, also

    x(1)   =  min{ x1 , x2 ,, xn }     und      x(n)   =  max{ x1 , x2 ,, xn }.


  • Man schreibe diese und alle anderen dazwischenliegenden Werte in der vorgeschriebenen Messgenauigkeit der Größe nach sortiert auf. Hierdurch wird das Merkmal X de facto ein diskretes Merkmal.
  • Man fertige eine Strichliste und eine empirische Häufigkeitsverteilung an.

Die empirische Häufigkeitsverteilung eines stetigen Merkmals kann sehr umfangreich sein, vor allem können sehr viele Nullen auftreten durch Messwerte, die in der Urliste (Stichprobe) nicht vorkommen. Dies macht die empirische Häufigkeitstabelle sehr unübersichtlich und unhandlich. Daher führt man eine Klassenbildung zur Verringerung der Datenmengen durch (Datenreduktion). Dies entspricht praktisch der Herabsetzung der Meßgenauigkeit (Rundung!).
Info 11.2.23
 
Klassen sind halboffene Intervalle der Form

(a;b]  =  {x:a<xb}     mit     a,b{±}.


Es gibt keine allgemeinen Vorschriften für die Anzahl k der Klassen und für die Klassengrößen, aber folgende Richtlinien sind empfehlenswert:
  • Gleichmäßige Einteilung: Man berechnet x(1) =min{ x1 , x2 ,, xn } und x(n) =max{ x1 , x2 ,, xn }. Dann teilt man das Intervall ( x(1) -ϵ; x(n) +ϵ] mit ϵ>0 klein, in etwa k gleichgroße, sich nicht überlappende halboffene Teilintervalle ein.
  • Man vermeide zu kleine und zu große Klassen.
  • Man vermeide, wenn möglich, Klassen, welche sehr wenige Beobachtungen enthalten.
  • Man bilde etwa kn etwa gleichgroße Klassen, dabei bezeichne n den Stichprobenumfang.

Info 11.2.24
 
Das Histogramm dient zur graphischen Darstellung quantitativer Daten. Es zeigt die relative Häufigkeit der Daten in der Klasse (a,b] durch ein Rechteck mi Grundfläche (a,b] an, dessen Flächeninhalt das Darstellungsmittel der Klasse ist.

Es empfiehlt sich folgendes Vorgehen für die Erstellung eines Histogramms: Es sei

x  =  ( x1 , x2 , xn )

eine Urliste zu einer Stichprobe vom Umfang n eines quantitativen Merkmals X.
  • Man verwendet eine Klasseneinteilung in k Klassen. Es sei ( tj ; tj+1 ] das Intervall für die j-te Klasse, j=1,2,,k.
  • Weiter sei Hj die Anzahl der Datenwerte im Intervall ( tj ; tj+1 ] für j=1,2,,k. Die Zahlen Hj nennt man auch die absoluten Klassenhäufigkeiten
  • Bilde für jedes j{1,2,,k} über der Grundseite ( tj ; tj+1 ] ein Rechteck der Höhe dj mit dem Flächeninhalt dj ·( tj+1 - tj )= hj = Hj n . Die Flächeninhalte hj sind die relativen Klassenhäufigkeiten.

Die Gesamtfläche aller dieser Rechtecke ist dann gleich 1.
Ein ausführliches Beispiel dazu: In einem Rechenzentrum wurde die Bearbeitungsdauer (in sec., gerundet auf eine Nachkommastelle) von 20 Programmjobs bestimmt. Es ergab sich die folgende Urliste zu einer Stichprobe vom Umfang n=20:
3,9 3,3 4,6 4,0 3,8
3,8 3,6 4,6 4,0 3,9
3,9 3,9 4,1 3,7 3,6
4,6 4,0 4,0 3,8 4,1

Der kleinste Wert beträgt 3,3sec., der größte Wert 4,6sec., die Abstufung ist 0,1sec.. Aufgrund der Empfehlung sind etwa k20 etwa gleichgroße Klassen zu wählen. Es wird die folgende Klasseneinteilung mit k=4 Klassen gewählt.
Klassen ( tj ; tj+1 ],  j=1,2,3,4 Daten
Klasse 1 (3,25;3,65] „Von 3,3 bis 3,6
Klasse 2 (3,65;3,95] „Von 3,7 bis 3,9
Klasse 3 (3,95;4,25] „Von 4,0 bis 4,2
Klasse 4 (4,25;4,65] „Von 4,3 bis 4,6

Die Tabelle der absoluten und relativen Häufigkeiten hat die folgende Gestalt.
Klasse abs. Klassenhäufigkeiten Hj rel. Klassenhäufigkeiten hj
Klasse 1 3 0,15
Klasse 2 8 0,4
Klasse 3 6 0,3
Klasse 4 3 0,15

Die Höhen der k=4 Rechtecke ergeben sich wie folgt:
  • 1. Klasse: d1 ·( t2 - t1 )= d1 ·0,4= h1 =0,15, also d1 = 3 8 =0,375.
  • 2. Klasse: d2 ·( t3 - t2 )= d2 ·0,3= h2 =0,4, also d2 = 4 3 =1, 3 .
  • 3. Klasse: d3 ·( t4 - t3 )= d3 ·0,3= h3 =0,3, also d3 =1.
  • 4. Klasse: d4 ·( t5 - t4 )= d4 ·0,4= h4 =0,15, also d4 = 3 8 =0,375.

Damit ergibt sich das folgende Histogramm: