Klasseneinteilung oder Klassierung bezeichnet in der Statistik die Einteilung von Merkmalswerten bzw. statistischen Reihen in getrennten Gruppen, die sogenannten Klassen. Jedes Element der untersuchten Gesamtheit wird in Abhängigkeit von seinem Wert auf der entsprechenden Variablen genau einer Klasse zugeordnet. Die Klasseneinteilung wird erforderlich, wenn die Anzahl der verschiedenen Werte der beobachteten Zufallsvariablen zu groß ist, um praktikabel verarbeitet bzw. dargestellt werden zu können, wenn zu erwarten ist, dass die erhobenen Werte nur als Näherung der wahren Werte angesehen werden können oder wenn (quasi-)stetige Variablen mit Methoden für diskrete Variablen untersucht werden sollen.
Die Werte einer Klasse liegen alle innerhalb der oberen und unteren Klassengrenze. Die Klassenbreite bezeichnet die Differenz aus beiden Klassengrenzen. Die Klassenmitte stellt den zur weiteren Analyse genutzten repräsentativen Wert einer Klasse dar. Die Klassenhäufigkeit oder Besetzungszahl[1] entspricht der Anzahl der in der Klasse enthaltenen Elemente.
Inhaltsverzeichnis
1 Klasse und Klassierung
2 Klassengrenze
3 Klassenbreite
4 Klassenmitte
5 Häufigkeitsdichte
6 Darstellung klassierter Variablen
7 Einzelnachweise
Klasse und Klassierung
Klassen sind disjunkte, d.h. nicht überlappende, aneinander grenzende Intervalle von Merkmalswerten, die durch eine untere und eine obere Klassengrenze begrenzt und eindeutig festgelegt sind.
Eine Klassierung ist eine Zusammenfassung von gleichen oder ähnlichen Merkmalsausprägungen (z.B. des Merkmals »Nettoeinkommen«) zu einer Gruppe bzw. Klasse. Da es bei statistischen Untersuchungen oft nicht möglich oder sinnvoll ist, alle einzelnen (verschiedenen) Merkmalsausprägungen bzw. Realisationen der untersuchten Zufallsvariablen zu erheben oder zu verarbeiten, kann durch eine Klassierung eine bessere Übersicht über die Daten erreicht werden. Das trifft insbesondere auf stetige oder quasi-stetige Merkmale oder auf Merkmale, deren Anzahl von (unterschiedlichen) Merkmalsausprägungen sehr groß ist, zu.
Nachteil der Klassierung ist der Informationsverlust, der dadurch entsteht, dass die einzelnen Beobachtungswerte durch alleinige Betrachtung der Klassen »verlorengehen« und stattdessen nur repräsentative Größen wie die Anzahl der in einer bestimmten Klasse enthaltenen Beobachtungen oder die Klassenmitte für weitere Analysen zur Verfügung stehen.
Innerhalb einer Klasse sollten die Beobachtungen auf die Merkmalsausprägungen möglichst gleichverteilt sein, d.h. die Ausprägungen sollten sich beispielsweise nicht nur im unteren Bereich der Klasse häufen, damit die Klasse bzw. die Klassenbreite für die enthaltenen Beobachtungen repräsentativ ist.
Klassengrenze
Eine Klassengrenze ist derjenige Wert einer metrisch skalierten (Zufalls-)Variablen, der eine Klasse nach unten bzw. oben begrenzt. Eine Klasse j\, wird dabei durch zwei Klassengrenzen definiert, die untere Klassengrenze x_{j}^{u} und die obere Klassengrenze x_{j}^{o} (j=1,...,k)\,, wobei die obere Klassengrenze der j\,-ten Klasse der unteren Klassengrenze der (j+1)\,-ten Klasse entspricht, d.h.
x_{j}^{o} = x_{j+1}^{u},\quad j=1,\ldots,k-1.
Die Zuordnung der Klassengrenzen zu einer Klasse kann auf zwei Arten erfolgen. Entweder gehört die untere Klassengrenze x_{j}^{u} zur Klasse j\, und die obere Klassengrenze x_{j}^{o} zur Klasse j+1\, oder die untere Klassengrenze x_{j}^{u} gehört zur Klasse j-1\, und die obere Klassengrenze x_{j}^{o} zur Klasse j\,, d.h.
x_{j}^{u} < x \leq x_{j}^{o} oder x_{j}^{u} \leq x < x_{j}^{o},\quad j=1,\ldots,k.
Das folgende Beispiel illustriert die beiden Alternativen der Klasseneinteilung:
Alternative 1 Alternative 2
< 100 <= 100
>= 100 bis < 120 > 100 bis <= 120
>= 120 bis < 150 > 120 bis <= 150
>= 150 > 150
Ein Beobachtungswert bzw. eine untersuchte statistische Einheit x_{i}\, (i=1,\dots,n) wird also Klasse j\, zugeordnet, falls x_{j}^{u}\leq x_{i}<x_{j}^{o} oder x_{j}^{u} < x \leq x_{j}^{o},\; j=1,\ldots,k, gilt.
Klassenbreite
Die Klassenbreite ist die Differenz aus oberer und unterer Klassengrenze:
\Delta x_{j} = x_{j}^{o} - x_{j}^{u},\quad j=1,\ldots,k .
Dabei können die Klassen eines Merkmals auch verschiedene Breiten aufweisen. Die optimale Anzahl der Klassen bzw. die Breite der Klassen hängt von der konkreten Untersuchungsituation (Daten, Ziele,...) ab. Einige »Faustregeln« zur Bestimmung der Anzahl der Klassen bzw. der Klassenbreite finden sich im Artikel zum Histogramm. Der Jenks-Caspall-Algorithmus stellt ein Verfahren zur automatischen Klassierung bereit.
Klassenmitte
Nach der Klassierung kann für weitere Analysen die Klassenmitte x_{j}\, als repräsentativer Wert einer Klasse j\, genutzt werden. Sie kann bei symmetrischer Verteilung der Elemente einer Klasse auf die enthaltenen Ausprägungen bzw. Werte in der jeweiligen Klasse als arithmetisches Mittel aus unterer und oberer Klassengrenze ermittelt werden:
x_{j} = \frac{{ x_{j}^{u} + x_{j}^{o}}}{2},\quad j=1,\ldots,k
Häufigkeitsdichte
Als Beispiel wird das metrisch stetige Merkmal „Nettojahreseinkommen“ einer wohldefinierten Grundgesamtheit untersucht. Da die Anzahl der Personen mit steigendem Einkommen geringer wird, wählt man i. d. R. die oberen Einkommensklassen breiter als die mittleren und unteren, damit die Darstellung übersichtlich bleibt.
Wird ein Merkmal in unterschiedlich breite Klassen eingeteilt, ist die (absolute bzw. relative) Klassenhäufigkeit jedoch ohne Angabe der Klassenbreite wenig aussagekräftig. Daher ist die Berechnung der Häufigkeitsdichte wichtig, um die Klassen vergleichbar zu machen. Sie entspricht der zur Klassenbreite und Klassenhäufigkeit gehörenden Säulenhöhe in einem Histogramm.
Die Häufigkeitsdichte einer Klasse ist das Verhältnis der absoluten oder der relativen Häufigkeit einer Klasse zur entsprechenden Klassenbreite.
Die Häufigkeitsdichte für x_{j}^{u}\leq X < x_{j}^{o} ergibt sich damit wie folgt:
\widehat{h}\left( x_{j}\right) = \frac{h\left( x_{j}\right)}{x_{j}^{o}-x_{j}^{u}} mit h\left(x_{j}\right) die absolute Häufigkeit von Klasse j\,
oder
\widehat{f}\left( x_{j}\right) = \frac{f\left( x_{j}\right)}{x_{j}^{o}-x_{j}^{u}} mit f\left( x_{j}\right) die relative Häufigkeit von Klasse j\,.
Darstellung klassierter Variablen
Eine Möglichkeit der systematischen und übersichtlichen Darstellung einer klassierten stetigen Zufallsvariablen bietet eine Häufigkeitstabelle:
Merkmalsklassen
x_{j}^{u}\leq X<x_{j}^{o}
absolute Häufigkeit
h(x_{j})\,
relative Häufigkeit
f(x_{j})\,
x_{1}^{u}- x_{1}^{o} h\left( x_{1}\right) f\left( x_{1}\right)
x_{2}^{u}-x_{2}^{o} h\left(x_{2}\right) f\left( x_{2}\right)
\vdots \vdots \vdots
x_{j}^{u}-x_{j}^{o} h\left(x_{j}\right) f\left( x_{j}\right)
\vdots \vdots \vdots
x_{k}^{u}-x_{k}^{o} h\left(x_{k}\right) f\left( x_{k}\right)
Summe n\, 1
wobei n\, die Anzahl der Untersuchungsobjekte ist.
Für die Darstellung mehrdimensionaler Häufigkeitsverteilungen können Kreuztabellen genutzt werden.
Die grafische Darstellung klassierter Variablen kann z.B. über ein Histogramm, ein Säulen- bzw. Stabdiagramm, ein Balkendiagramm oder bei sehr wenigen Klassen über ein Tortendiagramm erfolgen.
Einzelnachweise
↑ Günter Bamberg, Franz Baur, Michael Krapp: Statistik. 14. Auflage. Oldenbourg, 2008, S. 14.
|