Zentrale Tendenz gegen Dispersion
In beschreibenden und inferentiellen Statistiken werden mehrere Indizes verwendet, um einen Datensatz zu beschreiben, der seiner zentralen Tendenz, Dispersion und Schiefe entspricht: die drei wichtigsten Eigenschaften, die die relative Form der Verteilung eines Datensatzes bestimmen.
Was ist eine zentrale Tendenz?
Zentrale Tendenz bezieht sich auf und lokalisiert das Zentrum der Werteverteilung. Mittelwert, Modus und Median sind die am häufigsten verwendeten Indizes bei der Beschreibung der zentralen Tendenz eines Datensatzes. Wenn ein Datensatz symmetrisch ist, stimmen sowohl der Median als auch der Mittelwert des Datensatzes miteinander zusammen.
Bei einem Datensatz wird der Mittelwert berechnet, indem die Summe aller Datenwerte genommen und dann durch die Anzahl der Daten geteilt wird. Zum Beispiel werden die Gewichte von 10 Personen (in Kilogramm) mit 70, 62, 65, 72, 80, 70, 63, 72, 77 und 79 gemessen. Dann kann das mittlere Gewicht der zehn Menschen (in Kilogramm) wie folgt berechnet werden. Die Summe der Gewichte beträgt 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Mittelwert = (Summe) / (Anzahl der Daten) = 710 /10 = 71 (in Kilogramm). Es wird davon ausgegangen, dass Ausreißer (Datenpunkte, die vom normalen Trend abweichen) tendenziell den Mittelwert beeinflussen. In Gegenwart von Ausreißern, die jedoch allein sind, gibt es also kein korrektes Bild über die Mitte des Datensatzes.
Der Median ist der Datenpunkt in der genauen Mitte des Datensatzes. Eine Möglichkeit, den Median zu berechnen, besteht darin, die Datenpunkte in aufsteigender Reihenfolge zu bestellen und dann den Datenpunkt in der Mitte zu lokalisieren. Wenn beispielsweise der vorherige Datensatz einmal bestellt wurde, sieht 62, 63, 65, 70, 70, 72, 72, 77, 79, 80 aus. Daher ist (70+72)/2 = 71 in der Mitte. Daraus ist zu sehen, dass der Median nicht im Datensatz sein muss. Der Median ist nicht durch das Vorhandensein der Ausreißer betroffen. Daher wird der Median ein besseres Maß für die zentrale Tendenz in Gegenwart von Ausreißern dienen.
Der Modus ist der am häufigsten vorkommende Wert im Datensatz. Im vorherigen Beispiel tritt der Wert 70 und 72 beide zweimal auf und somit sind beide Modi. Dies zeigt, dass es in einigen Verteilungen mehr als einen Modalwert gibt. Wenn es nur einen Modus gibt, gilt der Datensatz als unimodal, in diesem Fall ist der Datensatz bimodal.
Was ist Dispersion?
Dispersion ist die Ausbreitung von Daten über das Zentrum der Verteilung. Bereich und Standardabweichung sind die am häufigsten verwendeten Dispersionsmaßnahmen.
Der Bereich ist einfach der höchste Wert abzüglich des niedrigsten Wertes. Im vorherigen Beispiel beträgt der höchste Wert 80 und der niedrigste Wert beträgt 62, so dass der Bereich 80-62 = 18 beträgt. Die Reichweite bietet jedoch kein ausreichendes Bild über die Dispersion.
Um die Standardabweichung zu berechnen, werden zunächst die Abweichungen von Datenwerten vom Mittelwert berechnet. Der Wurzelquadrat -Mittelwert der Abweichungen wird als Standardabweichung bezeichnet. Im vorherigen Beispiel sind die jeweiligen Abweichungen vom Mittelwert (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 und (79 - 71) = 8. Die Summe der Quadrate der Abweichung ist (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Die Standardabweichung ist √ (366/10) = 6.05 (in Kilogramm). Sofern der Datensatz nicht stark verzerrt ist, kann der Großteil der Daten im Intervall 71 ± 6 liegt.05, und es ist in diesem speziellen Beispiel in der Tat so.
Was ist der Unterschied zwischen zentraler Tendenz und Dispersion? • Zentrale Tendenz bezieht sich auf und lokalisiert das Zentrum der Werteverteilung • Dispersion ist die Ausbreitung von Daten über das Zentrum eines Datensatzes.
|