Subsections

12 Popisné statistiky.

12.1 Základní termíny z popisné statistiky.

Obrázek: Histogramy pro různé typy rozdělení

Předmětem statistického zkoumání jsou hromadné jevy, to znamená, že zkoumáme vlastnosti u velkého počtu prvků. Základní soubor sdružuje tyto prvky.
Počet prvků základního souboru se nazývá rozsah souboru.
Údaje (vlastnosti) uvedené pro prvky základního nazýváme (statistické) proměnné nebo též znaky. Většinou je nákladné, nesnadné a nebo dokonce nemožné zjišťovat hodnoty statistických proměnných pro každý prvek základního souboru. V takovém případě pracujeme s vhodně zvoleným výběrem (vzorkem) ze základního souboru. Pokud je výběr vytvořen statisticky správně, například náhodným výběrem, dá se na jeho základě získat určitá představa o základním souboru. Při statistických zkoumáních se zaměřujeme na charakterizování a popis rozdělení četnosti proměnné (znaku), a to jak v základním souboru, tak i ve výběru. Pod těmito slovy si můžeme představit tabulku, která v jednom řádku obsahuje hodnoty proměnných a ve druhém odpovídající četnosti (tj. kolikrát byla tato hodnota obsažena v souboru). U spojitých veličin se výpisu do tabulky samozřejmě četnost v určitých zvolených mezích (intervalu). Četnost v tomto případě nepřísluší hodnotám, ale intervalům. Intervalové rozdělení četnosti se často znázorňuje graficky pomocí histogramu nebo polygonu četnosti. Při kreslení histogramu vynášíme na osou x intervaly a na osu y četnosti v těchto intervalech. Obdélníčky se stranami odpovídajícími intervalu hodnot a dosažené četnosti vytvoří histogram. Pospojováním středů horních stran obdélníčků získáme polygon. Optimální počet intervalů $k$ obvykle volíme podle Stugersova pravidla.
\begin{displaymath}\bf
k = 1 + 3,3 \; log_{10}(n),
\end{displaymath} (81)

kde $n$ je počet prvků, které máme k dispozici. Často četnosti nevyjadřujeme absolutně, ale relativně, tj. jako poměrnou část z celkového rozsahu souboru $n$ (absolutní četnost dělíme $n$). Mluvíme pak o relativním rozdělení četnosti.

12.2 Charakteristiky polohy, variability, šikmosti a špičatosti

12.2.1 Charakteristiky polohy

Udávají střed celé skupiny údajů, kolem kterého všechny hodnoty kolísají (analogie těžiště).
Výběrový (aritmetický průměr) je definován známým vzorcem

\begin{displaymath}
\bar{x} = \frac{1}{n} \; \sum_{i=1}^{n} \; x_i
\end{displaymath} (82)

Medián je definován jako prostřední hodnota výběru, a to prostřední v pořadí hodnot uspořádaných podle velikosti. Jinak řečeno polovina hodnot výběru je menší nebo rovna mediánu a polovina hodnot je větší nebo rovna mediánu. Pokud prostřední hodnota není určena jednoznačně (například pro sudý rozsah výběru) je za medián brán průměr dvou prostředních hodnot.

Obrázek: Popisné statistiky dat z histogramu: ukázka možností procedury Statistiky knihovny STAT.FML
Image popis.png

Modus je nejčetnější hodnota znaku.
Kvantil $x_p$ (označovaný někdy jako p-procentní kvantil) je hodnota znaku, pro který platí, že nejméně p-procent prvků má hodnotu menší nebo rovnu $x_p$$(100 - p)$ procent prvků je větších nebo rovno $x_p$.
Používají se tyto kvantily:
medián $x_{50}$
dolní kvartil $x_{25}$
horní kvartil $x_{75}$
decily $x_1, x_2, ..., x_{90}$
percentily $x_1, x_2,...,x_{99}$

Příklad: Jak počítat kvantily si ukážeme na jednoduchém příkladu.
Mějme dána následující čísla: 1, 3, 2, 2, 4, 4, 2, 2, 5, 1, 2, 3.
Čísla uspořádáme vzestupně:
1 2 3 4 5 6 7 8 9 10 11 12
1 1 2 2 2 2 2 3 3 4 4 5

Protože hodnot proměnných je 12, je medián roven aritmetickému průměru šesté a sedmé hodnoty:
$x_{50} = (2 + 2) /2 = 2$
Dolní kvartil je roven třetí hodnotě $(12 . 25 /100 = 3)$. $x_{25} = 2$
Horní kvartil je roven deváté hodnotě $(12 . 75/100 = 9)$. $x_{75} = 3$.
Modus je roven 2.

12.2.2 Charakteristiky variability

Charakteristiky variability udávají koncentraci nebo rozptýlení (variabilitu) hodnot kolem zvoleného středu skupiny.
Rozpětí R je definováno jako rozdíl největší (maximální) a nejmenší (minimální) hodnoty.
Mezikvartilové rozpětí je definováno jako rozdíl horního a dolního kvartilu (je tedy rovno $x_{75} - x_{25}$).
Rozptyl $s^2$ je definován jako součet kvadratických odchylek od průměru, děleným rozsahem výběru zmenšeným o 1.

\begin{displaymath}\bf
s^2 = \frac{1}{n - 1} \; \sum_{i=1}^n (x_i-\bar{x})^2
\end{displaymath} (83)

Směrodatná odchylka s je definována jako odmocnina z rozptylu.
(Průměrná) absolutní odchylka d je definována jako průměr absolutních odchylek od průměru.
\begin{displaymath}\bf
d = \frac{1}{n} \; \sum_{i=1}^n \vert x_i - \bar{x} \vert.
\end{displaymath} (84)

V porovnání se směrodatnou odchylkou se tolik nezvětšuje při výskytu extrémních hodnot.
Variační koeficient c slouží k měření relativní variability. Je definován jako podíl směrodatné odchylky a průměru.
\begin{displaymath}\bf
c = \frac{s}{\bar{x}}.
\end{displaymath} (85)

Využívá se jej také pro porovnání variabilních znaků měřených v odlišných jednotkách.

12.2.3 Charakteristiky šikmosti

Charakteristiky šikmosti udávají, jsou-li hodnoty kolem zvoleného středu rozloženy souměrně nebo je-li rozdělení hodnot zešikmeno na na jednu stranu. Všechny charakteristiky šikmosti nějakým způsobem využívají vztahů mezi průměrem $\bar{x}$, mediánem $\tilde{x}$ a modem $\hat{x}$.

(Momentový) koeficient šikmosti $S_m$ je definován vztahem:
\begin{displaymath}\bf
S_m = \frac {1}{n} \sum_{i=1}^n \frac{(x_i - \bar{x})^3}{s^3}
\end{displaymath} (86)

Kvantilový koeficient šikmosti $ \bf S_p$ je definován jako
\begin{displaymath}\bf
S_p = \frac {(x_{100-p} - x_{50}) - (x_{50} - x_p)}{x_{100-p} - x_p},
\end{displaymath} (87)

kde $ \bf p<50$

12.2.4 Charakteristiky špičatosti

Charakteristiky špičatosti udávají, jaký průběh má rozdělení hodnot kolem zvoleného středu (rozdělení). Čím je rozdělení špičatější, tím víc jsou hodnoty soustředěny kolem daného středu rozdělení. Na druhé straně, rozdělení s nízkou špičatost často obsahuje hodnoty velmi vzdálené od středu rozdělení. (Momentový) koeficient špičatosti $\bf K_m$ je definován vztahem

\begin{displaymath}\bf
K_m = \frac {1}{n} \sum _{i=1}^n \frac {(x_i - \bar{x})^4}{s^4}.
\end{displaymath} (88)

Někdy se jako charakteristika špičatosti používá veličina $ \bf K_m - 3$. Je to proto, že normované normální rozdělení má $\bf K_p = 3$. Při porovnávání zda $ K_m > 0$ ( nebo původně $> 3$) zjišťujeme, zda je rozdělení špičatější (strmější) než normované normální rozdělení. Kvantilový koeficient špičatosti $\bf K_p$ je definován
\begin{displaymath}\bf
K_p = \frac {x_{max} - x_{min}}{x_{100-p} - x_p},
\end{displaymath} (89)

kde $p < 50$. $x_p$ je odpovídající kvantil (např. dolní kvartil $x_{25}$, nebo první decil $x_{10}$ atd.) Vztah mezi kvantilovým a momentovým koeficientem šikmosti (špičatosti) je podobný vztahu průměru a mediánu, či rozptylu a kvantilových rozpětí. Obecně je možno říct, že kvantilové charakteristiky jsou většinou méně citlivé na velké změny (chyby) v datech (nejsou jimi tolik ovlivňovány). Tato vlastnost v sobě však může nést i jistou nevýhodu.
Popisné statistiky umožňuje provádět i program EXCEL. Možnosti ukazuje následující tabulka:
Data Název Hodnota
4,7 střední hodnota 4,49
4,4 chyba střední hodnoty 0,0379
4,5 medián 4,5
4,6 modus 4,5
4,4 směrodatná odchylka 0,1197
4,4 rozptyl výběru 0,0143
4,3 špičatost -0,369
4,5 šikmost 0,233
4,6 rozdíl max-min 0,4
4,5 minimum 4,3
  maximum 4,7
  součet 44,9
  počet 10
  věrohodnost (95 %) 0,0742

© František Šťastný, 1997