[IAN]Uvodnik o vyhazovani dat

Lukas Kral lkral na centrum...
Středa Prosinec 8 21:09:22 CET 2004


Neodpustím si přispět svou troškou do mlýna, protože s tímhle problémem pracuji skoro denně :-)

Naprosto souhlasím s tím, že nelze bez rozmyslu vymazat z jakékoli naměřené závislosti bod jen kvůli tomu, že se nám "nelíbí".  Občas se ale při měření ojediněle vyskytne tzv. hrubá chyba (nikoli systematická, Petře, to je něco jiného, viz dále), třeba ten mrak na CCD snímku, a výsledkem je, že jeden bod je výrazně jinde než všechny ostatní. Pokud bychom jej brali v úvahu např. při prokládání naměřených dat nějakou křivkou, negativně by ovlivnil výsledek výpočtu (metoda nejmenších čtverců zmíněná Maude si s "ulítlými" body neporadí!).

Je tedy nutné se těchto tzv. odlehlých bodů zbavit. Na to existují v zásadě dva postupy:
1) dohledat příčinu možné hrubé chyby (pokud to jde), a pokud je nalezena, bod vyřadit (to je to co popsal Petr -- prohlédnout daný snímek, jestli není něco špatně)
2) identifikovat odlehlé body na základě statistiky

Druhý postup se používá, pokud nelze zpětně dohledat příčiny hrubých chyb, a pokud máme dostatek spolehlivých bodů. Předpokladem je, že správně naměřené body jsou gaussovsky rozloženy kolem střední hodnoty A se střední kvadratickou odchylkou S. Statistika říká, že 99 % bodů bude ležet v intervalu <A - 3*S; A + 3*S>. To znamená, že pokud nějaký bod leží dále než 3*S od průměrné hodnoty, s 99% pravděpodobností je to hrubá chyba (špatné měření). Můžeme tedy s klidem vyházet všechny body lišící se o více než 3*S od střední hodnoty A.

Pokud je odlehlých bodů mnoho, dělá se tento postup iterativně -- spočítá se A a S, vyhodí se odlehlé body, znovu se spočítá A a S, znovu se vyhodí odlehlé body, atd., dokud je co vyhazovat. V případě že je odlehlých bodů ještě více (funguje to až do zhruba 50 %!), lze použít razantnější vyhazovací kritérium (např. místo 3*S jen 2,5*S nebo dokonce 2,2*S).

Pokud prokládáme nějakou závislost křivkou (přímkou, polynomem, sinusovkou apod.), lze obojí spojit dohromady: proložíme data, spočítáme rozptyl bodů S kolem proložené křivky, vyházíme všechny body které jsou dále od křivky než 3*S a to vše opakujeme znovu a znovu.

Na závěr ještě něco o typech chyb při měření, často se to plete. Ilustrujme si to na příkladu, kdy chceme dřevěným metrem změřit délku stolu:
1) náhodné chyby
-- např. ne vždy se na značky metru díváme pod stejným úhlem
-- způsobují rozptyl měření kolem správné hodnoty
-- dají se redukovat opakováním měření a zprůměrováním výsledků
2) systematické chyby
-- např. máme špatný metr, který vždy ukáže menší hodnotu než je skutečná
-- způsobují systematický posun naměřené hodnoty vůči správné
-- nelze odstranit opakováním a průměrováním měření!
-- řešením je pouze kontrola a kalibrace použitých měřítek
3) hrubé chyby
-- např. se spleteme a místo 132 cm si zapíšeme 123 cm
-- příčina výskytu odlehlých bodů
-- řešení viz výše

Pokud jste dočetli až sem, zdraví vás
Lukáš




More information about the Ian mailing list