Kruskalův–Wallisův test

Analýza rozptylu ANOVA zpracovává přímo naměřené hodnoty statistického znaku, Kruskalův–Wallisův test je nahrazuje jejich pořadím

Kruskalův–Wallisův test (nazýván také jako Kruskalův–Wallisův H test nebo jednofaktorová neparametrická ANOVA) je rozšířením Mannova–Whitneyova testu pro více než dvě skupiny pozorování. Testuje shodu distribučních funkcí a jde o neparametrický test. Kruskalův–Wallisův test poprvé jeho autoři William Henry Kruskal a W. Allen Wallis zveřejnili v časopise Journal of the American Statistical Association (JASA) v roce 1952[1].

Volba testu

Test se používá, pokud nelze u vzorku ověřit předpoklad normálního rozdělení reziduí, takže je nutné zvolit neparametrický test a není možné použít jednofaktorovou parametrickou analýzu rozptylu.

Předpokladem zůstává nezávislost pozorování. Pokud se jedná o opakované pokusy (například při léčbě), vzorky jsou závislé a je nutné použít Friedmanův test.

Kruskalův–Wallisův test je rozšířením Mannova-Whitneyova U testu, který lze použít pouze pro jeden nebo dva výběry.

(Příklad: Pokud testujeme vzorky podle pohlaví, použijeme Wilcoxonův test, protože se jedná pouze o dvě kategorie. Pokud budeme testovat data podle vzdělání, dvě možnosti nám nestačí. Musíme zvolit Kruskalův–Wallisův test.)

Použití testu

Parametrická analýza rozptylu testuje shodu středních hodnot. U neparametrické to nelze.

Nulová hypotéza

Pokud je možné vytvořit předpoklady identicky tvarovaného a škálovaného rozdělení pro všechny skupiny, je možné testovat nulovou hypotézu, že jsou mediány všech skupin shodné, oproti alternativní hypotéze, že se alespoň jeden medián populace některé skupiny liší od mediánu populace alespoň jedné další skupiny.[2][3]

Mnohdy takový předpoklad není možné zaručit, proto je možné nulovou hypotézu definovat jako shodu distribučních funkcí jednotlivých výběrů.

Alternativní hypotézou je pak tvrzení, že alespoň jedna distribuční funkce je odlišná od některé jiné.

Testovací kritérium

Test je založený na pořadí. Nejprve je nutné všechny hodnoty seřadit, bez rozdílu, do které skupiny patří. Poté původní hodnoty nahradit příslušnými pořadími a v každé třídě vytvořit součet pořadí. Testovací kritérium se spočítá pomocí vzorce[3]:

,

kde:

počet tříd;

počet pozorování v i-té třídě;

, počet pozorování ve všech třídách;

součet pořadí v i-té třídě.

Kritická hranice

Velké hodnoty testovacího kritéria vedou k zamítnutí nulové hypotézy. Pro dostatečně velký počet pozorování lze kritické hodnoty vyhledat v tabulkách rozdělení s stupni volnosti a hladinou významnosti α. Pokud je zkoumaný vzorek rozdělen do 3 tříd a počet pozorování v jednotlivých třídách je nejvýše 5, je nutné kritickou hranici vyhledat v kritických hodnotách Kruskalova–Wallisova H rozdělení. Kritické hodnoty rozdělení se při tak malém počtu pozorování významně liší.

Ukázka výpočtu

Data jsou testovaná podle jednoho faktoru (nemusí být vyvážená), který má možnosti A,B,C. V nulové hypotéze testujeme, že jsou distribuční funkce ve všech třech třídách stejné.

Zadané hodnoty
A B C
13 10 2
17 18 20
23 21 14
16 16 27
15 38 24
25 32 9

Všechny hodnoty seřadíme vzestupně a rozepíšeme zpět do tabulky.

Tabulka pořadí
A B C
4 3 1
9 10 11
13 12 5
7,5 7,5 16
6 18 14
15 17 2

V každém sloupci sečteme pořadí.

Součet pořadí
A B C
54,5 67,5 49

Vypočítáme hodnotu testovacího kritéria. Celkem je 18 pozorování.

V tabulkách kritických hodnot rozdělení najdeme kritickou hranici .

Protože hodnota testovacího kritéria H překročila kritickou hranici (leží v kritické oblasti), nulovou hypotézu o shodě distribučních funkcí (shodě středních hodnot pořadí) zamítáme.

Distribuční funkce ve všech třech třídách nejsou stejné. Například pomocí Mann_Whitneyova U testu je možné zjistit, která dvojice se od sebe statisticky významně liší.

Reference

  1. FIENBERG, Stephen E.; STIGLER, Stephen M.; TANUR, Judith M. The William Kruskal Legacy: 1919–2005. Statistical Science. 2007-05, roč. 22, čís. 2, s. 255–261. Dostupné online [cit. 2020-01-26]. ISSN 0883-4237. doi:10.1214/088342306000000420. 
  2. Kruskal-Wallis H Test in SPSS Statistics | Procedure, output and interpretation of the output using a relevant example.. statistics.laerd.com [online]. [cit. 2020-01-26]. Dostupné online. 
  3. a b KRUSKAL, William H.; WALLIS, W. Allen. Use of Ranks in One-Criterion Variance Analysis. Journal of the American Statistical Association. 1952-12, roč. 47, čís. 260, s. 583–621. Dostupné online [cit. 2020-01-26]. ISSN 0162-1459. doi:10.1080/01621459.1952.10483441.