# Scipy

`pip install scipy`

In [None]:
from scipy import stats

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

<img src="../images/overview-statistical-tests-statsandr.png"/>

<div style="text-align: right">Źródło: https://statsandr.com/blog/what-statistical-test-should-i-do/</div>

## Czynniki brane pod uwagę przy wyborze testów statystycznych
### Liczba zmiennych 
* 1
* 2 (najczęstszy przypadek)
* 3 lub więcej

### Typ danych
* nominalne
* porządkowe
* ilościowe

### Porównanie danych porządkowych

* **Test Test Manna-Whitneya** - porównanie dwóch grup niezależnych

In [None]:
grupa1 = ['zawodowe', 'podstawowe', 'zawodowe', 'wyższe', 'wyższe','podstawowe','podstawowe','zawodowe','wyższe','wyższe','wyższe']
grupa2 = ['podstawowe','zawodowe','podstawowe','podstawowe','średnie','średnie','podstawowe','podstawowe','podstawowe','średnie','wyższe']

In [None]:
df = pd.DataFrame(np.array([grupa1,grupa2]).transpose(), columns=['grupa1', 'grupa2'])
df

In [None]:
stats.mannwhitneyu(df['grupa1'], df['grupa2'])

In [None]:
df['grupa1_int'] = df['grupa1'].replace({'podstawowe':1, 'średnie':2, 'zawodowe':3, 'wyższe':4})
df['grupa2_int'] = df['grupa2'].replace({'podstawowe':1, 'średnie':2, 'zawodowe':3, 'wyższe':4})

In [None]:
df

In [None]:
stats.mannwhitneyu(df['grupa1_int'], df['grupa2_int'])

### Porównanie danych porządkowych

* **Test Wilcoxona** - porównanie dwóch pomiarów zależnych

In [None]:
df = pd.DataFrame(np.random.randint(0,10,size=(10,2)),  columns=['pomiar1', 'pomiar2'])
df

In [None]:
stats.wilcoxon(df['pomiar1'], df['pomiar2'])

### Testowanie założeń testów

* **Test Shapiro-Wilka** - test zgodności z rozkładem normalnym

Jeśli wynik *p* mniejszy od 0.05, odrzucamy hipotezę zerową o zgodności rozkładu naszej zmiennej z rozkładem normalnym

In [None]:
grupa1 = np.random.randint(0,10,size=100)
grupa1

In [None]:
grupa2 = np.random.normal(5, size=100)
grupa2

In [None]:
sns.histplot(grupa1)

In [None]:
sns.histplot(grupa2)

In [None]:
stats.shapiro(grupa1)

In [None]:
stats.shapiro(grupa2)

### Testowanie założeń

* **Test Levene'a** - test homogeniczności wariancji pomiędzy grupami: 

Jeśli wynik *p* mniejszy od 0.05, odrzucamy hipotezę zerową o równości wariancji między grupami

In [None]:
stats.levene(grupa1,grupa2)

### Test t dla grup niezależnych

In [None]:
df = pd.DataFrame(np.random.normal(size=(30,2)), columns=['grupa1', 'grupa2'])
df

In [None]:
stats.ttest_ind(df['grupa1'], df['grupa2'])

### Test t dla powtórzonych pomiarów

In [None]:
df = pd.DataFrame(np.random.normal(size=(30,2)), columns=['pomiar1', 'pomiar2'])
df

In [None]:
stats.ttest_rel(df['pomiar1'], df['pomiar2'])

###   Zadanie 1 <img src="../images/pencil.png" width="20" align="left">

Pobierz plik *aura_reptilianie.csv* i przetestuj czy jaszczuroludzie różnią się poziomem aury od zwykłych ludzi. 

### Porównanie więcej niż dwóch grup

* **One-way ANOVA** - dla danych parametrycznych
* **Kruskal-Wallis** - dla danych nieparametrycznych

In [None]:
#stats.f_oneway(x, y, z ...)
#stats.kruskal(x, y, z ...)

###   Zadanie 2 <img src="../images/pencil.png" width="20" align="left">

Sprawdź czy trzy gatunki pingwinów z poniższych danych różnią się pod względem masy ciała. 

In [None]:
df2 = sns.load_dataset('penguins')

In [None]:
df2

#### Do testów post hoc dla danych parametrycznych można użyć poniższej funkcji:

In [None]:
# print(stats.tukey_hsd())

#### Natomiast dla danych nieparametrycznych musimy skorzystać z innej paczki: 

*pip install scikit-posthocs*

In [None]:
import scikit_posthocs as sp

sp.posthoc_dunn(df2, val_col='body_mass_g', group_col='species', p_adjust = 'bonferroni')

### Korelacje 

* **Pearsona** - dla danych parametrycznych

In [None]:
#stats.pearsonr(x, y)

### Korelacje 

* **Spearmana** - dla danych parametrycznych

In [None]:
#stats.spearmanr(x, y)

###   Zadanie 3 <img src="../images/pencil.png" width="20" align="left">

Pobierz plik *eerie_like_data.csv* z zajęć o paczce seaborn i sprawdź czy *eerieness* i *likability* korelują ze sobą. 

### Porównanie danych nominalnych

#### Chi-square test

In [None]:
df = pd.read_csv('aura_reptilianie.csv', index_col=0)

In [None]:
# Tabela zawiera zaobserwowane częstości (liczbę wystąpień) w każdej kategorii.

pd.crosstab(df['gatunek'], df['czy_chce_przejac_wladze'])

In [None]:
crosstab = pd.crosstab(df['gatunek'], df['czy_chce_przejac_wladze'])

In [None]:
# funkcja chi2_contingency() zwraca:
#     wartość testu chi^2, 
#     wartość p,
#     liczbę stopni swobody,
#     oczekiwane wartości,

stats.chi2_contingency(crosstab)

In [None]:
sns.countplot(data=df, x='gatunek', hue='czy_chce_przejac_wladze')