# Reprezentatywnosc danych


Glownym celem analizy zmiennych jest ocena ich przydatnosci. Statystyki opisowe, informacje o brakujacych danych, ilosc informacji ukrytych w zmiennych oraz histogramy przedstawiajace rozklady wartosci pozwalajacych na wczesnym etapie projektu wykryc i udokumentowac problemy z danymi. Problemy z jakoscia danych wystepuja zawsze, a niezauwazone moga doprowadzic do fiska calego projektu albo co najmniej znacznie go skomplikowac.

Znajac tendencje centralna, rozproszenie i rozklad wartosci, mozemy ocenic, czy sa one zgodne z oczekiwaniami.

Oceniajac reprezentatywnosc proby nalezy uzyskac odpowiedzi na ponizsze pytania:

- Jak zostaly wybrane do niej przyklady?
- Czy wybrane przyklady sa w jakis sposob wyjatkowe?

# Korelacje miedzy zmiennymi

Dwie zmienne sa ze soba skorelowane jezeli, znajomosc wartosci jednej zmiennej pomaga, chocby w niewielkim stopniu, w okresleniu wartosci drugiej zmiennej. Zmienna wyjsciowa, inaczej objasniana, nazywa sie tez zalezna. Oznacza to, ze zmienna wyjsciowa powinna byc skorelowana ze zmiennymi wejsciowymi.


# Ocena przydatnosci zmiennych

Najpopularniejszym wspolczynnikiem korelacji zmiennych numerycznych jest wspolczynnik korelacji liniowej r-Pearsona. Jest to test parametryczny polegajacy na podzieleniu kowarjancji zmiennych przez iloczyn ich srednich:

$$r_{XY} = \frac{cov(X,Y)}{\sigma X \cdot \sigma Y}$$

In [None]:
# Obliczanie korelacji zmiennych numerycznych
df = pd.DataFrame()
df.corr()

Korelacje miedzy zmiennymi kategorycznymi mozna obliczyc na podstwie tabel czestosci. Tym razem jednak interesuje nas warunkowy rozklad zmiennych, a wiec policzymy, jak czesto wystepowaly wartosci X dla poszczegolnych wartosci Y.


```python
survived_sex = pd.crosstab(index=data["Survived"], columns=data["Sex"])
survived_sex.index = ["died", "survived"]
print(survived_sex)


chi2, p, dof, expected = chi2_contingency(pd.crosstab(data.Sex, data.Survived))
print('Statistics')
alpha = 0.05

if p > alpha:
    print("Variables seems to be independent")
else:
    print("Variables seems to be dependent")
```

### Dwie zmienne porzadkowe

Do oceny korelacji miedzy kategorycznymi zmiennymi porzadkowymi mozna uzyc testu rho-Spearmana. Zaklada on jednak, ze rangi sa liczbami calkowitymi, czyli powinien byc uzywany do oceny korelacji zmiennych porzadkowych mierzonych na dlugich skalach.


```python
coef, p = st.spearmanr(data.Survived, data.Pclass)
print(f'Statistics {coef} {p}')

alpha = 0.05
if p > alpha:
    print("Variables seems to be independent")
else:
    print("Variables seems to be dependent")

```

Jezeli skale sa krotkie to, wystepuje wiele rang wiazanych i wtedy bardziej odpowiednim wspolczynnikiem jest tau-Kendalla.

```python
coef, p = st.kendalltau(data.Survived, data.Pclass)
print(f"Statistics {coef} {p}")
alpha = 0.05

if p > alpha:
    print("Variables seems to be independent")
else:
    print("Variables seems to be dependent")

```

## Zmienna kategoryczna i numeryczna

Korelacje miedzy zmienna numeryczna a kategoryczna mozna ocenic, przeprowadzajac analize wariancje ANOVA. Polega ona na znalezieniu stosunku wariancji obliczonej miedzy badanymi grupami a srednia wariancja zaobserwowana wewnatrz grup. Hipoteza zerowa zaklada, ze jedynym zrodlem wariancji jest wariancja zaobserwowana wewnatrz grup, czyli ze wariancja miedzy grupami ma zerowy wplyw. Do weryfikacji hipotezy nalezy obliczyc srednie kwadraty.

Stosunek srednich kwadratow obliczanych dla poszczegolnych stanow zmiennej kategorycznej w odniesieniu do srednich kwadratow bledu pozwala oszacowac wplyw kazdego z tych stanow oddzielenie na wartosci zmiennej numerycznej.

Jednoczynnikowa analiza wariancji pozwala ocenic wplyw poszczegolnych stanow zmiennej kategorycznej na zmienna numeryczna. Dzielac policzona wartosc przez srednie kwadraty, otrzymamy statystyke F.

Okresla ona, czy poszczegolne stany zmiennej kategorycznej maja wplyw na zmienna numeryczna. Im wieksza wartosc F, z tym wieksza pewnosc mozemy odrzucic hipoteze zerowa. Otrzymany wynik nalezy sprawdzic w tablicach rozkladu statystki $F$. Zawieraja one wartosci punktow krytycznych dla okreslonych stopni swobody DF.

```python
mod = ols('Age ~ Sex', data=data).fit()
aov_table = sm.stats.anova_lm(mod, typ=2)
print(aov_table)
```

Prawdopodobienstwo ze zmienne sa niezalezne znajduje sie w kolumnie PR(>F). Typowy punkt krytyczny wynosi 0.05 wiec jezeli prawdopodobienstwo jest wiekrze oznacza ze zmienne sa zalezne.