# Warsztat 10 – Pandas - analiza statystyczna i wizualizacja<a id=top></a>

<font size=2>Przed pracą z notatnikiem polecam wykonać kod w ostatniej komórce (zawiera html i css), dzięki czemu całość będzie bardziej estetyczna :)</font>

<a href='#Warsztat-10-–-Pandas---analiza-statystyczna-i-wizualizacja'>Warsztat 10</a>
<ul>
<li><a href='#Indeksowanie-i-filtrowanie'><span>Indeksowanie i filtrowanie</span></a></li>
<li><a href='#Grupowanie-danych'><span>Grupowanie danych</span></a></li>
<li><a href='#Podstawowe-analizy'><span>Podstawowe analizy</span></a></li>
<li><a href='#'><span></span></a></li>
<li><a href='#Materiały-do-dalszej-nauki'><span>Materiały do dalszej nauki</span></a></li>
</ul>

Poprzedni notatnik zawierał podstawowe informacje o tym, jak wczytać dane, dokonać inspekcji surowych danych (zarówno wartości zmiennych oraz ich prostej wizualizacji) oraz wyczyścić z niepotrzebnych wartości (przede wszystkim braków danych).  
Teraz wprowadzimy bardziej zaawansowane funkcje pakietu pandas, które pozwolą na filtrowanie, grupowanie i przekształcanie danych.  
Następnie przeprowadzimy kilka analiz statystycznych w samym pythonie oraz zobaczymy w jaki sposób włączyć do procesu analizy w R.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

Będzie nam potrzebny bardziej złożony zbiór danych, więc rozbudujemy przykład ze wzrostem.

In [None]:
dane = pd.read_excel("./wzrost_multi.xlsx", parse_cols=[1,2,3])
dane.head()

In [None]:
dane.info()

Nasza ramka z danymi ma trzy kolumny: płeć ankietowanego, pochodzenie - miejsce zamieszkania, wzrost wyrażony w centymetrach.  
Spójrzmy, jakie wartości w naszym zbiorze przyjmują zmienne kategorialne.

In [None]:
dane.Płeć.value_counts()

In [None]:
dane.Pochodzenie.value_counts()

Do danych liczbowych lepiej użyć metody describe(), która poda nam znacznie więcej szczegółów.

In [None]:
dane.Wzrost.describe()

Mamy teraz podstawową wiedzę o zawartości naszych danych, jednak te dane wydają się zbyt ogólne. W końcu nie interesują nas tak bardzo informacje na temat zbioru całej naszej próby, ale raczej poszczególnych podgrup, np. kobiet z Hollywood. Musimy zatem pogrupować nasze dane tak, by te informacje wydobyć.

<a href='#top' style='float: right; font-size: 13px;'>Do początku</a>

## Indeksowanie i filtrowanie

Nie zawsze interesuje nas cały zbiór danych, tylko jakaś jedna jego część. Pandas oferuje szeroki wachlarz sposobów do wyboru podzbiorów.

Bardzo dobrym podejściem do analizy danych jest utrzymywanie **"uporządkowanych" zbiorów danych** (ang. tidy data). Oznacza to, że każda kolumna zawiera inną zmienną, natomiast każdy wiersz zawiera pojedynczą obserwację.  
Nasze dane spełniają ten warunek. Dzięki temu, możemy swobodnie wybierać z nich tylko niektóre kolumny przy ciągłym zachowaniu spójności. Możemy to zrobić na kilka sposobów. Pierwszy polega na użyciu nawiasów kwadratowych, w które wpiszemy po prostu nazwy interesujących nas zmiennych.

In [None]:
dane['Wzrost'].head()

Wybierając tylko jedną kolumnę zawsze otrzymamy **serię**, czyli jednowymiarowy typ danych pandas (w odróżnieniu od ramki z danymi, która jest dwuwymiarowa). Ramkę tworzy wiele takich serii.  
Jeśli chcemy tą metodą wybrać więcej kolumn, musimy przekazać ich listę.

In [None]:
dane[['Pochodzenie','Płeć']].head()

Innym sposobem wybrania pojedynczej kolumny może być użycie jej nazwy jako metody samego zbioru.  
Choć on nie będzie działał we wszystkich przypadkach (np. kiedy nazwa kolumny posiada spację lub inny znak specjalny).

In [None]:
dane.Wzrost.head()

Bardziej ogólnym i uniwersalnym sposobem wyboru kolumn jest użycie metody <b>.loc[ , ]</b>.  
Do nawiasu kwadratowego zawsze podajemy dwie wartości, pierwsza oznacza wiersz (lub zakres wierszy), które chcemy wybrać. Druga oznacza to samo dla kolumn. Jeśli chcemy wybrać wszystkie elementy, możemy użyć znaku **dwukropka**.

Spróbujmy najpierw odtworzyć wybór kolumn z wcześniej.

In [None]:
dane.loc[:,'Wzrost'].head()

In [None]:
dane.loc[:,['Pochodzenie', 'Płeć']].head()

Teraz spróbujmy wybrać kilka różnych wierszy.

In [None]:
dane.loc[5,:]

In [None]:
dane.loc[5:10,:]

**Ważne**: Metoda loc operuje na <b>nazwach</b> zarówno indeksów wierszy jak i nazw kolumn. Nasze dane mają nazwy indeksów w formie numerów, dlatego może to powodować lekką konfuzję. Metoda loc traktuje te numery jako nazwy wierszy a nie ich liczbę porządkową.

Teraz jeszcze jeden przykład z kombinacją indeksów i nazw kolumn. Warto zwrócić uwagę, że kolejność wpisanych kolumn jest dowolna i możemy je tym sposobem przestawiać.

In [None]:
dane.loc[7:13,['Wzrost','Pochodzenie']]

Pandas udostępnia też możliwość wykorzystania indeksowania numerycznego - czyli wskazania numerów wierszy i kolumn, które chcemy wybrać do podzbioru bezpośrednio. Służy do tego metoda <b>.iloc[ , ]</b>. Jej działanie jest identyczne do loc, z tym wyjątkiem, że posługujemy się numerami a nie nazwami.

In [None]:
dane.iloc[6:10,0]

In [None]:
dane.iloc[6:10,1:3]

Działa tutaj ten sam system wskazywania zakresów liczbowych jak w całym pythonie - pierwszym elementem jest 0, natomiast koniec zakresu nie jest uwzględniany w nowym podzbiorze. Dlatego loc[8:10,:] i iloc[8:10,:] dadzą inne wyniki.

In [None]:
dane.loc[8:10,:]

In [None]:
dane.iloc[8:10,:]

Etykiety zachowują się tu całkiem podobnie do zakresów liczbowych - możemy wybrać od której do której nazwy kolumny chcemy wybrać podzbiór i pandas wybierze dla nas wskazane kolumny i wszystkie, które znajdują się pomiędzy nimi.

In [None]:
dane.loc[8:10,'Płeć':'Pochodzenie']

Podobnie jak przy filtrowaniu elementów listy, możemy tutaj dołożyć trzeci argument, który wskaże wielkość kroku - np. wybieranie co drugiego czy co trzeciego elementu.

In [None]:
dane.loc[5:25:4,:]

Część pierwsza zawierała już przykłady wybierania elementów kolumn na podstawie warunków logicznych.  
Tutaj jednak powtórzymy to sobie i poszerzymy trochę tamte wiadomości.

Możemy dowolnie wybierać podzbiory kolumn czy wierszy na podstawie wartości zawartych w poszczególnych komórkach.  
Dla przykładu, możemy chcieć wybrać podzbiór składający się wyłącznie z danych kobiet. W tym celu musimy przefiltrować kolumnę płeć.

In [None]:
dane['Płeć'] == 'Kobieta'

Otrzymujemy serię wartości boolowskich, które identyfikują czy w danej komórce wartość płci jest równa kobiecie. Teraz możemy użyć tych danych, żeby wyświetlić tylko te wiersze, dla których jest to prawda. Możemy tej maski użyć zamiast wartości dla wierszy w metodzie loc.

In [None]:
dane.loc[dane['Płeć'] == 'Kobieta',:]

W identyczny sposób możemy wybrać np. wszystkie obserwacje, w których mężczyźni mają poniżej 175 cm wzrostu.  
Najpierw stworzymy zmienną zawierającą naszą maskę z wartościami boolowskimi, a potem użyjemy jej do odfiltrowania danych.

In [None]:
maska = (dane['Płeć'] == 'Mężczyzna') & (dane['Wzrost'] < 175)
maska

In [None]:
dane.loc[maska,:]

Kolejnym sposobem filtrowania treści jest wybieranie wierszy/kolumn na podstawie zawartości elementów z wcześniej wskazanego zbioru. Służy do tego metoda <b>.isin( )</b>. Spróbujemy za jej pomocą wybrać tylko te wiersze, które zawierają konkretne wartości wzrostu osób badanych.

In [None]:
lista = [178, 185, 159]
dane.loc[dane['Wzrost'].isin(lista),:]

<a href='#top' style='float: right; font-size: 13px;'>Do początku</a>

## Grupowanie danych

Podstawowym narzędziem do grupowania danych będzie metoda <b>.groupby( )</b>, która posortuje dane względem wskazanej zmiennej. Co istotne, sama funkcja nie tworzy nowych zbiorów danych, a jedynie pozwala wykonać wybrane operacje na podgrupach. To, co dostajemy na końcu to wynik tych operacji dla każdej wyróżnionej podgrupy.

Spróbujmy na początek podzielić nasze dane ze względu na płeć. Żeby to zrobić, przekazujemy metodzie groupby nazwę kolumny, która zawiera kategorie płci.

In [None]:
dane.groupby('Płeć')

Metoda ta zwraca nam obiekt grupujący - instrukcję, które wiersze należą do której grupy. Teraz możemy wykonać na nim odpowiednie operacje. Spróbujmy policzyć średnią dla każdej podgrupy.

In [None]:
dane.groupby('Płeć').mean()

Otrzymujemy średnią dla każdej podgrupy, a skoro mamy tylko dwie, to dostajemy dwie wartości. Warto pamiętać, że tym sposobem uzyskamy średnie ze wszystkich kolumn zawierających dane numeryczne. Nie dostaliśmy średniej z kolumny 'Pochodzenie', ponieważ jest kategorialna.

Wykorzystajmy ją jednak to dalszego podziału naszych danych na mniejsze grupy. Metoda groupby przyjmuje wprawdzie tylko jeden argument, ale może on być też listą kolumn, wedle których chcemy zgrupować nasze dane. Kolejność wyboru kolumn określi też kolejność podziału.  
Poniżej możemy zobaczyć podział na 4 podgrupy, na których użyjemy metody **describe()**.

In [None]:
dane.groupby(['Pochodzenie','Płeć']).describe().unstack()

Metoda **unstack()** pozwala zamienić kolumny w rzędy. W naszym przypadku przenosimy do rzędu kolumnę ze statystykiami podanymi przez desribe. Jeśli podamy do unstack nazwę kolumny jako argument, to będziemy mogli wybrać kolumnę do przeniesienia (albo grupę kolumn). Bez podania argumentu, metoda wybierze pierwszą dostępną kolumnę.

In [None]:
dane.groupby(['Pochodzenie','Płeć']).describe().unstack(['Pochodzenie', 'Płeć'])

Zwizualizujmy sobie poszczególne grupy za pomocą histogramu. Będziemy do tego potrzebowali surowych danych i każdej podgrupy w osobnej kolumnie. Zobaczmy raz jeszcze, jak wyglądają same dane.

In [None]:
dane.head()

Żeby to osiągnąć będziemy musieli stworzyć nowy indeks dla danych. Chcemy podzielić dane na 4 grupy, jednak nie ma niczego, co mogłoby pomóc pandas zgrupować kilka wartości w jednym rzędzie. Dlatego przekażemy jako indeks czterokrotnie powieloną listę indeksów (w naszym przypadku od 0 do 29). Nie jest to najbardziej eleganckie rozwiązanie, ale na chwilę obecną pozwoli nam nie wychodzić poza pandas.

In [None]:
index = list(range(30))*4
x = dane.set_index([index,dane.Płeć, dane.Pochodzenie])['Wzrost'].unstack(['Płeć', 'Pochodzenie'])
x.plot.hist(figsize=(10,14), bins=8, alpha=0.7, subplots=True);
x.head()

In [None]:
x.plot.kde(figsize=(10,8));

Wyciągnięcie poszczególnych grup jest możliwe poprzez użycie metody <b>.get_group( )</b>.  
Ważne jest by zapamiętać, że przy grupowaniu więcej niż jedną zmienną, musimy też podać tyle samo wartości, co mamy grup. W poniższym przykładzie nie możemy wyłącznie wyświetlić grupy 'Kobieta', ponieważ jest ona podzielona na dwie podgrupy zgodnie z pochodzeniem. Jeśli przekazujemy do get_group więcej niż jeden argument, musimy to zrobić w krotce (okrągłe nawiasy), gdzie kolejność ma znaczenie (jeśli pierwszą zmienną kategoryzacyjną jest 'Płeć', to 'Kobieta' musi się pojawić jako pierwsza w krotce).

In [None]:
dane.groupby(['Płeć','Pochodzenie']).get_group(('Kobieta', 'Polska'))

Wracając jeszcze na chwilę do możliwości wykonywania operacji na pogrupowanych obiektach.  
Powyżej widzieliśmy zastosowanie metody **.mean( )**, ale dostępne są też różne inne metody, np. sumowanie, wyliczanie odchylenia standardowego, minimalnych i maksymalnych elementów itd. Ich pełną listę można znaleźć w dokumentacji pandas. Poniżej przykład podliczania ilości elementów.

In [None]:
dane.groupby(['Płeć','Pochodzenie']).count()

W tym kontekście użyteczna jest metoda <b>.aggregate( )</b> lub w wersji skróconej <b>.agg( )</b>. Jeśli przekażemy im jeden argument, efekt będzie bardzo podobny do powyższego z tą różnicą, że możemy tu użyć dowolnej funkcji dostępnej w pythonie, która poradzi sobie ze zbiorem danych.
Poniżej widzimy działanie funkcji **max** z pakietu Numpy, która wyświetla największy argument w danym zbiorze.

In [None]:
dane.groupby(['Płeć','Pochodzenie']).aggregate(np.max)

Nie musimy się jednak ograniczać tylko do jednej funkcji, możemy przekazać ich kilka w liście.

In [None]:
dane.groupby(['Płeć','Pochodzenie']).aggregate([np.max, np.min, np.median])

<a href='#top' style='float: right; font-size: 13px;'>Do początku</a>

## Podstawowe analizy

Pakiet pandas służy przede wszystkim do organizacji i manipulowania danymi tabularycznymi. Posiada trochę podstawowych funkcji wizualizacyjnych czy statystycznych, jeśli jednak chcemy wykonać nawet podstawowe testy, musimy skorzystać z innych pakietów.  
Jednym z takich pakietów jest SciPy, biblioteka przeznaczona do różnych zastosowań naukowych. My skorzystamy z modułu stats.

In [None]:
import scipy.stats as st

Najbardziej popularnym testem statystycznym jest niewątpliwie **test t**, dzięki któremu możemy oszacować prawdopodobieństwo, z jakim dwie próby pochodzą z tej samej populacji. Nasze dane pozwalają na kilka prostych porównań, dlatego spróbujemy zobaczyć czy możemy uznać, że różne nasze podgrupy są od siebie różne czy nie.

Spróbujmy najpierw zobaczyć czy kobiety i mężczyźni różnią się wzrostem. Zacznijmy od wyboru odpowiednich grup.

In [None]:
test = pd.DataFrame({'mezczyzni':dane.loc[dane['Płeć']=='Mężczyzna','Wzrost'].values})
test['kobiety'] = dane.loc[dane['Płeć']=='Kobieta','Wzrost'].values

In [None]:
test

In [None]:
test.boxplot()

Odpowiedni dla naszej sytuacji jest test t dla próbek indywidualnych. Właściwa funkcja użyta jest poniżej.  
Jedyne, co musimy jej przekazać to zmienne zawierające poszczególne grupy, które chcemy porównać.

In [None]:
st.ttest_ind(test.mezczyzni,test.kobiety)

In [None]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

In [None]:
formula = 'Wzrost ~ C(Płeć) + C(Pochodzenie) + C(Płeć):C(Pochodzenie)'
model = ols(formula, dane).fit()
aov_table = anova_lm(model, typ=2)

In [None]:
print(aov_table)

In [None]:
import statsmodels.api as sm

In [None]:
res = model.resid
fig = sm.qqplot(res, line='s')

## Excersize

In [None]:
drug = pd.read_csv('./drug.txt', sep='\t')
drug

## Integracja z R

In [None]:
import rpy2

In [None]:
lsmagic

In [None]:
%%R
data <- read.csv2('./wzrost_multi.csv',header = TRUE)
fit <- lm(Wzrost ~ Pochodzenie*Plec, data=data)
summary(fit)

In [None]:
from rpy2.robjects import pandas2ri
pandas2ri.activate()
r_dataframe = pandas2ri.py2ri(dane)
print(r_dataframe)

In [None]:
import rpy2.robjects as robjects
from rpy2.robjects.packages import importr
stats = importr('stats')
base = importr('base')

In [None]:
aov = robjects.r['aov']
lm = robjects.r['lm']
summary = robjects.r['summary']

In [None]:
fit = lm("1 - Wzrost ~ Pochodzenie*Płeć",data=r_dataframe)

In [None]:
print(base.summary(fit))

<a href='#top' style='float: right; font-size: 13px;'>Do początku</a>

## Materiały do dalszej nauki

Pakiet pandas dysponuje dużo większymi możliwościami, niż przedstawione tutaj. Poniżej zebrałem kilka zasobów internetowych, które są dla mnie najbardziej przydatne przy pracy z tym pakietem.

Najważniejszym źródłem informacji zawsze jest <a href="http://pandas.pydata.org/pandas-docs/stable/index.html">**Oficjalna dokumentacja**</a>, a pakiet pandas jest bardzo dobrze opisany.  
Szczególnie przydatny jest szybki przegląd najważniejszych funkcji pandas <a href="http://pandas.pydata.org/pandas-docs/stable/10min.html">**na tej podstronie**</a>. W innych zakładkach najdziecie też bardziej rozbudowane przeglądy, tutoriale, zbiory gotowych "przepisów" na osiągnięcie konkretnych, bardziej złożonych rezultatów.

Podstawowe informacje o tym, jak wykonywać bazowe operacje można mieć zawsze pod ręką w postaci tzw. cheatsheet'a.  
Tutaj znajdziecie <a href="https://github.com/pandas-dev/pandas/raw/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf">**ten oficjalny**</a>.  
Tutaj natomiast wersja przygotowana przez <a href="https://assets.datacamp.com/blog_assets/PandasPythonForDataScience.pdf">**portal DataCamp**</a>.

### Filmy tutorialowe

Osobiście jestem wielkim fanem tutoriali w formie wideo, których sporo można znaleźć na Youtube. Z każdym rokiem pojawia się ich coraz więcej, bo bardzo często są elementem konrefencji poświęconych Pythonowi czy analizie danych. Bez problemu można je wyszukać w samym serwisie, poniżej jednak wrzucę Wam kilka linków do moich ulubionych.

Bardzo dobrze prowadzony <a href="https://youtu.be/5JnMutdy6Fw">**tutorial Brandona Rhodesa**</a> z 2015 roku. Z tego powodu nie ma w nim nowych funkcji, ale podstawowe operacje są ciągle aktualne i dokładnie wytłumaczone. W opisie nagrania są linki do materiałów użytych w tutorialu (tak będzie też dla prawie wszystkich materiałów wideo poniżej).

<a href="https://youtu.be/6ohWS7J1hVA">**Tutorial Johnatana Rochera**</a> z 2016 roku ma trochę szybsze tempo i porusza więcej kwestii, niemniej ciągle jest skierowany do początkujących, więc nie powinniście mieć problemu ze śledzeniem akcji.

Najnowszy <a href="https://youtu.be/dye7rDktJ2E">**tutorial Daniela Chena**</a> jest trochę krótszy niż poprzednie i odwołuje się do prawie najnowszej wersji pandas.

Dla osób, które będą się czuć w pandas bardziej swobodnie, warty obejrzenia jest <a href="https://youtu.be/7vuO9QXDN50">**tutorial Toma Augspurgera**</a>. Choć zaczyna się dość podstawowo, poziom skomplikowania dość szybko rośnie, dzięki czemu można zobaczyć bardziej zaawansowane rzeczy, które można zrobić w tym pakiecie.

### Tutoriale pisane

Podobnie ma się sytuacja z materiałami pisanymi. Pojawia się coraz więcej przewodników po pandas, dlatego też zostawię tutaj tylko kilka przykładów, z których albo korzystałem sam, albo wydały mi się dobre na początek przygody z tym pakietem.

Dwuczęściowy tutorial autorstwa Vika Paruchuri:  
<a href="https://www.dataquest.io/blog/pandas-python-tutorial/">**Część 1**</a>,
<a href="https://www.dataquest.io/blog/pandas-tutorial-python-2/">**Część 2**</a>.

Bardzo rozbudowany <a href="http://nbviewer.jupyter.org/github/fonnesbeck/Bios8366/tree/master/notebooks/">**tutorial Chrisa Fonnesbecka**</a> powiązany z kursem zaawansowanego przetwarzania danych w pythonie. Notatniki z sekcji drugiej dotyczą różnych aspektów obsługi pakietu pandas i zawierają sporo materiałów wykraczających poza treści omawiane tutaj. 

Całkiem rozbudowany <a href="http://tomaugspurger.github.io/modern-1.html">**tutorial**</a> wspomnianego wcześniej Toma Augspurgera. Tutaj również znajdziecie trochę bardziej zaawansowanych materiałów.

<a href='#top' style='float: right; font-size: 13px;'>Do początku</a>

In [1]:
from IPython.core.display import HTML
from urllib.request import urlopen
HTML(urlopen("https://raw.githubusercontent.com/mkoculak/Warsztat-programowania/master/ipython.css").read().decode("utf-8"))