# 3. Pandas - grupowanie, agregacja i wizualizacja

### Tomasz Rodak

Laboratorium 3

---

## 3.1 Iris

Zbiór danych zawierający pomiary 150 kwiatów irysa, podzielonych na trzy gatunki:

* Iris setosa
* Iris versicolor
* Iris virginica

Dla każdego kwiatu zmierzono cztery cechy:

* długość działki kielicha (sepal length)
* szerokość działki kielicha (sepal width)
* długość płatka (petal length)
* szerokość płatka (petal width)

Po raz pierwszy w analizie statystycznej został użyty przez Ronalda Fishera w pracy [*The use of multiple measurements in taxonomic problems*](https://onlinelibrary.wiley.com/doi/abs/10.1111/j.1469-1809.1936.tb02137.x).

Udostępniony w wielu pakietach, m. in. w seaborn.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

df = sns.load_dataset('iris')
df.head()

### 3.1.1 Grupowanie i agregacja

Do grupowania służy metoda `pd.DataFrame.groupby()`. Wynik działania tej metody to obiekt `pd.DataFrameGroupBy`, który zwykle jest następnie poddawany działaniu jakiejś metody agregującej, np. `mean()`, `sum()`, `count()`, `size()`, `std()`, `var()`, `min()`, `max()`, `median()`, `quantile()`, ...

Dokumentacja metody `groupby()` znajduje się [tutaj](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html).

Przykładowa ramka:

In [None]:
ramka = pd.DataFrame({
    "A": [100, 200, 200, 300, 300],
    "B": [200, 300, 200, 300, 200],
    "Z": ["X", "Y", "X", "Y", "X"],
})
ramka

Podgląd grup utworzonych względem kolumny `Z`:

In [None]:
ramka.groupby('Z').groups

Agregacja za pomocą metody `size()` - zliczenie elementów w każdej grupie:

In [None]:
ramka.groupby('Z').size()

Agregacja za pomocą metody `sum()` - suma elementów w kolumnach względem grup:

In [None]:
ramka.groupby('Z').sum()

Podobne wywołanie, ale z agregacją za pomocą `mean()`:

In [None]:
ramka.groupby('Z').mean()

Pomiędzy grupowaniem a agregacją można wstawić selekcję kolumn:

In [None]:
ramka.groupby('Z')[['A']].sum()

**Zadanie 1.** Oblicz średnią długość płatka dla każdego z gatunków. Wykorzystaj metody `groupby()` i `mean()`.

**Zadanie 2.** Zobacz jak wygląda tabela II w pracy Fishera. Czy potrafisz odtworzyć ją z ramki `df`?

*Wsakzówka:* Nową kolumnę do ramki danych dodasz za pomocą składni `df['nazwa_kolumny'] = wartości` (gdzie `df` to jakakolwiek ramka, niekoniecznie ta sama, którą wczytaliśmy na początku). Wartością może być obiekt `pd.Series`, np. wynik operacji na innych kolumnach. 

**Zadanie 3.** Oblicz macierz korelacji cech dla każdego z gatunków z osobna. Wykorzystaj metody `groupby()` i `corr()`. Macierz korelacji konkretnego gatunku możesz zwizualizować za pomocą 

```python
sns.heatmap(c, annot=True)
```

gdzie `c` to macierz korelacji.

Metoda `pd.DataFrame.transform()` pozwala na zastosowanie funkcji do każdej grupy w ramce danych i zwrócenie wyników w takiej samej formie, co oryginalna ramka danych.

Przykład dla poprzedniej ramki:

In [None]:
ramka

In [None]:
ramka.groupby('Z').transform('sum')

Przykład na danych *Iris* - ramka średnich **wewnątrzgrupowych**:

In [None]:
df.groupby('species').transform('mean')

**Zadanie 4.** Odtwórz tabelę III z pracy Fishera. Wykorzystaj metodę `transform()` i mnożenie macierzowe.

### 3.1.2 Wizualizacja

Wykres rozrzutu *petal length* vs. *petal width* z podziałem na gatunki:

In [None]:
sns.scatterplot(data=df, x='petal_length', y='petal_width', hue='species')

**Zadanie 5.** Narysuj wykres rozrzutu *sepal length* vs. *sepal width* z podziałem na gatunki.

Wizualizacja zależności między wszystkimi zmiennymi:

In [None]:
sns.pairplot(df, hue='species')

**Zadanie 6.** Skomentuj wykres. Czy gatunki są od siebie rozróżnialne na podstawie tych zmiennych?

Wizualizacja zależności *petal width* od *petal length* z prostą regresji:

In [None]:
sns.regplot(data=df, x='petal_length', y='petal_width')

**Zadanie 7.** Na rysunku powyżej brakuje podziału na gatunki. Okazuje się, że funkcja `sns.regplot()` nie obsługuje automatycznie podziału na grupy. Problem możesz rozwiązać na kilka sposobów. Jeden z nich to użycie funkcji `sns.regplot()` z argumentem `scatter=False`, a następnie dodanie punktów za pomocą funkcji `sns.scatterplot()`. Operacje te należy wykonać w jednej komórce.

**Zadanie 8.** Narysuj wykresy pudełkowe dla *sepal length* z podziałem na gatunki.

**Zadanie 9.** Wyświetl na jednym wykresie histogramy dla *petal width* dla każdego z gatunków. Sprawdź jak zmienia się postać histogramu w zależności od wartości argumentu `bins`. Za co odpowiada parametr `kde`?

**Zadanie 10.** Wykonaj podobne analizy jak wyżej dla innych ramek dostępnych w pakiecie seaborn. 