# 1. Dane tabelaryczne - moduł pandas

### Tomasz Rodak

Laboratorium 2

---

## 2.1 Iris

Zbiór danych zawierający pomiary 150 kwiatów irysa, podzielonych na trzy gatunki:

* Iris setosa
* Iris versicolor
* Iris virginica

Dla każdego kwiatu zmierzono cztery cechy:

* długość działki kielicha (sepal length)
* szerokość działki kielicha (sepal width)
* długość płatka (petal length)
* szerokość płatka (petal width)

Po raz pierwszy w analizie statystycznej został użyty przez Ronalda Fishera w pracy [*The use of multiple measurements in taxonomic problems*](https://onlinelibrary.wiley.com/doi/abs/10.1111/j.1469-1809.1936.tb02137.x).

Udostępniony w wielu pakietach, m. in. w seaborn.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

Podgląd danych udostępnionych w pakiecie seaborn:

In [None]:
sns.get_dataset_names()

### 2.1.1 Ładowanie i podstawowa eksploracja

Wczytanie danych. Wynikiem jest obiekt `DataFrame` z modułu pandas:

In [None]:
df = sns.load_dataset('iris')

Podgląd początku i końca danych:

In [None]:
df.head()

In [None]:
df.tail()

Liczba obserwacji i zmiennych:

In [None]:
len(df) # liczba wierszy

In [None]:
df.shape # liczba wierszy, kolumn

Nazwy zmiennych:

In [None]:
df.columns

Informacje o strukturze ramki danych (nazwy zmiennych, typy, braki):

In [None]:
df.info()

Podsumowanie statystyk opisowych:

In [None]:
df.describe()

### 2.1.2 Filtrowanie i selekcja

Selekcja pojedynczej kolumny, wynikiem jest obiekt `pd.Series`:

In [None]:
df['species']

Zliczanie unikalnych wartości w kolumnie metodą `pd.Series.value_counts()`:

In [None]:
df['species'].value_counts()

Selekcja wielu kolumn, wynikiem jest obiekt `DataFrame`:

In [None]:
df[['species', 'sepal_length']].head()

Selekcja warunkowa obserwacji:

In [None]:
setosa = df[df['species'] == 'setosa']

**Zadanie 1.** Podejrzyj początek i koniec ramki `setosa`. Ile obserwacji zawiera? Oblicz statystyki opisowe.

**Zadanie 2.** Co zwraca operacja `df['species'] == 'setosa'`? Czy na podstawie wyniku tej operacji potrafisz wyjaśnić jak działa `df[df['species'] == 'setosa']`?

**Zadanie 3.** Wyznacz ramki dla dwóch pozostałych gatunków. Oblicz statystyki opisowe dla każdej z nich.

**Zadanie 4.** Wybierz te obserwacje z ramki `df`, które mają długość płatka (*petal length*) większą niż 1.5. Jak wiele obserwacji spełnia ten warunek? Jak wygląda rozkład gatunków w tej podramce?

Przykład selekcji warunkowej z użyciem operatorów logicznych - wybieramy obserwacje, które spełniają warunek *petal length* > 1.5 i *sepal length* < 0.3:

In [None]:
df[(df['petal_length'] > 1.5) & (df['petal_width'] < 0.3)]

Pozostałe dostępne operatory logiczne to `|` (alternatywa) i `~` (negacja). Zwróć uwagę na użycie nawiasów okrągłych wokół warunków - są konieczne ze względu na priorytety operatorów.

### 2.1.3 Grupowanie i agregacja

Do grupowania służy metoda `pd.DataFrame.groupby()`. Wynik działania tej metody to obiekt `pd.DataFrameGroupBy`, który zwykle jest następnie poddawany działaniu jakiejś metody agregującej, np. `mean()`, `sum()`, `count()`, `size()`, `std()`, `var()`, `min()`, `max()`, `median()`, `quantile()`, ...

**Zadanie 5.** Oblicz średnią długość płatka dla każdego z gatunków. Wykorzystaj metody `groupby()` i `mean()`.

*Wskazówka:* Dokumentacja metody `groupby()` znajduje się [tutaj](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html).

**Zadanie 6.** Zobacz jak wygląda tabela II w pracy Fishera. Czy potrafisz odtworzyć ją z ramki `df`?

*Wsakzówka:* Nową kolumnę do ramki danych dodasz za pomocą składni `df['nazwa_kolumny'] = wartości` (gdzie `df` to jakakolwiek ramka, niekoniecznie ta sama, którą wczytaliśmy na początku). Wartością może być obiekt `pd.Series`, np. wynik operacji na innych kolumnach. 

<!-- df.groupby('species').cov() -->
**Zadanie 7.** Oblicz macierz kowariancji dla każdego z gatunków. 

Metoda `pd.DataFrame.transform()` pozwala na zastosowanie funkcji do każdej grupy w ramce danych i zwrócenie wyników w takiej samej formie, co oryginalna ramka danych.

Na przykład, ramka średnich **wewnątrzgrupowych** wygląda tak:

In [None]:
df.groupby('species').transform('mean')

**Zadanie 8.** Odtwórz tabelę III z pracy Fishera. 

### 2.1.4 Wizualizacja

Wykres rozrzutu *petal length* vs. *petal width* z podziałem na gatunki:

In [None]:
sns.scatterplot(data=df, x='petal_length', y='petal_width', hue='species')

**Zadanie 8.** Narysuj wykres rozrzutu *sepal length* vs. *sepal width* z podziałem na gatunki.

Wizualizacja zależności między wszystkimi zmiennymi:

In [None]:
sns.pairplot(df, hue='species')

**Zadanie 9.** Skomentuj wykres. Czy gatunki są od siebie rozróżnialne na podstawie tych zmiennych?

Wizualizacja zależności *petal width* od *petal length* z prostą regresji:

In [None]:
sns.regplot(data=df, x='petal_length', y='petal_width')

**Zadanie 10.** Na rysunku powyżej brakuje podziału na gatunki. Okazuje się, że funkcja `sns.regplot()` nie obsługuje automatycznie podziału na grupy. Problem możesz rozwiązać na kilka sposobów. Jeden z nich to użycie funkcji `sns.regplot()` z argumentem `scatter=False`, a następnie dodanie punktów za pomocą funkcji `sns.scatterplot()`. Operacje te należy wykonać w jednej komórce.

**Zadanie 11.** Narysuj wykresy pudełkowe dla *sepal length* z podziałem na gatunki.

**Zadanie 12.** Wyświetl na jednym wykresie histogramy dla *petal width* dla każdego z gatunków. Sprawdź jak zmienia się postać histogramu w zależności od wartości argumentu `bins`. Za co odpowiada parametr `kde`?

**Zadanie 13.** Wykonaj podobne analizy jak wyżej dla innych ramek dostępnych w pakiecie seaborn. 