# Eksploracja danych w Pandas

## Wczytanie danych Titanic

In [None]:
import pandas as pd

# Pobieranie danych bezpośrednio z internetu
# Opis danych https://www.kaggle.com/c/titanic/data
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url).set_index('PassengerId')

display(df)

## Brakujące wartości

In [None]:
df.info()
df.describe()

In [None]:
display(df.isna()) # Bool czy są puste
print(df.isna().sum()) # Sumowanie po kolumnach
print(df.isna().sum(axis=1)) # Sumowanie po wierszach

## Usuwanie brakujących wartości

In [None]:
df_dropna = df.dropna()  # Usunięcie wszystkich wierszy z brakującymi wartościami

# Usunięcie wszystkich wierszy z brakującymi wartościami w danych kolumnach
df_dropna = df.dropna(subset=['Age'])  

# Uzupełnienie medianą wieku
df_fillna = df.fillna({"Age": df["Age"].median()})  

# Usuwanie wierszy z dużą liczbą braków
threshold = len(df.columns) * 0.5
df_cleaned = df.dropna(thresh=threshold, axis=0)

# Wypełnianie na podstawie innej kolumny
median_age_by_class = df.groupby("Pclass")["Age"].transform(lambda x: x.fillna(x.median()))
df["Age"] = median_age_by_class

### Ćwiczenie: 
1. Wypełnij brakujące wartości w kolumnie "Embarked" najczęstszą wartością
2. Wypełnij brakujące wartości w kolumnie "Cabin" wartością "Unknown"
3. Sprawdź, ile wartości w kolumnie "Cabin" jest nadal nieznanych po wcześniejszym wypełnieniu
4. Wypełnij brakujące wartości w kolumnie "Age" średnią wieku dla danej płci "Sex"

## Grupowanie i agregacja

In [None]:
# Funkcja value_counts()
display(df[['Survived', 'Sex']].value_counts())

# Funkcja groupby
# Grupowanie wg klasy i płci, średnia przeżywalność
agg_survival = df.groupby(["Pclass", "Sex"])['Survived'].mean()
display(agg_survival)
# Output jako DataFrame
agg_survival = df.groupby(["Pclass", "Sex"])[['Survived']].mean()
display(agg_survival)

### Ćwiczenie: 
1. Policz medianę wieku dla każdej klasy pasażerów
2. Oblicz średnią cenę biletu dla każdej kombinacji "Pclass" i "Embarked"
3. Sprawdź maksymalną liczbę rodzeństwa i rodziców podróżujących razem dla każdej klasy

## Różne rodzaje agregacji

### Funkcje używane na `groupby` w Pandas

Po zastosowaniu `.groupby()` w Pandas można korzystać z różnych funkcji agregujących, transformujących i filtrujących dane.

#### **Funkcje agregujące (`.agg()`)**
Te funkcje zwracają jedną wartość dla każdej grupy:

- `.sum()` – suma wartości w grupie
- `.mean()` – średnia arytmetyczna
- `.median()` – mediana
- `.min()` – najmniejsza wartość
- `.max()` – największa wartość
- `.count()` – liczba elementów w grupie
- `.nunique()` – liczba unikalnych wartości w grupie
- `.first()` – pierwszy element w grupie
- `.last()` – ostatni element w grupie
- `.prod()` – iloczyn wartości
- `.std()` – odchylenie standardowe
- `.var()` – wariancja

#### **Funkcje transformujące (`.transform()`)**
Te funkcje zwracają wartość dla każdego wiersza, zachowując oryginalny rozmiar:

- `.cumsum()` – skumulowana suma
- `.cumprod()` – skumulowany iloczyn
- `.rank()` – ranking wartości w grupie
- `.fillna()` – wypełnienie brakujących wartości
- `.ffill()` / `.bfill()` – propagacja wartości do przodu i do tyłu
- `.shift(n)` – przesunięcie wartości o `n` pozycji

In [None]:
# Grupowanie po klasie biletu
aggs = df.groupby("Pclass").agg({
    "Age": ["mean", "median", "min", "max", "std"],
    "Fare": ["sum", "mean", "max", "min", "std"],
    "Survived": ["count", "sum", "mean"]
})
display(aggs)

# Grupowanie po płci
df_grouped = df.groupby("Sex").agg({
    "Age": "mean",
    "Fare": "sum",
    "Survived": ["mean", "count"]
})
display(df_grouped)

### Ćwiczenie: 
1. Oblicz odchylenie standardowe ceny biletu dla każdej klasy
2. Policz liczbę pasażerów dla każdej kombinacji "Pclass" i "Sex"

## Sortowanie danych

In [None]:
# Sortowanie po wieku i cenie biletu
df_sorted = df.sort_values(by=["Age", "Fare"], ascending=[True, False])
print(df_sorted.head())

# Inne sposoby sortowania
df_sorted_multi = df.sort_values(by=["Pclass", "Survived", "Age"], ascending=[True, False, True])
print(df_sorted_multi.head())

### Ćwiczenie: 
Posortuj dane po płci i wieku rosnąco