# Podstawowe pojęcia statystyczne i podstawy `pandas`

## Wstęp



### Importowanie bibliotek

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import kagglehub

In [None]:
!export KAGGLEHUB_CACHE='/content/kagglehub_cache'
!export KAGGLEHUB_DATA_DIR='/content/kagglehub_data'

### Pobieranie danych z Kaggle

Żródło i opis pobieranego zbioru danych:: https://www.kaggle.com/datasets/prakharrathi25/banking-dataset-marketing-targets

In [None]:
path = kagglehub.dataset_download("prakharrathi25/banking-dataset-marketing-targets")

print("Path to dataset files:", path)

## Podstawowe operacje w `pandas`

### Wczytywanie danych

- `pd.DataFrame` to struktura danych przypominająca tabelę z wierszami i kolumnami.

In [None]:
train_data = pd.read_csv(f"{path}/train.csv", sep=';', header=0, index_col=None, decimal='.')
test_data = pd.read_csv(f"{path}/test.csv", sep=';', header=0, index_col=None, decimal='.')

- `sep=';'` - określa, że wartości w pliku są oddzielone średnikiem.
- `header=0` - oznacza, że pierwszy wiersz pliku zawiera nazwy kolumn.
- `index_col=None` - oznacza, że nie używamy żadnej kolumny jako indeksu wierszy.
- `decimal='.'` - określa, że w liczbach dziesiętnych używany jest znak kropki jako separator dziesiętny.

### Podgląd i najważniejsze informacje

Wyświetlamy pierwsze 10 wierszy ramki danych 'train_data', aby zobaczyć, jak wyglądają dane.

In [None]:
train_data.head(10)

Wyświetlamy ostatnie 10 wierszy ramki danych 'train_data', aby zobaczyć, jak wyglądają końcowe dane.

In [None]:
train_data.tail(10)

Sprawdzamy wymiary ramki danych 'train_data' (liczba wierszy i kolumn).

In [None]:
train_data.shape

Wyświetlamy nazwy wszystkich kolumn w ramce danych 'train_data'.

In [None]:
train_data.columns

Wyświetlamy indeks wierszy ramki danych 'train_data'. Domyślnie są to liczby od 0 do liczby wierszy minus 1.

In [None]:
train_data.index

### Typ `pd.DataFrame` i typ `pd.Series`

Używamy .loc do wyboru wierszy (do indeksu 3 włącznie) i kolumn po ich nazwach ('education', 'default').

Wiersze i kolumny wybieramy według ich oryginalnych nazw.

Wynikiem jest DataFrame (tabela).

In [None]:
train_data.loc[:3, ['education', 'default']]

Używamy .iloc do wyboru wierszy (do indeksu 3, bez włączenia go) i kolumn po ich numerach (indeksy 3 i 4).

Wiersze i kolumny wybieramy według ich kolejności.

Wynikiem jest DataFrame (tabela).


In [None]:
train_data.iloc[:3, [3, 4]]

Wybieramy jedną kolumnę ('education') używając podwójnych nawiasów kwadratowych.

Wynikiem jest DataFrame (nadal tabela, nawet jeśli ma tylko jedną kolumnę).

In [None]:
train_data[['education']].head(3)
# type(train_data[['education']].head(3)) # Możemy sprawdzić typ obiektu - to DataFrame

Wybieramy jedną kolumnę ('education') używając pojedynczych nawiasów kwadratowych.

Wynikiem jest Series (jednowymiarowa struktura danych, jak pojedyncza kolumna).

In [None]:
train_data['education'].head(3)
# type(train_data['education'].head(3)) # Możemy sprawdzić typ obiektu - to Series.

Inną metodą wyboru pojedynczej kolumny ('education') jest użycie notacji z kropką.

Wynikiem również jest Series.

In [None]:
train_data.education.head(3)
# type(train_data.education.head(3)) # Sprawdzamy typ - to także Series.

## Podatawowe pojęcia statystyczne

### Miary tendencji centralnej

#### Średnia
Średnia arytmetyczna (mean) jest sumą wszystkich wartości podzieloną przez ich liczbę. Jest to najczęściej używana miara tendencji centralnej, ale jest wrażliwa na wartości odstające.

Wzór na średnią arytmetyczną dla zbioru danych $x_1, x_2, ..., x_n$:
$$ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i $$

#### Mediana
Mediana (median) to wartość środkowa w posortowanym zbiorze danych. Jeśli liczba danych jest parzysta, mediana jest średnią dwóch środkowych wartości. Mediana jest mniej wrażliwa na wartości odstające niż średnia.

In [None]:
# Przykład obliczenia średniej i mediany dla danych z kolumny 'balance'

srednia = train_data['balance'].mean()
mediana = train_data['balance'].median()

print(f"Średnia: {round(srednia, 2)}")
print(f"Mediana: {round(mediana, 2)}")

### Miary rozproszenia

#### Odchylenie standardowe
Odchylenie standardowe (standard deviation) mierzy rozrzut danych wokół średniej. Niskie odchylenie standardowe oznacza, że punkty danych są zgrupowane blisko średniej, podczas gdy wysokie odchylenie standardowe oznacza większy rozrzut.

Wzór na odchylenie standardowe próbki (zwykle używane w praktyce):
$$ s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} $$
Wzór na odchylenie standardowe populacji:
$$ \sigma = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2} $$

#### Wariancja
Wariancja (variance) jest kwadratem odchylenia standardowego. Mierzy średni kwadrat różnic między poszczególnymi wartościami a średnią zbioru danych.

Wzór na wariancję próbki:
$$ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$
Wzór na wariancję populacji:
$$ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 $$

In [None]:
# Przykład obliczenia odchylenia standardowego i wariancji dla danych z kolumny 'balance'

odchylenie_standardowe = train_data['balance'].std()
wariancja = train_data['balance'].var()

print(f"Odchylenie standardowe: {round(odchylenie_standardowe, 2)}")
print(f"Wariancja: {round(wariancja, 2)}")

### Kwantyl, kwartyl, centyl

#### Kwantyl
Kwantyl (quantile) to punkt odcięcia, który dzieli zbiór danych na podzbiory o równej liczbie obserwacji.

Formalna definicja kwantylu rzędu $p$ (gdzie $0 < p < 1$) dla dystrybuanty $F(x)$ zmiennej losowej $X$ jest najmniejszą wartością $x$ taką, że $F(x) \ge p$. W przypadku danych empirycznych, kwantyl rzędu $p$ jest wartością, która dzieli posortowane dane na proporcję $p$ i $1-p$.

#### Kwartyl
Kwartyle (quartiles) to specyficzne kwantyle, które dzielą zbiór danych na cztery równe części (25%, 50%, 75%). Drugi kwartyl jest równy medianie.
- Pierwszy kwartyl (Q1) = 25. centyl = kwantyl rzędu 0.25
- Drugi kwartyl (Q2) = 50. centyl = kwantyl rzędu 0.50 = Mediana
- Trzeci kwartyl (Q3) = 75. centyl = kwantyl rzędu 0.75

#### Centyl
Centyle (percentiles) to kwantyle, które dzielą zbiór danych na sto równe części. Na przykład 90. centyl to wartość, poniżej której znajduje się 90% danych. Centyl rzędu $p$ jest równy kwantylowi rzędu $p/100$.

In [None]:
# Przykład obliczenia kwantyli, kwartyli i centyli dla danych z kolumny 'balance'

kwantyle = train_data['balance'].quantile([0.25, 0.5, 0.75]) # Obliczamy kwantyle 0.25, 0.50 i 0.75 (czyli kwartyle Q1, Q2, Q3).
centyl_90 = train_data['balance'].quantile(0.90) # Obliczamy 90. centyl, czyli wartość, poniżej której jest 90% danych.

print(f"Kwantyle (Q1, Q2, Q3): \n{kwantyle.round(2)}")
print(f"90. centyl: {round(centyl_90, 2)}")

### Rozkład prawdopodobieństwa, masa i gęstość

#### Rozkład prawdopodobieństwa
Rozkład prawdopodobieństwa (probability distribution) opisuje, jak prawdopodobieństwo jest rozłożone między różne możliwe wartości zmiennej losowej.

#### Funkcja masy prawdopodobieństwa (PMF)
Funkcja masy prawdopodobieństwa (Probability Mass Function - PMF) dotyczy zmiennych losowych dyskretnych i przypisuje prawdopodobieństwo każdej możliwej wartości.

#### Funkcja gęstości prawdopodobieństwa (PDF)
Funkcja gęstości prawdopodobieństwa (Probability Density Function - PDF) dotyczy zmiennych losowych ciągłych i opisuje względne prawdopodobieństwo wystąpienia różnych wartości. Pole pod krzywą PDF w danym przedziale reprezentuje prawdopodobieństwo wystąpienia wartości z tego przedziału.

In [None]:
# Generowanie danych z rozkładu normalnego
dane_normalne = np.random.normal(loc=0, scale=1, size=1000)
df_normalne = pd.DataFrame(dane_normalne, columns=['Wartość'])

# Rysowanie histogramu (przybliżenie rozkładu)
plt.hist(df_normalne['Wartość'], bins=30, density=True, alpha=0.6, color='g')
plt.title('Histogram przykładowych danych')
plt.xlabel('Wartość')
plt.ylabel('Częstość')
plt.show()

### Kowariancja i korelacja

#### Kowariancja
Kowariancja (covariance) mierzy kierunek liniowej zależności między dwiema zmiennymi losowymi. Dodatnia kowariancja oznacza, że gdy jedna zmienna rośnie, druga zazwyczaj też rośnie. Ujemna kowariancja oznacza, że gdy jedna zmienna rośnie, druga zazwyczaj maleje. Wartość kowariancji zależy od skali zmiennych.

Wzór na kowariancję próbki między zmiennymi X i Y:
$$ \text{cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) $$

#### Korelacja
Współczynnik korelacji (correlation coefficient), najczęściej Pearsona, mierzy siłę i kierunek liniowej zależności między dwiema zmiennymi. W przeciwieństwie do kowariancji, korelacja jest standaryzowana i przyjmuje wartości od -1 do +1. Wartość +1 oznacza idealną dodatnią korelację liniową, -1 idealną ujemną korelację liniową, a 0 brak korelacji liniowej.

Wzór na współczynnik korelacji Pearsona między zmiennymi X i Y:
$$ r_{xy} = \frac{\text{cov}(X, Y)}{s_x s_y} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} $$
gdzie $s_x$ i $s_y$ to odchylenia standardowe próbek X i Y.

In [None]:
# Kowariancja mierzy kierunek liniowej zależności między dwiema zmiennymi (czy rosną razem, czy jedna rośnie, a druga maleje).
# Korelacja mierzy siłę i kierunek liniowej zależności, ale jest standaryzowana (wartości od -1 do +1).

from pandas.api.types import is_numeric_dtype # Importujemy funkcję do sprawdzania, czy typ kolumny jest numeryczny.

# Wybieramy tylko kolumny numeryczne, ponieważ kowariancję i korelację obliczamy dla zmiennych liczbowych.
numeric_columns = [c for c in train_data.columns if is_numeric_dtype(train_data[c])]

df = train_data[numeric_columns] # Tworzymy nowy DataFrame tylko z kolumn numerycznych.

kowariancja = df.cov()
korelacja = df.corr()

print("Macierz kowariancji:")
display(kowariancja.round(3)) # Wyświetlamy macierz kowariancji, zaokrągloną do 3 miejsc po przecinku.
print("\n\nMacierz korelacji")
display(korelacja.round(3)) # Wyświetlamy macierz korelacji, zaokrągloną do 3 miejsc po przecinku.

## Przydatne funcjonalności w pandasie

### Podsumowanie informacji o danych

Generuje podstawowe statystyki opisowe dla kolumn numerycznych (np. średnia, mediana, min, max, odchylenie standardowe). Pomaga szybko zorientować się w rozkładzie danych.

In [None]:
train_data.describe()

Sprawdza, czy w danych są brakujące wartości (NaN) i oblicza ich procentowy udział w każdej kolumnie. Wartość 0.0 oznacza brak brakujących danych w danej kolumnie.

In [None]:
train_data.isna().mean()

Wyświetla listę unikalnych wartości w kolumnie 'job'. Przydatne do sprawdzenia, jakie są kategorie w danych kategorialnych.

In [None]:
train_data.job.drop_duplicates()

Zlicza, ile razy każda unikalna wartość pojawia się w kolumnie 'job'. Pokazuje rozkład częstości kategorii.

In [None]:
train_data.job.value_counts()

Usuwa wskazaną kolumnę ('education') z tymczasowego DataFrame. axis=1 oznacza, że usuwamy kolumnę.

In [None]:
train_data[['job', 'education']].drop('education', axis=1).head(3)

Usuwa wiersz o wskazanym indeksie (indeks 0) z tymczasowego DataFrame. axis=0 oznacza, że usuwamy wiersz.

In [None]:
train_data[['job', 'education']].drop(0, axis=0).head(3)

Inna metoda wyświetlania listy unikalnych wartości w kolumnie 'job'. Zwraca tablicę numpy.

In [None]:
pd.unique(train_data.job)

Sortuje wiersze DataFrame według wartości w kolumnie 'balance' (domyślnie rosnąco).

In [None]:
train_data.sort_values('balance')

### Filtrowanie danych

Pandas oferuje wiele elastycznych sposobów wybierania podzbiorów danych na podstawie określonych kryteriów. Poniżej przedstawiamy kilka przykładów.

Przykład filtrowania danych - wybieramy tylko wiersze, gdzie kolumna 'education' ma wartość 'tertiary'.

Wyświetlamy wynikowe, przefiltrowane dane.

In [None]:
train_data_tertiary = train_data[train_data['education'] == 'tertiary']
display(train_data_tertiary)

Filtrowanie według wielu warunków (np. wiek powyżej 50 i wykształcenie 'tertiary')

Łączymy warunki za pomocą operatorów logicznych:
- & (AND - i): oba warunki muszą być prawdziwe
- | (OR - lub): przynajmniej jeden warunek musi być prawdziwy
- ~ (NOT - nie): negacja warunku

Wybieramy wiersze, gdzie wiek jest większy niż 50 ORAZ wykształcenie to 'tertiary'.

Każdy warunek umieszczamy w nawiasach.

Wyświetlamy kilka pierwszych wierszy wyniku.

In [None]:
filtered_data_multiple_conditions = train_data[(train_data['age'] > 50) & (train_data['education'] == 'tertiary')]
print("Dane dla osób powyżej 50 lat z wykształceniem wyższym:")
display(filtered_data_multiple_conditions.head())

Filtrowanie według listy wartości (np. tylko zawody 'management' i 'technician')

Używamy metody .isin() do sprawdzenia, czy wartość w kolumnie znajduje się na podanej liście.

Wyświetlamy kilka pierwszych wierszy wyniku.

In [None]:
jobs_to_filter = ['management', 'technician']
filtered_data_isin = train_data[train_data['job'].isin(jobs_to_filter)]
print("\nDane tylko dla zawodów 'management' i 'technician':")
display(filtered_data_isin.head())

Filtrowanie według wartości tekstowych (np. zawody zawierające słowo 'blue')

Używamy metody .str.contains() do wyszukiwania wzorca tekstowego w kolumnie typu string.

case=False ignoruje wielkość liter.

Wyświetlamy kilka pierwszych wierszy wyniku.

In [None]:
filtered_data_string_contains = train_data[train_data['job'].str.contains('blue', case=False, na=False)]
print("\nDane dla zawodów zawierających słowo 'blue':")
display(filtered_data_string_contains.head())

Filtrowanie według braku danych (np. wiersze z brakującymi wartościami w kolumnie 'poutcome' - choć w tym zbiorze ich nie ma)

Używamy metody .isna() lub .isnull() do znalezienia brakujących wartości (NaN).

Metoda .notna() lub .notnull() znajduje wartości, które NIE są brakujące.

Wyświetlamy kilka pierwszych wierszy wyniku.

In [None]:
filtered_data_missing = train_data[train_data['poutcome'].isna()]
print("\nWiersze z brakującymi wartościami w kolumnie 'poutcome' (oczekujemy pustego wyniku, jeśli ich nie ma):")
display(filtered_data_missing.head())

### Gruwanie danych

Przykład grupowania danych - grupujemy wiersze według wartości w kolumnie 'job', a następnie obliczamy średnią dla kolumn numerycznych w każdej grupie.

Wybieramy kolumny numeryczne oraz kolumnę 'job' do grupowania.

Tworzymy DataFrame z kolumn do grupowania i analizy.

Grupujemy dane wg kolumny 'job' i dla każdej grupy obliczamy średnią ('mean()') dla pozostałych kolumn.

In [None]:
df_grouped = train_data[numeric_columns + ['job']]

display(df_grouped.groupby('job').mean())

Obliczenie liczby obserwacji w każdej grupie zawodowej

In [None]:
print("Liczba obserwacji w każdej grupie zawodowej:")
display(df_grouped.groupby('job').size())

Obliczenie mediany salda dla każdej grupy zawodowej

In [None]:
print("\nMediana salda dla każdej grupy zawodowej:")
display(df_grouped.groupby('job')['balance'].median())

Obliczenie sumy czasu trwania rozmów dla każdej grupy zawodowej

In [None]:
print("\nSuma czasu trwania rozmów (duration) dla każdej grupy zawodowej:")
display(df_grouped.groupby('job')['duration'].sum())

Zastosowanie wielu funkcji agregujących jednocześnie (np. średnia i odchylenie standardowe wieku)

In [None]:
print("\nŚrednia i odchylenie standardowe wieku dla każdej grupy zawodowej:")
display(df_grouped.groupby('job')['age'].agg(['mean', 'std']))

# Ćwiczenia

Teraz czas na samodzielne przećwiczenie poznanych pojęć i metod w pandasie, korzystając ze zbioru danych `train_data`. Spróbuj rozwiązać poniższe zadania, pisząc odpowiedni kod w komórkach poniżej pytań.

**Ćwiczenie 1: Podstawowe statystyki**

Oblicz i wyświetl:
*   Średnią wieku (`age`) osób w zbiorze danych.
*   Medianę salda (`balance`).
*   Odchylenie standardowe czasu trwania rozmowy (`duration`).
*   Wartość 75. centyla dla kolumny `campaign` (liczba kontaktów w trakcie kampanii).

In [None]:
# Miejsce na kod do Ćwiczenia 1

**Ćwiczenie 2: Filtrowanie danych**

Wykonaj poniższe filtrowania i wyświetl pierwsze 5 wierszy wynikowych ramek danych:
*   Wybierz tylko osoby, które mają status cywilny (`marital`) 'single' (wolny/wolna).
*   Wybierz osoby, które mają pracę (`job`) 'student' (student) LUB 'retired' (emeryt/emerytka).
*   Wybierz osoby, które nie mają kredytu mieszkaniowego (`housing` to 'no') i których saldo (`balance`) jest większe niż 5000.
*   Wybierz osoby, których zawód (`job`) zawiera słowo 'admin' (bez względu na wielkość liter).

In [None]:
# Miejsce na kod do Ćwiczenia 2

**Ćwiczenie 3: Grupowanie danych**

Wykonaj poniższe analizy, grupując dane według wskazanych kolumn:
*   Dla każdej grupy statusu cywilnego (`marital`) oblicz średni wiek (`age`).
*   Dla każdej grupy poziomu wykształcenia (`education`) oblicz medianę salda (`balance`).
*   Dla każdego miesiąca (`month`) oblicz łączną liczbę kontaktów w trakcie kampanii (`campaign`).
*   Dla każdej kombinacji zawodu (`job`) i statusu kredytu mieszkaniowego (`housing`) oblicz średni czas trwania rozmowy (`duration`).

In [None]:
# Miejsce na kod do Ćwiczenia 3