# Zadania do tematu "Klasyfikacja"

W tym Notebooku znajdują się zadania do tematu "Klasyfikacja", aby pokazać implementację i działanie algorytmów do klasyfikacji.

# Zbiór danych

Będziemy korzystać ze zbioru danych "Stroke Diagnosis Dataset" dostępnego pod linkiem https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset/data. Jeżeli ktoś ma konto na Kaggle to może pobrać dane w postaci .csv z tej platformy, a w innym przypadku można pobrać odpowiedni plik .csv z repozytorium do kursu (w folderze z zadaniami Tasks jest podfolder dane, a w nim plik `healthcare-dataset-stroke-data.csv`).

## Opis
Według Światowej Organizacji Zdrowia (WHO) udar jest drugą najczęstszą przyczyną zgonów na świecie i odpowiada za około 11% wszystkich zgonów.
Ten zbiór danych służy do przewidywania, czy pacjent może doznać udaru na podstawie parametrów wejściowych, takich jak płeć, wiek, różne choroby i palenie tytoniu. Każdy wiersz danych zawiera istotne informacje o pacjencie. (opis z Kaggle)

## Opis poszczególnych kolumn:
- **id** - Unikalny identyfikator (ID).  
- **gender** - Płeć: "Male" (Mężczyzna), "Female" (Kobieta) lub "Other" (Inna).  
- **age** - Wiek pacjenta.  
- **hypertension** - Nadciśnienie: 0, jeśli pacjent nie ma nadciśnienia, 1, jeśli pacjent ma nadciśnienie.  
- **heart_disease** - Choroby serca: 0, jeśli pacjent nie ma chorób serca, 1, jeśli pacjent ma chorobę serca.  
- **ever_married** - Czy kiedykolwiek był żonaty/zamężna: "No" (Nie) lub "Yes" (Tak).  
- **work_type** - Rodzaj pracy: "children" (dzieci), "Govt_job" (Praca w sektorze rządowym), "Never_worked" (Nigdy nie pracował), "Private" (Sektor prywatny) lub "Self-employed" (Praca na własny rachunek).  
- **Residence_type** - Typ miejsca zamieszkania: "Rural" (Wiejska) lub "Urban" (Miejska).  
- **avg_glucose_level** - Średni poziom glukozy we krwi (Średni poziom glukozy).  
- **bmi** - Wskaźnik masy ciała (BMI).  
- **smoking_status** - Status palenia: "formerly smoked" (kiedyś palił), "never smoked" (nigdy nie palił), "smokes" (pali) lub "Unknown" (Nieznane).  
  *Uwaga*: "Unknown" w **smoking_status** oznacza, że informacja jest niedostępna dla tego pacjenta.  
- **stroke** - Udar: 1, jeśli pacjent miał udar, lub 0, jeśli nie. **Jest to zmienna docelowa, która będzie podlegała predykcji**  


# 1. Wczytaj dane z pliku do postaci pandas DataFrame. Następnie wykorzystaj head(), żeby wyświetlić pierwsze 5 wierszy.

In [None]:
import pandas as pd
# Wpisz swój kod poniżej


# 2. Sprawdź czy nie występują braki w zbiorze danych (użyj `.info()`). Jeżeli jakiś wiersz nie ma wartości to go usuń.

W późniejszych tematach poznamy inne metody radzenia sobie z tym problemem.

Do usuwania służy `dropna()`.

In [None]:
# Wpisz swój kod poniżej


# 3. Podziel zbiór danych na wartość poszukiwaną y i dane X. Następnie podziel dane na zbiór treningowy, walidacyjny i testowy w stosunku 80:10:10. Użyj random_state=42

In [None]:
from sklearn.model_selection import train_test_split
# Wpisz swój kod poniżej


# 4. Wyświetl typy danych w każdej kolumnie zbioru treningowego, a następnie wykorzystaj `LabelEncoder`, aby we wszystkich kolumnach były dane numeryczne. Pamiętaj, żeby zrobić to również dla zmiennej docelowej

Przykład implementacji `LabelEncoder`
```Python
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df1['kolumna'] = encoder.fit_transform(df1['kolumna'])
df2['kolumna'] = encoder.transform(df2['kolumna'])
```
Pamiętaj, żeby używać `fit_transform` jedynie na zbiorze treningowym, a następnie tym samym enkoderem jedynie transformować wartości w zbiorach walidacyjnym i testowym.

Istnieje możliwość sprawdzenia czemu odpowiada dana wartość liczbowa. Aby to zrobić można wywołać (w tym przypadku sprawdzimy co zostało zakodowane jako `0` i `1`, ale można to dowolnie zmienić):
```Python
le.inverse_transform([0, 1])
```

Warto byłoby zapisać enkodery poszczególnych kolumn do słownika, żeby potem móc sprawdzić co się kryje pod poszczególnymi numerami.

In [None]:
from sklearn.preprocessing import LabelEncoder
# Wpisz swój kod poniżej


# 5. Utwórz macierz korelacji (i wyświetl w formie heatmapy), aby zbadać jakie powiązania występują pomiędzy poszczególnymi kolumnami.

Do złączenia `X_train` i `y_train` możesz wykorzystać poniższy fragment kodu:
```Python
y_train_series = pd.Series(y_train, name='stroke', index=X_train.index)
all_data = pd.concat([X_train, y_train_series], axis=1)
```
Do wyliczenia macierzy korelacji możesz skorzystać z `df.corr()`


In [None]:
from matplotlib import pyplot as plt
import seaborn as sns
# Wpisz swój kod poniżej


# 6. Utwórz punkt odniesienia dla późniejszych modeli. Sprawdź jaki jest udział pacjentów z udarem do wszystkich pacjentów w zbiorze treningowym (możesz policzyć średnią wartość), a następnie losowo wygeneruj informację o udarze dla zbioru walidacyjnego i testowego (z prawdopodobieństwem wynikającym z wyliczonego stosunku). Następnie oblicz `accuracy_score` dla wyniku na zbiorze walidacyjnym.

Możesz wykorzystać `np.random.choice`. Dokumentacja dostępna jest [tutaj](https://numpy.org/doc/2.0/reference/random/generated/numpy.random.choice.html).

In [None]:
from sklearn.metrics import accuracy_score
import numpy as np

np.random.seed(42)
# Wpisz swój kod poniżej


# 7. Utwórz i wytrenuj klasyfikator o strukturze drzewa decyzyjnego `DecisionTreeClassifier`. Dokonaj predykcję i oblicz dokładność na zbiorze walidacyjnym i testowym.

Pamiętaj, żeby ustawić `random_state=42`.

Dokumentacja dla `DecisionTreeClassifier` dostępna jest [tutaj](https://scikit-learn.org/1.5/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier)

In [None]:
from sklearn.tree import DecisionTreeClassifier
# Wpisz swój kod poniżej


# 8. Wygeneruj graf drzewa z poprzedniego zadania.

Dokumentacja `plot_tree` dostępna jest [tutaj](https://scikit-learn.org/1.5/modules/generated/sklearn.tree.plot_tree.html)

In [None]:
from sklearn.tree import plot_tree
# Wpisz swój kod poniżej


# 9. Utwórz i wytrenuj klasyfikator o strukturze lasu losowego `RandomForestClassifier`. Dokonaj predykcję i oblicz dokładność na zbiorze walidacyjnym i testowym.

Pamiętaj, żeby ustawić `random_state=42`.

Dokumentacja dla `RandomForestClassifier` dostępna jest [tutaj](https://scikit-learn.org/1.5/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier)

In [None]:
from sklearn.ensemble import RandomForestClassifier
# Wpisz swój kod poniżej


# 10. Utwórz i wytrenuj klasyfikator o strukturze k najbliższych sąsiadów `KNeighborsClassifier`. Dokonaj predykcję i oblicz dokładność na zbiorze walidacyjnym i testowym.

Przyjmij `n_neighbors=5` sąsiadów.

Dokumentacja dla `KNeighborsClassifier` dostępna jest [tutaj](https://scikit-learn.org/1.5/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier)

In [None]:
from sklearn.neighbors import KNeighborsClassifier
# Wpisz swój kod poniżej


# 11. Utwórz i wytrenuj klasyfikator o strukturze SVM `SVC`. Dokonaj predykcję i oblicz dokładność na zbiorze walidacyjnym i testowym.

Pamiętaj, żeby ustawić `random_state=42`.

Dokumentacja dla `SVC` dostępna jest [tutaj](https://scikit-learn.org/1.5/modules/generated/sklearn.svm.SVC.html)

In [None]:
from sklearn.svm import SVC
# Wpisz swój kod poniżej


# 12. Oprócz wykorzystania pojedynczych klasyfikatorów istnieje możliwość wykorzystania kilku klasyfikatorów, które mogą głosować nad wynikiem klasyfikacji. Wykorzystaj wcześniejsze modele, aby utworzyć `VotingClassifier`. Dokonaj predykcję i oblicz dokładność na zbiorze walidacyjnym i testowym.

Pamiętaj, żeby ustawić `random_state=42`. Wykorzystaj też sposób głosowania `voting='hard'` - jest to konieczne, ponieważ `soft` wymaga zwrócenia prawdopodobieństwa, co nie jest możliwe dla SVC. Możliwa jest również zmiana wag głosów poszczególnych klasyfikatorów, ale na razie zostawmy wszystkim równe.

Dokumentacja dla `VotingClassifier` dostępna jest [tutaj](https://scikit-learn.org/1.5/modules/generated/sklearn.ensemble.VotingClassifier.html#sklearn.ensemble.VotingClassifier)

In [None]:
from sklearn.ensemble import VotingClassifier
# Wpisz swój kod poniżej


# 13: Utwórz macierz pomyłek `confusion_matrix` i wykorzystaj pełność, precyzję i F1 score do oceny modelu lasu losowego. Czy błędy modelu polegające na klasyfikacji jako `0` (brak udaru), gdy powinno być `1`, nie brzmi niebezpiecznie?

In [None]:
from sklearn.metrics import confusion_matrix
# Wpisz swój kod poniżej


In [None]:
from sklearn.metrics import recall_score, f1_score, precision_score
# Wpisz swój kod poniżej


# 14: Optymalizacja Hiperparametrów Modelu Random Forest za pomocą RandomizedSearchCV

## Kroki

1. Dostosuj `RandomizedSearchCV` z wybranymi hiperparametrami:
   - `n_estimators`, `max_depth`, `min_samples_split`, `min_samples_leaf`, `bootstrap`.
2. Ustaw liczbę iteracji na `50`, ilość crossvalidacji na `5`, a metrykę na `recall`.
3. Znajdź najlepsze hiperparametry i przetestuj zoptymalizowany model na zbiorach walidacyjnym i testowym.


- [RandomizedSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html)



In [None]:
from sklearn.model_selection import cross_val_score
# Wpisz swój kod poniżej


In [None]:
from sklearn.model_selection import RandomizedSearchCV

param_dist = {
    'n_estimators': [10, 50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'bootstrap': [True, False]

}

# Wpisz swój kod poniżej


# 15: Wykonaj predykcję z wyliczeniem prawdopodobieństwa i utwórz próg o wartości `0.06`, a następnie utwórz nową predykcję, gdzie zaklasyfikujesz, że pacjent ma udar, jeżeli jego prawdopodobieństwo jest większe niż próg. Wylicz dokładność, pełność, F1 score i precyzję i wyświetl macierz pomyłek. Czy takie predykcje są lepsze niż bez zastosowania progu?

Do predykcji z podaniem prawdopobieństwa wykorzystać `predict_proba`.

In [None]:
# Wpisz swój kod poniżej
