
# Wprowadzenie do Scikit-Learn

**Scikit-Learn** to jedna z najpopularniejszych bibliotek do uczenia maszynowego w języku Python. Jest to otwartoźródłowy pakiet, który oferuje łatwe w użyciu narzędzia do budowy i testowania modeli uczenia maszynowego, z naciskiem na klasyfikację, regresję, klasteryzację i przetwarzanie danych. Scikit-Learn bazuje na takich bibliotekach jak **NumPy**, **SciPy** i **matplotlib**, co pozwala na efektywne przetwarzanie danych i wizualizację wyników.

## Główne Zalety Scikit-Learn
1. **Łatwość Użycia**: Prosty i spójny interfejs API, który sprawia, że uczenie maszynowe jest przystępne nawet dla osób, które dopiero zaczynają.
2. **Bogaty Zestaw Algorytmów**: Scikit-Learn oferuje szeroką gamę algorytmów uczenia nadzorowanego i nienadzorowanego, w tym klasyfikację, regresję, redukcję wymiarowości, oraz metody klasteryzacji.
3. **Dobra Dokumentacja**: Pakiet posiada bardzo dobrą dokumentację oraz wiele przykładów, co ułatwia naukę i szybkie wdrażanie.
4. **Skalowalność**: Idealny do prototypowania, z łatwością pozwala przeskalować modele na większe zbiory danych za pomocą innych narzędzi, takich jak TensorFlow czy PyTorch.

Scikit-Learn jest idealnym narzędziem zarówno do nauki, jak i do szybkiego prototypowania modeli uczenia maszynowego. Dzięki intuicyjnemu interfejsowi, szerokiemu wachlarzowi funkcji i dobrej dokumentacji, jest to jeden z pierwszych wyborów dla każdego, kto zaczyna przygodę z uczeniem maszynowym w Pythonie oraz profesjonalistów wdrazających rozwiązania prdodukcyjne.

## Materiały uzupełniające

- **Dokumentacja scikit-learn** : https://scikit-learn.org/stable/
- **Kurs Supervised Learning with Scikit-Learn na DC** https://app.datacamp.com/learn/courses/supervised-learning-with-scikit-learn


## Przygotowanie środowiska

Instalacja najnowszych wersji pakietów (na dzień 25-10-2024)

In [None]:
%pip install scikit-learn==1.5.2
%pip install ydata-profiling==4.11.0
%pip install ucimlrepo==0.0.7

Po zainstalowaniu pakietów naley zrestartować środowisko -> Ikona restart

In [None]:
import pandas as pd
from ucimlrepo import fetch_ucirepo
from ydata_profiling import ProfileReport

## Pobieranie danych

**Bank Marketing Data** 
Zbiór danych używany do przewidywania, czy klient banku skorzysta z oferty (subskrypcji) na podstawie takich cech, jak wiek, wykształcenie, zatrudnienie, kontakt z bankiem itp.

Zródło danych i metadane: https://archive.ics.uci.edu/dataset/222/bank+marketing

In [None]:
bank_marketing = fetch_ucirepo(id=222)

features = bank_marketing.data.features
target = bank_marketing.data.targets

In [None]:
# podejzyj zaimportowaną datra frame


In [None]:
# za pomocą dostępnych funkcji lub metod bibloteki pandas określ czy, ewentualnie które kolumny mają brakujące wartości i zlicz wystąpienia

# Twój kod wykonaj ponizej:


In [None]:
# sprawdź czy typy kolumn po imporcie zgadzają się z zadeklarowanymi w dokumentacji datasetu
# jeeli, któraś kolumna nie jest zaimportowana jako poprawny typ moe uyć metody astype() na obiekcie pd.DataFrame aby zmienić typ danych

# Twój kod wykonaj ponizej:



In [None]:
# określ rozkłąd zmiennej celu 'targets' (jaki % kleintów skorzysta z subskrybcji)


## Eksploracyjna Analiza Danych z uyciem ydata-profiling

### Pakiet ydata-profiling

Pakiet **ydata-profiling** (wcześniej znany jako **pandas-profiling**) jest narzędziem służącym do szybkiego tworzenia kompleksowych raportów analizy eksploracyjnej danych (Exploratory Data Analysis, EDA) z wykorzystaniem danych przechowywanych w obiektach `pandas DataFrame`. Pakiet ten pozwala na automatyczne generowanie interaktywnego raportu HTML, który zawiera szczegółowe informacje o każdym atrybucie zbioru danych.

**ydata-profiling** oferuje m.in.:
1. **Podstawowe statystyki** – Oblicza podstawowe statystyki, takie jak średnia, mediana, min, max, wariancja, odchylenie standardowe itp. dla każdej kolumny.
2. **Rozkład wartości** – Pokazuje rozkład wartości liczbowych i kategorycznych w każdej kolumnie, w tym histogramy i wykresy częstości.
3. **Braki danych** – Wykrywa i raportuje brakujące wartości w kolumnach oraz pokazuje ich rozkład.
4. **Korelacje** – Analizuje korelacje między kolumnami, dostarczając informacje na temat możliwych zależności.
5. **Wykrywanie nieprawidłowości** – Identyfikuje potencjalne problemy, takie jak wartości odstające (outliers), duplikaty, oraz nietypowe wartości.
6. **Podsumowanie danych** – Zawiera ogólną analizę i podsumowanie zbioru danych, co pozwala szybko zrozumieć strukturę i właściwości danych.

Użycie **ydata-profiling** jest bardzo proste, wystarczy kilka wierszy kodu, aby wygenerować raport z obiektu `DataFrame`:

```python
import pandas as pd
from ydata_profiling import ProfileReport

# Wczytanie danych
df = pd.read_csv('data.csv')

# Tworzenie raportu
profile = ProfileReport(df, title="Raport Profilowania Danych")
profile.to_file("raport.html")
```

In [None]:
# Stwórz nową ramkę danych zawierającą wszytskie cechy i zmienną celu


# Stwórz raort i wyeksportuj go do pliku. Przeanalizuj wyniki.


# Preprocessing danych w scikit-learn

## Ćwiczenie: Preprocesor do uzupełniania brakujących wartości
W uczeniu maszynowym przetwarzanie danych jest kluczowym krokiem, który wpływa na wydajność modeli. Scikit-Learn oferuje różne narzędzia do przetwarzania danych, takie jak:
- **Imputer** (`SimpleImputer`) – do uzupełniania brakujących wartości
- **Skalowanie cech** (`StandardScaler`, `MinMaxScaler`) – do normalizacji danych
- **Kodowanie kategoryczne** (`OneHotEncoder`, `LabelEncoder`) – do przekształcania zmiennych kategorycznych na wartości numeryczne
- **Normalizacja** (`Normalizer`) – do normalizacji danych do jednostkowej normy
- **Redukcja wymiarowości** (`PCA`) – do zmniejszania liczby cech
#
W tym ćwiczeniu skupimy się na użyciu **SimpleImputer**, który jest preprocesorem do uzupełniania brakujących wartości w zbiorze danych.

**Dokumentacja metod imputacji zmiennych**: https://scikit-learn.org/stable/modules/impute.html

Zwróć uwagę na rónicę w metodach fit() i fit_transform()

In [None]:
from sklearn.impute import SimpleImputer

In [None]:
# Stwórz obiekt SimpleImputer i dopasuj go do danych, wykonaj imputację metodą właściwą dla danego typu danych


# sprawdź czy braujące wartości zostały uzupełnione


#Zakoduj dane kategoryczne metodą OneHot Encoder



# Podział zbioru na treningowy i testowy

## Ćwiczenie: Dzielenie zbioru na uczący i testowy (80%/20%)

W uczeniu maszynowym często potrzebujemy podzielić nasz zbiór danych na zbiór treningowy i testowy, aby móc ocenić wydajność naszego modelu na danych, które nie były używane podczas treningu. Scikit-Learn oferuje do tego celu funkcję `train_test_split` z modułu `model_selection`.

Funkcja `train_test_split` przyjmuje kilka argumentów, z których najważniejsze to:
- **`test_size`**: Określa proporcję danych, które mają zostać przeznaczone na zbiór testowy (np. `0.2` oznacza, że 20% danych zostanie użyte do testów).
- **`random_state`**: Ustalając wartość `random_state`, możemy zagwarantować powtarzalność wyników podziału danych. Dzięki temu za każdym razem, gdy uruchomimy kod, podział danych będzie identyczny.
- **`stratify`**: Argument `stratify` umożliwia dokonanie podziału danych z uwzględnieniem rozkładu zmiennej celu. Jeśli wskażemy zmienną celu jako wartość `stratify`, wówczas podział na zbiór treningowy i testowy będzie uwzględniał proporcje klas w oryginalnym zbiorze danych.

Dokumentacja funkcji z przykłądami uzycia: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split



In [None]:
from sklearn.model_selection import train_test_split

# Podziel zbiór na uczący i testowy, zapewnij reprodukowalność losowania i stratyfikację




# Trenowanie modeli klasyfikacyjnych

W tej części nauczymy się trenować dwa popularne modele klasyfikacyjne: **Drzewo Decyzyjne** oraz **Las Losowy**. Oba modele należą do grupy algorytmów uczących się na podstawie drzewa decyzyjnego, a Las Losowy jest zespołem wielu drzew decyzyjnych, co zazwyczaj pozwala na uzyskanie lepszej jakości klasyfikacji.

- **Dokumentacja klasyfikatora Drzewa Decyzyjnego**: https://scikit-learn.org/stable/modules/tree.html#classification
- **Dokumentacja klasyfikatora Lasu Losowego** https://scikit-learn.org/stable/modules/ensemble.html


In [None]:
# Zadania:

# 1. Wytrenuj model drzewa decyzyjnego i lasu losowego (z uzyciem domyslnych parametrów)
# 2. Dokonaj predykcji na danych treningowych i tesotwych (medota predict() i predict_proba())

# Obikety wytrenowanych modeli oraz wyniki predykcji zapisz do zmiennych

from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier

# Porównanie klasyfikatorów

W tym ćwiczeniu porównamy wydajność wytrenowanych modeli na danych testowych. Użyjemy do tego **macierzy konfuzji** oraz **classification_report**, które dostarczają szczegółowych informacji na temat wyników klasyfikacji.

- **Dokumentacja confusion_matrix** https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html#sklearn.metrics.confusion_matrix
- **Dokumentacja classifiction_report** https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html

In [None]:
# Dla Drzewa decyzyjnego oraz lasu losowego wygeneruj macierz konfucji i raport klasyfikacji
# Zrób to dla danych testowych i treningowych, porównaj wyniki

from sklearn.metrics import confusion_matrix, classification_report