## Wstęp do Uczenia Maszynowego 
#### Laboratorium 01

### 0. Sprawy organizacyjne

Kontakt: MS Teams, anna.kozak@pw.edu.pl, katarzyna.woznica@pw.edu.pl

Pracujemy z językiem `Python`.

Pracujemy z repozytorium GitHub: https://github.com/kozaka93/2025Z-MachineLearning

Na repozytorium będą się pojawiały pliki `.ipynb` z materiałami na zajęcia.

Rozwiązania prac domowych i projektu będę przesyłane na wskazany adres mail w wyznaczonym terminie.

*Zasady zaliczenia:*
- 3 x praca domowa (3 x 15p) - raport + kod
- projekt (35p) - raport + kod + odpowiedź ustna

Aby zaliczyć laboratoria, należy uzyskać ponad 40 punktów ogółem, w tym co najmniej 15 punktów z projektu. Na podstawie punktów jest wystawiana ocena z części laboratoryjnej.

| Ocena |  3 | 3.5 | 4 | 4.5 | 5 |
|:---:|:---:|:---:|:---:|:---:|:---:|
| Punkty   | (40, 48] | (48, 56] | (56, 64] | (64, 72] | (72, ∞) |

Z oceną za laboratoria przystępuje się do egzaminu ustnego.

### 1. Czym będziemy się zajmować?

<img src="tematy.png" alt="drawing" width="800"/>

$\mathbf{D}= (X, Y)$, gdzie $X$ macierz wymiaru $n \times p$, a $Y$ to wektor wymiaru $n$.

Jeżeli $Y$ jest znany to zajmujemy się uczeniem nadzorowanym, natomiast jeżeli nie znamy wartości $Y$ to mamy do czynienia z uczeniem nienadzorowanym.

Jeżeli $Y \in R$ to jest to zadanie regresji, jeżeli $Y \in \{0, 1, 2, ..\}$ mamy do czynienia z klasyfikacją. Gdy $Y \in \{0,1\}$ mówimy o klasyfikacji binarnej.

### 2. Jak wygląda proces uczenia?

$\mathbf{M}$ - model

$\mathbf{M}: D \rightarrow \hat{Y}$

$\hat{Y} = M(X, Y)$

### 3. Etapy uczenia maszynowego

3.1 Pakiety i dane

In [6]:
# Import potrzebnych pakietów
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import tree

Rozważmy zbiór danych zawierający informacje o zarobkach zawodników Baseballu.

In [4]:
# Zbiory danych można wczytać przez link z GitHub, nie ma koniecznośći ich pobierania.
Hitters = pd.read_csv("Hitters.csv", index_col =[0])

In [5]:
Hitters

Unnamed: 0,AtBat,Hits,HmRun,Runs,RBI,Walks,Years,CAtBat,CHits,CHmRun,CRuns,CRBI,CWalks,League,Division,PutOuts,Assists,Errors,Salary,NewLeague
0,293,66,1,30,29,14,1,293,66,1,30,29,14,A,E,446,33,20,,A
1,315,81,7,24,38,39,14,3449,835,69,321,414,375,N,W,632,43,10,475.0,N
2,479,130,18,66,72,76,3,1624,457,63,224,266,263,A,W,880,82,14,480.0,A
3,496,141,20,65,78,37,11,5628,1575,225,828,838,354,N,E,200,11,3,500.0,N
4,321,87,10,39,42,30,2,396,101,12,48,46,33,N,E,805,40,4,91.5,N
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
317,497,127,7,65,48,37,5,2703,806,32,379,311,138,N,E,325,9,3,700.0,N
318,492,136,5,76,50,94,12,5511,1511,39,897,451,875,A,E,313,381,20,875.0,A
319,475,126,3,61,43,52,6,1700,433,7,217,93,146,A,W,37,113,7,385.0,A
320,573,144,9,85,60,78,8,3198,857,97,470,420,332,A,E,1314,131,12,960.0,A


##### *Zadanie 1*
-------------------
Przygotuj zbiór danych do zbudowania pierwszego modelu.

a) Utwórz zbiór *Hitters_small* zawierający zmienne o nazwach *Years, Hits, Salary*.

b) Przyjrzyj się utworzonemu zbiorowi danych. Jaki jest wymiar danych, typy zmiennych, czy są braki danych? Jakie rozkłady mają zmienne?

c) Podziel zbiór danych na X = ['Years', 'Hits'] i y = ['Salary']. Dokonaj transformacji zmiennej y jako log(y).

d) Podziel dane na zbiór treningowy i testowy (proporcja 50:50).



In [None]:
# a)


In [None]:
# b)


In [None]:
# c)


In [None]:
## Eksperyment - transformacja log zmiennych skośnych

experiment = pd.DataFrame({"Var1" : Hitters.Salary,
                           "Var2": (-Hitters.Salary) + 2000})

experiment["log(Var1)"] = np.log(experiment.Var1)
experiment["log(Var2)"] = np.log(experiment.Var2)

experiment.hist()

In [None]:
# d)


3.2 Podstawy drzew decyzyjnych 


#### *Jak się buduje drzewa dla zadania regresji?*
1. Dzielimy przestrzeń $X = (X_1, X_2, \dots, X_p)$ na $J$ regionów $R_1, R_2, \dots, R_J$.
2. Predykcja w $j$-ty regionie jest równa średniej z wartości obserwacji $y$ zbioru treningowego w regione $R_J$. 

In [None]:
Tree = tree.DecisionTreeRegressor()
Tree = Tree.fit()

Rysunek drzewa

In [None]:
tree.plot_tree(Tree)

Przejrzysty zapis otrzymanego drzewa

In [None]:
from sklearn.tree import export_text
t = export_text(Tree)
print(t)

Drzewo o trzech liściach

Poprzez wskazywanie hiperparametrów możemy manipulować skompliowaniem i jakością modelu drzewa. Zbudujmy drzewo o hiperparametrze `max_leaf_nodes` = 3.

In [None]:
Tree3 = tree.DecisionTreeRegressor()
Tree3 = Tree3.fit()

3.3 Jak dobry jest nasz model (zadanie regresji)?

Błąd średniokwadratowy:

$MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{f}(x_i))^2$,

gdzie:

$y_i$ - wartość prawdziwa dla $i$-tej obserwacji,

$\hat{f}(x_i)$ jest predykcją modelu dla $i$-tej obserwacji.


In [None]:
from sklearn.metrics import mean_squared_error

Ocena graficzna

3.4 Jak dobry jest nasz model (zdanie klasyfikacji)?

**Macierz pomyłek (ang. confusion matrix)**

<img src="confusion_matrix.png" alt="drawing" width="400"/>

Metryki bazujące na macierzy pomyłek:
- dokładność (accuracy) $\frac{TP + TN}{ALL}$

- czułość (recall) $\frac{TP}{TP + FN}$

- precyzja (precision) $\frac{TP}{TP + FP}$

- F1-score $\frac{2TP}{2TP + FP + FN}$