<a href="https://colab.research.google.com/github/Marcin19721205/MachineLearningBootCamp/blob/main/01_preprocessing01MJ.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### scikit-learn
Strona biblioteki: [https://scikit-learn.org](https://scikit-learn.org)  

Dokumentacja/User Guide: [https://scikit-learn.org/stable/user_guide.html](https://scikit-learn.org/stable/user_guide.html)

Podstawowa biblioteka do uczenia maszynowego w języku Python.

Aby zainstalować bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install scikit-learn
```
Aby zaktualizować do najnowszej wersji bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install --upgrade scikit-learn
```
Kurs stworzony w oparciu o wersję `0.22.1`.

Ja używam 1.6.1 - 2025.10.12

### Preprocessing danych:
1. [Import bibliotek](#0)
2. [Wygenerowanie danych](#1)
3. [Utworzenie kopii danych](#2)
4. [Zmiana typu danych i wstępna eksploracja](#3)
5. [LabelEncoder](#4)
6. [OneHotEncoder](#5)
7. [Pandas *get_dummies()*](#6)
8. [Standaryzacja - StandardScaler](#7)
9. [Przygotowanie danych do modelu](#8)



### <a name='0'></a> Import bibliotek

In [2]:
import numpy as np
import pandas as pd
import sklearn #scikit-learn

sklearn.__version__

'1.6.1'

### <a name='1'></a> Wygenerowanie danych

In [3]:
data = {
    'size': ['XL', 'L', 'M', 'L', 'M'],
    'color': ['red', 'green', 'blue', 'green', 'red'],
    'gender': ['female', 'male', 'male', 'female', 'female'],
    'price': [199.0, 89.0, 99.0, 129.0, 79.0],
    'weight': [500, 450, 300, 380, 410],
    'bought': ['yes', 'no', 'yes', 'no', 'yes']
}

df_raw = pd.DataFrame(data=data)
#print(df_raw)
df_raw #mozna tak drukować w tabeli

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,199.0,500,yes
1,L,green,male,89.0,450,no
2,M,blue,male,99.0,300,yes
3,L,green,female,129.0,380,no
4,M,red,female,79.0,410,yes


### <a name='2'></a> Utworzenie kopii danych



Operuje na kopii danych, df_raw to wygenerowane dane, funkcja df_raw.copy()

 kopiuje oraz wpisuje do nowej zmiennej df, oraz podaje info

In [4]:
df = df_raw.copy()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   size    5 non-null      object 
 1   color   5 non-null      object 
 2   gender  5 non-null      object 
 3   price   5 non-null      float64
 4   weight  5 non-null      int64  
 5   bought  5 non-null      object 
dtypes: float64(1), int64(1), object(4)
memory usage: 372.0+ bytes


### <a name='3'></a> Zmiana typu danych i wstępna eksploracja



Zmieniamy dane typu object (NaN) na zmienne category, lepsze do obróbki

Pętla For w python

In [5]:
for col in ['size', 'color', 'gender', 'bought']:
    df[col] = df[col].astype('category')

df['weight'] = df['weight'].astype('float')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   size    5 non-null      category
 1   color   5 non-null      category
 2   gender  5 non-null      category
 3   price   5 non-null      float64 
 4   weight  5 non-null      float64 
 5   bought  5 non-null      category
dtypes: category(4), float64(2)
memory usage: 744.0 bytes


df.describe() domyślnie wyświetla tylko numeryczne

wyświetl statystyki

In [6]:
df.describe()

Unnamed: 0,price,weight
count,5.0,5.0
mean,119.0,408.0
std,48.476799,75.299402
min,79.0,300.0
25%,89.0,380.0
50%,99.0,410.0
75%,129.0,450.0
max,199.0,500.0


df.describe().T -> Transponuje

In [7]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
price,5.0,119.0,48.476799,79.0,89.0,99.0,129.0,199.0
weight,5.0,408.0,75.299402,300.0,380.0,410.0,450.0,500.0


dokładam wyświetlenie zmiennych category do statystyk

top - wartość pojawiająca się najczęściej

In [8]:
df.describe(include=['category']).T

Unnamed: 0,count,unique,top,freq
size,5,3,L,2
color,5,3,green,2
gender,5,2,female,3
bought,5,2,yes,3


In [9]:
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,199.0,500.0,yes
1,L,green,male,89.0,450.0,no
2,M,blue,male,99.0,300.0,yes
3,L,green,female,129.0,380.0,no
4,M,red,female,79.0,410.0,yes


### <a name='4'></a> LabelEncoder



Przygotowanie do ML

Dane musza być nmeryczne, dlatego musimy je zakodowac

Mapujemy zmienna docelową = bought


---



**!!!Klasą LabelEncoder Mapujemy Dane Docelowe!!!**

---



In [10]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder() #instancja klasy
le.fit(df['bought']) #dopasowanie enkodera do zmiennej - automatycznie dopasowuje enkoder
le.transform(df['bought']) #transformacja - wykonanie mapowania

array([1, 0, 1, 0, 1])

Można to co u góry zrobić w jednym kroku - jak niżej

In [11]:
le.fit_transform(df['bought'])

array([1, 0, 1, 0, 1])

wyświetla mapowanie zmiennej le classes wykonane powyżej

In [12]:
le.classes_

array(['no', 'yes'], dtype=object)

Przypisanie zamapowania do naszego modelu

czyli w jednym wierszu wszystklo co powyżej i wyświetl


In [13]:
df['bought'] = le.fit_transform(df['bought'])
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,199.0,500.0,1
1,L,green,male,89.0,450.0,0
2,M,blue,male,99.0,300.0,1
3,L,green,female,129.0,380.0,0
4,M,red,female,79.0,410.0,1


Inwersja fit transform do pierwotnej postaci dla kolumny bought

dostajemy dane w pierwotnej postaci

In [14]:
le.inverse_transform(df['bought'])

array(['yes', 'no', 'yes', 'no', 'yes'], dtype=object)

In [15]:
df['bought'] = le.inverse_transform(df['bought'])
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,199.0,500.0,yes
1,L,green,male,89.0,450.0,no
2,M,blue,male,99.0,300.0,yes
3,L,green,female,129.0,380.0,no
4,M,red,female,79.0,410.0,yes


### <a name='5'></a> OneHotEncoder

Import klasy One hot encoder

In [16]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder()
encoder.fit(df[['size']])

Wykonanie kodowania zmiennych category na macierz rzadką

otrzymujemy 5 wierszy, bo kolumna siza ma 5 wierszy, i 3 unikalne kolumny (XL, L, M) jako macierz wypełniona 0 i 1


In [17]:
encoder.transform(df[['size']])
#można przypisać do zmiennej i wyświetlić macierz rzadką
encoded = encoder.transform(df[['size']])
print(encoded.toarray())

[[0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 1. 0.]]


encoder.categories_ informuje co w macierzy rzadkiej jest kodowane w poszczególnych kolumnach. Tu L, M, XL

In [18]:
encoder.categories_

[array(['L', 'M', 'XL'], dtype=object)]

Kodowanie zmiennej categories size


---


UŻYWANIE DROP FIRST


---



Co robi drop='first'

Parametr drop='first' w OneHotEncoder oznacza, że pierwsza kategoria zostanie pominięta przy kodowaniu.
Czyli z zestawu np. ['L', 'M', 'XL'] powstanie tylko 2 kolumny, nie 3.

📊 Przykład

Weźmy kolumnę size z wartościami:
['XL', 'L', 'M', 'L', 'M']

Bez drop='first' → wszystkie kategorie:

size	L	M	XL
XL	0	0	1
L	1	0	0
M	0	1	0

Z drop='first' → pierwsza kategoria (np. L) zostaje pominięta:

size	M	XL
XL	0	1
L	0	0
M	1	0
🧠 Dlaczego się to robi?

👉 Aby uniknąć tzw. „pułapki zmiennej fikcyjnej” (dummy variable trap)
czyli sytuacji, w której wszystkie kolumny zakodowane one-hot są liniowo zależne — jedna jest kombinacją pozostałych.

To powoduje problemy w modelach regresyjnych (np. LinearRegression), gdzie współczynniki stają się niestabilne.

Przykład:
Jeśli mamy kolumny L, M, XL, to:

𝐿
+
𝑀
+
𝑋
𝐿
=
1
L+M+XL=1

dla każdego wiersza — pełna zależność liniowa.

Usuwając jedną kategorię (drop='first'), zachowujemy pełną informację, ale unikamy redundancji.


In [19]:
encoder = OneHotEncoder(drop='first')
encoder.fit(df[['size']])
encoder.transform(df[['size']])
#wyświetl
encoded = encoder.transform(df[['size']])
print(encoded.toarray())

[[0. 1.]
 [0. 0.]
 [1. 0.]
 [0. 0.]
 [1. 0.]]


przypomnienie jak wygląda df (kopia naszych danych)

In [20]:
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,199.0,500.0,yes
1,L,green,male,89.0,450.0,no
2,M,blue,male,99.0,300.0,yes
3,L,green,female,129.0,380.0,no
4,M,red,female,79.0,410.0,yes


### <a name='6'></a> Pandas *get_dummies()*

get-dummies zakodowała wszystkie zmienne kategoryczne.

czyli zrobiła robote za

---


LabelEncoder


---


OneHot Encoder


---



ale dzięki get_dummies kodujemy całość w binarnych.

To oznacza że kolumna docelowa (bought() została zakodowana też w 2 kolumnach, co jest niedobre, gdyż sieć się pogubi.

Musimy ją kodować na jednej kolumnie, dlatego usuniemy === drop first ===

In [21]:
pd.get_dummies(data=df)

Unnamed: 0,price,weight,size_L,size_M,size_XL,color_blue,color_green,color_red,gender_female,gender_male,bought_no,bought_yes
0,199.0,500.0,False,False,True,False,False,True,True,False,False,True
1,89.0,450.0,True,False,False,False,True,False,False,True,True,False
2,99.0,300.0,False,True,False,True,False,False,False,True,False,True
3,129.0,380.0,True,False,False,False,True,False,True,False,True,False
4,79.0,410.0,False,True,False,False,False,True,True,False,False,True


Tak jak podałem u góry, robimy drop first

In [22]:
pd.get_dummies(data=df, drop_first=True)

Unnamed: 0,price,weight,size_M,size_XL,color_green,color_red,gender_male,bought_yes
0,199.0,500.0,False,True,False,True,False,True
1,89.0,450.0,False,False,True,False,True,False
2,99.0,300.0,True,False,False,False,True,True
3,129.0,380.0,False,False,True,False,False,False
4,79.0,410.0,True,False,False,True,False,True


Można ustawić prefix dla każdej kolumny (domyślnie ustawia nazwa kolumny_wartość unikalna danych

np nazawa klumny = size

dane XL, L, M

docelowo size_XL, size_M, itd

In [23]:
pd.get_dummies(data=df, drop_first=True, prefix='new')

Unnamed: 0,price,weight,new_M,new_XL,new_green,new_red,new_male,new_yes
0,199.0,500.0,False,True,False,True,False,True
1,89.0,450.0,False,False,True,False,True,False
2,99.0,300.0,True,False,False,False,True,True
3,129.0,380.0,False,False,True,False,False,False
4,79.0,410.0,True,False,False,True,False,True


Dalsza zabawa z prefixami

Teraz separator '-'

In [24]:
pd.get_dummies(data=df, drop_first=True, prefix_sep='-')

Unnamed: 0,price,weight,size-M,size-XL,color-green,color-red,gender-male,bought-yes
0,199.0,500.0,False,True,False,True,False,True
1,89.0,450.0,False,False,True,False,True,False
2,99.0,300.0,True,False,False,False,True,True
3,129.0,380.0,False,False,True,False,False,False
4,79.0,410.0,True,False,False,True,False,True


get dummies także mówi KTÓRĄ KOLUMNE ZAKODOWAĆ

to oznacza, że nie musimy kodować wszystkich kolumn, tylko możemy wybrać

jedną, dwie, lub więcej


In [25]:
#pd.get_dummies(data=df, drop_first=True, columns=['size'])
pd.get_dummies(data=df, drop_first=True, columns=['size','bought'])

Unnamed: 0,color,gender,price,weight,size_M,size_XL,bought_yes
0,red,female,199.0,500.0,False,True,True
1,green,male,89.0,450.0,False,False,False
2,blue,male,99.0,300.0,True,False,True
3,green,female,129.0,380.0,False,False,False
4,red,female,79.0,410.0,True,False,True


### <a name='7'></a> Standaryzacja - StandardScaler

standaryzacja danych



---
#dla Pandas i Numpy mogą wychodzić inne wyniki


---



std() - pandas nieobciążony  estymator wariancji

std() - numpy obciążony estymator wariancji

In [26]:
print(f"{df['price']}\n")
print(f"Średnia: {df['price'].mean()}")
print(f"Odchylenie standardowe: {df['price'].std():.4f}")

0    199.0
1     89.0
2     99.0
3    129.0
4     79.0
Name: price, dtype: float64

Średnia: 119.0
Odchylenie standardowe: 48.4768


# standaryzacja
dla df (czyli naszych danych) robimy dla każdej danej w kolumnie


cena-avg/Stdev

In [27]:
(df['price'] - df['price'].mean()) / df['price'].std()

Unnamed: 0,price
0,1.650274
1,-0.618853
2,-0.412568
3,0.206284
4,-0.825137


Zdefiniowanie własnej funkcji

i obliczenie wartości ustandaryzowanych

In [28]:
def standardize(x):
    return (x - x.mean()) / x.std()

standardize(df['price'])

Unnamed: 0,price
0,1.650274
1,-0.618853
2,-0.412568
3,0.206284
4,-0.825137


Używanie funkcji standaryzacji z sklearn różni się od panadas

#uwaga daje trochę inne wyniki niż pandas ze zwględu na rożnice
#estymatora obciążonego i niebciążonego wariancji
Porównujemy dwa sposoby standaryzacji danych, czyli przekształcenia:

𝑧
=
𝑥
−
𝜇
𝜎
z=
σ
x−μ
	​


gdzie

𝜇
μ — średnia,

𝜎
σ — odchylenie standardowe.

1️⃣ Pandas — .mean() i .std()

W Pandas:

df['price'].mean()
df['price'].std()


domyślnie używa estymatora nieobciążonego wariancji,
czyli:

𝑠
=
∑
(
𝑥
𝑖
−
𝑥
ˉ
)
2
𝑛
−
1
s=
n−1
∑(x
i
	​

−
x
ˉ
)
2
	​

	​


czyli dzieli przez (n − 1).
To jest tzw. Bessel’s correction — ma zastosowanie, gdy próbka pochodzi z większej populacji (statystyka klasyczna).

2️⃣ scikit-learn — StandardScaler

W sklearn:

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()


ta klasa używa estymatora obciążonego wariancji,
czyli:

𝜎
=
∑
(
𝑥
𝑖
−
𝑥
ˉ
)
2
𝑛
σ=
n
∑(x
i
	​

−
x
ˉ
)
2
	​

	​


dzieli przez n, a nie przez n − 1.
To podejście typowe dla uczenia maszynowego — traktujemy dane jako całą populację obserwacji, nie próbkę.


Dla ML typowe jest sklearn

jako cała populacja

In [29]:
from sklearn.preprocessing import scale

scale(df['price'])

array([ 1.84506242, -0.69189841, -0.4612656 ,  0.2306328 , -0.92253121])

#TYPOWE ML PODEJŚCIE

In [30]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(df[['price']])
scaler.transform(df[['price']])

array([[ 1.84506242],
       [-0.69189841],
       [-0.4612656 ],
       [ 0.2306328 ],
       [-0.92253121]])

Standaryzujemy wszystkie kolumny numeryczne funkcją ponniżej

In [31]:
scaler = StandardScaler()
df[['price', 'weight']] = scaler.fit_transform(df[['price', 'weight']])
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,1.845062,1.366002,yes
1,L,green,male,-0.691898,0.62361,no
2,M,blue,male,-0.461266,-1.603567,yes
3,L,green,female,0.230633,-0.41574,no
4,M,red,female,-0.922531,0.029696,yes


### <a name='8'></a> Przygotowanie danych do modelu

In [32]:
df = df_raw.copy()
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,199.0,500,yes
1,L,green,male,89.0,450,no
2,M,blue,male,99.0,300,yes
3,L,green,female,129.0,380,no
4,M,red,female,79.0,410,yes


PODSUMOWANIE ĆWICZENIA W JEDNYM OKIENKU

le = LabelEncoder() -



In [35]:
#zmien dane tekstowe jako kategoryczne a numeryczne jako float 64

le = LabelEncoder() #klasa do zakodowania zmiennej docelowej

df['bought'] = le.fit_transform(df['bought']) #kodowanie kolumny 'bought' jako zmiennej docelowej

scaler = StandardScaler() #klasa scallera
df[['price', 'weight']] = scaler.fit_transform(df[['price', 'weight']]) #standaryzacja danych numerycznych - kolumny 'price' & 'wegight'

df = pd.get_dummies(data=df, drop_first=True) #kodowanie zmiennych kategorycznych z drop first
df

Unnamed: 0,price,weight,bought,size_M,size_XL,color_green,color_red,gender_male
0,1.845062,1.366002,1,False,True,False,True,False
1,-0.691898,0.62361,0,False,False,True,False,True
2,-0.461266,-1.603567,1,True,False,False,False,True
3,0.230633,-0.41574,0,False,False,True,False,False
4,-0.922531,0.029696,1,True,False,False,True,False
