### import pandas as pd
import numpy as np
import sklearn

### 1. Data

In [3]:
#Dane:

data = {
    'size': ['XL', 'L', 'M', 'L', 'M'],
    'color': ['red', 'green', 'blue', 'green', 'red'],
    'gender': ['female', 'male', 'male', 'female', 'female'],
    'price': [199.0, 89.0, 99.0, 129.0, 79.0],
    'weight': [500, 450, 300, 380, 410],
    'bought': ['yes', 'no', 'yes', 'no', 'yes']}

df_raw = pd.DataFrame(data)

# kopia zapasowa
df = df_raw.copy()
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,199.0,500,yes
1,L,green,male,89.0,450,no
2,M,blue,male,99.0,300,yes
3,L,green,female,129.0,380,no
4,M,red,female,79.0,410,yes


In [4]:
pd.get_dummies(df, drop_first=True, columns=['size'])

Unnamed: 0,color,gender,price,weight,bought,size_M,size_XL
0,red,female,199.0,500,yes,0,1
1,green,male,89.0,450,no,0,0
2,blue,male,99.0,300,yes,1,0
3,green,female,129.0,380,no,0,0
4,red,female,79.0,410,yes,1,0


### 2. Standaryzacja - pandas

In [6]:
"""
Zmienne numeryczne - weight and bought.

W modelach machine learnig zmienne numeryczne trzeba wystandaryzować - doprowdzić do postaci, w których skala wartości 
nie ma znczenia, a znaczenie ma ich rozrzut, czyli 'wariancja'.

Gdy mamy zmienne - jedna bardzo małe wartości, druga duże wartości, to ta druga za bardzo może wpłynąć na model i wartościowe
wartości z pierwszej zostaną przyćmione, zakryte - dlatego zmienne trzeba wystandaryzować.



"""

"\nZmienne numeryczne - weight and bought.\n\nW modelach machine learnig zmienne numeryczne trzeba wystandaryzować - doprowdzić do postaci, w których skala wartości \nnie ma znczenia, a znaczenie ma ich rozrzut, czyli 'wariancja'.\n\nGdy mamy zmienne - jedna bardzo małe wartości, druga duże wartości, to ta druga za bardzo może wpłynąć na model i wartościowe\nwartości z pierwszej zostaną przyćmione, zakryte.\n\n\n\n\n\n"

#### - przykład - Odchylenie standardowe jest estymatorem obciążonym wariancji.

##### std() - pandas nieobciążony
##### std() - numpy obciążony


Może to wpływać na wyniki, gdyż zaimplementowana postać estymatora jest inna:

In [11]:
# pandas

print (f"{df['price']}\n")
print (f"Średnia: {df['price'].mean()}")
print (f"Odchylenie standardowe: {df['price'].std():.4f}")

0    199.0
1     89.0
2     99.0
3    129.0
4     79.0
Name: price, dtype: float64

Średnia: 119.0
Odchylenie standardowe: 48.4768


In [13]:
# proce standaryzacji - od każdej zmiennej df['price'] odjemujemy śrędnią i potem dzielimy przez std

(df['price'] - df['price'].mean()) / df['price'].std() # dane wystdanaryzowane

0    1.650274
1   -0.618853
2   -0.412568
3    0.206284
4   -0.825137
Name: price, dtype: float64

In [14]:
# funckja standaryzująca:

def standarize (x):
    return (x - x.mean()) / x.std()

In [15]:
standarize(df['price'])

0    1.650274
1   -0.618853
2   -0.412568
3    0.206284
4   -0.825137
Name: price, dtype: float64

### 3. Standaryzacja za pomocą sklearn

#### - wartości standaryzacji z pandas i sklearn jest kwestia estymatora obciążonego i nieobciążonego wariancji, std ulega zmianie

In [17]:
from sklearn.preprocessing import scale

In [19]:
scale(df['price']) # wartości się różnią w porównaniu z pandas

array([ 1.84506242, -0.69189841, -0.4612656 ,  0.2306328 , -0.92253121])

#### - według autora od funkcji 'scale' lepsza jest klasa StandardScaler, pozwala ona zachować dane, wartości statystyk i gdy pojawiają się nowe dane (scale bardziej do szybkich obliczeń)

In [23]:
from sklearn.preprocessing import StandardScaler

scaler_price = StandardScaler()
scaler_price.fit(df[['price']])
scaler_price.transform(df[['price']]) #pamiętać o podwójnych nawiasach !!!

array([[ 1.84506242],
       [-0.69189841],
       [-0.4612656 ],
       [ 0.2306328 ],
       [-0.92253121]])

In [28]:
scaler_price = StandardScaler()
scaler_price.fit_transform(df[['price']])

scaler_weight = StandardScaler()
scaler_weight.fit_transform(df[['weight']])

array([[ 1.3660019 ],
       [ 0.62360956],
       [-1.60356745],
       [-0.41573971],
       [ 0.02969569]])

In [30]:
# standaryzacja za jednym zamachem

scaler = StandardScaler()
df[['price','weight']] = scaler.fit_transform(df[['price','weight']])

In [31]:
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,1.845062,1.366002,yes
1,L,green,male,-0.691898,0.62361,no
2,M,blue,male,-0.461266,-1.603567,yes
3,L,green,female,0.230633,-0.41574,no
4,M,red,female,-0.922531,0.029696,yes


### 4. Podsumowanie

In [36]:
# import bibliotek
import sklearn
import pandas as pd
import numpy as np

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

In [33]:
# data
df = df_raw.copy()
df

Unnamed: 0,size,color,gender,price,weight,bought
0,XL,red,female,199.0,500,yes
1,L,green,male,89.0,450,no
2,M,blue,male,99.0,300,yes
3,L,green,female,129.0,380,no
4,M,red,female,79.0,410,yes


In [39]:
# zmienna docelowa

le = LabelEncoder()
df['bought'] = le.fit_transform(df['bought'])

In [41]:
# zmienne numeryczne

scaler = StandardScaler()
df[['price','weight']] = scaler.fit_transform(df[['price','weight']])

In [45]:
# zmienne kategoryczne
df[['size', 'color', 'gender']] = df[['size', 'color', 'gender']].astype('category')

df = pd.get_dummies(df, drop_first=True)

In [46]:
df

Unnamed: 0,price,weight,bought,size_M,size_XL,color_green,color_red,gender_male
0,1.845062,1.366002,1,0,1,0,1,0
1,-0.691898,0.62361,0,0,0,1,0,1
2,-0.461266,-1.603567,1,1,0,0,0,1
3,0.230633,-0.41574,0,0,0,1,0,0
4,-0.922531,0.029696,1,1,0,0,1,0
