# Trénování a validace

https://github.com/jeffheaton/app_deep_learning/blob/main/t81_558_class_02_2_pandas_cat.ipynb

## Datová sada

In [3]:
%whos

Variable       Type              Data/Info
------------------------------------------
aiohttp        module            <module 'aiohttp' from '/<...>ges/aiohttp/__init__.py'>
resp           ClientResponse    <ClientResponse(https://a<...>ection': 'keep-alive')>\n
session        ClientSession     <aiohttp.client.ClientSes<...>object at 0x7f25814251b0>
textresponse   str               18.0   8   307.0      130<...>.4   82  1	"chevy s-10"\n
ttt            int               5
url            str               https://archive.ics.uci.e<...>es/auto-mpg/auto-mpg.data


### Raw (surová data)

In [1]:
import aiohttp
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data"

async with aiohttp.ClientSession() as session:
    async with session.get(url) as resp:
        # print(resp.status)
        textresponse = await resp.text()
print(textresponse[:1000])

18.0   8   307.0      130.0      3504.      12.0   70  1	"chevrolet chevelle malibu"
15.0   8   350.0      165.0      3693.      11.5   70  1	"buick skylark 320"
18.0   8   318.0      150.0      3436.      11.0   70  1	"plymouth satellite"
16.0   8   304.0      150.0      3433.      12.0   70  1	"amc rebel sst"
17.0   8   302.0      140.0      3449.      10.5   70  1	"ford torino"
15.0   8   429.0      198.0      4341.      10.0   70  1	"ford galaxie 500"
14.0   8   454.0      220.0      4354.       9.0   70  1	"chevrolet impala"
14.0   8   440.0      215.0      4312.       8.5   70  1	"plymouth fury iii"
14.0   8   455.0      225.0      4425.      10.0   70  1	"pontiac catalina"
15.0   8   390.0      190.0      3850.       8.5   70  1	"amc ambassador dpl"
15.0   8   383.0      170.0      3563.      10.0   70  1	"dodge challenger se"
14.0   8   340.0      160.0      3609.       8.0   70  1	"plymouth 'cuda 340"
15.0   8   400.0      150.0      3761.       9.5   70  1	"chevrolet monte ca

### Reformat

In [2]:
import re
textresponse = re.sub(' +', ' ', textresponse)
textresponse = re.sub('\t', ' ', textresponse)
print(textresponse[:1000])

18.0 8 307.0 130.0 3504. 12.0 70 1 "chevrolet chevelle malibu"
15.0 8 350.0 165.0 3693. 11.5 70 1 "buick skylark 320"
18.0 8 318.0 150.0 3436. 11.0 70 1 "plymouth satellite"
16.0 8 304.0 150.0 3433. 12.0 70 1 "amc rebel sst"
17.0 8 302.0 140.0 3449. 10.5 70 1 "ford torino"
15.0 8 429.0 198.0 4341. 10.0 70 1 "ford galaxie 500"
14.0 8 454.0 220.0 4354. 9.0 70 1 "chevrolet impala"
14.0 8 440.0 215.0 4312. 8.5 70 1 "plymouth fury iii"
14.0 8 455.0 225.0 4425. 10.0 70 1 "pontiac catalina"
15.0 8 390.0 190.0 3850. 8.5 70 1 "amc ambassador dpl"
15.0 8 383.0 170.0 3563. 10.0 70 1 "dodge challenger se"
14.0 8 340.0 160.0 3609. 8.0 70 1 "plymouth 'cuda 340"
15.0 8 400.0 150.0 3761. 9.5 70 1 "chevrolet monte carlo"
14.0 8 455.0 225.0 3086. 10.0 70 1 "buick estate wagon (sw)"
24.0 4 113.0 95.00 2372. 15.0 70 3 "toyota corona mark ii"
22.0 6 198.0 95.00 2833. 15.5 70 1 "plymouth duster"
18.0 6 199.0 97.00 2774. 15.5 70 1 "amc hornet"
21.0 6 200.0 85.00 2587. 16.0 70 1 "ford maverick"
27.0 4 97.00 8

### Načtení do Pandas

In [20]:
import pandas as pd
from io import StringIO 

pd.set_option("display.max_columns", 7)
df = pd.read_csv(StringIO(textresponse), sep=" ", names=["mpg", "cylinders", "displacement", "horsepower", "weight", "acceleration", "year", "origin", "name"])
df

Unnamed: 0,mpg,cylinders,displacement,...,year,origin,name
0,18.0,8,307.0,...,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,...,70,1,buick skylark 320
2,18.0,8,318.0,...,70,1,plymouth satellite
3,16.0,8,304.0,...,70,1,amc rebel sst
4,17.0,8,302.0,...,70,1,ford torino
...,...,...,...,...,...,...,...
393,27.0,4,140.0,...,82,1,ford mustang gl
394,44.0,4,97.0,...,82,2,vw pickup
395,32.0,4,135.0,...,82,1,dodge rampage
396,28.0,4,120.0,...,82,1,ford ranger


## Spojité a kategorické proměnné

Podle zdroje 

http://psychology.okstate.edu/faculty/jgrice/psyc3214/Stevens_FourScales_1946.pdf

též viz.

https://cs.economy-pedia.com/11039694-categorical-variable

### Textová data

- Nominal / Nominální = bez pořadí (název města)
- Ordinal / Ordinální = s pořadím (stupeň vzdělání)

### Číselná data

- Interval / Intervaly = bez explicitního omezení (teplota)
- Ratio / S relací = mají minimální hodnotu (rychlost)

### Kódování hodnot

Jednou z nejběžnějších operací nad daty je normalizace. Normalizace umožňuje lépe srovnávat hodnoty. 

Pro strojové učení se často používá tzv. Z-score

$z=\frac{x-\mu}{\sigma}$

kde

$\mu=\frac{x_1+x_2+\dots+x_n}{n}$

a

$\sigma=\sqrt{\frac{1}{N}\Sigma{{(x_i-\mu)}^2}}$

In [21]:
from scipy.stats import zscore

df["mpg_z"] = zscore(df["mpg"])
df

Unnamed: 0,mpg,cylinders,displacement,...,origin,name,mpg_z
0,18.0,8,307.0,...,1,chevrolet chevelle malibu,-0.706439
1,15.0,8,350.0,...,1,buick skylark 320,-1.090751
2,18.0,8,318.0,...,1,plymouth satellite,-0.706439
3,16.0,8,304.0,...,1,amc rebel sst,-0.962647
4,17.0,8,302.0,...,1,ford torino,-0.834543
...,...,...,...,...,...,...,...
393,27.0,4,140.0,...,1,ford mustang gl,0.446497
394,44.0,4,97.0,...,2,vw pickup,2.624265
395,32.0,4,135.0,...,1,dodge rampage,1.087017
396,28.0,4,120.0,...,1,ford ranger,0.574601


### Kódování kategorických hodnot

In [22]:
cylinders = list(df["cylinders"].unique())
cylinders

[8, 4, 6, 3, 5]

In [23]:
import numpy as np
df[(df.cylinders == 3) | (df.cylinders == 5)]

Unnamed: 0,mpg,cylinders,displacement,...,origin,name,mpg_z
71,19.0,3,70.0,...,3,mazda rx2 coupe,-0.578335
111,18.0,3,70.0,...,3,maxda rx3,-0.706439
243,21.5,3,80.0,...,3,mazda rx-4,-0.258075
274,20.3,5,131.0,...,2,audi 5000,-0.4118
297,25.4,5,183.0,...,2,mercedes benz 300d,0.241531
327,36.4,5,121.0,...,2,audi 5000s (diesel),1.650674
334,23.7,3,70.0,...,3,mazda rx-7 gs,0.023754


In [24]:
dummies = pd.get_dummies(cylinders, prefix="cylinders",dtype=int)
print(dummies)

   cylinders_3  cylinders_4  cylinders_5  cylinders_6  cylinders_8
0            0            0            0            0            1
1            0            1            0            0            0
2            0            0            0            1            0
3            1            0            0            0            0
4            0            0            1            0            0


In [25]:
dummies = pd.get_dummies(df["cylinders"], prefix="cylinders",dtype=int)
print(dummies[0:10])  # Just show the first 10

   cylinders_3  cylinders_4  cylinders_5  cylinders_6  cylinders_8
0            0            0            0            0            1
1            0            0            0            0            1
2            0            0            0            0            1
3            0            0            0            0            1
4            0            0            0            0            1
5            0            0            0            0            1
6            0            0            0            0            1
7            0            0            0            0            1
8            0            0            0            0            1
9            0            0            0            0            1


In [26]:
pd.set_option("display.max_columns", 15)
df = pd.concat([df, dummies], axis=1)
df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name,mpg_z,cylinders_3,cylinders_4,cylinders_5,cylinders_6,cylinders_8
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,-0.706439,0,0,0,0,1
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,-1.090751,0,0,0,0,1
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,-0.706439,0,0,0,0,1
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst,-0.962647,0,0,0,0,1
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino,-0.834543,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl,0.446497,0,1,0,0,0
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup,2.624265,0,1,0,0,0
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage,1.087017,0,1,0,0,0
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger,0.574601,0,1,0,0,0


Ve chvíli, kdy je původní proměnná zakódována, je možné sloupec obsahující hodnoty původní proměnné odstranit. Jedná se o duplicitní informaci.

In [27]:
df.drop("cylinders", axis=1, inplace=True)
df

Unnamed: 0,mpg,displacement,horsepower,weight,acceleration,year,origin,name,mpg_z,cylinders_3,cylinders_4,cylinders_5,cylinders_6,cylinders_8
0,18.0,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,-0.706439,0,0,0,0,1
1,15.0,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,-1.090751,0,0,0,0,1
2,18.0,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,-0.706439,0,0,0,0,1
3,16.0,304.0,150.0,3433.0,12.0,70,1,amc rebel sst,-0.962647,0,0,0,0,1
4,17.0,302.0,140.0,3449.0,10.5,70,1,ford torino,-0.834543,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
393,27.0,140.0,86.00,2790.0,15.6,82,1,ford mustang gl,0.446497,0,1,0,0,0
394,44.0,97.0,52.00,2130.0,24.6,82,2,vw pickup,2.624265,0,1,0,0,0
395,32.0,135.0,84.00,2295.0,11.6,82,1,dodge rampage,1.087017,0,1,0,0,0
396,28.0,120.0,79.00,2625.0,18.6,82,1,ford ranger,0.574601,0,1,0,0,0


Kódování kategorických proměnných lze částečně optimalizovat vypuštěním jedné kategorie.

In [30]:
dummies = pd.get_dummies([3, 4, 5, 6, 8], prefix="cylinders", drop_first=True, dtype=int)
print(dummies)

   cylinders_4  cylinders_5  cylinders_6  cylinders_8
0            0            0            0            0
1            1            0            0            0
2            0            1            0            0
3            0            0            1            0
4            0            0            0            1


Srovnejte předcházející s následujícím

In [29]:
dummies = pd.get_dummies([8, 3, 4, 5, 6], prefix="cylinders", drop_first=True, dtype=int)
print(dummies)

   cylinders_4  cylinders_5  cylinders_6  cylinders_8
0            0            0            0            1
1            0            0            0            0
2            1            0            0            0
3            0            1            0            0
4            0            0            1            0


### "Target Encoding"

https://maxhalford.github.io/blog/target-encoding/

Vytvoření číselné reprezentace kategorické proměnné. 
Pro tento proces se využívá hodnoty proměnné, která je výstupní proměnnou.

In [31]:
import numpy as np

# Create a small sample dataset
np.random.seed(43)
df2 = pd.DataFrame(
    {
        "cont_9": np.random.rand(10) * 100,
        "cat_0": ["dog"] * 5 + ["cat"] * 5,
        "cat_1": ["wolf"] * 9 + ["tiger"] * 1,
        "y": [1, 0, 1, 1, 1, 1, 0, 0, 0, 0],
    }
)

df2

Unnamed: 0,cont_9,cat_0,cat_1,y
0,11.505457,dog,wolf,1
1,60.906654,dog,wolf,0
2,13.339096,dog,wolf,1
3,24.058962,dog,wolf,1
4,32.713906,dog,wolf,1
5,85.913749,cat,wolf,1
6,66.609021,cat,wolf,0
7,54.116221,cat,wolf,0
8,2.901382,cat,wolf,0
9,73.37483,cat,tiger,0


V případě dat uvedených výše se jedná o proměnnou `y`. Při použití této techniky hrozí tzv. "přeučení". 
Principiálně je technika použitelná pouze tehdy, je-li výstupní proměnnou číselná hodnota.

Příslušná hodnota kategorické proměnné se nahradí průměrnou výstupní hodnotou pro tuto kategorii.

Výhodou je uložení kódu do jediné proměnné.

In [33]:
means0 = df2.groupby("cat_0")["y"].mean().to_dict()
means0

{'cat': 0.2, 'dog': 0.8}

In [34]:
df2['cat_0_code'] = df2['cat_0'].map(means0)
df2

Unnamed: 0,cont_9,cat_0,cat_1,y,cat_0_code
0,11.505457,dog,wolf,1,0.8
1,60.906654,dog,wolf,0,0.8
2,13.339096,dog,wolf,1,0.8
3,24.058962,dog,wolf,1,0.8
4,32.713906,dog,wolf,1,0.8
5,85.913749,cat,wolf,1,0.2
6,66.609021,cat,wolf,0,0.2
7,54.116221,cat,wolf,0,0.2
8,2.901382,cat,wolf,0,0.2
9,73.37483,cat,tiger,0,0.2


Pro snížení rizika přeučení lze provést výpočetní korekci na základě statistického vyhodnocení všech hodnot kategorické proměnné ve vztahu k výstupní proměnné.

In [39]:
mean = df2["y"].mean()
print(mean)
aggs = df2.groupby("cat_0")["y"].agg(["count", "mean"])
aggs

0.5


Unnamed: 0_level_0,count,mean
cat_0,Unnamed: 1_level_1,Unnamed: 2_level_1
cat,5,0.2
dog,5,0.8


Vykreslete závislost výsledného kódu pro kategorii cat a dog na základě hodnoty korekce v rozsahu 0-10.

Korekce je definována výpočtem níže, viz proměnná `smooth`. Parametrem je `weight`.

In [42]:
weight = 5
counts = aggs["count"]
means = aggs["mean"]
smooth = (counts * means + weight * mean) / (counts + weight)
smooth

cat_0
cat    0.35
dog    0.65
dtype: float64

Celý proces lze definovat funkcí.

In [43]:
def calc_smooth_mean(df, cat_name, target_name, weight=5):
    mean = df[target_name].mean()
    aggs = df.groupby(cat_name)[target_name].agg(["count", "mean"])
    counts = aggs["count"]
    means = aggs["mean"]
    smooth = (counts * means + weight * mean) / (counts + weight)
    return df[cat_name].map(smooth)

calc_smooth_mean(df2, "cat_0", "y")

0    0.65
1    0.65
2    0.65
3    0.65
4    0.65
5    0.35
6    0.35
7    0.35
8    0.35
9    0.35
Name: cat_0, dtype: float64

In [44]:
df2["cat_0_enc"] = calc_smooth_mean(df2, cat_name="cat_0", target_name="y")
df2["cat_1_enc"] = calc_smooth_mean(df2, cat_name="cat_1", target_name="y")
df2

Unnamed: 0,cont_9,cat_0,cat_1,y,cat_0_code,cat_0_enc,cat_1_enc
0,11.505457,dog,wolf,1,0.8,0.65,0.535714
1,60.906654,dog,wolf,0,0.8,0.65,0.535714
2,13.339096,dog,wolf,1,0.8,0.65,0.535714
3,24.058962,dog,wolf,1,0.8,0.65,0.535714
4,32.713906,dog,wolf,1,0.8,0.65,0.535714
5,85.913749,cat,wolf,1,0.2,0.35,0.535714
6,66.609021,cat,wolf,0,0.2,0.35,0.535714
7,54.116221,cat,wolf,0,0.2,0.35,0.535714
8,2.901382,cat,wolf,0,0.2,0.35,0.535714
9,73.37483,cat,tiger,0,0.2,0.35,0.416667


### Kódování kategorické proměnné pomocí ordinálních hodnot

V příkladu výše byla jako kategorické proměnná použita proměnná "počet válců". Fakticky se jednalo ale o ordinální hodnotu.

Při kódování kategorické proměnné pomocí ordinálních hodnot je každé kategorické hodnotě přiřazeno celé číslo.
Tento proces automaticky vzniká při ukládání slovníku do tabulky (vzpomeňte typy v SQL DB), pokud je jako primární klíč použito celé číslo.

V případě, kdy kategorická proměnná ma tisíce různých hodnot (tzv. proměnná s vysokou kardinalitou), používá se při kódování rozkladu do tzv. "vrstev" (více kódů).