###**Podział danych na zbiór treningowy i testowy**

###**1. Standardowy podział danych na zbiór treningowy i testowy**

###**Import bibliotek**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

###**Wygenerowanie przykładowych danych**

In [None]:
df = pd.DataFrame({"x": list(range(100)),"y":["a", "b", "c", "d"]*25})

In [None]:
df.head()

Unnamed: 0,x,y
0,0,a
1,1,b
2,2,c
3,3,d
4,4,a


###**Zastosowanie funkcji train_test_split()**

Jako wyjście dostajemy krotkę dwóch elementów - również będą to ramki danych.



*test_split* - frakcja wierszy, które chcielibyśmy widzieć w zbiorze testowym.

In [None]:
(train, test) = train_test_split(df, test_size=0.2)

Warto zwrócić uwagę, iż wartości dla zbioru testowego zostały wymieszane - ułożone w losowej kolejności.

In [None]:
test.head()

Unnamed: 0,x,y
8,8,a
60,60,a
45,45,b
77,77,b
97,97,b


In [None]:
test.shape

(20, 2)

In [None]:
train.shape

(80, 2)

Możemy również danych w zbiorze testowym nie mieszać.

Dzieje się tak gdy paramtr shuffle ustawimy na false.

Pierwszych 80% danych jest branych do zbioru treningowego, a pozostałe 20% do zbioru testowego.

In [None]:
(train, test) = train_test_split(df, test_size=0.2, shuffle=False)

Zbiór nie jest wymieszany - jest ułożony w kolejności.

In [None]:
test.head()

Unnamed: 0,x,y
80,80,a
81,81,b
82,82,c
83,83,d
84,84,a


###**2. Cross walidacja**

In [None]:
import numpy as np

In [None]:
x1 = np.random.normal(1, 1, 100)
y1 = np.random.normal(1, 1, 100)

x2 = np.random.normal(-1, 1, 100)
y2 = np.random.normal(-1, 1, 100)

l1 = np.zeros(100)
l2 = np.ones(100)


x = np.concatenate((x1, x2))
y = np.concatenate((y1, y2))
l = np.concatenate((l1, l2))

df = pd.DataFrame({"x": x.reshape(-1), "y": y.reshape(-1), "label": l})
df.head()

Unnamed: 0,x,y,label
0,0.886312,1.320397,0.0
1,-1.011534,0.670668,0.0
2,2.171201,-0.864504,0.0
3,2.593294,2.472091,0.0
4,0.855556,2.10211,0.0


In [None]:
df.tail()

Unnamed: 0,x,y,label
195,-0.274129,-1.92264,1.0
196,-1.183075,-1.691629,1.0
197,-0.818002,-0.976367,1.0
198,-0.042045,-1.280707,1.0
199,0.815907,-2.164528,1.0


###**Zastosujemy naiwny klasyfikator bayesowki.**

Jako, że mamy do czynienia z próbkami z rozkładów normlanych zastosouejmy wersję GaussianNB.

In [None]:
from sklearn.naive_bayes import GaussianNB

###**Tworzę model** - obiekt klasy GaussianNB

In [None]:
model = GaussianNB()

In [None]:
from sklearn.model_selection import KFold #Klasa obiektów KFold - obikety służące do manipulowania danymi w procesie cross walidacji.

In [None]:
from sklearn.model_selection import cross_validate, cross_val_score #Funkjca, która nieco uprości proces

###Obiekt klasy KFold

Liczba podziałów na zbiór treningowy i testowy.
W zalezności od liczby podziałów n_split różna będzie również proporcja danych uczących i testowych.
Przykładowo jeżeli liczba tych podziałów wyniesie 5 wówczas w zbiorze testowym znajdzie się za każdym razem 20% wierszy z tego zbioru, natomiast w zbiorze uczacym znajdzie się 80%.

Parametr *shuffle()* wskazuje czy dane będą losowane i będziemy po prostu brali kolejne wiersze ze zbioru w kolejności w jakiej zbiór powstawał.

In [None]:
kf = KFold(n_splits=5, shuffle=True)


###Generator umożliwiający podziały

Jak możemy zauważyć w efekcie otrzymamy numery indeksów elementów, które mają znaleźć się w zbiorze uczacym i zbiorze testowym w kolejnych eksperymentach.

In [None]:
list(kf.split(df))

[(array([  0,   1,   2,   3,   5,   6,   8,   9,  11,  12,  13,  14,  15,
          16,  17,  18,  19,  20,  21,  22,  23,  24,  25,  26,  28,  29,
          30,  31,  34,  35,  36,  37,  38,  40,  41,  42,  43,  44,  45,
          46,  47,  49,  50,  51,  53,  54,  56,  57,  60,  61,  62,  63,
          64,  65,  66,  67,  68,  69,  70,  71,  72,  75,  76,  78,  79,
          81,  82,  83,  85,  88,  89,  90,  91,  92,  93,  94,  96,  97,
          98,  99, 100, 101, 102, 103, 104, 106, 108, 109, 110, 111, 112,
         113, 114, 115, 116, 117, 118, 119, 121, 123, 124, 125, 126, 127,
         130, 131, 133, 134, 135, 137, 140, 141, 142, 143, 144, 145, 146,
         147, 149, 151, 152, 153, 155, 156, 157, 158, 159, 160, 161, 162,
         163, 164, 165, 166, 168, 170, 171, 173, 175, 176, 177, 178, 179,
         180, 181, 183, 184, 185, 186, 187, 189, 190, 191, 192, 193, 195,
         196, 197, 198, 199]),
  array([  4,   7,  10,  27,  32,  33,  39,  48,  52,  55,  58,  59,  73,
       

*Jak można to teraz zastosować?*

Można to zastsować w ten sposób, że każdy z tych elementów (każdą z tych wersji) zastosoujemy do jakiegoś eksperymentu, do wyuczenia naszego modelu i później jego przetestowania.

Musimy to zrobić ręcznie.

Przykładowo możemy to zrobić w pętli:

W rezultacie otrzymaliśmy 5 zestawów dokładności na zbiorze treningowym i testowym.



In [None]:
for train_index, test_index in kf.split(df):
  train = df.iloc[train_index]
  test = df.iloc[test_index]
  model.fit(train.iloc[:,:-1], train.iloc[:,-1])
  print(f"Train score: {model.score(train.iloc[:, :-1], train.iloc[:, -1])}")
  print(f"Test score: {model.score(test.iloc[:, :-1], test.iloc[:, -1])}")
  print()

Train score: 0.93125
Test score: 0.875

Train score: 0.91875
Test score: 0.925

Train score: 0.93125
Test score: 0.875

Train score: 0.9125
Test score: 0.95

Train score: 0.91875
Test score: 0.975



###**Inny sposób rozwiązania - prościej**

Zapis jednolinijkowy

In [None]:
cross_validate(model, df.iloc[:,:-1], df.iloc[:,-1], cv=5, return_train_score=True)

{'fit_time': array([0.00484133, 0.00470233, 0.00415564, 0.00430036, 0.00397778]),
 'score_time': array([0.00325966, 0.00322914, 0.00357294, 0.00345516, 0.00325346]),
 'test_score': array([0.9  , 0.875, 0.95 , 0.925, 0.975]),
 'train_score': array([0.925  , 0.94375, 0.91875, 0.91875, 0.90625])}

In [None]:
cross_val_score(model, df.iloc[:,:-1], df.iloc[:,-1], cv=5)

array([0.9  , 0.875, 0.95 , 0.925, 0.975])