In [214]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from scipy.stats import norm
import warnings
from sklearn.metrics import accuracy_score
warnings.filterwarnings("ignore")

In [215]:
data = load_iris()
X, y, column_names = data['data'], data['target'], data['feature_names']
X = pd.DataFrame(X, columns = column_names)

In [216]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, random_state=42)

print(f"Рядки в датасеті {y_train}")
print(f"Рядки в датасеті {y_test}")
print(f"Кількість елементів у категоріях для навчального датасету {np.bincount(y_train)}")
print(f"Кількість елементів у категоріях для тестового датасету {np.bincount(y_test)}")

Рядки в датасеті [1 2 2 1 2 1 2 1 0 2 1 0 0 0 1 2 0 0 0 1 0 1 2 0 1 2 0 2 2 1 1 2 1 0 1 2 0
 0 1 1 0 2 0 0 1 1 2 1 2 2 1 0 0 2 2 0 0 0 1 2 0 2 2 0 1 1 2 1 2 0 2 1 2 1
 1 1 0 1 1 0 1 2 2 0 1 2 2 0 2 0 1 2 2 1 2 1 1 2 2 0 1 2 0 1 2]
Рядки в датасеті [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0 0 0 2 1 1 0 0]
Кількість елементів у категоріях для навчального датасету [31 37 37]
Кількість елементів у категоріях для тестового датасету [19 13 13]


## Стратифікація (рівномірний розподіл) класів

In [217]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, random_state=42, stratify=y)

print(f"Кількість елементів у категоріях для навчального датасету {np.bincount(y_train)}")
print(f"Кількість елементів у категоріях для тестового датасету {np.bincount(y_test)}")

Кількість елементів у категоріях для навчального датасету [35 35 35]
Кількість елементів у категоріях для тестового датасету [15 15 15]


In [218]:
means = X_train.groupby(y_train).apply(np.mean)
stds = X_train.groupby(y_train).apply(np.std)

In [219]:
probs = X_train.groupby(y_train).apply(lambda x: len(x)) / X_train.shape[0]

In [220]:
y_pred = []

for elem in range(X_test.shape[0]):
   p = {}

   for cl in np.unique(y_train):
       p[cl] = probs.iloc[cl]
    
       for index, param in enumerate(X_test.iloc[elem]):
           p[cl] *= norm.pdf(param, means.iloc[cl, index], stds.iloc[cl, index])
        
   y_pred.append(pd.Series(p).values.argmax())

In [221]:
accuracy1 = accuracy_score(y_test, y_pred)

In [222]:
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
model.fit(X_train, y_train)
accuracy2 = accuracy_score(y_test, model.predict(X_test))

In [223]:
print(accuracy1)
print(accuracy2)

0.9111111111111111
0.9111111111111111


In [208]:
import ml_metrics as metrics

In [227]:
metrics.mae(y_test, model.predict(X_test))

0.08888888888888889

In [228]:
metrics.mse(y_test, model.predict(X_test))

0.08888888888888889

In [229]:
metrics.rmse(y_test, model.predict(X_test))

0.29814239699997197

## Стратифікація (додаткове розділення)

In [230]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, random_state=42)

print(f"Рядки в датасеті {y_train}")
print(f"Рядки в датасеті {y_test}")
print(f"Кількість елементів у категоріях для навчального датасету {np.bincount(y_train)}")
print(f"Кількість елементів у категоріях для тестового датасету {np.bincount(y_test)}")

Рядки в датасеті [1 2 2 1 2 1 2 1 0 2 1 0 0 0 1 2 0 0 0 1 0 1 2 0 1 2 0 2 2 1 1 2 1 0 1 2 0
 0 1 1 0 2 0 0 1 1 2 1 2 2 1 0 0 2 2 0 0 0 1 2 0 2 2 0 1 1 2 1 2 0 2 1 2 1
 1 1 0 1 1 0 1 2 2 0 1 2 2 0 2 0 1 2 2 1 2 1 1 2 2 0 1 2 0 1 2]
Рядки в датасеті [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0 0 0 2 1 1 0 0]
Кількість елементів у категоріях для навчального датасету [31 37 37]
Кількість елементів у категоріях для тестового датасету [19 13 13]


In [231]:
X_test, X_val, y_test, y_val = train_test_split(X_test, y_test, 
                                                    train_size=0.7, 
                                                    random_state=42,
                                                    stratify=y_test)

print(f"Кількість елементів у категоріях для навчального датасету {np.bincount(y_train)}")
print(f"Кількість елементів у категоріях для тестового датасету {np.bincount(y_test)}")

Кількість елементів у категоріях для навчального датасету [31 37 37]
Кількість елементів у категоріях для тестового датасету [13  9  9]


In [232]:
means = X_train.groupby(y_train).apply(np.mean)
stds = X_train.groupby(y_train).apply(np.std)

In [233]:
probs = X_train.groupby(y_train).apply(lambda x: len(x)) / X_train.shape[0]

In [234]:
y_pred = []

for elem in range(X_val.shape[0]):
   p = {}

   for cl in np.unique(y_train):
       p[cl] = probs.iloc[cl]
    
       for index, param in enumerate(X_val.iloc[elem]):
           p[cl] *= norm.pdf(param, means.iloc[cl, index], stds.iloc[cl, index])
        
   y_pred.append(pd.Series(p).values.argmax())

In [235]:
accuracy1 = accuracy_score(y_val, y_pred)

In [236]:
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
model.fit(X_train, y_train)
accuracy2 = accuracy_score(y_val, model.predict(X_val))

In [237]:
print(accuracy1)
print(accuracy2)

1.0
1.0


In [238]:
metrics.mae(y_test, model.predict(X_test))

0.03225806451612903

In [239]:
metrics.mse(y_test, model.predict(X_test))

0.03225806451612903

In [240]:
metrics.rmse(y_test, model.predict(X_test))

0.1796053020267749

## Висновок
Судячи з метрик моделей, додаткове розділення є кращим методом для стратифікації даної вибірки.