# Wczytywanie danych

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

In [None]:
df = pd.read_csv('file.csv', sep = ';')
df

# Test Fishera

W teście stawiamy hipotezę że wariancje dwóch rozkładów są sobie równe
$\sigma_t^2$ = $\sigma_v^2$
Test działa poprawnie na zmiennych o rozkładzie normalnym.
Statystyka F-testu może być wyliczona jako stosunek dwóch
wariancji
$F = S_t^2/S_v^2 e

In [None]:
from scipy import stats

def f_test(x, y, alt="two_sided"):
    # Test Fishera równości wariancji rozkładów
    # Parametry:
    # x   - próbka pierwszego rozkładu
    # y   - próbka drugiego rozkładu
    # alt - hipoteza alteratywna
    # Wyniki (krotka):
    # - stosunek wariancji obu rozkładów
    # - prawdopodobieństwo testowe
    df1 = len(x) - 1
    df2 = len(y) - 1
    f = x.var() / y.var()
    if alt == "greater": # hipoteza alternatywna wariancja x większa od wariancji y
        p = 1.0 - stats.f.cdf(f, df1, df2) # cdf  - Funkcja rozkładu skumulowanego.
    elif alt == "less": # hipoteza alternatywna wariancja x mniejsza od wariancji y
        p = stats.f.cdf(f, df1, df2)
    else: # hipoteza alternatywna wariancja x różna od wariancji y
        p1 = 1.0 - stats.f.cdf(f, df1, df2)
        p2 = stats.f.cdf(f, df1, df2)
        p = 2*min(p1, p2)
    return round(f,2), round(p,2) # f - stosunek wariancji obu rozkładów, p - prawdopodobieństwo hipotezy alternatywnej

Dla danych z pliku porównaj wariancje zmiennej ciężar_max z pozostałymi
zmiennymi.
Sprawdź, czy prawdopodobieństwo testowe pozwala na odrzucenie hipotezy zerowej i
przyjęcie, ze któraś ze zmiennych ma wariancje rożną od ciężar_max.

In [None]:
for col in df.columns[2:]:
    f, p = f_test(df['ciężar_max'], df[col])
    print(f'{col}\t{f}\t{p}')

Sprawdź, czy prawdopodobieństwo testowe pozwala na odrzucenie hipotezy zerowej i
przyjęcie, ze któraś ze zmiennych ma wariancje mniejszą od ciężar_max.

In [None]:
for col in df.columns[2:]:
    f, p = f_test(df['ciężar_max'], df[col], 'greater')
    print(f'{col}\t{f}\t{p}')

Sprawdź, czy prawdopodobieństwo testowe pozwala na odrzucenie hipotezy zerowej i
przyjęcie, ze któraś ze zmiennych ma wariancje większą od ciężar_max. 

In [None]:
for col in df.columns[2:]:
    f, p = f_test(df['ciężar_max'], df[col], 'less')
    print(f'{col}\t{f}\t{p}')

Czy zmiana hipotezy alternatywnej zmienia uzyskane wyniki?

Zmienia, suma wartości p greater i less wynosi 1 

# Analiza wariancji

Dla danych z pliku przeprowadź dla zmiennej Rodzina analizę wariancji. 

In [None]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# Test ANOVA

W teście stawiamy hipotezę, że średnie dla rozkładu w każdej 
z n klas są takie same
Wyliczenie statystyki opiera się na następujących krokach:
    1. Wyliczenie wariancji wewnętrznej próbki $S_w^2$
    2. Wyliczenie średniej dla każdej z klas
    3. Wyliczenie wariancji pomiędzy średnimi $S_b^2$
Statystyka może być wyliczona jako stosunek dwóch wariancji
$F = S_b^2/S_w^2 $ 

In [None]:
model = ols('ciężar_max ~ Rodzina' ,data=df).fit()
aov_table = anova_lm(model)
print(aov_table)

# sum_sq - Suma kwadratów dla warunków modelu.
# mean_sq - Suma kwadratów/Stopnie swobody
# df - Stopnie swobody dla warunków modelu.
# F - Wartość statystyki F dla istotności dodania warunków modelu.
# PR(>F) - P-value for significance of adding model terms.

# Test HSD Tukeya

Test HSD Tukeya (Tukey’s Honestly Significant Difference 
test) pozwala nam określić, bazując na wynikach z analiz 
wariancji, czy zmienna różni się znacząco między klasam
Test wykorzystuje statystykę
$q_s = (\mu_A - \mu_B)/SE $

gdzie µA jest większą ze średnich µA, µB , a SE jest błędem 
standardowym sumy średnich

Uzyskana wartość qs 
jest porównywana do krytycznej wartośc 
qα wynikającej z rozkładu t-Studen

$q_\alpha$ = (${\bar {y}}_{max}$ - ${\bar{y}}_{min}$ )/$S\sqrt{2/n}$

Załóżmy, że pobieramy próbę o rozmiarze n z każdej z k populacji o tym samym rozkładzie normalnym N(μ, σ2) i załóżmy, że 
${\bar {y}}_{min}$ jest najmniejszą z tych średnich z próby i 
${\bar {y}}_{max}$ jest największą z tych średnich z próby i załóżmy, że S2 jest łączną wariancją z tych prób...i.

In [None]:
model = ols('ciężar_max ~ Rodzina' ,data=df).fit()
tuk_table = pairwise_tukeyhsd(endog=df['ciężar_max'], groups = df['Rodzina'], alpha = 0.05)
print(tuk_table)

# endog - zmienna odpowiedzi
# groups - tablica z grupami, może być ciągiem znaków lub liczbą całkowitą
# alpha - poziom istotności dla testu

# group 1 - grupa 1
# group 2 - grupa 2
# reject - array of bool, True if we reject Null for group pair
# meandiff - spairwise mean differences
# p-adj - p values adjusted p-values from the HSD test

# LASSO

Dla regresji lasso wzór na estymator współczynników ma 
posta

$\hat{\beta}_{lasso}$ = $argmin_{(\alpha,\beta)}(1/N){||\alpha + X\beta - y||}_2^2 + \lambda||\beta||_1$

gdzie λ jest współczynnikiem funkcji kary regularyzacji, a N 
wielkością próbki uczącej
Regresja LASSO pozwala uzyskać βi = 0..ć

Dla danych z pliku zbuduj model regresji LASSO objaśniając ciężar_max 
pozostałymi zmiennymi

Wykreśl ścieżki LASSO dla utworzonego modelu.
 Określ, która zmienna zostanie wyeliminowana jako pierwsza.  

In [None]:
from sklearn.linear_model import Lasso

In [None]:
label = 'ciężar_max'
features = [x for x in df.columns[2:] if x != label]

l_min = -8 # lewy koniec zakresu przedziału lambd
l_max = -1 # prawy koniec zakresu przedziału lambd
l_num = 129 # liczba lambd
lambdas = np.linspace(l_min,l_max, l_num) # lamda - współczynnik funkcji kary regularyzacji

coefs = []
for i in lambdas:
   clf = Lasso(alpha=10**i) # deklaracja regresji Lasso
   clf.fit(df[features],df[label]) # dopasowanie modelu Lasso do danych
   coefs.append([i, *clf.coef_]) # zapisanie współczynników dla danej lambdy

df_coefs = pd.DataFrame.from_records(coefs) # zapisanie dataframe z uzyskanych wyników
df_coefs.columns = ['lambda', *features] # Kolumny
df_coefs = df_coefs.set_index('lambda') # ustawienie indeksu 
df_coefs.plot() # wykreślenie wykresu

# Drzewo decyzyjne

Drzewo decyzyjne, w każdym węźle nie będącym liściem, dzieli analizowany zbiór na dwa podzbiory

Podział odbywa się na podstawie zmiennej i progu dla jej wartości.

Ponieważ celem jest uzyskanie, w liściach, zbiorów jednorodnych, to kryterium podziału musi maksymalizować rozróżnienie zbiorów

Dla danych z pliku fauna.csv zbuduj model klasyfikacyjny drzewa decyzyjnego przypisujący obserwacje do Rodzin.

Wykreśl drzewo decyzyjne. Określ na podstawie drzewa, które zmienne będą istotne dla budowanego modelu.

Zweryfikuj obserwacje na podstawie istotności cech zwracanych przez algorytm budowy drzewa.

Która zmienna jest najbardziej, a która najmniej istotna? 

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree
from sklearn.model_selection import train_test_split

In [None]:
clf = DecisionTreeClassifier(random_state=1, max_depth=2) # Stworzenie klasyfikatora drzewa

label = 'Rodzina'

# Podział na zmienne X i Y
X_train = df[df.columns[2:]] 
y_train = df[label]

# Dopasowanie klasyfikatora drzew do danych
clf.fit(X_train, y_train)

plt.figure(figsize=(10, 8))
_ = plot_tree(clf, filled=True, rounded=True, label='all', feature_names=X_train.columns, class_names=clf.classes_ )

In [None]:
feature_importances = {'Feature': X_train.columns, 'Importance':clf.feature_importances_} # Wydobycie istotności cech
feature_importances_df = pd.DataFrame.from_dict(feature_importances)
print(feature_importances_df)

# Wczytanie danych

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('wifi.csv')
df

Wybranie tylko pierwszych dwóch kolumn

In [None]:
df12 = df. iloc[:, 1:3]
df12

Macierz kowariancji wyliczona domyslnie przez Pandasa

In [None]:
pdcov = df12.cov()
pdcov

Macierz kowariancji wyliczona na podstawie danych (wierszy) bez braków

In [None]:
dfcna = df12.dropna(how='any')
dfcna.cov()

Macierz kowariancji korzystająca ze średnich ze wszystkich dostępnych danych w kolumnie

In [None]:
m = [ df12['wifi 1'].mean(), df12['wifi 2'].mean()] # średnia dla obu kolumn
cov2 = [[0,0],[0,0]]
for i in range(2):
    for j in range(2):
        for k in range(len(dfcna)):
            cov2[i][j] += (dfcna.iloc[k,i]-m[i])*(dfcna.iloc[k,j]-m[j]) # suma różnic każdego z elementów ze średnią wartością pomnożone przez sumę różnic każdego z elementów ze średnią wartością
        cov2[i][j] = cov2[i][j]/len(dfcna) # Podział przez liczbę elementów
pd.DataFrame(cov2, columns=dfcna.columns,index=dfcna.columns)

# Drzewo CART

W drzewach CART (Classification and Regression 
Tre)] współczynnik Ginnieg 
stosowany jest jako miara wariancji definiowanej dla węzła m i
drzew  T j

$Q_m(T) = I_G(m)$

W przypadku podziału drzewo tworzy dwóch potomków mL 
and mR dla których można wyliczyć łączną wariancj

$(n_{m_L}/n_m)Q_{m_L}(T) + (n_{m_R}/n_m)Q_{m_R}(T)$eako

Funkcja budująca drzewo CART

In [None]:
from sklearn.tree import DecisionTreeRegressor

# Należy uzupełnić i odkomentować linie kodu
def create_tree(x, y, depth=3, rnd_state=1):
    clf = DecisionTreeRegressor(max_depth=depth, random_state=rnd_state) # deklaracja modelu drzewa CART
    clf = clf.fit(x,y) #(dopasowanie modelu)
    err = clf.predict(x)-y #(tablica błedów dla poszczególnych próbek)
    MAE = round(np.mean(np.abs(err)),2) # Mean absolute error
    RMSE = round(np.sqrt(((clf.predict(x)-y)**2).mean()),2) # Root Mean Squared Error
    print("MAE:", MAE, "RMSE:", RMSE)
    return err

Drzewo zbudowane na podstawie danych z usuniętymi wierszami z brakującymi danymi

In [None]:
df2 = df.dropna()
zad2 = create_tree(df2.iloc[:,1:], df2.iloc[:,0])

Drzewo zbudowane na podstawie danych z brakującymi danymi zastąpionymi wartością średnią

In [None]:
df3 = df.fillna(df.mean())
zad3 = create_tree(df3.iloc[:,1:], df3.iloc[:,0])

# Algorytm MICE

1. Wszystkie brakujące wartości są zastępowane pojedynczą
imputacją.
2. Dla wybranej zmiennej imputowane wartości są ponownie
zastępowane brakami.
3. Tworzony jest model regresyjny dla wartości wybranej
zmiennej w oparciu o wartości pozostałych zmiennych.
4. Braki zmiennej są zastępowane wynikami modelu regresyjnego.
5. Kroki 2-4 są powtarzane raz dla każdej zmiennej z brakami.
6. Kroki 1-5 są powtarzane przez ustaloną liczbę cykli.

Drzewo zbudowane na podstawie danych z brakującymi danymi uzupełnionymi z użyciem metody MICE z 5 iteracjami

In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

imputer = IterativeImputer(max_iter=5, random_state=0)
df4 = pd.DataFrame(imputer.fit_transform(df))
zad4 = create_tree(df4.iloc[:,1:], df4.iloc[:,0])

Drzewo zbudowane na podstawie danych z brakującymi danymi uzupełnionymi z użyciem metody MICE z 5 iteracjami. Zastosuj inputację prostą metodą CART i sekwencję monotonną. 

In [None]:
dtr = DecisionTreeRegressor(random_state=0)
imputer = IterativeImputer(estimator = dtr, max_iter=5, random_state=0, imputation_order = 'ascending')
df4 = pd.DataFrame(imputer.fit_transform(df))
zad4 = create_tree(df4.iloc[:,1:], df4.iloc[:,0])

# 3 laby oceniane

# Dla danych z pliku FEB15.csv wylicz wielkość próbki potrzebnej do szacowania średniej
# prędkości AverageSpeed.
# Sprawdź wyniki dla Z = 0.05 i E = 0.05 oraz E = 0.01. 

In [None]:
def sample_size(s,Z,E, answer_coeffs = 1):
    n = Z**2 * s**2/E**2
    return math.ceil(n)

Z = 0.05
E = 0.01
s = df['AverageSpeed'].std()

n = sample_size(s,Z,E, answer_coeffs = 1)

print(n)

Dla danych z pliku FEB15.csv załóż, że poprawne pomiary to te, dla których DataQuality wynosi 1.
    
Na tej podstawie wylicz współczynnik odpowiedzi.

Wylicz rozmiar próbki, którą należy zebrać dla parametrów Z = 0.05 i E = 0.01 uwzględniając
współczynnik odpowiedzi. 

In [None]:
df2 = df[df['DataQuality'] == 1]
s = df2['AverageSpeed'].std()
ans = len(df2)/len(df)
print('ans_coefs=',ans)
n = sample_size(s,Z = 0.05,E = 0.01, answer_coeffs = ans)
print(n)

Przygotuj zbiór danych według następujących instrukcji.

Dane z pliku FEB15.csv podziel na zbiór uczący i testowy względem mediany daty Date.

Ze zbioru uczącego wylosuj próbkę danych o rozmiarze wyliczonym w poprzednim ćwiczeniu,
uwzględniając współczynnik odpowiedzi (przyjmij parametr random_state=100).

Ze zbioru testowego i z utworzonej próbki usuń elementy, dla których DataQuality jest różne od 1. 

In [None]:
    # konwersja kolumny Date do typu porządkowego
    df['Date'] = pd.to_datetime(df['Date']).apply(lambda x: x.toordinal())
    date_median = df['Date'].median()
    df_train = df[df['Date'] <= date_median]
    df_test = df[df['Date'] > date_median]

    # Próbka losowa
    sample = df_train.sample(n, random_state = 100)
    sample = sample[sample['DataQuality'] == 1]
    test = df_test[df_test['DataQuality'] == 1]

Funkcja pomocnicza do tworzenia drzew dla poniższych zadań

In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error

def create_tree(x_train, x_test, y_train, y_test, depth = 5):

    clf = DecisionTreeRegressor(random_state=1, max_depth=depth)
    clf.fit(x_train, y_train)
    err = clf.predict(x_test)-y_test #(tablica błedów dla poszczególnych próbek)
    MAE = round(np.mean(np.abs(err)),2) # Mean absolute error
    RMSE = round(np.sqrt(((clf.predict(x_test)-y_test)**2).mean()),2) # Root Mean Squared Error
    print("MAE:", MAE, "RMSE:", RMSE)
    return err

Dla przygotowanego zbioru danych zbuduj drzewo decyzyjne (o maksymalnej wysokości 5)
estymujące średnią prędkość AverageSpeed na podstawie zmiennych Date,TimePeriod i
LinkLength.

Drzewo wytrenuj na stworzonej próbce danych.
    
Oblicz błąd średni drzewa uzyskany na danych testowych. 

In [None]:
    features = ['Date', 'TimePeriod', 'LinkLength']
    x_train_4 = sample[features]
    y_train_4 = sample['AverageSpeed']
    x_test = test[features]
    y_test = test['AverageSpeed']
    print(x_test)

Powtórz przygotowanie zbioru danych, ale dobieraj próbkę ze zbioru uczącego sekwencyjnie, w
równych odstępach.
    
Zbuduj drzewo decyzyjne (o maksymalnej wysokości 5) estymujące średnią prędkość
AverageSpeed na podstawie zmiennych Date,TimePeriod i LinkLength.

Drzewo wytrenuj na stworzonej próbce danych.

Oblicz błąd średni drzewa uzyskany na danych testowych. 

In [None]:
# probka sekwencyjna
seq = [x for x in range(0, len(df_train), round(len(df_train)/n))]
sample5 = df_train.iloc[seq,:]
sample5 = sample5[sample5['DataQuality'] == 1]
X_train5 = sample5[features]
Y_train5 = sample5['AverageSpeed']
tr5 = create_tree(X_train5, x_test, Y_train5, y_test)

Powtórz przygotowanie zbioru danych, ale dobieraj próbkę stratyfikacyjnie, dobierając taką samą
liczbę odczytów dla każdego odcinka autostrady LinkRef.

Jeżeli dla któregoś odcinka brakuje danych to zastosuj próbkowanie z powtórzeniami.

Zbuduj drzewo decyzyjne (o maksymalnej wysokości 5) estymujące średnią prędkość
AverageSpeed na podstawie zmiennych Date,TimePeriod i LinkLength.

Drzewo wytrenuj na stworzonej próbce danych.

Oblicz błąd średni drzewa uzyskany na danych testowych. 

In [None]:
# probka stratyfikacyjna
links = df['LinkRef'].unique()
n_gr = round(n/len(links))
sample6 = pd.DataFrame([])
for k in links:
    t = df_train[df_train['LinkRef'] == k]
    if len(t) > 0:
        tr = t.sample(n = n_gr, random_state = 100, replace = len(t)<n_gr)
        sample6 = pd.concat([sample6,tr])
sample6 = sample6[sample6['DataQuality'] == 1]
X_train6 = sample6[features]
Y_train6 =  sample6['AverageSpeed']
tr6 = create_tree(X_train6, x_test,Y_train6, y_test )

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
pip install mlxtend

In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import RepeatedKFold
from mlxtend.evaluate import BootstrapOutOfBag
#from mlxtend.evaluate import bootstrap_point632_score
#from mlxtend.evaluate import bootstrap

In [None]:
def create_tree(x_train, x_test, y_train, y_test, depth=3):
    clf = DecisionTreeRegressor(max_depth=depth, random_state=1)
    clf = clf.fit(x_train, y_train)
    err = abs(clf.predict(x_test)-y_test)
    MAE = round(np.mean(err),2)
    RMSE = round(np.sqrt(((clf.predict(x_test)-y_test)**2).mean()),2)
    print("MAE:", MAE, "RMSE:", RMSE)
    return err

In [None]:
df = pd.read_csv('mfeb15.csv',sep=',')
df

Dla danych z pliku mfeb15.csv oszacuj średnią prędkości AverageSpeed używając
zmiennych Date, TimePeriod i LinkLength.

Do zbioru uczącego wybierz rekordy isLearning=TRUE.

Zbuduj referencyjny model testujący nie stosując żadnych specjalnych metod
estymacji.

Jako algorytm uczenia maszynowego wybierz drzewo decyzyjne rpart (w Pythonie
sklearn.tree.DecisionTreeRegressor).

Przetestuj wyniki modelu dla zbioru testowego isLearning=FALSE. 

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
df['Date'] = df['Date'].astype('datetime64[ns]').apply(lambda x: x.toordinal())
#train,test = train_test_split(df, test_size=0.2)
train = df.loc[df["isLearning"] == True]
test = df.loc[df["isLearning"] == False]
print(train)
print(test)

x_train = train[["TimePeriod","Date","LinkLength"]]
y_train = train["AverageSpeed"]
x_test = test[["TimePeriod","Date","LinkLength"]]
y_test = test["AverageSpeed"]
err = create_tree(x_train,x_test,y_train,y_test)

Powtórz poprzednie zadanie stosując metody:

    o cv krosswalidacja (dla n=10)

    o LOOCV Leave-one-out cross-validation

    o boot Estymator błędu prób bootstrapowych

    o boot632 Estymator .632 (nie ma w Pythonie)

Porównaj uzyskane wyniki ze zbiorem referencyjnym. 

The idea: use different methods for train test split of ("is_learning" == True) dataset. Then train model on each split and select the best one. Lastly, use the best one to predict on test set ("is_learning" = False) and save the absolute errors.

 - cross_validate sklearn function: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html

 - possible scoring arguments: https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter


model = DecisionTreeRegressor(max_depth = 3, random_state = 1)

In [None]:
#K-Fold
scores1 = cross_validate(model,x_train,y_train,cv=KFold(10),n_jobs=-1,scoring='neg_mean_absolute_error',return_estimator = True)
err1 = abs(scores1['estimator'][scores1["test_score"].argmax()].predict(x_test) - y_test)
err1

In [None]:
#LeaveOneOut CrossValidation with negative mean absolute scores: the higher the scores, the lower mean absolute errors
scores2 = cross_validate(model,x_train,y_train,cv=LeaveOneOut(),n_jobs=-1,scoring='neg_mean_absolute_error',return_estimator = True)
err2 = abs(scores2['estimator'][scores2["test_score"].argmax()].predict(x_test) - y_test)
err2

In [None]:
#Bootstrap Out of Bag
scores3 = cross_validate(model,x_train,y_train,cv=BootstrapOutOfBag(n_splits = 10,random_seed = 1),n_jobs=-1,scoring='neg_mean_absolute_error',return_estimator = True)
err3 = abs(scores3['estimator'][scores3["test_score"].argmax()].predict(x_test) - y_test)
err3

In [None]:
#Repeated K-Fold
scores4 = cross_validate(model,x_train,y_train,cv=RepeatedKFold(),n_jobs=-1,scoring='neg_mean_absolute_error',return_estimator = True)
err4 = abs(scores4['estimator'][scores4["test_score"].argmax()].predict(x_test) - y_test)
err4

In [None]:
d_err = pd.concat ([pd.DataFrame({'Err': err1, 'Type': 'KFold CV'}),
                    pd.DataFrame({'Err': err2, 'Type': 'LOO CV'}),
                     pd.DataFrame({'Err': err3, 'Type': 'BOOTOOB'}),
                     pd.DataFrame({'Err': err4, 'Type': 'Repeated KFold'}),
                    ])

In [None]:
plt.figure(figsize=(15,10))
g = sns.boxplot(data = d_err, y = "Err", x= "Type")

In [None]:
stats = d_err.groupby('Type').describe().round(2)
stats

• Powtórz poprzednie zadania dla lasów losowych.
    
• Porównaj otrzymane wyniki, aby odpowiedzieć na pytania:

    o Która metoda daje lepsze wyniki (drzewo czy las)?

    o Który sposób uczenia daje lepsze wyniki? 

In [None]:
from sklearn.ensemble import RandomForestRegressor

In [None]:
model_rf = RandomForestRegressor(max_depth = 3, random_state = 1)

In [None]:
#K-Fold
scores1ref = cross_validate(model_rf,x_train,y_train,cv=KFold(10),n_jobs=-1,scoring='neg_mean_absolute_error',return_estimator = True)
err1ref = abs(scores1ref['estimator'][scores1["test_score"].argmax()].predict(x_test) - y_test)
err1ref
#LeaveOneOut CrossValidation with negative mean absolute scores: the higher the scores, the lower mean absolute errors
scores2ref = cross_validate(model_rf,x_train,y_train,cv=LeaveOneOut(),n_jobs=-1,scoring='neg_mean_absolute_error',return_estimator = True)
err2ref = abs(scores2ref['estimator'][scores2ref["test_score"].argmax()].predict(x_test) - y_test)
err2ref
#Bootstrap Out of Bag
scores3ref = cross_validate(model_rf,x_train,y_train,cv=BootstrapOutOfBag(n_splits = 10,random_seed = 1),n_jobs=-1,scoring='neg_mean_absolute_error',return_estimator = True)
err3ref = abs(scores3ref['estimator'][scores3ref["test_score"].argmax()].predict(x_test) - y_test)
err3ref
#Repeated K-Fold
scores4ref = cross_validate(model_rf,x_train,y_train,cv=RepeatedKFold(),n_jobs=-1,scoring='neg_mean_absolute_error',return_estimator = True)
err4ref = abs(scores4ref['estimator'][scores4ref["test_score"].argmax()].predict(x_test) - y_test)
err4ref

In [None]:
#We are able to get mean square errors for bootstrap oob and .632. However, we don't have the model specs and the errors
#scores5 = bootstrap_point632_score(model, X_train, Y_train, method='oob')
#scores6 = bootstrap_point632_score(model, X_train, Y_train, method='.632')

In [None]:
d_errref = pd.concat ([pd.DataFrame({'Err': err1ref, 'Type': 'KFold CV'}),
                    pd.DataFrame({'Err': err2ref, 'Type': 'LOO CV'}),
                     pd.DataFrame({'Err': err3ref, 'Type': 'BOOTOOB'}),
                     pd.DataFrame({'Err': err4ref, 'Type': 'Repeated KFold'}),
                    ])

In [None]:
plt.figure(figsize=(15,10))
g = sns.boxplot(data=d_errref, y = 'Err', x= 'Type')

In [None]:
statsref = d_errref.groupby('Type').describe().round(2)
statsref

# Wczytaj zbiór iris i usuń z niego klasę setosa. 
# Następnie, korzystając z 10-krotnej kroswalidacji, wylicz wyniki predykcji Species dla
# metod
# Native Bayes 
# Multi Layer Perceptron
# Decision Tree (rpart) 
# Random Forest

In [None]:
iris = datasets.load_iris()
#print(iris)
df = pd.DataFrame(iris.data)
#print(df)
df.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
#print(df)
df['species'] = iris.target
df4 = df.copy()
#print(df)
df.loc[df['species']==0, 'species'] = 'setosa'
df.loc[df['species']==1, 'species'] = 'versicolor'
df.loc[df['species']==2, 'species'] = 'virginica'
print(df)

In [None]:
df = df[df['species'] != 'setosa']
df

In [None]:
features = df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
target = df['species']

In [None]:
def model_eval(model, features, target):
    predicted = cross_val_predict(model, features, target, cv=10)
    predicted2 = cross_val_predict(model, features, target, cv=10, method = 'predict_proba')
    acc_res = cross_val_score(model, features, target, cv=10, scoring = 'accuracy', n_jobs = 1)
    
    acc = accuracy_score(target, predicted)
    f1 = f1_score(target, predicted, pos_label='virginica')
    fpr, tpr, tresholds = roc_curve(target, predicted2.T[1], pos_label='virginica')
    roc_auc = auc(fpr, tpr)
    cm = confusion_matrix(target, predicted)
    
    print('Accuracy =' , acc.round(3))
    print('F1       =' , f1.round(3))
    print('ROC_AUC  =' , roc_auc.round(3))
    print('Confusion matrix:\n =' , cm)
    
    return(acc, f1, roc_auc, acc_res)

In [None]:
model = MultinomialNB()
NB = model_eval(model, features, target)

In [None]:
model = MLPClassifier(max_iter = 1000, random_state = RANDOM_STATE)
mlp = model_eval(model, features, target)

In [None]:
model = DecisionTreeClassifier(random_state = RANDOM_STATE)
dtc = model_eval(model, features, target)

In [None]:
model = RandomForestClassifier(max_depth = 2, random_state = RANDOM_STATE)
rfc = model_eval(model, features, target)

# Odczytaj wyniki skuteczności z 10 testów kroswalidacji dla klasyfikatorów dających
# najniższą i najwyższą skuteczność. 
# Sprawdź, czy różnice między ich skutecznością są statystycznie istotne.
# Przyjmij poziom istotności 0.05. 

In [None]:
from scipy.stats import ttest_ind


In [None]:
tstudent = ttest_ind(dtc[3], mlp[3])
print("p-value: ", tstudent.pvalue.round(3))

# Wykonaj 10-krotną kroswalidację dla lasu losowego i regresji grzbietowej, aby
# wyliczyć Sepal_Length 
# Wylicz błędy uzyskane dla obu metod
# Przeprowadź testy statystyczne, aby sprawdzić czy na poziomie istotności 0.05 
# Rozkłady błędów są różne
# Jeden model regresji daje mniejsze błędy 

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import Ridge
from scipy.stats import wilcoxon

In [None]:
features = df4[['species', 'sepal_width', 'petal_length', 'petal_width']]
target = df4['sepal_length']
clf = RandomForestRegressor()
pred_rf = cross_val_predict(clf, features, target, cv = 10)
err_rf = abs(pred_rf - target)
print("mean error RF: ", np.mean(err_rf))

In [None]:
clf = Ridge(alpha=1.0)
pred_ridge = cross_val_predict(clf, features, target, cv = 10)
err_ridge = abs(pred_ridge - target)
print("mean error RF: ", np.mean(err_ridge))

In [None]:
res1 = wilcoxon(err_rf, err_ridge, alternative= 'two-sided')
print("wilcoxon two-sided p-value: ", res1.pvalue)
res2= wilcoxon(err_rf, err_ridge, alternative= 'greater')
print("wilcoxon greater p-value: ", res2.pvalue)
res3= wilcoxon(err_rf, err_ridge, alternative= 'less')
print("wilcoxon less p-value: ", res3.pvalue)

# Wczytaj zbiór Glass i zostaw w nim tylko przedstawicieli klas (kolumna Type) 2 i 3. 
# Nadaj klasom oznaczenia 0 i 1. 
# Podziel losowo zbiór na testowy i uczący w stosunku 1:1. 
# Upewnij się, ze rozkład klas w zbiorze uczącym i testowym są podobne.
# Zbuduj klasyfikator, las losowy złożony z 30 drzew, który rozróżnia obie klasy.
# Sprawdź skuteczność i zbalansowaną skuteczność tego klasyfikatora.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

In [None]:
df = pd.read_csv('glass.csv')
df = df[df['Type'].isin([2,3])]

df.loc[df['Type'] == 2.0, 'Type'] = 0
df.loc[df['Type'] == 3.0, 'Type'] = 1
df

In [None]:
x = df.loc[:, df.columns != 'Type' ]
y = df['Type']        
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size = 0.5, random_state = RANDOM_STATE)
print('overall:  ', len(y), ' ', len(y[y==1]), ' ', len(y[y==1])/len(y))
print('train:  ', len(y_train), ' ', len(y_train[y_train==1]), ' ', len(y_train[y_train==1])/len(y_train))
print('test:  ', len(y_test), ' ', len(y_test[y_test==1]), ' ', len(y_test[y_test==1])/len(y_test))

In [None]:
model = RandomForestClassifier(max_depth=30, random_state=RANDOM_STATE)
model.fit(x_train, y_train)
predicted = model.predict(x_test)
print('Accuracy:           ', accuracy_score(y_test, predicted).round(3))
print('Balanced accuracy:  ', balanced_accuracy_score(y_test, predicted).round(3))

# Przekształć zbiór uczący algorytmem ROSE (Random Over Sampling Examples).
# Utwórz las losowy zbudowany z 30 drzew, który rozróżnia obie klasy, ucząc go na
# nowych danych, ale testując na niezmodyfikowanym zbiorze testowym. 
# Sprawdź skuteczność i zbalansowaną skuteczność tego klasyfikatora.

In [None]:
#!pip install imbalanced-learn
from imblearn.over_sampling import RandomOverSampler

In [None]:
ros = RandomOverSampler(random_state=RANDOM_STATE)
x_res, y_res = ros.fit_resample(x_train, y_train)
print('train ROSE:  ', len(y_res), ' ', len(y_res[y_res==1]), ' ', len(y_res[y_res==1])/len(y_res))
model = RandomForestClassifier(n_estimators=30, random_state=RANDOM_STATE)
model.fit(x_res, y_res)
predicted = model.predict(x_test)
print('Accuracy:           ', accuracy_score(y_test, predicted).round(3))
print('Balanced accuracy:  ', balanced_accuracy_score(y_test, predicted).round(3))

In [None]:
# Dla nieprzekształconego zbioru uczącego i testowego zastosuj algorytm RUSBoost
# Do budowy klasyfikatora uzyj 30 drzew decyzyjnych c50 jako słabe klasyfikatory
# Sprawdź skuteczność i zbalansowaną skuteczność tego klasyfikatora. 

In [None]:
from imblearn.ensemble import RUSBoostClassifier
from sklearn.tree import DecisionTreeClassifier

In [None]:
clf = RUSBoostClassifier(estimator=DecisionTreeClassifier(), n_estimators=30, algorithm = 'SAMME', random_state=RANDOM_STATE)
clf.fit(x_train, y_train)

predicted = clf.predict(x_test)
print('Accuracy:           ', accuracy_score(y_test, predicted).round(3))
print('Balanced accuracy:  ', balanced_accuracy_score(y_test, predicted).round(3))