In [13]:
import numpy as np
import pandas as pd
import warnings
import plotly.graph_objects as go
import plotly.express as px
warnings.filterwarnings('ignore')

In [32]:
alpha = np.geomspace(1e-3, 5e-1, num=12)
columns = ["Train size", "ACC", "AUC", "F1", "Train time", "Predict time"]
datasets = ["mnist", "sonar"] # "rcv1"
file_names = ["LR_1", "LR_2", "P_1", "P_2", "SVC_1", "SVC_10"]
labels = ["Linear regression(l1)", "Linear regression(l2)", "Perceptron(l1)", "Perceptron(l2)", "SVM(l1)", "SVM(l2)"]

### Accuracy of all classifiers for each dataset depending on train size

In [35]:
for dataset in datasets:
    fig = go.Figure()
    for label, name in zip(labels, file_names):
        df = pd.read_csv("clf_results/" + dataset + "_df_" + name + ".csv", index_col=None)
        fig = fig.add_trace(go.Scatter(x=df["Train size"], y=df["ACC"], name=label))
    if dataset != "sonar":
        fig.update_xaxes(type="log")
        fig.update_traces(textposition="bottom right")
    fig.update_layout(title=dataset, xaxis_title="Train size", yaxis_title="Accuracy", showlegend=True)
    fig.show()

#### Wraz z zwiększaniem próby uczącej dokładość na początku rośnie, po czym wielkość próby przestaje mieć duży wpływ.

### Train time depending on train size

In [5]:
for dataset in datasets:
    fig = go.Figure()
    for label, name in zip(labels, file_names):
        df = pd.read_csv("clf_results/" + dataset + "_df_" + name + ".csv", index_col=None)
        fig = fig.add_trace(go.Scatter(x=df["Train size"], y=df["Train time"], name=label))
    fig.update_xaxes(type="log")
    fig.update_layout(title=dataset, xaxis_title="Train size", yaxis_title="Train time", showlegend=True)
    fig.show()

#### Dla maszyn wektorów nośnych zwiększanie ilości danych powoduję duże skoki obliczeniowe. Nieco lepiej wykazuje się regresja logistyczna. Natomiast ilość danych trenujących w przypadku perceptrona zbytnio nie zwiększyła czasu trenowania klasyfikatora.

### Predict time depending on test size

In [26]:
for dataset in datasets:
    fig = go.Figure()
    for label, name in zip(labels, file_names):
        df = pd.read_csv("clf_results/" + dataset + "_df_" + name + ".csv", index_col=None)
        fig = fig.add_trace(go.Scatter(x=1 - df["Train size"], y=df["Predict time"], name=label))
    fig.update_xaxes(type="log")
    fig.update_layout(title=dataset, xaxis_title="Predict size", yaxis_title="Predict time", showlegend=True)
    fig.show()

#### Wraz z zwiększaniem zbioru testowego czas predykcji dla wszystkich klasyfikatorów obrócz SVM rósł.

In [36]:
file_names = ["LR_1", "LR_1"]
labels = ["Perceptron(l1)", "Perceptron(l2)"]
dataset = "rcv1"
fig = go.Figure()
for label, name in zip(labels, file_names):
    df = pd.read_csv("clf_results/" + dataset + "_df_" + name + ".csv", index_col=None)
    fig = fig.add_trace(go.Scatter(x=df["Train size"], y=df["ACC"], name=label))
fig.update_xaxes(type="log")
fig.update_layout(title=dataset, xaxis_title="Train size", yaxis_title="Accuracy", showlegend=True)
fig.show()

In [8]:
Z = []
with open('stem.termid.idf.map.txt', "r", encoding="utf8") as reader:
    for line in reader:
        Z.append(line.split()[0])
print(len(Z))

47237


In [25]:
group_data = []
for dataset in datasets:
    for label, name in zip(labels, file_names):
        idf = pd.read_csv("clf_results/" + dataset + "_df_" + name + ".csv", index_col=None)
        group_data.append(np.hstack((np.array(idf.mean(axis=0)["ACC"]), [label, dataset])))
        
group_data
df = pd.DataFrame(group_data, columns=["Accuracy", "Clfs", "datasets"])
df["Accuracy"] = df["Accuracy"].astype('float').apply(lambda x: round(x, 3))
fig = px.bar(df, x="Clfs", y="Accuracy", color="datasets", title="Accuracy for all clfs on all datasets", barmode='group')
fig.show()

#### Najlepiej w przypadku danych sonar wykazała się regresja logistyczna, natomiast dla większych zbiorów danych 
# !!!!!!!!!!!!!

### Atributes after prediction (Reuters Corpus Volume I) for category "HEALTH/SAFETY"

In [27]:
Z = []
with open('/stem.termid.idf.map.txt', "r", encoding="utf8") as reader:
    for line in reader:
        Z.append(line.split()[0])
Z = Z[1:]
y_pred = clf.predict(X_test)
X_selected = X_test[y_pred == 1]
X_not_selected = X_test[y_pred != 1]
c = X_selected.shape[1]
a, b = np.where(X_selected.toarray() == True)
words = []
for i in b:
    words.append(Z[i])
words[100:120]

['receiv',
 'reject',
 'remain',
 'resist',
 'risky',
 'rotterdam',
 'roundup',
 'safe',
 'scen',
 'segreg',
 'separat',
 'ship',
 'soya',
 'soybean',
 'stat',
 'step',
 'stop',
 'strain',
 'success',
 'supe']

In [29]:
words[200:220]

['present',
 'press',
 'questionnair',
 'rais',
 'relat',
 'report',
 'reproduc',
 'research',
 'sex',
 'show',
 'site',
 'spent',
 'survey',
 'tend',
 'time',
 'toxic',
 'toxin',
 'trac',
 'univers',
 'unrelat']

In [28]:
a, b = np.where(X_selected.toarray() == False)
words = []
for i in b:
    words.append(Z[i])
words[100:120]

['abdallah',
 'abdel',
 'abdelazim',
 'abdelaziz',
 'abdelhakim',
 'abdelhalim',
 'abdelhamid',
 'abdelhaq',
 'abdelkerim',
 'abdellaoui',
 'abderaman',
 'abderenan',
 'abderrahm',
 'abdic',
 'abdicat',
 'abdo',
 'abdolhass',
 'abdom',
 'abdomin',
 'abdou']

#### Zo stało wypisano po 20 strybutów dla współczynników ujemnych i dodatnich. Ze zględu na brak sortowania ciężko jest porównać listę z uzyskaną na poprzednich zajęciach. Natomiast można dostrzec wystąpienie słów jak "safe", "risky" , "receiv", "report", "'reproduc" oraz "toxic" dla kategorii HEALTH/SAFETY.

### Wnioski
- Najkrócej nauczył się Perceptron, najdłużej SVM.
- Niezależnie od danych złożoność próbkowa Perceptronu jest podobna. 