# MROiPUM - Projekt numer 1 - AdaBoost dla pełnych danych oraz sieć neuronowa MLP
## Autorzy - Jakub Raban, Bartłomiej Strózik, gr. pt. 14:40 A

In [2]:
import pandas as pd
import numpy as np
import json
import sklearn
from sklearn.model_selection import train_test_split, cross_validate
from sklearn.ensemble import AdaBoostClassifier
from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformer, CountVectorizer
from sklearn.neural_network import MLPClassifier
from sklearn.naive_bayes import MultinomialNB

### Przygotowanie danych do pracy
Zaimportowanie danych i wstępna obróbka

In [3]:
data = pd.read_csv('TNG.csv', header=0)
# usunięcie kolumny 'scenedetails' która nie ma żadnych wartości
data.drop(labels='scenedetails', axis=1, inplace=True)
# wybranie jedynie interesujących nas kolumn: [type, who, text]
speeches = data[['who', 'text', 'type']]
# usunięcie ze speeches wierszy mających wartość pustą (NA, NaN) w dowolnej kolumnie
speeches = speeches[speeches.notnull().all(axis=1)]
# zostawiamy tylko wiersze z mówionym tekstem
speeches = speeches[speeches['type'] == 'speech']
speeches

Unnamed: 0,who,text,type
1,PICARD V.O.,"Captain's log, stardate 42353.7. Our destinat...",speech
3,PICARD V.O.,"My orders are to examine Farpoint, a starbase...",speech
5,PICARD V.O.,"acquainted with my new command, this Galaxy C...",speech
7,PICARD V.O.,I am still somewhat in awe of its size and co...,speech
9,PICARD V.O.,"several key positions, most notably ...",speech
...,...,...,...
110167,DATA,Would you care to deal?,speech
110168,PICARD,Oh... thank you.,speech
110170,PICARD,I should have done this a long time ago. I wa...,speech
110171,TROI,You were always welcome.,speech


Sprawdzamy które osoby mówią najczęściej

In [4]:
speeches['who'].value_counts()[:23]

 PICARD                12611
 RIKER                  7257
 DATA                   6416
 GEORDI                 4591
 WORF                   3910
 BEVERLY                3403
 TROI                   3377
 WESLEY                 1448
 GUINAN                  538
 TASHA                   507
 PULASKI                 478
 Q                       462
 COMPUTER VOICE          460
 O'BRIEN                 444
 PICARD (V.O.)           411
 RO                      402
 BARCLAY                 364
 LWAXANA                 301
 RIKER'S COM VOICE       219
 PICARD'S COM VOICE      212
 VASH                    206
 ALEXANDER               204
 K'EHLEYR                179
Name: who, dtype: int64

Aby lepiej sklasyfikować dane, usuwamy z nazw osób mówiących dopiski, tj. ```V.O.```, ```(V.O.)```, ```'S COM VOICE```

In [5]:
def remove_metadata_from_speaking_character_name(character):
    ds = [" (V.O.)", "V.O.", "'S COM VOICE"]
    for d in ds:
        if character.endswith(d):
            return character[:-len(d)]
    return character

speeches['who'] = speeches['who'].apply(remove_metadata_from_speaking_character_name)
speeches['who'].value_counts()[:23]

 PICARD            13234
 RIKER              7533
 DATA               6567
 GEORDI             4748
 WORF               4012
 BEVERLY            3494
 TROI               3409
 WESLEY             1466
 GUINAN              539
 TASHA               534
 PULASKI             492
 O'BRIEN             487
 Q                   462
 COMPUTER VOICE      461
 RO                  404
 BARCLAY             371
 LWAXANA             304
 VASH                210
 ALEXANDER           204
 K'EHLEYR            179
 JELLICO             167
 MORIARTY            149
 LORE                140
Name: who, dtype: int64

Zostawiamy mowy 20 najczęściej przewijających się postaci i usuwamy już niepotrzebą kolumnę ```type```

In [6]:
speakers = list(speeches['who'].value_counts()[:20].index)
speeches = speeches[speeches['who'].isin(speakers)]
speeches.drop(labels='type', axis=1, inplace=True)
speeches

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Unnamed: 0,who,text
12,PICARD,"You will agree, Data, that Starfleet's instru..."
13,DATA,Difficult ... how so? Simply solve the myster...
14,PICARD,As simple as that.
15,TROI,Farpoint Station. Even the name sounds myster...
16,PICARD,"The problem, Data, is that another life form ..."
...,...,...
110167,DATA,Would you care to deal?
110168,PICARD,Oh... thank you.
110170,PICARD,I should have done this a long time ago. I wa...
110171,TROI,You were always welcome.


Za pomocą funkcji ```factorize``` kodujemy każdą postać jako liczbę naturalną

In [7]:
speeches = speeches.rename(columns={'who': 'character'})
speeches['character_id'] = speeches['character'].factorize()[0]
character_id_df = speeches[['character', 'character_id']].drop_duplicates().sort_values('character_id')
character_to_id = dict(character_id_df.values)
id_to_character = dict(character_id_df[['character_id', 'character']].values)
speeches.head()

Unnamed: 0,character,text,character_id
12,PICARD,"You will agree, Data, that Starfleet's instru...",0
13,DATA,Difficult ... how so? Simply solve the myster...,1
14,PICARD,As simple as that.,0
15,TROI,Farpoint Station. Even the name sounds myster...,2
16,PICARD,"The problem, Data, is that another life form ...",0


Zgodnie z treścią zadania zostawiamy 18 000 próbek. Mamy więc 18 000 próbek i 20 klas. Aby zasymulować różne budżety czasowe tworzymy również zbiór mniejszy (10 000 próbek) oraz większy (25 000 próbek)

In [8]:
speeches_normal = speeches.sample(18000, random_state=18000)
speeches_small = speeches.sample(10000, random_state=10000)
speeches_large = speeches.sample(25000, random_state=25000)

Aby dokonać klasyfikacji należy zamienić wypowiadany przez postacie tekst na wektory. Jednym ze sposobów na osiągnięcie tego jest zastosowanie wektoryzacji TF\*IDF, która najpierw zlicza ilość wystąpień wszystkich słów w wypowiedziach wszystkich postaci, a następnie słowom z poszczególnych wypowiedzi przypisuje wagę tym większą, im rzadziej pojawia się w ogóle wystąpień

In [9]:
tfidf = TfidfVectorizer(sublinear_tf=True, min_df=3, norm='l2', encoding='utf-8', ngram_range=(1, 2), stop_words='english')
features = tfidf.fit_transform(speeches_normal['text']).toarray()
labels = speeches_normal['character']
features.shape

(18000, 6189)

Dokonujemy klasyfikacji za pomocą trzech klasyfikatorów: AdaBoost, sieci neuronowej MLP oraz dodatkowo za pomocą wielomianowego naiwnego klasyfikatora Bayesowskiego, który to jest typowo używany do klasyfikacji tekstu. Dla każdego klasyfikatora dokonujemy walidacji krzyżowej przy podziale zbioru na 5 części oraz obliczamy następujące metryki:
- accuracy
- precision
- recall
- F1
- ROC-AUC

In [18]:
models = [
    AdaBoostClassifier(),
    MLPClassifier(alpha=0.7, max_iter=400),
    MultinomialNB(),
]
accuracies = []
for model in models:
    accuracy_scores = cross_validate(model, features, labels, scoring=['accuracy', 'precision_weighted', 'recall_weighted', 'f1_weighted', 'roc_auc_ovr_weighted'], cv=5)
    accuracies.append(accuracy_scores)

Poniżej przedstawienie uśrednionych wyników cross-validation w formie tabelarycznej

In [63]:
summary = [[score[metric].mean() for metric in ['test_accuracy', 'test_precision_weighted', 'test_recall_weighted', 'test_f1_weighted', 'test_roc_auc_ovr_weighted']] for score in accuracies]
pd.DataFrame(summary, columns=['Accuracy', 'Precision', 'Recall', 'F1', 'ROC-AUC'], index=['AdaBoost', 'MLP', 'Bayes'])

Unnamed: 0,Accuracy,Precision,Recall,F1,ROC-AUC
AdaBoost,0.292625,0.204835,0.292625,0.159535,0.507194
MLP,0.27225,0.251628,0.27225,0.25867,0.630907
Bayes,0.324125,0.34259,0.324125,0.225131,0.668576


W dalszej części porównujemy działanie klasyfikatorów mając do dyspozycji 3 różne budżety czasowe: mały, średni i duży

In [21]:
accuracies2 = []
for subset in [speeches_small, speeches_normal, speeches_large]:
    features = tfidf.fit_transform(subset['text']).toarray()
    labels = subset['character']
    mask = np.random.choice([True, False], len(subset), p=[0.8, 0.2])
    X_train = features[mask]
    y_train = labels[mask]
    X_test = features[~mask]
    y_test = labels[~mask]
    for model in models[:2]:  # AdaBoost, MLP
        model.fit(X_train, y_train)
        accuracies2.append(model.score(X_test, y_test))
accuracies2

[0.26922116824762854,
 0.2933100349475786,
 0.28047427541256414,
 0.31278602135626127,
 0.28352817219406956,
 0.3150870503236165]

Wyniki dokładności przedstawiamy w formie tabelarycznej

In [24]:
score_table = [[accuracies2[0], accuracies2[2], accuracies2[4]], [accuracies2[1], accuracies2[3], accuracies2[5]]]
pd.DataFrame(score_table, columns=['Mały budżet', 'Średni budżet', 'Duży budżet'], index=['AdaBoost', 'MLP'])

Unnamed: 0,Mały budżet,Średni budżet,Duży budżet
AdaBoost,0.269221,0.280474,0.283528
MLP,0.29331,0.312786,0.315087
