In [23]:
import pandas as pd
import numpy as np
from tqdm import tqdm

import nltk
import string

from sklearn.model_selection import learning_curve


from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.naive_bayes import BernoulliNB
from sklearn.experimental import enable_halving_search_cv  # noqa
from sklearn.model_selection import HalvingRandomSearchCV
from sklearn.model_selection import train_test_split

from sklearn.metrics import roc_curve
from sklearn.metrics import auc
import matplotlib.pyplot as plt

## Read and Prep Data


In [2]:
tqdm.pandas()

In [3]:
# from google.colab import drive
# drive.mount('/content/gdrive') 
# path = '/content/gdrive/MyDrive/IFT 6390/kaggle2/'

In [6]:
# input_path = path+'data/input/'
input_path = 'data/input/'

In [7]:
all_train_data = pd.read_csv(input_path + 'train_data_prepped.csv').fillna('')
all_test_data = pd.read_csv(input_path + 'test_data_prepped.csv').fillna('')

In [8]:
all_train_data.head(1)

Unnamed: 0,id,text,cat,text_no_punc,text_no_numerals,text_no_sw,text_porter_stemmed,text_lancaster_stemmed,text_lemmatized
0,0,anyway im getting of for a while,train,anyway im getting of for a while,anyway im getting of for a while,anyway im getting,anyway im get of for a while,anyway im get of for a whil,anyway im getting of for a while


In [9]:
all_test_data.head(1)

Unnamed: 0,id,text,cat,text_no_punc,text_no_numerals,text_no_sw,text_porter_stemmed,text_lancaster_stemmed,text_lemmatized
0,0,so cut... missed out on all the tce extreme me...,test,so cut missed out on all the tce extreme merch...,so cut missed out on all the tce extreme merch...,cut missed tce extreme merch! sizes,so cut miss out on all the tce extrem merch! i...,so cut miss out on al the tce extrem merch! in...,so cut missed out on all the tce extreme merch...


In [10]:
all_train_data[all_train_data.isnull().any(axis=1)]

Unnamed: 0,id,text,cat,text_no_punc,text_no_numerals,text_no_sw,text_porter_stemmed,text_lancaster_stemmed,text_lemmatized


In [11]:
all_test_data[all_test_data.isnull().any(axis=1)]

Unnamed: 0,id,text,cat,text_no_punc,text_no_numerals,text_no_sw,text_porter_stemmed,text_lancaster_stemmed,text_lemmatized


load train targets, binarize, drop nuetrals

In [12]:
train_target = pd.read_csv(input_path + 'train_results.csv')
train_target['target'].value_counts()

positive    520436
negative    519803
neutral         84
Name: target, dtype: int64

In [13]:
train_target.head()

Unnamed: 0,id,target
0,0,positive
1,1,negative
2,2,positive
3,3,positive
4,4,negative


In [14]:
train_target['target'] = [0 if t == 'negative' else 2 if t == 'positive' else 2 for t in train_target['target'].values]

In [15]:
all_train_data['target'] = train_target['target']

drop nuetral target rows to keep it binary

In [16]:
# all_train_data = all_train_data[all_train_data['target'] != 'neutral']
# all_train_data['target'] = [1 if t=='positive' else 0 for t in all_train_data['target'].values]
all_train_data['target'].value_counts()


2    520520
0    519803
Name: target, dtype: int64

### prepare bag of words<br>
we need a different model for each text format

Naive Bayes doesn't have any hyperparameters, so we'll test different versions of the text processing with different versions of naive bayes and corpos generation

the following parameters will be tested<br>
1. size of corpus vocab
2. corpus ngram varieties
3. bernoulli, multinomial or gaussian naive bayes
4. stemming/lemmatizing methods

In [17]:
vocab_sizes = [128, 1024, 8096, 16384]
ngrams = [(1, 1), (2, 2), (1, 2), (1, 3), (1, 4)]
models = [BernoulliNB(), GaussianNB(), MultinomialNB()]
text_columns = ['text_no_numerals', 'text_no_sw', 'text_porter_stemmed', 'text_lancaster_stemmed', 'text_lemmatized']
threshold = 0.5

# shuffle train data
all_train_data = all_train_data.sample(len(all_train_data))

# get data and target
train_X = all_train_data.iloc[:, :-1]
train_y  = all_train_data.iloc[:, -1]


# get 5000 data points for first round of training
train_v1 = train_X[:10_000]
targets_v1 = train_y[:10_000]

In [18]:
targets_v1.head()

913344    0
626605    2
565148    2
209687    2
698022    2
Name: target, dtype: int64

In [19]:
def trainModels(df, targets, vocab_sizes, models, text_columns, ngrams, threshold):

    param_tracker = []
    counter = 1
    for size in tqdm(vocab_sizes):

        for model in models:

            for col in text_columns:


                for ng in tqdm(ngrams):

                    counter+=1
                    if counter % 10==0:
                        print(f'{counter}')
                    vectorizer = CountVectorizer(max_features=size, ngram_range=ng)

                    BOW = vectorizer.fit_transform(df[col])
                    BOW_array = BOW.toarray()

                    X_train, X_valid, y_train, y_valid = train_test_split(BOW_array, targets, test_size=0.2, random_state=42)


                    model.fit(X_train, y_train)


                    prob_predictions = model.predict_proba(X_valid)

                    # gets index of 1 column in prob_predictions
                    pos_predictions = [pred[list(model.classes_).index(2)] for pred in prob_predictions]

                    num_correct_pred = 0
                    for pred, actual in zip(pos_predictions, y_valid):
                        if pred >= threshold:
                            binary_pred = 2
                        else:
                            binary_pred = 0

                        if binary_pred==actual:
                            num_correct_pred+=1
                    accuracy = num_correct_pred / len(y_valid)
                    print(f'accuracy: {accuracy}')
                    print('\n\n')

                    param_tracker.append((size, str(model), col, ng, accuracy))
                    
    param_df = pd.DataFrame(param_tracker, columns = ['vocab_size', 'model_type', 'text_column', 'ngram', 'accuracy_round1'])
    param_df = param_df.sort_values(by='accuracy_round1', ascending=False)
    return param_df

                    
                
    # for vocab size we'll test

In [20]:
param_df = trainModels(train_v1, targets_v1, vocab_sizes, models, text_columns, ngrams, threshold)

  0%|                                                                              | 0/4 [00:00<?, ?it/s]
  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  4.42it/s][A

accuracy: 0.6915






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  3.65it/s][A

accuracy: 0.587






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.09it/s][A

accuracy: 0.694






 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  1.98it/s][A

accuracy: 0.694






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.85it/s][A


accuracy: 0.694






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  7.27it/s][A

accuracy: 0.646






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  5.48it/s][A

accuracy: 0.541






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  4.39it/s][A

accuracy: 0.645



10



 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  3.34it/s][A

accuracy: 0.645






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  2.99it/s][A


accuracy: 0.6455






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  6.29it/s][A

accuracy: 0.6975






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  4.02it/s][A

accuracy: 0.588






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.30it/s][A

accuracy: 0.6945






 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.32it/s][A

accuracy: 0.695






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  2.05it/s][A


accuracy: 0.6945






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  6.29it/s][A

accuracy: 0.6985






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  4.07it/s][A

accuracy: 0.586






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.23it/s][A

accuracy: 0.6925



20



 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.16it/s][A

accuracy: 0.6925






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.96it/s][A


accuracy: 0.6925






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  6.10it/s][A

accuracy: 0.6935






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  4.06it/s][A

accuracy: 0.585






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.25it/s][A

accuracy: 0.6925






 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.16it/s][A

accuracy: 0.6925






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.96it/s][A


accuracy: 0.6925






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  5.99it/s][A

accuracy: 0.663






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  4.06it/s][A

accuracy: 0.593






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.31it/s][A

accuracy: 0.6525



30



 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.25it/s][A

accuracy: 0.6525






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.97it/s][A


accuracy: 0.6525






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  6.51it/s][A

accuracy: 0.6495






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  4.92it/s][A

accuracy: 0.5425






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  4.00it/s][A

accuracy: 0.6445






 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.99it/s][A

accuracy: 0.6445






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  2.81it/s][A


accuracy: 0.646






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  6.06it/s][A

accuracy: 0.68






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  4.17it/s][A

accuracy: 0.589






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.32it/s][A

accuracy: 0.6675



40



 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.33it/s][A

accuracy: 0.6665






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  2.02it/s][A


accuracy: 0.6675






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  5.96it/s][A

accuracy: 0.674






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  3.95it/s][A

accuracy: 0.5915






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.34it/s][A

accuracy: 0.6625






 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.23it/s][A

accuracy: 0.6625






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  2.01it/s][A


accuracy: 0.6625






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  5.67it/s][A

accuracy: 0.6645






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  3.85it/s][A

accuracy: 0.588






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.26it/s][A

accuracy: 0.658



50



 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.24it/s][A

accuracy: 0.658






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.98it/s][A


accuracy: 0.658






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  5.20it/s][A

accuracy: 0.6735






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  3.83it/s][A

accuracy: 0.5765






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.24it/s][A

accuracy: 0.67






 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.14it/s][A

accuracy: 0.67






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.96it/s][A


accuracy: 0.67






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  8.06it/s][A

accuracy: 0.646






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  5.49it/s][A

accuracy: 0.541






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  4.51it/s][A

accuracy: 0.6465



60



 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  3.28it/s][A

accuracy: 0.6465






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.01it/s][A


accuracy: 0.6465






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  6.56it/s][A

accuracy: 0.68






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  4.58it/s][A

accuracy: 0.5785






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.46it/s][A

accuracy: 0.6785






 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.23it/s][A

accuracy: 0.677






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  2.02it/s][A


accuracy: 0.6785






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  6.63it/s][A

accuracy: 0.6845






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  4.41it/s][A

accuracy: 0.58






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.53it/s][A

accuracy: 0.678



70



 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.37it/s][A

accuracy: 0.678






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  2.10it/s][A


accuracy: 0.678






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:00,  6.43it/s][A

accuracy: 0.676






 40%|████████████████████████████                                          | 2/5 [00:00<00:00,  4.28it/s][A

accuracy: 0.574






 60%|██████████████████████████████████████████                            | 3/5 [00:00<00:00,  3.31it/s][A

accuracy: 0.6785






 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.29it/s][A

accuracy: 0.6785






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  2.07it/s][A
 25%|█████████████████▌                                                    | 1/4 [00:35<01:45, 35.30s/it]

accuracy: 0.6785






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:02,  1.99it/s][A

accuracy: 0.7385






 40%|████████████████████████████                                          | 2/5 [00:01<00:01,  1.75it/s][A

accuracy: 0.6545






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.62it/s][A

accuracy: 0.731



80



 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.30it/s][A

accuracy: 0.732






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:04<00:00,  1.21it/s][A


accuracy: 0.7315






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  2.19it/s][A

accuracy: 0.7015






 40%|████████████████████████████                                          | 2/5 [00:00<00:01,  2.06it/s][A

accuracy: 0.5785






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.84it/s][A

accuracy: 0.7055






 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.51it/s][A

accuracy: 0.707






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.50it/s][A


accuracy: 0.7065






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:02,  1.99it/s][A

accuracy: 0.7335






 40%|████████████████████████████                                          | 2/5 [00:01<00:01,  1.76it/s][A

accuracy: 0.6625






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.66it/s][A

accuracy: 0.7415



90



 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.32it/s][A

accuracy: 0.74






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:04<00:00,  1.23it/s][A


accuracy: 0.738






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  2.01it/s][A

accuracy: 0.728






 40%|████████████████████████████                                          | 2/5 [00:01<00:01,  1.78it/s][A

accuracy: 0.6565






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.60it/s][A

accuracy: 0.7375






 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.29it/s][A

accuracy: 0.7375






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:04<00:00,  1.22it/s][A


accuracy: 0.7365






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:02,  1.92it/s][A

accuracy: 0.7335






 40%|████████████████████████████                                          | 2/5 [00:01<00:01,  1.73it/s][A

accuracy: 0.6555






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.58it/s][A

accuracy: 0.7335



100



 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.34it/s][A

accuracy: 0.733






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:04<00:00,  1.24it/s][A


accuracy: 0.7345






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  2.68it/s][A

accuracy: 0.6335






 40%|████████████████████████████                                          | 2/5 [00:00<00:01,  2.34it/s][A

accuracy: 0.6195






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.98it/s][A

accuracy: 0.665






 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.51it/s][A

accuracy: 0.665






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.37it/s][A


accuracy: 0.6655






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  2.81it/s][A

accuracy: 0.626






 40%|████████████████████████████                                          | 2/5 [00:00<00:01,  2.50it/s][A

accuracy: 0.567






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:00,  2.20it/s][A

accuracy: 0.645



110



 80%|████████████████████████████████████████████████████████              | 4/5 [00:01<00:00,  2.02it/s][A

accuracy: 0.6605






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.97it/s][A


accuracy: 0.6695






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  2.69it/s][A

accuracy: 0.619






 40%|████████████████████████████                                          | 2/5 [00:00<00:01,  2.17it/s][A

accuracy: 0.6325






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.99it/s][A

accuracy: 0.6815






 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.64it/s][A

accuracy: 0.6815






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.54it/s][A


accuracy: 0.6815






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  3.07it/s][A

accuracy: 0.6265






 40%|████████████████████████████                                          | 2/5 [00:00<00:01,  2.37it/s][A

accuracy: 0.635






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:00,  2.16it/s][A

accuracy: 0.6805



120



 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.68it/s][A

accuracy: 0.6805






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.53it/s][A


accuracy: 0.6755






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  2.67it/s][A

accuracy: 0.632






 40%|████████████████████████████                                          | 2/5 [00:00<00:01,  2.27it/s][A

accuracy: 0.626






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.99it/s][A

accuracy: 0.6805






 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.57it/s][A

accuracy: 0.678






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.45it/s][A


accuracy: 0.6805






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  2.23it/s][A

accuracy: 0.728






 40%|████████████████████████████                                          | 2/5 [00:01<00:01,  1.91it/s][A

accuracy: 0.6255






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.71it/s][A

accuracy: 0.7285



130



 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.42it/s][A

accuracy: 0.7265






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.32it/s][A


accuracy: 0.7255






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  2.44it/s][A

accuracy: 0.6945






 40%|████████████████████████████                                          | 2/5 [00:00<00:01,  2.15it/s][A

accuracy: 0.5505






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.95it/s][A

accuracy: 0.6995






 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.69it/s][A

accuracy: 0.7






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.65it/s][A


accuracy: 0.6995






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  2.28it/s][A

accuracy: 0.7245






 40%|████████████████████████████                                          | 2/5 [00:01<00:01,  1.96it/s][A

accuracy: 0.6345






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.74it/s][A

accuracy: 0.7235



140



 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.41it/s][A

accuracy: 0.7265






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.32it/s][A


accuracy: 0.7245






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  2.32it/s][A

accuracy: 0.726






 40%|████████████████████████████                                          | 2/5 [00:01<00:01,  1.94it/s][A

accuracy: 0.6325






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.74it/s][A

accuracy: 0.732






 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.40it/s][A

accuracy: 0.732






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.31it/s][A


accuracy: 0.73






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:00<00:01,  2.34it/s][A

accuracy: 0.728






 40%|████████████████████████████                                          | 2/5 [00:00<00:01,  1.97it/s][A

accuracy: 0.623






 60%|██████████████████████████████████████████                            | 3/5 [00:01<00:01,  1.75it/s][A

accuracy: 0.7235



150



 80%|████████████████████████████████████████████████████████              | 4/5 [00:02<00:00,  1.40it/s][A

accuracy: 0.725






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.32it/s][A
 50%|███████████████████████████████████                                   | 2/4 [01:29<01:32, 46.38s/it]

accuracy: 0.7245






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:10,  2.70s/it][A

accuracy: 0.73






 40%|████████████████████████████                                          | 2/5 [00:05<00:08,  2.87s/it][A

accuracy: 0.701






 60%|██████████████████████████████████████████                            | 3/5 [00:08<00:05,  2.90s/it][A

accuracy: 0.7375






 80%|████████████████████████████████████████████████████████              | 4/5 [00:11<00:03,  3.03s/it][A

accuracy: 0.741






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:15<00:00,  3.07s/it][A


accuracy: 0.743






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:11,  2.76s/it][A

accuracy: 0.6965






 40%|████████████████████████████                                          | 2/5 [00:05<00:08,  2.76s/it][A

accuracy: 0.564






 60%|██████████████████████████████████████████                            | 3/5 [00:08<00:05,  2.80s/it][A

accuracy: 0.7095



160



 80%|████████████████████████████████████████████████████████              | 4/5 [00:11<00:02,  2.88s/it][A

accuracy: 0.7065






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:14<00:00,  2.90s/it][A


accuracy: 0.7055






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:11,  2.79s/it][A

accuracy: 0.7465






 40%|████████████████████████████                                          | 2/5 [00:05<00:08,  2.82s/it][A

accuracy: 0.695






 60%|██████████████████████████████████████████                            | 3/5 [00:08<00:05,  2.89s/it][A

accuracy: 0.748






 80%|████████████████████████████████████████████████████████              | 4/5 [00:11<00:03,  3.04s/it][A

accuracy: 0.7445






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:15<00:00,  3.09s/it][A


accuracy: 0.7505






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:11,  2.82s/it][A

accuracy: 0.742






 40%|████████████████████████████                                          | 2/5 [00:05<00:08,  2.85s/it][A

accuracy: 0.7005






 60%|██████████████████████████████████████████                            | 3/5 [00:08<00:05,  2.89s/it][A

accuracy: 0.7495



170



 80%|████████████████████████████████████████████████████████              | 4/5 [00:11<00:03,  3.02s/it][A

accuracy: 0.75






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:15<00:00,  3.08s/it][A


accuracy: 0.7505






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:11,  2.79s/it][A

accuracy: 0.735






 40%|████████████████████████████                                          | 2/5 [00:05<00:08,  2.84s/it][A

accuracy: 0.6945






 60%|██████████████████████████████████████████                            | 3/5 [00:08<00:05,  2.89s/it][A

accuracy: 0.7485






 80%|████████████████████████████████████████████████████████              | 4/5 [00:11<00:03,  3.03s/it][A

accuracy: 0.7465






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:15<00:00,  3.08s/it][A


accuracy: 0.75






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:09,  2.36s/it][A

accuracy: 0.586






 40%|████████████████████████████                                          | 2/5 [00:05<00:07,  2.59s/it][A

accuracy: 0.6225






 60%|██████████████████████████████████████████                            | 3/5 [00:07<00:05,  2.65s/it][A

accuracy: 0.631



180



 80%|████████████████████████████████████████████████████████              | 4/5 [00:10<00:02,  2.80s/it][A

accuracy: 0.6375






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:14<00:00,  2.87s/it][A


accuracy: 0.6385






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:09,  2.28s/it][A

accuracy: 0.573






 40%|████████████████████████████                                          | 2/5 [00:04<00:07,  2.41s/it][A

accuracy: 0.5725






 60%|██████████████████████████████████████████                            | 3/5 [00:07<00:04,  2.35s/it][A

accuracy: 0.626






 80%|████████████████████████████████████████████████████████              | 4/5 [00:09<00:02,  2.35s/it][A

accuracy: 0.6185






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:12<00:00,  2.46s/it][A


accuracy: 0.6195






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:09,  2.48s/it][A

accuracy: 0.5645






 40%|████████████████████████████                                          | 2/5 [00:05<00:07,  2.56s/it][A

accuracy: 0.6115






 60%|██████████████████████████████████████████                            | 3/5 [00:07<00:05,  2.63s/it][A

accuracy: 0.6305



190



 80%|████████████████████████████████████████████████████████              | 4/5 [00:10<00:02,  2.74s/it][A

accuracy: 0.6385






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:14<00:00,  2.80s/it][A


accuracy: 0.6485






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:09,  2.46s/it][A

accuracy: 0.56






 40%|████████████████████████████                                          | 2/5 [00:05<00:07,  2.52s/it][A

accuracy: 0.613






 60%|██████████████████████████████████████████                            | 3/5 [00:07<00:05,  2.58s/it][A

accuracy: 0.6365






 80%|████████████████████████████████████████████████████████              | 4/5 [00:10<00:02,  2.72s/it][A

accuracy: 0.6385






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:13<00:00,  2.77s/it][A


accuracy: 0.645






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:09,  2.48s/it][A

accuracy: 0.5765






 40%|████████████████████████████                                          | 2/5 [00:05<00:07,  2.55s/it][A

accuracy: 0.627






 60%|██████████████████████████████████████████                            | 3/5 [00:07<00:05,  2.62s/it][A

accuracy: 0.638



200



 80%|████████████████████████████████████████████████████████              | 4/5 [00:10<00:02,  2.76s/it][A

accuracy: 0.649






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:14<00:00,  2.82s/it][A


accuracy: 0.6505






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:08,  2.14s/it][A

accuracy: 0.726






 40%|████████████████████████████                                          | 2/5 [00:04<00:06,  2.19s/it][A

accuracy: 0.6765






 60%|██████████████████████████████████████████                            | 3/5 [00:06<00:04,  2.26s/it][A

accuracy: 0.745






 80%|████████████████████████████████████████████████████████              | 4/5 [00:09<00:02,  2.42s/it][A

accuracy: 0.744






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:12<00:00,  2.46s/it][A


accuracy: 0.7445






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:08,  2.08s/it][A

accuracy: 0.694






 40%|████████████████████████████                                          | 2/5 [00:04<00:06,  2.13s/it][A

accuracy: 0.5635






 60%|██████████████████████████████████████████                            | 3/5 [00:06<00:04,  2.20s/it][A

accuracy: 0.7085



210



 80%|████████████████████████████████████████████████████████              | 4/5 [00:08<00:02,  2.28s/it][A

accuracy: 0.7035






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:11<00:00,  2.29s/it][A


accuracy: 0.7035






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:08,  2.14s/it][A

accuracy: 0.7325






 40%|████████████████████████████                                          | 2/5 [00:04<00:06,  2.22s/it][A

accuracy: 0.677






 60%|██████████████████████████████████████████                            | 3/5 [00:06<00:04,  2.31s/it][A

accuracy: 0.7465






 80%|████████████████████████████████████████████████████████              | 4/5 [00:09<00:02,  2.48s/it][A

accuracy: 0.7445






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:12<00:00,  2.53s/it][A


accuracy: 0.745






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:08,  2.19s/it][A

accuracy: 0.732






 40%|████████████████████████████                                          | 2/5 [00:04<00:06,  2.27s/it][A

accuracy: 0.6795






 60%|██████████████████████████████████████████                            | 3/5 [00:06<00:04,  2.34s/it][A

accuracy: 0.7455



220



 80%|████████████████████████████████████████████████████████              | 4/5 [00:09<00:02,  2.51s/it][A

accuracy: 0.7465






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:12<00:00,  2.56s/it][A


accuracy: 0.7435






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:02<00:08,  2.15s/it][A

accuracy: 0.727






 40%|████████████████████████████                                          | 2/5 [00:04<00:06,  2.26s/it][A

accuracy: 0.681






 60%|██████████████████████████████████████████                            | 3/5 [00:06<00:04,  2.31s/it][A

accuracy: 0.747






 80%|████████████████████████████████████████████████████████              | 4/5 [00:09<00:02,  2.43s/it][A

accuracy: 0.743






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:12<00:00,  2.49s/it][A
 75%|███████████████████████████████████████████████████▊                 | 3/4 [04:55<01:59, 119.47s/it]

accuracy: 0.743






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:05<00:21,  5.50s/it][A

accuracy: 0.73






 40%|████████████████████████████                                          | 2/5 [00:11<00:16,  5.55s/it][A

accuracy: 0.6915






 60%|██████████████████████████████████████████                            | 3/5 [00:16<00:11,  5.68s/it][A

accuracy: 0.7335



230



 80%|████████████████████████████████████████████████████████              | 4/5 [00:27<00:07,  7.74s/it][A

accuracy: 0.736






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:39<00:00,  7.85s/it][A


accuracy: 0.7385






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:05<00:20,  5.17s/it][A

accuracy: 0.7025






 40%|████████████████████████████                                          | 2/5 [00:16<00:26,  8.80s/it][A

accuracy: 0.566






 60%|██████████████████████████████████████████                            | 3/5 [00:27<00:19,  9.98s/it][A

accuracy: 0.709






 80%|████████████████████████████████████████████████████████              | 4/5 [00:38<00:10, 10.36s/it][A

accuracy: 0.7075






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:50<00:00, 10.16s/it][A


accuracy: 0.7055






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:04<00:17,  4.49s/it][A

accuracy: 0.7465






 40%|████████████████████████████                                          | 2/5 [00:16<00:26,  8.80s/it][A

accuracy: 0.6985






 60%|██████████████████████████████████████████                            | 3/5 [00:27<00:19,  9.75s/it][A

accuracy: 0.743



240



 80%|████████████████████████████████████████████████████████              | 4/5 [00:35<00:09,  9.00s/it][A

accuracy: 0.7425






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:44<00:00,  8.83s/it][A


accuracy: 0.745






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:04<00:16,  4.24s/it][A

accuracy: 0.745






 40%|████████████████████████████                                          | 2/5 [00:14<00:23,  7.76s/it][A

accuracy: 0.7015






 60%|██████████████████████████████████████████                            | 3/5 [00:24<00:18,  9.00s/it][A

accuracy: 0.7495






 80%|████████████████████████████████████████████████████████              | 4/5 [00:36<00:09,  9.87s/it][A

accuracy: 0.75






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:48<00:00,  9.64s/it][A


accuracy: 0.7445






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:05<00:19,  5.00s/it][A

accuracy: 0.733






 40%|████████████████████████████                                          | 2/5 [00:13<00:21,  7.10s/it][A

accuracy: 0.6955






 60%|██████████████████████████████████████████                            | 3/5 [00:20<00:14,  7.07s/it][A

accuracy: 0.7435



250



 80%|████████████████████████████████████████████████████████              | 4/5 [00:32<00:08,  8.86s/it][A

accuracy: 0.7465






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:45<00:00,  9.01s/it][A


accuracy: 0.7425






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:04<00:18,  4.54s/it][A

accuracy: 0.5705






 40%|████████████████████████████                                          | 2/5 [00:09<00:14,  4.85s/it][A

accuracy: 0.614






 60%|██████████████████████████████████████████                            | 3/5 [00:14<00:10,  5.05s/it][A

accuracy: 0.628






 80%|████████████████████████████████████████████████████████              | 4/5 [00:19<00:05,  5.05s/it][A

accuracy: 0.6335






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:24<00:00,  4.97s/it][A


accuracy: 0.637






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:04<00:19,  4.86s/it][A

accuracy: 0.5625






 40%|████████████████████████████                                          | 2/5 [00:10<00:15,  5.10s/it][A

accuracy: 0.569






 60%|██████████████████████████████████████████                            | 3/5 [00:15<00:10,  5.24s/it][A

accuracy: 0.5985



260



 80%|████████████████████████████████████████████████████████              | 4/5 [00:21<00:05,  5.45s/it][A

accuracy: 0.6055






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:27<00:00,  5.40s/it][A


accuracy: 0.617






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:03<00:15,  3.85s/it][A

accuracy: 0.5515






 40%|████████████████████████████                                          | 2/5 [00:08<00:13,  4.51s/it][A

accuracy: 0.6135






 60%|██████████████████████████████████████████                            | 3/5 [00:13<00:09,  4.78s/it][A

accuracy: 0.619






 80%|████████████████████████████████████████████████████████              | 4/5 [00:19<00:05,  5.01s/it][A

accuracy: 0.6305






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:24<00:00,  4.99s/it][A


accuracy: 0.6325






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:03<00:14,  3.57s/it][A

accuracy: 0.555






 40%|████████████████████████████                                          | 2/5 [00:07<00:11,  3.95s/it][A

accuracy: 0.605






 60%|██████████████████████████████████████████                            | 3/5 [00:12<00:08,  4.24s/it][A

accuracy: 0.62



270



 80%|████████████████████████████████████████████████████████              | 4/5 [00:17<00:04,  4.67s/it][A

accuracy: 0.6305






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:23<00:00,  4.67s/it][A


accuracy: 0.627






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:04<00:16,  4.17s/it][A

accuracy: 0.5655






 40%|████████████████████████████                                          | 2/5 [00:09<00:14,  4.79s/it][A

accuracy: 0.6145






 60%|██████████████████████████████████████████                            | 3/5 [00:15<00:10,  5.19s/it][A

accuracy: 0.6265






 80%|████████████████████████████████████████████████████████              | 4/5 [00:20<00:05,  5.38s/it][A

accuracy: 0.639






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:26<00:00,  5.36s/it][A


accuracy: 0.63






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:04<00:16,  4.10s/it][A

accuracy: 0.7265






 40%|████████████████████████████                                          | 2/5 [00:10<00:16,  5.64s/it][A

accuracy: 0.6755






 60%|██████████████████████████████████████████                            | 3/5 [00:15<00:10,  5.20s/it][A

accuracy: 0.7315



280



 80%|████████████████████████████████████████████████████████              | 4/5 [00:20<00:05,  5.11s/it][A

accuracy: 0.734






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:29<00:00,  5.95s/it][A


accuracy: 0.7325






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:04<00:17,  4.25s/it][A

accuracy: 0.7






 40%|████████████████████████████                                          | 2/5 [00:13<00:20,  6.90s/it][A

accuracy: 0.561






 60%|██████████████████████████████████████████                            | 3/5 [00:22<00:16,  8.08s/it][A

accuracy: 0.7035






 80%|████████████████████████████████████████████████████████              | 4/5 [00:31<00:08,  8.54s/it][A

accuracy: 0.704






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:41<00:00,  8.22s/it][A


accuracy: 0.702






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:03<00:14,  3.60s/it][A

accuracy: 0.7315






 40%|████████████████████████████                                          | 2/5 [00:12<00:19,  6.64s/it][A

accuracy: 0.6775






 60%|██████████████████████████████████████████                            | 3/5 [00:21<00:15,  7.74s/it][A

accuracy: 0.744



290



 80%|████████████████████████████████████████████████████████              | 4/5 [00:30<00:08,  8.46s/it][A

accuracy: 0.739






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:40<00:00,  8.15s/it][A


accuracy: 0.748






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:03<00:12,  3.22s/it][A

accuracy: 0.731






 40%|████████████████████████████                                          | 2/5 [00:12<00:19,  6.53s/it][A

accuracy: 0.6785






 60%|██████████████████████████████████████████                            | 3/5 [00:17<00:12,  6.18s/it][A

accuracy: 0.748






 80%|████████████████████████████████████████████████████████              | 4/5 [00:23<00:06,  6.06s/it][A

accuracy: 0.746






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:33<00:00,  6.65s/it][A


accuracy: 0.747






  0%|                                                                              | 0/5 [00:00<?, ?it/s][A
 20%|██████████████                                                        | 1/5 [00:04<00:16,  4.01s/it][A

accuracy: 0.726






 40%|████████████████████████████                                          | 2/5 [00:11<00:18,  6.27s/it][A

accuracy: 0.676






 60%|██████████████████████████████████████████                            | 3/5 [00:18<00:12,  6.27s/it][A

accuracy: 0.7415



300



 80%|████████████████████████████████████████████████████████              | 4/5 [00:24<00:06,  6.27s/it][A

accuracy: 0.747






100%|██████████████████████████████████████████████████████████████████████| 5/5 [00:32<00:00,  6.44s/it][A
100%|█████████████████████████████████████████████████████████████████████| 4/4 [13:47<00:00, 206.85s/it]

accuracy: 0.7395








In [21]:
param_df

Unnamed: 0,vocab_size,model_type,text_column,ngram,accuracy_round1
169,8096,BernoulliNB(),text_lancaster_stemmed,"(1, 4)",0.7505
164,8096,BernoulliNB(),text_porter_stemmed,"(1, 4)",0.7505
168,8096,BernoulliNB(),text_lancaster_stemmed,"(1, 3)",0.7500
174,8096,BernoulliNB(),text_lemmatized,"(1, 4)",0.7500
243,16384,BernoulliNB(),text_lancaster_stemmed,"(1, 3)",0.7500
...,...,...,...,...,...
260,16384,GaussianNB(),text_porter_stemmed,"(1, 1)",0.5515
131,1024,MultinomialNB(),text_no_sw,"(2, 2)",0.5505
31,128,GaussianNB(),text_no_sw,"(2, 2)",0.5425
6,128,BernoulliNB(),text_no_sw,"(2, 2)",0.5410


In [22]:
param_df.to_csv('data/output/naive_bayes/naive_bayes_params_round1.csv', index=False)

In [25]:
param_df = pd.read_csv('data/output/naive_bayes/naive_bayes_params_round1.csv')

# ngrams get saved as string, convert back to int tuple
param_df['ngram'] = [(int(ng[1]), int(ng[4])) for ng in param_df['ngram'].values]

param_df = param_df.replace({np.nan: None})

In [26]:
top_params = param_df[:10]

based on these results, we'll train the full dataset on these 10 combinations

In [27]:
num_points = 100_000
num_train = int(num_points*0.8)

In [28]:

model_accuracy = []

for i, param_set in enumerate(tqdm(top_params.values)):
    vocab_size, model_type, text_column, ngram, *_ = param_set
    print(vocab_size, model_type, text_column, ngram,)
    
    print('splitting train-validation data')
    
    # train is all training data with targets included!
    # sample to get smaller amount of data to deal with RAM constraints
    train_sample = all_train_data.sample(num_points)

    # get data and target
    sample_train_X = train_sample.iloc[:, :-1]
    sample_train_y  = train_sample.iloc[:, -1]



    if vocab_size:
        vocab_size = int(vocab_size)
    
    if model_type == 'MultinomialNB()':
        model = MultinomialNB()
    elif model_type == 'BernoulliNB()':
        model = BernoulliNB()
    elif model_type == 'GaussianNB()':
        model = GaussianNB()
    else:
        print('warning, unrecognized model!')
        print(i, param_set)
        
    print('vectorizing')
    vectorizer = CountVectorizer(max_features=vocab_size, ngram_range=ngram)

    print('creating BOW')
    
    BOW = vectorizer.fit_transform(sample_train_X[text_column])
    # BOW_array = BOW.toarray()
    

    # all sample_train_X and sample_train_y are the X, y sample from all of the training data, 
    #+ sample size determined by num_points
    X_train, X_valid, y_train, y_valid = train_test_split(BOW, sample_train_y, test_size=0.2, random_state=42)
    
    print('fitting model')
    model.fit(X_train, y_train)

    print('getting predictions')
    prob_predictions = model.predict_proba(X_valid)

    # gets index of 1 column in prob_predictions
    pos_predictions = [pred[list(model.classes_).index(2)] for pred in prob_predictions]
    
    
    # get accuracy
    num_correct_pred = 0
    for pred, actual in zip(pos_predictions, y_valid):
        if pred >= threshold:
            binary_pred = 2
        else:
            binary_pred = 0

        if binary_pred==actual:
            num_correct_pred+=1
    accuracy = num_correct_pred / len(y_valid)
    print(accuracy)
    print('\n')
    
    model_accuracy.append(accuracy)
    
    

  0%|                                                                             | 0/10 [00:00<?, ?it/s]

8096 BernoulliNB() text_lancaster_stemmed (1, 4)
splitting train-validation data
vectorizing
creating BOW


 10%|██████▉                                                              | 1/10 [00:11<01:44, 11.66s/it]

fitting model
getting predictions
0.76435


8096 BernoulliNB() text_porter_stemmed (1, 4)
splitting train-validation data
vectorizing
creating BOW


 20%|█████████████▊                                                       | 2/10 [00:23<01:31, 11.49s/it]

fitting model
getting predictions
0.7622


8096 BernoulliNB() text_lancaster_stemmed (1, 3)
splitting train-validation data
vectorizing
creating BOW


 30%|████████████████████▋                                                | 3/10 [00:30<01:07,  9.61s/it]

fitting model
getting predictions
0.75555


8096 BernoulliNB() text_lemmatized (1, 4)
splitting train-validation data
vectorizing
creating BOW


 40%|███████████████████████████▌                                         | 4/10 [00:41<01:01, 10.30s/it]

fitting model
getting predictions
0.7632


16384 BernoulliNB() text_lancaster_stemmed (1, 3)
splitting train-validation data
vectorizing
creating BOW


 50%|██████████████████████████████████▌                                  | 5/10 [00:49<00:46,  9.27s/it]

fitting model
getting predictions
0.76835


16384 BernoulliNB() text_lancaster_stemmed (1, 2)
splitting train-validation data
vectorizing
creating BOW


 60%|█████████████████████████████████████████▍                           | 6/10 [00:52<00:29,  7.37s/it]

fitting model
getting predictions
0.76715


8096 BernoulliNB() text_lancaster_stemmed (1, 2)
splitting train-validation data
vectorizing
creating BOW


 70%|████████████████████████████████████████████████▎                    | 7/10 [00:56<00:18,  6.12s/it]

fitting model
getting predictions
0.76585


8096 BernoulliNB() text_lemmatized (1, 2)
splitting train-validation data
vectorizing
creating BOW


 80%|███████████████████████████████████████████████████████▏             | 8/10 [01:00<00:10,  5.35s/it]

fitting model
getting predictions
0.7642


8096 BernoulliNB() text_porter_stemmed (1, 2)
splitting train-validation data
vectorizing
creating BOW


 90%|██████████████████████████████████████████████████████████████       | 9/10 [01:03<00:04,  4.77s/it]

fitting model
getting predictions
0.76475


16384 MultinomialNB() text_lancaster_stemmed (1, 2)
splitting train-validation data
vectorizing
creating BOW


100%|████████████████████████████████████████████████████████████████████| 10/10 [01:07<00:00,  6.71s/it]

fitting model
getting predictions
0.77905







In [29]:
top_params['accuracy_round2'] = model_accuracy

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [30]:
top_params = top_params.sort_values('accuracy_round2', ascending=False)

In [31]:
top_params

Unnamed: 0,vocab_size,model_type,text_column,ngram,accuracy_round1,accuracy_round2
9,16384,MultinomialNB(),text_lancaster_stemmed,"(1, 2)",0.748,0.77905
4,16384,BernoulliNB(),text_lancaster_stemmed,"(1, 3)",0.75,0.76835
5,16384,BernoulliNB(),text_lancaster_stemmed,"(1, 2)",0.7495,0.76715
6,8096,BernoulliNB(),text_lancaster_stemmed,"(1, 2)",0.7495,0.76585
8,8096,BernoulliNB(),text_porter_stemmed,"(1, 2)",0.748,0.76475
0,8096,BernoulliNB(),text_lancaster_stemmed,"(1, 4)",0.7505,0.76435
7,8096,BernoulliNB(),text_lemmatized,"(1, 2)",0.7485,0.7642
3,8096,BernoulliNB(),text_lemmatized,"(1, 4)",0.75,0.7632
1,8096,BernoulliNB(),text_porter_stemmed,"(1, 4)",0.7505,0.7622
2,8096,BernoulliNB(),text_lancaster_stemmed,"(1, 3)",0.75,0.75555


In [33]:
top_params.to_csv('data/output/naive_bayes/naive_bayes_params_round2.csv', index=False)

## train final model with best parameters

In [34]:
all_train_data.head(1)

Unnamed: 0,id,text,cat,text_no_punc,text_no_numerals,text_no_sw,text_porter_stemmed,text_lancaster_stemmed,text_lemmatized,target
913344,913344,wished... but i gues it aint gonna happen. ily,train,wished but i gues it aint gonna happen ily,wished but i gues it aint gonna happen ily,wished gues aint gonna happen ily,wish but i gue it aint gonna happen ili,wish but i gue it aint gonn hap ily,wished but i gues it aint gonna happen ily,0


In [None]:
# # 8096	BernoulliNB()	text_porter_stemmed	(1, 2)	

# all_train_data = all_train_data.sample(len(all_train_data))


vectorizer = CountVectorizer(max_features=16384, ngram_range=(1, 2))

In [None]:
X_train, X_test, y_train, y_test = train_test_split(all_train_data['text_lancaster_stemmed'], 
                                                    all_train_data['target'], 
                                                    test_size=0.2, 
                                                    random_state=42)


In [None]:
train_BOW = vectorizer.fit_transform(X_train)



In [None]:
test_BOW = vectorizer.transform(X_test)
# test_BOW_array = test_BOW.toarray()

In [None]:
model = BernoulliNB()
model.fit(train_BOW, y_train, test_BOW, y_test)

MultinomialNB()

In [None]:
model.classes_

array([0, 2])

In [None]:
predictions = model.predict(test_BOW_array)


In [None]:
pdf = pd.DataFrame(predictions).reset_index()
pdf.columns  = ['id', 'target']


In [None]:
pdf.to_csv('data/output/first_pred.csv', index=False)

code from https://scikit-learn.org/stable/auto_examples/model_selection/plot_learning_curve.html

## plot ROC curve