In [8]:
import pandas as pd
import numpy as np
import nltk
import string
from tqdm import tqdm



from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.naive_bayes import BernoulliNB
from sklearn.experimental import enable_halving_search_cv  # noqa
from sklearn.model_selection import HalvingRandomSearchCV
from sklearn.model_selection import train_test_split

In [9]:
tqdm.pandas()

In [10]:
input_path = 'data/input/'

In [12]:
train = pd.read_csv(input_path + 'train_data_prepped.csv').fillna('')
test = pd.read_csv(input_path + 'test_data_prepped.csv').fillna('')

In [13]:
train[train.isnull().any(axis=1)]

Unnamed: 0,id,text,cat,text_no_punc,text_no_numerals,text_no_sw,text_porter_stemmed,text_lancaster_stemmed,text_lemmatized


In [14]:
test[test.isnull().any(axis=1)]

Unnamed: 0,id,text,cat,text_no_punc,text_no_numerals,text_no_sw,text_porter_stemmed,text_lancaster_stemmed,text_lemmatized


load train targets, binarize, drop nuetrals

In [16]:
train_results = pd.read_csv(input_path + 'train_results.csv')
train_results['target'].value_counts()

positive    520436
negative    519803
neutral         84
Name: target, dtype: int64

In [21]:
train['target'] = train_results['target']

drop nuetral target rows to keep it binary

In [23]:
train = train[train['target'] != 'neutral']
train['target'] = [1 if t=='positive' else 0 for t in train['target'].values]
train['target'].value_counts()


1    520436
0    519803
Name: target, dtype: int64

### prepare bag of words<br>
we need a different model for each text format

Naive Bayes doesn't have any hyperparameters, so we'll test different versions of the text processing with different versions of naive bayes and corpos generation

the following parameters will be tested<br>
1. size of corpus vocab
2. corpus ngram varieties
3. bernoulli, multinomial or gaussian naive bayes
4. stemming/lemmatizing methods

In [25]:
vocab_sizes = [100, 1_000, 10_000, None]
ngrams = [(1, 1), (2, 2), (1, 2), (1, 3)]
models = [BernoulliNB(), GaussianNB(), MultinomialNB()]
text_columns = ['text_no_numerals', 'text_no_sw', 'text_porter_stemmed', 'text_lancaster_stemmed', 'text_lemmatized']
threshold = 0.5

# shuffle train data
train = train.sample(len(train))

# get data and target
train_X = train.iloc[:, :-1]
train_y  = train.iloc[:, -1]

# get 5000 data points for first round of training
train_v1 = train_X[:5000]
targets_v1 = train_y[:5000]

In [29]:
targets_v1.head()

51538     1
43617     0
327072    0
304537    1
549680    1
Name: target, dtype: int64

In [26]:
def trainModels(df, targets, vocab_sizes, models, text_columns, ngrams, threshold):

    param_tracker = []
    counter = 1
    for size in tqdm(vocab_sizes):
#         print(f'vocab size: {size}')

        for model in tqdm(models):
#             print(f'model type: {model}')

            for col in tqdm(text_columns):
#                 print(f'processing method: {col}')


                for ng in tqdm(ngrams):
#                     print(f'ngram range: {ng}')

                    counter+=1
                    if counter % 10==0:
                        print(f'{counter}')
                    vectorizer = CountVectorizer(max_features=size, ngram_range=ng)

#                     print('creating bag of words')
                    BOW = vectorizer.fit_transform(df[col])
                    BOW_array = BOW.toarray()

                    X_train, X_valid, y_train, y_valid = train_test_split(BOW_array, targets, test_size=0.2, random_state=42)
#                     print('fitting data')      
                    model.fit(X_train, y_train)


                    prob_predictions = model.predict_proba(X_valid)

                    # gets index of 1 column in prob_predictions
                    pos_predictions = [pred[list(model.classes_).index(1)] for pred in prob_predictions]

                    num_correct_pred = 0
                    for pred, actual in zip(pos_predictions, y_valid):
                        if pred >= threshold:
                            binary_pred = 1
                        else:
                            binary_pred = 0

                        if binary_pred==actual:
                            num_correct_pred+=1
                    accuracy = num_correct_pred / len(y_valid)
#                     print(f'accuracy: {accuracy}')
#                     print('\n\n')

                    param_tracker.append((size, str(model), col, ng, accuracy))
                    
    param_df = pd.DataFrame(param_tracker, columns = ['vocab_size', 'model_type', 'text_column', 'ngram', 'accuracy'])
    param_df = param_df.sort_values(by='accuracy', ascending=False)
    return param_df

                    
                
    # for vocab size we'll test

In [27]:
param_df = trainModels(train_v1, targets_v1, vocab_sizes, models, text_columns, ngrams, threshold)

  0%|                                                                                             | 0/4 [00:00<?, ?it/s]
  0%|                                                                                             | 0/3 [00:00<?, ?it/s][A

  0%|                                                                                             | 0/5 [00:00<?, ?it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:00<00:00,  7.28it/s][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00,  6.95it/s][A[A[A


 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:00<00:00,  6.32it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [

10





100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  7.78it/s][A[A[A


 60%|███████████████████████████████████████████████████                                  | 3/5 [00:01<00:01,  1.73it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00, 13.21it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  8.69it/s][A[A[A


 80%|████████████████████████████████████████████████████████████████████                 | 4/5 [00:02<00:00,  1.87it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 50%|██████████████████████████████████████████▌                               

20





100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  7.40it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.77it/s][A[A

 33%|████████████████████████████▎                                                        | 1/3 [00:02<00:05,  2.83s/it][A

  0%|                                                                                             | 0/5 [00:00<?, ?it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00,  9.08it/s][A[A[A


 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:00<00:00,  6.91it/s][A[A[A


100%|██████████████████████████████████████████████████████████████████████████████████

30





100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  7.53it/s][A[A[A


 60%|███████████████████████████████████████████████████                                  | 3/5 [00:01<00:01,  1.73it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00, 12.57it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  8.52it/s][A[A[A


 80%|████████████████████████████████████████████████████████████████████                 | 4/5 [00:02<00:00,  1.86it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 50%|██████████████████████████████████████████▌                               

40





100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  8.01it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.80it/s][A[A

 67%|████████████████████████████████████████████████████████▋                            | 2/3 [00:05<00:02,  2.80s/it][A

  0%|                                                                                             | 0/5 [00:00<?, ?it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00,  9.36it/s][A[A[A


 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:00<00:00,  6.78it/s][A[A[A


100%|██████████████████████████████████████████████████████████████████████████████████

50





100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  8.38it/s][A[A[A


 60%|███████████████████████████████████████████████████                                  | 3/5 [00:01<00:01,  1.81it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00, 12.99it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  7.86it/s][A[A[A


 80%|████████████████████████████████████████████████████████████████████                 | 4/5 [00:02<00:00,  1.86it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 50%|██████████████████████████████████████████▌                               

60





100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  8.37it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:02<00:00,  1.81it/s][A[A

100%|█████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:08<00:00,  2.79s/it][A
 25%|█████████████████████▎                                                               | 1/4 [00:08<00:25,  8.39s/it]
  0%|                                                                                             | 0/3 [00:00<?, ?it/s][A

  0%|                                                                                             | 0/5 [00:00<?, ?it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:00<00:

70





 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00,  5.64it/s][A[A[A


 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:00<00:00,  4.91it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  4.62it/s][A[A[A


 60%|███████████████████████████████████████████████████                                  | 3/5 [00:02<00:01,  1.11it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:00<00:00,  7.03it/s][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00,  6.08it/s][A[A[A


 75%|███████████████████████████████████████████████████████████████▊       

80





 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:00<00:00,  5.20it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  4.74it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:04<00:00,  1.12it/s][A[A

 33%|████████████████████████████▎                                                        | 1/3 [00:04<00:08,  4.45s/it][A

  0%|                                                                                             | 0/5 [00:00<?, ?it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:00<00:00,  5.63it/s][A[A[A


 50%|██████████████████████████████████████████▌                                       

90





 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00,  6.04it/s][A[A[A


 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:00<00:00,  5.35it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  4.93it/s][A[A[A


 60%|███████████████████████████████████████████████████                                  | 3/5 [00:02<00:01,  1.14it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:00<00:00,  6.82it/s][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00,  6.00it/s][A[A[A


 75%|███████████████████████████████████████████████████████████████▊       

100





 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:00<00:00,  5.21it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  4.79it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:04<00:00,  1.14it/s][A[A

 67%|████████████████████████████████████████████████████████▋                            | 2/3 [00:08<00:04,  4.41s/it][A

  0%|                                                                                             | 0/5 [00:00<?, ?it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:00<00:00,  7.09it/s][A[A[A


 50%|██████████████████████████████████████████▌                                       

110





 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00,  6.78it/s][A[A[A


 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:00<00:00,  5.72it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  5.15it/s][A[A[A


 60%|███████████████████████████████████████████████████                                  | 3/5 [00:02<00:01,  1.23it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:00<00:00,  7.49it/s][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:00<00:00,  6.33it/s][A[A[A


 75%|███████████████████████████████████████████████████████████████▊       

120





100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  4.72it/s][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:04<00:00,  1.22it/s][A[A

100%|█████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:12<00:00,  4.32s/it][A
 50%|██████████████████████████████████████████▌                                          | 2/4 [00:21<00:22, 11.07s/it]
  0%|                                                                                             | 0/3 [00:00<?, ?it/s][A

  0%|                                                                                             | 0/5 [00:00<?, ?it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:01<00:

130





 25%|█████████████████████▎                                                               | 1/4 [00:01<00:04,  1.53s/it][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:03<00:03,  1.58s/it][A[A[A


 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:04<00:01,  1.57s/it][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:06<00:00,  1.61s/it][A[A[A


 60%|███████████████████████████████████████████████████                                  | 3/5 [00:18<00:12,  6.32s/it][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:01<00:04,  1.61s/it][A[A[A


 50%|██████████████████████████████████████████▌                            

140





 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:04<00:01,  1.43s/it][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:06<00:00,  1.51s/it][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:31<00:00,  6.20s/it][A[A

 33%|████████████████████████████▎                                                        | 1/3 [00:31<01:02, 31.01s/it][A

  0%|                                                                                             | 0/5 [00:00<?, ?it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:01<00:04,  1.45s/it][A[A[A


 50%|██████████████████████████████████████████▌                                       

150





 25%|█████████████████████▎                                                               | 1/4 [00:01<00:03,  1.21s/it][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:02<00:02,  1.29s/it][A[A[A


 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:03<00:01,  1.30s/it][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:05<00:00,  1.33s/it][A[A[A


 60%|███████████████████████████████████████████████████                                  | 3/5 [00:16<00:11,  5.54s/it][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:01<00:03,  1.15s/it][A[A[A


 50%|██████████████████████████████████████████▌                            

160





 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:04<00:01,  1.32s/it][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:05<00:00,  1.34s/it][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:27<00:00,  5.55s/it][A[A

 67%|████████████████████████████████████████████████████████▋                            | 2/3 [00:58<00:29, 29.10s/it][A

  0%|                                                                                             | 0/5 [00:00<?, ?it/s][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:01<00:03,  1.04s/it][A[A[A


 50%|██████████████████████████████████████████▌                                       

170





 25%|█████████████████████▎                                                               | 1/4 [00:01<00:03,  1.05s/it][A[A[A


 50%|██████████████████████████████████████████▌                                          | 2/4 [00:02<00:02,  1.11s/it][A[A[A


 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:03<00:01,  1.18s/it][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:04<00:00,  1.17s/it][A[A[A


 60%|███████████████████████████████████████████████████                                  | 3/5 [00:14<00:09,  4.72s/it][A[A


  0%|                                                                                             | 0/4 [00:00<?, ?it/s][A[A[A


 25%|█████████████████████▎                                                               | 1/4 [00:01<00:03,  1.05s/it][A[A[A


 50%|██████████████████████████████████████████▌                            

180





 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [00:03<00:01,  1.17s/it][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:04<00:00,  1.19s/it][A[A[A


100%|█████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:23<00:00,  4.77s/it][A[A

100%|█████████████████████████████████████████████████████████████████████████████████████| 3/3 [01:22<00:00, 27.54s/it][A
 75%|███████████████████████████████████████████████████████████████▊                     | 3/4 [01:43<00:43, 43.75s/it]
  0%|                                                                                             | 0/3 [00:00<?, ?it/s][A

  0%|                                                                                             | 0/5 [00:00<?, ?it/s][A[A


  0%|                                                                                             | 0/4 [0

KeyboardInterrupt: 

In [None]:
param_df[:20]

In [None]:
# param_df.to_csv('data/output/naive_bayes_params.csv', index=False)

In [30]:
param_df = pd.read_csv('data/output/naive_bayes_params.csv')

# ngrams get saved as string, convert back to int tuple
param_df['ngram'] = [(int(ng[1]), int(ng[4])) for ng in param_df['ngram'].values]

based on these results, we'll train the full dataset on these 20 combinations

In [32]:
top_params = param_df[:10]

In [36]:
num_points = 100_000
num_train = int(num_points*0.8)

In [37]:
len(train)

1040239

In [None]:

full_data_accuracy = []
for i, param_set in enumerate(tqdm(top_20.values)):
    vocab_size, model_type, text_column, ngram, _ = param_set
    print(vocab_size, model_type, text_column, ngram,)
    
    print('splitting train-validation data')
    
    # train is all training data with targets included!
    train = train.sample(len(train))
    training_data = train_X.iloc[:num_points]
    targets  = train_y.iloc[:num_points]
    
    
    

   
    
#     print(len(X_train), len(y_train), len(X_valid), len(y_valid))
    
    if vocab_size:
        vocab_size = int(vocab_size)
    
    if model_type == 'MultinomialNB()':
        model = MultinomialNB()
    elif model_type == 'BernoulliNB()':
        model = BernoulliNB()
    elif model_type == 'GaussianNB()':
        model = GaussianNB()
    else:
        print('warning, unrecognized model!')
        print(i, param_set)
        
    print('vectorizing')
    vectorizer = CountVectorizer(max_features=vocab_size, ngram_range=ngram)

    print('creating BOW')
    
    BOW = vectorizer.fit_transform(training_data[text_column])
    BOW_array = BOW.toarray()
    
    X_train = BOW_array[:num_train]
    y_train = training_targets[:num_train]
    
    X_valid = BOW_array[num_train:]
    y_valid = training_targets[num_train:]
    
    
    
    #     X_train, X_valid, y_train, y_valid = train_test_split(BOW_array, train_y, test_size=0.2, random_state=42)
    
    print('fitting model')
    model.fit(X_train, y_train)

    print('getting predictions')
    prob_predictions = model.predict_proba(X_valid)

    # gets index of 1 column in prob_predictions
    pos_predictions = [pred[list(model.classes_).index(1)] for pred in prob_predictions]
    
    
    # get accuracy
    num_correct_pred = 0
    for pred, actual in zip(pos_predictions, y_valid):
        if pred >= threshold:
            binary_pred = 1
        else:
            binary_pred = 0

        if binary_pred==actual:
            num_correct_pred+=1
    accuracy = num_correct_pred / len(y_valid)
    print(accuracy)
    print('\n')
    
    full_data_accuracy.append(accuracy)
    
    

In [None]:
top_20['final_validation_acc'] = full_data_accuracy

In [None]:
top_20.to_csv('top_20_naive_bayes.csv', index=False)

## train final model with best parameters

In [None]:
#10000.0 BernoulliNB() text_lemmatized (1, 2)

print('vectorizing')
vectorizer = CountVectorizer(max_features=10000, ngram_range=(1, 2))

print('creating BOW')

BOW = vectorizer.fit_transform(training_data['text_lemmatized'])
BOW_array = BOW.toarray()


model = BernoulliNB()
model.fit()

In [None]:
len(train_y)

In [None]:
train_y