# CS6120 Project: Doctor Note Diagnosis Classification

## Data Import and Cleaning

In [146]:
import pickle
import re
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
import numpy as np
import nltk
from nltk.corpus import stopwords

import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.neural_network import MLPClassifier
from tqdm import tqdm
from nltk.tokenize import word_tokenize
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from gensim.models import FastText
from nltk.tokenize import sent_tokenize, word_tokenize
from sklearn.metrics import confusion_matrix, f1_score
from keras.models import Sequential, Model
from keras.layers import Dense, Activation, Dropout, Conv1D, Flatten, MaxPooling1D, AveragePooling1D, Concatenate, LeakyReLU
from keras.utils.vis_utils import plot_model
import pydot
from gensim.models import Doc2Vec
from sklearn import utils
from sklearn.model_selection import train_test_split
import gensim
from sklearn.linear_model import LogisticRegression
from gensim.models.doc2vec import TaggedDocument

In [None]:

diagnoses_ICD = pd.read_csv('DIAGNOSES_ICD.csv.gz', compression='gzip',
                   error_bad_lines=False)
diagnoses_ICD.head()

In [None]:
value=list(zip(list(diagnoses_ICD.SUBJECT_ID),list(diagnoses_ICD.HADM_ID)))

In [None]:
value=list(set(value))

In [None]:
diagnoses=[]
for v in tqdm(value):
    x=diagnoses_ICD[(diagnoses_ICD['SUBJECT_ID'] == v[0]) & (diagnoses_ICD['HADM_ID'] ==v[1]) ]
    t=x.sample(1).values
    t=list(t[0])
    diagnoses.append(t)


In [None]:
diagnoses_df=pd.DataFrame(diagnoses,columns=diagnoses_ICD.columns)

In [None]:
NOTEEVENTS = pd.read_csv('NOTEEVENTS.csv.gz',compression='gzip',
                   error_bad_lines=False,low_memory=False)

In [None]:
NOTEEVENTS_trim=NOTEEVENTS[['SUBJECT_ID','HADM_ID','TEXT']]

In [None]:
merged_data=NOTEEVENTS_trim.merge(diagnoses_df,how='left')
merged_data=merged_data.dropna()

In [None]:
merged_clean_trim=merged_data[['TEXT','ICD9_CODE']]
merged_clean_trim=merged_clean_trim.dropna()

In [None]:
g=dict(merged_clean_trim['ICD9_CODE'].value_counts())

In [None]:
removeable_icd9codes=[]
keep_icd9codes=[]
for key,value in g.items():
    if value<=15000:
        removeable_icd9codes.append(key)
    else:
        keep_icd9codes.append(key)

In [None]:
merged_clean_trim_reduced=merged_clean_trim[merged_clean_trim.ICD9_CODE.isin(keep_icd9codes)].reset_index()

In [None]:
merged_clean_trim_reduced=merged_clean_trim_reduced[['TEXT','ICD9_CODE']]

In [None]:
merged_clean_trim_reduced.to_pickle('final_dataframe.pickle')

In [2]:
merged_clean_trim_reduced=pd.read_pickle('final_dataframe.pickle')

In [3]:
merged_clean_trim_reduced.shape

(402091, 2)

## Feature Engineering 

In [187]:
def text_clean(notes):
    cleannotes=[]
    for i in tqdm(range(notes.shape[0])):
        text=notes.iloc[i].values.tolist()[0]
        text = re.sub("[!@#$+%*:()'-]", ' ', text)
        #text = re.sub('  ',' ',text)
        text = re.sub('\[',' ',text)
        text = re.sub('\]',' ',text)
        text = re.sub('\n\n\n', ' ',text)
        text = re.sub('\n\n', ' ',text)
        text = re.sub('\n',' ',text)
        text = re.sub('      ',' ',text)
        text = re.sub('   ',' ',text)
        text = re.sub('  ',' ',text)
        text = re.sub('  ',' ',text)
        text = re.sub('\/',' ',text)
        cleannotes.append(text)
        
    return(cleannotes)

In [188]:
x=text_clean(merged_clean_trim_reduced)





  0%|                                                                                       | 0/402091 [00:00<?, ?it/s]



  0%|                                                                             | 16/402091 [00:00<43:35, 153.73it/s]



  0%|                                                                             | 62/402091 [00:00<35:01, 191.28it/s]



  0%|                                                                            | 118/402091 [00:00<28:07, 238.19it/s]



  0%|                                                                            | 190/402091 [00:00<22:32, 297.26it/s]



  0%|                                                                            | 260/402091 [00:00<18:40, 358.75it/s]



  0%|                                                                            | 331/402091 [00:00<15:54, 420.93it/s]



  0%|                                                                            | 414/402091 [00:00<13:33, 493.74it/s]



  0%|       

  2%|█▎                                                                         | 6751/402091 [00:07<07:59, 824.63it/s]



  2%|█▎                                                                         | 6836/402091 [00:07<08:05, 814.88it/s]



  2%|█▎                                                                         | 6940/402091 [00:07<07:33, 871.18it/s]



  2%|█▎                                                                         | 7045/402091 [00:07<08:00, 822.18it/s]



  2%|█▎                                                                         | 7132/402091 [00:07<07:59, 823.73it/s]



  2%|█▎                                                                         | 7216/402091 [00:07<08:25, 780.74it/s]



  2%|█▎                                                                         | 7296/402091 [00:07<09:29, 692.66it/s]



  2%|█▎                                                                         | 7370/402091 [00:07<09:21, 702.50it/s]



  2%|█▍         

  4%|██▋                                                                      | 14887/402091 [00:14<02:22, 2712.83it/s]



  4%|██▊                                                                      | 15173/402091 [00:14<02:20, 2751.19it/s]



  4%|██▊                                                                      | 15451/402091 [00:14<02:25, 2651.06it/s]



  4%|██▊                                                                      | 15719/402091 [00:14<02:28, 2602.86it/s]



  4%|██▉                                                                      | 15981/402091 [00:14<02:34, 2497.02it/s]



  4%|██▉                                                                      | 16264/402091 [00:14<02:29, 2584.94it/s]



  4%|███                                                                      | 16525/402091 [00:14<02:49, 2273.29it/s]



  4%|███                                                                      | 16761/402091 [00:14<02:48, 2293.52it/s]



  4%|███        

 10%|███████▎                                                                 | 40131/402091 [00:20<01:26, 4179.27it/s]



 10%|███████▎                                                                 | 40552/402091 [00:21<01:27, 4123.77it/s]



 10%|███████▍                                                                 | 40967/402091 [00:21<01:30, 3996.30it/s]



 10%|███████▌                                                                 | 41383/402091 [00:21<01:29, 4025.18it/s]



 10%|███████▌                                                                 | 41802/402091 [00:21<01:28, 4071.28it/s]



 10%|███████▋                                                                 | 42211/402091 [00:21<01:28, 4068.76it/s]



 11%|███████▋                                                                 | 42619/402091 [00:21<01:28, 4042.94it/s]



 11%|███████▊                                                                 | 43024/402091 [00:21<01:30, 3956.23it/s]



 11%|███████▉   

 14%|██████████▎                                                              | 56776/402091 [00:28<03:18, 1742.87it/s]



 14%|██████████▎                                                              | 56973/402091 [00:28<03:11, 1803.02it/s]



 14%|██████████▍                                                              | 57155/402091 [00:28<03:20, 1716.84it/s]



 14%|██████████▍                                                              | 57329/402091 [00:28<03:32, 1625.69it/s]



 14%|██████████▍                                                              | 57495/402091 [00:28<03:30, 1633.83it/s]



 14%|██████████▍                                                              | 57663/402091 [00:28<03:29, 1645.33it/s]



 14%|██████████▌                                                              | 57841/402091 [00:28<03:24, 1679.53it/s]



 14%|██████████▌                                                              | 58020/402091 [00:29<03:21, 1708.23it/s]



 14%|██████████▌

 17%|████████████▍                                                            | 68293/402091 [00:35<04:26, 1252.83it/s]



 17%|████████████▍                                                            | 68423/402091 [00:35<04:34, 1214.27it/s]



 17%|████████████▍                                                            | 68552/402091 [00:35<04:30, 1233.81it/s]



 17%|████████████▍                                                            | 68681/402091 [00:35<04:27, 1246.97it/s]



 17%|████████████▍                                                            | 68842/402091 [00:35<04:09, 1336.52it/s]



 17%|████████████▌                                                            | 68979/402091 [00:35<04:30, 1231.61it/s]



 17%|████████████▌                                                            | 69106/402091 [00:36<04:41, 1184.16it/s]



 17%|████████████▌                                                            | 69297/402091 [00:36<04:09, 1334.92it/s]



 17%|███████████

 20%|██████████████▍                                                          | 79801/402091 [00:42<03:12, 1670.80it/s]



 20%|██████████████▌                                                          | 79973/402091 [00:42<03:17, 1632.36it/s]



 20%|██████████████▌                                                          | 80190/402091 [00:42<03:02, 1762.67it/s]



 20%|██████████████▌                                                          | 80377/402091 [00:42<02:59, 1790.34it/s]



 20%|██████████████▋                                                          | 80560/402091 [00:42<02:59, 1793.68it/s]



 20%|██████████████▋                                                          | 80743/402091 [00:43<03:06, 1723.74it/s]



 20%|██████████████▋                                                          | 80918/402091 [00:43<03:08, 1701.47it/s]



 20%|██████████████▋                                                          | 81116/402091 [00:43<03:01, 1772.38it/s]



 20%|███████████

 23%|████████████████▋                                                        | 91855/402091 [00:49<02:55, 1771.69it/s]



 23%|████████████████▋                                                        | 92048/402091 [00:49<02:51, 1810.56it/s]



 23%|████████████████▋                                                        | 92231/402091 [00:49<02:52, 1794.76it/s]



 23%|████████████████▊                                                        | 92430/402091 [00:49<02:48, 1841.72it/s]



 23%|████████████████▊                                                        | 92616/402091 [00:49<02:50, 1818.34it/s]



 23%|████████████████▊                                                        | 92799/402091 [00:49<02:53, 1781.52it/s]



 23%|████████████████▉                                                        | 92997/402091 [00:50<02:48, 1836.24it/s]



 23%|████████████████▉                                                        | 93182/402091 [00:50<02:48, 1837.13it/s]



 23%|███████████

 26%|██████████████████▋                                                     | 104346/402091 [00:56<02:53, 1712.68it/s]



 26%|██████████████████▋                                                     | 104520/402091 [00:56<02:53, 1714.87it/s]



 26%|██████████████████▋                                                     | 104693/402091 [00:56<02:57, 1677.42it/s]



 26%|██████████████████▊                                                     | 104888/402091 [00:56<02:49, 1749.19it/s]



 26%|██████████████████▊                                                     | 105074/402091 [00:56<02:47, 1774.11it/s]



 26%|██████████████████▊                                                     | 105259/402091 [00:56<02:45, 1792.85it/s]



 26%|██████████████████▉                                                     | 105440/402091 [00:57<02:48, 1757.64it/s]



 26%|██████████████████▉                                                     | 105617/402091 [00:57<02:52, 1722.87it/s]



 26%|███████████

 30%|█████████████████████▎                                                  | 119110/402091 [01:03<01:55, 2449.73it/s]



 30%|█████████████████████▎                                                  | 119360/402091 [01:03<01:55, 2457.37it/s]



 30%|█████████████████████▍                                                  | 119614/402091 [01:03<01:54, 2476.03it/s]



 30%|█████████████████████▍                                                  | 119911/402091 [01:03<01:48, 2594.39it/s]



 30%|█████████████████████▌                                                  | 120174/402091 [01:03<01:58, 2375.75it/s]



 30%|█████████████████████▌                                                  | 120418/402091 [01:04<01:58, 2382.59it/s]



 30%|█████████████████████▌                                                  | 120675/402091 [01:04<01:55, 2435.21it/s]



 30%|█████████████████████▋                                                  | 120922/402091 [01:04<02:03, 2285.46it/s]



 30%|███████████

 34%|████████████████████████▋                                               | 138043/402091 [01:10<01:32, 2840.79it/s]



 34%|████████████████████████▊                                               | 138330/402091 [01:10<01:34, 2793.42it/s]



 34%|████████████████████████▊                                               | 138611/402091 [01:10<01:34, 2780.62it/s]



 35%|████████████████████████▊                                               | 138910/402091 [01:10<01:32, 2839.70it/s]



 35%|████████████████████████▉                                               | 139222/402091 [01:10<01:30, 2915.11it/s]



 35%|████████████████████████▉                                               | 139536/402091 [01:10<01:28, 2977.22it/s]



 35%|█████████████████████████                                               | 139835/402091 [01:11<01:29, 2925.59it/s]



 35%|█████████████████████████                                               | 140129/402091 [01:11<01:30, 2899.90it/s]



 35%|███████████

 39%|████████████████████████████                                            | 156640/402091 [01:17<01:30, 2719.67it/s]



 39%|████████████████████████████                                            | 156951/402091 [01:17<01:26, 2819.11it/s]



 39%|████████████████████████████▏                                           | 157236/402091 [01:17<01:27, 2808.71it/s]



 39%|████████████████████████████▏                                           | 157519/402091 [01:17<01:33, 2612.61it/s]



 39%|████████████████████████████▎                                           | 157785/402091 [01:17<01:34, 2575.57it/s]



 39%|████████████████████████████▎                                           | 158046/402091 [01:17<01:37, 2508.59it/s]



 39%|████████████████████████████▎                                           | 158323/402091 [01:17<01:34, 2580.41it/s]



 39%|████████████████████████████▍                                           | 158607/402091 [01:18<01:32, 2641.90it/s]



 40%|███████████

 43%|███████████████████████████████▎                                        | 174678/402091 [01:24<01:20, 2828.89it/s]



 44%|███████████████████████████████▎                                        | 174989/402091 [01:24<01:18, 2905.89it/s]



 44%|███████████████████████████████▍                                        | 175304/402091 [01:24<01:16, 2956.62it/s]



 44%|███████████████████████████████▍                                        | 175605/402091 [01:24<01:18, 2879.36it/s]



 44%|███████████████████████████████▍                                        | 175897/402091 [01:24<01:20, 2826.90it/s]



 44%|███████████████████████████████▌                                        | 176183/402091 [01:24<01:21, 2755.93it/s]



 44%|███████████████████████████████▌                                        | 176495/402091 [01:24<01:19, 2853.78it/s]



 44%|███████████████████████████████▋                                        | 176801/402091 [01:25<01:17, 2907.15it/s]



 44%|███████████

 49%|███████████████████████████████████▎                                    | 197063/402091 [01:31<01:04, 3197.75it/s]



 49%|███████████████████████████████████▎                                    | 197397/402091 [01:31<01:03, 3218.61it/s]



 49%|███████████████████████████████████▍                                    | 197720/402091 [01:31<01:04, 3188.58it/s]



 49%|███████████████████████████████████▍                                    | 198069/402091 [01:31<01:02, 3268.99it/s]



 49%|███████████████████████████████████▌                                    | 198412/402091 [01:31<01:01, 3311.75it/s]



 49%|███████████████████████████████████▌                                    | 198744/402091 [01:31<01:03, 3191.20it/s]



 50%|███████████████████████████████████▋                                    | 199113/402091 [01:31<01:01, 3324.85it/s]



 50%|███████████████████████████████████▋                                    | 199475/402091 [01:31<00:59, 3403.12it/s]



 50%|███████████

 55%|███████████████████████████████████████▌                                | 220890/402091 [01:38<00:54, 3306.60it/s]



 55%|███████████████████████████████████████▌                                | 221223/402091 [01:38<00:54, 3304.68it/s]



 55%|███████████████████████████████████████▋                                | 221555/402091 [01:38<00:54, 3303.00it/s]



 55%|███████████████████████████████████████▋                                | 221951/402091 [01:38<00:51, 3473.39it/s]



 55%|███████████████████████████████████████▊                                | 222315/402091 [01:38<00:51, 3518.06it/s]



 55%|███████████████████████████████████████▉                                | 222688/402091 [01:38<00:50, 3574.31it/s]



 55%|███████████████████████████████████████▉                                | 223048/402091 [01:38<00:50, 3565.98it/s]



 56%|████████████████████████████████████████                                | 223406/402091 [01:38<00:50, 3551.71it/s]



 56%|███████████

 61%|███████████████████████████████████████████▊                            | 244825/402091 [01:44<00:48, 3211.40it/s]



 61%|███████████████████████████████████████████▉                            | 245148/402091 [01:45<00:48, 3216.18it/s]



 61%|███████████████████████████████████████████▉                            | 245495/402091 [01:45<00:48, 3242.11it/s]



 61%|████████████████████████████████████████████                            | 245821/402091 [01:45<00:48, 3210.17it/s]



 61%|████████████████████████████████████████████                            | 246148/402091 [01:45<00:48, 3193.14it/s]



 61%|████████████████████████████████████████████▏                           | 246518/402091 [01:45<00:46, 3315.18it/s]



 61%|████████████████████████████████████████████▏                           | 246852/402091 [01:45<00:47, 3293.37it/s]



 61%|████████████████████████████████████████████▎                           | 247183/402091 [01:45<00:47, 3284.68it/s]



 62%|███████████

 67%|███████████████████████████████████████████████▉                        | 267557/402091 [01:51<00:39, 3392.22it/s]



 67%|███████████████████████████████████████████████▉                        | 267901/402091 [01:52<00:40, 3330.86it/s]



 67%|████████████████████████████████████████████████                        | 268283/402091 [01:52<00:38, 3461.18it/s]



 67%|████████████████████████████████████████████████                        | 268633/402091 [01:52<00:38, 3431.10it/s]



 67%|████████████████████████████████████████████████▏                       | 269046/402091 [01:52<00:36, 3612.32it/s]



 67%|████████████████████████████████████████████████▏                       | 269448/402091 [01:52<00:35, 3719.32it/s]



 67%|████████████████████████████████████████████████▎                       | 269855/402091 [01:52<00:34, 3805.79it/s]



 67%|████████████████████████████████████████████████▍                       | 270261/402091 [01:52<00:34, 3869.97it/s]



 67%|███████████

 73%|████████████████████████████████████████████████████▎                   | 292403/402091 [01:58<00:33, 3290.31it/s]



 73%|████████████████████████████████████████████████████▍                   | 292785/402091 [01:58<00:31, 3424.81it/s]



 73%|████████████████████████████████████████████████████▍                   | 293161/402091 [01:58<00:30, 3514.09it/s]



 73%|████████████████████████████████████████████████████▌                   | 293571/402091 [01:59<00:29, 3664.14it/s]



 73%|████████████████████████████████████████████████████▋                   | 293958/402091 [01:59<00:29, 3719.57it/s]



 73%|████████████████████████████████████████████████████▋                   | 294368/402091 [01:59<00:28, 3818.36it/s]



 73%|████████████████████████████████████████████████████▊                   | 294758/402091 [01:59<00:27, 3834.45it/s]



 73%|████████████████████████████████████████████████████▊                   | 295144/402091 [01:59<00:28, 3718.93it/s]



 73%|███████████

 79%|████████████████████████████████████████████████████████▉               | 317637/402091 [02:05<00:21, 3863.69it/s]



 79%|████████████████████████████████████████████████████████▉               | 318026/402091 [02:05<00:21, 3831.14it/s]



 79%|█████████████████████████████████████████████████████████               | 318411/402091 [02:05<00:21, 3818.31it/s]



 79%|█████████████████████████████████████████████████████████               | 318798/402091 [02:05<00:21, 3823.81it/s]



 79%|█████████████████████████████████████████████████████████▏              | 319182/402091 [02:06<00:22, 3734.33it/s]



 79%|█████████████████████████████████████████████████████████▏              | 319557/402091 [02:06<00:22, 3723.45it/s]



 80%|█████████████████████████████████████████████████████████▎              | 319931/402091 [02:06<00:24, 3410.70it/s]



 80%|█████████████████████████████████████████████████████████▎              | 320278/402091 [02:06<00:25, 3185.85it/s]



 80%|███████████

 84%|████████████████████████████████████████████████████████████▌           | 337874/402091 [02:13<00:22, 2899.33it/s]



 84%|████████████████████████████████████████████████████████████▌           | 338166/402091 [02:13<00:27, 2363.55it/s]



 84%|████████████████████████████████████████████████████████████▌           | 338420/402091 [02:13<00:27, 2308.47it/s]



 84%|████████████████████████████████████████████████████████████▋           | 338664/402091 [02:13<00:27, 2337.40it/s]



 84%|████████████████████████████████████████████████████████████▋           | 338950/402091 [02:13<00:25, 2469.08it/s]



 84%|████████████████████████████████████████████████████████████▋           | 339260/402091 [02:14<00:23, 2629.04it/s]



 84%|████████████████████████████████████████████████████████████▊           | 339594/402091 [02:14<00:22, 2807.47it/s]



 85%|████████████████████████████████████████████████████████████▊           | 339933/402091 [02:14<00:21, 2947.15it/s]



 85%|███████████

 90%|████████████████████████████████████████████████████████████████▊       | 361707/402091 [02:20<00:10, 3713.71it/s]



 90%|████████████████████████████████████████████████████████████████▊       | 362079/402091 [02:20<00:10, 3656.69it/s]



 90%|████████████████████████████████████████████████████████████████▉       | 362446/402091 [02:20<00:10, 3638.03it/s]



 90%|████████████████████████████████████████████████████████████████▉       | 362830/402091 [02:20<00:10, 3670.29it/s]



 90%|█████████████████████████████████████████████████████████████████       | 363215/402091 [02:20<00:10, 3718.04it/s]



 90%|█████████████████████████████████████████████████████████████████       | 363588/402091 [02:20<00:10, 3703.28it/s]



 91%|█████████████████████████████████████████████████████████████████▏      | 363974/402091 [02:20<00:10, 3745.44it/s]



 91%|█████████████████████████████████████████████████████████████████▏      | 364394/402091 [02:21<00:09, 3866.57it/s]



 91%|███████████

 96%|█████████████████████████████████████████████████████████████████████▎  | 386875/402091 [02:27<00:04, 3409.53it/s]



 96%|█████████████████████████████████████████████████████████████████████▎  | 387221/402091 [02:27<00:04, 3218.28it/s]



 96%|█████████████████████████████████████████████████████████████████████▍  | 387549/402091 [02:27<00:04, 3229.06it/s]



 96%|█████████████████████████████████████████████████████████████████████▍  | 387876/402091 [02:27<00:04, 3096.83it/s]



 97%|█████████████████████████████████████████████████████████████████████▌  | 388190/402091 [02:27<00:04, 2990.63it/s]



 97%|█████████████████████████████████████████████████████████████████████▌  | 388493/402091 [02:27<00:04, 2794.27it/s]



 97%|█████████████████████████████████████████████████████████████████████▌  | 388778/402091 [02:27<00:04, 2760.04it/s]



 97%|█████████████████████████████████████████████████████████████████████▋  | 389058/402091 [02:28<00:04, 2662.18it/s]



 97%|███████████

In [189]:
merged_clean_trim_reduced['cleaned_notes']=x

In [182]:
ICD9CODE_class=[]
for i in tqdm(range(merged_clean_trim_reduced.shape[0])):
    if merged_clean_trim_reduced.iloc[i].values.tolist()[1] in ['4019', '42731', '41401', '4280', '51881']:
        ICD9CODE_class.append('Cardio_Issues')
    elif merged_clean_trim_reduced.iloc[i].values.tolist()[1] in ['V3001','769','77081']:
        ICD9CODE_class.append('NewBorn_Issue')
    elif merged_clean_trim_reduced.iloc[i].values.tolist()[1] in ['5990','486','V290','7742','V053']:
        ICD9CODE_class.append('Infection')
    elif merged_clean_trim_reduced.iloc[i].values.tolist()[1] in ['25000', '2859']:
        ICD9CODE_class.append('Disease')
    elif merged_clean_trim_reduced.iloc[i].values.tolist()[1] in ['5849']:
        ICD9CODE_class.append('Kidney Failue')
    else: 
        print(merged_clean_trim_reduced.iloc[i].values.tolist()[1])





  0%|                                                                                       | 0/402091 [00:00<?, ?it/s]



  0%|                                                                           | 220/402091 [00:00<03:02, 2199.52it/s]



  0%|                                                                           | 478/402091 [00:00<02:54, 2298.27it/s]



  0%|▏                                                                          | 732/402091 [00:00<02:51, 2344.72it/s]



  0%|▏                                                                          | 983/402091 [00:00<02:48, 2381.33it/s]



  0%|▏                                                                         | 1230/402091 [00:00<02:46, 2403.81it/s]



  0%|▎                                                                         | 1465/402091 [00:00<02:47, 2385.29it/s]



  0%|▎                                                                         | 1728/402091 [00:00<02:43, 2447.93it/s]



  0%|▎      

  4%|███▏                                                                     | 17670/402091 [00:06<02:11, 2920.43it/s]



  4%|███▎                                                                     | 17968/402091 [00:06<02:11, 2922.06it/s]



  5%|███▎                                                                     | 18272/402091 [00:07<02:09, 2953.23it/s]



  5%|███▎                                                                     | 18569/402091 [00:07<02:11, 2910.34it/s]



  5%|███▍                                                                     | 18861/402091 [00:07<02:20, 2724.17it/s]



  5%|███▍                                                                     | 19137/402091 [00:07<02:21, 2702.16it/s]



  5%|███▌                                                                     | 19410/402091 [00:07<02:21, 2701.10it/s]



  5%|███▌                                                                     | 19716/402091 [00:07<02:17, 2780.40it/s]



  5%|███▋       

  9%|██████▊                                                                  | 37607/402091 [00:13<02:13, 2735.99it/s]



  9%|██████▉                                                                  | 37909/402091 [00:13<02:10, 2788.56it/s]



 10%|██████▉                                                                  | 38253/402091 [00:14<02:03, 2953.14it/s]



 10%|██████▉                                                                  | 38553/402091 [00:14<02:04, 2917.37it/s]



 10%|███████                                                                  | 38877/402091 [00:14<02:00, 3003.76it/s]



 10%|███████                                                                  | 39181/402091 [00:14<02:02, 2954.95it/s]



 10%|███████▏                                                                 | 39547/402091 [00:14<01:55, 3136.06it/s]



 10%|███████▏                                                                 | 39866/402091 [00:14<01:58, 3044.84it/s]



 10%|███████▎   

 14%|██████████▎                                                              | 57100/402091 [00:21<02:43, 2113.43it/s]



 14%|██████████▍                                                              | 57318/402091 [00:21<02:50, 2019.92it/s]



 14%|██████████▍                                                              | 57525/402091 [00:21<02:54, 1973.29it/s]



 14%|██████████▍                                                              | 57727/402091 [00:21<02:59, 1918.95it/s]



 14%|██████████▌                                                              | 57938/402091 [00:21<02:54, 1971.03it/s]



 14%|██████████▌                                                              | 58138/402091 [00:21<03:14, 1767.24it/s]



 15%|██████████▌                                                              | 58321/402091 [00:21<03:29, 1643.72it/s]



 15%|██████████▋                                                              | 58628/402091 [00:22<03:00, 1907.10it/s]



 15%|██████████▋

 19%|█████████████▊                                                           | 76198/402091 [00:28<02:47, 1947.75it/s]



 19%|█████████████▉                                                           | 76429/402091 [00:28<02:41, 2022.46it/s]



 19%|█████████████▉                                                           | 76635/402091 [00:28<02:44, 1980.81it/s]



 19%|█████████████▉                                                           | 76953/402091 [00:28<02:25, 2228.94it/s]



 19%|██████████████                                                           | 77215/402091 [00:29<02:20, 2315.78it/s]



 19%|██████████████                                                           | 77504/402091 [00:29<02:12, 2448.49it/s]



 19%|██████████████                                                           | 77775/402091 [00:29<02:08, 2516.99it/s]



 19%|██████████████▏                                                          | 78034/402091 [00:29<02:08, 2525.29it/s]



 19%|███████████

 24%|█████████████████▏                                                       | 94654/402091 [00:36<02:23, 2145.51it/s]



 24%|█████████████████▏                                                       | 94929/402091 [00:36<02:14, 2291.79it/s]



 24%|█████████████████▎                                                       | 95163/402091 [00:36<02:18, 2218.48it/s]



 24%|█████████████████▎                                                       | 95412/402091 [00:36<02:13, 2289.35it/s]



 24%|█████████████████▍                                                       | 95716/402091 [00:36<02:04, 2459.52it/s]



 24%|█████████████████▍                                                       | 95979/402091 [00:36<02:02, 2494.06it/s]



 24%|█████████████████▍                                                       | 96359/402091 [00:36<01:50, 2768.76it/s]



 24%|█████████████████▌                                                       | 96741/402091 [00:36<01:41, 3011.51it/s]



 24%|███████████

 28%|████████████████████▍                                                   | 114341/402091 [00:43<01:42, 2808.97it/s]



 29%|████████████████████▌                                                   | 114690/402091 [00:43<01:36, 2972.41it/s]



 29%|████████████████████▌                                                   | 115029/402091 [00:43<01:33, 3083.82it/s]



 29%|████████████████████▋                                                   | 115343/402091 [00:43<01:33, 3067.02it/s]



 29%|████████████████████▋                                                   | 115653/402091 [00:43<01:33, 3055.21it/s]



 29%|████████████████████▊                                                   | 115996/402091 [00:44<01:30, 3144.56it/s]



 29%|████████████████████▊                                                   | 116319/402091 [00:44<01:30, 3161.84it/s]



 29%|████████████████████▉                                                   | 116637/402091 [00:44<01:30, 3165.40it/s]



 29%|███████████

 34%|████████████████████████▏                                               | 135017/402091 [00:50<01:22, 3224.88it/s]



 34%|████████████████████████▏                                               | 135340/402091 [00:50<01:26, 3075.47it/s]



 34%|████████████████████████▎                                               | 135650/402091 [00:50<01:26, 3075.65it/s]



 34%|████████████████████████▎                                               | 136013/402091 [00:50<01:23, 3195.76it/s]



 34%|████████████████████████▍                                               | 136335/402091 [00:50<01:23, 3183.05it/s]



 34%|████████████████████████▍                                               | 136660/402091 [00:51<01:23, 3189.79it/s]



 34%|████████████████████████▌                                               | 136980/402091 [00:51<01:25, 3092.36it/s]



 34%|████████████████████████▌                                               | 137291/402091 [00:51<01:29, 2952.92it/s]



 34%|███████████

 38%|███████████████████████████▍                                            | 153182/402091 [00:57<01:23, 2967.34it/s]



 38%|███████████████████████████▍                                            | 153484/402091 [00:57<01:24, 2948.82it/s]



 38%|███████████████████████████▌                                            | 153782/402091 [00:57<01:27, 2853.94it/s]



 38%|███████████████████████████▌                                            | 154071/402091 [00:57<01:30, 2741.78it/s]



 38%|███████████████████████████▋                                            | 154349/402091 [00:57<01:31, 2696.06it/s]



 38%|███████████████████████████▋                                            | 154621/402091 [00:58<01:36, 2561.75it/s]



 39%|███████████████████████████▋                                            | 154881/402091 [00:58<01:36, 2562.46it/s]



 39%|███████████████████████████▊                                            | 155140/402091 [00:58<01:42, 2409.81it/s]



 39%|███████████

 43%|██████████████████████████████▋                                         | 171312/402091 [01:04<01:35, 2406.53it/s]



 43%|██████████████████████████████▋                                         | 171559/402091 [01:04<01:35, 2407.93it/s]



 43%|██████████████████████████████▊                                         | 171802/402091 [01:04<01:35, 2400.73it/s]



 43%|██████████████████████████████▊                                         | 172070/402091 [01:04<01:32, 2474.69it/s]



 43%|██████████████████████████████▊                                         | 172335/402091 [01:04<01:31, 2510.77it/s]



 43%|██████████████████████████████▉                                         | 172595/402091 [01:04<01:30, 2535.48it/s]



 43%|██████████████████████████████▉                                         | 172868/402091 [01:05<01:28, 2578.96it/s]



 43%|███████████████████████████████                                         | 173127/402091 [01:05<01:29, 2568.83it/s]



 43%|███████████

 47%|██████████████████████████████████▏                                     | 190810/402091 [01:11<01:23, 2541.00it/s]



 48%|██████████████████████████████████▏                                     | 191083/402091 [01:11<01:21, 2588.04it/s]



 48%|██████████████████████████████████▎                                     | 191344/402091 [01:11<01:21, 2586.99it/s]



 48%|██████████████████████████████████▎                                     | 191605/402091 [01:11<01:23, 2520.37it/s]



 48%|██████████████████████████████████▎                                     | 191859/402091 [01:11<01:23, 2504.79it/s]



 48%|██████████████████████████████████▍                                     | 192111/402091 [01:12<01:24, 2484.23it/s]



 48%|██████████████████████████████████▍                                     | 192361/402091 [01:12<01:25, 2458.66it/s]



 48%|██████████████████████████████████▍                                     | 192638/402091 [01:12<01:22, 2542.47it/s]



 48%|███████████

 51%|████████████████████████████████████▉                                   | 206444/402091 [01:18<01:36, 2020.01it/s]



 51%|█████████████████████████████████████                                   | 206669/402091 [01:19<01:33, 2080.02it/s]



 51%|█████████████████████████████████████                                   | 206914/402091 [01:19<01:29, 2177.96it/s]



 52%|█████████████████████████████████████                                   | 207193/402091 [01:19<01:23, 2330.35it/s]



 52%|█████████████████████████████████████▏                                  | 207634/402091 [01:19<01:11, 2713.41it/s]



 52%|█████████████████████████████████████▏                                  | 207987/402091 [01:19<01:06, 2915.32it/s]



 52%|█████████████████████████████████████▎                                  | 208373/402091 [01:19<01:01, 3140.67it/s]



 52%|█████████████████████████████████████▍                                  | 208746/402091 [01:19<00:58, 3293.73it/s]



 52%|███████████

 54%|███████████████████████████████████████                                 | 217933/402091 [01:26<01:34, 1947.93it/s]



 54%|███████████████████████████████████████                                 | 218132/402091 [01:26<01:46, 1734.28it/s]



 54%|███████████████████████████████████████                                 | 218313/402091 [01:27<02:00, 1531.10it/s]



 54%|███████████████████████████████████████▋                                 | 218476/402091 [01:27<03:04, 992.96it/s]



 54%|███████████████████████████████████████▋                                 | 218607/402091 [01:27<03:27, 885.13it/s]



 54%|███████████████████████████████████████▋                                 | 218720/402091 [01:27<03:36, 845.52it/s]



 54%|███████████████████████████████████████▋                                 | 218836/402091 [01:27<03:19, 920.25it/s]



 54%|███████████████████████████████████████▋                                 | 218942/402091 [01:27<03:19, 919.09it/s]



 55%|███████████

 59%|██████████████████████████████████████████▏                             | 235843/402091 [01:34<01:06, 2500.92it/s]



 59%|██████████████████████████████████████████▎                             | 236135/402091 [01:34<01:03, 2609.04it/s]



 59%|██████████████████████████████████████████▎                             | 236444/402091 [01:34<01:00, 2730.56it/s]



 59%|██████████████████████████████████████████▍                             | 236755/402091 [01:34<00:58, 2830.47it/s]



 59%|██████████████████████████████████████████▍                             | 237042/402091 [01:34<01:00, 2709.30it/s]



 59%|██████████████████████████████████████████▍                             | 237334/402091 [01:35<00:59, 2762.90it/s]



 59%|██████████████████████████████████████████▌                             | 237644/402091 [01:35<00:57, 2848.89it/s]



 59%|██████████████████████████████████████████▌                             | 238032/402091 [01:35<00:53, 3095.14it/s]



 59%|███████████

 63%|█████████████████████████████████████████████▌                          | 254707/402091 [01:41<01:00, 2449.09it/s]



 63%|█████████████████████████████████████████████▋                          | 254973/402091 [01:41<00:59, 2491.19it/s]



 63%|█████████████████████████████████████████████▋                          | 255281/402091 [01:42<00:55, 2629.36it/s]



 64%|█████████████████████████████████████████████▊                          | 255548/402091 [01:42<01:06, 2215.73it/s]



 64%|█████████████████████████████████████████████▊                          | 255784/402091 [01:42<01:21, 1785.08it/s]



 64%|█████████████████████████████████████████████▊                          | 255986/402091 [01:42<01:30, 1609.67it/s]



 64%|█████████████████████████████████████████████▊                          | 256183/402091 [01:42<01:26, 1693.71it/s]



 64%|█████████████████████████████████████████████▉                          | 256392/402091 [01:42<01:21, 1789.53it/s]



 64%|███████████

 67%|████████████████████████████████████████████████                        | 268088/402091 [01:49<01:37, 1373.73it/s]



 67%|████████████████████████████████████████████████                        | 268231/402091 [01:49<01:38, 1357.72it/s]



 67%|████████████████████████████████████████████████                        | 268371/402091 [01:49<01:47, 1239.22it/s]



 67%|████████████████████████████████████████████████                        | 268567/402091 [01:49<01:35, 1392.28it/s]



 67%|████████████████████████████████████████████████                        | 268729/402091 [01:49<01:31, 1453.53it/s]



 67%|████████████████████████████████████████████████▏                       | 268882/402091 [01:49<01:35, 1391.95it/s]



 67%|████████████████████████████████████████████████▏                       | 269028/402091 [01:49<01:34, 1411.42it/s]



 67%|████████████████████████████████████████████████▏                       | 269177/402091 [01:50<01:33, 1418.39it/s]



 67%|███████████

 70%|██████████████████████████████████████████████████                      | 279711/402091 [01:56<01:36, 1267.00it/s]



 70%|██████████████████████████████████████████████████▏                     | 279930/402091 [01:56<01:24, 1447.98it/s]



 70%|██████████████████████████████████████████████████▏                     | 280165/402091 [01:56<01:14, 1633.32it/s]



 70%|██████████████████████████████████████████████████▏                     | 280416/402091 [01:56<01:06, 1822.18it/s]



 70%|██████████████████████████████████████████████████▎                     | 280679/402091 [01:56<01:00, 2004.29it/s]



 70%|██████████████████████████████████████████████████▎                     | 280919/402091 [01:57<00:57, 2108.25it/s]



 70%|██████████████████████████████████████████████████▎                     | 281215/402091 [01:57<00:52, 2303.31it/s]



 70%|██████████████████████████████████████████████████▍                     | 281461/402091 [01:57<00:54, 2220.11it/s]



 70%|███████████

 73%|████████████████████████████████████████████████████▋                   | 294486/402091 [02:03<00:51, 2100.21it/s]



 73%|████████████████████████████████████████████████████▊                   | 294697/402091 [02:03<00:51, 2081.00it/s]



 73%|████████████████████████████████████████████████████▊                   | 294906/402091 [02:03<00:52, 2039.66it/s]



 73%|████████████████████████████████████████████████████▊                   | 295111/402091 [02:03<00:53, 1998.20it/s]



 73%|████████████████████████████████████████████████████▉                   | 295312/402091 [02:03<00:53, 2000.95it/s]



 73%|████████████████████████████████████████████████████▉                   | 295533/402091 [02:04<00:51, 2051.40it/s]



 74%|████████████████████████████████████████████████████▉                   | 295768/402091 [02:04<00:50, 2118.74it/s]



 74%|█████████████████████████████████████████████████████                   | 296014/402091 [02:04<00:48, 2205.83it/s]



 74%|███████████

 77%|███████████████████████████████████████████████████████▌                | 310002/402091 [02:10<00:47, 1950.26it/s]



 77%|███████████████████████████████████████████████████████▌                | 310206/402091 [02:10<00:46, 1974.65it/s]



 77%|███████████████████████████████████████████████████████▌                | 310430/402091 [02:10<00:45, 2025.58it/s]



 77%|███████████████████████████████████████████████████████▋                | 310657/402091 [02:10<00:44, 2070.98it/s]



 77%|███████████████████████████████████████████████████████▋                | 310895/402091 [02:10<00:42, 2150.60it/s]



 77%|███████████████████████████████████████████████████████▋                | 311140/402091 [02:10<00:40, 2223.47it/s]



 77%|███████████████████████████████████████████████████████▊                | 311373/402091 [02:11<00:40, 2251.25it/s]



 78%|███████████████████████████████████████████████████████▊                | 311631/402091 [02:11<00:38, 2335.40it/s]



 78%|███████████

 81%|██████████████████████████████████████████████████████████              | 324322/402091 [02:17<00:36, 2115.21it/s]



 81%|██████████████████████████████████████████████████████████              | 324534/402091 [02:17<00:39, 1976.87it/s]



 81%|██████████████████████████████████████████████████████████▏             | 324734/402091 [02:17<00:40, 1922.17it/s]



 81%|██████████████████████████████████████████████████████████▏             | 324928/402091 [02:17<00:41, 1880.29it/s]



 81%|██████████████████████████████████████████████████████████▏             | 325118/402091 [02:17<00:40, 1883.03it/s]



 81%|██████████████████████████████████████████████████████████▎             | 325311/402091 [02:17<00:40, 1894.39it/s]



 81%|██████████████████████████████████████████████████████████▎             | 325502/402091 [02:17<00:41, 1867.92it/s]



 81%|██████████████████████████████████████████████████████████▎             | 325691/402091 [02:18<00:41, 1852.17it/s]



 81%|███████████

 84%|████████████████████████████████████████████████████████████▍           | 337690/402091 [02:24<00:30, 2104.71it/s]



 84%|████████████████████████████████████████████████████████████▌           | 337902/402091 [02:24<00:30, 2107.39it/s]



 84%|████████████████████████████████████████████████████████████▌           | 338114/402091 [02:24<00:32, 1983.41it/s]



 84%|████████████████████████████████████████████████████████████▌           | 338315/402091 [02:24<00:32, 1988.48it/s]



 84%|████████████████████████████████████████████████████████████▌           | 338549/402091 [02:24<00:30, 2062.68it/s]



 84%|████████████████████████████████████████████████████████████▋           | 338767/402091 [02:24<00:30, 2095.01it/s]



 84%|████████████████████████████████████████████████████████████▋           | 338978/402091 [02:24<00:31, 2035.36it/s]



 84%|████████████████████████████████████████████████████████████▋           | 339183/402091 [02:24<00:30, 2038.81it/s]



 84%|███████████

 87%|██████████████████████████████████████████████████████████████▉         | 351698/402091 [02:31<00:24, 2072.33it/s]



 88%|███████████████████████████████████████████████████████████████         | 351906/402091 [02:31<00:24, 2012.72it/s]



 88%|███████████████████████████████████████████████████████████████         | 352111/402091 [02:31<00:24, 2014.76it/s]



 88%|███████████████████████████████████████████████████████████████         | 352314/402091 [02:31<00:24, 2009.84it/s]



 88%|███████████████████████████████████████████████████████████████▏        | 352550/402091 [02:31<00:23, 2081.04it/s]



 88%|███████████████████████████████████████████████████████████████▏        | 352773/402091 [02:31<00:23, 2110.36it/s]



 88%|███████████████████████████████████████████████████████████████▏        | 353016/402091 [02:31<00:22, 2191.69it/s]



 88%|███████████████████████████████████████████████████████████████▎        | 353237/402091 [02:31<00:23, 2103.28it/s]



 88%|███████████

 91%|█████████████████████████████████████████████████████████████████▋      | 366714/402091 [02:37<00:15, 2267.85it/s]



 91%|█████████████████████████████████████████████████████████████████▋      | 366944/402091 [02:38<00:15, 2270.93it/s]



 91%|█████████████████████████████████████████████████████████████████▋      | 367172/402091 [02:38<00:15, 2254.08it/s]



 91%|█████████████████████████████████████████████████████████████████▊      | 367398/402091 [02:38<00:15, 2250.82it/s]



 91%|█████████████████████████████████████████████████████████████████▊      | 367624/402091 [02:38<00:16, 2142.44it/s]



 91%|█████████████████████████████████████████████████████████████████▊      | 367840/402091 [02:38<00:16, 2140.55it/s]



 92%|█████████████████████████████████████████████████████████████████▉      | 368055/402091 [02:38<00:16, 2068.58it/s]



 92%|█████████████████████████████████████████████████████████████████▉      | 368263/402091 [02:38<00:16, 2052.32it/s]



 92%|███████████

 95%|████████████████████████████████████████████████████████████████████    | 380100/402091 [02:44<00:10, 2089.45it/s]



 95%|████████████████████████████████████████████████████████████████████    | 380310/402091 [02:45<00:10, 2026.76it/s]



 95%|████████████████████████████████████████████████████████████████████▏   | 380514/402091 [02:45<00:11, 1961.18it/s]



 95%|████████████████████████████████████████████████████████████████████▏   | 380712/402091 [02:45<00:11, 1937.96it/s]



 95%|████████████████████████████████████████████████████████████████████▏   | 380907/402091 [02:45<00:11, 1915.22it/s]



 95%|████████████████████████████████████████████████████████████████████▏   | 381131/402091 [02:45<00:10, 1998.42it/s]



 95%|████████████████████████████████████████████████████████████████████▎   | 381354/402091 [02:45<00:10, 2059.79it/s]



 95%|████████████████████████████████████████████████████████████████████▎   | 381562/402091 [02:45<00:09, 2055.66it/s]



 95%|███████████

 98%|██████████████████████████████████████████████████████████████████████▋ | 395071/402091 [02:51<00:03, 2290.39it/s]



 98%|██████████████████████████████████████████████████████████████████████▊ | 395333/402091 [02:52<00:02, 2361.93it/s]



 98%|██████████████████████████████████████████████████████████████████████▊ | 395572/402091 [02:52<00:03, 2089.51it/s]



 98%|██████████████████████████████████████████████████████████████████████▊ | 395789/402091 [02:52<00:03, 2063.53it/s]



 98%|██████████████████████████████████████████████████████████████████████▉ | 396015/402091 [02:52<00:02, 2102.22it/s]



 99%|██████████████████████████████████████████████████████████████████████▉ | 396234/402091 [02:52<00:02, 2108.32it/s]



 99%|██████████████████████████████████████████████████████████████████████▉ | 396490/402091 [02:52<00:02, 2218.47it/s]



 99%|███████████████████████████████████████████████████████████████████████ | 396756/402091 [02:52<00:02, 2316.78it/s]



 99%|███████████

In [194]:
merged_clean_trim_reduced['ICD9_CLASS']=ICD9CODE_class

In [195]:
merged_clean_trim_reduced.head()

Unnamed: 0,TEXT,ICD9_CODE,cleaned_notes,ICD9_CLASS
0,Admission Date: [**2124-7-21**] ...,4019,Admission Date 2124 7 21 Discharge Date 2124 8...,Cardio_Issues
1,Admission Date: [**2150-2-25**] ...,42731,Admission Date 2150 2 25 Discharge Date 2150 3...,Cardio_Issues
2,Admission Date: [**2143-4-25**] Discharge...,41401,Admission Date 2143 4 25 Discharge Date 2143 4...,Cardio_Issues
3,Admission Date: [**2143-4-25**] Discharge...,41401,Admission Date 2143 4 25 Discharge Date 2143 4...,Cardio_Issues
4,Admission Date: [**2194-7-18**] ...,4280,Admission Date 2194 7 18 Discharge Date 2194 7...,Cardio_Issues


In [190]:
merged_clean_trim_reduced.to_pickle('final_dataframe.pickle')

In [196]:
train, test = train_test_split(merged_clean_trim_reduced, test_size=0.3, random_state=42)
def tokenize_text(text):
    tokens = []
    for sent in nltk.sent_tokenize(text):
        for word in nltk.word_tokenize(sent):
            if len(word) < 2:
                continue
            tokens.append(word.lower())
    return (tokens)


In [197]:
train=train.sample(200)
test=test.sample(100)

In [207]:
train_tagged = train.apply(lambda r: TaggedDocument(words=tokenize_text(r['cleaned_notes']), tags=[r.ICD9_CLASS]), axis=1)


In [206]:
test_tagged = test.apply(lambda r: TaggedDocument(words=tokenize_text(r['cleaned_notes']), tags=[r.ICD9_CLASS]), axis=1)

In [212]:
import multiprocessing
cores = multiprocessing.cpu_count()
model = Doc2Vec(train_tagged, vector_size=300, window=2, min_count=1, workers=cores)

In [213]:
train_tags=[]
train_vectors=[]
for x in tqdm(train_tagged.values):
    for doc in x:
        if len(doc)>1:
            train_vectors.append(model.infer_vector(doc).tolist())
        else:
            train_tags.append(doc[0])      





  0%|                                                                                          | 0/200 [00:00<?, ?it/s]



 15%|████████████                                                                    | 30/200 [00:00<00:00, 279.37it/s]



 31%|████████████████████████▊                                                       | 62/200 [00:00<00:00, 280.20it/s]



 46%|████████████████████████████████████▊                                           | 92/200 [00:00<00:00, 282.26it/s]



 56%|████████████████████████████████████████████▏                                  | 112/200 [00:00<00:00, 246.95it/s]



 69%|██████████████████████████████████████████████████████▌                        | 138/200 [00:00<00:00, 242.25it/s]



 82%|████████████████████████████████████████████████████████████████▍              | 163/200 [00:00<00:00, 237.01it/s]



 92%|████████████████████████████████████████████████████████████████████████▋      | 184/200 [00:00<00:00, 212.41it/s]



100%|███████

In [214]:
test_tags=[]
test_vectors=[]
for x in tqdm(test_tagged.values):
    for doc in x:
        if len(doc)>1:
            test_vectors.append(model.infer_vector(doc).tolist())
        else:
            test_tags.append(doc[0])  





  0%|                                                                                          | 0/100 [00:00<?, ?it/s]



 38%|██████████████████████████████▍                                                 | 38/100 [00:00<00:00, 347.24it/s]



 69%|███████████████████████████████████████████████████████▏                        | 69/100 [00:00<00:00, 333.11it/s]



 96%|████████████████████████████████████████████████████████████████████████████▊   | 96/100 [00:00<00:00, 307.25it/s]



100%|███████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 302.04it/s]

In [215]:
train_df=pd.DataFrame(train_vectors)

In [216]:
test_df=pd.DataFrame(test_vectors)

## Basic Neural Network

In [217]:
clf = MLPClassifier(solver='lbfgs', alpha=1e-5,activation='tanh',hidden_layer_sizes=(5, 10), max_iter=50,random_state=1)
clf.fit(train_df,train_tags)
print(clf.score(train_df,train_tags))
print(clf.score(test_df,test_tags))

0.635
0.47


## Random Forest

In [218]:
clf = RandomForestClassifier(n_estimators=100, max_depth=2,random_state=0)
clf.fit(train_df,train_tags)
print(clf.score(train_df,train_tags))
print(clf.score(test_df,test_tags))

0.635
0.49


## Gradient Boost Classifer

In [219]:
from sklearn.ensemble import GradientBoostingClassifier
for lr in tqdm([0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]):
    for mf in [2,4,6,8,10,12,14,16]:
        for md in [1,2,3,4,5,6]:
            clf = GradientBoostingClassifier(n_estimators=20, learning_rate=lr, max_features=mf, max_depth=md, random_state=0)
            clf.fit(train_df,train_tags)






  0%|                                                                                            | 0/9 [00:00<?, ?it/s]



 11%|█████████▎                                                                          | 1/9 [00:06<00:52,  6.52s/it]



 22%|██████████████████▋                                                                 | 2/9 [00:12<00:45,  6.44s/it]



 33%|████████████████████████████                                                        | 3/9 [00:19<00:39,  6.50s/it]



 44%|█████████████████████████████████████▎                                              | 4/9 [00:25<00:32,  6.49s/it]



 56%|██████████████████████████████████████████████▋                                     | 5/9 [00:32<00:25,  6.40s/it]



 67%|████████████████████████████████████████████████████████                            | 6/9 [00:37<00:18,  6.20s/it]



 78%|█████████████████████████████████████████████████████████████████▎                  | 7/9 [00:43<00:12,  6.02s/it]



 89%|███████

# Evaluation

In [226]:
from sklearn.metrics import confusion_matrix

y_predict=clf.predict(test_df).tolist()
a=confusion_matrix(y_predict,test_tags)

In [246]:
a

array([[24,  5,  7,  3,  2],
       [ 5,  2,  0,  1,  0],
       [ 7,  2, 17,  1, 12],
       [ 0,  2,  0,  0,  0],
       [ 1,  2,  3,  0,  4]], dtype=int64)