In [None]:
import pandas as pd  
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')

import import_ipynb


%matplotlib inline
%config InlineBackend.figure_format = 'retina'

In [None]:
csvClean = 'tweetsLimpios.csv'
tweetsLimpiosDF = pd.read_csv(csvClean,index_col=0)
tweetsLimpiosDF.head()

In [None]:
#aunque en el momento en el que estoy desarrollando este proyecto al generar el CSV no existe
#nulos, procedo a la eliminación por si se decidiese en trabajos futuros entrenar
#el modelo con otro dataset
tweetsLimpiosDF.dropna(inplace=True)
tweetsLimpiosDF.reset_index(drop=True,inplace=True)
tweetsLimpiosDF.info()

## Obtención de datos de entrenamiento, validación y de test

Procedo a la división del conjunto de datos en 3 grupos. 

Conjunto de Entrenamiento. Este grupo utilizará el 90 % del total de los datos<br>
Conjunto de Validación. Este grupo utilizará el 5 % de los datos<br>
Conjunto de test. Este grupo utilizará el otro 5 % de los datos<br>
La decisión de utilizar esta proporción ha sido debido a que el número de datos disponibles es muy elevado y entiendo que un 5% de 1,6 millones de datos es más que suficiente para testear el modelo.

In [None]:
x = tweetsLimpiosDF.mensaje
y = tweetsLimpiosDF.sentimiento

In [None]:
from sklearn.model_selection import train_test_split
SEED = 2000
x_train, x_validation_and_test, y_train, y_validation_and_test = train_test_split(x, y, test_size=.02, random_state=SEED)
x_validation, x_test, y_validation, y_test = train_test_split(x_validation_and_test, y_validation_and_test, test_size=.5, random_state=SEED)

In [None]:
import plotly.graph_objects as go
labels=["Datos de Entrenamiento", "Datos de Validación", "Datos de Test"]
values = [x_train.count(), x_validation.count(), x_test.count()]

# Use `hole` to create a donut-like pie chart
fig = go.Figure(data=[go.Pie(labels=labels, values=values, hole=.3)])
fig.show()

Se observa que ahora todos los mensajes son del mismo tamaño 45

In [None]:
colors = ['gold', 'mediumturquoise', 'darkorange', 'lightgreen']

fig = go.Figure(data=[go.Pie(labels=["Datos de Entrenamiento", "Datos de Validación", "Datos de Test"],
                             values=[len(x_train), len(x_validation), len(x_test)])])
fig.update_traces(hoverinfo='label+percent', textinfo='value', textfont_size=20,
                  marker=dict(colors=colors, line=dict(color='#000000', width=2)))
fig.show()

## Entrenamiento del modelo

Para el entrenamiento del modelo voy a realizar una comparación con otro modelo que voy a definir como mi modelo base sobre el que voy a comparar el resultado de los modelos que voy a probar para determinar mi clasificador de sentimiento.<br>
Para ello voy a utilizar la librería TextBlob de Python.

In [None]:
from textblob import TextBlob
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.metrics import accuracy_score


In [None]:
%%time
resultTextBlob = [TextBlob(i).sentiment.polarity for i in x_validation]
predTextBlob = [0 if n < 0 else 1 for n in resultTextBlob]

In [None]:
conmat = np.array(confusion_matrix(y_validation, predTextBlob, labels=[1,0]))

confusion = pd.DataFrame(conmat, index=['positivo', 'negativo'],
                         columns=['pred_positiva','pred_negativa'])
textBlobAccuracy=accuracy_score(y_validation, predTextBlob)*100
print ("Accuracy Score: {0:.2f}%".format(accuracy_score(y_validation, predTextBlob)*100))
print ("-"*80)
print ("Matriz de confusión\n")
print (confusion)
print ("-"*80)
print ("Classification Report\n")
classification_report(y_validation, predTextBlob)
print (classification_report(y_validation, predTextBlob))

Como se indicaba con anterioridad mi modelo sobre el que compararé los resultados obtenidos será este cuya tasa de acierto es del 60,98%

## Extracción de características

En todo algoritmo de aprendizaje automático en que se quiera utilizar texto es imprescindible que dicha información se convertida a un valor que sea interpretable a nivel matemático, es decir es necesario transformar ese texto a un valor numérico. Existen multiples formas de acometer este paso tan importante dentro del mundo de machine learning. De entre estos métodos podemos destacar la bolsa de palabras o bag of words.Esta técnica ignora el orden de las palabras así como su gramática. Una vez se crea el corpus, se crea un vocabulario a partir del mismo, y es entonces cuando cada entrada de datos es representado como un vector de tipo numérico en el vocabulario contruido a partir del corpus.

## Count Vectorizer

Voy a utlizar esta técnica que me permite transformar como indicaba anteriormente valores en formato de texto a vectores de tipo numérico. 
Voy a preceder a limitar el tamaño del vocabulario debido al gran número de palabras del mismo, ya que de no limitarlo, estaría cercano a las 300000, que serían el número de columnas de cada vector de entrada por los más de 1,6 millones de mensajes lo cual requeriría un alto grado de procesamiento. 

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from time import time

In [None]:
def baseModel_improvement(pipeline, x_train, y_train, x_test, y_test):
    
    ti = time()
    sentiment_fit = pipeline.fit(x_train, y_train)
    y_pred = sentiment_fit.predict(x_test)
    train_test_time = time() - ti
    accuracy = accuracy_score(y_test, y_pred)
    accuracy=accuracy*100
    print ("TextBlob accuracy: {0:.2f}%".format(textBlobAccuracy))
    print ("accuracy score: {0:.2f}%".format(accuracy))
    
    if accuracy > textBlobAccuracy:
        print ("El modelo es {0:.2f}% más preciso que el modelo basado en TextBlob".format((accuracy-textBlobAccuracy)))
    elif accuracy == textBlobAccuracy:
        print ("Ambos modelos poseen la misma precisión")
    else:
        print ("El modelo es {0:.2f}% menos preciso que el modelo basado en TextBlob".format((textBlobAccuracy-accuracy)))
    print ("Tiempo de entrenamiento y de test: {0:.2f}s".format(train_test_time))
    print ("-"*80)
    model=sentiment_fit
    return accuracy, train_test_time,model

Defino estas funciones para poder entrenar y evaluar de un modo ágil diferentes modelos

In [None]:
lregression = LogisticRegression()
cVect = CountVectorizer()

num_features = np.arange(10000,100001,10000)

def featureExtract_comparisson(vectorizer=cVect, n_features=num_features, stop_words=None,ngram_range=(1, 1), classifier=lregression):
    result = []
    print (classifier)
    print ("\n")
    for num in num_features:
        vectorizer.set_params(stop_words=stop_words, max_features=num, ngram_range=ngram_range)
        checker_pipeline = Pipeline([
            ('vectorizer', vectorizer),
            ('classifier', classifier)
        ])
        print ("Resultado de la validación para  {} features".format(num))
        nfeature_accuracy,tt_time,model = baseModel_improvement(checker_pipeline, x_train, y_train,x_validation, y_validation)
        result.append((num,nfeature_accuracy,tt_time))
    return result,model

In [None]:
from sklearn.externals import joblib

### Unigrama

In [None]:
%%time
print ("Resultado Para UNIGRAM CON STOP WORDS\n")
result_UNIGRAM_STOPWORDS,modelo_usw_cv = featureExtract_comparisson(stop_words='english')
joblib.dump(modelo_usw_cv,'.\Modelos Entrenados\modelo_entrenado_usw_cv.pkl')

In [None]:
%%time
print ("Resultado Para UNIGRAM SIN STOP WORDS\n")
result_UNIGRAM_NOSTOPWORDS,modelo_u_cv = featureExtract_comparisson()
joblib.dump(modelo_u_cv,'.\Modelos Entrenados\modelo_entrenado_u_cv.pkl')

### Bigrama

Basándome en lo que se indica en la wikipedia. "Un bigrama o digrama es un grupos de dos letras, dos sílabas, o dos palabras. Los bigramas son utilizados comúnmente como base para el simple análisis estadístico de texto. Se utilizan en uno de los más exitosos modelos de lenguaje para el reconocimiento de voz.1​ Se trata de un caso especial del N-grama."


In [None]:
%%time
print ("Resultado para BIGRAMA SIN STOP WORDS\n")
result_BIGRAM_NOSTOPWORDS,modelo_b_cv = featureExtract_comparisson(ngram_range=(1, 2))
joblib.dump(modelo_b_cv,'.\Modelos Entrenados\modelo_entrenado_b_cv.pkl')

In [None]:
%%time
print ("Resultado para BIGRAMA Con STOP WORDS\n")
result_BIGRAM_STOPWORDS,modelo_bsw_cv = featureExtract_comparisson(ngram_range=(1, 2),stop_words='english')
joblib.dump(modelo_bsw_cv,'.\Modelos Entrenados\modelo_entrenado_bsw_cv.pkl')

### Trigrama

In [None]:
%%time
print ("Resultado para TRIGRAMA SIN STOP WORDS\n")
result_TRIGRAM_NOSTOPWORDS,modelo_t_cv = featureExtract_comparisson(ngram_range=(1, 3))
joblib.dump(modelo_t_cv,'.\Modelos Entrenados\modelo_entrenado_t_cv.pkl')

In [None]:
%%time
print ("Resultado para TRIGRAMA Con STOP WORDS\n")
result_TRIGRAM_STOPWORDS,modelo_tsw_cv = featureExtract_comparisson(ngram_range=(1, 3),stop_words='english')
joblib.dump(modelo_tsw_cv,'.\Modelos Entrenados\modelo_entrenado_tsw_cv.pkl')

## TFIDF Vectorizer-Term Frequency – Inverse Document Frequency 

Determina un valor numérico que define la importancia de una keyword particular dentro de todo un sitio.

Para conocerla frecuencia de un término TF es necesario aplicar el siguiente cálculo para cada una de las palabras que aparecen en un documento o texto![nku4szvp.bmp](attachment:nku4szvp.bmp)


Por ejemplo en las siguientes frases:<br>
    El coche rojo<br>
    El coche nuevo rojo <br>
la tabla de apariciones sería la siguiente:<br>

![image.png](attachment:image.png)


Para calcular la frecuencia de cada término sería necesario aplicar la fórmula anterior. Por ejemplo para la palabra el de la frase 1:<br>
TF ("el";Frase1) = 1/3 = 0,33<br>
el mismo término en la frase 2 sería:<br>
TF ("el";Frase2) = 1/4 = 0,25<br>

Por último para clacular la frecuencia de documentos inversa, sería necesario aplcar la siguiente fórmula:<br>
![8ox6bxpo.bmp](attachment:8ox6bxpo.bmp)

Que trasladado al ejemplo que presento :<br>
<br>
idf("el",D)=log(2/2)=0

Por ultimo una vez tenemos el valor de TF y de IDF ya se podría calcular el valor TF-IDF.<br>
<br>
TF-IDF = TF x IDF<br>
Que aplicado al ejemplo tendríamos un resultado de cero en ambos casos

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tvec = TfidfVectorizer()

In [None]:
%%time
print ("Resultado para BIGRAMA sin STOP WORDS (Tfidf)\n")
result_BIGRAM_NOSTOPWORDS_TFIDF,modelo_b_tfidf = featureExtract_comparisson(vectorizer=tvec,ngram_range=(1, 2))
joblib.dump(modelo_b_tfidf,'.\Modelos Entrenados\modelo_entrenado_b_tfidf.pkl')

In [None]:
%%time
print ("Resultado para TRIGRAMA sin STOP WORDS (Tfidf)\n")
result_TRIGRAM_NOSTOPWORDS_TFIDF,modelo_t_tfidf = featureExtract_comparisson(vectorizer=tvec,ngram_range=(1, 3))
joblib.dump(modelo_t_tfidf,'.\Modelos Entrenados\modelo_entrenado_t_tfidf.pkl')

## Word2Vec y DocToVec

"Word2vec es un grupo de modelos relacionados que se utilizan para producir incrustaciones de palabras. Estos modelos son redes neuronales superficiales de dos capas que están capacitadas para reconstruir contextos lingüísticos de palabras".
Word2vec permite el uso de 2 técnicas: CBOW (bolsa continua de palabras) y  Skip-gram. Ambas técnicas aprenden pesos que actúan como representaciones de vectores de palabras. A partir de un corpus, el modelo CBOW predice la palabra actual a partir de un stripe o ventana de palabras de  su contexto, es decir que se encuentran a su alrededor.
Skip-gram predice las palabras que la rodean dada la palabra actual. 
En el paquete Gensim es posible hacer uso de ambos modelos especificándolo en el argumenteo "sg" . Por defecto (sg = 0), se utiliza CBOW. De lo contrario (sg = 1), se emplea skip-gram.

![image.png](attachment:image.png)

Doc2vec usa la misma lógica que word2vec, pero aplica esto al nivel del documento. De acuerdo con (Mikolov et al.2014), "cada párrafo se asigna a un vector único, representado por una columna en la matriz D y cada palabra también se asigna a un vector único, representado por una columna en la matriz W. El vector de párrafo y los vectores de palabras se promedian o concatenan para predecir la siguiente palabra en un contexto ... El token de párrafo puede considerarse como otra palabra. Actúa como un recuerdo que rememora lo que falta en el contexto actual, o el tema del párrafo ". https://cs.stanford.edu/~quocle/paragraph_vector.pdf

![image.png](attachment:image.png)

DM es el equivalente en DoctoVec a CBOW en Word2Vec así como análogamente ocurre con DBOW y Skip-gram

Para el desarrollo de los siguientes modelos me voy a apoyar en la librería Gensim. Existen muchas técnicas posibles a utilizar para la obtención de los vectores pero en este trabajo voy a presentar: <br>
1. DBOW (Distributed Bag of Words)<br>
2. DMC (Distributed Memory Concatenated)<br>

In [None]:
from tqdm import tqdm
tqdm.pandas(desc="progress-bar")
from gensim.models import Doc2Vec
from gensim.models.doc2vec import LabeledSentence
import multiprocessing
from sklearn import utils

In [None]:
def labelize_tweets_ug(tweets,label):
    result = []
    prefix = label
    for i, t in zip(tweets.index, tweets):
        result.append(LabeledSentence(t.split(), [prefix + '_%s' % i]))
    return result

Voy a utilizar todo el dataset para el entrenamiento del modelo siguiendo al lógica preentada en el tutorial de IMDB. https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb

In [None]:
all_x = pd.concat([x_train,x_validation,x_test])
all_x_d2v = labelize_tweets_ug(all_x, 'all')

In [None]:
all_x_d2v

## DBOW

In [None]:
model_ug_dbow = Doc2Vec(dm=0, size=100, negative=5, min_count=2,  alpha=0.065, min_alpha=0.065)
model_ug_dbow.build_vocab([x for x in tqdm(all_x_w2v)])

In [None]:
%%time
for epoch in range(30):
    model_ug_dbow.train(utils.shuffle([x for x in tqdm(all_x_d2v)]), total_examples=len(all_x_d2v), epochs=1)
    model_ug_dbow.alpha -= 0.002
    model_ug_dbow.min_alpha = model_ug_dbow.alpha

In [None]:
def get_vectors(model, corpus, size):
    vecs = np.zeros((len(corpus), size))
    n = 0
    for i in corpus.index:
        prefix = 'all_' + str(i)
        vecs[n] = model.docvecs[prefix]
        n += 1
    return vecs

In [None]:
train_vecs_dbow = get_vectors(model_ug_dbow, x_train, 100)
validation_vecs_dbow = get_vectors(model_ug_dbow, x_validation, 100)

In [None]:
train_vecs_dbow

In [None]:
clf = LogisticRegression()
clf.fit(train_vecs_dbow, y_train)

In [None]:
D2Vec_DBOW=clf.score(validation_vecs_dbow, y_validation)
D2Vec_DBOW

In [None]:

model_ug_dbow.save('.\Modelos Entrenados\d2v_model_ug_dbow.doc2vec')
model_ug_dbow = Doc2Vec.load('.\Modelos Entrenados\d2v_model_ug_dbow.doc2vec')

In [None]:
model_ug_dbow.delete_temporary_training_data(keep_doctags_vectors=True, keep_inference=True)

## Distributed Memory (concatenated)

In [None]:
cores = multiprocessing.cpu_count()
model_ug_dmc = Doc2Vec(dm=1, dm_concat=1, size=100, window=2, negative=5, min_count=2, workers=cores, alpha=0.065, min_alpha=0.065)
model_ug_dmc.build_vocab([x for x in tqdm(all_x_d2v)])

In [None]:
%%time
for epoch in range(30):
    model_ug_dmc.train(utils.shuffle([x for x in tqdm(all_x_d2v)]), total_examples=len(all_x_d2v), epochs=1)
    model_ug_dmc.alpha -= 0.002
    model_ug_dmc.min_alpha = model_ug_dmc.alpha

In [None]:
model_ug_dmc = Doc2Vec.load('.\Modelos Entrenados\d2v_model_ug_dbow.doc2vec')

Utilizando los vectores automáticos inicializados aleatoriamente del modelo DBOW puro, sin significado voy a ver la relación semántica entre palabras pero con el modelo DM.

In [None]:
model_ug_dmc.most_similar('good')

In [None]:
train_vecs_dmc = get_vectors(model_ug_dmc, x_train, 100)
validation_vecs_dmc = get_vectors(model_ug_dmc, x_validation, 100)

In [None]:
clf = LogisticRegression()
clf.fit(train_vecs_dmc, y_train)

In [None]:
D2Vec_DMC=clf.score(validation_vecs_dmc, y_validation)

In [None]:
model_ug_dmc.save('.\Modelos Entrenados\d2v_model_ug_dmc.doc2vec')
model_ug_dmc = Doc2Vec.load('.\Modelos Entrenados\d2v_model_ug_dmc.doc2vec')
model_ug_dmc.delete_temporary_training_data(keep_doctags_vectors=True, keep_inference=True)

### Carga de modelos entrenados

In [None]:
modelo_usw_cv=joblib.load('.\Modelos Entrenados\modelo_entrenado_usw_cv.pkl')
modelo_u_cv=joblib.load('.\Modelos Entrenados\modelo_entrenado_u_cv.pkl')
modelo_bsw_cv=joblib.load('.\Modelos Entrenados\modelo_entrenado_bsw_cv.pkl')
modelo_b_cv=joblib.load('.\Modelos Entrenados\modelo_entrenado_b_cv.pkl')
modelo_tsw_cv=joblib.load('.\Modelos Entrenados\modelo_entrenado_tsw_cv.pkl')
modelo_t_cv=joblib.load('.\Modelos Entrenados\modelo_entrenado_t_cv.pkl')
modelo_b_tfidf=joblib.load('.\Modelos Entrenados\modelo_entrenado_b_tfidf.pkl')
modelo_t_tfidf=joblib.load('.\Modelos Entrenados\modelo_entrenado_t_tfidf.pkl')
model_ug_dmc = Doc2Vec.load('.\Modelos Entrenados\d2v_model_ug_dmc.doc2vec')
model_ug_dbow = Doc2Vec.load('.\Modelos Entrenados\d2v_model_ug_dbow.doc2vec')

# Comparacion de los 10 modelos:

In [None]:
def baseModel_improvement_plot(modelo, x_train, y_train, x_test, y_test):
    ti = time()    
    y_pred = modelo.predict(x_test)
    train_test_time = time() - ti
    accuracy = accuracy_score(y_test, y_pred)
    accuracy=accuracy*100
    
    return accuracy, train_test_time

In [None]:
num_features = np.arange(10000,100001,10000)
def featureExtract_comparisson_plot(model):
    n_features=num_features
    result = []   
    for num in num_features:
        nfeature_accuracy,tt_time = baseModel_improvement_plot(model, x_train, y_train, x_validation, y_validation)
        result.append((num,nfeature_accuracy,tt_time))
    return result

In [None]:
result_UNIGRAM_STOPWORDS = featureExtract_comparisson_plot(modelo_usw_cv)
result_UNIGRAM_NOSTOPWORDS = featureExtract_comparisson_plot(modelo_u_cv)
result_BIGRAM_STOPWORDS = featureExtract_comparisson_plot(modelo_bsw_cv)
result_BIGRAM_NOSTOPWORDS = featureExtract_comparisson_plot(modelo_b_cv)
result_TRIGRAM_STOPWORDS = featureExtract_comparisson_plot(modelo_tsw_cv)
result_TRIGRAM_NOSTOPWORDS = featureExtract_comparisson_plot(modelo_t_cv)
result_BIGRAM_NOSTOPWORDS_TFIDF = featureExtract_comparisson_plot(modelo_b_tfidf)
result_TRIGRAM_NOSTOPWORDS_TFIDF = featureExtract_comparisson_plot(modelo_t_tfidf)



In [None]:
df_UNIGRAM_STOPWORDS = pd.DataFrame(result_UNIGRAM_STOPWORDS,columns=['features','val_accuracy','train_test_time'])
df_UNIGRAM_NOSTOPWORDS = pd.DataFrame(result_UNIGRAM_NOSTOPWORDS,columns=['features','val_accuracy','train_test_time'])
df_BIGRAM_STOPWORDS = pd.DataFrame(result_BIGRAM_STOPWORDS,columns=['features','val_accuracy','train_test_time'])
df_BIGRAM_NOSTOPWORDS = pd.DataFrame(result_BIGRAM_NOSTOPWORDS,columns=['features','val_accuracy','train_test_time'])
df_TRIGRAM_STOPWORDS = pd.DataFrame(result_TRIGRAM_STOPWORDS,columns=['features','val_accuracy','train_test_time'])
df_TRIGRAM_NOSTOPWORDS = pd.DataFrame(result_TRIGRAM_NOSTOPWORDS,columns=['features','val_accuracy','train_test_time'])
df_BIGRAM_NOSTOPWORDS_TFIDF = pd.DataFrame(result_BIGRAM_NOSTOPWORDS_TFIDF,columns=['features','val_accuracy','train_test_time'])
df_TRIGRAM_NOSTOPWORDS_TFIDF = pd.DataFrame(result_TRIGRAM_NOSTOPWORDS_TFIDF,columns=['features','val_accuracy','train_test_time'])


In [None]:
data = {'names': ['U_SW_V','U_NSW_V','B_SW_V','B_NSW_V','T_SW_V','T_NSW_V','B_NSW_T','T_NSW_T','D2Vec_DBOW','D2VeC_DMC'],
        'accuracy': [df_UNIGRAM_STOPWORDS["val_accuracy"][1],df_UNIGRAM_NOSTOPWORDS["val_accuracy"][1],
                     df_BIGRAM_STOPWORDS["val_accuracy"][1],df_BIGRAM_NOSTOPWORDS["val_accuracy"][1],
                    df_TRIGRAM_STOPWORDS["val_accuracy"][1],df_TRIGRAM_NOSTOPWORDS["val_accuracy"][1],
                    df_BIGRAM_NOSTOPWORDS_TFIDF["val_accuracy"][1],df_TRIGRAM_NOSTOPWORDS_TFIDF["val_accuracy"][1],D2Vec_DBOW*100,D2Vec_DMC*100]
        }

df = pd.DataFrame(data, columns = ['names', 'accuracy'])
df

In [None]:
plt.figure(figsize=(12,12))
plt.bar(df.names,df["accuracy"])
plt.show()

In [None]:
plt.figure(figsize=(10,8))
plt.plot(df_UNIGRAM_STOPWORDS.features, df_UNIGRAM_STOPWORDS.val_accuracy,label='unigrama stop words')
plt.plot(df_UNIGRAM_NOSTOPWORDS.features, df_UNIGRAM_NOSTOPWORDS.val_accuracy,label='unigrama no stop words')
plt.plot(df_BIGRAM_STOPWORDS.features, df_BIGRAM_STOPWORDS.val_accuracy, label='bigrama stop words')
plt.plot(df_BIGRAM_NOSTOPWORDS.features, df_BIGRAM_NOSTOPWORDS.val_accuracy,label='bigrama no stop words')
plt.plot(df_TRIGRAM_STOPWORDS.features, df_TRIGRAM_STOPWORDS.val_accuracy,label='trigrama stop words')
plt.plot(df_TRIGRAM_NOSTOPWORDS.features, df_TRIGRAM_NOSTOPWORDS.val_accuracy, label='trigrama no stop words')
plt.plot(df_BIGRAM_NOSTOPWORDS_TFIDF.features, df_BIGRAM_NOSTOPWORDS_TFIDF.val_accuracy, label='bigrama TFIDF no stop words')
plt.plot(df_TRIGRAM_NOSTOPWORDS_TFIDF.features, df_TRIGRAM_NOSTOPWORDS_TFIDF.val_accuracy, label='trigrama TFIDF no stop words')
plt.title("N-gram(1~8) test result : Accuracy")
plt.xlabel("Number of features")
plt.ylabel("Validation set accuracy")
plt.legend()