In [13]:
import speech_recognition as sr
import subprocess
import multiprocessing as mp
from subprocess import check_call
import os
import random
import string
import pandas as pd
import numpy as np
from functools import partial
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.svm import LinearSVC
import spacy
import re

from xgboost import XGBRegressor
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
import pyLDAvis
from pyLDAvis import sklearn as sklearn_lda
from sklearn.decomposition import LatentDirichletAllocation as LDA


csv_name = '../resources/dataset/new_dataset.csv'
csv_processed_name = "../resources/dataset/nlp_model_2k_processed.csv"

In [2]:
data = pd.read_csv(csv_name)
data["Ataque_text"].fillna("não achado", inplace = True) 
data["Resposta_text"].fillna("não achado", inplace = True)
data['Resultado'] = data['Resultado'].apply(lambda x: 1 if x == 'ataque' else 0)
data.drop(['Token', 'Ataque', 'Resposta', 'Round'], axis=1, inplace=True)
data.head()

Unnamed: 0,Resultado,Ataque_text,Resposta_text
0,0,Pede para sua amada tu tá ligado que tudo dema...,time fraco Mano Lima mano sem nenhum ataque co...
1,1,mano que eu sou sincero com Mc fraco que nem t...,aí Eu começo de aborto e hoje que tá morto sai...
2,0,aí aí aí tá ligado é o aqui é o Ruan é cruel n...,pessoas da hora a sua visão para Mara é difíci...
3,1,pode ficar tranquilo Mário sabe você acabar vo...,aí aí aí tá ligado o meu parceiro que na rima ...
4,1,tá ligado que você é Paulinho eu tivesse até a...,tá ligado mano que eu já chego quando detalhe ...


In [3]:
nlp = spacy.load('pt_core_news_lg')

### Removendo stopwords

In [4]:
def remove_stopwords(row):
    my_doc = nlp(row.Ataque_text)

    token_list = []
    for token in my_doc:
        token_list.append(token.text)
   
    filtered_sentence =[]
    for word in token_list:
        lexeme = nlp.vocab[word]
        if lexeme.is_stop == False:
            filtered_sentence.append(word)
    
    row.Ataque_text = ' '.join([str(elem) for elem in filtered_sentence]) 
    
    my_doc = nlp(row.Resposta_text)

    token_list = []
    for token in my_doc:
        token_list.append(token.text)
   
    filtered_sentence =[]
    for word in token_list:
        lexeme = nlp.vocab[word]
        if lexeme.is_stop == False:
            filtered_sentence.append(word)
    
    row.Resposta_text = ' '.join([str(elem) for elem in filtered_sentence]) 
    
    return row

In [5]:
data = data.apply(remove_stopwords, axis=1)
data.head()

Unnamed: 0,Resultado,Ataque_text,Resposta_text
0,0,Pede amada tá ruim melhorar chego fita si assi...,time fraco Mano Lima mano nenhum ataque vou re...
1,1,mano sincero Mc fraco ganho 2 a 0 tá mano comu...,começo aborto e hoje tá morto sai moleque Deix...
2,0,tá o o Ruan cruel ima aguenta vou quebrando te...,pessoas hora a visão Mara difícil lidar Espero...
3,1,ficar tranquilo Mário acabar tenta tenta vou b...,tá o parceiro rima pega mandou o dicionário tr...
4,1,tá Paulinho tivesse arrumando o tá mano Paulin...,tá mano chego detalhe verso tá afim mano torna...


### Normalizando

In [6]:
def normalize(row):
    doc = nlp(row.Ataque_text)
    
    lemma_word1 = [] 
    for token in doc:
        lemma_word1.append(token.lemma_)
    lemma_word1
    
    row['Ataque_normalized'] = ' '.join([str(elem) for elem in lemma_word1])
    
    doc = nlp(row.Resposta_text)
    
    lemma_word1 = [] 
    for token in doc:
        lemma_word1.append(token.lemma_)
    lemma_word1
    
    row['Resposta_normalized'] = ' '.join([str(elem) for elem in lemma_word1])
    
    
    return row

In [7]:
data = data.apply(normalize, axis=1)
data.head()

Unnamed: 0,Resultado,Ataque_text,Resposta_text,Ataque_normalized,Resposta_normalized
0,0,Pede amada tá ruim melhorar chego fita si assi...,time fraco Mano Lima mano nenhum ataque vou re...,Pede amar tá ruim melhorar chegar fito si assi...,time fraco Mano Lima manir nenhum atacar ir re...
1,1,mano sincero Mc fraco ganho 2 a 0 tá mano comu...,começo aborto e hoje tá morto sai moleque Deix...,manir sincero Mc fraco ganhar 2 o 0 tá manir c...,comedir abortar e hoje tá morto sair moleque D...
2,0,tá o o Ruan cruel ima aguenta vou quebrando te...,pessoas hora a visão Mara difícil lidar Espero...,tá o o Ruan cruel imo aguentar ir quebrar teme...,pessoa horar o visão Mara difícil lidar Espero...
3,1,ficar tranquilo Mário acabar tenta tenta vou b...,tá o parceiro rima pega mandou o dicionário tr...,ficar tranquilo Mário acabar tentar tentar ir ...,tá o parceiro rimar pego mandar o dicionário t...
4,1,tá Paulinho tivesse arrumando o tá mano Paulin...,tá mano chego detalhe verso tá afim mano torna...,tá Paulinho ter arrumar o tá manir Paulinho 12...,tá manir chegar detalhar versar tá afim manir ...


### Semelhança

In [8]:
def cosine_similarity(a, b):
    return a.dot(b)/np.sqrt(a.dot(a) * b.dot(b))

def similaridade(row):
    a = nlp(row.Ataque_text).vector
    b = nlp(row.Resposta_text).vector
    row['similaridade'] = cosine_similarity(a, b)
    return row

In [9]:
data = data.apply(similaridade, axis=1)
data.head()

  


Unnamed: 0,Resultado,Ataque_text,Resposta_text,Ataque_normalized,Resposta_normalized,similaridade
0,0,Pede amada tá ruim melhorar chego fita si assi...,time fraco Mano Lima mano nenhum ataque vou re...,Pede amar tá ruim melhorar chegar fito si assi...,time fraco Mano Lima manir nenhum atacar ir re...,0.729037
1,1,mano sincero Mc fraco ganho 2 a 0 tá mano comu...,começo aborto e hoje tá morto sai moleque Deix...,manir sincero Mc fraco ganhar 2 o 0 tá manir c...,comedir abortar e hoje tá morto sair moleque D...,0.873968
2,0,tá o o Ruan cruel ima aguenta vou quebrando te...,pessoas hora a visão Mara difícil lidar Espero...,tá o o Ruan cruel imo aguentar ir quebrar teme...,pessoa horar o visão Mara difícil lidar Espero...,0.748563
3,1,ficar tranquilo Mário acabar tenta tenta vou b...,tá o parceiro rima pega mandou o dicionário tr...,ficar tranquilo Mário acabar tentar tentar ir ...,tá o parceiro rimar pego mandar o dicionário t...,0.702122
4,1,tá Paulinho tivesse arrumando o tá mano Paulin...,tá mano chego detalhe verso tá afim mano torna...,tá Paulinho ter arrumar o tá manir Paulinho 12...,tá manir chegar detalhar versar tá afim manir ...,0.853304


In [10]:
data["similaridade"].fillna(data.similaridade.mean(), inplace = True) 
data.isnull().sum()

Resultado              0
Ataque_text            0
Resposta_text          0
Ataque_normalized      0
Resposta_normalized    0
similaridade           0
dtype: int64

### Ataque data

In [11]:
def ataque_rows(row):
    row['ataque_len'] = len(row.Ataque_text)
    txt = row.Ataque_text
    row['ataque_ao'] = len(re.findall("ão ", txt)) + len(re.findall("ão$", txt))
    row['ataque_ado'] = len(re.findall("ado ", txt)) + len(re.findall("ado$", txt))
    row['ataque_ade'] = len(re.findall("ade ", txt)) + len(re.findall("ade$", txt))
    row['ataque_em'] = len(re.findall("em ", txt)) + len(re.findall("em$", txt))
    row['ataque_in'] = len(re.findall("in ", txt)) + len(re.findall("in$", txt))
    row['ataque_ar'] = len(re.findall("ar ", txt)) + len(re.findall("ar$", txt))
    row['ataque_er'] = len(re.findall("er ", txt)) + len(re.findall("er$", txt))
    row['ataque_or'] = len(re.findall("or ", txt)) + len(re.findall("or$", txt))
    return row

In [12]:
data = data.apply(ataque_rows, axis=1)
data.head()

Unnamed: 0,Resultado,Ataque_text,Resposta_text,Ataque_normalized,Resposta_normalized,similaridade,ataque_len,ataque_ao,ataque_ado,ataque_ade,ataque_em,ataque_in,ataque_ar,ataque_er,ataque_or
0,0,Pede amada tá ruim melhorar chego fita si assi...,time fraco Mano Lima mano nenhum ataque vou re...,Pede amar tá ruim melhorar chegar fito si assi...,time fraco Mano Lima manir nenhum atacar ir re...,0.729037,190,1,1,0,0,0,1,0,0
1,1,mano sincero Mc fraco ganho 2 a 0 tá mano comu...,começo aborto e hoje tá morto sai moleque Deix...,manir sincero Mc fraco ganhar 2 o 0 tá manir c...,comedir abortar e hoje tá morto sair moleque D...,0.873968,210,0,0,0,0,0,1,0,0
2,0,tá o o Ruan cruel ima aguenta vou quebrando te...,pessoas hora a visão Mara difícil lidar Espero...,tá o o Ruan cruel imo aguentar ir quebrar teme...,pessoa horar o visão Mara difícil lidar Espero...,0.748563,152,1,0,0,0,0,1,0,0
3,1,ficar tranquilo Mário acabar tenta tenta vou b...,tá o parceiro rima pega mandou o dicionário tr...,ficar tranquilo Mário acabar tentar tentar ir ...,tá o parceiro rimar pego mandar o dicionário t...,0.702122,176,0,0,0,0,0,3,0,0
4,1,tá Paulinho tivesse arrumando o tá mano Paulin...,tá mano chego detalhe verso tá afim mano torna...,tá Paulinho ter arrumar o tá manir Paulinho 12...,tá manir chegar detalhar versar tá afim manir ...,0.853304,230,0,2,0,0,0,0,0,0


### Resposta data

In [13]:
def ataque_rows(row):
    row['resposta_len'] = len(row.Resposta_text)
    txt = row.Resposta_text
    row['resposta_ao'] = len(re.findall("ão ", txt)) + len(re.findall("ão$", txt))
    row['resposta_ado'] = len(re.findall("ado ", txt)) + len(re.findall("ado$", txt))
    row['resposta_ade'] = len(re.findall("ade ", txt)) + len(re.findall("ade$", txt))
    row['resposta_em'] = len(re.findall("em ", txt)) + len(re.findall("em$", txt))
    row['resposta_in'] = len(re.findall("in ", txt)) + len(re.findall("in$", txt))
    row['resposta_ar'] = len(re.findall("ar ", txt)) + len(re.findall("ar$", txt))
    row['resposta_er'] = len(re.findall("er ", txt)) + len(re.findall("er$", txt))
    row['resposta_or'] = len(re.findall("or ", txt)) + len(re.findall("or$", txt))
    return row

In [14]:
data = data.apply(ataque_rows, axis=1)
data.head()

Unnamed: 0,Resultado,Ataque_text,Resposta_text,Ataque_normalized,Resposta_normalized,similaridade,ataque_len,ataque_ao,ataque_ado,ataque_ade,...,ataque_or,resposta_len,resposta_ao,resposta_ado,resposta_ade,resposta_em,resposta_in,resposta_ar,resposta_er,resposta_or
0,0,Pede amada tá ruim melhorar chego fita si assi...,time fraco Mano Lima mano nenhum ataque vou re...,Pede amar tá ruim melhorar chegar fito si assi...,time fraco Mano Lima manir nenhum atacar ir re...,0.729037,190,1,1,0,...,0,267,1,0,0,0,0,0,0,0
1,1,mano sincero Mc fraco ganho 2 a 0 tá mano comu...,começo aborto e hoje tá morto sai moleque Deix...,manir sincero Mc fraco ganhar 2 o 0 tá manir c...,comedir abortar e hoje tá morto sair moleque D...,0.873968,210,0,0,0,...,0,268,0,0,0,0,0,1,0,1
2,0,tá o o Ruan cruel ima aguenta vou quebrando te...,pessoas hora a visão Mara difícil lidar Espero...,tá o o Ruan cruel imo aguentar ir quebrar teme...,pessoa horar o visão Mara difícil lidar Espero...,0.748563,152,1,0,0,...,0,178,1,0,0,0,0,8,0,0
3,1,ficar tranquilo Mário acabar tenta tenta vou b...,tá o parceiro rima pega mandou o dicionário tr...,ficar tranquilo Mário acabar tentar tentar ir ...,tá o parceiro rimar pego mandar o dicionário t...,0.702122,176,0,0,0,...,0,213,0,0,0,0,0,0,0,0
4,1,tá Paulinho tivesse arrumando o tá mano Paulin...,tá mano chego detalhe verso tá afim mano torna...,tá Paulinho ter arrumar o tá manir Paulinho 12...,tá manir chegar detalhar versar tá afim manir ...,0.853304,230,0,2,0,...,0,144,0,0,0,0,0,0,0,0


In [25]:
data.to_csv(csv_processed_name)

### NLP model

In [15]:
X = data.copy()
y = data.Resultado.copy()
X.drop(['Resultado'], axis=1, inplace=True)

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2, random_state=1)

In [16]:
with nlp.disable_pipes():
    ataque_vectors_train = np.array([nlp(text).vector for text in X_train.Ataque_normalized])
    ataque_vectors_test = np.array([nlp(text).vector for text in X_test.Ataque_normalized])
    resposta_vectors_train = np.array([nlp(text).vector for text in X_train.Resposta_normalized])
    resposta_vectors_test = np.array([nlp(text).vector for text in X_test.Resposta_normalized])

In [17]:
model_ataque = RandomForestRegressor(random_state=1)
# Fit the model
model_ataque.fit(ataque_vectors_train,y_train)

model_ataque_preds_traine = model_ataque.predict(ataque_vectors_train)
model_ataque_preds = model_ataque.predict(ataque_vectors_test)
print('treino: ', mean_absolute_error(y_train, model_ataque_preds_traine))
print('teste: ', mean_absolute_error(y_test, model_ataque_preds))

treino:  0.18231773143309093
teste:  0.4847236065526045


In [18]:
model_resposta = RandomForestRegressor(random_state=1)
# Fit the model
model_resposta.fit(resposta_vectors_train,y_train)

model_resposta_preds_train = model_resposta.predict(resposta_vectors_train)
model_resposta_preds = model_resposta.predict(resposta_vectors_test)
print('treino: ', mean_absolute_error(y_train, model_resposta_preds_train))
print('teste: ', mean_absolute_error(y_test, model_resposta_preds))

treino:  0.17886750874374968
teste:  0.47468614585294766


### Table model

In [19]:
X = data.copy()
X.drop(['Ataque_text', 'Resposta_text', 'Ataque_normalized', 'Resposta_normalized'], axis=1, inplace=True)
y = data.Resultado.copy()
X.drop(['Resultado'], axis=1, inplace=True)

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2, random_state=1)

X_train.head()

Unnamed: 0,similaridade,ataque_len,ataque_ao,ataque_ado,ataque_ade,ataque_em,ataque_in,ataque_ar,ataque_er,ataque_or,resposta_len,resposta_ao,resposta_ado,resposta_ade,resposta_em,resposta_in,resposta_ar,resposta_er,resposta_or
7077,0.701008,292,2,3,0,0,0,4,0,0,299,1,1,2,0,0,3,0,0
14434,0.884509,248,1,1,0,0,0,2,0,0,238,3,1,0,0,0,4,1,1
11423,0.67654,241,1,0,0,0,0,1,0,0,194,2,2,0,0,1,5,0,0
14868,0.699633,286,5,1,0,1,0,1,0,0,284,1,0,0,0,0,6,1,0
4429,0.906294,235,1,2,0,0,0,1,1,0,201,2,0,0,0,0,3,2,1


In [20]:
model_table = RandomForestRegressor(random_state=1, n_estimators= 80)
# Fit the model
model_table.fit(X_train,y_train)

model_table_preds_train = model_table.predict(X_train)
model_table_preds = model_table.predict(X_test)
print('treino: ', (1 - mean_absolute_error(y_train, np.round(model_table_preds_train, 0))) * 100)
print('teste: ', (1 - mean_absolute_error(y_test, np.round(model_table_preds, 0))) * 100)

treino:  99.99605070889776
teste:  60.227452219238664


In [22]:
model_table = XGBRegressor(n_estimators=30)
# Fit the model
model_table.fit(X_train,y_train)

model_table_preds_train = model_table.predict(X_train)
model_table_preds = model_table.predict(X_test)
print('treino: ', (1 - mean_absolute_error(y_train, np.round(model_table_preds_train, 0))) * 100)
print('teste: ', (1 - mean_absolute_error(y_test, np.round(model_table_preds, 0))) * 100)

treino:  68.8479917854745
teste:  62.233454430579684


## Text Parser

In [6]:
processed_data_df = pd.read_csv(csv_processed_name, index_col=0)
processed_data_df.head()

Unnamed: 0,Resultado,Ataque_text,Resposta_text,Ataque_normalized,Resposta_normalized,similaridade,ataque_len,ataque_ao,ataque_ado,ataque_ade,...,ataque_or,resposta_len,resposta_ao,resposta_ado,resposta_ade,resposta_em,resposta_in,resposta_ar,resposta_er,resposta_or
0,0,Pede amada tá ruim melhorar chego fita si assi...,time fraco Mano Lima mano nenhum ataque vou re...,Pede amar tá ruim melhorar chegar fito si assi...,time fraco Mano Lima manir nenhum atacar ir re...,0.729037,190,1,1,0,...,0,267,1,0,0,0,0,0,0,0
1,1,mano sincero Mc fraco ganho 2 a 0 tá mano comu...,começo aborto e hoje tá morto sai moleque Deix...,manir sincero Mc fraco ganhar 2 o 0 tá manir c...,comedir abortar e hoje tá morto sair moleque D...,0.873968,210,0,0,0,...,0,268,0,0,0,0,0,1,0,1
2,0,tá o o Ruan cruel ima aguenta vou quebrando te...,pessoas hora a visão Mara difícil lidar Espero...,tá o o Ruan cruel imo aguentar ir quebrar teme...,pessoa horar o visão Mara difícil lidar Espero...,0.748563,152,1,0,0,...,0,178,1,0,0,0,0,8,0,0
3,1,ficar tranquilo Mário acabar tenta tenta vou b...,tá o parceiro rima pega mandou o dicionário tr...,ficar tranquilo Mário acabar tentar tentar ir ...,tá o parceiro rimar pego mandar o dicionário t...,0.702122,176,0,0,0,...,0,213,0,0,0,0,0,0,0,0
4,1,tá Paulinho tivesse arrumando o tá mano Paulin...,tá mano chego detalhe verso tá afim mano torna...,tá Paulinho ter arrumar o tá manir Paulinho 12...,tá manir chegar detalhar versar tá afim manir ...,0.853304,230,0,2,0,...,0,144,0,0,0,0,0,0,0,0


CountVectorizer generates weights relative to how many times a word or a combination or words(ngrams) appear no matter how big is the document. While TfidfTransformer makes it proportional to the size of the document. The parm "use_idf" highlights the less frequents ones because they can be more informative than other words that appear a lot.

In [7]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

''' Best parameter using GridSearch (CV score=0.535): 
{'clf__alpha': 1e-05, 'clf__max_iter': 80, 'clf__penalty': 'l2', 'tfidf__norm': 'l1',
'tfidf__smooth_idf': False, 'tfidf__sublinear_tf': True, 'tfidf__use_idf': True,
'vect__max_df': 0.6000000000000001, 'vect__max_features': None, 'vect__min_df': 0.0007,
'vect__ngram_range': (1, 2)}
Those were obtained on the next code block.
'''
count_vectorizer = CountVectorizer()
tfidf_transformer = TfidfTransformer()

''' Let's transform the lemmatized documents into count vectors '''
count_vectors_ataque = count_vectorizer.fit_transform(
    processed_data_df['Ataque_normalized'].values.astype('U'))
count_vectors_resposta = count_vectorizer.fit_transform(
    processed_data_df['Resposta_normalized'].values.astype('U'))

''' Then use those count vectors to generate frequency vectors '''
frequency_vectors_ataque = tfidf_transformer.fit_transform(count_vectors_ataque)
frequency_vectors_resposta = tfidf_transformer.fit_transform(count_vectors_resposta)

### Optimizando termos ataque

In [8]:
term_codes_ataque = []
for code, value in enumerate(count_vectors_ataque.toarray()[0]):
    if value:
        term_codes_ataque.append(code)

frequency_values_ataque = []
for code, value in enumerate(frequency_vectors_ataque.toarray()[0]):
    if code in term_codes_ataque:
        frequency_values_ataque.append(str(round(value*100, 2))+"%")

terms_ataque = []
for code in term_codes_ataque:
    terms_ataque.append(count_vectorizer.get_feature_names()[code])

features_frequencies_df_ataque = pd.DataFrame({'Feature Name': terms_ataque, 'Feature Code': term_codes_ataque, 'Feature Percentual Frequency': frequency_values_ataque})
features_frequencies_df_ataque

Unnamed: 0,Feature Name,Feature Code,Feature Percentual Frequency
0,alanis,910,14.47%
1,amiga,1237,13.66%
2,ativar,1993,15.38%
3,auroch,2098,27.3%
4,bergman,2727,29.2%
5,canários,3982,29.2%
6,chutou,4823,5.53%
7,degradar,6584,9.43%
8,famosinha,9275,24.99%
9,formato,9883,12.78%


Todos as partes de grindsearching em seguida são hiperparametrizações - não precisa ser feito mais de uma vez

In [9]:
is_gridsearching = False
if is_gridsearching:
    search_count_vectorizer = CountVectorizer()
    search_tfidf_transformer = TfidfTransformer()
    clf = SGDClassifier(alpha=1e-05, max_iter=80, penalty='l2')
    
    ''' Those are all the params values that will be tested.'''
    search_params = {
        'vect__min_df': np.arange(0, 0.001, 0.0003),
        'vect__max_df': np.arange(0.2, 0.9, 0.3),
        'vect__max_features': [None],
        'vect__ngram_range': [(1, 2), (1, 3), (2, 3)],
        'tfidf__norm': ['l2'],
        'tfidf__use_idf': [False, True],
        'tfidf__smooth_idf': [False],
        'tfidf__sublinear_tf' : [False, True]}
    
    search_pipeline = Pipeline([
        ('vect', search_count_vectorizer),
        ('tfidf', search_tfidf_transformer),
        ('clf', clf)
    ])

    gs = GridSearchCV(search_pipeline,
                      param_grid=search_params, cv=5)
    gs.fit(processed_data_df['Ataque_normalized'].values.astype('U'), processed_data_df['Resultado'])
    results = gs.cv_results_
    print(gs.best_params_)

### Optimizando termos defesa

In [10]:
term_codes_resposta = []
for code, value in enumerate(count_vectors_resposta.toarray()[0]):
    if value:
        term_codes_resposta.append(code)

frequency_values_resposta = []
for code, value in enumerate(frequency_vectors_resposta.toarray()[0]):
    if code in term_codes_resposta:
        frequency_values_resposta.append(str(round(value*100, 2))+"%")

terms_resposta = []
for code in term_codes_resposta:
    terms_resposta.append(count_vectorizer.get_feature_names()[code])

features_frequencies_df_resposta = pd.DataFrame({'Feature Name': terms_resposta, 'Feature Code': term_codes_resposta, 'Feature Percentual Frequency': frequency_values_resposta})
features_frequencies_df_resposta

Unnamed: 0,Feature Name,Feature Code,Feature Percentual Frequency
0,atacar,1946,9.62%
1,bagulho,2319,19.44%
2,camarada,3827,30.18%
3,causar,4342,13.1%
4,chegar,4671,18.45%
5,complicar,5359,18.51%
6,destreza,7097,23.76%
7,fraco,9948,8.62%
8,frank,9985,24.36%
9,gatilho,10403,20.96%


In [11]:
is_gridsearching = False
if is_gridsearching:
    search_count_vectorizer = CountVectorizer()
    search_tfidf_transformer = TfidfTransformer()
    clf = SGDClassifier(alpha=1e-05, max_iter=80, penalty='l2')
    
    ''' Those are all the params values that will be tested.'''
    search_params = {
        'vect__min_df': np.arange(0, 0.001, 0.0003),
        'vect__max_df': np.arange(0.2, 0.9, 0.3),
        'vect__max_features': [None],
        'vect__ngram_range': [(1, 2), (1, 3), (2, 3)],
        'tfidf__norm': ['l2'],
        'tfidf__use_idf': [False, True],
        'tfidf__smooth_idf': [False],
        'tfidf__sublinear_tf' : [False, True]}
    
    search_pipeline = Pipeline([
        ('vect', search_count_vectorizer),
        ('tfidf', search_tfidf_transformer),
        ('clf', clf)
    ])

    gs = GridSearchCV(search_pipeline,
                      param_grid=search_params, cv=5)
    gs.fit(processed_data_df['Resposta_normalized'].values.astype('U'), processed_data_df['Resultado'])
    results = gs.cv_results_
    print(gs.best_params_)

## Topic Modeling

#### Topics ataque

In [None]:
''' Creating and fit the LDA model using the count_vectors generated before '''
lda_ataque = LDA(n_jobs=-1)
topics_vectors = lda_ataque.fit_transform(count_vectors_ataque)