In [28]:
import speech_recognition as sr
import subprocess
import multiprocessing as mp
from subprocess import check_call
import os
import random
import string
import pandas as pd
import numpy as np
from functools import partial
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.svm import LinearSVC
import spacy
import re

In [2]:
data = pd.read_csv('./new_dataset.csv')
data["Ataque_text"].fillna("não achado", inplace = True) 
data["Resposta_text"].fillna("não achado", inplace = True)
data['Resultado'] = data['Resultado'].apply(lambda x: 1 if x == 'ataque' else 0)
data.drop(['Token', 'Ataque', 'Resposta', 'Round'], axis=1, inplace=True)
data.head()

Unnamed: 0,Resultado,Ataque_text,Resposta_text
0,ataque,mano vem aqui em previsão de você tá ligado qu...,fala Cauê Qual é o procedimento que você fala ...
1,resposta,vai tomar injeção você só come pão eu vou te d...,satisfação satisfação o meu parceiro mano tão ...
2,ataque,satisfação aqui é o Tom bota novamente tá liga...,entendi nada que você falou Acho que pela boca...
3,ataque,satisfação Rodrigo satisfação agora hein Tá ba...,satisfação em casa mano eu vou mandar no Beach...
4,ataque,estou mandando um vídeo agora mas não agora o ...,Se liga mano aqui no verso é bem sabe o cara i...


In [3]:
nlp = spacy.load('pt_core_news_lg')

### Removendo stopwords

In [7]:
def remove_stopwords(row):
    my_doc = nlp(row.Ataque_text)

    token_list = []
    for token in my_doc:
        token_list.append(token.text)
   
    filtered_sentence =[]
    for word in token_list:
        lexeme = nlp.vocab[word]
        if lexeme.is_stop == False:
            filtered_sentence.append(word)
    
    row.Ataque_text = ' '.join([str(elem) for elem in filtered_sentence]) 
    
    my_doc = nlp(row.Resposta_text)

    token_list = []
    for token in my_doc:
        token_list.append(token.text)
   
    filtered_sentence =[]
    for word in token_list:
        lexeme = nlp.vocab[word]
        if lexeme.is_stop == False:
            filtered_sentence.append(word)
    
    row.Resposta_text = ' '.join([str(elem) for elem in filtered_sentence]) 
    
    return row

In [5]:
data = data.apply(remove_stopwords, axis=1)
data.head()

Unnamed: 0,Resultado,Ataque_text,Resposta_text
0,ataque,mano previsão tá passo o som o Eduardo Vera ma...,fala Cauê o procedimento fala cara consegui re...
1,resposta,tomar injeção come pão vou socão cutuvelada ma...,satisfação satisfação o parceiro mano tá rima ...
2,ataque,satisfação o Tom bota novamente tá parça corre...,entendi falou Acho boca seca Google parceiro o...
3,ataque,satisfação Rodrigo satisfação hein Tá batalhan...,satisfação casa mano vou mandar Beach Kaizen v...
4,ataque,mandando vídeo o bit conversa tá áudio mano fa...,liga mano verso o cara inventa palavra p * * *...


### Normalizando

In [8]:
def normalize(row):
    doc = nlp(row.Ataque_text)
    
    lemma_word1 = [] 
    for token in doc:
        lemma_word1.append(token.lemma_)
    lemma_word1
    
    row['Ataque_normalized'] = ' '.join([str(elem) for elem in lemma_word1])
    
    doc = nlp(row.Resposta_text)
    
    lemma_word1 = [] 
    for token in doc:
        lemma_word1.append(token.lemma_)
    lemma_word1
    
    row['Resposta_normalized'] = ' '.join([str(elem) for elem in lemma_word1])
    
    
    return row

In [9]:
data = data.apply(normalize, axis=1)
data.head()

Unnamed: 0,Resultado,Ataque_text,Resposta_text,Ataque_normalized,Resposta_normalized
0,ataque,mano previsão tá passo o som o Eduardo Vera ma...,fala Cauê o procedimento fala cara consegui re...,manir previsão tá passar o som o Eduardo Vera ...,falir Cauê o procedimento falir caro conseguir...
1,resposta,tomar injeção come pão vou socão cutuvelada ma...,satisfação satisfação o parceiro mano tá rima ...,tomar injeção comer pão ir socão cutuvelada ma...,satisfação satisfação o parceiro manir tá rima...
2,ataque,satisfação o Tom bota novamente tá parça corre...,entendi falou Acho boca seca Google parceiro o...,satisfação o Tom boto novamente tá parça corre...,entender falar Acho bocar seco Google parceiro...
3,ataque,satisfação Rodrigo satisfação hein Tá batalhan...,satisfação casa mano vou mandar Beach Kaizen v...,satisfação Rodrigo satisfação hein Tá batalhar...,satisfação casar manir ir mandar Beach Kaizen ...
4,ataque,mandando vídeo o bit conversa tá áudio mano fa...,liga mano verso o cara inventa palavra p * * *...,mandar vídeo o bit converso tá áudio manir fal...,ligar manir versar o caro inventar palavra p *...


### Semelhança

In [13]:
def cosine_similarity(a, b):
    return a.dot(b)/np.sqrt(a.dot(a) * b.dot(b))

def similaridade(row):
    a = nlp(row.Ataque_normalized).vector
    b = nlp(row.Resposta_normalized).vector
    row['similaridade'] = cosine_similarity(a, b)
    return row

In [18]:
data = data.apply(similaridade, axis=1)
data.head()

  return a.dot(b)/np.sqrt(a.dot(a) * b.dot(b))


Unnamed: 0,Resultado,Ataque_text,Resposta_text,Ataque_normalized,Resposta_normalized,similaridade
0,1,mano previsão tá passo o som o Eduardo Vera ma...,fala Cauê o procedimento fala cara consegui re...,manir previsão tá passar o som o Eduardo Vera ...,falir Cauê o procedimento falir caro conseguir...,0.574103
1,0,tomar injeção come pão vou socão cutuvelada ma...,satisfação satisfação o parceiro mano tá rima ...,tomar injeção comer pão ir socão cutuvelada ma...,satisfação satisfação o parceiro manir tá rima...,0.807521
2,1,satisfação o Tom bota novamente tá parça corre...,entendi falou Acho boca seca Google parceiro o...,satisfação o Tom boto novamente tá parça corre...,entender falar Acho bocar seco Google parceiro...,0.844353
3,1,satisfação Rodrigo satisfação hein Tá batalhan...,satisfação casa mano vou mandar Beach Kaizen v...,satisfação Rodrigo satisfação hein Tá batalhar...,satisfação casar manir ir mandar Beach Kaizen ...,0.765358
4,1,mandando vídeo o bit conversa tá áudio mano fa...,liga mano verso o cara inventa palavra p * * *...,mandar vídeo o bit converso tá áudio manir fal...,ligar manir versar o caro inventar palavra p *...,0.92175


In [19]:
data["similaridade"].fillna(data.similaridade.mean(), inplace = True) 
data.isnull().sum()

Resultado              0
Ataque_text            0
Resposta_text          0
Ataque_normalized      0
Resposta_normalized    0
similaridade           0
dtype: int64

### Ataque data

In [63]:
def ataque_rows(row):
    row['ataque_len'] = len(row.Ataque_normalized)
    txt = row.Ataque_text
    row['ataque_ao'] = len(re.findall("ão ", txt)) + len(re.findall("ão$", txt))
    row['ataque_ado'] = len(re.findall("ado ", txt)) + len(re.findall("ado$", txt))
    row['ataque_ade'] = len(re.findall("ade ", txt)) + len(re.findall("ade$", txt))
    row['ataque_em'] = len(re.findall("em ", txt)) + len(re.findall("em$", txt))
    row['ataque_in'] = len(re.findall("in ", txt)) + len(re.findall("in$", txt))
    row['ataque_ar'] = len(re.findall("ar ", txt)) + len(re.findall("ar$", txt))
    row['ataque_er'] = len(re.findall("er ", txt)) + len(re.findall("er$", txt))
    row['ataque_or'] = len(re.findall("or ", txt)) + len(re.findall("or$", txt))
    return row

In [64]:
data = data.apply(ataque_rows, axis=1)
data.head()

Unnamed: 0,Resultado,Ataque_text,Resposta_text,Ataque_normalized,Resposta_normalized,similaridade,ataque_len,resposta_len,ataque_ao,ataque_ado,...,ataque_ar,ataque_er,resposta_ao,resposta_ado,resposta_ade,resposta_em,resposta_in,resposta_ar,resposta_er,ataque_or
0,1,mano previsão tá passo o som o Eduardo Vera ma...,fala Cauê o procedimento fala cara consegui re...,manir previsão tá passar o som o Eduardo Vera ...,falir Cauê o procedimento falir caro conseguir...,0.574103,255,139,1,1,...,3,0,0,0,0,0,0,3,3,0
1,0,tomar injeção come pão vou socão cutuvelada ma...,satisfação satisfação o parceiro mano tá rima ...,tomar injeção comer pão ir socão cutuvelada ma...,satisfação satisfação o parceiro manir tá rima...,0.807521,173,211,3,0,...,3,1,2,1,0,0,0,1,1,0
2,1,satisfação o Tom bota novamente tá parça corre...,entendi falou Acho boca seca Google parceiro o...,satisfação o Tom boto novamente tá parça corre...,entender falar Acho bocar seco Google parceiro...,0.844353,263,184,1,0,...,0,0,0,0,0,0,0,0,0,0
3,1,satisfação Rodrigo satisfação hein Tá batalhan...,satisfação casa mano vou mandar Beach Kaizen v...,satisfação Rodrigo satisfação hein Tá batalhar...,satisfação casar manir ir mandar Beach Kaizen ...,0.765358,235,196,2,0,...,1,0,1,0,0,1,0,3,0,0
4,1,mandando vídeo o bit conversa tá áudio mano fa...,liga mano verso o cara inventa palavra p * * *...,mandar vídeo o bit converso tá áudio manir fal...,ligar manir versar o caro inventar palavra p *...,0.92175,176,228,0,0,...,0,0,0,0,0,0,0,1,0,1


### Resposta data

In [65]:
def ataque_rows(row):
    row['resposta_len'] = len(row.Resposta_normalized)
    txt = row.Resposta_text
    row['resposta_ao'] = len(re.findall("ão ", txt)) + len(re.findall("ão$", txt))
    row['resposta_ado'] = len(re.findall("ado ", txt)) + len(re.findall("ado$", txt))
    row['resposta_ade'] = len(re.findall("ade ", txt)) + len(re.findall("ade$", txt))
    row['resposta_em'] = len(re.findall("em ", txt)) + len(re.findall("em$", txt))
    row['resposta_in'] = len(re.findall("in ", txt)) + len(re.findall("in$", txt))
    row['resposta_ar'] = len(re.findall("ar ", txt)) + len(re.findall("ar$", txt))
    row['resposta_er'] = len(re.findall("er ", txt)) + len(re.findall("er$", txt))
    row['resposta_or'] = len(re.findall("or ", txt)) + len(re.findall("or$", txt))
    return row

In [66]:
data = data.apply(ataque_rows, axis=1)
data.head()

Unnamed: 0,Resultado,Ataque_text,Resposta_text,Ataque_normalized,Resposta_normalized,similaridade,ataque_len,resposta_len,ataque_ao,ataque_ado,...,ataque_er,resposta_ao,resposta_ado,resposta_ade,resposta_em,resposta_in,resposta_ar,resposta_er,ataque_or,resposta_or
0,1,mano previsão tá passo o som o Eduardo Vera ma...,fala Cauê o procedimento fala cara consegui re...,manir previsão tá passar o som o Eduardo Vera ...,falir Cauê o procedimento falir caro conseguir...,0.574103,255,139,1,1,...,0,0,0,0,0,0,3,3,0,0
1,0,tomar injeção come pão vou socão cutuvelada ma...,satisfação satisfação o parceiro mano tá rima ...,tomar injeção comer pão ir socão cutuvelada ma...,satisfação satisfação o parceiro manir tá rima...,0.807521,173,211,3,0,...,1,2,1,0,0,0,1,1,0,0
2,1,satisfação o Tom bota novamente tá parça corre...,entendi falou Acho boca seca Google parceiro o...,satisfação o Tom boto novamente tá parça corre...,entender falar Acho bocar seco Google parceiro...,0.844353,263,184,1,0,...,0,0,0,0,0,0,0,0,0,0
3,1,satisfação Rodrigo satisfação hein Tá batalhan...,satisfação casa mano vou mandar Beach Kaizen v...,satisfação Rodrigo satisfação hein Tá batalhar...,satisfação casar manir ir mandar Beach Kaizen ...,0.765358,235,196,2,0,...,0,1,0,0,1,0,3,0,0,0
4,1,mandando vídeo o bit conversa tá áudio mano fa...,liga mano verso o cara inventa palavra p * * *...,mandar vídeo o bit converso tá áudio manir fal...,ligar manir versar o caro inventar palavra p *...,0.92175,176,228,0,0,...,0,0,0,0,0,0,1,0,1,0


### NLP model

In [37]:
X = data.copy()
y = data.Resultado.copy()
X.drop(['Resultado'], axis=1, inplace=True)

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2, random_state=1)

In [41]:
with nlp.disable_pipes():
    ataque_vectors_train = np.array([nlp(text).vector for text in X_train.Ataque_normalized])
    ataque_vectors_test = np.array([nlp(text).vector for text in X_test.Ataque_normalized])
    resposta_vectors_train = np.array([nlp(text).vector for text in X_train.Resposta_normalized])
    resposta_vectors_test = np.array([nlp(text).vector for text in X_test.Resposta_normalized])

In [42]:
model_ataque = RandomForestRegressor(random_state=1)
# Fit the model
model_ataque.fit(ataque_vectors_train,y_train)

model_ataque_preds_traine = model_ataque.predict(ataque_vectors_train)
model_ataque_preds = model_ataque.predict(ataque_vectors_test)
print('treino: ', mean_absolute_error(y_train, model_ataque_preds_traine))
print('teste: ', mean_absolute_error(y_test, model_ataque_preds))

treino:  0.18172604785178012
teste:  0.48486533527611025


In [43]:
model_resposta = RandomForestRegressor(random_state=1)
# Fit the model
model_resposta.fit(resposta_vectors_train,y_train)

model_resposta_preds_train = model_resposta.predict(resposta_vectors_train)
model_resposta_preds = model_resposta.predict(resposta_vectors_test)
print('treino: ', mean_absolute_error(y_train, model_resposta_preds_train))
print('teste: ', mean_absolute_error(y_test, model_resposta_preds))

treino:  0.17832760610699536
teste:  0.47739549171606627


### Table model

In [86]:
X = data.copy()
X.drop(['Ataque_text', 'Resposta_text', 'Ataque_normalized', 'Resposta_normalized'], axis=1, inplace=True)
y = data.Resultado.copy()
X.drop(['Resultado'], axis=1, inplace=True)

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2, random_state=1)

X_train.head()

Unnamed: 0,similaridade,ataque_len,resposta_len,ataque_ao,ataque_ado,ataque_ade,ataque_em,ataque_in,ataque_ar,ataque_er,resposta_ao,resposta_ado,resposta_ade,resposta_em,resposta_in,resposta_ar,resposta_er,ataque_or,resposta_or
2042,0.87147,222,262,0,0,0,0,0,0,1,2,0,0,0,0,2,2,0,0
1820,0.696534,266,259,0,0,0,0,0,0,0,0,2,0,0,0,1,0,2,0
1461,0.866855,260,207,1,2,0,0,0,1,0,1,1,0,0,0,2,0,0,0
772,0.737558,5,352,0,0,0,0,0,0,0,1,0,2,0,0,4,1,0,0
1687,0.914873,187,213,2,0,0,0,0,1,1,2,0,0,0,0,5,2,0,0


In [92]:
model_table = RandomForestRegressor(random_state=1, n_estimators= 80)
# Fit the model
model_table.fit(X_train,y_train)

model_table_preds_train = model_table.predict(X_train)
model_table_preds = model_table.predict(X_test)
print('treino: ', (1 - mean_absolute_error(y_train, np.round(model_table_preds_train, 0))) * 100)
print('teste: ', (1 - mean_absolute_error(y_test, np.round(model_table_preds, 0))) * 100)

treino:  100.0
teste:  61.16279069767442
