![Logo_Unifor](https://user-images.githubusercontent.com/61051085/81343928-3ce9d500-908c-11ea-9850-0210b4e94ba0.jpg)
# PROJETO 01: Classificador de Grau de Confiabilidade em Tweets 
### Testes de modelos de linguagem tradicionais/neurais com Python 
    Disciplina: D322 - Tópicos Avançados em Processamento de Linguagem Natural | Professora Vládia
    
    Componentes da Equipe:
    Antonio Marcos Aires Barbosa            | Matrícula: 2016397    marcosaires1@gmail.com
    Ana Carla Guimaraes Aragao T Cavalcante | Matrícula: 2016403    carllasiga@gmail.com
    Virginia Madeira Barros de Queiroz      | Matrícula: 2026537    virginiaqueiroz@edu.unifor.br

### Contextualização:
Definir o quanto uma determinada informação contida em mídias digitais é confiável ou não é um fator de elevada importância dado o grau de polaridade em que vivemos hoje, onde há literalmente uma briga de torcidas generalizada ao redor de todos assuntos da atualidade. 

Partimos da percepção de três fenômenos atuais que contribuem mais e mais para polarização inútil e prejudicial a qualquer debate sério:

    1- Por um lado temos grandes veículos de comunicação em massa que, claramente, são praticantes de um tipo de jornalismo de opinião, onde não buscam expor dois lados de qualquer fato, muito pelo contrário, é claramente perceptível a utilização de toda e qualquer notícia para apoiar somente um lado político, conforme a conveniência de momento do veículo.
    
    2- Por outro outro lado temos vários indivíduos, criadores e difusores de coteúdos com informações infundadas, quando não absurdas, sem embasamento científico algum, talvez seduzidos pela atração de cliques fáceis, seguidores, compartihamentos e likes em diversas plataformas digitais. 
    
    3- Temos ainda indivíduos que em meio ao fogo cruzado da guerra de opiniões infundadas, talvez movidos pela fuga do conflito preferem fugir dos embates, ora vestindo o manto dos "isentões" e apoiando argumentos falsos sem perceber, ora buscando fugir de toda e qualquer polêmica, o que poderia ser algo bom, caso não afastasse essas pessoas da busca por informações qualificadas, consequentemente afastando-as da verdade, seja ela qual for.
    
Seja ao ficar mudo em cima do muro, ou simplesmente abraçar cegamente um dos lados nessa guerra de torcidas (fenômeno muito parecido ao que ocorre nos esportes de massa, onde só as paixões e sentimentos irracionais definem qual lado o indivíduo escolhe) nos parece que, cada vez mais, perde-se espaço para o bom debate, praticamente já não há onde conversarmos sem ofensas, sem milindres, e sem emotividades exarcebadas. Buscamos gerar uma ferramenta que forneça oportunidade para o contraditório e troca de bons argumentos pautados em racionalidade, com passionalidade controlada e limitada a níveis minimamente civilizados de respeito à opinião contrária. Muito diferente da seita de "FakeNews" que promove o cancelamento de tudo e de todos que não lhe pareça conveniente, sob o manto de uma "verdade abosoluta" é geralmente falaciosa.

Realizamos este trabalho de pesquisa durante as disciplinas de Argumentos Formais em Computação e de Processamento de linguagem Natural no Programa de Pós-Graduação em Informática Aplicada da Universidade de Fortaleza - UNIFOR. Acreditamos que somente pautados pela busca sincera da Verdade, entre erros sinceros e acertos temporários, é que podemos avançar em nossa vida pessoal e no convívio social, pautados na verdade mais plausível até o momento. Cientes da impossibilidade prática da ausência de paixões, ou mesmo de isenção completa, já que nossas opiniões não podem ser mais que a soma de opiniões alheias e anteriores a nós mesmos, por mais que não gostemos disso, mesmo para aqueles que juram serem "livres pensadores" é impossível para qualquer ser vivente ser completamente original em suas ideias, e muito fácil de sua ignorância ser maior que seu alcance de conhecimentos.

### Objetivo:
Criar um modelo de Machine Learning capaz de receber, tratar e avaliar cada uma de suas sentenças quanto à validade de sua argumentação lógica. 

**Projetos e suas fontes de dados:**
    
    Projeto 01: Classificação de rumores em português
        Corpus utilizado: Tweets agrupados no projeto FakeTweet.BR (português) (https://github.com/prc992/FakeTweet.Br) e 
    
    Projeto 02: Classificação de rumores em inglês
        Corpus utilizado: Tweets agrupados no projeto RumourEval 2019 (inglês)(https://figshare.com/articles/RumourEval_2019_data/8845580)

# Fase01. Ingestão, Organização, Leitura do corpus em português do Brasil

In [4]:
import os
import sys
import re    
import nltk   
import string 
import warnings 
import numpy as np 
import pandas as pd 
import seaborn as sns 
import matplotlib.pyplot as plt  

pd.set_option("display.max_colwidth", 200) 
warnings.filterwarnings("ignore", category=DeprecationWarning)

In [5]:
# Definir um caminho específico na estrutura de diretório
path = "datasets"
dirs = os.listdir(path)

# Listar arquivos do caminho específico
for file in dirs:
    print(file)

FakeTweetBr-Test.csv
FakeTweetBr.csv


In [6]:
## lê entrada como um csv separado por tabulações '\t' e armazena em um DataFrame
strFile = path + "/" + "FakeTweetBr.csv"
df00_traintest = pd.read_csv(strFile)
df00_traintest.head(5)

Unnamed: 0.1,Unnamed: 0,id,subject,text,classificacao,date,retweets,favorites,permalink
0,0,1.124513e+18,macaco marielle,Marielle >BANDIDOS Narco-traficantes-Milícias pisou na bola PCC >Mandante do crime #Brazão do PT #OrganizaçãoCriminosa Assassinada por THIAGO- MACACO Midia para de acusar quem destruiu a sonhada #...,fake,2019-05-04 0:16,0,0,https://twitter.com/MRTT_/status/1124513050218893312
1,1,1.124049e+18,macaco marielle,"Bem, as últimas noticias a respeito disso que o verdadeiro assassino de Marielle não é aqueles acusados senão um elemento de codinome Macaco "". Ou seja, não colou a relação Bolsonaro x Marielle ....",fake,2019-05-02 17:33,0,0,https://twitter.com/EvaristoKlebber/status/1124049371006476293
2,5,1.119295e+18,macaco marielle,@jornalnacional convivi com notícias da Marielle durante 3 meses quase todos os dias. Porque pararam as reportagens? Só porque se descobriu que seu matador foi Thiago macaco ? Negro favelado e lig...,fake,2019-04-19 14:41,0,0,https://twitter.com/luiztemper/status/1119295029204398080
3,10,1.114583e+18,macaco marielle,"O Cesari Battisti confessou seus crimes, a esquerda calou; o assassino de MARIELLE foi descoberto, a esquerda se calou e agora o Luladrão confessou, a esquerda meteu a língua onde o macaco meu o c...",fake,2019-04-06 14:36,0,0,https://twitter.com/GrimoaldoL/status/1114582545625227333
4,11,1.113246e+18,macaco marielle,[Agência Lupa] Verificamos: É falso que Thiago Macaco foi identificado como assassino de Marielle https:// piaui.folha.uol.com.br/lupa/2019/04/0 1/verificamos-marielle-preso-thiago/ …,true,2019-04-02 22:04,1,0,https://twitter.com/antmarobel/status/1113245911591862272


In [7]:
df00_traintest['classificacao'].value_counts()

fake    188
true     91
Name: classificacao, dtype: int64

In [8]:
from sklearn.model_selection import train_test_split

#sentences = "Sentence: " + df_train['texto-pre'].values + " Reply: " + df_train['reply'].values
sentences =  df00_traintest['text'].values
y = df00_traintest['classificacao'].values

In [9]:
sentences_train, sentences_test, y_train, y_test = train_test_split(sentences, y, test_size=0.1, random_state=1000)

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(ngram_range=(1, 2))
vectorizer.fit(sentences_train)

X_train = vectorizer.transform(sentences_train)
X_test  = vectorizer.transform(sentences_test)

In [11]:
def transforma_vetor_str_int(vetor):
    vetor_retorno = []
    
    for i in range(0, len(vetor)): 
        
        if vetor[i] == 'fake':
            vetor_retorno.append(1)
        else: 
            vetor_retorno.append(2)
    return vetor_retorno

def transforma_vetor_int_str(vetor):
    vetor_retorno = []
  
    for i in range(0, len(vetor)): 
        if vetor[i] == 1:
            vetor_retorno.append('fake')
            
        if vetor[i] == 2:
            vetor_retorno.append('true')
 
    return vetor_retorno    

In [12]:
y_train2 = transforma_vetor_str_int(y_train)
y_test2 = transforma_vetor_str_int(y_test)

In [13]:
X_train.shape,len(y_train2)

((251, 7407), 251)

In [14]:
from sklearn.model_selection import cross_val_predict
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier

from sklearn.naive_bayes import BaseNB
from sklearn.naive_bayes import BernoulliNB

from sklearn.ensemble  import RandomForestClassifier
from sklearn.svm import LinearSVC

cvC = 10
classifier = LogisticRegression()
pred = cross_val_predict(classifier, X_train, y_train2, cv=cvC, verbose=True, n_jobs=2)

classifier2 = SGDClassifier()
pred2 = cross_val_predict(classifier2, X_train, y_train2, cv=cvC, verbose=True, n_jobs=2)

classifier3 = BernoulliNB()
pred3 = cross_val_predict(classifier3, X_train, y_train2, cv=cvC, verbose=True, n_jobs=2)

classifier4 = RandomForestClassifier()
pred4 = cross_val_predict(classifier4, X_train, y_train2, cv=cvC, verbose=True, n_jobs=2)

classifier5 = LinearSVC()
pred5 = cross_val_predict(classifier5, X_train, y_train2, cv=cvC, verbose=True, n_jobs=2)

[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  10 out of  10 | elapsed:    0.7s finished
[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done   7 out of  10 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=2)]: Done  10 out of  10 | elapsed:    0.0s finished
[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  10 out of  10 | elapsed:    0.0s finished
[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  10 out of  10 | elapsed:    0.9s finished
[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  10 out of  10 | elapsed:    0.0s finished


In [15]:
from sklearn.metrics import accuracy_score, f1_score,precision_score,recall_score

score = accuracy_score(y_train2, pred)
score2 = accuracy_score(y_train2, pred2)
score3 = accuracy_score(y_train2, pred3)
score4 = accuracy_score(y_train2, pred4)
score5 = accuracy_score(y_train2, pred5)

In [16]:
ps1 = precision_score(y_train2, pred, average = 'macro')
r1  = recall_score(y_train2, pred, average = 'macro') 

ps2 = precision_score(y_train2, pred2, average = 'macro')
r2 = recall_score(y_train2, pred2, average = 'macro') 

ps3 = precision_score(y_train2, pred3, average = 'macro')
r3  = recall_score(y_train2, pred3, average = 'macro') 

ps4 = precision_score(y_train2, pred4, average = 'macro')
r4  = recall_score(y_train2, pred4, average = 'macro') 

ps5 = precision_score(y_train2, pred5, average = 'macro')
r5  = recall_score(y_train2, pred5, average = 'macro') 

In [17]:
f1_geral = f1_score(y_train2, pred, average = 'macro')
f1_geral2 = f1_score(y_train2, pred2, average = 'macro')
f1_geral3 = f1_score(y_train2, pred3, average = 'macro')
f1_geral4 = f1_score(y_train2, pred4, average = 'macro')
f1_geral5 = f1_score(y_train2, pred5, average = 'macro')
df1_geral = f1_score(y_train2, pred, average = None)
df1_gera2 = f1_score(y_train2, pred2, average = None)
df1_gera3 = f1_score(y_train2, pred3, average = None)
df1_gera4 = f1_score(y_train2, pred4, average = None)
df1_gera5 = f1_score(y_train2, pred5, average = None)

In [30]:
print("LogisticRegression", 
      "\n Accuracy :",score,
      "\n F1_Score :",f1_geral,
      "\n Precision:",ps1,
      "\n Recall   :",r1,
      "\n F1-Classe:",df1_geral)
print("-"*90)
print("SGDClassifier",
      "\n Accuracy :",score2,
      "\n F1_Score :",f1_geral2,
      "\n Precision:",ps2,
      "\n Recall   :",r2,
      "\n F1-Classe:",df1_gera2)
print("-"*90)
print("ComplementNB",
      "\n Accuracy :",score3,
      "\n F1_Score :",f1_geral3,
      "\n Precision:",ps3,
      "\n Recall   :",r3,
      "\n F1-Classe:",df1_gera3)
print("-"*90)
print("RandomForestClassifier",
      "\n Accuracy :",score4,
      "\n F1_Score :",f1_geral4,
      "\n Precision:",ps4,
      "\n Recall   :",r4,
      "\n F1-Classe:",df1_gera4)
print("-"*90)
print("SVM",
      "\n Accuracy :",score5,
      "\n F1_Score :",f1_geral5,
      "\n Precision:",ps5,
      "\n Recall   :",r5,  
      "\n F1-Classe:",df1_gera5)

LogisticRegression 
 Accuracy : 0.8565737051792829 
 F1_Score : 0.8184667309546769 
 Precision: 0.8883647798742138 
 Recall   : 0.792276247848537 
 F1-Classe: [0.90163934 0.73529412]
------------------------------------------------------------------------------------------
SGDClassifier 
 Accuracy : 0.8884462151394422 
 F1_Score : 0.873995983935743 
 Precision: 0.873995983935743 
 Recall   : 0.873995983935743 
 F1-Classe: [0.91666667 0.8313253 ]
------------------------------------------------------------------------------------------
ComplementNB 
 Accuracy : 0.7450199203187251 
 F1_Score : 0.6119056822574411 
 Precision: 0.8392339544513457 
 Recall   : 0.6175057372346529 
 F1-Classe: [0.83919598 0.38461538]
------------------------------------------------------------------------------------------
RandomForestClassifier 
 Accuracy : 0.7928286852589641 
 F1_Score : 0.7152705061082024 
 Precision: 0.8449734781510483 
 Recall   : 0.6958907056798622 
 F1-Classe: [0.86387435 0.56666667]
--

In [32]:
from imblearn.over_sampling import SMOTE 
sm = SMOTE(random_state=42)

In [33]:
X_res, y_res = sm.fit_resample(X_train, y_train2)

In [34]:
X_train = X_res
y_train2 = y_res

In [35]:
X_test, y_test2 = sm.fit_resample(X_test, y_test2)

In [36]:
from sklearn.model_selection import cross_val_predict
cvC = 10
classifier = LogisticRegression()
pred = cross_val_predict(classifier, X_train, y_train2, cv=cvC, verbose=True, n_jobs=2)

classifier2 = SGDClassifier()
pred2 = cross_val_predict(classifier2, X_train, y_train2, cv=cvC, verbose=True, n_jobs=2)

classifier3 = BernoulliNB()
pred3 = cross_val_predict(classifier3, X_train, y_train2, cv=cvC, verbose=True, n_jobs=2)

classifier4 = RandomForestClassifier()
pred4 = cross_val_predict(classifier4, X_train, y_train2, cv=cvC, verbose=True, n_jobs=2)

classifier5 = LinearSVC()
pred5 = cross_val_predict(classifier5, X_train, y_train2, cv=cvC, verbose=True, n_jobs=2)

[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  10 out of  10 | elapsed:    0.7s finished
[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done   7 out of  10 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=2)]: Done  10 out of  10 | elapsed:    0.0s finished
[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  10 out of  10 | elapsed:    0.0s finished
[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  10 out of  10 | elapsed:    1.1s finished
[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  10 out of  10 | elapsed:    0.0s finished


In [37]:
from sklearn.metrics import  f1_score, precision_score, recall_score
acc1 = accuracy_score(y_train2, pred)
acc2 = accuracy_score(y_train2, pred2)
acc3 = accuracy_score(y_train2, pred3)
acc4 = accuracy_score(y_train2, pred4)
acc5 = accuracy_score(y_train2, pred5)

In [38]:
ps1 = precision_score(y_train2, pred, average = 'macro')
r1  = recall_score(y_train2, pred, average = 'macro') 

ps2 = precision_score(y_train2, pred2, average = 'macro')
r2 = recall_score(y_train2, pred2, average = 'macro') 

ps3 = precision_score(y_train2, pred3, average = 'macro')
r3  = recall_score(y_train2, pred3, average = 'macro') 

ps4 = precision_score(y_train2, pred4, average = 'macro')
r4  = recall_score(y_train2, pred4, average = 'macro') 

ps5 = precision_score(y_train2, pred5, average = 'macro')
r5  = recall_score(y_train2, pred5, average = 'macro') 

In [39]:
f1_geral = f1_score(y_train2, pred, average = 'macro')
f1_gera2 = f1_score(y_train2, pred2, average = 'macro')
f1_gera3 = f1_score(y_train2, pred3, average = 'macro')
f1_gera4 = f1_score(y_train2, pred4, average = 'macro')
f1_gera5 = f1_score(y_train2, pred5, average = 'macro')

In [40]:
df1_geral = f1_score(y_train2, pred, average = None)
df1_gera2 = f1_score(y_train2, pred2, average = None)
df1_gera3 = f1_score(y_train2, pred3, average = None)
df1_gera4 = f1_score(y_train2, pred4, average = None)
df1_gera5 = f1_score(y_train2, pred5, average = None)

In [41]:
print("LogisticRegression", 
      "\n Accuracy:", score,", F1_Score:", f1_geral," Precision :",ps1," Recall :",r1,  "\n F1-Classe",df1_geral)
print("SGDClassifier", 
      "\n Accuracy:", score2,", F1_Score:", f1_geral2," Precision :",ps2," Recall :",r2,  "\n F1-Classe",df1_gera2)
print("ComplementNB", 
      "\n Accuracy:", score3,", F1_Score:", f1_geral3," Precision :",ps3," Recall :",r3,  "\n F1-Classe",df1_gera2)
print("RandomForestClassifier", 
      "\n Accuracy:", score4,", F1_Score:"," Precision :",ps4," Recall :",r4,  "\n F1-Classe",df1_gera2)
print("SVM", 
      "\n Accuracy:", score5,", F1_Score:", f1_geral5," Precision :",ps5," Recall :",r5,  "\n F1-Classe",df1_gera2)

LogisticRegression 
 Accuracy: 0.8565737051792829 , F1_Score: 0.8533548289406881  Precision : 0.8621870357621653  Recall : 0.8541666666666667 
 F1-Classe [0.84244373 0.86426593]
SGDClassifier 
 Accuracy: 0.8884462151394422 , F1_Score: 0.873995983935743  Precision : 0.9019138755980861  Recall : 0.9017857142857143 
 F1-Classe [0.9009009  0.90265487]
ComplementNB 
 Accuracy: 0.7450199203187251 , F1_Score: 0.6119056822574411  Precision : 0.8146067415730337  Recall : 0.7053571428571428 
 F1-Classe [0.9009009  0.90265487]
RandomForestClassifier 
 Accuracy: 0.7928286852589641 , F1_Score:  Precision : 0.8216682464454976  Recall : 0.8005952380952381 
 F1-Classe [0.9009009  0.90265487]
SVM 
 Accuracy: 0.8725099601593626 , F1_Score: 0.8415153906866613  Precision : 0.8481641785570186  Recall : 0.8363095238095238 
 F1-Classe [0.9009009  0.90265487]


In [42]:
print("LogisticRegression", 
      "\n Accuracy:", acc1,", F1_Score:", f1_geral, "\n",df1_geral)
print("SGDClassifier", 
      "\n Accuracy:", acc2,", F1_Score:", f1_gera2, "\n",df1_gera2)
print("ComplementNB", 
      "\n Accuracy:", acc3,", F1_Score:", f1_gera3, "\n",df1_gera3)
print("RandomForestClassifier", 
      "\n Accuracy:", acc4,", F1_Score:", f1_gera4, "\n",df1_gera4)
print("SVM", 
      "\n Accuracy:", acc5,", F1_Score:", f1_gera5, "\n",df1_gera5)

LogisticRegression 
 Accuracy: 0.8541666666666666 , F1_Score: 0.8533548289406881 
 [0.84244373 0.86426593]
SGDClassifier 
 Accuracy: 0.9017857142857143 , F1_Score: 0.901777884078769 
 [0.9009009  0.90265487]
ComplementNB 
 Accuracy: 0.7053571428571429 , F1_Score: 0.6773461370580532 
 [0.58227848 0.77241379]
RandomForestClassifier 
 Accuracy: 0.8005952380952381 , F1_Score: 0.7972750276909777 
 [0.77133106 0.823219  ]
SVM 
 Accuracy: 0.8363095238095238 , F1_Score: 0.8349041854647787 
 [0.81967213 0.85013624]


# VALIDAÇÃO

In [43]:
import pandas as pd
strFile = path + "/" + "FakeTweetBr-Test.csv"
df_train = pd.read_csv(strFile)

In [44]:
df_train['classificacao'].value_counts()

fake    12
TRUE     8
Name: classificacao, dtype: int64

In [45]:
df_train['subject'].value_counts()

decreto oab obrigatoriedade      4
banco brasil vetado bolsonaro    4
prefeito rio nise silveira       3
gustave notre dame               3
navio msc lixo                   3
nova york estupro prefeito       2
atacadão cestas básicas          1
Name: subject, dtype: int64

In [46]:
sentences =  df_train['text'].values
y = df_train['classificacao'].values

In [47]:
X_test, y_test2 = sm.fit_resample(X_test, y_test2)

In [48]:
X_val = vectorizer.transform(sentences)

In [49]:
y_val = transforma_vetor_str_int(y)

In [50]:
classifier = LogisticRegression()
classifier.fit(X_train, y_train2)

classifier2 = SGDClassifier()
classifier2.fit(X_train, y_train2)

classifier3 = BernoulliNB()
classifier3.fit(X_train, y_train2)

classifier4 = RandomForestClassifier()
classifier4.fit(X_train, y_train2)

classifier5 = LinearSVC()
classifier5.fit(X_train, y_train2)

LinearSVC()

In [51]:
score = classifier.score(X_val, y_val)
score2 = classifier2.score(X_val, y_val)
score3 = classifier3.score(X_val, y_val)
score4 = classifier4.score(X_val, y_val)
score5 = classifier5.score(X_val, y_val)

In [52]:
from sklearn.metrics import  f1_score, precision_score, recall_score

y_predict_val = classifier.predict(X_val)
y_predict_val2 = classifier2.predict(X_val)
y_predict_val3 = classifier3.predict(X_val)
y_predict_val4 = classifier4.predict(X_val)
y_predict_val5 = classifier5.predict(X_val)

In [53]:
ps1 = precision_score(y_val, y_predict_val, average = 'macro')
r1  = recall_score(y_val, y_predict_val, average = 'macro') 
ps2 = precision_score(y_val, y_predict_val2, average = 'macro')
r2 = recall_score(y_val, y_predict_val2, average = 'macro') 
ps3 = precision_score(y_val, y_predict_val3, average = 'macro')
r3  = recall_score(y_val, y_predict_val3, average = 'macro') 

ps4 = precision_score(y_val, y_predict_val4, average = 'macro')
r4  = recall_score(y_val, y_predict_val4, average = 'macro') 

ps5 = precision_score(y_val, y_predict_val5, average = 'macro')
r5  = recall_score(y_val, y_predict_val5, average = 'macro') 

  _warn_prf(average, modifier, msg_start, len(result))


In [54]:
df1_geral = f1_score(y_val, y_predict_val, average = None)
df1_gera2 = f1_score(y_val, y_predict_val2, average = None)
df1_gera3 = f1_score(y_val, y_predict_val3, average = None)
df1_gera4 = f1_score(y_val, y_predict_val4, average = None)
df1_gera5 = f1_score(y_val, y_predict_val5, average = None)

f1_geral = f1_score(y_val, y_predict_val, average = 'macro')
f1_geral2 = f1_score(y_val, y_predict_val2, average = 'macro')
f1_geral3 = f1_score(y_val, y_predict_val3, average = 'macro')
f1_geral4 = f1_score(y_val, y_predict_val4, average = 'macro')
f1_geral5 = f1_score(y_val, y_predict_val5, average = 'macro')

In [60]:
print("LogisticRegression", 
      "\n Accuracy:", score,", F1_Score:", f1_geral," Precision :",ps1," Recall :",r1,  "\n F1-Classe",df1_geral)
print("SGDClassifier", 
      "\n Accuracy:", score2,", F1_Score:", f1_geral2," Precision :",ps2," Recall :",r2,  "\n F1-Classe",df1_gera2)
print("ComplementNB", 
      "\n Accuracy:", score3,", F1_Score:", f1_geral3," Precision :",ps3," Recall :",r3,  "\n F1-Classe",df1_gera3)
print("RandomForestClassifier", 
      "\n Accuracy:", score4,", F1_Score:",f1_geral4," Precision :",ps4," Recall :",r4,  "\n F1-Classe",df1_gera4)
print("SVM", 
      "\n Accuracy:", score5,", F1_Score:", f1_geral5," Precision :",ps5," Recall :",r5,  "\n F1-Classe",df1_gera5)

LogisticRegression 
 Accuracy: 0.45 , F1_Score: 0.41333333333333333  Precision : 0.5392156862745098  Recall : 0.5208333333333334 
 F1-Classe [0.26666667 0.56      ]
SGDClassifier 
 Accuracy: 0.8 , F1_Score: 0.7916666666666667  Precision : 0.7916666666666667  Recall : 0.7916666666666667 
 F1-Classe [0.83333333 0.75      ]
ComplementNB 
 Accuracy: 0.4 , F1_Score: 0.28571428571428575  Precision : 0.2  Recall : 0.5 
 F1-Classe [0.         0.57142857]
RandomForestClassifier 
 Accuracy: 0.4 , F1_Score: 0.34065934065934067  Precision : 0.4444444444444444  Recall : 0.4791666666666667 
 F1-Classe [0.14285714 0.53846154]
SVM 
 Accuracy: 0.4 , F1_Score: 0.34065934065934067  Precision : 0.4444444444444444  Recall : 0.4791666666666667 
 F1-Classe [0.14285714 0.53846154]


In [56]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_val, y_predict_val5)

array([[ 1, 11],
       [ 1,  7]], dtype=int64)

In [57]:
y_actu = pd.Series(y_val, name='Actual')
y_pred = pd.Series(y_predict_val5, name='Predicted')
df_confusion = pd.crosstab(y_actu, y_pred)

In [58]:
df_conf_norm = df_confusion / df_confusion.sum(axis=1)

In [59]:
df_conf_norm

Predicted,1,2
Actual,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.083333,1.375
2,0.083333,0.875


# Fase02. Pré-processamento dos corpus

In [None]:
## Funções usadas para tratamento e limpeza dos dados de tweets

def remove_contracao(origem, destino, column):            # Função para remover contrações
    for x in range(1,len(column)):
        return(re.sub(origem, destino, column))

origem, destino = '',''
linhas = []
lst_contr = [('’re',' are'), 
             ('’s',' is'),
             ('\'s',' is'),
             ('n’t',' not'),
             ('don\'t','do not'),
             ('&amp; ',''),
             ('\'ve',' have '),
             ('Taken\"',' taken'),
             ('2u','to you'),
             ('4u','for you'),
             ('2U','to you'),
             ('4U','for you')]

lst_simbol = [('.'), ('?'), ('!'), ('%'), ('&'), ('*'), ('('), (')'), ('['), (']'), ('{'), ('}'), ('_'), ('-'), ('+'), ('='),
             ('§'), ('$'), ('º'), ('°'), (':'), (';'), ('>'), ('<'), (','), ('“'), ('\"'), ('/'), ('#'), ('@'), ('-'),
             ('0'),('1'),('2'),('3'),('4'),('5'),('6'),('7'),('8'),('9')]

def remove_emoji(text):     # Função para remover emojis
    allchars = [str for str in text]
    emoji_list = [c for c in allchars if c in emoji.UNICODE_EMOJI]
    clean_text = ' '.join([str for str in text.split() if not any(i in str for i in emoji_list)])
    return clean_text

def clean(text):           # Função para remover emojis, símbolos e números
    allchars = [str for str in text]

    emoji_list = [c for c in allchars if c in emoji.UNICODE_EMOJI]
    clean_emoji= ' '.join([str for str in text.split() if not any(i in str for i in emoji_list)])
    print('emojis a remover:', emoji_list)
    
    temp_text  = [str for str in clean_emoji]

    simbol_list= [s for s in temp_text if s in lst_simbol] 
    print('símbolos a remover:', simbol_list,'\n')
    
    clean_text = ''.join([str for str in temp_text if not any(i in str for i in simbol_list)])
    return clean_text

In [None]:
traintest = pd.read_csv('datasets/olid-training-v1.0.tsv', sep='\t', usecols=('tweet','subtask_a','subtask_b','subtask_c'))
traintest.shape

In [None]:
# binarização dos targets
import numpy as np
off = 2
dy = []
for k in traintest['subtask_a']:
#     print('Estado inicial:',k)
    if k == 'OFF':
        off = 1
#         print('Setado para:   ',off,'\n')
        dy.append(off)
    elif k == 'NOT':
        off = 0
#         print('Setado para:   ',off,'\n')
        dy.append(off)
    else:
        off= 2

y = pd.Series(dy)

df_dados = pd.concat([traintest['tweet'], traintest['subtask_a'], y], axis=1)
df_dados.columns = ['tweet','subtask_a', 'target']

In [None]:
df_dados

# 1. Pré-processamento

In [None]:
from nltk.stem.porter import * 
import re

def remove_pattern(input_txt, pattern):
    r = re.findall(pattern, input_txt)
    for i in r:
        input_txt = re.sub(i, '', input_txt)
    return input_txt

def prepare(df):
    df['tidy_tweet'] = np.vectorize(remove_pattern)(df['tweet'], "@[\w]*") 
    df.tidy_tweet = df.tidy_tweet.str.replace("[^a-zA-Z#]", " ")
    df.tidy_tweet = df.tidy_tweet.apply(lambda x: ' '.join([w for w in x.split() if len(w) > 3]))
    tokenized_tweet = df.tidy_tweet.apply(lambda x: x.split())
    stemmer = PorterStemmer() 
    tokenized_tweet = tokenized_tweet.apply(lambda x: [stemmer.stem(i) for i in x]) # stemming
    for i in range(len(tokenized_tweet)):
        tokenized_tweet[i] = ' '.join(tokenized_tweet[i])    
        df['tidy_tweet'] = tokenized_tweet
        df.head(10)
    return df

# function to collect hashtags 
def hashtag_extract(x):
    hashtags = []    # Loop over the words in the tweet
    for i in x:
        ht = re.findall(r"#(\w+)", i)
        hashtags.append(ht)
    return hashtags

In [None]:
prepare(df_dados)

In [None]:
df_dados[11]

# Engenharia de features

# Bag of Words

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer 
import gensim

bow_vectorizer = CountVectorizer(max_df=0.90, min_df=2, max_features=200)
bow_train = bow_vectorizer.fit_transform(df_dados['tidy_tweet'])
bow_train.shape

# TF-IDF

In [None]:
tfidf_vectorizer = TfidfVectorizer(max_df=0.90, min_df=2, max_features=200)
tfidf_train = tfidf_vectorizer.fit_transform(df_dados['tidy_tweet'])
tfidf_train.shape

In [None]:
%%time

tokenized_tweet = df_dados['tidy_tweet'].apply(lambda x: x.split()) # tokenizing 

model_w2v = gensim.models.Word2Vec(
            tokenized_tweet,
            size=200, # desired no. of features/independent variables
            window=5, # context window size
            min_count=2, # Ignores all words with total frequency lower than 2.                                  
            sg = 1, # 1 for skip-gram model
            hs = 0,
            negative = 10, # for negative sampling
            workers= 32, # no.of cores
            seed = 34
) 

model_w2v.train(tokenized_tweet, total_examples= len(df_dados['tidy_tweet']), epochs=20)

# Word2Vec

In [None]:
def word_vector(tokens, size):
    vec = np.zeros(size).reshape((1, size))
    count = 0
    for word in tokens:
        try:
            vec += model_w2v[word].reshape((1, size))
            count += 1.
        except KeyError:  # handling the case where the token is not in vocabulary
            continue
    if count != 0:
        vec /= count
    return vec

In [None]:
wordvec_arrays = np.zeros((len(tokenized_tweet), 200)) 
for i in range(len(tokenized_tweet)):
    wordvec_arrays[i,:] = word_vector(tokenized_tweet[i], 200)
wordvec_df = pd.DataFrame(wordvec_arrays)
wordvec_df.shape

# Doc2Vec

In [None]:
from tqdm import tqdm 
# tqdm.pandas(desc="progress-bar") 
from gensim.models.doc2vec import LabeledSentence

def add_label(twt):
    output = []
    for i, s in zip(twt.index, twt):
        output.append(LabeledSentence(s, ["tweet_" + str(i)]))
    return output

labeled_tweets = add_label(tokenized_tweet) # label all the tweets

In [None]:
labeled_tweets

# Treinar modelo doc2vec

In [None]:
%%time 
model_d2v = gensim.models.Doc2Vec(dm=1, # dm = 1 for ‘distributed memory’ model
                                  dm_mean=1, # dm_mean = 1 for using mean of the context word vectors
                                  vector_size=200, # no. of desired features
                                  window=5, # width of the context window                                  
                                  negative=7, # if > 0 then negative sampling will be used
                                  min_count=5, # Ignores all words with total frequency lower than 5.                                  
                                  workers=32, # no. of cores                                  
                                  alpha=0.1, # learning rate                                  
                                  seed = 23, # for reproducibility
                                 ) 

model_d2v.build_vocab([i for i in tqdm(labeled_tweets)])

model_d2v.train(labeled_tweets, total_examples= len(df_dados['tidy_tweet']), epochs=20)

In [None]:
#cria array de vetores de documento com tamanho de acordo com quantidade de features vector_size definido no passo anterior
docvec_arrays = np.zeros((len(tokenized_tweet), 200)) 

# controla qual deve ser a dimensionalidade para casar com a dimensionalidade do corpus
for i in range(len(df_dados)):
    docvec_arrays[i,:] = model_d2v.docvecs[i].reshape((1, 200))    

docvec_df = pd.DataFrame(docvec_arrays) 
docvec_df.shape

# Divisão dos dados conhecidos como  conjuntos de treinamento e de testes

Pode ser feita uma divisão manual ou utilizar uma função **train_test_split** do skl que tem a vantagem de estratificar de acordo com a representatividade de cada classe no corpus

In [None]:
## Definir qual percentual do conjunto de treinamento e testes irá gerar o conjunto de Treinamento
# print(len(df_dados)*0.9)
# print(len(df_dados)*0.1)

## Cria os conjuntos de treinamento e o de testes passando o limite que divide um e o outro
# train = df_dados[:11916] 
# test  = df_dados[11916:] 

# print(train.shape)
# print(test.shape)

# print(len(df_dados['tidy_tweet']))
# print(len(df_dados['target']))

In [None]:
print(len(df_dados['tidy_tweet']))
print(len(df_dados['target']))

In [None]:
from sklearn.metrics import f1_score

from sklearn.model_selection import train_test_split
SEED = 2000

x_treino, x_teste, y_treino, y_teste = train_test_split(df_dados['tidy_tweet'], df_dados['target'], test_size=0.1, random_state=SEED)

print('-'*80)
print('Dimensionalidade do conjunto de Treino              :', x_treino.shape, y_treino.shape)
print('Dimensionalidade do conjunto de ValidaçãoTeste X e y:', x_teste.shape, y_teste.shape)
print(np.unique(y_treino, return_counts=True))
print(np.unique(y_teste, return_counts=True))


In [None]:
x_treino[4]

In [None]:
for idx, val in enumerate(x_treino[4:4]):
    print(val.index)

In [None]:
train_corpus = []
for idx, val in enumerate(x_treino):
# for i in range(1, len(x_treino)):
    review = re.sub('[^a-zA-Z]', ' ', val)
    review = review.lower()
    review = review.split()

    ps = PorterStemmer()

    # stemming
    review = [ps.stem(word) for word in review]

    # joining them back with space
    review = ' '.join(review)
    train_corpus.append(review)

test_corpus = []
for idx, val in enumerate(x_treino):
# for i in range(len(x_treino), len(df_dados)):
    review = re.sub('[^a-zA-Z]', ' ', val)
    review = review.lower()
    review = review.split()

    ps = PorterStemmer()

    # stemming
    review = [ps.stem(word) for word in review]

    # joining them back with space
    review = ' '.join(review)
    test_corpus.append(review)   
    
# cria o bag of words do conjunto de treinamento
from sklearn.feature_extraction.text import CountVectorizer

# Essa função do max_features define o tamanho do vetor de features que será utilizado tem que ser igual pra X e y
cv = CountVectorizer(max_features = 1000)
x = cv.fit_transform(train_corpus).toarray()
y = y_treino

print('dimensionalidade do X do corpus', x.shape)
print('dimensionalidade do y do corpus', y.shape)

# cria o bag of words do conjunto de teste
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(max_features = 1000)
x_test = cv.fit_transform(test_corpus).toarray()

print('dimensionalidade do conjunto de teste', x_test.shape)

In [None]:
list(x)

In [None]:
# standardization
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

x_treino = sc.fit_transform(x_treino)
x_valid = sc.transform(x_valid)
x_teste = sc.transform(x_teste)

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import f1_score

model = RandomForestClassifier()
model.fit(x_treino, y_treino)

y_pred = model.predict(x_valid)

print("Training Accuracy :", model.score(x_train, y_train))
print("Validation Accuracy :", model.score(x_valid, y_valid))

# calculating the f1 score for the validation set
print("F1 score :", f1_score(y_valid, y_pred))

# confusion matrix
cm = confusion_matrix(y_valid, y_pred)
print(cm)

In [None]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=10000,
                   multi_class='auto', n_jobs=-1, penalty='l2',
                   random_state=0, tol=0.0001, verbose=0,
                   warm_start=False)
model.fit(x_train, y_train)

y_pred = model.predict(x_valid)

print("Training Accuracy :", model.score(x_train, y_train))
print("Validation Accuracy :", model.score(x_valid, y_valid))

# calculating the f1 score for the validation set
print("f1 score :", f1_score(y_valid, y_pred))

# confusion matrix
cm = confusion_matrix(y_valid, y_pred)
print(cm)

In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(x_train, y_train)

y_pred = model.predict(x_valid)

print("Training Accuracy :", model.score(x_train, y_train))
print("Validation Accuracy :", model.score(x_valid, y_valid))

# calculating the f1 score for the validation set
print("f1 score :", f1_score(y_valid, y_pred))

# confusion matrix
cm = confusion_matrix(y_valid, y_pred)
print(cm)

In [None]:
from sklearn.svm import SVC

model = SVC()
model.fit(x_train, y_train)

y_pred = model.predict(x_valid)

print("Training Accuracy :", model.score(x_train, y_train))
print("Validation Accuracy :", model.score(x_valid, y_valid))

# calculating the f1 score for the validation set
print("f1 score :", f1_score(y_valid, y_pred))

# confusion matrix
cm = confusion_matrix(y_valid, y_pred)
print(cm)

In [None]:
from xgboost import XGBClassifier

model = XGBClassifier()
model.fit(x_train, y_train)

y_pred = model.predict(x_valid)

print("Training Accuracy :", model.score(x_train, y_train))
print("Validation Accuracy :", model.score(x_valid, y_valid))

# calculating the f1 score for the validation set
print("f1 score :", f1_score(y_valid, y_pred))

# confusion matrix
cm = confusion_matrix(y_valid, y_pred)
print(cm)

In [None]:
def benchmark(clf):
    print('_' * 80)
    print("Treinando o modelo: ")
    print(clf)
    
    t0 = time.time()
    clf.fit(X_train, y_train)
    train_time = time.time() - t0
    print("Tempo de treinamento: %0.3fs" % train_time)

    t0 = time.time()
    pred = clf.predict(X_test)
    test_time = time.time() - t0
    print("Tempo  de   testagem:  %0.3fs" % test_time)

    score = metrics.accuracy_score(y_test, pred)
    print("Acurácia:   %0.3f" % score)

    print("Relatório Classificação e Matriz de confusão:")
    print(metrics.classification_report(y_test, pred,target_names=target_names))
    print(metrics.confusion_matrix(y_test, pred))

    print()
    clf_descr = str(clf).split('(')[0]
    return clf_descr, score, train_time, test_time

results = []
for clf, name in (
        (RidgeClassifier(tol=1e-2, solver="auto"),  "Ridge Classifier"),
        (Perceptron(max_iter=1000),                 "Perceptron"),
        (PassiveAggressiveClassifier(max_iter=1000),"Passive-Aggressive"),
        (KNeighborsClassifier(n_neighbors=40),      "kNN"),
        (RandomForestClassifier(),                  "Random forest")):
    print('=' * 80)
    print(name)
    results.append(benchmark(clf))

for penalty in ["l2", "l1"]:
    print('=' * 80)
    print("%s penalty" % penalty.upper())

    # Train Liblinear model
    results.append(benchmark(LinearSVC(penalty=penalty, dual=False,tol=1e-3)))

    # Train SGD model
    results.append(benchmark(SGDClassifier(alpha=.0001, max_iter=1000, penalty=penalty)))

# Train SGD with Elastic Net penalty
print('=' * 80)
print("Elastic-Net penalty")
results.append(benchmark(SGDClassifier(alpha=.0001, max_iter=1000,penalty="elasticnet")))

# Train NearestCentroid without threshold
print('=' * 80)
print("NearestCentroid (aka Rocchio classifier)")
results.append(benchmark(NearestCentroid()))

# Train sparse Naive Bayes classifiers
print('=' * 80)
print("Naive Bayes")
results.append(benchmark(MultinomialNB(alpha=.01)))
results.append(benchmark(BernoulliNB(alpha=.01)))
results.append(benchmark(ComplementNB(alpha=.1)))

print('=' * 80)
print("LinearSVC with L1-based feature selection")

# Com SVMs e regressão logística, o parâmetro C controla a esparsidade: quanto menor C, menos recursos selecionados.
results.append(benchmark(Pipeline([
  ('feature_selection', SelectFromModel(LinearSVC(penalty="l1", dual=False, tol=1e-3))),
  ('classification', LinearSVC(penalty="l2"))])))

In [None]:
task_a  = pd.read_csv('datasets/testset-levela.tsv', sep='\t', usecols=('id','tweet'))
task_a.shape

In [None]:
task_a

In [None]:
task_b  = pd.read_csv('datasets/testset-levelb.tsv', sep='\t', usecols=('id','tweet'))
task_b.shape

In [None]:
task_b

In [None]:
import nltk
stopwords = nltk.corpus.stopwords.words('english')
stopwords.append('NaN')
stopwords.append('URL')
stopwords.append('url')
stopwords.append('USER')
stopwords.append('user')

# print('Stopwords NLTK: ', stopwords)

lst_remstopwords = []

for sentence in linhas:
    sentence_lower = sentence.lower()
#     print(sentence_lower)
    linha = sentence_lower.split()
    new_sentence =' '.join([word for word in linha if word not in stopwords])
#     print(new_sentence)
    lst_remstopwords.append(new_sentence)

x = pd.Series(lst_remstopwords)

In [None]:
df_dados["subtask_a"].value_counts()

In [None]:
df_dados = pd.concat([x], axis=1)
df_dados.columns = ['tweets']

In [None]:
df_dados = pd.concat([traintest['tweet'], traintest['subtask_a'], x, y], axis=1)
df_dados.columns = ['tweet','subtask_a','tweet_limpo','target']

In [None]:
df_dados

In [None]:
df_dados["subtask_a"].value_counts()

**4. Normalização de texto**

Aqui, usaremos a função PorterStemmer () da nltk para normalizar os tweets. Mas antes disso teremos que tokenizar os tweets. Tokens são termos ou palavras individuais, e a tokenização é o processo de dividir uma sequência de texto em tokens.

In [None]:
tokenized_tweet = df_dados.tweet_limpo.apply(lambda x: x.split())

In [None]:
from nltk.stem.porter import * 
stemmer = PorterStemmer() 
tokenized_tweet = tokenized_tweet.apply(lambda x: [stemmer.stem(i) for i in x]) # stemming

In [None]:
df_dados = pd.concat([df_dados['subtask_a'], df_dados['target'], df_dados['tweet_limpo'], tokenized_tweet], axis=1)
df_dados.columns = ['subtask_a','target','tweet_limpo','tokenized_tweet']

In [None]:
df_dados

#### Features por Frequência absoluta (Bag-of-Words)

Para analisar dados pré-processados, eles precisam ser convertidos em features. Dependendo do uso, os features de texto podem ser construídos usando técnicas variadas - Bag of Words, TF-IDF e Word Embeddings.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer 
import gensim

Vamos começar com os recursos ** Bag-of-Words **.

Considere um Corpus C de D documentos {d1, d2… ..dD} e N tokens exclusivos extraídos do corpus C. Os N tokens (palavras) formarão um dicionário e o tamanho da matriz de palavras-chave M DX N. Cada linha na matriz M contém a frequência de tokens no documento D (i).

Vamos entender isso usando um exemplo simples.

D1: Ele é um garoto preguiçoso. Ela também é preguiçosa.

D2: Smith é uma pessoa preguiçosa.

O dicionário criado seria uma lista de tokens exclusivos no corpus = ['Ele', 'Ela', 'preguiçoso', 'garoto', 'Smith', 'pessoa']

Aqui, D = 2, N = 6

A matriz M de tamanho 2 X 6 será representada como -![imgur](https://i.imgur.com/mKcTPdZ.png)

Agora, as colunas na matriz acima podem ser usadas como recursos para criar um modelo de classificação.

In [None]:
traintest

In [None]:
bow_vectorizer = CountVectorizer(max_df=0.90, min_df=2, max_features=1000, stop_words='english')
bow = bow_vectorizer.fit_transform(traintest['tweet'])
bow.shape

In [None]:
bow

#### Features por frequência relativa (TF-IDF)

Esse é outro método que se baseia no método de frequência, mas é diferente da abordagem do saco de palavras, no sentido de levar em conta não apenas a ocorrência de uma palavra em um único documento (ou tweet), mas em todo o corpus.

O TF-IDF funciona penalizando as palavras comuns, atribuindo-lhes pesos mais baixos e dando importância a palavras raras em todo o corpus, mas que aparecem em bons números em poucos documentos.

Vamos dar uma olhada nos termos importantes relacionados ao TF-IDF:

* TF = (número de vezes que o termo t aparece em um documento) / (número de termos no documento)

* IDF = log (N / n), em que N é o número de documentos en é o número de documentos em que um termo t apareceu.

* TF-IDF = TF * IDF

In [None]:
tfidf_vectorizer = TfidfVectorizer(max_df=0.90, min_df=2, max_features=1000, stop_words='english')
tfidf = tfidf_vectorizer.fit_transform(df_dados['tweet_limpo'])
tfidf.shape

#### Word2Vec Features

Incorporação de palavras é a maneira moderna de representar palavras como vetores. O objetivo de incorporar palavras é redefinir os recursos de palavras de alta dimensão em vetores de características de baixa dimensão, preservando a similaridade contextual no corpus. Eles são capazes de realizar tarefas como ** Rei-homem + mulher = Rainha **, o que é alucinante.
![imgur](https://i.imgur.com/gZiNamE.png)

As vantagens de usar combinações de palavras sobre BOW ou TF-IDF são:

1. Redução de dimensionalidade - redução significativa no não. dos recursos necessários para construir um modelo.

1. Ele captura significados das palavras, relacionamentos semânticos e os diferentes tipos de contextos em que são usados.

**1. Word2Vec Embeddings**

O Word2Vec não é um algoritmo único, mas uma combinação de duas técnicas - modelo ** CBOW (Contínuo de palavras contínuas) ** e ** Skip-gram **. Ambas são redes neurais rasas que mapeiam palavras para a variável alvo, que também é uma palavra. Ambas as técnicas aprendem pesos que atuam como representações de vetores de palavras.

O CBOW tende a prever a probabilidade de uma palavra em um contexto. Um contexto pode ser uma única palavra adjacente ou um grupo de palavras ao redor. O modelo Skip-gram funciona de maneira inversa, tenta prever o contexto de uma determinada palavra.

Abaixo está uma representação esquemática de um modelo Word2Vec da janela de contexto de 1 palavra.

![imgur](https://i.imgur.com/f77V0dH.png)

Existem três laters: - uma camada de entrada, - uma camada oculta e - uma camada de saída.

A camada de entrada e a saída são codificadas em um tamanho quente [1 X V], onde V é o tamanho do vocabulário (número de palavras únicas no corpus). A camada de saída é uma camada softmax que é usada para somar as probabilidades obtidas na camada de saída para 1. Os pesos aprendidos pelo modelo são então usados como vetores de palavras.

Iremos adiante com o modelo Skip-gram, pois possui as seguintes vantagens:

* Ele pode capturar duas semânticas para uma única palavra. ou seja, ele terá duas representações vetoriais de 'maçã'. Um para a empresa Apple e outro para a fruta.

* O pula-grama com subamostragem negativa supera o CBOW em geral.

Treinaremos um modelo Word2Vec em nossos dados para obter representações vetoriais para todas as palavras únicas presentes em nosso corpus. Há mais uma opção de usar **vetores de palavras pré-treinados** em vez de treinar nosso próprio modelo. Alguns dos vetores pré-treinados disponíveis gratuitamente são:

1. [Google News Word Vectors](https://code.google.com/archive/p/word2vec/)

1. [Freebase names](https://code.google.com/archive/p/word2vec/)

1. [DBPedia vectors (wiki2vec)](https://github.com/idio/wiki2vec#prebuilt-models)

No entanto, por enquanto, treinaremos nossos próprios vetores de palavras, já que o tamanho dos vetores de palavras pré-treinados geralmente é enorme.

Vamos treinar um modelo Word2Vec em nosso corpus.

In [None]:
%%time

tokenized_tweet = df_dados['tweet_limpo'].apply(lambda x: x.split()) # tokenizing 

model_w2v = gensim.models.Word2Vec(
            tokenized_tweet,
            size=200, # desired no. of features/independent variables
            window=5, # context window size
            min_count=2, # Ignores all words with total frequency lower than 2.                                  
            sg = 1, # 1 for skip-gram model
            hs = 0,
            negative = 10, # for negative sampling
            workers= 32, # no.of cores
            seed = 34
) 

model_w2v.train(tokenized_tweet, total_examples= len(x_train['tweet']), epochs=20)

Vamos brincar um pouco com o nosso modelo Word2Vec e ver como ele funciona. Especificaremos uma palavra e o modelo retirará as palavras mais relacionadas com ela do corpus.

In [None]:
model_w2v.wv.most_similar(positive="night")

In [None]:
model_w2v['food']

In [None]:
len(model_w2v['food']) #The length of the vector is 200

#### Preparando vetores para tweets

Como nossos dados contêm tweets e não apenas palavras, teremos que descobrir uma maneira de usar os vetores de palavras do modelo word2vec para criar uma representação vetorial para um tweet inteiro. Existe uma solução simples para esse problema, podemos simplesmente tirar a média de todos os vetores de palavras presentes no tweet. O comprimento do vetor resultante será o mesmo, ou seja, 200. Repetiremos o mesmo processo para todos os tweets em nossos dados e obteremos seus vetores. Agora, temos 200 recursos word2vec para nossos dados.

Usaremos a função abaixo para criar um vetor para cada tweet, calculando a média dos vetores das palavras presentes no tweet.

In [None]:
def word_vector(tokens, size):
    vec = np.zeros(size).reshape((1, size))
    count = 0
    for word in tokens:
        try:
            vec += model_w2v[word].reshape((1, size))
            count += 1.
        except KeyError:  # handling the case where the token is not in vocabulary
            continue
    if count != 0:
        vec /= count
    return vec

Preparando o conjunto de recursos do word2vec…

In [None]:
wordvec_arrays = np.zeros((len(tokenized_tweet), 200)) 
for i in range(len(tokenized_tweet)):
    wordvec_arrays[i,:] = word_vector(tokenized_tweet[i], 200)
wordvec_df = pd.DataFrame(wordvec_arrays)
wordvec_df.shape

Agora, temos 200 novos features, enquanto no Bag of Words e no TF-IDF tínhamos 1000 features.

#### 2. Embedding por Doc2Vec

O modelo Doc2Vec é um algoritmo não supervisionado para gerar vetores para sentenças / parágrafos / documentos. Essa abordagem é uma extensão da word2vec. A principal diferença entre os dois é que o doc2vec fornece um contexto adicional exclusivo para todos os documentos do corpus. Esse contexto adicional não passa de outro vetor de recurso para todo o documento. Este vetor de documento é treinado junto com os vetores de palavras.

![imgur](https://i.imgur.com/RBlg4xJ.png)

In [None]:
from tqdm import tqdm 
# tqdm.pandas(desc="progress-bar") 
from gensim.models.doc2vec import LabeledSentence

Para implementar o doc2vec, temos que **labelise** or **tag** cada tweet tokenizado com IDs exclusivos. Podemos fazer isso usando a função *LabeledSentence()* da Gensim.

In [None]:
def add_label(twt):
    output = []
    for i, s in zip(twt.index, twt):
        output.append(LabeledSentence(s, ["tweet_" + str(i)]))
    return output

labeled_tweets = add_label(tokenized_tweet) # label all the tweets

In [None]:
labeled_tweets[:6]

Agora vamos treinar um modelo **doc2vec**.

In [None]:
%%time 
model_d2v = gensim.models.Doc2Vec(dm=1,              # dm = 1 for ‘distributed memory’ model
                                  dm_mean=1,         # dm_mean = 1 for using mean of the context word vectors
                                  vector_size=200,   # no. of desired features
                                  window=5,          # width of the context window                                  
                                  negative=7,        # if > 0 then negative sampling will be used
                                  min_count=5,       # Ignores all words with total frequency lower than 5.                                  
                                  workers=32,        # no. of cores                                  
                                  alpha=0.1,         # learning rate                                  
                                  seed = 500,        # for reproducibility
                                 ) 

model_d2v.build_vocab([i for i in tqdm(labeled_tweets)])

model_d2v.train(labeled_tweets, total_examples= len(x_train['tweet']), epochs=15)

**Preparando o Conjunto de Features doc2vec**

In [None]:
docvec_arrays = np.zeros((len(tokenized_tweet), 200)) 
for i in range(len(x_train)):
    docvec_arrays[i,:] = model_d2v.docvecs[i].reshape((1,200))    

docvec_df = pd.DataFrame(docvec_arrays) 
docvec_df.shape

Agora concluímos todas as etapas de pré-modelagem necessárias para obter os dados no formato adequados. Criaremos modelos nos conjuntos de dados com diferentes conjuntos de recursos preparados nas seções anteriores - Bag-of-Words, TF-IDF, vetores word2vec e vetores doc2vec. Usaremos os seguintes algoritmos para criar modelos:

1. Regressão logística
2. Máquina de vetores de suporte
3. RandomForest
4. XGBoost

**Métrica de avaliação**

**Escore F1** está sendo usado como métrica de avaliação. É a média ponderada de Precisão e Recuperação. Portanto, essa pontuação leva em consideração tanto os falsos positivos quanto os falsos negativos. É adequado para problemas de distribuição de classe desigual.

Os componentes importantes da pontuação F1 são:

1. True Positives (TP) - Estes são os valores positivos previstos corretamente, o que significa que o valor da classe real é sim e o valor da classe prevista também é sim.
1. True Negatives (TN) - Esses são os valores negativos previstos corretamente, o que significa que o valor da classe real é não e o valor da classe prevista também é não.
1. False Positives (FP) – Quando a classe real é não e a classe prevista é sim.
1. False Negatives (FN) – Quando a classe real é sim, mas a classe prevista em não.

**Precisão** = TP/(TP+FP)

**Cobertura** = TP/(TP+FN)

**F1 Score** = 2(Cobertura * Precisão) / (Cobertura + Precisão)

#### Regressão Logística

Regressão logística é um algoritmo de classificação. É usado para prever um resultado binário (1 / 0, Sim / Não, Verdadeiro / Falso), dado um conjunto de variáveis independentes. Você também pode pensar em regressão logística como um caso especial de regressão linear quando a variável de resultado é categórica, onde estamos usando o log de chances como a variável dependente. Em palavras simples, ele prevê a probabilidade de ocorrência de um evento ajustando dados a uma função de logit.

A seguinte equação é usada em Regressão logística:

![imgur](https://i.imgur.com/RpFof26.png)

Um gráfico típico do modelo logístico é mostrado abaixo. Você pode ver que a probabilidade nunca fica abaixo de 0 e acima de 1.

![imgur](https://i.imgur.com/vX2dlga.png)

Ler esse [artigo](https://www.analyticsvidhya.com/blog/2015/11/beginners-guide-on-logistic-regression-in-r/) para saber mais sobre a regressão logística.



In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score

**Features de Bag-of-Words**

Primeiro tentaremos ajustar o modelo de regressão logística nos featrues de Bag of Words (BoW).

In [None]:
x = pd.Series(train['tweet'])

In [None]:
x.shape

In [None]:
y_train.shape

In [None]:
x_train.shape, x_valid.shape

In [None]:
bow

In [None]:
bow.shape

In [None]:
train_bow = bow[:9930,:]
train_bow

In [None]:
t=13240*0.75
print(t)

In [None]:
test_bow = bow[9930:,:]
test_bow

In [None]:
x_train.shape

In [None]:
train_bow

In [None]:
y_valid

In [None]:
y_train

# Começar aqui ----------------------------------------------------------------------

# Carga de dados para treinamento

In [None]:
import pandas as pd

df_dados = pd.read_csv('datasets/olid-training-v1.0.tsv', sep='\t', usecols=('id','tweet','subtask_a','subtask_b','subtask_c'))

# Limpeza

In [None]:
from nltk.stem.porter import * 
import pandas as pd
import numpy as np
import re

def remove_pattern(input_txt, pattern):
    r = re.findall(pattern, input_txt)
    for i in r:
        input_txt = re.sub(i, '', input_txt)
    return input_txt

def prepare(df):
    df['tidy_tweet'] = np.vectorize(remove_pattern)(df['tweet'], "@[\w]*") 
    df.tidy_tweet = df.tidy_tweet.str.replace("[^a-zA-Z#]", " ")
    df.tidy_tweet = df.tidy_tweet.apply(lambda x: ' '.join([w for w in x.split() if len(w) > 3]))
    tokenized_tweet = df.tidy_tweet.apply(lambda x: x.split())
    stemmer = PorterStemmer() 
    tokenized_tweet = tokenized_tweet.apply(lambda x: [stemmer.stem(i) for i in x]) # stemming
    for i in range(len(tokenized_tweet)):
        tokenized_tweet[i] = ' '.join(tokenized_tweet[i])    
        df['tidy_tweet'] = tokenized_tweet
        df.head(10)
    return df

# function to collect hashtags 
def hashtag_extract(x):
    hashtags = []    # Loop over the words in the tweet
    for i in x:
        ht = re.findall(r"#(\w+)", i)
        hashtags.append(ht)
    return hashtags

In [None]:
df_dados

In [None]:
prepare(df_dados)

In [None]:
# binarização dos targets
import numpy as np
off = 2
dy = []
for k in df_dados['subtask_a']:
#     print('Estado inicial:',k)
    if k == 'OFF':
        off = 1
#         print('Setado para:   ',off,'\n')
        dy.append(off)
    elif k == 'NOT':
        off = 0
#         print('Setado para:   ',off,'\n')
        dy.append(off)
    else:
        off= 2

y = pd.Series(dy)

df_dados = pd.concat([df_dados['tidy_tweet'], df_dados['subtask_a'], y], axis=1)
df_dados.columns = ['tidy_tweet','subtask_a', 'target']

In [None]:
df_dados

# Features para treinamento por TF-IDF

In [None]:
y=df_dados['target']

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer 
import gensim

tfidf_vectorizer = TfidfVectorizer(max_df=0.90, min_df=2, max_features=1000, stop_words='english')
tfidf = tfidf_vectorizer.fit_transform(df_dados['tidy_tweet'])
tfidf.shape

In [None]:
tfidf

# Features do Held-Out-Data level_a - (supervisão de Cecília)

In [None]:
heldout_a = pd.read_csv('datasets/testset-levela.tsv', sep='\t', usecols=('id','tweet'))

In [None]:
prepare(heldout_a)

In [None]:
# heldout_a.index = heldout_a.id
hoda_index = pd.Series(heldout_a['id'])
hoda_tweet = pd.Series(heldout_a['tweet'])
heldout_a.drop(['tweet'], axis=1, inplace= True)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer 
import gensim

tfidf_vechod = TfidfVectorizer(max_df=0.90, min_df=2, max_features=1000, stop_words='english')
tfidf_hoda = tfidf_vechod.fit_transform(heldout_a['tidy_tweet'])
print(tfidf_hoda.shape)

In [None]:
from xgboost import XGBClassifier

model = XGBClassifier()
model.fit(tfidf, y)

y_pred = model.predict(tfidf_hoda)
hoda_ypred = pd.Series(y_pred)

In [None]:
result_a = pd.concat([hoda_index, hoda_tweet, hoda_ypred], axis=1)
result_a

# Parei aqui ------------------------------------------------------

Our tuning worked! This is our best score!!

In [None]:
test_pred = xgb_model.predict(dtest)
test['label'] = (test_pred >= 0.3).astype(np.int)
submission = test[['id','label']] 
submission.to_csv('sub_xgb_w2v_finetuned.csv', index=False)

In [None]:
xgb_model = xgb.train(
    params,
    dtrain,
    feval= custom_eval,
    num_boost_round= 1000,
    maximize=True,
    evals=[(dvalid, "Validation")],
    early_stopping_rounds=10
 )

Finalmente, agora podemos usar esses parâmetros ajustados em nosso modelo xgboost. Usamos a parada antecipada de 10, o que significa que, se o desempenho do modelo não melhorar em menos de 10 rodadas, o treinamento do modelo será interrompido.

In [None]:
params = {
    'colsample': 0.9,
    'colsample_bytree': 0.5,
    'eta': 0.1,
    'max_depth': 9,
    'min_child_weight': 7,
    'objective': 'binary:logistic',
    'subsample': 0.9
}

Let’s have a look at the final list of tuned parameters.

In [None]:
max_f1 = 0. 
best_params = None 
for eta in [.3, .2, .1, .05, .01, .005]:
    print("CV with eta={}".format(eta))
     # Update ETA
    params['eta'] = eta

     # Run CV
    cv_results = xgb.cv(
        params,
        dtrain,
        feval= custom_eval,
        num_boost_round=1000,
        maximize=True,
        seed=16,
        nfold=5,
        early_stopping_rounds=20
    )

    # Finding best F1 Score
    mean_f1 = cv_results['test-f1_score-mean'].max()
    boost_rounds = cv_results['test-f1_score-mean'].idxmax()
    print("\tF1 Score {} for {} rounds".format(mean_f1, boost_rounds))
    
    if mean_f1 > max_f1:
        max_f1 = mean_f1
        best_params = eta 
        
print("Best params: {}, F1 Score: {}".format(best_params, max_f1))

Now let’s tune the *learning rate*.

In [None]:
params['subsample'] = 0.9
params['colsample_bytree'] = 0.5

Updating *subsample* and *colsample_bytree*

In [None]:
gridsearch_params = [
    (subsample, colsample)
    for subsample in [i/10. for i in range(5,10)]
    for colsample in [i/10. for i in range(5,10)]
]

max_f1 = 0. 
best_params = None 

for subsample, colsample in gridsearch_params:
    print("CV with subsample={}, colsample={}".format(subsample,colsample))
    
    # Update our parameters
    params['colsample'] = colsample
    params['subsample'] = subsample
    
    cv_results = xgb.cv(
        params,
        dtrain,
        feval= custom_eval,
        num_boost_round=200,
        maximize=True,
        seed=16,
        nfold=5,
        early_stopping_rounds=10
        )
    
    # Finding best F1 Score
    mean_f1 = cv_results['test-f1_score-mean'].max()
    boost_rounds = cv_results['test-f1_score-mean'].idxmax()
    print("\tF1 Score {} for {} rounds".format(mean_f1, boost_rounds))
    
    if mean_f1 > max_f1:
        max_f1 = mean_f1
        best_params = (subsample, colsample) 

print("Best params: {}, {}, F1 Score: {}".format(best_params[0], best_params[1], max_f1))

Tuning *subsample* and *colsample*

In [None]:
params['max_depth'] = 9 
params['min_child_weight'] = 7

Updating max_depth and min_child_weight parameters.

In [None]:
gridsearch_params = [
    (max_depth, min_child_weight)
    for max_depth in range(6,10)
    for min_child_weight in range(5,8)
    ]

max_f1 = 0. # initializing with 0 

best_params = None 

for max_depth, min_child_weight in gridsearch_params:
    print("CV with max_depth={}, min_child_weight={}".format(max_depth,min_child_weight))
    
     # Update our parameters
    params['max_depth'] = max_depth
    params['min_child_weight'] = min_child_weight

     # Cross-validation
    cv_results = xgb.cv(
        params,
        dtrain,
        feval= custom_eval,
        num_boost_round=200,
        maximize=True,
        seed=16,
        nfold=5,
        early_stopping_rounds=10
        )     
    
# Finding best F1 Score    
mean_f1 = cv_results['test-f1_score-mean'].max()
boost_rounds = cv_results['test-f1_score-mean'].idxmax()    
print("\tF1 Score {} for {} rounds".format(mean_f1, boost_rounds))    

if mean_f1 > max_f1:
        max_f1 = mean_f1
        best_params = (max_depth,min_child_weight) 

print("Best params: {}, {}, F1 Score: {}".format(best_params[0], best_params[1], max_f1))

** Abordagem geral para ajuste de parâmetros **

Seguiremos as etapas abaixo para ajustar os parâmetros.

1. Escolha uma taxa de aprendizado relativamente alta. Normalmente, uma taxa de aprendizado de 0,3 é usada nesta fase.

2. Ajuste parâmetros específicos da árvore, como max_depth, min_child_weight, subsample, colsample_bytree, mantendo a taxa de aprendizado fixa.

3. Ajuste a taxa de aprendizado.

4. Finalmente, ajuste a gama para evitar ajustes excessivos.

* Ajustando max_depth e min_child_weight *

In [None]:
def custom_eval(preds, dtrain):
    labels = dtrain.get_label().astype(np.int)
    preds = (preds >= 0.3).astype(np.int)
    return [('f1_score', f1_score(labels, preds))]

We will prepare a custom evaluation metric to calculate F1 score.

In [None]:
dtrain = xgb.DMatrix(xtrain_w2v, label=ytrain) 
dvalid = xgb.DMatrix(xvalid_w2v, label=yvalid) 
dtest  = xgb.DMatrix(test_w2v)
# Parameters that we are going to tune 
params = {
    'objective':'binary:logistic',
    'max_depth':6,
    'min_child_weight': 1,
    'eta':.3,
    'subsample': 1,
    'colsample_bytree': 1
 }

Aqui vamos usar o DMatrices. Uma DMatrix pode conter os recursos e o destino.

In [None]:
import xgboost as xgb

#### FineTuning XGBoost + Word2Vec

XGBoost with Word2Vec model has given us the best performance so far. Let’s try to tune it further to extract as much from it as we can. XGBoost has quite a many tuning parameters and sometimes it becomes tricky to properly tune them. This is what we are going to do in the following steps. You can refer this guide to learn more about parameter tuning in XGBoost.

In [None]:
xgb = XGBClassifier(max_depth=6, n_estimators=1000, nthread= 3).fit(xtrain_d2v, ytrain) 
prediction = xgb.predict(xvalid_d2v)
f1_score(yvalid, prediction)

**Doc2Vec Features**

XGBoost model on word2vec features has outperformed all the previuos models

In [None]:
xgb = XGBClassifier(max_depth=6, n_estimators=1000, nthread= 3).fit(xtrain_w2v, ytrain) 
prediction = xgb.predict(xvalid_w2v)
f1_score(yvalid, prediction)

**Word2Vec Features**

In [None]:
xgb = XGBClassifier(max_depth=6, n_estimators=1000).fit(xtrain_tfidf, ytrain) 
prediction = xgb.predict(xvalid_tfidf)
f1_score(yvalid, prediction)

**TF-IDF Features**

In [None]:
test_pred = xgb_model.predict(test_bow)
test['label'] = test_pred
submission = test[['id','label']]
submission.to_csv('sub_xgb_bow.csv', index=False)

In [None]:
xgb_model = XGBClassifier(max_depth=6, n_estimators=1000).fit(xtrain_bow, ytrain)
prediction = xgb_model.predict(xvalid_bow)
f1_score(yvalid, prediction)

**Bag-of-Words Features**

In [None]:
from xgboost import XGBClassifier

#### XGBoost

Extreme Gradient Boosting (xgboost) is an advanced implementation of gradient boosting algorithm. It has both linear model solver and tree learning algorithms. Its ability to do parallel computation on a single machine makes it extremely fast. It also has additional features for doing cross validation and finding important variables. There are many parameters which need to be controlled to optimize the model.

Some key benefits of XGBoost are:

1. **Regularization** - helps in reducing overfitting

1. **Parallel Processing** - XGBoost implements parallel processing and is blazingly faster as compared to GBM.

1. **Handling Missing Values** - It has an in-built routine to handle missing values.

1. **Built-in Cross-Validation** - allows user to run a cross-validation at each iteration of the boosting process

Check out this wonderful guide on XGBoost parameter tuning.

In [None]:
rf = RandomForestClassifier(n_estimators=400, random_state=11).fit(xtrain_d2v, ytrain) 
prediction = rf.predict(xvalid_d2v)
f1_score(yvalid, prediction)

**Doc2Vec Features**

In [None]:
rf = RandomForestClassifier(n_estimators=400, random_state=11).fit(xtrain_w2v, ytrain) 
prediction = rf.predict(xvalid_w2v)
f1_score(yvalid, prediction)

**Word2Vec Features**

In [None]:
rf = RandomForestClassifier(n_estimators=400, random_state=11).fit(xtrain_tfidf, ytrain) 
prediction = rf.predict(xvalid_tfidf)
f1_score(yvalid, prediction)

**TF-IDF Features**

In [None]:
test_pred = rf.predict(test_bow)
test['subtask_a'] = test_pred
submission = test[['id','subtask_a']]
submission.to_csv('sub_rf_bow.csv', index=False)

Let’s make predictions for the test dataset and create another submission file.

In [None]:
rf = RandomForestClassifier(n_estimators=400, random_state=11).fit(xtrain_bow, ytrain) 
prediction = rf.predict(xvalid_bow) 
f1_score(yvalid, prediction) # validation score

**Bag-of-Words Features**

First we will train our RandomForest model on the Bag-of-Words features and check its performance on validation set.

In [None]:
from sklearn.ensemble import RandomForestClassifier

## RandomForest

Random Forest é um algoritmo versátil de aprendizado de máquina capaz de executar tarefas de regressão e classificação. É um tipo de método de aprendizado de conjunto, em que alguns modelos fracos se combinam para formar um modelo poderoso. Na Floresta Aleatória, crescemos várias árvores em oposição a uma única árvore de decisão. Para classificar um novo objeto com base em atributos, cada árvore dá uma classificação e dizemos que a árvore “vota” para essa classe. A floresta escolhe a classificação com mais votos (sobre todas as árvores da floresta).
Funciona da seguinte maneira. Cada árvore é plantada e cultivada da seguinte forma:

1. Suponha que o número de casos no conjunto de treinamento seja N. Em seguida, uma amostra desses N casos é coletada aleatoriamente, mas com substituição. Esta amostra será o conjunto de treinamento para o cultivo da árvore.

2. Se houver M variáveis de entrada, um número m (m <M) é especificado de modo que, em cada nó, m variáveis sejam selecionadas aleatoriamente dentre M. A melhor divisão nessas m variáveis é usada para dividir o nó. O valor de m é mantido constante enquanto cultivamos a floresta.

3. Cada árvore é cultivada na maior extensão possível e não há poda.

4. Preveja novos dados agregando as previsões das árvores ntree (ou seja, maioria dos votos na classificação e média na regressão).
![imgur](https://i.imgur.com/nOBROEn.png)

In [None]:
svc = svm.SVC(kernel='linear', C=1, probability=True).fit(xtrain_d2v, ytrain) 

prediction     = svc.predict_proba(xvalid_d2v) 
prediction_int = prediction[:,1] >= 0.3 
prediction_int = prediction_int.astype(np.int) 

f1_score(yvalid, prediction_int)

**Doc2Vec Features**

In [None]:
svc = svm.SVC(kernel='linear', C=1, probability=True).fit(xtrain_w2v, ytrain) 

prediction     = svc.predict_proba(xvalid_w2v) 
prediction_int = prediction[:,1] >= 0.3 
prediction_int = prediction_int.astype(np.int) 

f1_score(yvalid, prediction_int)

**Word2Vec Features**

In [None]:
svc = svm.SVC(kernel='linear', C=1, probability=True).fit(xtrain_tfidf, ytrain) 

prediction     = svc.predict_proba(xvalid_tfidf) 
prediction_int = prediction[:,1] >= 0.3 
prediction_int = prediction_int.astype(np.int) 

f1_score(yvalid, prediction_int)

**TF-IDF Features**

Neste caso, a pontuação da validação foi um pouco menor que a pontuação da Regressão logística para recursos de palavras-chave.

In [None]:
from sklearn import svm

xtrain_bow =
ytrain     =
xvalid_bow =
yvalid     =

svc = svm.SVC(kernel='linear', C=1, probability=True).fit(xtrain_bow, ytrain) 

prediction     = svc.predict_proba(xvalid_bow) 
prediction_int = prediction[:,1] >= 0.3 
prediction_int = prediction_int.astype(np.int) 

f1_score(yvalid, prediction_int)

## Novamente, vamos fazer previsões para o conjunto de dados de teste e criar outro arquivo de envio.
test_pred     = svc.predict_proba(test_bow) 
test_pred_int = test_pred[:,1] >= 0.3 
test_pred_int = test_pred_int.astype(np.int) 
test['label'] = test_pred_int 

submission = test[['id','label']] 
submission.to_csv('sub_svm_bow.csv', index=False)

In [None]:
xvalid_bow = bow_a
bow_a.shape

**Bag-of-Words Features**

## Support Vector Machine (SVM)

O Support Vector Machine (SVM) é um algoritmo de aprendizado de máquina supervisionado que pode ser usado para desafios de classificação ou regressão. No entanto, é usado principalmente em problemas de classificação. Nesse algoritmo, plotamos cada item de dados como um ponto no espaço n-dimensional (onde n é o número de recursos que você possui), com o valor de cada recurso sendo o valor de uma determinada coordenada. Em seguida, realizamos a classificação encontrando o hiperplano que diferencia as duas classes, conforme mostrado no gráfico abaixo:

![imgur](https://i.imgur.com/dG1jOCx.png)

Consulte este [artigo](https://www.analyticsvidhya.com/blog/2017/09/understaing-support-vector-machine-example-code/) para saber mais sobre o SVM. Agora, implementaremos o SVM em nossos dados usando a biblioteca scikit-learn.

Doc2Vec features do not seem to be capturing the right signals as the F1-score on validation set is quite low.

In [None]:
train_d2v = docvec_df.iloc[:9000,:]
test_d2v = docvec_df.iloc[9000:,:] 

xtrain_d2v = train_d2v.iloc[ytrain.index,:]
xvalid_d2v = train_d2v.iloc[yvalid.index,:]

lreg.fit(xtrain_d2v, ytrain) 

prediction = lreg.predict_proba(xvalid_d2v)

prediction_int = prediction[:,1] >= 0.3
prediction_int = prediction_int.astype(np.int)

f1_score(yvalid, prediction_int)

In [None]:
docvec_df.shape

**Doc2Vec Features**

In [None]:
train_w2v = wordvec_df.iloc[:31962,:]
test_w2v  = wordvec_df.iloc[31962:,:]

xtrain_w2v = train_w2v.iloc[ytrain.index,:]
xvalid_w2v = train_w2v.iloc[yvalid.index,:]

lreg.fit(xtrain_w2v, ytrain) 

prediction = lreg.predict_proba(xvalid_w2v)

prediction_int = prediction[:,1] >= 0.3
prediction_int = prediction_int.astype(np.int)

f1_score(yvalid, prediction_int)

**Word2Vec Features**

In [None]:
train_tfidf = tfidf[:11916,:]
test_tfidf  = tfidf[11916:,:] 

xtrain_tfidf = train_tfidf[y_train.index]
xvalid_tfidf = train_tfidf[yvalid.index]

lreg.fit(xtrain_tfidf, ytrain) 

prediction = lreg.predict_proba(xvalid_tfidf)

prediction_int = prediction[:,1] >= 0.3
prediction_int = prediction_int.astype(np.int) 

f1_score(yvalidation, prediction_int) # calculating f1 score for the validation set

In [None]:
tfidf

In [None]:
13240*0.9

In [None]:
tfidf.shape

**Features de TF-IDF**

Seguiremos as mesmas etapas acima, mas agora para o conjunto de recursos TF-IDF.

In [None]:
# submission = test[['id','subtask_a']]
# submission.to_csv('sub_lreg_bow.csv', index=False) # writing data to a CSV file

# Gerar arquivo de submissão

In [None]:
test

In [None]:
test=pd.DataFrame()
test_pred_int = test_pred[:,1] >= 0.3
test_pred_int = test_pred_int.astype(np.int)
test['subtask_a'] = test_pred_int

In [None]:
train_corpus = []
for i in range(0, len(train)):
    review = re.sub('[^a-zA-Z]', ' ', train['tidy_tweet'][i])
    review = review.lower()
    review = review.split()
  
    ps = PorterStemmer()
  
    # stemming
    review = [ps.stem(word) for word in review]
  
    # joining them back with space
    review = ' '.join(review)
    train_corpus.append(review)
    
    
test_corpus = []
for i in range(11916, len(df_dados)):
    review = re.sub('[^a-zA-Z]', ' ', test['tidy_tweet'][i])
    review = review.lower()
    review = review.split()
  
    ps = PorterStemmer()
  
    # stemming
    review = [ps.stem(word) for word in review]
  
    # joining them back with space
    review = ' '.join(review)
    test_corpus.append(review)
    
    
# creating bag of words do conjunto de treinamento
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(max_features = 1000)
x = cv.fit_transform(train_corpus).toarray()
y = train.iloc[:, 2]

print(x.shape)
print(y.shape)


# creating bag of words do conjunto de teste
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(max_features = 1000)
x_test = cv.fit_transform(test_corpus).toarray()

print(x_test.shape)

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score

lreg = LogisticRegression(solver='lbfgs') 
lreg.fit(x_train, y_train) 

prediction_b     = lreg.predict_proba(bow2_b) # predicting on the validation set 
prediction_int_b = prediction[:,1] >= 0.33         # if prediction is greater than or equal to 0.3 than 1 else 0 
prediction_int_b = prediction_int.astype(np.int) 
prediction_int_b.shape

## LogisticRegression

In [None]:
train_corpus = []
for i in range(0, len(train)):
    review = re.sub('[^a-zA-Z]', ' ', train['tidy_tweet'][i])
    review = review.lower()
    review = review.split()
  
    ps = PorterStemmer()
  
    # stemming
    review = [ps.stem(word) for word in review]
  
    # joining them back with space
    review = ' '.join(review)
    train_corpus.append(review)
    
    
test_corpus = []
for i in range(11916, len(df_dados)):
    review = re.sub('[^a-zA-Z]', ' ', test['tidy_tweet'][i])
    review = review.lower()
    review = review.split()
  
    ps = PorterStemmer()
  
    # stemming
    review = [ps.stem(word) for word in review]
  
    # joining them back with space
    review = ' '.join(review)
    test_corpus.append(review)
    
    
# creating bag of words do conjunto de treinamento
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(max_features = 1000)
x = cv.fit_transform(train_corpus).toarray()
y = train.iloc[:, 2]

print(x.shape)
print(y.shape)


# creating bag of words do conjunto de teste
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(max_features = 1000)
x_test = cv.fit_transform(test_corpus).toarray()

print(x_test.shape)


from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score

lreg = LogisticRegression(solver='lbfgs') 
lreg.fit(x_train, y_train) 

prediction_a     = lreg.predict_proba(bow_a) # predicting on the validation set 
prediction_int_a = prediction[:,1] >= 0.33         # if prediction is greater than or equal to 0.3 than 1 else 0 
prediction_int_a = prediction_int.astype(np.int) 
prediction_int_a.shape

## LogisticRegression task_a

# Utilizar o modelo para predição de classes do Held-Out-Data

In [None]:
bow2_b.shape

In [None]:
bow2vec_heldb = CountVectorizer(max_df=0.90, min_df=2, max_features=1000, stop_words='english')
bow2_b = bowvec_heldb.fit_transform(bow2)
bow2_b.shape

In [None]:
import time

print('Calculando Bag of Words...')
start0 = time.time()

from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(ngram_range=(1,2))
text_counts = cv.fit_transform(heldout_b['tidy_tweet'])
text_counts.toarray()
cv.get_feature_names()

bow2 = pd.DataFrame(text_counts.toarray(), columns=cv.get_feature_names())
bow2

end0 = time.time()
dur0 = np.round(end0-start0,2)
print('-'*80)
print('BoW de bigramas para',len(bow2),'Tweets gerado em',dur0,'segundos. Forma:',bow2.shape)

In [None]:
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=260, n_features=2, n_informative=2,
                           n_redundant=0, n_repeated=0, n_classes=3,
                           n_clusters_per_class=1,
                           weights=[0.01, 0.05, 0.94],
                           class_sep=0.8, random_state=0)

from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X, y)

from collections import Counter
print(sorted(Counter(y_resampled).items()))

In [None]:
Xb = heldout_b['tidy_tweet']
print(len(Xb))

In [None]:
heldout_b.index = heldout_b.id
heldout_b.drop(['id','tweet'], axis=1, inplace= True)
heldout_b

In [None]:
prepare(heldout_b)

In [None]:
heldout_b = pd.read_csv('datasets/testset-levelb.tsv', sep='\t', usecols=('id','tweet'))

# Held Out Data - level_b

In [None]:
print(bow_a)

In [None]:
bowvec_helda = CountVectorizer(max_df=0.90, min_df=2, max_features=1000, stop_words='english')

bow_a = bowvec_helda.fit_transform(heldout_a['tidy_tweet'])
bow_a.shape

In [None]:
amostra=0.2
train_bow2 = bow[:9930,:]
train_bow2

test_bow2 = bow[9930:,:]
test_bow2

In [None]:
len(prediction_intb)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score

lreg = LogisticRegression(solver='lbfgs') 
lreg.fit(x_train, y_train) 

predictionb     = lreg.predict_proba(bow2_b) # predicting on the validation set 
prediction_intb = prediction_int.astype(np.int)  

In [None]:
#  now to create a PANDAS data frame
df = pd.DataFrame(data = FF_maxRSSBasal, columns=['FF_maxRSSBasal'])

# from here on, we use the trick of creating a new dataframe and then "add"ing it
df2 = pd.DataFrame(data = FF_maxRSSPrism, columns=['FF_maxRSSPrism'])
df = df.add( df2, fill_value=0 )
df2 = pd.DataFrame(data = FF_maxRSSPyramidal, columns=['FF_maxRSSPyramidal'])
df = df.add( df2, fill_value=0 )
df2 = pd.DataFrame(data = deltaFF_strainE22, columns=['deltaFF_strainE22'])
df = df.add( df2, fill_value=0 )
df2 = pd.DataFrame(data = scaled, columns=['scaled'])
df = df.add( df2, fill_value=0 )
df2 = pd.DataFrame(data = deltaFF_orientation, columns=['deltaFF_orientation'])
df = df.add( df2, fill_value=0 )
#print(df)
df.to_csv('FF_data_frame.csv')

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})


df2 = pd.DataFrame({'C': ['C0', 'C1'],
                      'D': ['D0', 'D1']})

df1['k'] = 1
df2['k'] = 1

resultado = pd.merge(df1, df2, on=['k'])

resultado = resultado.drop(["k"], axis=1)
print(resultado.head(100))

In [None]:
result_a.add(pd.Series(y_pred), fill_value=0)