#### Importando bibliotecas

In [1]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans

#### Lendo arquivos de postagens e vetorização

In [2]:
vetorizacao = pd.read_csv('../data/vetorizacao.csv')
with open('../data/tweets.csv', encoding="utf8") as file:
    tweets = file.readlines()

#### Aplicando o Kmeans

In [3]:
kmeans = KMeans(n_clusters = 3)
pred_y = kmeans.fit_predict(vetorizacao)

In [4]:
pd.set_option('display.max_colwidth', None)
df = pd.DataFrame(data={'tweet': tweets, 'rotulo': pred_y})
df["tweet"] = df["tweet"].apply(lambda x: x.replace("\n", ""))
df.head()

Unnamed: 0,tweet,rotulo
0,Bolsonaro é louco e eu sou o Lula jump jump jump,0
1,taehyung performando sentado sendo superior a qualquer um,0
2,Campanha de Bolsonaro quer evitar fake news nos celulares de assessores https://veja.abril.com.br/coluna/radar/campanha-de-bolsonaro-quer-evitar-fake-news-nos-celulares-de-assessores/…,0
3,Hipocrisia agente vê por aqui com a SIMONE ESTEPE.Lapada: Michelle Bolsonaro expõe “hipocrisia” de Simone Tebet; VEJA ☛,2
4,Meu Presidente tava aqui em São Luís e eu não pude ir ver ele. . . @LulaOficial . . .#LulaNo1ºTurno #LulaPresidente13 #Lula13,0


### Classificação manual

#### Selecionando amostras

In [5]:
amostra0 = df[df.rotulo==0].sample(n=5)
amostra0

Unnamed: 0,tweet,rotulo
1399,Ei @jairbolsonaro vai tomar no cu,0
1550,O TSE acatou o pedido da @simonetebetbr e mandou remover o vídeo de campanha com primeira dama Michelle Bolsonaro. Será quê este vídeo a Simone vai pedir ao STF para remover este vídeo também???,0
1246,"Gabriela Prioli rebate Bolsonaro: 'Sinto medo mas não me calo' - Politica - Estado de Minas https://em.com.br/app/noticia/politica/2022/09/02/interna_politica,1390843/gabriela-prioli-rebate-bolsonaro-sinto-medo-mas-nao-me-calo.shtml… Quem ataca também tem que ter peito para aguentar verdades. Simples assim.",0
1416,É Lula 13 para reconstruir o Brasil destruído pelo bolsonarismo!,0
812,Bolsonaro é morte Bolsonaro é uma peste...,0


Podemos ver que nem todas as amostras representam o mesmo sentimento, portanto, refaremos a classificação do grupo:

In [10]:
grupo = vetorizacao[vetorizacao.index.isin(df[df.rotulo==0].index)]
new_predict = kmeans.fit_predict(grupo)
df.loc[df['rotulo'] == 0, 'rotulo'] = new_predict
amostra0 = df[df.rotulo==0].sample(n=5)
amostra0

Unnamed: 0,tweet,rotulo
731,"Comunista lixo escoria , a vergonha do mato grosso do sul @simonetebetbr",0
341,Que vergonha... @simonetebetbr,0
1856,Cria vergonha na cara @simonetebetbr,0
2589,A senhora @simonetebetbr É uma VERGONHA! NÃO representa as mulheres brasileiras! #MulheresComBolsonaro #VaiSerNoPrimeiroTurno,0
601,Alô @simonetebetbr a vergonha vem parcelada,0


Podemos ver que agora todos os dados da amostra possuem o mesmo sentimento (negativo), então vamos atribuí-lo:

In [12]:
df.loc[df['rotulo'] == 0, 'rotulo'] = 'negativo'

Agora iremos repetir esse processo para todos os grupos: 

In [29]:
amostra1 = df[df.rotulo==1].sample(n=5)
amostra1

Unnamed: 0,tweet,rotulo
797,"Redes Sociais Ciro Gomes Abr/22 a Ago/22 Destaque: Ciro bateu vários recordes em Ago/22! O Twitter, Tiktok e principalmente Instagram explodiram de seguidores nesse último mês! Só digo uma coisa CIRO CRESCE!!",1
3834,"“Qualquer imbecil sabe que Lula e Bolsonaro são pessoas diferentes”, diz Ciro Gomes",1
4089,Vou ali no microondas e apertar 13 pq não aguento mais esperar . LULA EU AUTORIZO #LulaNo1ºTurno,1
1537,"Bolsonaro ligou a metralhadora giratória. Ataca Ciro, ataca Tebet, ataca Lula. Inadmissível o ataque que faz a @veramagalhaes",1
2099,"Deus abençoe presidente @LulaOficial nos pastores evangélicos que não nos corrompemos estamos orando pelo Sr, e o Brasil será feliz de novo . Lula13",1


In [30]:
grupo = vetorizacao[vetorizacao.index.isin(df[df.rotulo==1].index)]
new_predict = kmeans.fit_predict(grupo)
df.loc[df['rotulo'] == 1, 'rotulo'] = new_predict

In [34]:
amostra1 = df[df.rotulo==1].sample(n=5)
amostra1

Unnamed: 0,tweet,rotulo
3130,"Só isso que restou dos 200 anos da Independência,Lula ou Bolsonaro? Não gente, há @cirogomes e @simonetebetbr #3aViaMudaBrasil Pesquisa Senado: aliados de Lula são favoritos em sete estados, e de Bolsonaro, em quatro; veja os números | Pulso | O Globo",1
1605,Opinião - Vinicius Torres Freire: Como Bolsonaro pode encostar em Lula,1
2550,É Lula ou fascismo,1
1527,Lula vs Bolsonaro EM COREANO! #shorts https://youtube.com/shorts/QXSaq7UTcMo?feature=share… via @YouTube,1
3278,Lula é um chefe de quadrilha condenado. Ex-presidiário. Nunca foi inocentado. Fatos são fatos.,1


#### Gerando os arquivos de saída

In [None]:
df.to_csv('../data/postagens_classificadas.csv', index=False)

In [35]:
df2 = pd.DataFrame(data=vetorizacao)
df2['rotulo'] = df['rotulo']
df2.to_csv('../data/vetorizacao_classificada.csv', index=False)