# Tutorial de Classifica√ß√£o com Texto

Na √∫ltima aula, vimos como aplicar a regress√£o log√≠stica para a classifica√ß√£o com dados quantitativos. Agora, vamos trabalhar uma classifica√ß√£o de textos utilizando regress√£o log√≠stica. Antes que fa√ßam a classifica√ß√£o, precisamos introduzir duas coisas importantes: Pr√©-processamento de texto e a bag-of-words em Python. Vamos importar alguns pacotes importantes

In [102]:
from sklearn.linear_model import LogisticRegression # Modelo de regress√£o log√≠stica do sklearn
from sklearn.model_selection import train_test_split # Fun√ß√£o para dividir o banco entre treino e teste
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report # Algumas m√©tricas e relat√≥rios

Vamos tamb√©m importar nosso banco de dados final do Github do NUPRAM

In [103]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


url = "https://github.com/NUPRAM/CoViD-Pol/raw/main/Covid-Pol_Corpus_v2.0.csv"

# Carrega o arquivo Excel em um DataFrame
df_ex = pd.read_csv(url)

df_ex.head()

Unnamed: 0.1,Unnamed: 0,id,tweet_id,post_date,content,relevant,final_stance,final_sentiment,final_children
0,0,523,A522,2020-09-15,"A cabe√ßa pensa onde o p√© pisa. Quem governa de dentro do escrit√≥rio com ar-condicionado n√£o conhece o dia-a-dia das escolas em POA. O protocolo de volta √†s aulas de Marchezan, como diz @ProfAlexFraga, √© miser√°vel e coloca a vida de alunos e professores em risco. #SemVacinaSemAula",True,favorable,negative,True
1,1,458,A457,2020-11-20,"Sarto vai fazer um grande Programa de Enfrentamento √† Pandemia, vai garantir a vacina da Covid e muito mais! ü§ù\n\nConfira o programa de hoje: #Fortaleza #CaminhandoJuntos #ComFor√ßaECoragem #Sarto12 #FortalezaCadaVezMelhor #TrabalhoS√©rio",True,favorable,positive,False
2,2,446,A445,2020-12-18,A C√¢mara dos Deputados votou hoje a MP que trata da ades√£o do Brasil √† Alian√ßa de Vacina√ß√£o contra a Covid. O @psol50 encaminhou voto favor√°vel √† vacina. Nosso partido defende que o negacionismo de Bolsonaro √© um projeto de uma sociedade movida pelo √≥dio e precisa ser derrotado.,True,favorable,negative,False
3,3,547,A546,2020-11-10,Tirar Bolsonaro do poder √© uma quest√£o de vida ou morte. Um presidente que impede testes para produ√ß√£o de uma vacina por pura guerra ideol√≥gica e que zomba da dor do povo precisa ser retirado imediatamente do poder. #ForaBolsonaro #impeachmentDeBolsonaro #bolsonarogenocida,True,favorable,negative,False
4,4,848,A847,2020-09-24,"E a LIESA decidiu adiar os desfiles do #CarnavalRJ. Sem data, n√£o d√° para pensar em samb√≥dromo sem a esperada vacina. Agora √© olhar pros profissionais do Carnaval, que precisam de apoio at√© o fim da pandemia. #DelegadaMarthaRocha #CarnavalRiodeJaneiro",True,favorable,negative,False


#### Pr√©-processamento de texto

O pr√©-processamento de texto desempenha um papel cr√≠tico no campo de aprendizado de m√°quina quando voc√™ est√° trabalhando com dados de texto. Essa etapa √© fundamental para garantir que os dados de texto estejam em um formato adequado para serem usados eficazmente em algoritmos de aprendizado de m√°quina. Aqui est√£o algumas das raz√µes pelas quais o pr√©-processamento de texto √© importante:

* Padroniza√ß√£o de Dados: Os dados de texto podem ser altamente vari√°veis, com diferen√ßas na grafia, formata√ß√£o, capitaliza√ß√£o e pontua√ß√£o. O pr√©-processamento ajuda a padronizar os dados, tornando-os consistentes e facilitando o trabalho com eles.

* Remo√ß√£o de Ru√≠dos: Os textos frequentemente cont√™m informa√ß√µes irrelevantes ou ru√≠dos, como caracteres especiais, n√∫meros de telefone, URLs, marca√ß√µes HTML e muito mais. O pr√©-processamento pode ajudar a remover esses ru√≠dos, concentrando-se nas informa√ß√µes textuais essenciais.

* Tokeniza√ß√£o: A tokeniza√ß√£o √© o processo de dividir o texto em unidades menores, chamadas tokens, que geralmente s√£o palavras ou grupos de palavras. Isso √© importante para que o modelo possa entender o texto em n√≠vel de palavra.

* Remo√ß√£o de Stop Words: As "stop words" s√£o palavras comuns, como "a", "o", "de", que n√£o contribuem muito para o significado do texto e podem ser removidas para reduzir a dimensionalidade e a intensidade computacional.

Vamos trabalhar com um tweet aleat√≥rio como exemplo:

In [104]:
import random

random.seed(66) # estabilizando a aleatoriedade

# Primeiro, obtenha o n√∫mero total de tweets no DataFrame
total_tweets = len(df_ex)

# Em seguida, gere um √≠ndice aleat√≥rio entre 0 e o n√∫mero total de tweets - 1
indice_aleatorio = random.randint(0, total_tweets - 1)

# Agora, extraia o tweet correspondente ao √≠ndice aleat√≥rio
tweet_aleatorio = df_ex.loc[indice_aleatorio, 'content']

# Exiba o tweet aleat√≥rio
print(tweet_aleatorio)

Para n√≥s n√£o importa se ser√° chinesa, russa, americana ou europ√©ia, tem quer usada desde que demonstre sua efic√°cia contra a coronav√≠rus. N√£o podemos fazer disso uma guerra pol√≠tica. Mais de 88% dos brasileiros querem a vacina e destacam sua import√¢ncia contra as doen√ßas.


Vamos fazer um pr√©-processamento simples neste tweets. Primeiro, vamos remover os links ao final (Nesse exemplo n√£o tem, mas esse c√≥digo remove):

In [105]:
import re # Biblioteca de regular expressions


# Use uma express√£o regular para encontrar e remover URLs
tweet_sem_links = re.sub(r'https://\S+', '', tweet_aleatorio)

print(tweet_sem_links)

Para n√≥s n√£o importa se ser√° chinesa, russa, americana ou europ√©ia, tem quer usada desde que demonstre sua efic√°cia contra a coronav√≠rus. N√£o podemos fazer disso uma guerra pol√≠tica. Mais de 88% dos brasileiros querem a vacina e destacam sua import√¢ncia contra as doen√ßas.


Agora, vamos remover as quebras de linha ('\n')

In [106]:
tweet_sem_quebra_de_linha = tweet_sem_links.replace('\\n', ' ') # Para remover algo com \, precisamos adicionar duas barras

print(tweet_sem_quebra_de_linha)

Para n√≥s n√£o importa se ser√° chinesa, russa, americana ou europ√©ia, tem quer usada desde que demonstre sua efic√°cia contra a coronav√≠rus. N√£o podemos fazer disso uma guerra pol√≠tica. Mais de 88% dos brasileiros querem a vacina e destacam sua import√¢ncia contra as doen√ßas.


Agora, as hashtags

In [107]:
# Use uma express√£o regular para encontrar hashtags e preservar o texto associado
tweet_sem_hashtags = re.sub(r'#(\w+)', r'\1', tweet_sem_quebra_de_linha)


print(tweet_sem_hashtags)

Para n√≥s n√£o importa se ser√° chinesa, russa, americana ou europ√©ia, tem quer usada desde que demonstre sua efic√°cia contra a coronav√≠rus. N√£o podemos fazer disso uma guerra pol√≠tica. Mais de 88% dos brasileiros querem a vacina e destacam sua import√¢ncia contra as doen√ßas.


Agora, podemos aplicar alguns dos pr√©-processamentos que s√£o comuns a todos os textos, n√£o s√≥ √† tweets:

In [108]:
# Deixar todas as letras min√∫sculas
tweet_min = tweet_sem_hashtags.lower()


#seleciona apenas letras (lembrando que o texto est√° em portugu√™s e as letras possuem acento)
apenas_letras = re.findall(r'[a-z√≠√©√≥√°√™√¢√£√µ√ß]+', tweet_min)


# Juntar o texto, j√° que o .findall separa em tokens
tweet_final = " ".join(apenas_letras)

# Resultado final
print(tweet_final)

para n√≥s n√£o importa se ser√° chinesa russa americana ou europ√©ia tem quer usada desde que demonstre sua efic√°cia contra a coronav√≠rus n√£o podemos fazer disso uma guerra pol√≠tica mais de dos brasileiros querem a vacina e destacam sua import√¢ncia contra as doen√ßas


Ent√£o, dividimos o texto em tokens (pequenos peda√ßos) e geramos o vocabul√°rio

In [109]:
from nltk import word_tokenize # Tokenizador do nltk
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [110]:
# Tokenizando o tweet
tokens = word_tokenize(tweet_final)

tokens

['para',
 'n√≥s',
 'n√£o',
 'importa',
 'se',
 'ser√°',
 'chinesa',
 'russa',
 'americana',
 'ou',
 'europ√©ia',
 'tem',
 'quer',
 'usada',
 'desde',
 'que',
 'demonstre',
 'sua',
 'efic√°cia',
 'contra',
 'a',
 'coronav√≠rus',
 'n√£o',
 'podemos',
 'fazer',
 'disso',
 'uma',
 'guerra',
 'pol√≠tica',
 'mais',
 'de',
 'dos',
 'brasileiros',
 'querem',
 'a',
 'vacina',
 'e',
 'destacam',
 'sua',
 'import√¢ncia',
 'contra',
 'as',
 'doen√ßas']

**Gerando o vocabul√°rio**

Gerar o vocabul√°rio √© uma etapa importante no processamento de linguagem natural (PLN) e, mais especificamente, na cria√ß√£o de modelos de "Bag-of-Words" (BoW) ou "Term Frequency-Inverse Document Frequency" (TF-IDF) para an√°lise de texto. Essa etapa envolve a identifica√ß√£o e cria√ß√£o de um conjunto de todas as palavras √∫nicas (types) que aparecem em um conjunto de documentos, como um corpus ou conjunto de textos. Isso significa que cada palavra diferente, independentemente de quantas vezes ela ocorra, √© considerada uma √∫nica entrada no vocabul√°rio.



In [111]:
# Gerando o vocabul√°rio
Vocab = []
for token in tokens:
    if token not in Vocab:
        Vocab.append(token)

print(Vocab,"\n",len(Vocab))

['para', 'n√≥s', 'n√£o', 'importa', 'se', 'ser√°', 'chinesa', 'russa', 'americana', 'ou', 'europ√©ia', 'tem', 'quer', 'usada', 'desde', 'que', 'demonstre', 'sua', 'efic√°cia', 'contra', 'a', 'coronav√≠rus', 'podemos', 'fazer', 'disso', 'uma', 'guerra', 'pol√≠tica', 'mais', 'de', 'dos', 'brasileiros', 'querem', 'vacina', 'e', 'destacam', 'import√¢ncia', 'as', 'doen√ßas'] 
 39


#### Bag of Words

O "Bag-of-Words" (BoW), em portugu√™s "Saco de Palavras", √© uma t√©cnica fundamental de processamento de linguagem natural (PLN) e an√°lise de texto. Essa abordagem √© usada para representar e analisar documentos de texto, transformando-os em uma estrutura num√©rica que pode ser utilizada por algoritmos de aprendizado de m√°quina e outras t√©cnicas de an√°lise de dados. Aqui est√° uma explica√ß√£o do conceito de BoW:

Defini√ß√£o B√°sica:

O BoW √© uma representa√ß√£o simplificada de um documento de texto que ignora a estrutura gramatical e a ordem das palavras, tratando o texto como uma "sacola" (bag) de palavras.

Processo de Cria√ß√£o:

* Para criar um BoW de um documento, voc√™ primeiro tokeniza o texto, dividindo-o em palavras ou termos individuais.

* Em seguida, voc√™ cria um vocabul√°rio, que √© uma lista de todas as palavras √∫nicas encontradas em um conjunto de documentos (um corpus). Cada palavra √∫nica √© considerada um "token."

* Para cada documento, voc√™ cria um vetor num√©rico que representa a frequ√™ncia ou a presen√ßa/aus√™ncia de cada palavra do vocabul√°rio no documento.

**Representa√ß√£o Num√©rica**:

Existem duas maneiras comuns de representar numericamente um BoW:

* Contagem de Frequ√™ncia (CountVectorizer): Nesta abordagem, cada elemento do vetor representa a contagem de quantas vezes uma palavra espec√≠fica aparece no documento. Por exemplo, se o vocabul√°rio cont√©m as palavras ["gato", "cachorro", "r√°pido"], e o documento √© "O gato √© r√°pido", o vetor BoW seria [1, 0, 1].

* Bin√°rio (BinaryVectorizer): Nesta abordagem, cada elemento do vetor √© 1 se a palavra est√° presente no documento e 0 caso contr√°rio. No exemplo anterior, o vetor BoW seria [1, 0, 1], pois "gato" e "r√°pido" est√£o presentes, mas "cachorro" n√£o est√°.

**Usos do BoW**:

O BoW √© amplamente usado em tarefas de processamento de texto, como classifica√ß√£o de texto, agrupamento de documentos, recupera√ß√£o de informa√ß√µes, an√°lise de sentimentos e muito mais.

Tamb√©m √© usado como entrada para algoritmos de aprendizado de m√°quina, como na Regress√£o Log√≠stica, Naive Bayes e m√°quinas de vetores de suporte (SVM), que n√£o podem trabalhar diretamente com texto, mas podem usar a representa√ß√£o num√©rica do BoW.

**Limita√ß√µes do BoW**:

* O BoW perde informa√ß√µes importantes sobre a ordem das palavras e a estrutura gramatical do texto.

* N√£o leva em considera√ß√£o a sem√¢ntica das palavras; palavras diferentes com significados semelhantes s√£o tratadas como distintas.

* O tamanho do vetor BoW pode ser grande, especialmente em grandes vocabul√°rios, levando a problemas de dimensionalidade (muitas c√©lulas vazias nas colunas).

* N√£o lida bem com palavras raras ou espec√≠ficas do contexto, que podem ser ignoradas ou tratadas como irrelevantes.

Apesar de suas limita√ß√µes, o BoW √© uma t√©cnica valiosa para muitas aplica√ß√µes de PLN e an√°lise de texto, especialmente quando a ordem das palavras n√£o √© cr√≠tica e a representa√ß√£o simples de frequ√™ncia de palavras √© suficiente para a tarefa em quest√£o.

Vamos pegar os dois primeiros tweets do banco para voc√™s terem uma no√ß√£o de como funciona. Vamos tamb√©m limpar o banco de stopwords.

In [112]:
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Vinte primeiras stopwords do portugu√™s no nltk

In [113]:
stopwords.words('portuguese')[:20]

['a',
 '√†',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 '√†s',
 'at√©',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele']

Vamos utilizar esta lista de stopwords para reduzir a dimensionalidade do nosso banco de dados.

In [114]:
# Definindo o dicion√°rio de stop_words
stop_words = stopwords.words('portuguese')

# Importando o Vetorizador do sklearn
from sklearn.feature_extraction.text import CountVectorizer

# Criando o vetorizador, utilizando nossa lista de stop_words
vectorizer = CountVectorizer(stop_words=stop_words,
                             ngram_range=(1,1)) # Palavras ser√£o tratadas individualmente (ngram = 1)

# Transformando as duas primeiras observa√ß√µes da coluna de texto em BOW
X = vectorizer.fit_transform(df_ex['content'].head(2))

print(X.toarray())

[[1 1 1 1 0 1 0 1 1 0 1 2 1 0 1 1 0 0 0 0 1 0 0 1 1 0 1 0 1 1 1 1 1 0 1 1
  1 0 0 1 0 0 0 1 1]
 [0 0 0 0 1 0 1 0 0 1 0 0 0 1 0 0 1 1 1 1 0 1 1 0 0 1 0 1 0 0 0 0 0 2 0 0
  0 1 1 0 1 1 2 0 0]]


In [115]:
df_bow_sklearn = pd.DataFrame(X.toarray())
df_bow_sklearn.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,35,36,37,38,39,40,41,42,43,44
0,1,1,1,1,0,1,0,1,1,0,...,1,1,0,0,1,0,0,0,1,1
1,0,0,0,0,1,0,1,0,0,1,...,0,0,1,1,0,1,1,2,0,0


Vemos que, s√≥ para esses dois tweets, temos muitas colunas representando cada palavra e a contagem da frequ√™ncia delas. Por exemplo, para a palavra 0, ela aparece 1 vez no primeiro tweet (linha 0), e zero vezes no tweet 2 (linha 1). Aqui, podemos ver tamb√©m por que a dimensionalidade pode ser um problema na bag-of-words: Com apenas dois tweets, chegamos em 45 colunas. Com um banco de tweets maior com maior variedade de palavras e vocabul√°rio, o Bag-of-Words pode se tornar gigantesco.

#### Processando nossa coluna de texto

Passamos por alguns exemplos individuais s√≥ para que voc√™s entendessem por cima como funciona o pr√©-processamento do texto e sua posterior transforma√ß√£o em uma Bag-of-Words. Vamos fazer o mesmo e treinar o modelo utilizando o banco completo. Primeiro, vamos remover os tweets que n√£o s√£o relacionados √†s vacinas.

In [133]:
df_ex.head(3)

Unnamed: 0.1,Unnamed: 0,id,tweet_id,post_date,content,relevant,final_stance,final_sentiment,final_children
0,0,523,A522,2020-09-15,"A cabe√ßa pensa onde o p√© pisa. Quem governa de dentro do escrit√≥rio com ar-condicionado n√£o conhece o dia-a-dia das escolas em POA. O protocolo de volta √†s aulas de Marchezan, como diz @ProfAlexFraga, √© miser√°vel e coloca a vida de alunos e professores em risco. #SemVacinaSemAula",1,favorable,negative,True
1,1,458,A457,2020-11-20,"Sarto vai fazer um grande Programa de Enfrentamento √† Pandemia, vai garantir a vacina da Covid e muito mais! ü§ù\n\nConfira o programa de hoje: #Fortaleza #CaminhandoJuntos #ComFor√ßaECoragem #Sarto12 #FortalezaCadaVezMelhor #TrabalhoS√©rio",1,favorable,positive,False
2,2,446,A445,2020-12-18,A C√¢mara dos Deputados votou hoje a MP que trata da ades√£o do Brasil √† Alian√ßa de Vacina√ß√£o contra a Covid. O @psol50 encaminhou voto favor√°vel √† vacina. Nosso partido defende que o negacionismo de Bolsonaro √© um projeto de uma sociedade movida pelo √≥dio e precisa ser derrotado.,1,favorable,negative,False


In [134]:
df_ex2 = df_ex[df_ex['relevant'] == True].reset_index()

df_ex2.head(3)

Unnamed: 0.1,index,Unnamed: 0,id,tweet_id,post_date,content,relevant,final_stance,final_sentiment,final_children
0,0,0,523,A522,2020-09-15,"A cabe√ßa pensa onde o p√© pisa. Quem governa de dentro do escrit√≥rio com ar-condicionado n√£o conhece o dia-a-dia das escolas em POA. O protocolo de volta √†s aulas de Marchezan, como diz @ProfAlexFraga, √© miser√°vel e coloca a vida de alunos e professores em risco. #SemVacinaSemAula",1,favorable,negative,True
1,1,1,458,A457,2020-11-20,"Sarto vai fazer um grande Programa de Enfrentamento √† Pandemia, vai garantir a vacina da Covid e muito mais! ü§ù\n\nConfira o programa de hoje: #Fortaleza #CaminhandoJuntos #ComFor√ßaECoragem #Sarto12 #FortalezaCadaVezMelhor #TrabalhoS√©rio",1,favorable,positive,False
2,2,2,446,A445,2020-12-18,A C√¢mara dos Deputados votou hoje a MP que trata da ades√£o do Brasil √† Alian√ßa de Vacina√ß√£o contra a Covid. O @psol50 encaminhou voto favor√°vel √† vacina. Nosso partido defende que o negacionismo de Bolsonaro √© um projeto de uma sociedade movida pelo √≥dio e precisa ser derrotado.,1,favorable,negative,False


Vamos ver como ficou a distribui√ß√£o das classes de posicionamento

In [135]:
df_ex2['final_stance'].value_counts()

Unnamed: 0_level_0,count
final_stance,Unnamed: 1_level_1
favorable,4645
unclear,1065
unfavorable,236


Vamos transformar os dados um pouco e transformar a coluna de posicionamento em uma coluna de apenas duas classes, juntando favor√°veis e unclear.

In [138]:
# Por fim, vamos criar uma condi√ß√£o que transforma a tarefa de classifica√ß√£o em uma classifica√ß√£o bin√°ria.

def condicao(x):
    if x == 'favorable':
        return 0 # Favor√°vel = 0
    elif x == 'unclear':
        return 0 # Unclear tamb√©m = 0
    else:
        return 1


df_ex2['final_stance_dummy'] = df_ex2['final_stance'].apply(condicao)


# Imprimindo o banco final

df_ex2.head(3)


Unnamed: 0.1,index,Unnamed: 0,id,tweet_id,post_date,content,relevant,final_stance,final_sentiment,final_children,final_stance_dummy
0,0,0,523,A522,2020-09-15,"A cabe√ßa pensa onde o p√© pisa. Quem governa de dentro do escrit√≥rio com ar-condicionado n√£o conhece o dia-a-dia das escolas em POA. O protocolo de volta √†s aulas de Marchezan, como diz @ProfAlexFraga, √© miser√°vel e coloca a vida de alunos e professores em risco. #SemVacinaSemAula",1,favorable,negative,True,0
1,1,1,458,A457,2020-11-20,"Sarto vai fazer um grande Programa de Enfrentamento √† Pandemia, vai garantir a vacina da Covid e muito mais! ü§ù\n\nConfira o programa de hoje: #Fortaleza #CaminhandoJuntos #ComFor√ßaECoragem #Sarto12 #FortalezaCadaVezMelhor #TrabalhoS√©rio",1,favorable,positive,False,0
2,2,2,446,A445,2020-12-18,A C√¢mara dos Deputados votou hoje a MP que trata da ades√£o do Brasil √† Alian√ßa de Vacina√ß√£o contra a Covid. O @psol50 encaminhou voto favor√°vel √† vacina. Nosso partido defende que o negacionismo de Bolsonaro √© um projeto de uma sociedade movida pelo √≥dio e precisa ser derrotado.,1,favorable,negative,False,0


Checando o resultado

In [120]:
df_ex2['final_stance_dummy'].value_counts()

Unnamed: 0_level_0,count
final_stance_dummy,Unnamed: 1_level_1
0,5710
1,252


Agora, vamos criar uma nova coluna de texto pr√©-processada como fizemos anteriormente.

In [121]:
# Criando uma fun√ß√£o de pr√©-processamento

def preprocess_text(texto):
    # Use uma express√£o regular para encontrar e remover URLs
    texto = re.sub(r'https://\S+', '', texto)

    # Remover quebra de linha
    texto = texto.replace('\\n', ' ')

    # Remover Hashtags
    texto = re.sub(r'#(\w+)', r'\1', texto)

    # Deixar todas as letras min√∫sculas
    texto = texto.lower()

    # Selecionar apenas letras
    texto = re.findall(r'[a-z√©√≥√°√™√¢√£√µ√ß]+', texto)

    # Juntar o texto, j√° que o .findall separa em tokens
    texto = " ".join(texto)

    return texto

# Criando a nova coluna transformada
df_ex2["texto_processado"] = df_ex2['content'].apply(preprocess_text)

pd.set_option('display.max_colwidth', None) # Para mostrar a coluna inteira

# Imprimindo
df_ex2[['content','texto_processado']]

Unnamed: 0,content,texto_processado
0,"A cabe√ßa pensa onde o p√© pisa. Quem governa de dentro do escrit√≥rio com ar-condicionado n√£o conhece o dia-a-dia das escolas em POA. O protocolo de volta √†s aulas de Marchezan, como diz @ProfAlexFraga, √© miser√°vel e coloca a vida de alunos e professores em risco. #SemVacinaSemAula",a cabe√ßa pensa onde o p√© pisa quem governa de dentro do escrit√≥rio com ar condicionado n√£o conhece o dia a dia das escolas em poa o protocolo de volta s aulas de marchezan como diz profalexfraga √© miser√°vel e coloca a vida de alunos e professores em risco semvacinasemaula
1,"Sarto vai fazer um grande Programa de Enfrentamento √† Pandemia, vai garantir a vacina da Covid e muito mais! ü§ù\n\nConfira o programa de hoje: #Fortaleza #CaminhandoJuntos #ComFor√ßaECoragem #Sarto12 #FortalezaCadaVezMelhor #TrabalhoS√©rio",sarto vai fazer um grande programa de enfrentamento pandemia vai garantir a vacina da covid e muito mais confira o programa de hoje fortaleza caminhandojuntos comfor√ßaecoragem sarto fortalezacadavezmelhor trabalhos√©rio
2,A C√¢mara dos Deputados votou hoje a MP que trata da ades√£o do Brasil √† Alian√ßa de Vacina√ß√£o contra a Covid. O @psol50 encaminhou voto favor√°vel √† vacina. Nosso partido defende que o negacionismo de Bolsonaro √© um projeto de uma sociedade movida pelo √≥dio e precisa ser derrotado.,a c√¢mara dos deputados votou hoje a mp que trata da ades√£o do brasil alian√ßa de vacina√ß√£o contra a covid o psol encaminhou voto favor√°vel vacina nosso partido defende que o negacionismo de bolsonaro √© um projeto de uma sociedade movida pelo √≥dio e precisa ser derrotado
3,Tirar Bolsonaro do poder √© uma quest√£o de vida ou morte. Um presidente que impede testes para produ√ß√£o de uma vacina por pura guerra ideol√≥gica e que zomba da dor do povo precisa ser retirado imediatamente do poder. #ForaBolsonaro #impeachmentDeBolsonaro #bolsonarogenocida,tirar bolsonaro do poder √© uma quest√£o de vida ou morte um presidente que impede testes para produ√ß√£o de uma vacina por pura guerra ideol√≥gica e que zomba da dor do povo precisa ser retirado imediatamente do poder forabolsonaro impeachmentdebolsonaro bolsonarogenocida
4,"E a LIESA decidiu adiar os desfiles do #CarnavalRJ. Sem data, n√£o d√° para pensar em samb√≥dromo sem a esperada vacina. Agora √© olhar pros profissionais do Carnaval, que precisam de apoio at√© o fim da pandemia. #DelegadaMarthaRocha #CarnavalRiodeJaneiro",e a liesa decidiu adiar os desfiles do carnavalrj sem data n√£o d√° para pensar em samb√≥dromo sem a esperada vacina agora √© olhar pros profissionais do carnaval que precisam de apoio at√© o fim da pandemia delegadamartharocha carnavalriodejaneiro
...,...,...
5957,Iniciou hoje a segunda etapa da Campanha Nacional de Vacina√ß√£o contra a Gripe. As 134 salas de vacina abertas da @saudepoa passam a atender todos os grupos priorit√°rios. A Campanha vai at√© 31 de maio e a meta √© imunizar 90% da popula√ß√£o alvo. https://t.co/MPQLqylOlX,iniciou hoje a segunda etapa da campanha nacional de vacina√ß√£o contra a gripe as salas de vacina abertas da saudepoa passam a atender todos os grupos priorit√°rios a campanha vai at√© de maio e a meta √© imunizar da popula√ß√£o alvo
5958,"DEGRADA√á√ÉO DA SA√öDE P√öBLICA\nFalta de vacina e rem√©dios, atendimento prec√°rio, falta de m√©dico, UBSs sem m√©dico. √â a SP de Bruno Covas e Doria https://t.co/e4x910naUM",degrada√ß√£o da sa de p blica falta de vacina e rem√©dios atendimento prec√°rio falta de m√©dico ubss sem m√©dico √© a sp de bruno covas e doria
5959,"A vacina est√° dispon√≠vel para pessoas a partir dos 60 anos, crian√ßas at√© 6 anos, gestantes ou mulheres que pariram recentemente e portadores de algumas doen√ßas cr√¥nicas como hipertens√£o e diabetes. #vacinanatal #prefeiturapresente #DiaD https://t.co/OlikUWfbIp",a vacina est√° dispon vel para pessoas a partir dos anos crian√ßas at√© anos gestantes ou mulheres que pariram recentemente e portadores de algumas doen√ßas cr nicas como hipertens√£o e diabetes vacinanatal prefeiturapresente diad
5960,"üì≤LIVE DE SEXTA\nQuer tirar d√∫vidas sobre a Gripe H1N1? Acompanhe nossa LIVE de Sexta com a presen√ßa da Dra. Marina Roriz, m√©dica infectologista. E saiba mais sobre nossas a√ß√µes do mandato.\n#CampanhaDeVacina√ß√£o #H1N1 https://t.co/6AJiS8XBMY",live de sexta quer tirar d vidas sobre a gripe h n acompanhe nossa live de sexta com a presen√ßa da dra marina roriz m√©dica infectologista e saiba mais sobre nossas a√ß√µes do mandato campanhadevacina√ß√£o h n


Ufa, estamos quase l√°. Agora, vamos pegar essa coluna de texto como array e transformar ela em uma bag-of-words

In [122]:
# Criando o vetorizador, utilizando nossa lista de stop_words
vectorizer = CountVectorizer(stop_words=stop_words,
                             ngram_range=(1,1)) # Palavras ser√£o tratadas individualmente (ngram = 1)

# Transformando a coluna de texto em BOW
X = vectorizer.fit_transform(df_ex2['texto_processado'])

# Imprimindo as primeiras cinco linhas
print(X.toarray()[:5])

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


Vamos ver como ficou o resultado final

In [123]:
df2_bow_sklearn = pd.DataFrame(X.toarray())
df2_bow_sklearn.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15410,15411,15412,15413,15414,15415,15416,15417,15418,15419
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Observe o tamanho da bag-of-words, temos 15420 palavras diferentes!! Depois de todo esse processo, podemos treinar o modelo da forma como vimos anteriormente. Vamos pegar nossa coluna de features (a bag-of-words) e nossa coluna de labels (positions_vac).

In [124]:
texto = df_ex2['texto_processado']
posicionamento_dummy = df_ex2['final_stance_dummy']


## Classifica√ß√£o com Regress√£o Log√≠stica

Agora que temos o texto posicionado, vamos trabalhar com a classifica√ß√£o de relev√¢ncia com rela√ß√£o √†s vacinas de COVID-19. Antes de fazermos a transforma√ß√£o do array "texto" para o modelo BOW, precisamos separar, primeiro, entre treino e teste. Isso evita problemas de *data leakage*, garantindo a confiabilidade dos nossos resultados. Assim como fiz com posicionamento, vou reconfigurar tamb√©m os valores de relevance para que sejam 0 ou 1.

In [139]:
df_rel = df_ex

df_rel.head(3)

Unnamed: 0.1,Unnamed: 0,id,tweet_id,post_date,content,relevant,final_stance,final_sentiment,final_children
0,0,523,A522,2020-09-15,"A cabe√ßa pensa onde o p√© pisa. Quem governa de dentro do escrit√≥rio com ar-condicionado n√£o conhece o dia-a-dia das escolas em POA. O protocolo de volta √†s aulas de Marchezan, como diz @ProfAlexFraga, √© miser√°vel e coloca a vida de alunos e professores em risco. #SemVacinaSemAula",1,favorable,negative,True
1,1,458,A457,2020-11-20,"Sarto vai fazer um grande Programa de Enfrentamento √† Pandemia, vai garantir a vacina da Covid e muito mais! ü§ù\n\nConfira o programa de hoje: #Fortaleza #CaminhandoJuntos #ComFor√ßaECoragem #Sarto12 #FortalezaCadaVezMelhor #TrabalhoS√©rio",1,favorable,positive,False
2,2,446,A445,2020-12-18,A C√¢mara dos Deputados votou hoje a MP que trata da ades√£o do Brasil √† Alian√ßa de Vacina√ß√£o contra a Covid. O @psol50 encaminhou voto favor√°vel √† vacina. Nosso partido defende que o negacionismo de Bolsonaro √© um projeto de uma sociedade movida pelo √≥dio e precisa ser derrotado.,1,favorable,negative,False


In [140]:
def condicao(x):
    if x == True:
        return 1
    elif x == False:
        return 0
    else:
        return 0


df_rel['relevant'] = df_rel['relevant'].apply(condicao)

In [141]:
df_rel['relevant'].value_counts()

Unnamed: 0_level_0,count
relevant,Unnamed: 1_level_1
1,5962
0,3283


Temos uma situa√ß√£o aqui muito mais balanceada que Posicionamento. Vamos dividir agora entre treino e teste.

In [144]:
X = df_rel['content']
relevance = df_rel['relevant']

X_treino, X_teste, y_treino, y_teste = train_test_split(X, # Vetor de vari√°veis explicativas
                                                        relevance, # Target (Ou Var. Dep.)
                                                        test_size=0.2, # Porcentagem que vai ficar para teste (20%)
                                                        random_state=42) # Seed para garantir a estabilidade dos resultados

Vamos ver como ficou a distribui√ß√£o das classes dentro dos bancos de treino e teste

In [147]:
y_treino.value_counts(normalize = True)

Unnamed: 0_level_0,proportion
relevant,Unnamed: 1_level_1
1,0.642645
0,0.357355


In [148]:
y_teste.value_counts(normalize = True)

Unnamed: 0_level_0,proportion
relevant,Unnamed: 1_level_1
1,0.653867
0,0.346133


Temos uma distribui√ß√£o bem parecida em ambos os bancos, ent√£o n√£o teremos muitos problemas de diferen√ßa entre eles. vamos transformar o texto de treinamento em BOW.

In [149]:
# Criando o vetorizador, utilizando nossa lista de stop_words
vectorizer = CountVectorizer(stop_words=stop_words,
                             ngram_range=(1,1)) # Palavras ser√£o tratadas individualmente (ngram = 1)

# Transformando a coluna de texto em BOW
X_treino = vectorizer.fit_transform(X_treino)

# Imprimindo as primeiras cinco linhas
X_treino.toarray()[:5]

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

Para transformar o X_teste √© pouco diferente, usaremos o vectorizer.transform, um m√©todo diferente para que n√£o haja data leakage.

In [150]:
X_teste = vectorizer.transform(X_teste)

# Imprimindo as primeiras cinco linhas
X_teste.toarray()[:5]

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

Vamos instanciar nosso modelo de Regress√£o Log√≠stica

In [154]:
model = LogisticRegression(max_iter=1_000, solver="lbfgs")



E trein√°-lo utilizando nosso banco de treinamento

In [155]:
  modelo.fit(X_treino, y_treino)

E fazemos as previs√µes no banco de teste

In [156]:
y_pred = modelo.predict(X_teste)

y_pred

array([1, 0, 1, ..., 0, 1, 1])

In [157]:
rel_class = classification_report(y_teste, y_pred)

print(f"Relat√≥rio de Classifica√ß√£o:\n{rel_class}")

Relat√≥rio de Classifica√ß√£o:
              precision    recall  f1-score   support

           0       0.92      0.93      0.93       640
           1       0.97      0.96      0.96      1209

    accuracy                           0.95      1849
   macro avg       0.94      0.95      0.95      1849
weighted avg       0.95      0.95      0.95      1849



Ov