# **PROJETO DE ENCERRAMENTO DE CURSO**

##### **ALUNA:** NAYARA BRITO ALMEIDA VALEVSKII  |  **TURMA:** 109  |  **CURSO:** DATA SCIENCE

_________________________________________________________________________________________________________________________________________________

#### O PROJETO CONSISTE EM ANALISAR DUAS BASES DE DADOS DO TWITTER, DO PRESIDENTE LUIZ INÁCIO LULA DA SILVA E DO EX-PRESIDENTE JAIR MESSIAS BOLSONARO.

**OBJETIVO:** 
- Criar um modelo de aprendizado de máquina para identificar se um tweet foi feito por Jair Bolsonaro (direita) ou Luiz Inácio Lula da Silva (esquerda), com base nas informações coletadas dos DataFrames.

_________________________________________________________________________________________________________________________________________________

# **CRIANDO UM MODELO DE APRENDIZADO DE MAQUINA**

**Foi proposto um DESAFIO de criar um modelo de aprendizado de maquina, que fosse capaz de identificar se uma "fala", "texto", seria de orientação política de ESQUERDA ou DIREITA, com base nos dataframe do Presidente Lula e do Ex-Presidente Bolsonaro.**

> **LULA (ESQUERDA)**

> **BOLSONARO (DIREITA)**

**IMPORTAÇÃO DAS BIBLIOTECAS.**

In [2]:
import pandas as pd #Importa a biblioteca pandas com um alias 'pd', frequentemente usada para manipulação e análise de dados tabulares.
from sklearn.model_selection import train_test_split #Importa o Módulo do scikit-learn para seleção de modelos e avaliação de desempenho.
from sklearn.feature_extraction.text import CountVectorizer #Importa o Módulo para extração de características de texto para modelos de aprendizado de máquina.
from sklearn.naive_bayes import MultinomialNB #Importa o Módulo para implementação de algoritmos de classificação Naive Bayes.
from sklearn.metrics import accuracy_score #Importa o Módulo para métricas de avaliação de modelos de aprendizado de máquina, como acurácia.

**LENDO OS ARQUIVOS E CRIANDO O DATAFRAME**

In [3]:
#Lendo arquivos
df_bolsonaro = pd.read_json('jairbolsonaro.json')
df_lula = pd.read_json('LulaOficial.json')


#Criando dataframe
df = [df_bolsonaro, df_lula]
nome = ['bolsonaro', 'lula']

**O CÓDIGO ABAIXO COMBINA OS DATAFRAMES DF_LULA E DF_BOLSONARO EM UM ÚNICO DATAFRAME CHAMADO DF, UTILIZANDO A FUNÇÃO PD.CONCAT(). O ARGUMENTO IGNORE_INDEX=True REINDEXA AS LINHAS DO NOVO DATAFRAME RESULTANTE, GARANTINDO UMA INDEXAÇÃO CONTÍNUA. ISSO CRIA UM ÚNICO CONJUNTO DE DADOS QUE INCLUI INFORMAÇÕES DE AMBOS OS DATAFRAMES FILTRADOS, FACILITANDO A ANÁLISE CONJUNTA.**

In [4]:
df = pd.concat([df_lula, df_bolsonaro], ignore_index=True)

**DEFINE AS CLASSES (RÓTULOS) PARA OS TWEETS ATRAVÉS DA CRIAÇÃO DE UMA COLUNA 'CLASS' NO DATAFRAME 'DF', ATRIBUINDO 'ESQUERDA' PARA OS TWEETS DE LULA E 'DIREITA' PARA OS TWEETS DE BOLSONARO.**

In [5]:
df['class'] = ['esquerda'] * len(df_lula) + ['direita'] * len(df_bolsonaro)

**DIVIDE O DATAFRAME EM CONJUNTOS DE TREINAMENTO E TESTE UTILIZANDO A FUNÇÃO train_test_split() DA BIBLIOTECA sklearn.model_selection. OS ARRANJOS X_train E y_train CONTERÃO OS DADOS DE TREINAMENTO, ENQUANTO X_test E y_test CONTERÃO OS DADOS DE TESTE. O ARGUMENTO test_size=0.2 ESPECIFICA A PROPORÇÃO DE DADOS PARA O CONJUNTO DE TESTE, E random_state=42 DEFINE UMA SEMENTE PARA ALEATORIEDADE, ASSEGURANDO REPRODUTIBILIDADE**

In [6]:
X_train, X_test, y_train, y_test = train_test_split(df['full_text'], df['class'], test_size=0.2, random_state=42)

**CRIA UMA MATRIZ DE FREQUÊNCIA DE PALAVRAS UTILIZANDO O CountVectorizer DA BIBLIOTECA sklearn.feature_extraction.text. OS ARRANJOS X_train_vectorized E X_test_vectorized CONTÊM AS REPRESENTAÇÕES VETORIAIS DAS PALAVRAS NOS CONJUNTOS DE TREINAMENTO E TESTE, RESPECTIVAMENTE. O vetorizador É AJUSTADO AOS DADOS DE TREINAMENTO COM fit_transform() E APLICADO AOS DADOS DE TESTE COM transform().**

In [7]:
vectorizer = CountVectorizer()
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

**TREINE UM MODELO NAIVE BAYES UTILIZANDO O MultinomialNB() DA BIBLIOTECA sklearn.naive_bayes. O MODELO É TREINADO NOS DADOS DE TREINAMENTO REPRESENTADOS PELA MATRIZ DE FREQUÊNCIA DE PALAVRAS X_train_vectorized E SUAS RESPECTIVAS CLASSES y_train COM O MÉTODO fit().**

In [8]:
model = MultinomialNB()
model.fit(X_train_vectorized, y_train)

**REALIZE PREVISÕES NO CONJUNTO DE TESTE UTILIZANDO O MODELO TREINADO COM O MÉTODO predict(). AS PREDIÇÕES SÃO ARMAZENADAS NA VARIÁVEL 'predictions'.**

In [9]:
predictions = model.predict(X_test_vectorized)

**CALCULE A ACURÁCIA DO MODELO UTILIZANDO A FUNÇÃO accuracy_score() DA BIBLIOTECA sklearn.metrics.**

In [10]:
accuracy = accuracy_score(y_test, predictions)
print(f'Acurácia do modelo: {accuracy:.2f}')

Acurácia do modelo: 0.94


## **TESTANDO O MODELO**

>O CÓDIGO DEMONSTRA A UTILIZAÇÃO DO MODELO TREINADO PARA FAZER PREVISÕES EM NOVOS TWEETS. OS TWEETS SÃO REPRESENTADOS VETORIALMENTE E AS CLASSES PREDITAS SÃO IMPRESSAS PARA CADA TWEET.

>NESTE EXEMPLO, O MODELO FAZ PREVISÕES SOBRE A CLASSE (RÓTULO) POLÍTICA DE CADA TWEET COM BASE NAS PALAVRAS UTILIZADAS NOS TEXTOS. CADA TWEET É ASSOCIADO A UMA CLASSE PREVISTA, QUE PODE SER "ESQUERDA" OU "DIREITA".

In [14]:
# Exemplo de previsão
new_tweets = [
    "Vamos lutar por um Brasil melhor!",
    "Sou contra a familia tradicional pois essa é uma instituicao falida",
    "Sou a favor da familia tradicional, pois ensina boas condutas",
    "Segurança pública é nossa prioridade.",
    "Trabalho e emprego para todos",
    "Liberdade economica para o pais"
]

new_tweets_vectorized = vectorizer.transform(new_tweets)
predicted_classes = model.predict(new_tweets_vectorized)

for tweet, predicted_class in zip(new_tweets, predicted_classes):
    print(f'Tweet: {tweet}')
    print(f'Predicted Class: {predicted_class}')
    print()

Tweet: Vamos lutar por um Brasil melhor!
Predicted Class: esquerda

Tweet: Sou contra a familia tradicional pois essa é uma instituicao falida
Predicted Class: esquerda

Tweet: Sou a favor da familia tradicional, pois ensina boas condutas
Predicted Class: direita

Tweet: Segurança pública é nossa prioridade.
Predicted Class: direita

Tweet: Trabalho e emprego para todos
Predicted Class: esquerda

Tweet: Liberdade economica para o pais
Predicted Class: direita

