# **Classificador de Notícias com IA**
**<h3>Aluno: Antonio Vinicius Vieira Sousa</h3>**

O objetivo deste trabalho é criar um modelo de IA para classificação de noticias de acordo com a categoria

O dataset utilizado: <a href="https://www.kaggle.com/datasets/diogocaliman/notcias-publicadas-no-brasil">Historico_de_materias</a>


<h2>Instalação e importação de pacotes</h2>

  Nesse trabalho vamos utilizar as blibliotecas pandas, nltk e scikit-learn.

In [2]:
!pip install pandas nltk scikit-learn



Imports e downloads necessários

In [15]:
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
import string

from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier


# Download dos recursos do NLTK e instanciar o stemmer
nltk.download('punkt_tab')
nltk.download('stopwords')

stemmer = PorterStemmer()

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


<h2>Preprocessamento dos dados</h2>
Carregar o dataset

In [4]:
# Carregar o dataset
dataframe = pd.read_csv('/content/Historico_de_materias.csv')

dataframe.head()  # Visualizar o dataset


Unnamed: 0,data,url_noticia,url_noticia_curto,titulo,conteudo_noticia,assunto
0,2014-01-25,https://web.archive.org/web/20140125123631/htt...,http://g1.globo.com/economia/noticia/2014/01/m...,"Mesmo com alta do dólar, gastos de brasileiros...","\n\tA alta de 15% no dólar em 2013, a maior do...",economia
1,2014-01-25,https://web.archive.org/web/20140125123631/htt...,http://g1.globo.com/economia/noticia/2014/01/p...,"Para Dilma, é 'apressada' a tese de que emerge...",\n\tA presidente Dilma Rousseff afirmou nesta ...,economia
2,2014-01-25,https://web.archive.org/web/20140125123631/htt...,http://g1.globo.com/economia/noticia/2014/01/t...,"Temos sido capazes de reduzir a inflação', diz...","\n\tO presidente do Banco Central, Alexandre T...",economia
3,2014-01-25,https://web.archive.org/web/20140125123631/htt...,http://g1.globo.com/economia/noticia/2014/01/g...,Governo argentino autoriza compra de dólares a...,\n\tO governo argentino anunciou nesta sexta-f...,economia
4,2014-01-25,https://web.archive.org/web/20140125123631/htt...,http://g1.globo.com/economia/noticia/2014/01/p...,Petrobras desiste de parte da área de Bem-te-v...,\n\tA Petrobras afirmou que propôs à Agência N...,economia


Definir os dados a serem usados

In [16]:
# Eliminar linhas que possuem atributos conteudo_noticia, titulo ou assunto vazios
dataframe.dropna(subset=['titulo', 'conteudo_noticia', 'assunto'], inplace=True)

# Definir conteúdo a ser usado
dataframe['conteudo'] = dataframe['titulo'] + ' ' + dataframe['conteudo_noticia']

# Definir categorias
categorias = pd.Categorical(dataframe['assunto'])

print(categorias.categories) # Visualizar categorias
stop_words = set(stopwords.words('portuguese')) # Definir stopwords
dataframe[['conteudo', 'assunto']].head() # Visualizar dataframe

Index(['economia', 'esportes', 'famosos', 'politica', 'tecnologia'], dtype='object')


Unnamed: 0,conteudo,assunto
0,"Mesmo com alta do dólar, gastos de brasileiros...",economia
1,"Para Dilma, é 'apressada' a tese de que emerge...",economia
2,"Temos sido capazes de reduzir a inflação', diz...",economia
3,Governo argentino autoriza compra de dólares a...,economia
4,Petrobras desiste de parte da área de Bem-te-v...,economia


Limpeza dos dados

In [17]:
# Definir a função de pré-processamento
def preprocess(text):
    tokens = word_tokenize(text.lower())  # Tokenizar o texto
    words = [ token for token in tokens if token.isalpha() ] # Remover pontuação e números
    words = [ word for word in words if word not in stop_words ]  # Remover stopwords
    word_stems = [ stemmer.stem(word) for word in words ]  # Radicalizar as palavras
    return ' '.join(word_stems)

# Aplicar a função de pré-processamento
dataframe['conteudo_processado'] = dataframe['conteudo'].apply(preprocess)

dataframe[['conteudo_processado', 'assunto']].head() # Visualizar dataframe

Unnamed: 0,conteudo_processado,assunto
0,alta dólar gasto brasileiro exterior batem rec...,economia
1,dilma tese emergent perderão dinamismo preside...,economia
2,sido capaz reduzir inflação diz tombini davo p...,economia
3,governo argentino autoriza compra dólare apó q...,economia
4,petrobra desist part área amplia carcará petro...,economia


<h2>Definir e treinar a IA</h2>

Dividir o conjunto de dados entre teino e teste

Vetorizar os dados de entrada

Definir e treinar o classificador(clf)

In [19]:
# Separar os dados em variáveis de entrada (x) e saída (y)
x = dataframe['conteudo_processado']  # Conteúdo
y = categorias.codes  # Categorias

# Dividir os dados em conjuntos de treino(80%) e teste(20%)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# Ajustar e transformar os dados
vectorizer = TfidfVectorizer() # Vetorizador TF-IDF
x_train_tfidf = vectorizer.fit_transform(x_train) # Dados de treino
x_test_tfidf = vectorizer.transform(x_test) # Dados de teste


# Treinar o classificador
clf = LinearSVC() # Definir o classicador
#clf = MultinomialNB() # Definir o classicador
#clf = KNeighborsClassifier(n_neighbors=5) # Definir o classicador
#clf = RandomForestClassifier(n_estimators=100) # Definir o classicador

clf.fit(x_train_tfidf, y_train) # Treinar

<h2>Avaliar desempenho</h2>

Previsão do conjunto de testes

Avaliar o desempenho de acordo com os resultados

In [20]:
# Fazer previsões no conjunto de teste
y_pred = clf.predict(x_test_tfidf)

# Avaliar o desempenho do modelo
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred, target_names=list(categorias.categories))

print(f'Acurácia: {accuracy:.4f}')
print('Relatório de Classificação:')
print(report)

Acurácia: 0.9797
Relatório de Classificação:
              precision    recall  f1-score   support

    economia       0.97      0.93      0.95       331
    esportes       0.99      1.00      1.00      1215
     famosos       0.99      0.97      0.98       105
    politica       0.93      0.98      0.95       243
  tecnologia       0.96      0.94      0.95       127

    accuracy                           0.98      2021
   macro avg       0.97      0.96      0.97      2021
weighted avg       0.98      0.98      0.98      2021

