In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report, accuracy_score
from sklearn.model_selection import train_test_split

df = pd.read_csv("noticias.csv")

print(df.head())

        categoria                                             titulo  \
0  entretenimento  Conheça hotel de luxo em Portugal onde Ivete S...   
1  entretenimento  Sidney Magal é transferido para hospital de SP...   
2  entretenimento  Amigo do ator Jeff Machado é o principal suspe...   
3  entretenimento  Susana Vieira detona final de sua personagem e...   
4  entretenimento  Virada Cultural em SP começa com diversidade d...   

             fonte  
0   Jornal Correio  
1        Jovem Pan  
2  Band Jornalismo  
3       Metrópoles  
4               G1  


In [2]:
# Lista de stop words em português
stop_words_pt = [
    'a', 'à', 'às', 'agora', 'aí', 'ali', 'ao', 'aos', 'aquela', 'aquelas', 'aquele',
    'aqueles', 'aquilo', 'as', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas',
    'dele', 'deles', 'depois', 'do', 'dos', 'e', 'ela', 'elas', 'ele', 'eles', 'em',
    'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está',
    'estamos', 'estão', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'estes',
    'eu', 'foi', 'fomos', 'foram', 'fosse', 'fui', 'há', 'isso', 'isto', 'já', 'lá',
    'lhe', 'lhes', 'mais', 'mas', 'me', 'mesmo', 'meu', 'meus', 'minha', 'minhas',
    'muita', 'muitas', 'muito', 'muitos', 'na', 'nas', 'não', 'nem', 'no', 'nos',
    'nossa', 'nossas', 'nosso', 'nossos', 'num', 'numa', 'o', 'os', 'ou', 'para',
    'pela', 'pelas', 'pelo', 'pelos', 'por', 'qual', 'quando', 'que', 'quem',
    'se', 'seja', 'sejam', 'sem', 'será', 'serão', 'serei', 'seria', 'seu', 'seus',
    'só', 'somos', 'sou', 'sua', 'suas', 'também', 'te', 'tem', 'temos', 'tenha',
    'ter', 'teu', 'teus', 'tinha', 'tínhamos', 'toda', 'todas', 'todo', 'todos',
    'tu', 'tua', 'tuas', 'um', 'uma', 'você', 'vocês', 'vos'
]

# Pré-processar os textos (vetorização) com stop words em português
vectorizer = TfidfVectorizer(stop_words=stop_words_pt, max_df=0.5, max_features=10000)
X = vectorizer.fit_transform(df['titulo'])
y = df['categoria']

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar um modelo de classificação (Naive Bayes)
modelo = MultinomialNB()
modelo.fit(X_train, y_train)

# Avaliar o modelo
y_pred = modelo.predict(X_test)
print("Acurácia:", accuracy_score(y_test, y_pred))
print("Relatório de Classificação:\n", classification_report(y_test, y_pred))

Acurácia: 0.8421455938697318
Relatório de Classificação:
                       precision    recall  f1-score   support

              brasil       0.77      0.85      0.81      1184
ciência e tecnologia       0.89      0.84      0.86       647
      entretenimento       0.85      0.90      0.87      1265
            esportes       0.92      0.97      0.95      1456
               mundo       0.80      0.65      0.72       748
            negócios       0.81      0.85      0.83       950
               saúde       0.83      0.34      0.48       275

            accuracy                           0.84      6525
           macro avg       0.84      0.77      0.79      6525
        weighted avg       0.84      0.84      0.84      6525



In [3]:
# Fazer previsões com novos textos em português
novos_textos = [
    "A nova missão espacial foi um grande sucesso.",
    "A política econômica do país precisa de reformas.",
    "O novo filme de ficção científica é incrível.",
    "A tecnologia está avançando rapidamente na área de inteligência artificial."
]
novos_textos_vec = vectorizer.transform(novos_textos)
previsoes = modelo.predict(novos_textos_vec)

print("Categorias previstas:", previsoes)

Categorias previstas: ['ciência e tecnologia' 'negócios' 'entretenimento' 'ciência e tecnologia']
