In [56]:
# Perform the necessary imports for pre processing
import pandas as pd
from nltk.corpus import stopwords
import string
import numpy as np

# Perform the necessary imports to build ML model
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.model_selection import train_test_split
# tokeniza, retira pontuação, retira stopwords
from sklearn.feature_extraction.text import CountVectorizer
# modelo
from sklearn.naive_bayes import MultinomialNB
# metricas
from sklearn import metrics



In [57]:
df = pd.DataFrame(data=[
    ['Chegada do coronavírus desafia o sistema brasileiro de saúde', 'saude publica'],
    ['Mundo se mobiliza por uma vacina contra o Covid-19, o novo coronavírus', 'saude publica'],
    ['Coronavírus: Segundo caso do Brasil é confirmado em São Paulo', 'saude publica'],
    ['Multidão no Irã ateia fogo em hospital que atende pacientes com coronavírus', 'saude publica'],
    ['Paciente com suspeita de coronavírus morre em Nova Friburgo (RJ)', 'saude publica'],
    ['Coronavírus: Itália registra 29 mortes e 1.049 casos confirmados', 'saude publica'],
    ['“Não há chá milagroso”, avisa infectologista sobre coronavírus', 'saude publica'],
    ['É fake! Loló e cocaína não curam coronavírus', 'saude publica'],
    ['Coronavírus: OMS reclassifica ameaça global para “muito elevada”', 'saude publica'],

    ['Apaixonado por carnaval, passista de quase 80 anos busca o samba todos os sábados no Centro de Florianópolis', 'carnaval'],
    ['Quarto suspeito de matar homem após festa de carnaval em União é preso', 'carnaval'],
    ['"TUDO OK": veja o passo a passo da coreografia do hit do carnaval', 'carnaval'],
    ['Blocos líricos se reúnem para desfile de despedida do carnaval em Olinda', 'carnaval'],
    ['Monobloco desfila neste domingo de pós-carnaval no Rio; veja lista completa', 'carnaval'],
    ['Anitta, a sensação deste Carnaval, desfilará em seu bloco no centro do Rio', 'carnaval'],
    ['Acabou o Carnaval: 10 frases para voltar ao trabalho depois do feriado', 'carnaval'],
    ['Este desafio de inglês será fácil para quem entende de Carnaval', 'carnaval'],
    ['Estas são as dicas para uma folia de Carnaval sem erros, segundo professor', 'carnaval'],
], columns=['text', 'tipo_noticia'])

df

Unnamed: 0,text,tipo_noticia
0,Chegada do coronavírus desafia o sistema brasi...,saude publica
1,Mundo se mobiliza por uma vacina contra o Covi...,saude publica
2,Coronavírus: Segundo caso do Brasil é confirma...,saude publica
3,Multidão no Irã ateia fogo em hospital que ate...,saude publica
4,Paciente com suspeita de coronavírus morre em ...,saude publica
5,Coronavírus: Itália registra 29 mortes e 1.049...,saude publica
6,"“Não há chá milagroso”, avisa infectologista s...",saude publica
7,É fake! Loló e cocaína não curam coronavírus,saude publica
8,Coronavírus: OMS reclassifica ameaça global pa...,saude publica
9,"Apaixonado por carnaval, passista de quase 80 ...",carnaval


In [58]:
stop_words = stopwords.words('portuguese')


In [59]:
X_train, X_test, y_train, y_test = train_test_split(
    df.text.values, df.tipo_noticia, test_size=.3)

count_vect = CountVectorizer(stop_words=stop_words)
X_train_counts = count_vect.fit_transform(X_train)
X_train_counts.shape



(12, 76)

In [60]:
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
X_train_tfidf.shape



(12, 76)

In [61]:
clf = MultinomialNB().fit(X_train_tfidf, y_train)


In [62]:


def get_prediction_for(model, docs):
    X_counts = count_vect.transform(docs)
    X_tfidf = tfidf_transformer.transform(X_counts)

    return model.predict(X_tfidf)



In [63]:
new_docs = ['Bolsonaro é alfinetado em desfile de escolas de samba no Rio', # carnaval
            'Gripe matou 37 pessoas no Distrito Federal em 2019', # saude publica
            'Coronavírus: estados estudam suspender cirurgias e tratamentos', # saude publica
            'Megablocos concentram público e patrocínio e encarecem carnaval de SP', # carnaval
            'Com superlotação, Hospital de Santa Maria restringe atendimentos', # saude publica
            'Fantasias indígenas e com referências à África levantam debate no Carnaval', # carnaval
            'Brasileiros sequenciam genoma do coronavírus em 48 horas', # saude publica
            'Brasil confirma segundo caso de coronavírus, também em São Paulo', # saude publica
            'Não vai pular Carnaval? Estes serão ótimos dias para procurar emprego', # carnaval
            'Brasil tem 252 casos suspeitos de coronavírus e dois confirmados'] # saude publica
y_test_pred = get_prediction_for(clf, X_test)
y_new_pred = get_prediction_for(clf, new_docs)


In [64]:

pd.DataFrame(data={'text': X_test, 'label': y_test, 'predicted': y_test_pred}, columns=['text', 'label', 'predicted'])


Unnamed: 0,text,label,predicted
14,"Anitta, a sensação deste Carnaval, desfilará e...",carnaval,carnaval
13,Monobloco desfila neste domingo de pós-carnava...,carnaval,carnaval
6,"“Não há chá milagroso”, avisa infectologista s...",saude publica,saude publica
2,Coronavírus: Segundo caso do Brasil é confirma...,saude publica,saude publica
17,Estas são as dicas para uma folia de Carnaval ...,carnaval,carnaval
10,Quarto suspeito de matar homem após festa de c...,carnaval,carnaval


In [65]:
metrics.confusion_matrix(y_test, y_test_pred, labels=np.unique(df.tipo_noticia))

array([[4, 0],
       [0, 2]])

In [66]:
pd.DataFrame(data={'text': new_docs, 'predicted': y_new_pred}, columns=['text', 'predicted'])

Unnamed: 0,text,predicted
0,Bolsonaro é alfinetado em desfile de escolas d...,carnaval
1,Gripe matou 37 pessoas no Distrito Federal em ...,saude publica
2,Coronavírus: estados estudam suspender cirurgi...,saude publica
3,Megablocos concentram público e patrocínio e e...,carnaval
4,"Com superlotação, Hospital de Santa Maria rest...",saude publica
5,Fantasias indígenas e com referências à África...,carnaval
6,Brasileiros sequenciam genoma do coronavírus e...,saude publica
7,"Brasil confirma segundo caso de coronavírus, t...",saude publica
8,Não vai pular Carnaval? Estes serão ótimos dia...,carnaval
9,Brasil tem 252 casos suspeitos de coronavírus ...,saude publica
