## Treinando o classificador e classificando novos documentos

Este é o passo quatro do processo de classificação de textos

In [4]:
import psycopg2
import pandas as pd
from modulos.file import cleaner

con = psycopg2.connect(host='localhost', database='topicos_ii', user='postgres', password='postgres')
df = pd.read_sql_query("select * from database_text",con=con)

In [5]:
# Determina que o DataFrame terá apenas as colunas 'classe' e 'narrativa'

col = ['classe', 'narrativa']
df = df[col]

df = df[pd.notnull(df['narrativa'])] # Elimina linhas onde narrativa seja null
df.columns = ['classe', 'narrativa']
df['categoria_id'] = df['classe'].factorize()[0]
categoria_id_df = df[['classe', 'categoria_id']].drop_duplicates().sort_values('categoria_id')
categoria_para_id = dict(categoria_id_df.values)
id_para_categoria = dict(categoria_id_df[['categoria_id', 'classe']].values)

In [6]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC

X_train, X_test, y_train, y_test = train_test_split(df['narrativa'], df['classe'], random_state = 0)
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(X_train)
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

clf = MultinomialNB().fit(X_train_tfidf, y_train)
clfLSVC = LinearSVC().fit(X_train_tfidf, y_train)

In [7]:
texto = texto = "escol part vai vot câm nest quartaest prev quartaf paut câm deput vot projet lei escol part pl comiss espec cri avali projet vai vot parec rela deput flav pscsp apresent text substitu oit projet discorr sobr temá tramit conjunto propost prev cad sal aul ca (...)"
print(clf.predict(count_vect.transform([texto])))
print(clfLSVC.predict(count_vect.transform([texto])))

['educacao']
['educacao']


In [8]:
texto = "ano nov vem aíam vc sent paz vc faz saúd depend algum hábit quer permit permit sent nov sab nov am nov corp nov boc nov emoç paixõesp velh além histór"
print(clf.predict(count_vect.transform([texto])))
print(clfLSVC.predict(count_vect.transform([texto])))

['saude']
['saude']


In [9]:
texto = "ney franc destac evoluç goi turn prev jog dur contr ponte vid goi mud complet turn ganh atléticog oit rod tim esmeraldin som prim vitór campeonat brasil aind amarg zon rebaix pont atrás líd fortal fic derrot pont pret campinasnest sext venc macac olímp ver (...)"
print(clf.predict(count_vect.transform([texto])))
print(clfLSVC.predict(count_vect.transform([texto])))

['esporte']
['esporte']


In [10]:
texto = 'Cumprindo tabela na Série B, Guarani busca recuperar o "bom" futebol e o caminho da vitória Equipe, que não vence a cinco jogos, terá três alterações para o duelo com o Coritiba'
texto, x = cleaner(texto)
print(clf.predict(count_vect.transform([texto])))
print(clfLSVC.predict(count_vect.transform([texto])))

['esporte']
['esporte']


In [11]:
texto = 'As igrejas tem buscado desenvolver a religiosidade das pessoas'
texto, x = cleaner(texto)
print(clf.predict(count_vect.transform([texto])))
print(clfLSVC.predict(count_vect.transform([texto])))

['religiao']
['religiao']


In [12]:
texto = 'As eleições presidenciais de 2018 foram acirradas as pessoas votaram com muita convicção em seus candidatos. Os ânimos estavam exaltados e muitas confusões se sucederam'
texto, x = cleaner(texto)
print(clf.predict(count_vect.transform([texto])))
print(clfLSVC.predict(count_vect.transform([texto])))

['politica']
['politica']


In [13]:
texto = 'Um dos canais para o cidadão entrar em contato com a Ouvidoria é o Disque Saúde 136, onde o usuário pode manifestar suas reclamações, sugestões e elogios, além de solicitar informações sobre saúde, doenças, medicamentos e campanhas realizadas pelo Ministério da Saúde.'
texto,x = cleaner(texto)
print(clf.predict(count_vect.transform([texto])))
print(clfLSVC.predict(count_vect.transform([texto])))


['saude']
['saude']


In [14]:
texto = 'Recebi um telefonema que dizia ser do Portal Educação. Dizia que tinha sido sorteada para um curso dcapacitaçapo Que tinha suido a secretaria de ensino. Depois de muita insistência, aceitei. Depois descobri que podia ser [Editado pelo Reclame Aqui] e quus cancelar. Só que tento falar com a atendente Luany Gabrieli de Souza E ela nao retorna .Falei com o site do portal educaçao e disseram q nap tinha cadastro lá. E tem tambem a mundial editora. Só que com eles eu já resolvi ,graças a Deus. Tenho cadastro ou nao ? Sofri [Editado pelo Reclame Aqui] ?'
texto,x = cleaner(texto)
print(clf.predict(count_vect.transform([texto])))
print(clfLSVC.predict(count_vect.transform([texto])))

['educacao']
['educacao']


In [27]:
texto = 'jones'
texto,x = cleaner(texto)
print(clf.predict(count_vect.transform([texto])))
print(clfLSVC.predict(count_vect.transform([texto])))

['esporte']
['esporte']
