# Etapa 1 - Ajustada (v02)

In [2]:
import pandas as pd

df = pd.read_csv('dataset/articles.csv', encoding='utf8')
print('linhas, colunas):', df.shape)

df.head()

linhas, colunas): (167053, 6)


Unnamed: 0,title,text,date,category,subcategory,link
0,"Lula diz que está 'lascado', mas que ainda tem...",Com a possibilidade de uma condenação impedir ...,2017-09-10,poder,,http://www1.folha.uol.com.br/poder/2017/10/192...
1,"'Decidi ser escrava das mulheres que sofrem', ...","Para Oumou Sangaré, cantora e ativista malines...",2017-09-10,ilustrada,,http://www1.folha.uol.com.br/ilustrada/2017/10...
2,Três reportagens da Folha ganham Prêmio Petrob...,Três reportagens da Folha foram vencedoras do ...,2017-09-10,poder,,http://www1.folha.uol.com.br/poder/2017/10/192...
3,Filme 'Star Wars: Os Últimos Jedi' ganha trail...,A Disney divulgou na noite desta segunda-feira...,2017-09-10,ilustrada,,http://www1.folha.uol.com.br/ilustrada/2017/10...
4,CBSS inicia acordos com fintechs e quer 30% do...,"O CBSS, banco da holding Elopar dos sócios Bra...",2017-09-10,mercado,,http://www1.folha.uol.com.br/mercado/2017/10/1...


### Ajustando Dataset para aprendizado

In [3]:
print('Linhas:', len(df))

df.drop_duplicates(subset=['text'], inplace=True)
print('Removendo duplicadas em "text":', len(df))

df.drop(['subcategory', 'link', 'date'], axis=1, inplace=True)
print('Removendo subcategoria')

df.dropna(inplace=True)
print('Removendo nulos:', len(df))

df.reset_index(drop=True, inplace=True)
print('Resetando index')

df.head()

Linhas: 167053
Removendo duplicadas em "text": 165902
Removendo subcategoria
Removendo nulos: 165901
Resetando index


Unnamed: 0,title,text,category
0,"Lula diz que está 'lascado', mas que ainda tem...",Com a possibilidade de uma condenação impedir ...,poder
1,"'Decidi ser escrava das mulheres que sofrem', ...","Para Oumou Sangaré, cantora e ativista malines...",ilustrada
2,Três reportagens da Folha ganham Prêmio Petrob...,Três reportagens da Folha foram vencedoras do ...,poder
3,Filme 'Star Wars: Os Últimos Jedi' ganha trail...,A Disney divulgou na noite desta segunda-feira...,ilustrada
4,CBSS inicia acordos com fintechs e quer 30% do...,"O CBSS, banco da holding Elopar dos sócios Bra...",mercado


### Conversão de 'categorias' em campos categorizados

In [4]:
# conversão de 'categorias' para campos categorizados
df['category'].value_counts()

category
poder                           22005
colunas                         21499
mercado                         20936
esporte                         19723
mundo                           17123
cotidiano                       16952
ilustrada                       15604
opiniao                          4523
paineldoleitor                   4008
saopaulo                         3953
tec                              2205
educacao                         2113
tv                               2065
turismo                          1902
ilustrissima                     1377
ciencia                          1331
equilibrioesaude                 1311
sobretudo                        1052
bbc                               979
folhinha                          875
empreendedorsocial                841
comida                            828
asmais                            547
ambiente                          490
seminariosfolha                   378
serafina                          331
o-m

In [5]:
df['category'] = df['category'].replace('guia-de-livros-discos-filmes', 'guia-de-livros-filmes-discos')
alvo, valores = pd.factorize(df['category'], sort=True)
df['target'] = alvo
list(enumerate(valores))

[(0, 'ambiente'),
 (1, 'asmais'),
 (2, 'banco-de-dados'),
 (3, 'bbc'),
 (4, 'bichos'),
 (5, 'cenarios-2017'),
 (6, 'ciencia'),
 (7, 'colunas'),
 (8, 'comida'),
 (9, 'cotidiano'),
 (10, 'dw'),
 (11, 'educacao'),
 (12, 'empreendedorsocial'),
 (13, 'equilibrioesaude'),
 (14, 'especial'),
 (15, 'esporte'),
 (16, 'euronews'),
 (17, 'folhinha'),
 (18, 'guia-de-livros-filmes-discos'),
 (19, 'ilustrada'),
 (20, 'ilustrissima'),
 (21, 'infograficos'),
 (22, 'mercado'),
 (23, 'mulher'),
 (24, 'multimidia'),
 (25, 'mundo'),
 (26, 'o-melhor-de-sao-paulo'),
 (27, 'ombudsman'),
 (28, 'opiniao'),
 (29, 'paineldoleitor'),
 (30, 'poder'),
 (31, 'rfi'),
 (32, 'saopaulo'),
 (33, 'seminariosfolha'),
 (34, 'serafina'),
 (35, 'sobretudo'),
 (36, 'tec'),
 (37, 'topofmind'),
 (38, 'treinamento'),
 (39, 'treinamentocienciaesaude'),
 (40, 'turismo'),
 (41, 'tv'),
 (42, 'vice')]

### Realizando treinamento com SKLearn ML Clássico

In [6]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

cVec = CountVectorizer()
X = cVec.fit_transform(df['text'].values)

tfid = TfidfTransformer()
X = tfid.fit_transform(X)
print('X:',X.shape)

y = df['target'].values

X: (165901, 342236)


In [7]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import SGDClassifier, RidgeClassifier

classificador = [
    MultinomialNB(),
    SGDClassifier(),
    RidgeClassifier()
]

import warnings
from tqdm.notebook import tqdm
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score, accuracy_score, balanced_accuracy_score

warnings.filterwarnings('ignore')

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

res = []
for c in tqdm(classificador):
  c.fit(X_train, y_train)
  y_pred = c.predict(X_test)

  dn = {
      'metodo':c.__class__.__name__,
      'acurárica':accuracy_score(y_test, y_pred),
      'bal_acc':balanced_accuracy_score(y_test, y_pred),
      'f1':f1_score(y_test, y_pred,average='macro'),
  }
  res.append(dn)

rdf = pd.DataFrame(res)

warnings.filterwarnings('default')

  0%|          | 0/3 [00:00<?, ?it/s]

In [8]:
rdf

Unnamed: 0,metodo,acurárica,bal_acc,f1
0,MultinomialNB,0.643893,0.137882,0.13405
1,SGDClassifier,0.812393,0.336234,0.359898
2,RidgeClassifier,0.850577,0.390959,0.419633
