# Análise de texto de fontes desestruturadas e Web

## Aula 10

Nesta aula vamos fazer nossa primeira aplicação prática de Machine Learning.

A biblioteca utilizada será a **scikit-learn**.

Para conhecer mais sobre ela, acesse https://scikit-learn.org/stable/tutorial/basic/tutorial.html

## Baixar os dados no Colab
Para baixar os dados no colab, utilize

In [None]:
!wget https://atd-insper.s3.us-east-2.amazonaws.com/aula10/noticias.csv
!wget https://atd-insper.s3.us-east-2.amazonaws.com/aula10/noticias.xlsx

## Importando as bibliotecas necessárias

Agora, vamos importar as bibliotecas necessárias:

In [1]:
# para trabalhar com diretórios / sistema operacional
import os

# para trabalhar com expressões regulares
import re

# utilizada para nos indicar o caminho do executável do Python
import sys

# para pandas DataFrame
import pandas as pd

# ML
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


Caso obtenha algum erro, utilize o **!pip install** para instalar a biblioteca ausente!

Você pode conferir de onde está executando o Python e qual a versão

In [2]:
print('Executável:')
print(sys.executable)

print('\nVersão do Python:')
print(sys.version)

Executável:
/home/calebe/anaconda3/envs/atd/bin/python

Versão do Python:
3.8.16 (default, Jan 17 2023, 23:13:24) 
[GCC 11.2.0]


Vamos conferir em qual diretório iremos trabalhar (é o diretório do notebook)

In [3]:
print('O seu notebook está na pasta:')
print(os.getcwd())

O seu notebook está na pasta:
/home/calebe/Dropbox/insper/23_1/atd/aulas/aula10/notebooks


# Carregando os dados

Vamos abrir os dados que estão armazenados em planilhas. Você pode escolher a versão CSV ou XLSX

In [4]:
df = pd.read_csv('noticias.csv')

Caso prefira utilizar a versão Excel, abra com

In [None]:
df = pd.read_excel('noticias.xlsx')

Vamos ver o que temos armazenado no DataFrame?!

In [5]:
df.head(3)

Unnamed: 0,Secao,Titulo,Descrição,Data
0,politica,Novas parcelas do auxílio emergencial ganham f...,A possibilidade de convocação de sessão legisl...,13/01/2021 09:08
1,economia,Café arábica recua de máxima de 4 anos na ICE;...,NOVA YORK/LONDRES (Reuters) – Os contratos fut...,07/05/2021 19:09
2,economia,Milho e soja tocam máximas de vários anos em C...,Por Tom Polansek CHICAGO (Reuters) – Preocupaç...,07/05/2021 18:11


Quantas notícias temos ao todo?

In [6]:
df.shape

(600, 4)

Quantas seções de notícias temos? E quantas notícias por seção?

In [17]:
df['Secao'].value_counts()

politica      200
economia      200
tecnologia    200
Name: Secao, dtype: int64

# Separando em Treino e Teste

Para simular uma situação real de uso do classificador e termos uma ideia de como o classificador se sairá em um uso futuro, iremos dividir nossa base de dados em duas, utilizando uma base para treinar o modelo e outra base para avaliar o desempenho do modelo treinado.

A separação da base de dados em conjuntos de treino e teste é uma etapa essencial no processo de modelagem em machine learning. Ela permite avaliar a capacidade do modelo em generalizar os padrões aprendidos durante o treinamento para novos dados, ou seja, dados que ele nunca viu antes.

Vamos utilizar uma funcionalidade 

In [8]:
X_train, X_test, y_train, y_test = train_test_split(df['Titulo'].to_frame(), df['Secao'], test_size=0.25)

In [9]:
X_train

Unnamed: 0,Titulo
430,Apple planeja investir US$ 430 bilhões nos EUA...
89,"Rio flexibiliza medidas contra Covid, libera p..."
231,Keiko Fujimori se aproxima de Castillo após de...
168,"IGP-DI de abril tem alta de 2,22%, ante 2,17% ..."
456,Preços futuros de carne suína despencam 7% na ...
...,...
426,Grupo de hacker português reivindica ataque a ...
376,Queiroga pede voto de confiança aos senadores ...
298,Bolsonaro instiga policiais contra a imprensa:...
40,Fuga de vários leopardos causa pânico em parqu...


Ao utilizar um conjunto de dados de **treino** para **ajustar** o modelo e um conjunto de **teste** para **avaliar sua performance**, é possível identificar possíveis problemas de overfitting, onde o modelo se ajusta demais aos dados de treino e perde sua capacidade de generalização. Com isso, é possível escolher o melhor modelo para a tarefa em questão e ter mais confiança na sua capacidade de prever novos resultados com precisão.

## Engenharia de Features

Não vamos utilizar direto o título para treino de um modelo. A partir do título, iremos criar variáveis com o uso de expressões regulares.

In [10]:
X_train['supremo'] = X_train['Titulo'].str.contains('STF|[Ss]upremo')
X_train['mercado'] = X_train['Titulo'].str.contains('[mM]ercado')
X_train['agric']   = X_train['Titulo'].str.contains('[tT]rigo|[sSoja]|[mMilho]|[lLeite]')
X_train['cripto']  = X_train['Titulo'].str.contains('[cC]ripto')

X_test['supremo'] = X_test['Titulo'].str.contains('STF|[Ss]upremo')
X_test['mercado'] = X_test['Titulo'].str.contains('[mM]ercado')
X_test['agric']   = X_test['Titulo'].str.contains('[tT]rigo|[sSoja]|[mMilho]|[lLeite]')
X_test['cripto']  = X_test['Titulo'].str.contains('[cC]ripto')

Nas próximas aulas, iremos ver novas formas de realizar esta etapa.

Vamos remover a coluna de **Título** dos dados de treinamento

In [11]:
X_train = X_train.drop('Titulo', axis=1)
X_test  = X_test.drop('Titulo', axis=1)

Então, os dados de treinamento ficarão assim

In [12]:
X_train

Unnamed: 0,supremo,mercado,agric,cripto
430,False,False,True,False
89,False,False,True,False
231,False,False,True,False
168,False,False,True,False
456,False,False,True,False
...,...,...,...,...
426,False,False,True,False
376,False,False,True,False
298,False,False,True,False
40,False,False,True,False


In [None]:
y_train

## Criando o classificador
Primeiro, vamos utilizar um **DecisionTreeClassifier**. Veja mais em https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

In [13]:
dt = DecisionTreeClassifier()

Para treiná-lo, basta fazer:

In [14]:
dt.fit(X_train, y_train)

In [15]:
y_train

430    tecnologia
89     tecnologia
231      economia
168      economia
456      economia
          ...    
426      politica
376      politica
298      politica
40       economia
156    tecnologia
Name: Secao, Length: 450, dtype: object

## Base de testes
Agora, vamos ver a performance na base de testes

In [16]:
y_pred = dt.predict(X_test)
accuracy_score(y_true=y_test, y_pred=y_pred)

0.3

# Exercícios
**Exercício 1)** Pesquise sobre matriz de confusão. Gere a matriz de confusão do modelo em questão.

Dica: acesse o ChatGPT ou o https://chatbot.theb.ai/ e pergunte:
- Pergunta 1:
```
O que é matriz de confusão em Machine Learning?
```

- Pergunta 2:
```
Dado este código:
y_pred = dt.predict(X_test)
accuracy_score(y_true=y_test, y_pred=y_pred)
como calcular uma matriz de confusão em python?
```

- Pergunta 3:
```
como plotar a matriz de confusão com seaborn?
```


- Pergunta 4:
```
mas como eu instalo seaborn a partir de um jupyter notebook?
```

**Exercício 2)** Analise a acurácia e a matriz de confusão. Você considera que o classificador teve uma boa performance? Justifique.

**Exercício 3)** Desenhe, com o graphviz, a árvore de decisão treinada por seu classificador.

**Exercício 4)** Seja criativo e crie novas *features* utilizando expressões regulares. Confira a performance do classificador

**Exercício 5)** Considerando a versão atualizada dos dados (feito no exercício 4), verifique a performance de outros modelos. Algumas sugestões:

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html


**Exercício 6)** Suponha que nosso problema fosse de regressão ao invés de classificação. Faria sentido utilizar a Acurácia como métrica de erro?

**Exercício 7)** Você teria outras sugestões para melhorar a acurácia do seu classificador?