**IA & Big Data**

Prof. Miguel Bozer da Silva - miguel.bozer@senaisp.edu.br

---

In [None]:
# Tratamento dos dados
import numpy as np
import pandas as pd

# Modelos de Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.tree import plot_tree

from sklearn.preprocessing import StandardScaler, MinMaxScaler;

# Métricas de avaliação
from sklearn.metrics import f1_score, roc_auc_score, roc_curve, ConfusionMatrixDisplay, RocCurveDisplay, confusion_matrix, classification_report

# Plot dos gráficos
import matplotlib.pyplot as plt
from matplotlib import colors
import seaborn as sns

# Recebendo os dados:
from googledrivedownloader import download_file_from_google_drive as gdd

Entrada do projeto:

- buying:   vhigh, high, med, low. (Preço de Compra: muito alto - 4, alto - 3, médio - 2  e baixo - 1)
- maint:    vhigh, high, med, low. (Preço da Manutenção: muito alto - 4, alto - 3, médio - 2  e baixo - 1)
- doors:    2, 3, 4, 5more. (nº de portas: 2, 3, 4 e 5 ou mais)
- persons:  2, 4, more. (nº de pessoas: 2, 4 e mais)
- lug_boot: small, med, big. (tamanho do porta malas: pequeno, médio e grande)
- safety:   low, med, high. (segurança estimada do carro: baixo, médio e alto)

Saída do projeto:
- category: unacceptable, acceptable, good, very good  (Categoria/Nível de avaliação: inaceitável, aceitável, bom e muito bom)

# Preparando os dados

## Tarefa #1: Recebendo os dados

In [None]:
# Recebendo os dados:
data_google_id = '17rjbzEXysPt-VObbel0_-6X-5joanODJ'
gdd(file_id=data_google_id,dest_path = './dados.csv', # Faz o download dos dados e salva o mesmo num arquivo nomeado data.csv
showsize = True,
     overwrite=True)

# Armazenandos os dados em um DataFrame
# para receber os dados o sep teve como argumento o valor ','. Isso ocorreu devido a
dados = pd.read_csv("dados.csv", sep = ',')

Downloading 17rjbzEXysPt-VObbel0_-6X-5joanODJ into ./dados.csv... 
128.0 KiB Done.


## Tarefa #2: Analise Exploratória dos Dados

In [None]:
dados.head()

Unnamed: 0.1,Unnamed: 0,buying,maint,doors,persons,lug_boot,safety,category
0,0,4.0,4.0,2,2,0.0,2.0,unacc
1,1,4.0,4.0,2,2,0.0,3.0,unacc
2,2,4.0,4.0,2,2,1.0,1.0,unacc
3,3,4.0,4.0,2,2,1.0,2.0,unacc
4,4,4.0,4.0,2,2,1.0,3.0,unacc


A coluna `Unnamed: 0` tem apenas os números dos index do nosso conjunto de dados. Deveremos remover essa coluna.

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4836 entries, 0 to 4835
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  4836 non-null   int64  
 1   buying      4813 non-null   float64
 2   maint       4819 non-null   float64
 3   doors       4824 non-null   object 
 4   persons     4821 non-null   object 
 5   lug_boot    4815 non-null   float64
 6   safety      4819 non-null   float64
 7   category    4816 non-null   object 
dtypes: float64(4), int64(1), object(3)
memory usage: 302.4+ KB


In [None]:
dados.isnull().sum()

Unnamed: 0,0
Unnamed: 0,0
buying,23
maint,17
doors,12
persons,15
lug_boot,21
safety,17
category,20


Temos colunas do tipo object. Além disso, segunda as informações obtidas do conjunto de dados temos diversas colunas que são categóricas mas que já estão convertidas em valores numéricos. Entretanto teremos que tratar as colunas que estão com valores object.

In [None]:
dados.describe()

Unnamed: 0.1,Unnamed: 0,buying,maint,lug_boot,safety
count,4836.0,4813.0,4819.0,4815.0,4819.0
mean,2417.5,1.947434,2.048558,1.171547,2.428097
std,1396.177281,1.017072,1.018777,0.789985,0.694794
min,0.0,1.0,1.0,0.0,1.0
25%,1208.75,1.0,1.0,1.0,2.0
50%,2417.5,2.0,2.0,1.0,3.0
75%,3626.25,3.0,3.0,2.0,3.0
max,4835.0,4.0,4.0,2.0,3.0


In [None]:
dados['doors'].unique()

array(['2', '3', '4', '5more', nan], dtype=object)

In [None]:
dados['persons'].unique()

array(['2', '4', 'more', nan], dtype=object)

Temos valores nulos no nosso conjunto de dados. Logo DEVEMOS fazer o tratamento disso removendo os valores nulos

Todas as colunas possuem valores na mesma ordem de grandeza. Logo não haverá necessidade de transformar as escalas dos valores de cada coluna.

## Tarefa#3: Tratamento dos dados

Removendo a coluna sem dados informativos:

Removendo os valores nulos:

Avaliando os valores únicos em cada coluna:

Vamos aplicar o One Hot encoding nas colunas `doors` e `persons`:

Agora vamos fazer um drop nas colunas originais com valores do tipo object:

# Aplicando IA aos nossos dados

## Tarefa #1: Dividindo o conjunto de dados (Entrada/Saída e Treinamento/Teste)

## Tarefa #2: Treinando os modelos

## Tarefa #3: Métricas de desempenho do modelo

Obtendo as matrizes de confusão:

Obtendo as métricas:

Podemos perceber que o modelo de arvore de decisão foi o que obteve o melhor desempenho nesse cenário. Entretanto, esse conjunto de dados é um exemplo simples de problema que pode ser resolvido por modelos baseados em árvores. Por isso, ele foi escolhido para essa aula