# Árvore de decisão

### Base de dados: Clima-Nominal

Ilustra o funcionamento do algoritmo de árvore de decisão com dados nominais.

Este notebook foi desenvolvido para o ambiente GOOGLE COLAB ([colab.research.google.com](https://colab.research.google.com)).

Prof. Cristiano Carvalho

-------------------------------------------------------------------------------

WEATHER.NOMINAL, Weka

http://storm.cis.fordham.edu/~gweiss/data-mining/datasets.html

DESCRIÇÃO DOS ATRIBUTOS:

1. Aparência {Ensolarado, Nublado, Chuvoso}
2. Temperatura {Quente, Moderado, Frio}
3. Umidade {Alta, Normal}
4. Vento {Fraco, Forte}
5. Jogar {Sim, Não}


### UPLOAD DE ARQUIVO LOCAL:

Para fazer o upload de bases de dados, deve-se usar o objeto ```files``` do pacote ```goggle.colab```.

Deve-se fazer o upload do arquivo "train.csv" disponível na pasta "Datasets\Titanic".

```Se você quiser um botão pra fazer upload do arquivo direto no notebook
#  from google.colab import files
#  uploaded = files.upload()
#  df = pd.read_csv(next(iter(uploaded.keys())))
```

``` Se quiser ler de uma pasta que ja está salva no seu gdrive
#  from google.colab import drive
#  drive.mount('/content/drive')
#  df = pd.read_excel('/content/drive/My Drive/arquivo.xlsx', sheet_name=0)
```



### Inicialização da plataforma do Colab.

Essa seção instala e carrega os pacotes necessários para a execução do código.

In [41]:
%%capture
!pip install dtreeviz

In [42]:
import pandas as pd

# pip install -U scikit-learn

from sklearn.tree import DecisionTreeClassifier #DecisionTreeRegressor 
from sklearn.model_selection import train_test_split

In [43]:
# Truque pra baixar direto pelo link
download_url = 'https://drive.google.com/uc?export=download&id='
url_drive_file = 'https://docs.google.com/spreadsheets/d/1MYGsc8B_vW-nHYhsu4Q1A\
gCt_FV6NrPx/edit?usp=sharing&ouid=114919786921075985733&rtpof=true&sd=true'

download_path = download_url + url_drive_file.split('/')[-2]

clima_nominal = pd.read_excel(download_path, sheet_name=0)

clima_nominal

Unnamed: 0,Aparência,Temperatura,Umidade,Vento,Jogar
0,Ensolarado,Quente,Alta,Fraco,Não
1,Ensolarado,Quente,Alta,Forte,Não
2,Nublado,Quente,Alta,Fraco,Sim
3,Chuvoso,Moderado,Alta,Fraco,Sim
4,Chuvoso,Frio,Normal,Fraco,Sim
5,Chuvoso,Frio,Normal,Forte,Não
6,Nublado,Frio,Normal,Forte,Sim
7,Ensolarado,Moderado,Alta,Fraco,Não
8,Ensolarado,Frio,Normal,Fraco,Sim
9,Chuvoso,Moderado,Normal,Fraco,Sim


In [44]:
X = clima_nominal.loc[:, clima_nominal.columns != "Jogar"]
y = clima_nominal["Jogar"]

In [45]:
X.shape[0] # 14 linhas

14

## Utilizando train_test_split duas vezes

In [46]:
# Separando 20% para base isolada de Teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1) 

X_test.shape[0]

3

In [47]:
 # Utilizando os 80% restantes na base de treino para redividir em Treino e Validação. 
 # Neste caso usarei 25% pra validação simplesmente por que quero manter os 20% da base original, ou seja 0.25 * 0.80 = 0.20 
 # Mas não precisa se preocupar com essa exatidão de percentuais. Pode seguir a divisão que jultar interessante.

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=1)

In [48]:
X_val.shape[0]

3

In [49]:
# Agora basta seguir seus experimentos utilizando sempre Treino vs Validação (X_train e X_val).
# Quando terminar de fazer vários experimentos com parâmetros e algoritmos diferentes, aí sim, 
# você faz um último teste com a base intocada X_test pra ter uma chance melhor de detectar 
# algum víes ou overfitting gerado durante todo treino e validação

In [50]:
X_train.shape[0]

8

In [51]:
X_val.shape[0]

3

In [52]:
X_test.shape[0]

3

## Utilizando pandas sample

In [53]:
# Ainda teria a opção de usar o pandas sample antes de dividir a base com train_test_split

X_test = X.sample(frac=0.2,random_state=1)
y_test = y[X_test.index]
X_test.shape[0], y_test.shape[0]

(3, 3)

In [54]:
X_restante = X[~X.index.isin(X_test.index)]
y_restante = y[X_restante.index]
X_restante.shape[0], y_restante.shape[0]

(11, 11)

In [55]:
X_train, X_val, y_train, y_val = train_test_split(X_restante, y_restante, test_size=0.25, random_state=1) 

In [56]:
X_train.shape[0]

8

In [57]:
X_val.shape[0]

3

In [58]:
X_test.shape[0]

3