## Aula 4 | Método Simbólico
<br>

### Árvores de Decisão (Decision Tree)

Modelo utilizado tanto para tarefas de classificação quanto regressão, que prevê classes ou valores de ***Y*** a partir de **decisões simples** inferidas a partir dos dados de treino.

Tudo começa no **nó raiz**, onde é escolhido o **melhor atributo** para dividir os dados. É aplicado um **critério de impureza** para verificar o quão puro é o atributo. O resultado tem que ser um conjunto **homogêneo**.

Após ter selecionado o melhor atributo para **dividir os dados a partir desses critérios**, é feita a divisão em dois outros nós: **verdadeiro** e **falso**. Eles se tornam os **nós de decisão**, e a partir deles é tomado outra decisão.

A partir da decisão, **repete-se o processo recursivamente**.

<br> 

#### Critérios de divisão de nós

Os principais critérios de devisão dos nós são:

* Índice Gini
    - Mede a probabilidade de um elemento ser classificado incorretamente ao ser escolhido aleatoriamente.
<br>
* Qui-Quadrado
    - Mede a diferença entre a distribuição observada e a esperada.
<br>
* Ganho de Informação (Entropia)
    - Mede a quantidade de informação que cada atributo fornece.
<br>  
* Redução na Variância
    - Mede a redução da variância de um nó para outro.


### Aula 4.3 |  Implementando o Modelo


In [3]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split


dados = pd.read_csv('Customer-Churn.csv')
dados.head()

#modificação de forma manual 
traducao_dic = {'Sim': 1, 
                'Nao': 0}

dadosmodificados = dados[['Conjuge', 'Dependentes', 'TelefoneFixo', 'PagamentoOnline', 'Churn']].replace(traducao_dic)
dadosmodificados.head()

#transformação pelo get_dummies
dummie_dados = pd.get_dummies(dados.drop(['Conjuge', 'Dependentes', 'TelefoneFixo', 'PagamentoOnline', 'Churn'],
                axis=1))

#junção dos dados trasformados com os que já tinhamos
dados_final = pd.concat([dadosmodificados, dummie_dados], axis=1)

#Divisão em inputs e outputs
x = dados_final.drop('Churn', axis = 1)
y = dados_final['Churn']

norm = StandardScaler()

X_normalizado = norm.fit_transform(x)
X_normalizado

X_treino, X_teste, y_treino, y_teste = train_test_split(X_normalizado, y, test_size=0.3, random_state=123)


In [1]:
from sklearn.tree import DecisionTreeClassifier

In [2]:
dtc = DecisionTreeClassifier(criterion='entropy', random_state=42)

In [4]:
dtc.fit(X_treino, y_treino)

In [5]:
dtc.feature_importances_

array([0.03168742, 0.01862901, 0.00064085, 0.02675693, 0.0208788 ,
       0.2056003 , 0.29546501, 0.0061786 , 0.00273035, 0.00747536,
       0.        , 0.04908356, 0.        , 0.01609395, 0.        ,
       0.00722833, 0.01220706, 0.        , 0.01248286, 0.01138295,
       0.0006673 , 0.0095669 , 0.01841631, 0.        , 0.00650511,
       0.00385849, 0.        , 0.00666929, 0.00517146, 0.        ,
       0.00665371, 0.00473251, 0.15803541, 0.00348686, 0.01414378,
       0.01601964, 0.01064163, 0.01091026])

In [6]:
predito_ArvoreDecisao = dtc.predict(X_teste)

In [7]:
predito_ArvoreDecisao

array([1, 0, 0, ..., 1, 0, 0], dtype=int64)