# 0. Índice <a name="Contents"></a>
1. [Importando bibliotecas](#import)
2. [Carregando o dataframe](#read)
5. [Dados duplicados](#duplicados)
3. [Identificando e Tratando dados ausentes/missing](#identificando)
6. [Dados categorizados](#categorizados)
6. [Separando as variáveis explicativas da target](#separando)
6. [Árvore de classificação com uma variável flag](#1_flag)
6. [Árvore de classificação com 2 variáveis flag](#2_flag)
6. [Árvore de classificação com 1 variável contínua](#1_continua)


# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [9]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.tree import plot_tree
from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfuisonMatrixDisplay

from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score


ImportError: cannot import name 'plot_confusion_matrix' from 'sklearn.metrics' (C:\Users\earap\anaconda3\Lib\site-packages\sklearn\metrics\__init__.py)

# 2. Carregando um dataframe <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
titanic = sns.load_dataset('titanic')
titanic.head()

In [None]:
titanic.info()

In [None]:
titanic.dtypes

# 3. Dados duplicados <a name="duplicados"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
titanic.drop_duplicates()

In [None]:
titanic.shape

In [None]:
titanic = titanic.drop_duplicates()
titanic.shape

In [None]:
titanic.tail()

In [None]:
titanic.reset_index(drop=True, inplace=True)

In [None]:
titanic.tail()

# 4. Identificando e tratando dados ausentes <a name="identificando"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

https://scikit-learn.org/stable/modules/tree.html#id2


A árvore de decisão requer pouca preparação de dados. Outras técnicas geralmente requerem normalização de dados, variáveis fictícias precisam ser criadas e valores em branco precisam ser removidos. Observe, entretanto, que **este módulo não oferece suporte a valores ausentes**.

In [None]:
titanic.isna().sum()

In [None]:
percentage = (titanic.isnull().sum() / len(titanic)) * 100
percentage

In [None]:
# dropar todas as colunas que tenha pelo menos 1 NA
titanic_sem_na = titanic.dropna(axis=1)

In [None]:
titanic_sem_na.head()

In [None]:
titanic_sem_na.shape

In [None]:
titanic_sem_na.info()

# 5. Dados categorizados <a name="categorizados"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

https://scikit-learn.org/stable/modules/tree.html#id2

CART (árvores de classificação e regressão) é muito semelhante a C4.5, mas difere porque oferece suporte a variáveis ​​de destino numéricas (regressão) e não calcula conjuntos de regras. A CART constrói árvores binárias usando o recurso e o limite que geram o maior ganho de informação em cada nó.

scikit-learn usa uma versão otimizada do algoritmo CART; entretanto, a **implementação do scikit-learn não suporta variáveis categorizadas** por enquanto.

In [None]:
titanic_sem_na.head(2)

- **survived** - se o passageiro sobreviveu ou não, ou seja, nossa target
- **pclass** - classe em que o passageiro estava (primeira, segunda, terceira)
- **sex** - genero do passageiro (masculino ou feminino)
- **sibsp** - quantidade de irmãos/esposos/esposas no navio (0 a 8)	
- **parch** - quantidade de pais/filhos a bordo
- **fare** - preço do ticket
- **class** - igual a pclass	
- **who** - se é homem, mulher ou criança
- **adult_male** - se é um homem adulto
- **alive** - igual a survived
- **alone** - se estava sozinho a bordo


## Survived e alive


In [None]:
titanic_sem_na.survived.value_counts()

In [None]:
titanic_sem_na.survived.value_counts(normalize=True)

In [None]:
titanic_sem_na.alive.value_counts()

In [None]:
titanic_sem_na[['alive','survived','sibsp']].groupby(['alive','survived']).count()

In [None]:
titanic_sem_na = titanic_sem_na.drop('alive',axis=1)

## pclass e class

In [None]:
titanic_sem_na['pclass'].unique()

In [None]:
titanic_sem_na['class'].unique()

In [3]:
titanic_sem_na[['pclass','class','sibsp']].groupby(['pclass','class']).count()

NameError: name 'titanic_sem_na' is not defined

In [None]:
titanic_sem_na = titanic_sem_na.drop('pclass',axis=1)

## Outras variáveis

In [None]:
titanic_sem_na['sex'].unique()

In [None]:
titanic_sem_na['sibsp'].unique()

In [None]:
titanic_sem_na['parch'].unique()

In [None]:
titanic_sem_na['who'].unique()

In [None]:
titanic_sem_na[['sex','who','sibsp']].groupby(['sex','who']).count()

In [None]:
titanic_sem_na.head(2)

## Transformando em dummie (flag)

In [None]:
# titanic_encoded = titanic_sem_na.copy()
titanic_encoded = pd.get_dummies(titanic_sem_na, columns=['class','who'], drop_first=True)
titanic_encoded.head(20)

## Mapping

In [None]:
titanic_encoded.sex.unique()

In [None]:
titanic_encoded.sex = titanic_encoded.sex.map({'female': 1, 'male':0})

In [None]:
titanic_encoded.sex.unique()

## Mudando alguns tipos de dados

In [None]:
titanic_encoded.dtypes

In [None]:
titanic_encoded.adult_male.astype(int)

In [None]:
titanic_encoded.adult_male = titanic_encoded.adult_male.astype(int)
titanic_encoded.alone = titanic_encoded.alone.astype(int)

In [None]:
titanic_encoded.dtypes

In [None]:
titanic_encoded.columns

# 6. Separando as variáveis explicativas da target <a name="separando"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
y = titanic_encoded.survived

In [None]:
X = titanic_encoded.drop('survived',axis=1)

# 7. Árvore de classificação com uma variável flag <a name="1_flag"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
clf = DecisionTreeClassifier(random_state=100)
clf

In [None]:
X.head()

## Homem adulto

In [None]:
clf = clf.fit(X[['adult_male']],y)
clf

In [None]:
plt.figure(figsize=(25, 10))
plot_tree(clf,
          filled=True,
          class_names=['Died', 'Survived'],
          feature_names=['adult_male']);

## Fórmula para cálculo do Gini

$$ Gini =  1 - (probabilidade "Sim")^{2} - (probabilidade "Nao")^{2} $$

### Gini da raiz

$$ Gini_{raiz} = 1 - \left(\frac{323}{461+323}\right)^{2} - \left(\frac{461}{461+323}\right)^{2} $$

In [None]:
print('Gini raiz é: ', 1 - (323/(461+323))**2 - (461/(461+323))**2)

### Gini da folha a esquerda

$$ Gini_{folhaesquerda} = 1 - \left(\frac{238}{95+238}\right)^{2} - \left(\frac{95}{95+238}\right)^{2} $$

In [None]:
print('Gini folha esquerda é: ', 1 - (238/(95+238))**2 - (95/(95+238))**2)

### Gini da folha a direita

$$ Gini_{folhadireita} = 1 - \left(\frac{85}{366+85}\right)^{2} - \left(\frac{366}{366+85}\right)^{2} $$

In [None]:
print('Gini folha direita é: ', 1 - (85/(366+85))**2 - (366/(366+85))**2)

In [None]:
 (1/(1+2)) * 0 + (2/(1+2))*0.5 

## 3a classe

In [None]:
clf = clf.fit(X[['class_Third']],y)
clf

In [None]:
plt.figure(figsize=(25, 10))
plot_tree(clf,
          filled=True,
          class_names=['Died', 'Survived'],
          feature_names=['class_Third']);

# 8. Árvore de classificação com 2 variáveis flag <a name="2_flag"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

## Homem adulto e 3a classe

In [None]:
clf = clf.fit(X[['adult_male','class_Third']],y)
clf

In [None]:
plt.figure(figsize=(25, 10))
plot_tree(clf,
          filled=True,
          class_names=['Died', 'Survived'],
          feature_names=['adult_male','class_Third']);

# 9. Árvore de classificação com 1 variável contínua <a name="1_continua"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

### Fare

In [4]:
clf = DecisionTreeClassifier(random_state=100, max_depth=1)
clf

In [5]:
clf = clf.fit(X[['fare']],y)
clf

NameError: name 'X' is not defined

In [None]:
X[['fare']].sort_values('fare')

In [None]:
plt.figure(figsize=(25, 10))
plot_tree(clf,
          filled=True,
          class_names=['Died', 'Survived'],
          feature_names=['fare']);