# 0. Índice <a name="Contents"></a>
1. [Importando bibliotecas](#import)
2. [Carregando o dataframe](#read)
5. [Dados duplicados](#duplicados)
3. [Identificando e Tratando dados ausentes/missing](#identificando)
6. [Dados categorizados](#categorizados)
6. [Separando as variáveis explicativas da target](#separando)
6. [Árvore de classificação com todas as variáveis](#arvore)
6. [Separando entre treino e teste](#treino_teste)
6. [Post pruning](#post)


# 1. Importando bibliotecas <a name="import"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.tree import plot_tree
from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay

from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score


ImportError: cannot import name 'plot_confusion_matrix' from 'sklearn.metrics' (C:\Users\earap\anaconda3\Lib\site-packages\sklearn\metrics\__init__.py)

# 2. Carregando um dataframe <a name="read"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
titanic = sns.load_dataset('titanic')
titanic.head()

In [None]:
titanic.info()

In [None]:
titanic.dtypes

# 3. Dados duplicados <a name="duplicados"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
titanic.drop_duplicates()

In [None]:
titanic.shape

In [None]:
titanic = titanic.drop_duplicates()
titanic.shape

In [None]:
titanic.tail()

In [None]:
titanic.reset_index(drop=True, inplace=True)

In [None]:
titanic.tail()

# 4. Identificando e tratando dados ausentes <a name="identificando"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

https://scikit-learn.org/stable/modules/tree.html#id2


A árvore de decisão requer pouca preparação de dados. Outras técnicas geralmente requerem normalização de dados, variáveis fictícias precisam ser criadas e valores em branco precisam ser removidos. Observe, entretanto, que **este módulo não oferece suporte a valores ausentes**.

In [None]:
titanic.isna().sum()

In [None]:
percentage = (titanic.isnull().sum() / len(titanic)) * 100
percentage

In [None]:
# dropar todas as colunas que tenha pelo menos 1 NA
titanic_sem_na = titanic.dropna(axis=1)

In [None]:
titanic_sem_na.head()

In [None]:
titanic_sem_na.shape

In [None]:
titanic_sem_na.info()

# 5. Dados categorizados <a name="categorizados"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

https://scikit-learn.org/stable/modules/tree.html#id2

CART (árvores de classificação e regressão) é muito semelhante a C4.5, mas difere porque oferece suporte a variáveis ​​de destino numéricas (regressão) e não calcula conjuntos de regras. A CART constrói árvores binárias usando o recurso e o limite que geram o maior ganho de informação em cada nó.

scikit-learn usa uma versão otimizada do algoritmo CART; entretanto, a **implementação do scikit-learn não suporta variáveis categorizadas** por enquanto.

In [None]:
titanic_sem_na.head(2)

- **survived** - se o passageiro sobreviveu ou não, ou seja, nossa target
- **pclass** - classe em que o passageiro estava (primeira, segunda, terceira)
- **sex** - genero do passageiro (masculino ou feminino)
- **sibsp** - quantidade de irmãos/esposos/esposas no navio (0 a 8)	
- **parch** - quantidade de pais/filhos a bordo
- **fare** - preço do ticket
- **class** - igual a pclass	
- **who** - se é homem, mulher ou criança
- **adult_male** - se é um homem adulto
- **alive** - igual a survived
- **alone** - se estava sozinho a bordo


## Survived e alive


In [None]:
titanic_sem_na.survived.value_counts()

In [None]:
titanic_sem_na.survived.value_counts(normalize=True)

In [None]:
titanic_sem_na.alive.value_counts()

In [None]:
titanic_sem_na[['alive','survived','sibsp']].groupby(['alive','survived']).count()

In [None]:
titanic_sem_na = titanic_sem_na.drop('alive',axis=1)

## pclass e class

In [3]:
titanic_sem_na['pclass'].unique()

NameError: name 'titanic_sem_na' is not defined

In [None]:
titanic_sem_na['class'].unique()

In [None]:
titanic_sem_na[['pclass','class','sibsp']].groupby(['pclass','class']).count()

In [None]:
titanic_sem_na = titanic_sem_na.drop('pclass',axis=1)

## Outras variáveis

In [None]:
titanic_sem_na['sex'].unique()

In [None]:
titanic_sem_na['sibsp'].unique()

In [None]:
titanic_sem_na['parch'].unique()

In [None]:
titanic_sem_na['who'].unique()

In [None]:
titanic_sem_na[['sex','who','sibsp']].groupby(['sex','who']).count()

In [None]:
titanic_sem_na.head(2)

## Transformando em dummie (flag)

In [None]:
# titanic_encoded = titanic_sem_na.copy()
titanic_encoded = pd.get_dummies(titanic_sem_na, columns=['class','who'], drop_first=True)
titanic_encoded.head(20)

## Mapping

In [None]:
titanic_encoded.sex.unique()

In [None]:
titanic_encoded.sex = titanic_encoded.sex.map({'female': 1, 'male':0})

In [None]:
titanic_encoded.sex.unique()

## Mudando alguns tipos de dados

In [None]:
titanic_encoded.dtypes

In [None]:
titanic_encoded.adult_male.astype(int)

In [None]:
titanic_encoded.adult_male = titanic_encoded.adult_male.astype(int)
titanic_encoded.alone = titanic_encoded.alone.astype(int)

In [None]:
titanic_encoded.dtypes

In [None]:
titanic_encoded.columns

# 6. Separando as variáveis explicativas da target <a name="separando"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
y = titanic_encoded.survived

In [None]:
X = titanic_encoded.drop('survived',axis=1)

# 7. Árvore de classificação com todas as variáveis <a name="arvore"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
clf_dt = DecisionTreeClassifier(random_state=100)
clf_dt

In [None]:
clf_dt = clf_dt.fit(X,y)
clf_dt

In [None]:
plt.figure(figsize=(25, 10))
plot_tree(clf_dt,
          filled=True,
          class_names=['Died', 'Survived'],
          feature_names=X.columns);

In [None]:
plot_confusion_matrix(clf_dt, X, y, display_labels=['Died', 'Survived']);

In [None]:
predict = clf_dt.predict(X)

In [None]:
accuracy_score(y, predict)

# 8. Separando entre treino e teste <a name="treino_teste"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)

In [None]:
clf = DecisionTreeClassifier(random_state=100)
clf = clf.fit(X_train,y_train)

In [None]:
plot_confusion_matrix(clf, X_test, y_test, display_labels=['Died', 'Survived']);

# 9. Post pruning <a name="post"></a>
<div style="text-align: right"
     
[Voltar ao índice](#Contents)

https://scikit-learn.org/stable/auto_examples/tree/plot_cost_complexity_pruning.html

In [None]:
clf = DecisionTreeClassifier(random_state=100)
path = clf.cost_complexity_pruning_path(X_train, y_train)
ccp_alphas, impurities = path.ccp_alphas, path.impurities

In [None]:
clfs = []
for ccp_alpha in ccp_alphas:
    clf = DecisionTreeClassifier(random_state=0, ccp_alpha=ccp_alpha)
    clf.fit(X_train, y_train)
    clfs.append(clf)

In [None]:
train_scores = [clf.score(X_train, y_train) for clf in clfs]
test_scores = [clf.score(X_test, y_test) for clf in clfs]

fig, ax = plt.subplots()
ax.set_xlabel("alpha")
ax.set_ylabel("Acurácia")
ax.set_title("Acurácia x alpha do conjunto de dados de treino e teste")
ax.plot(ccp_alphas, train_scores, marker='o', label="treino",
        drawstyle="steps-post")
ax.plot(ccp_alphas, test_scores, marker='o', label="teste",
        drawstyle="steps-post")
ax.legend()
plt.show()

In [None]:
pd.DataFrame({'alpha': ccp_alphas.tolist(), 'score': test_scores})

In [None]:
clf_podada = DecisionTreeClassifier(random_state=100, ccp_alpha=0.022588)

In [None]:
clf_podada.fit(X_train, y_train)
predict = clf_podada.predict(X_test)
plot_confusion_matrix(clf_podada, X_test, y_test, display_labels=['Died', 'Survived']);
accuracy_score(y_test, predict)

In [4]:
pred = clf_podada.predict(X_test)

NameError: name 'clf_podada' is not defined

In [None]:
accuracy_score(y_test, pred)

In [None]:
plt.figure(figsize=[10,10])
plot_tree(clf_podada,
         filled=True,
         rounded=True,
         class_names=['Died', 'Survived'],
         feature_names=X_train.columns);

In [None]:
plt.figure(figsize=(25, 10))
plot_tree(clf_dt,
          filled=True,
          class_names=['Died', 'Survived'],
          feature_names=X.columns);