# Árvore

Continuando de onde paramos...

In [48]:
import pandas as pd
import numpy as np

df = pd.read_csv('titanic.csv')

df_amostra = df.sample(15, random_state = 1)
df_amostra

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
223,224,0,3,"Nenkoff, Mr. Christo",male,,0,0,349234,7.8958,,S
84,85,1,2,"Ilett, Miss. Bertha",female,17.0,0,0,SO/C 14885,10.5,,S
680,681,0,3,"Peters, Miss. Katie",female,,0,0,330935,8.1375,,Q
535,536,1,2,"Hart, Miss. Eva Miriam",female,7.0,0,2,F.C.C. 13529,26.25,,S
623,624,0,3,"Hansen, Mr. Henry Damsgaard",male,21.0,0,0,350029,7.8542,,S
148,149,0,2,"Navratil, Mr. Michel (""Louis M Hoffman"")",male,36.5,0,2,230080,26.0,F2,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
34,35,0,1,"Meyer, Mr. Edgar Joseph",male,28.0,1,0,PC 17604,82.1708,,C
241,242,1,3,"Murphy, Miss. Katherine ""Kate""",female,,1,0,367230,15.5,,Q


In [49]:
# vamos limitar nossa classe a apenas dados categóricos - dado

class Arvore:
    
    def __init__(self, 
                 df, var_resposta, 
                 atributo_origem = '-',
                 atributo_origem_valor = '-', 
                 profundidade = 0):
        
        self.df = df
        self.var_resposta = var_resposta
        self.filhos = []
        self.atributo_melhor = '-'
        self.atributo_origem = atributo_origem
        self.atributo_origem_valor = atributo_origem_valor
        self.gi = 0
        self.profundidade = profundidade
    
    def __repr__(self):
        return f'''Nó {self.profundidade} da Árvore de Decisão.\nCaracterísticas do No:
            Dataframe de {self.df.shape[0]} linhas.
            A origem desse nó é o atributo {self.atributo_origem} com valor {self.atributo_origem_valor}
            Melhor atributo desse nó é {self.atributo_melhor} com GI de {self.gi}'''
    
    @staticmethod
    def entropia_binaria(p):
    
        if p == 0 or p == 1:
            return 0

        n = 1 - p
        return -(p*np.log2(p) + n*np.log2(n))
    
    @staticmethod
    def ganho_informacao(df, coluna, var_resposta):
    
        seq_poss = df[coluna].unique()

        ent_inicial = Arvore.entropia_binaria(df[var_resposta].value_counts(1).iloc[0])

        conj = [df[df[coluna] == i] for i in seq_poss]
        ent = [Arvore.entropia_binaria(i[var_resposta].value_counts(1).iloc[0]) for i in conj]
        n_elem = [i.shape[0] for i in conj]

        total = sum(n_elem)

        ent_atr = 0
        for i in range(len(conj)):
            ent_atr += ent[i]*n_elem[i]/total

        return ent_inicial - ent_atr
        
    def melhor_atributo(self):
        '''
        Esse método acha o melhor atributo em relação ao ganho de informação.
        '''

        colunas_a_testar = self.df.columns.to_list()
        colunas_a_testar.remove(self.var_resposta)

        maior_v = 0
        maior_k = '-'

        for col in colunas_a_testar:

            v = Arvore.ganho_informacao(self.df, col, self.var_resposta)
            if v > maior_v:
                maior_v = v
                maior_k = col
        
        return maior_k, maior_v
        
    def realiza_quebra(self):
        '''
        Quebra o conjunto de dados inicial em N subconjuntos de acordo com 
        o melhor atributo.
        '''
        
        self.atributo_melhor, self.gi = self.melhor_atributo()
        
        if self.atributo_melhor == '-':
            return 
        
        possibilidades = self.df[self.atributo_melhor].unique()
        
        for p in possibilidades:
            mascara = self.df[self.atributo_melhor] == p
            sub_conj = self.df.loc[mascara, :]
            self.filhos.append(Arvore(sub_conj, 
                                      self.var_resposta, 
                                      atributo_origem = self.atributo_melhor,
                                      atributo_origem_valor = p,
                                      profundidade = self.profundidade + 1))
            
            
    def cria_galhos(self):
        
        self.realiza_quebra()
        
        for i in self.filhos:
            
            p0 = i.df[i.var_resposta].value_counts(1).iloc[0]
            ent = Arvore.entropia_binaria(p0)
            
            if ent > 0:
                i.cria_galhos()
    
    # TODO
    def cria_regras(self):
        '''
        Esse método deve percorrer recurssivamente as árvores retornando o
        conjunto de regras que definem a qual nó a nova instância pertencerá.
        '''
        
        # Condição de parada:
        if self.gi == 0:
            return
                
        return regras
    
    # TODO
    def predicao(self, nova_instancia):
        ''' 
        Dado uma nova instância, retorna a sua predição.
        '''
        
        
        return pred

In [3]:
arv = Arvore(df_amostra[['Survived', 'Pclass', 'Sex', 'SibSp', 'Parch']], 'Survived')
arv

Nó 0 da Árvore de Decisão.
Características do No:
            Dataframe de 15 linhas.
            A origem desse nó é o atributo - com valor -
            Melhor atributo desse nó é - com GI de 0

In [4]:
arv.cria_galhos()

In [5]:
arv

Nó 0 da Árvore de Decisão.
Características do No:
            Dataframe de 15 linhas.
            A origem desse nó é o atributo - com valor -
            Melhor atributo desse nó é Sex com GI de 0.430776632270099

In [6]:
arv.filhos[0]

Nó 1 da Árvore de Decisão.
Características do No:
            Dataframe de 8 linhas.
            A origem desse nó é o atributo Sex com valor female
            Melhor atributo desse nó é Pclass com GI de 0.13792538097003

In [7]:
arv.filhos[1]

Nó 1 da Árvore de Decisão.
Características do No:
            Dataframe de 7 linhas.
            A origem desse nó é o atributo Sex com valor male
            Melhor atributo desse nó é Pclass com GI de 0.3059584928680418

In [8]:
df.iloc[0, :]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                                 22
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [9]:
arv.filhos[0].filhos[0]

Nó 2 da Árvore de Decisão.
Características do No:
            Dataframe de 2 linhas.
            A origem desse nó é o atributo Pclass com valor 1
            Melhor atributo desse nó é - com GI de 0

## Overfit

In [11]:
from sklearn import tree

import pydotplus

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.externals.six import StringIO 
from IPython.display import Image



In [12]:
df = pd.read_csv('titanic.csv')

In [14]:
x = df.loc[:, ['PassengerId', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']]
y = df.loc[:, 'Survived']

x.Sex = x.Sex.apply(lambda x: 1 if x == 'male' else 0)
x = x.fillna(-1)

arv = DecisionTreeClassifier()
arv.fit(x, y)

dot_data = StringIO()

tree.export_graphviz(arv,
                     out_file = dot_data, 
                     class_names = ['MORREU', 'SOBREVIVEU'],
                     feature_names = x.columns,
                     filled = True,
                     rounded = True,
                     special_characters = True)

graph = pydotplus.graph_from_dot_data(dot_data.getvalue()) 

graph.write_pdf('regras_modelo.pdf')

InvocationException: GraphViz's executables not found

In [15]:
arv.score(x, y)

1.0

In [39]:
x['Random'] = np.random.randint(1, 100, len(x))

In [41]:
x.Sex = x.Sex.apply(lambda x: 1 if x == 'male' else 0)

x.Random = x.Random.apply(lambda x: 'Teste' if x >= 75 else 'Treino')

In [47]:
a = len(x[x['Random'] == 'Treino'])
b = len(x[x['Random'] == 'Teste'])

perc = (a/(a+b)) * 100

print(a, b, perc)

671 220 75.30864197530865


In [16]:
np.random.randint(16)

8

## 2. Metodologias de Avaliação

Para observar ocorrência de *overfit* e calcular métricas mais confiáveis, podemos utilizar diversos tipos de metodologias, as quais partem do princípio de definir subconjuntos de **treinamento e teste**, separados de forma disjunta. Os dados de treinamento são empregados no ajuste do modelo, enquanto que os exemplos de teste simulam a apresentação de objetos novos, os quais não foram vistos durante o aprendizado.

### 2.1. Hold Out

Nessa metodologia, o conjunto de dados é dividido em apenas duas partes: treinamento e teste. O primeiro serve para o ajuste do modelo, enquanto o segundo será usado em sua avaliação.

<img src="ma_holdout.png" alt="Drawing" style="height: 250px;"/>

**Para pensar:** Aplique a metodologia hold out para treinar o modelo do início do tópico e compare o desempenho do conjunto de treinamento e teste. O que você observa?