In [None]:
# pip install CHAID

In [None]:
from CHAID import Tree
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# Leitura dos dados
telefonia = pd.read_table("C:/_Ayu/0-Fia/_2020/TURMAS/EA_EAD_ago20/\Python/Aula2/Telefonia_AD.txt")
telefonia.head()

In [None]:
telefonia.dtypes

In [None]:
telefonia.shape

In [None]:
telefonia.describe().transpose()

In [None]:
# Verificando quantidade de missings
telefonia.isnull().sum()

In [None]:
# Tratamento da variável Minutos_realizados_T0
telefonia.Minutos_realizados_T0 = telefonia.Minutos_realizados_T0.fillna(0)

In [None]:
# Como a variável explicativa também deve ser categórica, 
# vamos segmentar a Idade em quartil
telefonia['Minutos_realizados_T0_q'] = pd.qcut(telefonia.Minutos_realizados_T0, 4)
telefonia['Tempo_casa_q'] = pd.qcut(telefonia.Tempo_casa, 4)
telefonia['Qtd_retencao_6meses_q'] = pd.qcut(telefonia.Qtd_retencao_6meses, 4, duplicates='drop')
telefonia['Qtd_prod_q'] = pd.qcut(telefonia.Qtd_prod, 4, duplicates='drop')

In [None]:
# Tabela Bidimensional: covariável x resposta
minutos_tab = pd.crosstab(telefonia["Minutos_realizados_T0_q"],telefonia["resposta"],margins=True)
minutos_tab

In [None]:
tempo_casa_tab = pd.crosstab(telefonia["Tempo_casa_q"],telefonia["resposta"],margins=True)
tempo_casa_tab

In [None]:
qtd_retencao_tab = pd.crosstab(telefonia["Qtd_retencao_6meses_q"],telefonia["resposta"],margins=True)
qtd_retencao_tab

In [None]:
qtd_prod_tab = pd.crosstab(telefonia["Qtd_prod_q"],telefonia["resposta"],margins=True)
qtd_prod_tab

## Modelo - Árvore de Decisão

In [None]:
# Transformando a variável resposta em categórica
telefonia['resposta_cat'] = telefonia.resposta.astype('category')

In [None]:
var_explicativas = telefonia[[
    'Minutos_realizados_T0_q',
    'Tempo_casa_q', 
    'Qtd_retencao_6meses_q',
    'Qtd_prod_q']]

var_resposta = telefonia['resposta_cat']

In [None]:
# Constrói o modelo de árvore
modelo = Tree.from_numpy(
    var_explicativas.to_numpy(), 
    var_resposta.to_numpy(), 
    split_titles=['Minutos_realizados_T0_q',
                  'Tempo_casa_q', 
                  'Qtd_retencao_6meses_q',
                  'Qtd_prod_q'], 
    min_child_node_size=2)

In [None]:
modelo.print_tree()

In [None]:
modelo.classification_rules()

In [None]:
# Salvando na base os nós
telefonia['node'] = modelo.node_predictions()

In [None]:
# Salvando a taxa de resposta por nó
probs = telefonia.groupby(['node']).agg({'resposta':'mean'}).reset_index()

In [None]:
# Marcando se o nó é propenso
probs['propenso'] = np.where(probs['resposta'] >= telefonia['resposta'].mean(), 1, 0)

In [None]:
probs = probs.rename(columns={"resposta":"prob"})
probs

In [None]:
telefonia = telefonia.merge(probs, how='left', on='node')

In [None]:
tabela_desempenho = pd.crosstab(telefonia['resposta'], telefonia['propenso'])

In [None]:
tabela_desempenho

In [None]:
acuracia = (tabela_desempenho[0][0] + tabela_desempenho[1][1])/tabela_desempenho.sum().sum()
acuracia

In [None]:
sensibilidade = (tabela_desempenho[1][1])/(tabela_desempenho[1][1] + tabela_desempenho[0][1])
sensibilidade

In [None]:
especificidade = (tabela_desempenho[0][0])/(tabela_desempenho[0][0] + tabela_desempenho[1][0])
especificidade