In [1]:
import pandas as pd
from sklearn import model_selection
from sklearn import tree
from sklearn import metrics

In [None]:
df = pd.read_csv("dados_pontos.csv",
                 sep=";")
df

In [None]:
# Definição das variáveis de features e target
features = df.columns[3:-1] # Seleciona as colunas que serão usadas como variáveis independentes
target = 'flActive' # Define a variável dependente como a coluna flActive, que indica se o usuário está ativo (1) ou inativo (0)

In [None]:
# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = model_selection.train_test_split(df[features],
                                                                    df[target],
                                                                    test_size=0.2, # Define que 20% dos dados serão usados para teste e 80% para treino
                                                                    random_state=42,
                                                                    stratify=df[target]) # Mantém a proporção da variável target nos conjuntos de treino e teste

# Verificação da taxa de resposta
# Mostra que a proporção de usuários ativos é de aproximadamente 32,5% em ambos os conjuntos
print("Taxa resposta treino: ", y_train.mean())
print("Taxa resposta teste: ", y_test.mean())

# Tratamento de valores faltantes
imput_avgRecorrencia = X_train['avgRecorrencia'].max()
X_train['avgRecorrencia'] = X_train['avgRecorrencia'].fillna(imput_avgRecorrencia)
X_test['avgRecorrencia'] = X_test['avgRecorrencia'].fillna(imput_avgRecorrencia)

Taxa resposta treino:  0.32550335570469796
Taxa resposta teste:  0.32662192393736017


In [None]:
# Criação e treinamento do modelo de árvore de decisão
arvore = tree.DecisionTreeClassifier(max_depth=10,
                                     min_samples_leaf=50,
                                     random_state=42)

arvore.fit(X_train, y_train) # Treina o modelo usando os dados de treino

# Avaliação do modelo no conjunto de treino
tree_predict_train = arvore.predict(X_train) # Faz previsões no conjunto de treino
tree_acc_train = metrics.accuracy_score(y_train, tree_predict_train) # Calcula a acurácia (proporção de previsões corretas)
print("Árvore Train ACC: ", tree_acc_train)

tree_proba_train = arvore.predict_proba(X_train)[:,1] # Calcula as probabilidades de cada classe (0 ou 1)
tree_auc_train = metrics.roc_auc_score(y_train, tree_proba_train) # Calcula a AUC (área sob a curva ROC), que mede a capacidade do modelo de distinguir entre as classes
print("Árvore Train AUC: ", tree_auc_train)

# Avaliação do modelo no conjunto de teste
tree_predict_test = arvore.predict(X_test)
tree_acc_test = metrics.accuracy_score(y_test, tree_predict_test)
print("Árvore Test ACC: ", tree_acc_test)

tree_proba_test = arvore.predict_proba(X_test)[:,1]
tree_auc_test = metrics.roc_auc_score(y_test, tree_proba_test)
print("Árvore Test AUC: ", tree_auc_test)

Árvore Train ACC:  0.8137583892617449
Árvore Train AUC:  0.8635680418070018
Árvore Test ACC:  0.8008948545861297
Árvore Test AUC:  0.8402357438674737


##### Comparação entre treino e teste  
Acurácia:  
A pequena diferença (~1,3%) indica que o modelo não está sofrendo de overfitting (ou seja, não está apenas memorizando os dados de treino).

AUC:  
A diferença (~2,4%) também é pequena, o que reforça que o modelo generaliza bem para dados novos.

In [None]:
# Inspeção da variável target no conjunto de teste
y_test # pessoas que voltaram para a live ou não (1 ou 0)

984     1
1676    0
1420    0
1242    0
2149    0
       ..
2045    0
609     1
1662    1
1463    1
1584    0
Name: flActive, Length: 447, dtype: int64