In [1]:
import pandas as pd
from sklearn.decomposition import PCA
# Display options.
pd.set_option('display.max_rows', None)
pd.set_option('display.max_info_rows', 100)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

# Filter warnings.
import warnings
warnings.filterwarnings('ignore')

## <a> Dicionario de dados </a>
- **dataReferencia**: Data de referência de quando o usuário foi observado
- **idCustomer**: ID do cliente
- **flChurn**: Marcação do churn do usuário (1=sim; 0=não)
- **recenciaDias**: Quantidade de dias desde a última iteração
- **frequenciaDias**: Quantidade de dias com iteração em uma janela de 21 dias
- **valorPoints**: Quantidade de pontos ganhos em uma janela de 21 dias
- **idadeBaseDias**: Quantidade de dias desde a 1ª iteração
- **flEmail**: Marcação se o usuário registrou seu email (1=sim; 0=não)
- **qtdPointsManha**: Quantidade de pontos obtidos no período da manhã nos últimos 21 dias
- **qtdPointsTarde**: Quantidade de pontos obtidos no período da tarde nos últimos 21 dias
- **qtdPointsNoite**: Quantidade de pontos obtidos no período da noite nos últimos 21 dias
- **pctPointsManha**: Percentual de pontos obtidos no período da manhã nos últimos 21 dias
- **pctPointsTarde**: Percentual de pontos obtidos no período da tarde nos últimos 21 dias
- **pctPointsNoite**: Percentual de pontos obtidos no período da noite nos últimos 21 dias
- **qtdTransacoesManha**: Quantidade de transações obtidas no período da manhã nos últimos 21 dias
- **qtdTransacoesTarde**: Quantidade de transações obtidas no período da tarde nos últimos 21 dias
- **qtdTransacoesNoite**: Quantidade de transações obtidas no período da noite nos últimos 21 dias
- **pctTransacoesManha**: Percentual de transações obtidas no período da manhã nos últimos 21 dias
- **pctTransacoesTarde**: Percentual de transações obtidas no período da tarde nos últimos 21 dias
- **pctTransacoesNoite**: Percentual de transações obtidas no período da noite nos últimos 21 dias
- **saldoPointsD21**: Saldo de pontos nos últimos 21 dias
- **saldoPointsD14**: Saldo de pontos nos últimos 14 dias
- **saldoPointsD7**: Saldo de pontos nos últimos 7 dias
- **pointsAcumuladosD21**: Saldo de pontos positivos nos últimos 21 dias
- **pointsAcumuladosD14**: Saldo de pontos positivos nos últimos 14 dias
- **pointsAcumuladosD7**: Saldo de pontos positivos nos últimos 7 dias
- **pointsResgatadosD21**: Saldo de pontos negativos nos últimos 21 dias
- **pointsResgatadosD14**: Saldo de pontos negativos nos últimos 14 dias
- **pointsResgatadosD7**: Saldo de pontos negativos nos últimos 7 dias
- **saldoPoints**: Saldo geral de pontos atual
- **pointsAcumuladosVida**: Quantidade de pontos positivos somados na vida toda
- **pointsResgatadosVida**: Quantidade de pontos negativos somados na vida toda
- **pointsPorDia**: Média de pontos por dia
- **qtdeChatMessage**: Quantidade de transações do tipo ChatMessage
- **qtdeListaPresenca**: Quantidade de transações do tipo Lista de Presença
- **qtdeResgatarPonei**: Quantidade de transações do tipo Resgate de Pôneis
- **qtdeTrocaPontos**: Quantidade de transações do tipo Troca de Pontos
- **qtdePresençaStreak**: Quantidade de transações do tipo Presença Streak
- **qtdeAirflowLover**: Quantidade de transações do tipo Airflow Lover
- **qtdeRLover**: Quantidade de transações do tipo R Lover
- **pointsChatMessage**: Quantidade de pontos obtidos do tipo ChatMessage
- **pointsListaPresença**: Quantidade de pontos obtidos do tipo Lista de Presença
- **pointsResgatarPonei**: Quantidade de pontos obtidos do tipo Resgate de Pôneis
- **pointsTrocaPontos**: Quantidade de pontos obtidos do tipo Troca de Pontos
- **pointsPresençaStreak**: Quantidade de pontos obtidos do tipo Presença Streak
- **pointsAirflowLover**: Quantidade de pontos obtidos do tipo Airflow Lover
- **pointsRLover**: Quantidade de pontos obtidos do tipo R Lover
- **pctChatMessage**: Percentual de pontos obtidos do tipo ChatMessage
- **pctListaPresença**: Percentual de pontos obtidos do tipo Lista de Presença
- **pctResgatarPonei**: Percentual de pontos obtidos do tipo Resgate de Pôneis
- **pctTrocaPontos**: Percentual de pontos obtidos do tipo Troca de Pontos
- **pctPresençaStreak**: Percentual de pontos obtidos do tipo Presença Streak
- **pctAirflowLover**: Percentual de pontos obtidos do tipo Airflow Lover
- **pctRLover**: Percentual de pontos obtidos do tipo R Lover
- **avgChatLive**: Média de pontos obtidos do tipo Chat Live
- **productMaxQtde**: Quantidade máxima de produtos
- **qtdeDiasD21**: Quantidade de dias nos últimos 21 dias
- **qtdeDiasD14**: Quantidade de dias nos últimos 14 dias
- **qtdeDiasD7**: Quantidade de dias nos últimos 7 dias
- **avgLiveMinutes**: Média de minutos ao vivo
- **sumLiveMinutes**: Soma de minutos ao vivo
- **minLiveMinutes**: Mínimo de minutos ao vivo
- **maxLiveMinutes**: Máximo de minutos ao vivo
- **qtdeTransacaoVida**: Quantidade de transações na vida toda
- **avgTransacaoDia**: Média de transações por dia
- **partition_set_name**: Divide as linhas em valores em train, test e oot

In [2]:
df_churn = pd.read_parquet(r"..\data\teocalvo_churn.parquet")
df_churn.set_index('idCustomer',inplace=True)

In [3]:
df_churn.head()

Unnamed: 0_level_0,dtRef,flChurn,recenciaDias,frequenciaDias,valorPoints,idadeBaseDias,flEmail,qtdPointsManha,qtdPointsTarde,qtdPointsNoite,pctPointsManha,pctPointsTarde,pctPointsNoite,qtdTransacoesManha,qtdTransacoesTarde,qtdTransacoesNoite,pctTransacoesManha,pctTransacoesTarde,pctTransacoesNoite,saldoPointsD21,saldoPointsD14,saldoPointsD7,pointsAcumuladosD21,pointsAcumuladosD14,pointsAcumuladosD7,pointsResgatadosD21,pointsResgatadosD14,pointsResgatadosD7,saldoPoints,pointsAcumuladosVida,pointsResgatadosVida,pointsPorDia,qtdeChatMessage,qtdeListaPresença,qtdeResgatarPonei,qtdeTrocaPontos,qtdePresençaStreak,qtdeAirflowLover,qtdeRLover,pointsChatMessage,pointsListaPresença,pointsResgatarPonei,pointsTrocaPontos,pointsPresençaStreak,pointsAirflowLover,pointsRLover,pctChatMessage,pctListaPresença,pctResgatarPonei,pctTrocaPontos,pctPresençaStreak,pctAirflowLover,pctRLover,avgChatLive,productMaxQtde,qtdeDiasD21,qtdeDiasD14,qtdeDiasD7,avgLiveMinutes,sumLiveMinutes,minLiveMinutes,maxLiveMinutes,qtdeTransacaoVida,avgTransacaoDia,partition_set_name
idCustomer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1
87f84743-9dca-46be-9d23-54a5619942ed,2024-05-01,1,4,1,50,64,0,50,0,0,1.0,0.0,0.0,1,0,0,1.0,0.0,0.0,50,50,50,50,50,50,0,0,0,100,100,0,1.5625,0,1,0,0,0,0,0,0,50,0,0,0,0,0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,Lista de presença,1,1,1,0.0,0.0,0.0,0.0,2,0.031719,train
ae4d0b0d-ba15-4230-b361-607335fea41e,2024-03-01,1,8,2,102,25,1,102,0,0,1.0,0.0,0.0,4,0,0,1.0,0.0,0.0,102,50,0,102,50,0,0,0,0,154,154,0,6.16,2,2,0,0,0,0,0,2,100,0,0,0,0,0,0.5,0.5,0.0,0.0,0.0,0.0,0.0,1.0,Lista de presença,2,1,0,10.866667,21.733333,0.0,21.733333,7,0.28589,train
8694f99e-5b55-467e-82d5-0e0079cd664d,2024-03-01,0,1,6,333,25,0,331,0,2,0.993994,0.0,0.006006,37,0,2,0.948718,0.0,0.051282,333,333,282,333,333,282,0,0,0,336,336,0,13.44,33,6,0,0,0,0,0,33,300,0,0,0,0,0,0.846154,0.153846,0.0,0.0,0.0,0.0,0.0,5.5,ChatMessage,6,6,5,122.758333,736.55,0.2,598.25,42,1.714563,train
ca61481f-6259-4e96-bd5d-a5bca1637f8d,2024-03-01,0,3,3,151,11,0,151,0,0,1.0,0.0,0.0,4,0,0,1.0,0.0,0.0,151,151,100,151,151,100,0,0,0,151,151,0,13.727273,1,3,0,0,0,0,0,1,150,0,0,0,0,0,0.25,0.75,0.0,0.0,0.0,0.0,0.0,0.333333,Lista de presença,3,3,2,5.9,17.7,0.0,17.7,4,0.382206,train
f68f9e5d-2243-4dcd-9640-f5a25cd2acc1,2024-03-01,0,1,4,200,25,0,150,0,50,0.75,0.0,0.25,3,0,1,0.75,0.0,0.25,200,200,200,200,200,200,0,0,0,250,250,0,10.0,0,4,0,0,0,0,0,0,200,0,0,0,0,0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,Lista de presença,4,4,4,0.0,0.0,0.0,0.0,5,0.204184,train


In [4]:
df_churn['flChurn'].value_counts()

flChurn
0    1125
1     863
Name: count, dtype: int64

In [5]:
df_churn['productMaxQtde'].unique()

array(['Lista de presença', 'ChatMessage', 'Resgatar Ponei'], dtype=object)

In [15]:

treino = df_churn[df_churn['partition_set_name'] == 'train']

product_quant = pd.get_dummies(treino['productMaxQtde'], drop_first=True,dtype=int)
treino = pd.concat([treino, product_quant], axis=1)


X_treino = treino.drop(columns=['flChurn'])
X_treino.drop(columns=['dtRef','partition_set_name','productMaxQtde'],inplace=True)
y_treino = treino[['flChurn']]

In [21]:
import sklearn
# Regressão Logística está no pacote de modelos lineares
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
# Criando o estimador, algoritmo, modelo, preditor, classificador

regressa_logistica = LogisticRegression(solver='liblinear')
type(regressa_logistica)
sklearn.linear_model._logistic.LogisticRegression
# Vou treinar utilizando cross validation
valores_f1_rl = cross_val_score(estimator=regressa_logistica,
                                    X=X_treino,
                                    y=y_treino.values.flatten(), 
                                    cv=10,
                                    scoring='f1') # f1 score porque a base está desbalanceada
valores_f1_rl.mean()

np.float64(0.7398366396116666)

In [22]:
import xgboost as xgb
xgb_model = xgb.XGBClassifier(random_state=42,
                            objective='binary:logistic',
                            use_label_encoder=False,
                            eval_metric='error')

valores_f1_xgb = cross_val_score(estimator=xgb_model,
                                 X=X_treino,
                                 y=y_treino.values.flatten(),
                                 cv=10,
                                 scoring='f1')
valores_f1_xgb.mean()

np.float64(0.6844797223720287)

In [23]:
# Modelo de bagging mais famoso 
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier()

# Vou treinar utilizando cross validation novamente
valores_f1_rf = cross_val_score(estimator = random_forest,
                                 X=X_treino,
                                 y=y_treino.values.flatten(),
                                 cv=10,
                                 scoring='f1')
valores_f1_rf.mean()

np.float64(0.6764370975278079)

In [34]:
100 * len(df_churn.loc[df_churn['flChurn'] == 0]) / df_churn.shape[0]

56.58953722334004

Caso eu assumisse que ninguem deixou de acompanhar  o conteudo, eu teria um total de 56,59% de acerto, e 43,41% de erro.

In [35]:

teste = df_churn[df_churn['partition_set_name'] == 'test']

product_quant = pd.get_dummies(teste['productMaxQtde'], drop_first=True,dtype=int)
teste = pd.concat([teste, product_quant], axis=1)


X_teste = treino.drop(columns=['flChurn'])
X_teste.drop(columns=['dtRef','partition_set_name','productMaxQtde'],inplace=True)
y_teste = treino[['flChurn']]

In [40]:
r_logistica = LogisticRegression()
r_logistica.fit(X_treino, y_treino)

In [42]:
predicoes_churn = r_logistica.predict(X_teste)

In [43]:
predicoes_vs_real = pd.DataFrame({'predicao': predicoes_churn.flatten(), 'real': y_teste.values.flatten()})
predicoes_vs_real.head(20)

Unnamed: 0,predicao,real
0,0,1
1,1,1
2,0,0
3,0,0
4,0,0
5,1,1
6,1,1
7,1,1
8,0,0
9,1,1


In [45]:
from sklearn.metrics import f1_score
f1_score(y_true=y_teste, y_pred=predicoes_churn)

np.float64(0.7332704995287465)