### PROJETO PARA PREVER ROTAVIDADE DE CLIENTES EM EMPRESA PRESTADORA DE SERVIÇOS ###
                                  ## PROVEDOR DE INTERNET ##
                     OBJETIVO: fatores que indicam a retenção de clientes

Análise de retenção de clientes:

Usar os dados para identificar fatores que indicam a retenção de clientes. Mesmo sem o cancelamento explícito, podemos usar as variáveis disponíveis para entender quais clientes têm maior tendência de permanecer por mais tempo.
Objetivo: Analisar variáveis que indicam a probabilidade de um cliente continuar com o serviço por um período mais longo.
Análise de padrões de faturamento:

Explorar os dados de cobrança mensal e tempo de contrato para identificar padrões de faturamento e possíveis oportunidades de ajustar estratégias de cobrança.
Objetivo: Analisar o comportamento de cobrança e identificar padrões que podem ser otimizados.

In [1]:
# Bibliotecas para manipulação e análise de dados
import pandas as pd
import numpy as np

# Bibliotecas para visualização de dados
import matplotlib.pyplot as plt
import seaborn as sns

# Bibliotecas para pré-processamento de dados
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder

# Bibliotecas para criação de modelos de machine learning
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier

# Bibliotecas para avaliação de modelos
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_auc_score, roc_curve

# Configurações adicionais
import warnings
warnings.filterwarnings('ignore')
plt.style.use('ggplot')


In [2]:
# Carregar o dataset (substitua 'caminho_para_o_arquivo.csv' pelo caminho correto)
df = pd.read_csv('internet_provider_dataset.csv')

# Exibir as primeiras 5 linhas para verificação inicial
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,0001-XXXX,Male,0,Yes,Yes,5,No,Yes,No,No,...,No,No,No,No internet service,Month-to-month,Yes,Credit card,27.43,137.15,Yes
1,0002-XXXX,Female,0,No,No,42,Yes,No phone service,DSL,Yes,...,No,No,No internet service,No internet service,Two year,No,Electronic check,38.28,1607.76,Yes
2,0003-XXXX,Male,0,No,No,61,Yes,No phone service,No,No,...,No,Yes,Yes,No,One year,No,Bank transfer,106.44,6492.84,Yes
3,0004-XXXX,Male,1,No,Yes,22,Yes,No,No,No internet service,...,Yes,No,No internet service,Yes,Month-to-month,No,Electronic check,92.49,2034.78,No
4,0005-XXXX,Male,1,Yes,Yes,21,No,No,DSL,No,...,No internet service,No,No,No internet service,One year,No,Bank transfer,19.63,412.23,Yes


In [3]:
# Importando as bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score

# Carregando o dataset
df = pd.read_csv('internet_provider_dataset.csv')

# Tratamento de dados: conversão de variáveis categóricas
df['Churn'] = df['Churn'].apply(lambda x: 1 if x == 'Yes' else 0)
cols_yes_no = ['Partner', 'Dependents', 'PhoneService', 'MultipleLines', 'OnlineSecurity',
               'DeviceProtection', 'TechSupport', 'PaperlessBilling']
for col in cols_yes_no:
    df[col] = df[col].apply(lambda x: 1 if x == 'Yes' else 0)
df['gender'] = df['gender'].apply(lambda x: 1 if x == 'Female' else 0)

# Convertendo variáveis categóricas com mais de dois valores usando one-hot encoding
df = pd.get_dummies(df, columns=['InternetService', 'Contract', 'PaymentMethod'], drop_first=True)

# Tratamento de colunas com 'Yes', 'No' e 'No internet service'
cols_internet = ['OnlineBackup', 'StreamingTV', 'StreamingMovies']
for col in cols_internet:
    df[col] = df[col].apply(lambda x: 1 if x == 'Yes' else 0 if x == 'No' else -1)

# Separação das variáveis preditoras e da variável alvo
X = df.drop(columns=['customerID', 'Churn', 'TotalCharges'])
y = df['Churn']

# Divisão em treino e teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Ajuste final do modelo Random Forest
rf_model_further_adjusted = RandomForestClassifier(
    n_estimators=200, 
    max_depth=4,               # Profundidade reduzida para evitar overfitting
    min_samples_leaf=5,        # Número mínimo de amostras por folha
    min_samples_split=10,      # Número mínimo de amostras para dividir um nó
    random_state=42
)

# Treinamento do modelo
rf_model_further_adjusted.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred_rf_further_adjusted = rf_model_further_adjusted.predict(X_test)

# Cálculo das métricas de avaliação
accuracy_rf_further_adjusted = accuracy_score(y_test, y_pred_rf_further_adjusted)
f1_rf_further_adjusted = f1_score(y_test, y_pred_rf_further_adjusted)
roc_auc_rf_further_adjusted = roc_auc_score(y_test, y_pred_rf_further_adjusted)

# Exibindo os resultados finais
print(f'Acurácia: {accuracy_rf_further_adjusted}')
print(f'F1 Score: {f1_rf_further_adjusted}')
print(f'AUC-ROC: {roc_auc_rf_further_adjusted}')


Acurácia: 0.4444444444444444
F1 Score: 0.16666666666666663
AUC-ROC: 0.4241071428571429


In [28]:
# Exibir as primeiras 5 linhas para verificação inicial
df.sample

<bound method NDFrame.sample of     customerID  gender  SeniorCitizen Partner Dependents  tenure PhoneService  \
0    0001-XXXX       0              0     Yes        Yes       5           No   
1    0002-XXXX       1              0      No         No      42          Yes   
2    0003-XXXX       0              0      No         No      61          Yes   
3    0004-XXXX       0              1      No        Yes      22          Yes   
4    0005-XXXX       0              1     Yes        Yes      21           No   
..         ...     ...            ...     ...        ...     ...          ...   
295  0296-XXXX       1              1      No        Yes      61           No   
296  0297-XXXX       1              0      No         No      49          Yes   
297  0298-XXXX       0              0      No        Yes      71          Yes   
298  0299-XXXX       0              1     Yes        Yes       1          Yes   
299  0300-XXXX       1              1     Yes        Yes      13          Yes

In [6]:
# Verificar a distribuição das classes no dataset
print(df['Churn'].value_counts(normalize=True))


0    0.536667
1    0.463333
Name: Churn, dtype: float64


In [7]:
rf_model_tuned = RandomForestClassifier(
    n_estimators=300,  # Aumentar o número de árvores
    max_depth=6,       # Aumentar a profundidade das árvores
    min_samples_leaf=5, 
    min_samples_split=10, 
    random_state=42
)


In [8]:
# Alterar o método de divisão, como estratificação para garantir a mesma proporção de classes
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42)


In [9]:
from sklearn.model_selection import cross_val_score

# Fazer validação cruzada
cv_scores = cross_val_score(rf_model_further_adjusted, X_train, y_train, cv=5, scoring='accuracy')
print(f'Média da acurácia na validação cruzada: {cv_scores.mean()}')


Média da acurácia na validação cruzada: 0.519047619047619


In [10]:
# Criar uma nova variável 'media_mensal'
df['media_mensal'] = df['TotalCharges'] / df['tenure'].replace(0, 1)

# Verificar as novas variáveis no modelo
X = df.drop(columns=['customerID', 'Churn', 'TotalCharges'])
y = df['Churn']


In [11]:
#ajuste fino com hiper parametros

from sklearn.model_selection import GridSearchCV

# Definir o espaço de parâmetros
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [4, 6, 8],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 5, 10]
}

# Aplicar GridSearchCV para buscar os melhores parâmetros
grid_search = GridSearchCV(estimator=rf_model_further_adjusted, param_grid=param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# Ver os melhores parâmetros
print(grid_search.best_params_)


{'max_depth': 4, 'min_samples_leaf': 10, 'min_samples_split': 2, 'n_estimators': 100}


In [14]:
# Importando as bibliotecas necessárias


In [22]:
# Importando as bibliotecas necessárias
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score

# Carregando o dataset
df = pd.read_csv('internet_provider_dataset.csv')

# Conversão de variáveis categóricas 'Yes' e 'No' para 1 e 0
df['Churn'] = df['Churn'].apply(lambda x: 1 if x == 'Yes' else 0)

# Conversão da coluna 'gender' para valores numéricos ('Female' = 1, 'Male' = 0)
df['gender'] = df['gender'].apply(lambda x: 1 if x == 'Female' else 0)

# Tratamento de colunas com 'No internet service'
cols_internet = ['OnlineBackup', 'StreamingTV', 'StreamingMovies']
for col in cols_internet:
    df[col] = df[col].apply(lambda x: 1 if x == 'Yes' else 0 if x == 'No' else -1)

# Criar uma nova variável 'media_mensal'
df['media_mensal'] = df['TotalCharges'] / df['tenure'].replace(0, 1)

# Definir as variáveis preditoras e a variável alvo (Churn)
X = df[['media_mensal', 'TotalCharges', 'tenure', 'MonthlyCharges']]  # Apenas as variáveis selecionadas
y = df['Churn']

# Divisão dos dados em treino e teste (com estratificação)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42)

# Instanciar o modelo Random Forest com os hiperparâmetros ajustados
rf_model_final = RandomForestClassifier(
    n_estimators=100, 
    max_depth=4, 
    min_samples_leaf=10, 
    min_samples_split=2, 
    random_state=42
)

# Treinar o modelo
rf_model_final.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred_rf_final = rf_model_final.predict(X_test)

# Avaliar o modelo
accuracy_rf_final = accuracy_score(y_test, y_pred_rf_final)
f1_rf_final = f1_score(y_test, y_pred_rf_final)
roc_auc_rf_final = roc_auc_score(y_test, y_pred_rf_final)

# Exibir os resultados
print(f'Acurácia: {accuracy_rf_final}')
print(f'F1 Score: {f1_rf_final}')
print(f'AUC-ROC: {roc_auc_rf_final}')


Acurácia: 0.5555555555555556
F1 Score: 0.3939393939393939
AUC-ROC: 0.5401785714285715


In [None]:
# abaixo ajuste de hiper parametros

In [24]:

from sklearn.model_selection import RandomizedSearchCV

# Definir o espaço de busca para os hiperparâmetros
param_dist = {
    'n_estimators': [100, 200, 300],
    'max_depth': [4, 6, 8, 10],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 5, 10],
    'bootstrap': [True, False]
}

# Instanciar o modelo Random Forest
rf = RandomForestClassifier(random_state=42)

# Realizar a busca aleatória
random_search = RandomizedSearchCV(rf, param_distributions=param_dist, n_iter=100, cv=5, verbose=2, random_state=42, n_jobs=-1)

# Treinar o modelo com a busca de parâmetros
random_search.fit(X_train, y_train)

# Ver os melhores parâmetros
print(random_search.best_params_)

# Treinar o modelo com os melhores parâmetros encontrados
best_rf_model = random_search.best_estimator_
best_rf_model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred_best_rf = best_rf_model.predict(X_test)

# Avaliar o modelo
accuracy_best_rf = accuracy_score(y_test, y_pred_best_rf)
f1_best_rf = f1_score(y_test, y_pred_best_rf)
roc_auc_best_rf = roc_auc_score(y_test, y_pred_best_rf)

# Exibir os resultados
print(f'Acurácia: {accuracy_best_rf}')
print(f'F1 Score: {f1_best_rf}')
print(f'AUC-ROC: {roc_auc_best_rf}')


Fitting 5 folds for each of 100 candidates, totalling 500 fits
{'n_estimators': 200, 'min_samples_split': 10, 'min_samples_leaf': 5, 'max_depth': 10, 'bootstrap': True}
Acurácia: 0.5444444444444444
F1 Score: 0.4383561643835616
AUC-ROC: 0.5342261904761905


In [None]:
# validação cruzada

In [25]:
from sklearn.model_selection import cross_val_score

# Instanciar o modelo Random Forest com os melhores hiperparâmetros encontrados
rf_best_model = RandomForestClassifier(
    n_estimators=200, 
    max_depth=10, 
    min_samples_leaf=5, 
    min_samples_split=10, 
    bootstrap=True,
    random_state=42
)

# Aplicar a validação cruzada com 5 dobras
cv_accuracy = cross_val_score(rf_best_model, X, y, cv=5, scoring='accuracy')
cv_f1 = cross_val_score(rf_best_model, X, y, cv=5, scoring='f1')
cv_auc = cross_val_score(rf_best_model, X, y, cv=5, scoring='roc_auc')

# Exibir os resultados da validação cruzada
print(f'Média da acurácia na validação cruzada: {cv_accuracy.mean()}')
print(f'Média do F1 Score na validação cruzada: {cv_f1.mean()}')
print(f'Média do AUC-ROC na validação cruzada: {cv_auc.mean()}')


Média da acurácia na validação cruzada: 0.48999999999999994
Média do F1 Score na validação cruzada: 0.38146866019134923
Média do AUC-ROC na validação cruzada: 0.4356308621933622


In [26]:
from sklearn.model_selection import cross_val_score

# Instanciar o modelo Random Forest com os melhores hiperparâmetros encontrados
rf_best_model = RandomForestClassifier(
    n_estimators=200, 
    max_depth=10, 
    min_samples_leaf=5, 
    min_samples_split=10, 
    bootstrap=True,
    random_state=42
)

# Aplicar a validação cruzada com 5 dobras
cv_accuracy = cross_val_score(rf_best_model, X, y, cv=5, scoring='accuracy')
cv_f1 = cross_val_score(rf_best_model, X, y, cv=5, scoring='f1')
cv_auc = cross_val_score(rf_best_model, X, y, cv=5, scoring='roc_auc')

# Exibir os resultados da validação cruzada
print(f'Média da acurácia na validação cruzada: {cv_accuracy.mean()}')
print(f'Média do F1 Score na validação cruzada: {cv_f1.mean()}')
print(f'Média do AUC-ROC na validação cruzada: {cv_auc.mean()}')


Média da acurácia na validação cruzada: 0.48999999999999994
Média do F1 Score na validação cruzada: 0.38146866019134923
Média do AUC-ROC na validação cruzada: 0.4356308621933622
