# **Overview**
 Para resolver esse desafio técnico, irei utilizar o framework **CRISP-DM** para garantir que a análise seja estruturada, repetível e orientada a resultados. Seguindo os passos:

1. Definir o problema de negócio.

2. Coletar os dados e obter uma visão geral deles.

3. Dividir os dados em conjuntos de treino e teste.

4. Explorar os dados (análise exploratória de dados).

5. Engenharia de features, limpeza e pré-processamento dos dados.

6. Treinamento de modelos, comparação, seleção de features e ajuste de hiperparâmetros.

7. Teste e avaliação do modelo final de produção.

8. Concluir e interpretar os resultados do modelo.

9. Deploy do modelo.

# **1. Problema de Negócio**

Uma empresa de telecomunicações está enfrentando problemas de: Churn elevado (indicando perda significativa de clientes e impacto direto na receita) e NPS abaixo do esperado (refletindo baixa satisfação e lealdade dos clientes).

O principal produto da empresa possui alto custo de instalação (setup), o que torna cada perda de cliente **especialmente onerosa**.
Diante disso, buscou-se uma estratégia robusta, orientada por dados e centrada na experiência do cliente, com foco em **retenção** e **fidelização**.

Retenção de clientes: é a capacidade de uma empresa manter clientes existentes por mais tempo, evitando que eles deixem a marca ou serviço.

Foco: Reduzir o churn, ou seja, a taxa de cancelamento ou perda de clientes.


Fidelização de clientes: é o processo de criar um vínculo emocional ou de confiança com o cliente, fazendo com que ele escolha sempre a sua marca, mesmo que existam opções concorrentes.

Foco: Transformar clientes em promotores da marca e aumentar o valor do ciclo de vida do cliente.

### **Imports the libreries**

In [None]:
# Data manipulation and visualization.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns

# Split the data.
from sklearn.model_selection import train_test_split

# Utils

# Filter warnings.
import warnings
warnings.filterwarnings('ignore')

# Formatação de Números Decimais
pd.options.display.float_format = '{:.2f}'.format

### Visualization Settings
%matplotlib inline

mpl.style.use('ggplot')

mpl.rcParams['axes.facecolor']      = 'white'
mpl.rcParams['axes.linewidth']      = 1
mpl.rcParams['xtick.color']         = 'black'
mpl.rcParams['ytick.color']         = 'black'
mpl.rcParams['grid.color']          = 'lightgray'
mpl.rcParams['figure.dpi']          = 150
mpl.rcParams['axes.grid']           = True
mpl.rcParams['font.size']           = 12

# Palette Setting
color_palette = ['#023047', '#e85d04', '#0077b6', '#ff8200', '#0096c7', '#ff9c33']
# Setting as the palette
sns.set_palette(sns.color_palette(color_palette))
# Display
sns.color_palette(color_palette)

# **2. Understanding the data**



df_nps

In [None]:
df_nps = pd.read_csv('/content/customer_nps.csv')
display(df_nps.head())

print("\n" + "="*50)
df_nps.info()

print("\n" + "="*50)
print(f'The dataset has {df_nps.shape[0]} rows and {df_nps.shape[1]} columns.')

Unnamed: 0,cpf,NPS
0,10433218100,9
1,96001338914,9
2,8386379499,9
3,2654235114,8
4,16155940789,9



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7234 entries, 0 to 7233
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   cpf     7234 non-null   int64
 1   NPS     7234 non-null   int64
dtypes: int64(2)
memory usage: 113.2 KB

The dataset has 7234 rows and 2 columns.


df_original

In [None]:
df_original = pd.read_csv('/content/customer_original.csv')
display(df_original.head())

print("\n" + "="*50)
df_original.info()

print("\n" + "="*50)
print(f'The dataset has {df_original.shape[0]} rows and {df_original.shape[1]} columns.')

Unnamed: 0,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn,cpf
0,72,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Bank transfer (automatic),118.75,8672.45,No,104.332.181-00
1,71,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Electronic check,118.65,8477.6,No,960.013.389-14
2,68,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,Two year,No,Mailed check,118.6,7990.05,No,083.863.794-99
3,61,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,One year,Yes,Electronic check,118.6,7365.7,No,026.542.351-14
4,67,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,One year,Yes,Bank transfer (automatic),118.35,7804.15,Yes,161.559.407-89



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7234 entries, 0 to 7233
Data columns (total 17 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   tenure            7234 non-null   int64  
 1   PhoneService      7234 non-null   object 
 2   MultipleLines     7234 non-null   object 
 3   InternetService   7234 non-null   object 
 4   OnlineSecurity    7234 non-null   object 
 5   OnlineBackup      7234 non-null   object 
 6   DeviceProtection  7234 non-null   object 
 7   TechSupport       7234 non-null   object 
 8   StreamingTV       7234 non-null   object 
 9   StreamingMovies   7234 non-null   object 
 10  Contract          7234 non-null   object 
 11  PaperlessBilling  7234 non-null   object 
 12  PaymentMethod     7234 non-null   object 
 13  MonthlyCharges    7234 non-null   float64
 14  TotalCharges      7234 non-null   float64
 15  Churn             7234 non-null   object 
 16  cpf               7234 non-null   object 

df_social

In [None]:
df_social = pd.read_csv('/content/customer_social.csv')
display(df_social.head())

print("\n" + "="*50)
df_social.info()

print("\n" + "="*50)
print(f'The dataset has {df_social.shape[0]} rows and {df_social.shape[1]} columns.')

Unnamed: 0,cpf,gender,SeniorCitizen,Partner,Dependents
0,10433218100,Female,0,Yes,Yes
1,96001338914,Female,0,No,No
2,8386379499,Female,0,Yes,No
3,2654235114,Female,0,No,No
4,16155940789,Male,0,No,No



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7234 entries, 0 to 7233
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   cpf            7234 non-null   int64 
 1   gender         7234 non-null   object
 2   SeniorCitizen  7234 non-null   int64 
 3   Partner        7234 non-null   object
 4   Dependents     7234 non-null   object
dtypes: int64(2), object(3)
memory usage: 282.7+ KB

The dataset has 7234 rows and 5 columns.


In [None]:
#Verificando valores repetidos para o join key 'cpf'

print(f"Quantidade de CPFs duplicados em df_nps: {df_nps.duplicated(subset=['cpf']).sum()}")
print(f"Quantidade de CPFs duplicados em df_original: {df_original.duplicated(subset=['cpf']).sum()}")
print(f"Quantidade de CPFs duplicados em df_social: {df_social.duplicated(subset=['cpf']).sum()}")


Quantidade de CPFs duplicados em df_nps: 169
Quantidade de CPFs duplicados em df_original: 169
Quantidade de CPFs duplicados em df_social: 169


###**Conclusions**:

The same number of records (7,234 records) was identified in originals datasets, with the presence of 169 duplicates. Assuming `df_original` represents a unique customer registry, these duplicates were classified as noise, resulting in a final base of **7,065 unique records** for the analysis.

The analysis revealed the **absence of null values (NaN)** in all datasets. This condition streamlines the preprocessing phase, as it does not require the application of data imputation techniques.

**Join Key (`cpf`) Inconsistency:**

The main impediment to data integration was the type discrepancy in the `cpf` key. The column was presented as `object` in `df_original` and `int64` in the others; in addition to the presence of symbols. Além disso foi percebido que df_original contém símbolos, df_nps e df_social contém registros sem o primeiro zero. These inconsistencies make the *merge* operation impossible and require handling.

**Datasets:**

* **df_original:** Contains customer service, contract, and billing *features*, including the **`Churn` target variable**.
* **df_nps:** Maps each customer (`cpf`) to their respective **Net Promoter Score (`NPS`) metric**.
* **df_social:** Aggregates the customer's **demographic attributes**, such as gender, seniority, partner, and dependents.

Para contextualizar a análise, o primeiro passo foi a criação de um dicionário de dados. Como este não foi fornecido, a construção iniciou-se pela inferência lógica dos nomes das colunas e pela análise de seus valores únicos.

Esse processo inicial permitiu identificar que o schema do dataset é diretamente compatível com o conhecido benchmark do setor, o 'Telco Customer Churn' (disponível em: https://community.ibm.com/community/user/blogs/steven-macko/2019/07/11/telco-customer-churn-1113). Essa referência, aliada à validação contínua pelos valores de cada coluna, forneceu uma base confiável para definir cada feature e guiar as etapas seguintes da análise.

### **Data dictionary**


**cpf:** Número de identificação do cliente (pode ser útil para unir com outros dataframes).

**NPS:** Net Promoter Score, uma métrica que indica a satisfação e lealdade do cliente. Valores mais altos geralmente indicam maior satisfação.

**tenure:** Tempo que o cliente permaneceu com a empresa (em meses).

**PhoneService:** Indica se o cliente tem serviço telefônico (Yes/No).

**MultipleLines:** Indica se o cliente tem múltiplas linhas telefônicas (Yes/No/No phone service).

**InternetService:** Tipo de serviço de internet do cliente (DSL/Fiber optic/No).

**OnlineSecurity:** Indica se o cliente tem serviço de segurança online (Yes/No/No internet service).

**OnlineBackup:** Indica se o cliente tem serviço de backup online (Yes/No/No internet service).

**DeviceProtection:** Indica se o cliente tem proteção de dispositivo (Yes/No/No internet service).

**TechSupport:** Indica se o cliente tem suporte técnico (Yes/No/No internet service).

**StreamingTV:** Indica se o cliente tem serviço de streaming de TV (Yes/No/No internet service).

**StreamingMovies:** Indica se o cliente tem serviço de streaming de filmes (Yes/No/No internet service).

**Contract:** Tipo de contrato do cliente (Month-to-month/One year/Two year).

**PaperlessBilling:** Indica se o cliente tem faturamento sem papel (Yes/No).

**PaymentMethod:** Método de pagamento do cliente.

**MonthlyCharges:** Valor cobrado do cliente mensalmente.

**TotalCharges:** Valor total cobrado do cliente.

**Churn:** Indica se o cliente cancelou o serviço (Yes/No).

**gender:** Gênero do cliente (Female/Male).

**SeniorCitizen:** Indica se o cliente é um cidadão sênior (0/1).

**Partner:** Indica se o cliente tem um parceiro (Yes/No).

**Dependents:** Indica se o cliente tem dependentes (Yes/No).

## **Data Cleaning**

In [None]:
# Remove duplicate rows from all dataframes e cria cópias independentes
df_original = df_original.drop_duplicates(subset=['cpf']).copy()
df_nps = df_nps.drop_duplicates(subset=['cpf']).copy()
df_social = df_social.drop_duplicates(subset=['cpf']).copy()

# Limpa e converte para df_original
df_original['cpf'] = df_original['cpf'].astype(str).str.replace('[^0-9]', '', regex=True)
df_original['cpf'] = df_original['cpf'].astype('int64')

# Limpa e converte para df_nps
df_nps['cpf'] = df_nps['cpf'].astype(str).str.replace('[^0-9]', '', regex=True)
df_nps['cpf'] = df_nps['cpf'].astype('int64')

# Limpa e converte para df_social
df_social['cpf'] = df_social['cpf'].astype(str).str.replace('[^0-9]', '', regex=True)
df_social['cpf'] = df_social['cpf'].astype('int64')

In [None]:
df_merged = df_original.merge(df_nps, on='cpf', how='left')
df_merged = df_merged.merge(df_social, on='cpf', how='left')

print("Merged DataFrame Info:")
df_merged.info()

#Looking at dataset general information.
print("\n" + "="*50)
df_merged.duplicated().sum()

Merged DataFrame Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7065 entries, 0 to 7064
Data columns (total 22 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   tenure            7065 non-null   int64  
 1   PhoneService      7065 non-null   object 
 2   MultipleLines     7065 non-null   object 
 3   InternetService   7065 non-null   object 
 4   OnlineSecurity    7065 non-null   object 
 5   OnlineBackup      7065 non-null   object 
 6   DeviceProtection  7065 non-null   object 
 7   TechSupport       7065 non-null   object 
 8   StreamingTV       7065 non-null   object 
 9   StreamingMovies   7065 non-null   object 
 10  Contract          7065 non-null   object 
 11  PaperlessBilling  7065 non-null   object 
 12  PaymentMethod     7065 non-null   object 
 13  MonthlyCharges    7065 non-null   float64
 14  TotalCharges      7065 non-null   float64
 15  Churn             7065 non-null   object 
 16  cpf               7

np.int64(0)

A validação pós-merge confirma a integridade e completude do dataset. A base de dados contém 7.065 registros, correspondendo a clientes únicos, sem dados ausentes em nenhuma das 22 features. A tipagem das variáveis está consistente com seus respectivos domínios (numérico, categórico).

In [None]:
# Definindo a coluna 'cpf' como o novo índice do DataFrame
df_merged = df_merged.set_index('cpf')
df_merged.head()

Unnamed: 0_level_0,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn,NPS,gender,SeniorCitizen,Partner,Dependents
cpf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
10433218100,72,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Bank transfer (automatic),118.75,8672.45,No,9,Female,0,Yes,Yes
96001338914,71,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,Two year,Yes,Electronic check,118.65,8477.6,No,9,Female,0,No,No
8386379499,68,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,Two year,No,Mailed check,118.6,7990.05,No,9,Female,0,Yes,No
2654235114,61,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,One year,Yes,Electronic check,118.6,7365.7,No,8,Female,0,No,No
16155940789,67,Yes,Yes,Fiber optic,Yes,Yes,Yes,Yes,Yes,Yes,One year,Yes,Bank transfer (automatic),118.35,7804.15,Yes,9,Male,0,No,No


In [None]:
df_merged.to_csv('df_merged.csv', index=False)
print("DataFrame df_merged salvo como 'df_merged.csv'")

DataFrame df_merged salvo como 'df_merged.csv'


# **3. Split the data into train and test sets**

First of all, I will split the data into train and test sets.

Test set is supposed to be data the model has never seen before.

I will perform EDA focusing on the training set in order to avoid data leakage, get a realistic representation and evaluate the model correctly with new unseen data.

I will specify stratify=y so that the train_test_split function ensures that the splitting process maintains the same percentage of each target class in both the training and testing sets. This is particularly useful when dealing with imbalanced datasets, which is the case, as there are more existing customers than attrited ones.

In [None]:
df_merged.columns

Index(['tenure', 'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod', 'MonthlyCharges', 'TotalCharges', 'Churn', 'NPS', 'gender', 'SeniorCitizen', 'Partner', 'Dependents'], dtype='object')

In [None]:
X = df_merged.drop(columns=['Churn'])
y = df_merged['Churn'].copy()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

In [None]:
print(f'Train predictor dataset shape: {X_train.shape}.')
print(f'Train target dataset shape: {y_train.shape}.')
print(f'Test predictor dataset shape: {X_test.shape}.')
print(f'Test target dataset shape: {y_test.shape}.')

Train predictor dataset shape: (5652, 20).
Train target dataset shape: (5652,).
Test predictor dataset shape: (1413, 20).
Test target dataset shape: (1413,).


In [None]:
print(f'Train target proportion: ')
print(f'{y_train.value_counts(normalize=True)}')
print(f'\nTest target proportion: ')
print(f'{y_test.value_counts(normalize=True)}')

Train target proportion: 
Churn
No    0.73
Yes   0.27
Name: proportion, dtype: float64

Test target proportion: 
Churn
No    0.73
Yes   0.27
Name: proportion, dtype: float64


Hipoteses: tenho informação do valor cobrado mensalmente o do valor total cobrado. Qual a diferença? Poderia ser uma hipotese diminuir o valor total em caso de o cliente assinar diversos serviços, assim aumentaria a receita.