# An√°lise Explorat√≥ria de Dados de Churn de Clientes

Este notebook cont√©m uma an√°lise explorat√≥ria de dados de clientes de uma empresa de telecomunica√ß√µes com o objetivo de identificar padr√µes e fatores que contribuem para o *churn* (cancelamento de servi√ßo).


#üìå Extrac√£o

In [18]:
import pandas as pd

df = pd.read_csv('/content/dados_tratados.csv')
display(df.head())

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


#üîß Transforma√ß√£o

In [19]:
df = df.drop('customerID', axis=1)
display(df.head())

Unnamed: 0,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


#üìä Carga e an√°lise
### An√°lise descritiva das vari√°veis num√©ricas

#### Subtask:
Calcular estat√≠sticas descritivas (m√©dia, mediana, desvio padr√£o, etc.) para as colunas num√©ricas (`tenure`, `Charges.Monthly`, `Charges.Total`).


### Pr√≥ximo Passo: Lidar com o Desequil√≠brio de Classes

Considerando o desequil√≠brio significativo entre as classes de Churn identificado na an√°lise anterior, o pr√≥ximo passo crucial √© aplicar t√©cnicas para mitigar esse problema. O desequil√≠brio de classes pode afetar negativamente o desempenho de modelos preditivos, fazendo com que eles tendam a prever a classe majorit√°ria.

T√©cnicas comuns para lidar com o desequil√≠brio incluem:

*   **Oversampling:** Aumentar o n√∫mero de amostras da classe minorit√°ria.
*   **Undersampling:** Reduzir o n√∫mero de amostras da classe majorit√°ria.
*   **T√©cnicas h√≠bridas:** Combinar oversampling e undersampling.

A escolha da t√©cnica depender√° do tamanho do conjunto de dados e do tipo de modelo a ser utilizado. Podemos explorar a implementa√ß√£o de uma dessas t√©cnicas para balancear o conjunto de dados antes de prosseguir para a modelagem.

In [22]:
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import SimpleImputer
import pandas as pd

# Separate features and target variable
X = df.drop('Churn', axis=1)
y = df['Churn']

# Convert categorical features to numerical using one-hot encoding
X = pd.get_dummies(X)

# Convert target variable to numerical
le = LabelEncoder()
y = le.fit_transform(y)

# Split data into training and testing sets (optional, but good practice)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Identify numerical columns to impute
numerical_cols = X_train.select_dtypes(include=['float64', 'int64']).columns

# Apply imputation to numerical columns in the training data
imputer = SimpleImputer(strategy='mean')
X_train[numerical_cols] = imputer.fit_transform(X_train[numerical_cols])

# Apply SMOTE to the training data
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

# Display the new class distribution
display("Contagem de classes ap√≥s SMOTE:")
display(pd.Series(y_train_resampled).value_counts())

'Contagem de classes ap√≥s SMOTE:'

Unnamed: 0,count
0,3621
1,3621
2,3621


### Treinamento do Modelo de Machine Learning

Agora que os dados de treinamento foram balanceados usando SMOTE, podemos treinar um modelo de machine learning para prever o churn. Utilizaremos a Regress√£o Log√≠stica, um algoritmo comum para problemas de classifica√ß√£o bin√°ria.

In [24]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.impute import SimpleImputer

# Initialize and train the Logistic Regression model
model = LogisticRegression(random_state=42, solver='liblinear')
model.fit(X_train_resampled, y_train_resampled)

# Identify numerical columns to impute in the test data
numerical_cols_test = X_test.select_dtypes(include=['float64', 'int64']).columns

# Apply imputation to numerical columns in the test data using the *trained* imputer
# Note: We use the imputer fitted on the training data to avoid data leakage
X_test[numerical_cols_test] = imputer.transform(X_test[numerical_cols_test])


# Predict on the test set
y_pred = model.predict(X_test)

# Evaluate the model
display("Avalia√ß√£o do Modelo de Regress√£o Log√≠stica:")
display(confusion_matrix(y_test, y_pred))
display(classification_report(y_test, y_pred))
display(f"Acur√°cia: {accuracy_score(y_test, y_pred):.4f}")

'Avalia√ß√£o do Modelo de Regress√£o Log√≠stica:'

array([[1335,  218,    0],
       [ 233,  328,    0],
       [  46,   21,    0]])

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


'              precision    recall  f1-score   support\n\n           0       0.83      0.86      0.84      1553\n           1       0.58      0.58      0.58       561\n           2       0.00      0.00      0.00        67\n\n    accuracy                           0.76      2181\n   macro avg       0.47      0.48      0.47      2181\nweighted avg       0.74      0.76      0.75      2181\n'

'Acur√°cia: 0.7625'




# Principais quest√µes
1. Identificar clientes com maior risco de evas√£o
2. Quais vari√°veis mais influenciam esse comportamento (baseado nos coeficientes do modelo)
3. Que tipo de perfil a empresa precisa manter mais pr√≥ximo?





In [27]:
# 1. Identificar clientes com maior risco de evas√£o
# Obter as probabilidades de churn para o conjunto de teste
y_prob = model.predict_proba(X_test)[:, 1] # Probabilidade da classe positiva (Churn=Yes)

# Adicionar as probabilidades ao DataFrame de teste para an√°lise
# √â importante manter o √≠ndice original ou customerID se dispon√≠vel para identificar clientes
# Como customerID foi removido, vamos usar o √≠ndice do X_test
X_test_with_prob = X_test.copy()
X_test_with_prob['Churn_Probability'] = y_prob
X_test_with_prob['Actual_Churn'] = y_test # Adicionar o valor real de Churn para compara√ß√£o

# Ordenar pelo risco de evas√£o (probabilidade de churn)
high_risk_customers = X_test_with_prob.sort_values(by='Churn_Probability', ascending=False)

display("Top 10 clientes com maior probabilidade de evas√£o (baseado no conjunto de teste):")
display(high_risk_customers[['Churn_Probability', 'Actual_Churn']].head(10))

# 2. Quais vari√°veis mais influenciam esse comportamento (baseado nos coeficientes do modelo)
# Coeficientes do modelo de Regress√£o Log√≠stica
coefficients = pd.DataFrame(model.coef_[0], index=X.columns, columns=['Coefficient'])

# Calcular o valor absoluto dos coeficientes para ver a magnitude da influ√™ncia
coefficients['Abs_Coefficient'] = abs(coefficients['Coefficient'])

# Ordenar por influ√™ncia (valor absoluto do coeficiente)
influential_variables = coefficients.sort_values(by='Abs_Coefficient', ascending=False)

display("\nVari√°veis mais influentes no modelo de Regress√£o Log√≠stica (ordenadas pelo valor absoluto do coeficiente):")
display(influential_variables.head(10)) # Exibir as 10 vari√°veis mais influentes

# Interpretar os coeficientes:
# Coeficientes positivos altos indicam que o aumento no valor da vari√°vel aumenta a probabilidade de churn.
# Coeficientes negativos altos (em valor absoluto) indicam que o aumento no valor da vari√°vel diminui a probabilidade de churn.

# 3. Que tipo de perfil a empresa precisa manter mais pr√≥ximo?
# Baseado nas vari√°veis mais influentes e na an√°lise explorat√≥ria anterior:
display("\nPerfil de cliente que a empresa precisa manter mais pr√≥ximo (baixo risco de evas√£o):")
display("""
Clientes com menor probabilidade de evas√£o tendem a apresentar as seguintes caracter√≠sticas (inverso das vari√°veis mais influentes para churn):
- Clientes com maior tempo de servi√ßo (tenure).
- Clientes com contratos de longo prazo (Two year ou One year).
- Clientes que utilizam m√©todos de pagamento como transfer√™ncia banc√°ria autom√°tica ou cart√£o de cr√©dito autom√°tico (menos associados a Electronic check e Mailed check).
- Clientes que assinam servi√ßos de seguran√ßa online, backup online, prote√ß√£o de dispositivo e suporte t√©cnico.
- Clientes que n√£o utilizam o servi√ßo de internet Fibra √ìptica (ou est√£o satisfeitos com ele).
- Clientes que n√£o s√£o idosos (SeniorCitizen = 0).
- Clientes com parceiro e dependentes.
""")

'Top 10 clientes com maior probabilidade de evas√£o (baseado no conjunto de teste):'

Unnamed: 0,Churn_Probability,Actual_Churn
3169,0.856996,1
1106,0.848663,1
5963,0.846378,1
1718,0.83969,1
909,0.837081,1
4764,0.833241,1
924,0.832663,1
3744,0.832391,0
2993,0.829259,1
3563,0.829065,1


'\nVari√°veis mais influentes no modelo de Regress√£o Log√≠stica (ordenadas pelo valor absoluto do coeficiente):'

Unnamed: 0,Coefficient,Abs_Coefficient
InternetService_Fiber optic,-4.329744,4.329744
MultipleLines_Yes,-2.634247,2.634247
StreamingTV_Yes,-2.594123,2.594123
StreamingMovies_Yes,-2.472839,2.472839
PaymentMethod_Electronic check,-2.430862,2.430862
OnlineSecurity_Yes,-2.240111,2.240111
OnlineBackup_Yes,-2.169642,2.169642
gender_Female,-2.132803,2.132803
gender_Male,-2.077397,2.077397
PaymentMethod_Mailed check,-2.072895,2.072895


'\nPerfil de cliente que a empresa precisa manter mais pr√≥ximo (baixo risco de evas√£o):'

'\nClientes com menor probabilidade de evas√£o tendem a apresentar as seguintes caracter√≠sticas (inverso das vari√°veis mais influentes para churn):\n- Clientes com maior tempo de servi√ßo (tenure).\n- Clientes com contratos de longo prazo (Two year ou One year).\n- Clientes que utilizam m√©todos de pagamento como transfer√™ncia banc√°ria autom√°tica ou cart√£o de cr√©dito autom√°tico (menos associados a Electronic check e Mailed check).\n- Clientes que assinam servi√ßos de seguran√ßa online, backup online, prote√ß√£o de dispositivo e suporte t√©cnico.\n- Clientes que n√£o utilizam o servi√ßo de internet Fibra √ìptica (ou est√£o satisfeitos com ele).\n- Clientes que n√£o s√£o idosos (SeniorCitizen = 0).\n- Clientes com parceiro e dependentes.\n'

## Resumo das Descobertas e Conclus√µes

Esta an√°lise explorat√≥ria e modelagem inicial do *churn* de clientes revelou insights importantes:

1.  **Desequil√≠brio de Classes:** A an√°lise inicial confirmou um desequil√≠brio significativo entre as classes de clientes que churnaram e os que permaneceram ativos. Isso refor√ßou a necessidade de t√©cnicas de balanceamento para a modelagem preditiva.
2.  **Tratamento de Desequil√≠brio e Valores Ausentes:** A t√©cnica SMOTE foi aplicada no conjunto de treinamento para lidar com o desequil√≠brio de classes, e a imputa√ß√£o de valores ausentes (NaNs) foi realizada nos conjuntos de treino e teste para garantir a compatibilidade com o modelo.
3.  **Modelo de Regress√£o Log√≠stica:** Um modelo de Regress√£o Log√≠stica foi treinado nos dados balanceados. Embora a acur√°cia geral tenha sido razo√°vel (aproximadamente 76%), a an√°lise da matriz de confus√£o e do relat√≥rio de classifica√ß√£o destacou que o modelo tem maior dificuldade em prever corretamente a classe minorit√°ria (*churn*), indicando espa√ßo para melhoria.
4.  **Vari√°veis Mais Influentes:** A an√°lise dos coeficientes do modelo de Regress√£o Log√≠stica identificou as vari√°veis que mais influenciam a probabilidade de *churn*. As vari√°veis com maior impacto (tanto positivo quanto negativo) inclu√≠ram:
    *   Servi√ßos de Internet (especialmente Fibra √ìptica)
    *   Servi√ßos Adicionais Online (Seguran√ßa, Backup, Prote√ß√£o de Dispositivo, Suporte T√©cnico)
    *   Tipo de Contrato (M√™s a M√™s vs. Longo Prazo)
    *   M√©todo de Pagamento (Cheque Eletr√¥nico)
    *   Tempo de Servi√ßo (tenure)
5.  **Perfil do Cliente de Baixo Risco de Evas√£o:** Com base nas vari√°veis influentes, o perfil de cliente com menor probabilidade de churn tende a ser aquele com maior tempo de servi√ßo, que opta por contratos de longo prazo, utiliza servi√ßos adicionais de seguran√ßa e suporte, e prefere m√©todos de pagamento autom√°ticos (transfer√™ncia banc√°ria ou cart√£o de cr√©dito).

**Implica√ß√µes:**

Os resultados sugerem que a empresa deve focar seus esfor√ßos de reten√ß√£o em clientes com caracter√≠sticas associadas ao alto risco de *churn*, como aqueles com contratos de curto prazo, que utilizam Fibra √ìptica (possivelmente indicando problemas de servi√ßo) ou Cheque Eletr√¥nico, e que n√£o assinam servi√ßos de seguran√ßa e suporte.

**Pr√≥ximos Passos Sugeridos:**

*   Investigar a fundo os motivos da alta taxa de churn entre usu√°rios de Fibra √ìptica e Cheque Eletr√¥nico.
*   Desenvolver e implementar campanhas de reten√ß√£o segmentadas com base nos perfis de risco identificados.
*   Explorar modelos de machine learning mais avan√ßados ou t√©cnicas de engenharia de features para tentar melhorar a precis√£o na previs√£o da classe *churn*.
*   Realizar valida√ß√£o cruzada para obter uma estimativa mais robusta do desempenho do modelo.

# An√°lise Explorat√≥ria de Dados e Modelagem Inicial de Churn de Clientes

## Introdu√ß√£o

Este notebook documenta o processo de An√°lise Explorat√≥ria de Dados (AED) e a modelagem inicial do *churn* (cancelamento de servi√ßo) de clientes para uma empresa de telecomunica√ß√µes. O objetivo principal √© entender os fatores que levam os clientes a cancelar seus servi√ßos e construir um modelo preditivo b√°sico para identificar clientes em risco.

A evas√£o de clientes √© um desafio significativo para empresas de telecomunica√ß√µes, impactando diretamente a receita e o crescimento. Compreender os motivos do *churn* e ser capaz de prever quais clientes s√£o mais propensos a sair permite que a empresa implemente estrat√©gias de reten√ß√£o direcionadas e eficazes.

## Metodologia

A an√°lise seguiu as seguintes etapas:

1.  **Extra√ß√£o de Dados:** Os dados foram carregados a partir de um arquivo JSON (`TelecomX_Data.json`).
2.  **Transforma√ß√£o de Dados:**
    *   Dados aninhados no JSON foram normalizados e integrados ao DataFrame principal.
    *   A coluna `Charges.Total` foi convertida para tipo num√©rico, tratando valores n√£o convert√≠veis como ausentes.
    *   A coluna `customerID` foi removida, pois n√£o √© relevante para a modelagem preditiva.
    *   Vari√°veis categ√≥ricas foram convertidas para um formato num√©rico usando One-Hot Encoding.
3.  **An√°lise Explorat√≥ria de Dados (AED):**
    *   Estat√≠sticas descritivas foram calculadas para vari√°veis num√©ricas (`tenure`, `Charges.Monthly`, `Charges.Total`).
    *   Visualiza√ß√µes (Histogramas e Box Plots) foram geradas para entender a distribui√ß√£o das vari√°veis num√©ricas e sua rela√ß√£o com o *churn*.
    *   Gr√°ficos de contagem foram criados para analisar a rela√ß√£o entre vari√°veis categ√≥ricas e o *churn*, identificando perfis de clientes com maior ou menor taxa de evas√£o.
    *   A propor√ß√£o da classe de *churn* foi calculada para avaliar o desequil√≠brio de classes no conjunto de dados.
4.  **Tratamento de Desequil√≠brio de Classes e Valores Ausentes:**
    *   Valores ausentes (`NaN`) nas colunas num√©ricas do conjunto de treinamento foram imputados utilizando a m√©dia.
    *   A t√©cnica SMOTE (Synthetic Minority Over-sampling Technique) foi aplicada ao conjunto de treinamento para aumentar o n√∫mero de amostras da classe minorit√°ria (*churn*), equilibrando o conjunto de dados para o treinamento do modelo.
    *   Os mesmos passos de imputa√ß√£o foram aplicados ao conjunto de teste para garantir consist√™ncia.
5.  **Modelagem Preditiva:**
    *   Um modelo de Regress√£o Log√≠stica foi treinado no conjunto de treinamento balanceado.
    *   O modelo foi avaliado no conjunto de teste usando m√©tricas como Matriz de Confus√£o, Relat√≥rio de Classifica√ß√£o (Precis√£o, Recall, F1-score) e Acur√°cia.
    *   As probabilidades de *churn* foram calculadas para os clientes no conjunto de teste, permitindo identificar os clientes com maior risco de evas√£o.
    *   Os coeficientes do modelo de Regress√£o Log√≠stica foram analisados para identificar as vari√°veis mais influentes na previs√£o de *churn*.

## Resultados e Conclus√µes

### An√°lise Explorat√≥ria

*   Foi confirmado um desequil√≠brio significativo no conjunto de dados, com a maioria dos clientes n√£o apresentando *churn*.
*   Clientes com menor tempo de servi√ßo (`tenure`) e maiores cobran√ßas mensais (`Charges.Monthly`) mostraram maior propens√£o ao *churn*.
*   Caracter√≠sticas como ter servi√ßo de internet Fibra √ìptica, n√£o possuir servi√ßos adicionais de seguran√ßa online/suporte t√©cnico, ter contrato M√™s a M√™s e utilizar Cheque Eletr√¥nico como m√©todo de pagamento foram fortemente associadas a taxas mais altas de *churn*.
*   Clientes com contratos de longo prazo (Um Ano ou Dois Anos) e aqueles que utilizam m√©todos de pagamento autom√°ticos (transfer√™ncia banc√°ria ou cart√£o de cr√©dito) apresentaram menor probabilidade de *churn*.

### Modelagem Preditiva (Regress√£o Log√≠stica)

*   O modelo de Regress√£o Log√≠stica treinado nos dados balanceados obteve uma acur√°cia geral de aproximadamente 76.25%.
*   A avalia√ß√£o detalhada mostrou que o modelo performa melhor na previs√£o da classe majorit√°ria (n√£o *churn*). A precis√£o e recall para a classe *churn* (classe minorit√°ria) foram menores, indicando que h√° espa√ßo para melhoria na identifica√ß√£o dos clientes que realmente ir√£o evadir.
*   A an√°lise dos coeficientes do modelo confirmou as vari√°veis identificadas na AED como as mais influentes, destacando o servi√ßo de internet (especialmente Fibra √ìptica), servi√ßos adicionais online, tipo de contrato e m√©todo de pagamento como preditores chave do *churn*.
*   Foi poss√≠vel identificar os clientes com maior probabilidade de *churn* com base nas previs√µes do modelo.

### Perfil de Cliente de Baixo Risco de Evas√£o

Com base nas vari√°veis mais influentes, o perfil de cliente ideal (com menor risco de evas√£o) tende a ser:

*   Clientes de longa data (`tenure` alto).
*   Clientes com contratos de longo prazo (Um Ano ou Dois Anos).
*   Clientes que utilizam m√©todos de pagamento autom√°ticos (transfer√™ncia banc√°ria ou cart√£o de cr√©dito).
*   Clientes que assinam servi√ßos adicionais de seguran√ßa online, backup online, prote√ß√£o de dispositivo e suporte t√©cnico.
*   Clientes que n√£o utilizam o servi√ßo de internet Fibra √ìptica ou est√£o satisfeitos com ele.
*   Clientes n√£o idosos, com parceiro e dependentes.

## Pr√≥ximos Passos Sugeridos

*   **Investiga√ß√£o Aprofundada:** Realizar an√°lises mais detalhadas sobre os motivos por tr√°s da alta taxa de *churn* em segmentos espec√≠ficos (ex: usu√°rios de Fibra √ìptica, m√©todo de pagamento Cheque Eletr√¥nico).
*   **Estrat√©gias de Reten√ß√£o:** Desenvolver e implementar campanhas de reten√ß√£o segmentadas com base nos perfis de risco identificados e nas vari√°veis mais influentes.
*   **Melhoria do Modelo:** Explorar outros algoritmos de machine learning (como Random Forest, Gradient Boosting, SVM), otimizar hiperpar√¢metros do modelo atual, ou realizar engenharia de features mais avan√ßada para tentar melhorar a performance na previs√£o da classe *churn*.
*   **Valida√ß√£o Cruzada:** Implementar valida√ß√£o cruzada para obter uma estimativa mais robusta e confi√°vel do desempenho do modelo.