# Exercício para Encontrar Churn

Neste exercício, iremos trabalhar com um conjunto de dados para identificar clientes que estão propensos a churn (desistência ou cancelamento de serviço). O objetivo é analisar os dados, realizar a limpeza e aplicar técnicas de aprendizado de máquina para prever o churn.

## Passos do Exercício

1. **Importação de Bibliotecas**: Importar as bibliotecas necessárias para manipulação de dados e modelagem.
2. **Carregamento dos Dados**: Carregar o conjunto de dados em um DataFrame.
3. **Exploração dos Dados**: Realizar uma análise exploratória para entender as características dos dados.
4. **Pré-processamento**: Limpar e preparar os dados para modelagem.
5. **Modelagem**: Aplicar algoritmos de aprendizado de máquina para prever o churn.
6. **Avaliação**: Avaliar o desempenho do modelo utilizando métricas apropriadas.

## Objetivo

O objetivo principal é construir um modelo preditivo que possa identificar clientes com maior probabilidade de churn, permitindo que ações preventivas sejam tomadas.

In [9]:
pip install pandas


You should consider upgrading via the '/Users/tonibmartins/Churn-Predict/venv/bin/python -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [3]:
import pandas as pd

In [4]:
df = pd.read_csv('Data/data.csv')

columns = df.columns.tolist()
print(f"Columns in the DataFrame: {columns}")
print(f"Number of rows in the DataFrame: {len(df)}")
print(f"Number of data is NaN: {df.isna().sum().sum()}")
print(f"Data types of the DataFrame:\n{df.dtypes}")

Columns in the DataFrame: ['customerID', 'gender', 'SeniorCitizen', 'Partner', 'Dependents', 'tenure', 'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod', 'MonthlyCharges', 'TotalCharges', 'Churn']
Number of rows in the DataFrame: 7043
Number of data is NaN: 0
Data types of the DataFrame:
customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges         objec

In [5]:
print(df.describe())

       SeniorCitizen       tenure  MonthlyCharges
count    7043.000000  7043.000000     7043.000000
mean        0.162147    32.371149       64.761692
std         0.368612    24.559481       30.090047
min         0.000000     0.000000       18.250000
25%         0.000000     9.000000       35.500000
50%         0.000000    29.000000       70.350000
75%         0.000000    55.000000       89.850000
max         1.000000    72.000000      118.750000


In [None]:
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

print(df['TotalCharges'].isna().sum())  
df = df.dropna(subset=['TotalCharges'])  

df = df.drop('customerID', axis=1, errors='ignore')

# Transformar a coluna alvo em binária
df['Churn'] = df['Churn'].map({'Yes': 1, 'No': 0})

cat_cols = df.select_dtypes(include=['object']).columns.tolist()

df = pd.get_dummies(df, columns=cat_cols, drop_first=True)

11


In [12]:

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression


In [13]:

X = df.drop('Churn', axis=1)
y = df['Churn']

# Dividir em treino e teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print(f"Tamanho do treino: {X_train.shape}")
print(f"Tamanho do teste: {X_test.shape}")

Tamanho do treino: (4922, 30)
Tamanho do teste: (2110, 30)


In [14]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [15]:
from sklearn.linear_model import LogisticRegression

modelo = LogisticRegression(max_iter=1000)
modelo.fit(X_train_scaled, y_train)

In [16]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Previsão nos dados de teste
y_pred = modelo.predict(X_test_scaled)

# Acurácia
print("Acurácia:", accuracy_score(y_test, y_pred))

# Relatório de classificação
print(classification_report(y_test, y_pred))

# Matriz de confusão
print(confusion_matrix(y_test, y_pred))

Acurácia: 0.8071090047393364
              precision    recall  f1-score   support

           0       0.85      0.89      0.87      1549
           1       0.66      0.57      0.61       561

    accuracy                           0.81      2110
   macro avg       0.76      0.73      0.74      2110
weighted avg       0.80      0.81      0.80      2110

[[1384  165]
 [ 242  319]]
