## **Instalação das Ferramentas e Bibliotecas**

Nesta seção, serão instaladas as principais bibliotecas utilizadas para análise de dados em Python:

- **pandas**: manipulação e análise de dados
- **matplotlib**: visualização gráfica
- **numpy**: operações numéricas e vetoriais
- **scikit-learn**: modelagem e machine learning
- **seaborn**: visualização estatística avançada

Essas ferramentas são essenciais para manipulação, visualização e modelagem de dados ao longo do notebook.


In [4]:

%pip install -U pandas matplotlib numpy scikit-learn seaborn 

Note: you may need to restart the kernel to use updated packages.


# **Etapa 1: Coleta, Limpeza e EDA**

**1. Importação e Visualização Inicial:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Importar o CSV no Pandas  
&nbsp;&nbsp;&nbsp;&nbsp;• Verificar estatísticas básicas (`.describe()`, `.info()`)

**2. Tratamento de Dados:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Tratar valores faltantes e inconsistências

**3. Engenharia de Variáveis:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Converter variáveis categóricas via *One-Hot Encoding*  
&nbsp;&nbsp;&nbsp;&nbsp;• Escalonar variáveis numéricas com `StandardScaler`

**4. Análise Exploratória:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Gerar gráficos exploratórios:  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;– Histogramas  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;– Boxplots  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;– Matrizes de correlação


In [32]:
import pandas as pd
import matplotlib.pyplot as plt

dados_original = pd.read_csv('Telco-Customer-Churn.csv')
dados_original.describe() # estatísticas descritivas


Unnamed: 0,SeniorCitizen,tenure,MonthlyCharges
count,7043.0,7043.0,7043.0
mean,0.162147,32.371149,64.761692
std,0.368612,24.559481,30.090047
min,0.0,0.0,18.25
25%,0.0,9.0,35.5
50%,0.0,29.0,70.35
75%,0.0,55.0,89.85
max,1.0,72.0,118.75


In [33]:
dados_original.info() # informações gerais do DataFrame
dados_original.head() # primeiras linhas do DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [None]:
# cria uma cópia do DataFrame com nome dados_limpo
dados = dados_original.copy() 

# verifica quantidade de valores nulos em cada coluna
print(dados.isnull().sum()) 

# remove linhas com valores nulos
dados.dropna() 

# verifica quantidade de dados duplicados
print("\nQuantidade de dados duplicados: ", dados.duplicated().sum()) 
# remove dados duplicados
dados.drop_duplicates(inplace=True) 


customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

Quantidade de dados duplicados:  0


In [None]:
# converte TotalCharges para numérico
dados['TotalCharges'] = pd.to_numeric(dados['TotalCharges'], errors='coerce') 

# verifica o tipo de dado de TotalCharges
dados['TotalCharges'].info() 

<class 'pandas.core.series.Series'>
RangeIndex: 7043 entries, 0 to 7042
Series name: TotalCharges
Non-Null Count  Dtype  
--------------  -----  
7032 non-null   float64
dtypes: float64(1)
memory usage: 55.2 KB


In [None]:

from sklearn.preprocessing import OneHotEncoder # converte variáveis categóricas em numéricas

# cria uma instância do OneHotEncoder
encoder = OneHotEncoder()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.50,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.30,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.70,151.65,Yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7038,6840-RESVB,Male,0,Yes,Yes,24,Yes,Yes,DSL,Yes,...,Yes,Yes,Yes,Yes,One year,Yes,Mailed check,84.80,1990.50,No
7039,2234-XADUH,Female,0,Yes,Yes,72,Yes,Yes,Fiber optic,No,...,Yes,No,Yes,Yes,One year,Yes,Credit card (automatic),103.20,7362.90,No
7040,4801-JZAZL,Female,0,Yes,Yes,11,No,No phone service,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.60,346.45,No
7041,8361-LTMKD,Male,1,Yes,No,4,Yes,Yes,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Mailed check,74.40,306.60,Yes


# **Etapa 2: Engenharia de Atributos e Redução de Dimensionalidade**

**1. Criação de Features Derivadas:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Exemplo: tempo de contrato em meses, gastos médios.

**2. Seleção dos Melhores Atributos:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Utilizar `SelectKBest` para identificar as variáveis mais relevantes.

**3. Redução de Dimensionalidade:**  
&nbsp;&nbsp;&nbsp;&nbsp;• Aplicar PCA para visualização em 2D e possível redução do número de variáveis.


# **Etapa 3: Modelos de Classificação**

**1. Divisão dos Dados:**  
Dividir o conjunto em treino e teste (exemplo: 80% treino / 20% teste).

**2. Treinamento de Modelos:**  
Treinar três modelos de classificação:
- **Árvore de Decisão** (`DecisionTreeClassifier`)
- **Máquina de Vetores de Suporte** (`SVC`)
- **Perceptron Multicamadas** (`MLPClassifier`)

**3. Ajuste de Hiperparâmetros:**  
Utilizar `GridSearchCV` para encontrar os melhores hiperparâmetros de cada modelo.

**4. Avaliação de Desempenho:**  
Avaliar os modelos utilizando:
- Matriz de Confusão
- Precision, Recall, F1-Score
- ROC-AUC


# **Etapa 4: Clustering e Segmentação**

**1. Aplicar KMeans:**  
Segmentar a base completa (sem a variável de churn).

**2. (Opcional) Testar DBSCAN:**  
Explorar clusters de formas arbitrárias.

**3. Analisar cada cluster quanto a:**  
- **Taxa média de churn**
- **Receita média mensal**
- **Uso de serviços extras:** DSL, telefonia, streaming

**4. Visualizar clusters em 2D:**  
Utilizar PCA ou t-SNE para projeção e visualização.