# Preparação de Dados para Modelagem – Telecom X (Parte 2)

Este notebook é uma continuação do trabalho desenvolvido na **Parte 1** do desafio *Telecom X*, onde foi realizada a análise exploratória e o tratamento inicial dos dados relacionados à evasão de clientes (*churn*).

O objetivo aqui é **produzir um dataset final, pronto para uso em modelos de Machine Learning**, mantendo a consistência do processo e garantindo que as transformações sejam reprodutíveis.

As etapas principais deste notebook incluem:
1. **Carregamento dos dados tratados e bibliotecas**.
2. **Diagnósticos finais**.
3. **Encoding.**.
4. **Normalização/Escalonamento**.
5. **Separação em conjuntos de treino e teste**.
6. **Exportação do dataset final**.

Ao final deste processo, será gerado um arquivo pronto para ser consumido pelo Notebook 02 (*Modelagem*).

### **1 - Carregamento dos dados tratados e bibliotecas**

In [19]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [20]:
df = pd.read_csv("C:/data/TelecomX_Data_tratado.csv")

In [21]:
df.head()

Unnamed: 0,customerID,Evasao,Genero,Idoso,Possui_Parceiro,Possui_Dependentes,Meses_Contrato,Servico_Telefone,Multiplas_Linhas,Tipo_Internet,...,Protecao_Dispositivo,Suporte_Tecnico,Streaming_TV,Streaming_Filmes,Tipo_Contrato,Fatura_Digital,Metodo_Pagamento,Fatura_Mensal,Fatura_Total,Fatura_Diaria
0,0002-ORFBO,0,Female,0,1,1,9,1,0,DSL,...,0,1,1,0,One year,1,Mailed check,65.6,593.3,2.186667
1,0003-MKNFE,0,Male,0,0,0,9,1,1,DSL,...,0,0,0,1,Month-to-month,0,Mailed check,59.9,542.4,1.996667
2,0004-TLHLJ,1,Male,0,0,0,4,1,0,Fiber optic,...,1,0,0,0,Month-to-month,1,Electronic check,73.9,280.85,2.463333
3,0011-IGKFF,1,Male,1,1,0,13,1,0,Fiber optic,...,1,0,1,1,Month-to-month,1,Electronic check,98.0,1237.85,3.266667
4,0013-EXCHZ,1,Female,1,1,0,3,1,0,Fiber optic,...,0,1,1,0,Month-to-month,1,Mailed check,83.9,267.4,2.796667


### **2 - Diagnósticos finais**

In [22]:
# Ver tipos de dados e colunas
df.info()

# Verificar colunas únicas e estrutura
df.columns

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7032 entries, 0 to 7031
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   customerID            7032 non-null   object 
 1   Evasao                7032 non-null   int64  
 2   Genero                7032 non-null   object 
 3   Idoso                 7032 non-null   int64  
 4   Possui_Parceiro       7032 non-null   int64  
 5   Possui_Dependentes    7032 non-null   int64  
 6   Meses_Contrato        7032 non-null   int64  
 7   Servico_Telefone      7032 non-null   int64  
 8   Multiplas_Linhas      7032 non-null   int64  
 9   Tipo_Internet         7032 non-null   object 
 10  Seguranca_Online      7032 non-null   int64  
 11  Backup_Online         7032 non-null   int64  
 12  Protecao_Dispositivo  7032 non-null   int64  
 13  Suporte_Tecnico       7032 non-null   int64  
 14  Streaming_TV          7032 non-null   int64  
 15  Streaming_Filmes     

Index(['customerID', 'Evasao', 'Genero', 'Idoso', 'Possui_Parceiro',
       'Possui_Dependentes', 'Meses_Contrato', 'Servico_Telefone',
       'Multiplas_Linhas', 'Tipo_Internet', 'Seguranca_Online',
       'Backup_Online', 'Protecao_Dispositivo', 'Suporte_Tecnico',
       'Streaming_TV', 'Streaming_Filmes', 'Tipo_Contrato', 'Fatura_Digital',
       'Metodo_Pagamento', 'Fatura_Mensal', 'Fatura_Total', 'Fatura_Diaria'],
      dtype='object')

In [23]:
# Valores nulos
df.isnull().sum()

customerID              0
Evasao                  0
Genero                  0
Idoso                   0
Possui_Parceiro         0
Possui_Dependentes      0
Meses_Contrato          0
Servico_Telefone        0
Multiplas_Linhas        0
Tipo_Internet           0
Seguranca_Online        0
Backup_Online           0
Protecao_Dispositivo    0
Suporte_Tecnico         0
Streaming_TV            0
Streaming_Filmes        0
Tipo_Contrato           0
Fatura_Digital          0
Metodo_Pagamento        0
Fatura_Mensal           0
Fatura_Total            0
Fatura_Diaria           0
dtype: int64

In [24]:
# Verificar valores únicos em colunas categóricas
for col in df.select_dtypes(include='object').columns:
    print(f"{col}: {df[col].unique()}")

customerID: ['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
Genero: ['Female' 'Male']
Tipo_Internet: ['DSL' 'Fiber optic' 'No']
Tipo_Contrato: ['One year' 'Month-to-month' 'Two year']
Metodo_Pagamento: ['Mailed check' 'Electronic check' 'Credit card (automatic)'
 'Bank transfer (automatic)']


In [25]:
# Verificando valores nulos de Fatura_Total, antiga coluna account.Charges.Total
df['Fatura_Total'] = pd.to_numeric(df['Fatura_Total'], errors='coerce')

# valores nulos
df['Fatura_Total'].isnull().sum()

0

In [26]:
# Verificar duplicatas de customerID 
df['customerID'].duplicated().sum()

0


## 3 - Remoção de Colunas Irrelevantes
Removemos colunas que não agregam valor preditivo (identificadores indiretos ou quase únicos).
Com base na análise de cardinalidade, **`Fatura_Total`** foi identificada como candidata e será removida.


In [None]:

# Remover coluna irrelevante, se existir
cols_to_drop = [c for c in ["Fatura_Total"] if c in df.columns]
if cols_to_drop:
    df = df.drop(columns=cols_to_drop)
    print("Colunas removidas:", cols_to_drop)
else:
    print("Nenhuma das colunas candidatas estava presente para remoção.")



## 4 - Confirmação da Prontidão
Checagens objetivas para garantir que o dataset está íntegro e pronto para a modelagem:
- Estrutura e tipos de dados
- Valores ausentes e duplicados
- Sanidade dos rótulos categóricos


In [None]:

print("📊 Informações do dataset:")
print(df.info())

nulos = df.isnull().sum()
print("\n🔍 Valores ausentes por coluna:")
print(nulos[nulos > 0] if nulos.sum() > 0 else "Nenhum valor ausente encontrado.")

duplicatas = df.duplicated().sum()
print(f"\n📌 Registros duplicados: {duplicatas}")

print("\n📋 Valores únicos por coluna categórica:")
for col in df.select_dtypes(include="object"):
    print(f"{col}: {df[col].unique()}")

print("\n✅ Dataset verificado: pronto para a etapa de modelagem.")



## 5 - Exportação do Dataset Base
O arquivo exportado **não** aplica encoding ou normalização.  
Ele será consumido pelo **Notebook 2 – Modelagem**.


In [None]:

output_path = "dataset_base.csv"
df.to_csv(output_path, index=False)
print(f"💾 Dataset exportado para: {output_path}")



> **Conclusão:** o dataset tratado foi validado, colunas irrelevantes foram removidas e o arquivo base foi exportado.  
> Próxima etapa: **Notebook 2 – Modelagem**.
