#📌 Extracão

In [9]:
import pandas as pd

# Recarrega os dados
url = "https://raw.githubusercontent.com/alura-cursos/challenge2-data-science/main/TelecomX_Data.json"
df = pd.read_json(url)

# Normalizando as colunas aninhadas
df_normalizado = pd.json_normalize(df.to_dict(orient='records'))

# Exibir o DataFrame
df_normalizado.head()

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


### 📌 Extração dos Dados

Nesta etapa, realizamos a extração dos dados da Telecom X diretamente de uma fonte online. Os dados estavam disponíveis em formato JSON em um repositório do GitHub. Utilizamos a biblioteca `pandas` para carregar os dados de forma eficiente.

Inicialmente, o arquivo JSON continha colunas com estruturas aninhadas (dicionários), o que dificulta a manipulação direta. Para resolver isso, utilizamos a função `pd.json_normalize()` para transformar essas estruturas em colunas planas, facilitando as etapas seguintes do processo ETL.

Com isso, agora temos um DataFrame estruturado, pronto para a próxima fase: a transformação dos dados.


#🔧 Transformação

In [10]:
# Informações gerais: número de entradas, colunas e tipos
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  internet.DeviceProtection  7267 non-null   object 
 13  internet.TechSupport       7267 non-null   objec

In [11]:
# Tipos de dados das colunas
df_normalizado.dtypes

Unnamed: 0,0
customerID,object
Churn,object
customer.gender,object
customer.SeniorCitizen,int64
customer.Partner,object
customer.Dependents,object
customer.tenure,int64
phone.PhoneService,object
phone.MultipleLines,object
internet.InternetService,object


In [12]:
# Exibir as primeiras linhas para revisar a estrutura geral
df_normalizado.head()

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


#### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa
* `gender`: gênero (masculino e feminino)
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico
* `MultipleLines`: assisnatura de mais de uma linha de telefone
* `InternetService`: assinatura de um provedor internet
* `OnlineSecurity`: assinatura adicional de segurança online
* `OnlineBackup`: assinatura adicional de backup online
* `DeviceProtection`: assinatura adicional de proteção no dispositivo
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo
* `StreamingMovies`: assinatura de streaming de filmes
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

✅ Colunas importantes para evasão (Churn):
Coluna-alvo: Churn

Demográficas: customer.gender, customer.SeniorCitizen, customer.Partner, customer.Dependents

Comportamento: customer.tenure, phone.PhoneService, internet.InternetService, internet.OnlineSecurity, etc.

Financeiras: account.Contract, account.Charges.Monthly, account.Charges.Total

### 🔧 Transformação - Etapa 1: Conhecendo o Dataset

Nesta etapa, o objetivo foi compreender a estrutura do dataset carregado para identificar quais variáveis são relevantes para a análise de evasão de clientes (churn).

As seguintes ações foram realizadas:

- 🔍 Utilizamos o método `df_normalizado.info()` para verificar o número de entradas, colunas e tipos de dados.
- 📑 Consultamos o [dicionário de dados](https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_dicionario.md) para entender o significado de cada variável.
- 🎯 Identificamos colunas potencialmente relevantes para prever a evasão, como:
  - Demográficas: `customer.gender`, `customer.SeniorCitizen`, `customer.Partner`, `customer.Dependents`
  - De serviços contratados: `phone.PhoneService`, `internet.InternetService`, `internet.OnlineSecurity`, etc.
  - Financeiras e contratuais: `account.Contract`, `account.PaymentMethod`, `account.Charges.Monthly`, `account.Charges.Total`
  - Variável alvo: `Churn`

Essa análise inicial é essencial para orientar as próximas etapas de limpeza e preparação dos dados.


In [13]:
# 1. Verificar valores ausentes
print("🔍 Valores ausentes por coluna:\n")
print(df_normalizado.isnull().sum())

# 2. Verificar duplicatas (baseada no ID do cliente)
print("\n📋 Linhas duplicadas com base em customerID:\n")
print(df_normalizado.duplicated(subset='customerID').sum())

# 3. Verificar tipos de dados novamente
print("\n🔍 Tipos de dados das colunas:\n")
print(df_normalizado.dtypes)

# 4. Conferir valores únicos por coluna categórica
colunas_categoricas = df_normalizado.select_dtypes(include='object').columns

print("\n📌 Valores únicos por coluna categórica:\n")
for col in colunas_categoricas:
    print(f"{col}: {df_normalizado[col].unique()}\n")


🔍 Valores ausentes por coluna:

customerID                   0
Churn                        0
customer.gender              0
customer.SeniorCitizen       0
customer.Partner             0
customer.Dependents          0
customer.tenure              0
phone.PhoneService           0
phone.MultipleLines          0
internet.InternetService     0
internet.OnlineSecurity      0
internet.OnlineBackup        0
internet.DeviceProtection    0
internet.TechSupport         0
internet.StreamingTV         0
internet.StreamingMovies     0
account.Contract             0
account.PaperlessBilling     0
account.PaymentMethod        0
account.Charges.Monthly      0
account.Charges.Total        0
dtype: int64

📋 Linhas duplicadas com base em customerID:

0

🔍 Tipos de dados das colunas:

customerID                    object
Churn                         object
customer.gender               object
customer.SeniorCitizen         int64
customer.Partner              object
customer.Dependents           object
cu

### 🔧 Transformação - Etapa 2: Verificando Inconsistências nos Dados

Nesta etapa, analisamos possíveis problemas no dataset que poderiam comprometer a análise e a qualidade do modelo. Verificamos a existência de valores ausentes, duplicados, tipos de dados inadequados e inconsistências nas categorias.

As verificações e achados foram:

- ✅ **Valores ausentes:** Nenhuma coluna possui valores `NaN`, mas identificamos **valores vazios (`''`) na coluna `Churn`**, que precisam ser tratados.
- ✅ **Duplicatas:** Nenhuma linha duplicada com base na coluna `customerID`.
- ⚠️ **Tipo incorreto:** A coluna `account.Charges.Total` está como `object`, mas deveria ser numérica (`float`). Isso indica presença de valores não numéricos (como strings vazias) que precisam ser convertidos corretamente.
- ⚠️ **Categorias inconsistentes:** Algumas colunas categóricas contêm valores como `"No internet service"` ou `"No phone service"`. Esses valores são redundantes e poderão ser padronizados para `"No"`, facilitando a análise e a modelagem.

Esses pontos servirão como base para a próxima etapa, onde realizaremos o tratamento direto dessas inconsistências.


In [14]:
# Criando uma cópia do DataFrame para manter o original intacto
df_tratado = df_normalizado.copy()

# 1. Substituir valores vazios na coluna 'Churn' por NaN e remover esses registros
import numpy as np
df_tratado['Churn'] = df_tratado['Churn'].replace('', np.nan)
df_tratado = df_tratado.dropna(subset=['Churn'])

# 2. Corrigir tipo da coluna 'account.Charges.Total'
# Substituir strings vazias por NaN
df_tratado['account.Charges.Total'] = df_tratado['account.Charges.Total'].replace(' ', np.nan)
# Converter para float
df_tratado['account.Charges.Total'] = df_tratado['account.Charges.Total'].astype(float)

# 3. Padronizar categorias como "No internet service" e "No phone service" para "No"
colunas_com_no_service = [
    'phone.MultipleLines',
    'internet.OnlineSecurity',
    'internet.OnlineBackup',
    'internet.DeviceProtection',
    'internet.TechSupport',
    'internet.StreamingTV',
    'internet.StreamingMovies'
]

for col in colunas_com_no_service:
    df_tratado[col] = df_tratado[col].replace({'No internet service': 'No', 'No phone service': 'No'})

# 4. Confirmar se tudo foi aplicado corretamente
print("✔️ Tipos de dados corrigidos:")
print(df_tratado.dtypes)

print("\n🧼 Valores ausentes após tratamento:")
print(df_tratado.isnull().sum())

✔️ Tipos de dados corrigidos:
customerID                    object
Churn                         object
customer.gender               object
customer.SeniorCitizen         int64
customer.Partner              object
customer.Dependents           object
customer.tenure                int64
phone.PhoneService            object
phone.MultipleLines           object
internet.InternetService      object
internet.OnlineSecurity       object
internet.OnlineBackup         object
internet.DeviceProtection     object
internet.TechSupport          object
internet.StreamingTV          object
internet.StreamingMovies      object
account.Contract              object
account.PaperlessBilling      object
account.PaymentMethod         object
account.Charges.Monthly      float64
account.Charges.Total        float64
dtype: object

🧼 Valores ausentes após tratamento:
customerID                    0
Churn                         0
customer.gender               0
customer.SeniorCitizen        0
customer.Partn

In [15]:
df_tratado['account.Charges.Total'] = df_tratado['account.Charges.Total'].fillna(0)
print(df_tratado.isnull().sum())

customerID                   0
Churn                        0
customer.gender              0
customer.SeniorCitizen       0
customer.Partner             0
customer.Dependents          0
customer.tenure              0
phone.PhoneService           0
phone.MultipleLines          0
internet.InternetService     0
internet.OnlineSecurity      0
internet.OnlineBackup        0
internet.DeviceProtection    0
internet.TechSupport         0
internet.StreamingTV         0
internet.StreamingMovies     0
account.Contract             0
account.PaperlessBilling     0
account.PaymentMethod        0
account.Charges.Monthly      0
account.Charges.Total        0
dtype: int64


### 🔧 Transformação - Etapa 3: Tratando as Inconsistências

Com as inconsistências identificadas na etapa anterior, realizamos os seguintes tratamentos para garantir a integridade e consistência do dataset:

- 🧹 **Remoção de registros inválidos:** Substituímos valores vazios (`''`) na coluna `Churn` por `NaN` e eliminamos esses registros do DataFrame.
- 🔄 **Conversão de tipos:** A coluna `account.Charges.Total`, originalmente do tipo `object`, foi convertida para `float64`. Antes disso, valores vazios foram convertidos em `NaN`.
- 🧼 **Padronização de categorias:** Valores como `"No internet service"` e `"No phone service"` foram padronizados como `"No"` em colunas relacionadas aos serviços, para evitar ambiguidade e facilitar a análise.
- ➕ **Preenchimento de valores ausentes:** Após a conversão de `account.Charges.Total`, restaram 11 valores ausentes, que foram preenchidos com `0`, assumindo que representam clientes novos ou cobranças não aplicáveis.

Com isso, o dataset está limpo, completo e padronizado, pronto para a etapa de análise exploratória.


In [16]:
# Criar coluna 'Contas_Diarias' com base no valor mensal dividido por 30 dias
df_tratado['Contas_Diarias'] = df_tratado['account.Charges.Monthly'] / 30

# Visualizar as primeiras linhas para conferência
df_tratado[['account.Charges.Monthly', 'Contas_Diarias']].head()

Unnamed: 0,account.Charges.Monthly,Contas_Diarias
0,65.6,2.186667
1,59.9,1.996667
2,73.9,2.463333
3,98.0,3.266667
4,83.9,2.796667


### 🔧 Transformação - Etapa 4: Coluna de Contas Diárias

Nesta etapa, foi criada uma nova variável chamada `Contas_Diarias`, com o objetivo de fornecer uma visão mais granular do comportamento financeiro dos clientes da Telecom X.

A coluna foi derivada da variável `account.Charges.Monthly`, que representa o valor da fatura mensal de cada cliente. Para obter uma média de gasto diário, utilizamos a seguinte fórmula:


Assumimos que cada mês tem em média 30 dias, de modo a facilitar a análise. Essa transformação permite entender o comportamento de pagamento com maior detalhamento, o que pode ser útil para identificar padrões de evasão relacionados ao custo diário percebido.

A nova coluna foi adicionada ao DataFrame `df_tratado` e está pronta para ser utilizada nas próximas análises.


In [18]:
# Colunas booleanas para conversão
colunas_binarias = [
    'Churn', 'customer.Partner', 'customer.Dependents',
    'phone.PhoneService', 'phone.MultipleLines',
    'internet.OnlineSecurity', 'internet.OnlineBackup',
    'internet.DeviceProtection', 'internet.TechSupport',
    'internet.StreamingTV', 'internet.StreamingMovies',
    'account.PaperlessBilling'
]

# Conversão de Yes/No para 1/0
df_tratado[colunas_binarias] = df_tratado[colunas_binarias].replace({'Yes': 1, 'No': 0})

# Visualizar amostra das colunas convertidas
df_tratado[colunas_binarias].head()

Unnamed: 0,Churn,customer.Partner,customer.Dependents,phone.PhoneService,phone.MultipleLines,internet.OnlineSecurity,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.PaperlessBilling
0,0,1,1,1,0,0,1,0,1,1,0,1
1,0,0,0,1,1,0,0,0,0,0,1,0
2,1,0,0,1,0,0,0,1,0,0,0,1
3,1,1,0,1,0,0,1,1,0,1,1,1
4,1,1,0,1,0,0,0,0,1,1,0,1


In [19]:
df_tratado.rename(columns={
    'customerID': 'ID_Cliente',
    'customer.gender': 'Genero',
    'customer.SeniorCitizen': 'Idoso',
    'customer.tenure': 'MesesCliente',
    'account.Charges.Monthly': 'ValorMensal',
    'account.Charges.Total': 'ValorTotal',
    'account.Contract': 'TipoContrato',
    'account.PaymentMethod': 'MetodoPagamento',
    'account.PaperlessBilling': 'FaturaDigital',
    'phone.PhoneService': 'TelefoneAtivo',
    'phone.MultipleLines': 'MultiplasLinhas',
    'internet.InternetService': 'TipoInternet',
    'internet.OnlineSecurity': 'SegurancaOnline',
    'internet.OnlineBackup': 'BackupOnline',
    'internet.DeviceProtection': 'ProtecaoDispositivo',
    'internet.TechSupport': 'SuporteTecnico',
    'internet.StreamingTV': 'StreamingTV',
    'internet.StreamingMovies': 'StreamingFilmes'
}, inplace=True)

# Visualizar primeiras colunas do DataFrame renomeado
df_tratado.head()

Unnamed: 0,ID_Cliente,Churn,Genero,Idoso,customer.Partner,customer.Dependents,MesesCliente,TelefoneAtivo,MultiplasLinhas,TipoInternet,...,ProtecaoDispositivo,SuporteTecnico,StreamingTV,StreamingFilmes,TipoContrato,FaturaDigital,MetodoPagamento,ValorMensal,ValorTotal,Contas_Diarias
0,0002-ORFBO,0,Female,0,1,1,9,1,0,DSL,...,0,1,1,0,One year,1,Mailed check,65.6,593.3,2.186667
1,0003-MKNFE,0,Male,0,0,0,9,1,1,DSL,...,0,0,0,1,Month-to-month,0,Mailed check,59.9,542.4,1.996667
2,0004-TLHLJ,1,Male,0,0,0,4,1,0,Fiber optic,...,1,0,0,0,Month-to-month,1,Electronic check,73.9,280.85,2.463333
3,0011-IGKFF,1,Male,1,1,0,13,1,0,Fiber optic,...,1,0,1,1,Month-to-month,1,Electronic check,98.0,1237.85,3.266667
4,0013-EXCHZ,1,Female,1,1,0,3,1,0,Fiber optic,...,0,1,1,0,Month-to-month,1,Mailed check,83.9,267.4,2.796667


### 🔧 Transformação - Etapa 5: Padronização e Transformação de Dados (Opcional)

Nesta etapa opcional, realizamos transformações que visam tornar os dados mais consistentes, claros e adequados para análises quantitativas e apresentação a stakeholders.

As ações realizadas foram:

- 🔢 **Conversão de valores textuais binários:** Colunas com respostas "Yes" e "No" foram convertidas para 1 e 0, facilitando o uso futuro em modelos analíticos. Isso incluiu variáveis como `Churn`, `Partner`, `Dependents`, `PhoneService`, `OnlineSecurity`, entre outras.
  
- 🏷️ **Renomeação de colunas:** Diversas colunas foram renomeadas para termos mais simples e intuitivos, tornando o dataset mais legível para humanos e mais prático para uso em análises e visualizações. Por exemplo:
  - `customer.tenure` → `MesesCliente`
  - `account.Charges.Total` → `ValorTotal`
  - `internet.OnlineSecurity` → `SegurancaOnline`

Essas mudanças não afetam os dados em si, mas tornam o processo de exploração, visualização e comunicação dos resultados mais fluido e eficiente.


#📊 Carga e análise

#📄Relatorio Final