Telecom X - Análise de Evasão de Clientes

Você foi contratado como assistente de análise de dados na Telecom X e fará parte do projeto "Churn de Clientes". A empresa enfrenta um alto índice de cancelamentos e precisa entender os fatores que levam à perda de clientes.

Seu desafio será coletar, tratar e analisar os dados, utilizando Python e suas principais bibliotecas para extrair insights valiosos. A partir da sua análise, os demais colegas da equipe de Data Science poderá avançar para modelos preditivos e desenvolver estratégias para reduzir a evasão.

O que você vai praticar:

✅ Importar e manipular dados de uma API de forma eficiente. ✅ Aplicar os conceitos de ETL (Extração, Transformação e Carga) na preparação dos dados. ✅ Criar visualizações de dados estratégicas para identificar padrões e tendências. ✅ Realizar uma Análise Exploratória de Dados (EDA) e gerar um relatório com insights relevantes.

Agora é sua vez! 🚀 Use seus conhecimentos para transformar dados brutos em informações estratégicas e ajudar a Telecom X a reter mais clientes.

#📌 Extração

✅ Carregar os dados diretamente da API utilizando Python.
✅ Converter os dados para um DataFrame do Pandas para facilitar a manipulação.

In [None]:
# importação de bibliotecas
# pandas
import pandas as pd
from pandas import json_normalize

# numpy
import numpy as np

### Executa somente no primeiro tratamento do dataframe

In [None]:
#### ATENÇÃO ####

# Leitura do arquivo no formato JSON e o converte em um DataFrame do pandas.
dados_telecom = pd.read_json('/content/TelecomX_Data.json')

# Exibe as primeiras linhas do DataFrame (por padrão, as 5 primeiras).
dados_telecom.head()

Unnamed: 0,id.cliente,contrato.ativo,cliente.genero,cliente.idoso,cliente.casado,cliente.dependentes,cliente.tempo.contrato,fone.assinatura,fone.assinatura.adicional,internet.assinatura,...,internet.protecao.dispositivo,internet.suporte,internet.streaming.tv,internet.streamingtv.filmes,conta.tipo.contrato,conta.fatura.digital,conta.metodo.pagamento,conta.valor.mensal,conta.valor.total.acumulado,conta.valor.diario
0,0002-ORFBO,0,female,0,1,1,9,1,0,dsl,...,0,1,1,0,one year,1,mailed check,65.6,593.3,2.155059
1,0003-MKNFE,0,male,0,0,0,9,1,1,dsl,...,0,0,0,1,month-to-month,0,mailed check,59.9,542.4,1.967806
2,0004-TLHLJ,1,male,0,0,0,4,1,0,fiber optic,...,1,0,0,0,month-to-month,1,electronic check,73.9,280.85,2.427727
3,0011-IGKFF,1,male,1,1,0,13,1,0,fiber optic,...,1,0,1,1,month-to-month,1,electronic check,98.0,1237.85,3.219448
4,0013-EXCHZ,1,female,1,1,0,3,1,0,fiber optic,...,0,1,1,0,month-to-month,1,mailed check,83.9,267.4,2.756242


### Executa somente nos processos de análise e manutenção

In [None]:
#  Leitura do arquivo no formato JSON e o converte em um DataFrame do pandas.
df_normalizado = pd.read_json('/content/TelecomX_normalizado.json2', lines=True)
df_normalizado.head()

Unnamed: 0,id.cliente,contrato.ativo,cliente.genero,cliente.idoso,cliente.casado,cliente.dependentes,cliente.tempo.contrato,fone.assinatura,fone.assinatura.adicional,internet.assinatura,...,internet.protecao.dispositivo,internet.suporte,internet.streaming.tv,internet.streamingtv.filmes,conta.tipo.contrato,conta.fatura.digital,conta.metodo.pagamento,conta.valor.mensal,conta.valor.total.acumulado,conta.valor.diario
0,0002-ORFBO,0,female,0,1,1,9,1,0,dsl,...,0,1,1,0,one year,1,mailed check,65.6,593.3,2.155059
1,0003-MKNFE,0,male,0,0,0,9,1,1,dsl,...,0,0,0,1,month-to-month,0,mailed check,59.9,542.4,1.967806
2,0004-TLHLJ,1,male,0,0,0,4,1,0,fiber optic,...,1,0,0,0,month-to-month,1,electronic check,73.9,280.85,2.427727
3,0011-IGKFF,1,male,1,1,0,13,1,0,fiber optic,...,1,0,1,1,month-to-month,1,electronic check,98.0,1237.85,3.219448
4,0013-EXCHZ,1,female,1,1,0,3,1,0,fiber optic,...,0,1,1,0,month-to-month,1,mailed check,83.9,267.4,2.756242


#### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa
* `gender`: gênero (masculino e feminino)
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico
* `MultipleLines`: assinatura de mais de uma linha de telefone
* `InternetService`: assinatura de um provedor internet
* `OnlineSecurity`: assinatura adicional de segurança online
* `OnlineBackup`: assinatura adicional de backup online
* `DeviceProtection`: assinatura adicional de proteção no dispositivo
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo
* `StreamingMovies`: assinatura de streaming de filmes
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

#🔧 Transformação

### Processo inicial de normalização dos dados. Executar apenas no primeiro processo

In [None]:
# Usando json_normalize para "achatar" os dicionários aninhados
df_normalizado = pd.json_normalize( dados_telecom.to_dict(orient='records') )

# Visualizar dos dados
df_normalizado

Unnamed: 0,customerID,Churn,customer.gender,customer.SeniorCitizen,customer.Partner,customer.Dependents,customer.tenure,phone.PhoneService,phone.MultipleLines,internet.InternetService,...,internet.OnlineBackup,internet.DeviceProtection,internet.TechSupport,internet.StreamingTV,internet.StreamingMovies,account.Contract,account.PaperlessBilling,account.PaymentMethod,account.Charges.Monthly,account.Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,No,Yes,No,No,One year,No,Mailed check,55.15,742.9
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,No,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65


In [None]:
# apresenta informação das colunas disponíveis
df_normalizado.dtypes

Unnamed: 0,0
customerID,object
Churn,object
customer.gender,object
customer.SeniorCitizen,int64
customer.Partner,object
customer.Dependents,object
customer.tenure,int64
phone.PhoneService,object
phone.MultipleLines,object
internet.InternetService,object


## Verifica valores nulos e duplicados

In [None]:
# verifica se existem valores nulos
df_normalizado.isnull().sum()

Unnamed: 0,0
customerID,0
Churn,0
customer.gender,0
customer.SeniorCitizen,0
customer.Partner,0
customer.Dependents,0
customer.tenure,0
phone.PhoneService,0
phone.MultipleLines,0
internet.InternetService,0


In [None]:
# verifica se existem valores duplicados
df_normalizado.duplicated().sum()

np.int64(0)

## Converte colunas Object para float

In [None]:
# converte cooluna total para float
df_normalizado['account.Charges.Total'] = pd.to_numeric(df_normalizado['account.Charges.Total'], errors='coerce')

In [None]:
# converte valores NaN = 0
df_normalizado['account.Charges.Total'] = df_normalizado['account.Charges.Total'].fillna(0)

In [None]:
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7267 non-null   object 
 1   Churn                      7267 non-null   object 
 2   customer.gender            7267 non-null   object 
 3   customer.SeniorCitizen     7267 non-null   int64  
 4   customer.Partner           7267 non-null   object 
 5   customer.Dependents        7267 non-null   object 
 6   customer.tenure            7267 non-null   int64  
 7   phone.PhoneService         7267 non-null   object 
 8   phone.MultipleLines        7267 non-null   object 
 9   internet.InternetService   7267 non-null   object 
 10  internet.OnlineSecurity    7267 non-null   object 
 11  internet.OnlineBackup      7267 non-null   object 
 12  internet.DeviceProtection  7267 non-null   object 
 13  internet.TechSupport       7267 non-null   objec

## Trata colunas Object - converte colunas de texto em minúsculas e remove espaços

In [None]:
# converte em minúsculas e remove espaços, exceto CUSTOMERID
df_normalizado = df_normalizado.apply(
    lambda col: col.str.strip().str.lower() if col.name not in ['customerID'] and col.dtypes == 'object' else col
)

In [None]:
# verifica se existem valores nulos
df_normalizado['Churn'].isna().sum()

np.int64(0)

In [None]:
# Verificar todos os valores únicos da coluna - Isso mostra todos os valores distintos presentes, incluindo erros como 'yes', ' NO', 'Sim', '0', etc
for col in df_normalizado.select_dtypes(include='object').columns:
    print(f"\nColuna: {col}")
    print(df_normalizado[col].unique())


Coluna: customerID
['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']

Coluna: Churn
['no' 'yes' '']

Coluna: customer.gender
['female' 'male']

Coluna: customer.Partner
['yes' 'no']

Coluna: customer.Dependents
['yes' 'no']

Coluna: phone.PhoneService
['yes' 'no']

Coluna: phone.MultipleLines
['no' 'yes' 'no phone service']

Coluna: internet.InternetService
['dsl' 'fiber optic' 'no']

Coluna: internet.OnlineSecurity
['no' 'yes' 'no internet service']

Coluna: internet.OnlineBackup
['yes' 'no' 'no internet service']

Coluna: internet.DeviceProtection
['no' 'yes' 'no internet service']

Coluna: internet.TechSupport
['yes' 'no' 'no internet service']

Coluna: internet.StreamingTV
['yes' 'no' 'no internet service']

Coluna: internet.StreamingMovies
['no' 'yes' 'no internet service']

Coluna: account.Contract
['one year' 'month-to-month' 'two year']

Coluna: account.PaperlessBilling
['yes' 'no']

Coluna: account.PaymentMethod
['mailed check' 'electronic c

## Tratamento dos valores para um modelo preditivo

### Remove registros inconsistentes da coluna CHURN

In [None]:
# Removendo registros com Churn = ''
# O alvo (Churn) é a variável que o modelo tenta prever.
# Registros com valor vazio não ajudam o modelo — não têm rótulo para aprender.
# Podem introduzir ruído e confundir o algoritmo, prejudicando a performance.

# Verifica quantos registros devem ser removidos:
print("Antes:", df_normalizado.shape[0])

# verifica quantos registros da coluna CHURN tem valor = ''
filtro_vazios = df_normalizado[df_normalizado['Churn'] == '']
print("Total de registros com Churn vazio:", filtro_vazios.shape[0])

# remove registros com CHURN = ''
df_normalizado = df_normalizado[df_normalizado['Churn'].isin(['yes', 'no'])]

# Verifica quantos registros devem ser removidos:
print("Depois:", df_normalizado.shape[0])

Antes: 7267
Total de registros com Churn vazio: 224
Depois: 7043


In [None]:
df_normalizado['Churn'].unique()

array(['no', 'yes'], dtype=object)

### Padronização da colunaphone.MultipleLines

In [None]:
# Conteúdo encontrado = ['no' 'yes' 'no phone service']
print(df_normalizado['phone.MultipleLines'].unique())
df_normalizado['phone.MultipleLines'] = df_normalizado['phone.MultipleLines'].replace('no phone service', 'no')
print(df_normalizado['phone.MultipleLines'].unique())

['no' 'yes' 'no phone service']
['no' 'yes']


### Validação de inconsistência das informações de contratação de internet e streaming

Padronizando 'no internet service' para valor booleano 'no'

Na maioria dos casos de modelagem preditiva, substituir 'no internet service' por 'no' é uma escolha apropriada e eficaz.

As colunas como OnlineSecurity, OnlineBackup, TechSupport, etc. dependem da presença de serviço de internet. Quando o cliente não tem internet, esses serviços naturalmente não estão disponíveis, o que na prática é equivalente a 'no'.

✅ Portanto:

Valor original = [1- 'no internet service']	[2- 'no']

Interpretação prática	= [1- Não usa o serviço] [2- Usa, mas desabilitado]

Valor convertido = 'no'


✅ Vantagens da conversão:

Reduz o número de categorias → melhora o desempenho e evita overfitting.

Simplifica a codificação.

Evita dados esparsos ao usar One-Hot Encoding.

Para modelagem preditiva, especialmente churn, isso raramente ajuda e só aumenta a complexidade sem ganhos.

Antes, porém, é coerente e importante validar isso antes da substituição, e sua linha de raciocínio está alinhada com uma análise de dados responsável.

✅ Por que essa verificação é necessária?
Porque:

* Se um cliente tem internet.InternetService = 'dsl' ou 'fiber optic' (ou seja, tem internet),
* Mas aparece como 'no internet service' em colunas como OnlineSecurity, isso indica inconsistência nos dados (erro de entrada, registro inválido etc.).



In [None]:
# Verificar inconsistências
inconsistentes = df_normalizado[
    (df_normalizado['internet.InternetService'].isin(['dsl', 'fiber optic'])) &
    (
        (df_normalizado['internet.OnlineSecurity'] == 'no internet service') |
        (df_normalizado['internet.OnlineBackup'] == 'no internet service') |
        (df_normalizado['internet.DeviceProtection'] == 'no internet service') |
        (df_normalizado['internet.TechSupport'] == 'no internet service') |
        (df_normalizado['internet.StreamingTV'] == 'no internet service') |
        (df_normalizado['internet.StreamingMovies'] == 'no internet service')
    )
]

print(f"Registros inconsistentes encontrados: {inconsistentes.shape[0]}")

Registros inconsistentes encontrados: 0


In [None]:
# Converte conteúdo dos registros = 'no internet service' para 'no'
colunas_internet = [
    'internet.OnlineSecurity',
    'internet.OnlineBackup',
    'internet.DeviceProtection',
    'internet.TechSupport',
    'internet.StreamingTV',
    'internet.StreamingMovies'
]

for col in colunas_internet:
    df_normalizado[col] = df_normalizado[col].replace('no internet service', 'no')
    print(f"{col}: {df_normalizado[col].unique()}")

internet.OnlineSecurity: ['no' 'yes']
internet.OnlineBackup: ['yes' 'no']
internet.DeviceProtection: ['no' 'yes']
internet.TechSupport: ['yes' 'no']
internet.StreamingTV: ['yes' 'no']
internet.StreamingMovies: ['no' 'yes']


### Converte valores 'yes' e 'no' do tipo object em tipo numérico

In [None]:
# salva uma cópia do dataframe para backup de segurança
df_normalizado.to_json('backup_dados.json2', orient='records', lines=True, force_ascii=False)

In [None]:
# converte os valores OBJECT 'yes' e 'no' em numérico 1 e 0, para modelo preditivo
for col in df_normalizado.select_dtypes(include='object').columns:
    valores_unicos = df_normalizado[col].dropna().str.strip().str.lower().unique()
    if set(valores_unicos).issubset({'yes', 'no'}):
        print(f"Convertendo coluna: {col}")
        df_normalizado[col] = df_normalizado[col].str.strip().str.lower().map({'yes': 1, 'no': 0})

Convertendo coluna: Churn
Convertendo coluna: customer.Partner
Convertendo coluna: customer.Dependents
Convertendo coluna: phone.PhoneService
Convertendo coluna: phone.MultipleLines
Convertendo coluna: internet.OnlineSecurity
Convertendo coluna: internet.OnlineBackup
Convertendo coluna: internet.DeviceProtection
Convertendo coluna: internet.TechSupport
Convertendo coluna: internet.StreamingTV
Convertendo coluna: internet.StreamingMovies
Convertendo coluna: account.PaperlessBilling


In [None]:
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   customerID                 7043 non-null   object 
 1   Churn                      7043 non-null   int64  
 2   customer.gender            7043 non-null   object 
 3   customer.SeniorCitizen     7043 non-null   int64  
 4   customer.Partner           7043 non-null   int64  
 5   customer.Dependents        7043 non-null   int64  
 6   customer.tenure            7043 non-null   int64  
 7   phone.PhoneService         7043 non-null   int64  
 8   phone.MultipleLines        7043 non-null   int64  
 9   internet.InternetService   7043 non-null   object 
 10  internet.OnlineSecurity    7043 non-null   int64  
 11  internet.OnlineBackup      7043 non-null   int64  
 12  internet.DeviceProtection  7043 non-null   int64  
 13  internet.TechSupport       7043 non-null   int64  
 1

In [None]:
# validação dos dados padronizados
for col in df_normalizado.columns:
    print(f"\nColuna: {col}")
    print(df_normalizado[col].unique())


Coluna: customerID
['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']

Coluna: Churn
[0 1]

Coluna: customer.gender
['female' 'male']

Coluna: customer.SeniorCitizen
[0 1]

Coluna: customer.Partner
[1 0]

Coluna: customer.Dependents
[1 0]

Coluna: customer.tenure
[ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 37 49 66 67
 20 43 59 12 27  2 25 29 14 35 64 39 40 11  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 31 36 17 18 51 38 42
  0]

Coluna: phone.PhoneService
[1 0]

Coluna: phone.MultipleLines
[0 1]

Coluna: internet.InternetService
['dsl' 'fiber optic' 'no']

Coluna: internet.OnlineSecurity
[0 1]

Coluna: internet.OnlineBackup
[1 0]

Coluna: internet.DeviceProtection
[0 1]

Coluna: internet.TechSupport
[1 0]

Coluna: internet.StreamingTV
[1 0]

Coluna: internet.StreamingMovies
[0 1]

Coluna: account.Contract
['one year' 'month-to-month' 'two year']

Coluna: account.PaperlessBilling
[1 0]

Coluna: ac

### Renomeando colunas

In [None]:
df_normalizado.rename(columns={
    'customerID': 'id.cliente',
    'Churn': 'contrato.ativo',
    'customer.gender': 'cliente.genero',
    'customer.SeniorCitizen': 'cliente.idoso',
    'customer.Partner': 'cliente.casado',
    'customer.Dependents': 'cliente.dependentes',
    'customer.tenure': 'cliente.tempo.contrato',

    'phone.PhoneService': 'fone.assinatura',
    'phone.MultipleLines': 'fone.assinatura.adicional',

    'internet.InternetService': 'internet.assinatura',
    'internet.OnlineSecurity': 'internet.seguranca',
    'internet.OnlineBackup': 'internet.backup',
    'internet.DeviceProtection': 'internet.protecao.dispositivo',
    'internet.TechSupport': 'internet.suporte',
    'internet.StreamingTV': 'internet.streaming.tv',
    'internet.StreamingMovies': 'internet.streamingtv.filmes',

    'account.Contract': 'conta.tipo.contrato',
    'account.PaperlessBilling': 'conta.fatura.digital',
    'account.PaymentMethod': 'conta.metodo.pagamento',
    'account.Charges.Monthly': 'conta.valor.mensal',
    'account.Charges.Total': 'conta.valor.total.acumulado'
}, inplace=True)

In [None]:
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   id.cliente                     7043 non-null   object 
 1   contrato.ativo                 7043 non-null   int64  
 2   cliente.genero                 7043 non-null   object 
 3   cliente.idoso                  7043 non-null   int64  
 4   cliente.casado                 7043 non-null   int64  
 5   cliente.dependentes            7043 non-null   int64  
 6   cliente.tempo.contrato         7043 non-null   int64  
 7   fone.assinatura                7043 non-null   int64  
 8   fone.assinatura.adicional      7043 non-null   int64  
 9   internet.assinatura            7043 non-null   object 
 10  internet.seguranca             7043 non-null   int64  
 11  internet.backup                7043 non-null   int64  
 12  internet.protecao.dispositivo  7043 non-null   int64 

### Criando uma coluna de Contas_Diarias

Agora, com os dados limpos, vamos criar a coluna "Contas_Diarias". Utilizando o faturamento mensal para calcular o valor diário, proporcionando uma visão mais detalhada do comportamento dos clientes ao longo do tempo.

In [None]:
# Cálculo do valor diário, com base no valor mensal.
# Para um valor mais preciso, usamos como base no número exato de dias (como 30.44, que é a média do ano)

df_normalizado['conta.valor.diario'] = df_normalizado['conta.valor.mensal'] / 30.44

In [None]:
print(df_normalizado[['conta.valor.mensal', 'conta.valor.diario']].head())

   conta.valor.mensal  conta.valor.diario
0                65.6            2.155059
1                59.9            1.967806
2                73.9            2.427727
3                98.0            3.219448
4                83.9            2.756242


## Exporta dataframe tratado

In [None]:
# salva uma cópia do dataframe normalizado
df_normalizado.to_json('TelecomX_normalizado.json2', orient='records', lines=True, force_ascii=False)