# CHALLENGE ONE

***Desafio Telecom X***

O desafio Telecom X é uma oportunidade para aplicação das habilidades essenciais de análise de dados em um cenário de negócios real.

#### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa
* `gender`: gênero (masculino e feminino)
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico
* `MultipleLines`: assisnatura de mais de uma linha de telefone
* `InternetService`: assinatura de um provedor internet
* `OnlineSecurity`: assinatura adicional de segurança online
* `OnlineBackup`: assinatura adicional de backup online
* `DeviceProtection`: assinatura adicional de proteção no dispositivo
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo
* `StreamingMovies`: assinatura de streaming de filmes
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

# 📌 Extracão

In [None]:
import pandas as pd

dados = pd.read_json('/content/TelecomX_Data.json')


In [None]:
customer_normalized = pd.json_normalize(dados['customer'])

phone_normalized = pd.json_normalize(dados['phone'])

internet_normalized = pd.json_normalize(dados['internet'])

account_normalized = pd.json_normalize(dados['account'])

normalized_df = pd.concat([
    dados[['customerID', 'Churn']],
    customer_normalized,
    phone_normalized,
    internet_normalized,
    account_normalized
], axis=1)


In [None]:
normalized_df

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,No,Yes,No,No,One year,No,Mailed check,55.15,742.9
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,No,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65


# 🔧 Transformação

In [None]:
normalized_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


In [None]:
# Procurando espaços em branco

df_strings = normalized_df.select_dtypes(include='object')

espacos_vazios_por_coluna = (df_strings.apply(lambda col: col.str.strip() == '')).sum()

print("Valores como string vazia ou só espaços por coluna:")
print(espacos_vazios_por_coluna)

Valores como string vazia ou só espaços por coluna:
customerID            0
Churn               224
gender                0
Partner               0
Dependents            0
PhoneService          0
MultipleLines         0
InternetService       0
OnlineSecurity        0
OnlineBackup          0
DeviceProtection      0
TechSupport           0
StreamingTV           0
StreamingMovies       0
Contract              0
PaperlessBilling      0
PaymentMethod         0
Charges.Total        11
dtype: int64


In [None]:
# ===== 2. Substituir espaços por NaN =====
normalized_df = normalized_df.replace(r'^\s*$', np.nan, regex=True)

print("Valores nulos:\n\n",normalized_df.isnull().sum())

Valores nulos:

 customerID            0
Churn               224
gender                0
SeniorCitizen         0
Partner               0
Dependents            0
tenure                0
PhoneService          0
MultipleLines         0
InternetService       0
OnlineSecurity        0
OnlineBackup          0
DeviceProtection      0
TechSupport           0
StreamingTV           0
StreamingMovies       0
Contract              0
PaperlessBilling      0
PaymentMethod         0
Charges.Monthly       0
Charges.Total        11
dtype: int64


In [None]:
'''
Tratamento de Dados Ausentes na Coluna Churn:
Durante a etapa de pré-processamento, 224 registros (aproximadamente 3,08% do total de clientes) foram identificados com informações ausentes ou inválidas na coluna Churn.
Esses dados foram removidos da análise. É importante notar que a ausência dessas informações pode impactar ligeiramente os resultados, mas a remoção foi necessária para
garantir a consistência e a confiabilidade do modelo analítico e dos dados de treinamento.

'''

# Removendo as linhas com informação faltante

normalized_df = normalized_df.dropna(subset=['Churn'])

print("Valores nulos:\n\n",normalized_df.isnull().sum())

Valores nulos:

 customerID           0
Churn                0
gender               0
SeniorCitizen        0
Partner              0
Dependents           0
tenure               0
PhoneService         0
MultipleLines        0
InternetService      0
OnlineSecurity       0
OnlineBackup         0
DeviceProtection     0
TechSupport          0
StreamingTV          0
StreamingMovies      0
Contract             0
PaperlessBilling     0
PaymentMethod        0
Charges.Monthly      0
Charges.Total       11
dtype: int64


In [None]:
nulos_charges = normalized_df[normalized_df['Charges.Total'].isnull()]
print(nulos_charges[['customerID', 'tenure', 'Charges.Monthly', 'Churn']])

      customerID  tenure  Charges.Monthly Churn
975   1371-DWPAZ       0            56.05    No
1775  2520-SGTTA       0            20.00    No
1955  2775-SEFEE       0            61.90    No
2075  2923-ARZLG       0            19.70    No
2232  3115-CZMZD       0            20.25    No
2308  3213-VVOLG       0            25.35    No
2930  4075-WKNIU       0            73.35    No
3134  4367-NUYAO       0            25.75    No
3203  4472-LVYGI       0            52.55    No
4169  5709-LVOEQ       0            80.85    No
5599  7644-OMVMY       0            19.85    No


In [None]:
'''
Na análise acima foi possível observar que os 11 valores não preenchidos na coluna 'Charges.Total' provavelmente se deve ao fato de serem clientes novos,
já que continuam ativos na cluna 'Churn', mas possuem zero meses de contrato. Portanto, ainda não foi emitida nenhuma cobrança completa. Para não interferir na análise,
usaremos apenas os clientes que já completaram pelo menos 1 mês e tiveram a chance de cancelar.

'''

df_analise = normalized_df[normalized_df['tenure'] > 0]

In [None]:
'''

# Contar quantos valores por coluna são apenas espaços ou vazios
espacos_vazios = (normalized_df.applymap(lambda x: isinstance(x, str) and x.strip() == '')).sum()

print("Valores como string vazia ou só espaços por coluna:")
print(espacos_vazios[espacos_vazios > 0])

'''


In [None]:
'''

possiveis_nulos = ["NA", "N/A", "null", "NULL", "?", "-", "--"]

mascara_possiveis_nulos = normalized_df.applymap(lambda x: isinstance(x, str) and x.strip().upper() in [p.upper() for p in possiveis_nulos])

print("Valores suspeitos encontrados por coluna:")
print(mascara_possiveis_nulos.sum()[mascara_possiveis_nulos.sum() > 0])

'''


In [None]:
for col in df_analise.columns:
    print(f"\nColuna: {col}")
    print(df_analise[col].value_counts(dropna=False).head())


Coluna: customerID
customerID
9995-HOTOH    1
0002-ORFBO    1
0003-MKNFE    1
0004-TLHLJ    1
0011-IGKFF    1
Name: count, dtype: int64

Coluna: Churn
Churn
No     5163
Yes    1869
Name: count, dtype: int64

Coluna: gender
gender
Male      3549
Female    3483
Name: count, dtype: int64

Coluna: SeniorCitizen
SeniorCitizen
0    5890
1    1142
Name: count, dtype: int64

Coluna: Partner
Partner
No     3639
Yes    3393
Name: count, dtype: int64

Coluna: Dependents
Dependents
No     4933
Yes    2099
Name: count, dtype: int64

Coluna: tenure
tenure
1     613
72    362
2     238
3     200
4     176
Name: count, dtype: int64

Coluna: PhoneService
PhoneService
Yes    6352
No      680
Name: count, dtype: int64

Coluna: MultipleLines
MultipleLines
No                  3385
Yes                 2967
No phone service     680
Name: count, dtype: int64

Coluna: InternetService
InternetService
Fiber optic    3096
DSL            2416
No             1520
Name: count, dtype: int64

Coluna: OnlineSecurity
O

In [None]:
# ===== 1. Cópia de segurança =====
df = df_analise.copy()

In [None]:
# ===== 5. Remover redundâncias =====
# Substituir "No internet service" por "No"
cols_internet = ['OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
                 'TechSupport', 'StreamingTV', 'StreamingMovies']
for col in cols_internet:
    df[col] = df[col].replace('No internet service', 'No')

In [None]:
# Verificar se há IDs duplicados
duplicados = df[df['customerID'].duplicated(keep=False)]

if duplicados.empty:
    print("Nenhum ID duplicado encontrado.")
else:
    print(f"Foram encontrados {duplicados.shape[0]} registros com ID duplicado.\n")
    print(duplicados.sort_values(by='customerID'))


Nenhum ID duplicado encontrado.


In [None]:
'''
 Para um melhor resultado com um futuro modelo de machine learning, optamos por substituir os valores categóricos 'Yes' e 'No' por valores binários numéricos.

 '''

pd.set_option('future.no_silent_downcasting', True)

# Mapeamento para substituir 'Yes' e 'No' por 1 e 0
mapeamento_binario = {'Yes': 1, 'No': 0, 'No phone service': 0, 'No internet service': 0}

# Colunas com valores binários ('Yes'/'No')
colunas_para_converter = [
    'Churn', 'Partner', 'Dependents', 'PhoneService', 'OnlineSecurity',
    'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV',
    'StreamingMovies', 'PaperlessBilling'
    ]

# Aplique o mapeamento em todas as colunas da lista
for col in colunas_para_converter:
    df.loc[:, col] = df[col].replace(mapeamento_binario)


In [None]:
# Alterando o tipo nos valores binários
colunas_para_converter
df[colunas_para_converter] = df[colunas_para_converter].astype(np.int64)

In [None]:
# Corrigindo o tipo da coluna Charges.Total
df['Charges.Total'] = df['Charges.Total'].astype(np.float64)

In [None]:
# Foi solicitada a criação da coluna "Contas_Diarias", utilizando o faturamento mensal para calcular o valor diário, com o objetico de proporcionar uma visão mais detalhada do comportamento dos clientes ao longo do tempo.

df['DailyAccounts'] = df['Charges.Monthly'] / 30

print(df[['Charges.Monthly', 'tenure', 'DailyAccounts']].head())

   Charges.Monthly  tenure  DailyAccounts
0             65.6       9       2.186667
1             59.9       9       1.996667
2             73.9       4       2.463333
3             98.0      13       3.266667
4             83.9       3       2.796667


In [None]:
# Nomes das colunas
print(df.columns)

Index(['customerID', 'Churn', 'gender', 'SeniorCitizen', 'Partner',
       'Dependents', 'tenure', 'PhoneService', 'MultipleLines',
       'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
       'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract',
       'PaperlessBilling', 'PaymentMethod', 'Charges.Monthly', 'Charges.Total',
       'DailyAccounts'],
      dtype='object')


In [None]:
# Foi sugerido traduzir as colunas para facilitar a compreensão da análise

novos_nomes = {
    'customerID': 'ID_Cliente',
    'Churn': 'Cancelamento',
    'gender': 'Genero_Biolgico',
    'SeniorCitizen': 'Cidadao_Senior',
    'Partner': 'Parceiro',
    'Dependents': 'Dependentes',
    'tenure': 'Meses_Contrato',
    'PhoneService': 'Servico_Telefone',
    'MultipleLines': 'Multiplas_Linhas',
    'InternetService': 'Servico_Internet',
    'OnlineSecurity': 'Seguraca_Online',
    'OnlineBackup': 'Backup_Online',
    'DeviceProtection': 'Protecao_Dispositivo',
    'TechSupport': 'Suporte_Tecnico',
    'StreamingTV': 'Streaming_TV',
    'StreamingMovies': 'Streaming_Filmes',
    'Contract': 'Tipo_Contrato',
    'PaperlessBilling': 'Fatura_Online',
    'PaymentMethod': 'Metodo_Pagamento',
    'Charges.Monthly': 'Cobranca_Mensal',
    'Charges.Total': 'Cobranca_Total',
    'DailyAccounts': 'Custo_Diario'
}

df.rename(columns=novos_nomes, inplace=True)

print(df.columns)

Index(['ID_Cliente', 'Cancelamento', 'Genero_Biolgico', 'Cidadao_Senior',
       'Parceiro', 'Dependentes', 'Meses_Contrato', 'Servico_Telefone',
       'Multiplas_Linhas', 'Servico_Internet', 'Seguraca_Online',
       'Backup_Online', 'Protecao_Dispositivo', 'Suporte_Tecnico',
       'Streaming_TV', 'Streaming_Filmes', 'Tipo_Contrato', 'Fatura_Online',
       'Metodo_Pagamento', 'Cobranca_Mensal', 'Cobranca_Total',
       'Custo_Diario'],
      dtype='object')


In [None]:
mapeamento_genero = {'Female': 'Feminino', 'Male': 'Masculino'}

df['Genero_Biolgico'] = df['Genero_Biolgico'].replace(mapeamento_genero)

print(df['Genero_Biolgico'].value_counts())

Genero_Biolgico
Masculino    3549
Feminino     3483
Name: count, dtype: int64


In [None]:
mapeamento_linhas = {'No': 'Nao', 'Yes': 'Sim', 'No phone service': 'Sem servico de telefone'}

df['Multiplas_Linhas'] = df['Multiplas_Linhas'].replace(mapeamento_linhas)

print(df['Multiplas_Linhas'].value_counts())

Multiplas_Linhas
Nao                        3385
Sim                        2967
Sem servico de telefone     680
Name: count, dtype: int64


In [None]:
mapeamento_internet = {'No': 'Nao', 'Fiber optic' : 'Fibra otica', 'DSL': 'DSL'}

df['Servico_Internet'] = df['Servico_Internet'].replace(mapeamento_internet)

print(df['Servico_Internet'].value_counts())

Servico_Internet
Fibra otica    3096
DSL            2416
Nao            1520
Name: count, dtype: int64


In [None]:
mapeamento_contrato = {'Month-to-month' : 'Mensal', 'One year': 'Um ano', 'Two year': 'Dois anos'}

df['Tipo_Contrato'] = df['Tipo_Contrato'].replace(mapeamento_contrato)

print(df['Tipo_Contrato'].value_counts())

Tipo_Contrato
Mensal       3875
Dois anos    1685
Um ano       1472
Name: count, dtype: int64


In [None]:
mapeamento_pagamento = {'Cheque eltronico' : 'Cheque eletronico', 'Mailed check': 'Cheque por correio', 'Bank transfer (automatic)': 'Transferencia bancaria (automatica)', 'Credit card (automatic)': 'Cartao de credito (automatica)'}

df['Metodo_Pagamento'] = df['Metodo_Pagamento'].replace(mapeamento_pagamento)

print(df['Metodo_Pagamento'].value_counts())

Metodo_Pagamento
Cheque eletronico                      2365
Cheque por correio                     1604
Transferencia bancaria (automatica)    1542
Cartao de credito (automatica)         1521
Name: count, dtype: int64


In [None]:
print(df.describe())

       Cancelamento  Cidadao_Senior     Parceiro  Dependentes  Meses_Contrato  \
count   7032.000000     7032.000000  7032.000000  7032.000000     7032.000000   
mean       0.265785        0.162400     0.482509     0.298493       32.421786   
std        0.441782        0.368844     0.499729     0.457629       24.545260   
min        0.000000        0.000000     0.000000     0.000000        1.000000   
25%        0.000000        0.000000     0.000000     0.000000        9.000000   
50%        0.000000        0.000000     0.000000     0.000000       29.000000   
75%        1.000000        0.000000     1.000000     1.000000       55.000000   
max        1.000000        1.000000     1.000000     1.000000       72.000000   

       Servico_Telefone  Seguraca_Online  Backup_Online  Protecao_Dispositivo  \
count       7032.000000      7032.000000    7032.000000           7032.000000   
mean           0.903299         0.286547       0.344852              0.343857   
std            0.295571    

In [None]:
print(df.describe(include='all'))

        ID_Cliente  Cancelamento Genero_Biolgico  Cidadao_Senior     Parceiro  \
count         7032   7032.000000            7032     7032.000000  7032.000000   
unique        7032           NaN               2             NaN          NaN   
top     9995-HOTOH           NaN       Masculino             NaN          NaN   
freq             1           NaN            3549             NaN          NaN   
mean           NaN      0.265785             NaN        0.162400     0.482509   
std            NaN      0.441782             NaN        0.368844     0.499729   
min            NaN      0.000000             NaN        0.000000     0.000000   
25%            NaN      0.000000             NaN        0.000000     0.000000   
50%            NaN      0.000000             NaN        0.000000     0.000000   
75%            NaN      1.000000             NaN        0.000000     1.000000   
max            NaN      1.000000             NaN        1.000000     1.000000   

        Dependentes  Meses_

# 📊 Carga e análise

In [None]:
normalized_df.describe()

Unnamed: 0,SeniorCitizen,tenure,Charges.Monthly
count,7267.0,7267.0,7267.0
mean,0.162653,32.346498,64.720098
std,0.369074,24.571773,30.129572
min,0.0,0.0,18.25
25%,0.0,9.0,35.425
50%,0.0,29.0,70.3
75%,0.0,55.0,89.875
max,1.0,72.0,118.75


# RELATÓRIO FINAL
