In [200]:
import pandas as pd

## Extração dos Dados
Para iniciar sua análise, você precisará importar os dados da API da Telecom X. Esses dados estão disponíveis no formato JSON e contêm informações essenciais sobre os clientes, incluindo dados demográficos, tipo de serviço contratado e status de evasão.
1.   Carregar os dados diretamente da API utilizando Python.
2.   Converter os dados para um DataFrame do Pandas para facilitar a manipulação.

In [201]:
url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json'

In [202]:
df = pd.read_json(url) #ler em formato Json

In [203]:
df.head() #visualizar os dados

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


## Dicionário de dados


* customerID: número de identificação único de cada cliente
* Churn: se o cliente deixou ou não a empresa
* gender: gênero (masculino e feminino)
* SeniorCitizen: informação sobre um cliente ter ou não idade igual ou maior que 65 anos
* Partner: se o cliente possui ou não um parceiro ou parceira
* Dependents: se o cliente possui ou não dependentes
* tenure: meses de contrato do cliente
* PhoneService: assinatura de serviço telefônico
* MultipleLines: assisnatura de mais de uma linha de telefone
* InternetService: assinatura de um provedor internet
* OnlineSecurity: assinatura adicional de segurança online
* OnlineBackup: assinatura adicional de backup online
* DeviceProtection: assinatura adicional de proteção no dispositivo
* TechSupport: assinatura adicional de suporte técnico, menos tempo de espera
* StreamingTV: assinatura de TV a cabo
* StreamingMovies: assinatura de streaming de filmes
* Contract: tipo de contrato
* PaperlessBilling: se o cliente prefere receber online a fatura
* PaymentMethod: forma de pagamento
* Charges.Monthly: total de todos os serviços do cliente por mês
* Charges.Total: total gasto pelo cliente

## TASK 1: Conhecendo o Dataset

Agora que você extraiu os dados, é fundamental entender a estrutura do dataset e o significado de suas colunas. Essa etapa ajudará a identificar quais variáveis são mais relevantes para a análise de evasão de clientes.

1. ✅ Explorar as colunas do dataset e verificar seus tipos de dados.
2. ✅ Consultar o dicionário para entender melhor os significados das variáveis.
3. ✅ Identificar as colunas mais relevantes para a análise de evasão.




In [204]:
df.shape #verificar o total de linhas e colunas do df original

(7267, 6)

In [205]:
df.columns #verificar o nome das colunas

Index(['customerID', 'Churn', 'customer', 'phone', 'internet', 'account'], dtype='object')

In [206]:
df.info() #verificar as informações do DF

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


### Campo para verificar os dados de colunas aninhadas e verificar informações relavantes nelas

In [207]:
data_customer = pd.json_normalize(df['customer'])
data_phone = pd.json_normalize(df['phone'])
data_internet = pd.json_normalize(df['internet'])
data_account = pd.json_normalize(df['account'])

In [208]:
data_customer.head()

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3


In [209]:
data_phone.head()

Unnamed: 0,PhoneService,MultipleLines
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No


In [210]:
data_account.head()

Unnamed: 0,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,One year,Yes,Mailed check,65.6,593.3
1,Month-to-month,No,Mailed check,59.9,542.4
2,Month-to-month,Yes,Electronic check,73.9,280.85
3,Month-to-month,Yes,Electronic check,98.0,1237.85
4,Month-to-month,Yes,Mailed check,83.9,267.4


In [211]:
data_internet.head()

Unnamed: 0,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No


### Criação de um DF normalizado com todas as colunas separadas do DF original
Remoção das colunas aninhadas e junção das colunas geradas acima para um DF normalizado

In [212]:
df_base = df.drop(columns=['customer', 'phone', 'internet', 'account']) #removendo as colunas aninhadas
df_normalizado = pd.concat([df_base, data_customer, data_phone, data_internet, data_account], axis=1) #juntar tudo num dataframe aninhado

In [213]:
df_normalizado.head() #Dataframe principal para ser usado

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


## TASK 2: Verificando Inconsistências nos Dados

Neste passo, verifique se há problemas nos dados que possam afetar a análise. Fique atento a valores ausentes, duplicados, erros de formatação e inconsistências nas categorias. Esse processo é essencial para garantir que os dados estejam prontos para as próximas etapas.

In [214]:
df_normalizado.isnull() #Verificar se existe valores nulos

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
7263,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
7264,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
7265,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [215]:
df_normalizado.isnull().values.any() #se existe algum valor null lu na

np.False_

### Foi observado que o DF não possui valores nulos e nem duplicados

In [216]:
df_normalizado.isnull().sum() #verificar se o DF possui dados null

Unnamed: 0,0
customerID,0
Churn,0
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0


In [217]:
df_normalizado.duplicated().sum() #verificar se existe valores duplicados

np.int64(0)

### Foi observado que o DF não possui IDs repetidos

In [218]:
df_normalizado['customerID'].nunique() #verificar se existe ID repetido

7267

### Verificação de dados em branco '' ou ' '

In [219]:
df_normalizado.apply(lambda col: (col.astype(str).str.strip() == '').sum()) #verifica dados ausentes em branco

Unnamed: 0,0
customerID,0
Churn,224
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0


In [220]:
dados_customerID_vazios = df_normalizado[df_normalizado['Churn'].astype(str).str.strip() == '']

### Foi observado que 224 Clientes estão sem dados de Churn, ou seja, não sabemos se saiu da empresa ou não

In [221]:
dados_customerID_vazios

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
30,0047-ZHDTW,,Female,0,No,No,11,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),79.00,929.3
75,0120-YZLQA,,Male,0,No,No,71,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.90,1355.1
96,0154-QYHJU,,Male,0,No,No,29,Yes,No,DSL,...,Yes,No,Yes,No,No,One year,Yes,Electronic check,58.75,1696.2
98,0162-RZGMZ,,Female,1,No,No,5,Yes,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,No,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,Yes,No,65,Yes,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,No,No,14,Yes,Yes,DSL,...,Yes,No,No,No,No,One year,Yes,Mailed check,54.25,773.2
7180,9872-RZQQB,,Female,0,Yes,No,49,No,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,No,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,No,No,9,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,Yes,Yes,67,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Bank transfer (automatic),19.25,1372.9


### Foi Decidido remover esses clientes que estão com os valores de Churn ausentes, pois pode influenciar na análise

In [222]:
df_normalizado = df_normalizado[df_normalizado['Churn'].astype(str).str.strip() != '']

### Agora não existe nenhum cliente com dados de Churn em brancos ou null

In [223]:
df_normalizado.apply(lambda col: (col.astype(str).str.strip() == '').sum()) #verifica os dados ausentes em branco

Unnamed: 0,0
customerID,0
Churn,0
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0


### Agora temos que verificar como tratar o Charges.Total que possuem valores em branco