In [182]:
import pandas as pd

In [183]:
import numpy as np

## Extração dos Dados
Objetivos
1.   Carregar os dados diretamente da API utilizando Python.
2.   Converter os dados para um DataFrame do Pandas para facilitar a manipulação.

In [184]:
url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json' #copiar a url do JSON numa variavel

In [185]:
df = pd.read_json(url) #ler em formato Json

In [186]:
df.head() #visualizar os dados

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


## TASK 1: Conhecendo o Dataset

1. Explorar as colunas do dataset e verificar seus tipos de dados.
2. Consultar o dicionário para entender melhor os significados das variáveis.
3. Identificar as colunas mais relevantes para a análise de evasão.




### 1. Explorar as colunas do dataset e verificar seus tipos de dados.

In [187]:
df.shape #verificar o total de linhas e colunas do df original

(7267, 6)

In [188]:
df.columns #verificar o nome das colunas

Index(['customerID', 'Churn', 'customer', 'phone', 'internet', 'account'], dtype='object')

In [189]:
df.info() #verificar as informações do DF, como o Dtype

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


### 2. Consultar o dicionário para entender melhor os significados das variáveis.


* customerID: número de identificação único de cada cliente
* Churn: se o cliente deixou ou não a empresa
* gender: gênero (masculino e feminino)
* SeniorCitizen: informação sobre um cliente ter ou não idade igual ou maior que 65 anos
* Partner: se o cliente possui ou não um parceiro ou parceira
* Dependents: se o cliente possui ou não dependentes
* tenure: meses de contrato do cliente
* PhoneService: assinatura de serviço telefônico
* MultipleLines: assisnatura de mais de uma linha de telefone
* InternetService: assinatura de um provedor internet
* OnlineSecurity: assinatura adicional de segurança online
* OnlineBackup: assinatura adicional de backup online
* DeviceProtection: assinatura adicional de proteção no dispositivo
* TechSupport: assinatura adicional de suporte técnico, menos tempo de espera
* StreamingTV: assinatura de TV a cabo
* StreamingMovies: assinatura de streaming de filmes
* Contract: tipo de contrato
* PaperlessBilling: se o cliente prefere receber online a fatura
* PaymentMethod: forma de pagamento
* Charges.Monthly: total de todos os serviços do cliente por mês
* Charges.Total: total gasto pelo cliente

### 3. Identificar as colunas mais relevantes para a análise de evasão.
Campo para verificar os dados de colunas aninhadas e verificar informações
relavantes nelas

In [190]:
data_customer = pd.json_normalize(df['customer'])
data_phone = pd.json_normalize(df['phone'])
data_internet = pd.json_normalize(df['internet'])
data_account = pd.json_normalize(df['account'])

In [191]:
data_customer.head()

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3


In [192]:
data_phone.head()

Unnamed: 0,PhoneService,MultipleLines
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No


In [193]:
data_account.head()

Unnamed: 0,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,One year,Yes,Mailed check,65.6,593.3
1,Month-to-month,No,Mailed check,59.9,542.4
2,Month-to-month,Yes,Electronic check,73.9,280.85
3,Month-to-month,Yes,Electronic check,98.0,1237.85
4,Month-to-month,Yes,Mailed check,83.9,267.4


In [194]:
data_internet.head()

Unnamed: 0,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No


### Criação de um DF normalizado com todas as colunas separadas do DF original
Remoção das colunas aninhadas e junção das colunas geradas acima para um DF normalizado

In [195]:
df_base = df.drop(columns=['customer', 'phone', 'internet', 'account']) #removendo as colunas aninhadas
df_normalizado = pd.concat([df_base, data_customer, data_phone, data_internet, data_account], axis=1) #juntar tudo num dataframe aninhado

## TASK 2: Verificando Inconsistências nos Dados

Neste passo, verifique se há problemas nos dados que possam afetar a análise. Fique atento a valores ausentes, duplicados, erros de formatação e inconsistências nas categorias. Esse processo é essencial para garantir que os dados estejam prontos para as próximas etapas.

Análise dessa TASK:
1. Foi observado que o DF não possui valores nulos ,duplicados
2. Foi observado que 224 Clientes estão sem dados de Churn, ou seja, não sabemos se saiu da empresa ou não, e outros 11 dados de Charges.Total estão com resultados em branco

Verifica se existe valores nulos, NA , duplicados

In [196]:
df_normalizado.isnull() #Verificar se existe valores nulos

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
7263,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
7264,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
7265,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


se existe algum valor NULL ou NA

In [197]:
df_normalizado.isnull().values.any()

np.False_

verificar se o DF possui dados null

In [198]:
df_normalizado.isnull().sum()

Unnamed: 0,0
customerID,0
Churn,0
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0


verificar se existe valores duplicados

In [199]:
df_normalizado.duplicated().sum()

np.int64(0)

verificar se existe ID repetido

In [200]:
df_normalizado['customerID'].nunique()

7267

Verificação de dados em branco '' ou ' '

In [201]:
df_normalizado.apply(lambda col: (col.astype(str).str.strip() == '').sum()) #verifica dados ausentes em branco

Unnamed: 0,0
customerID,0
Churn,224
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0


Verificar se a coluna Churn possui dados vazios

In [202]:
dados_churn_vazios = df_normalizado[df_normalizado['Churn'].astype(str).str.strip() == '']

In [203]:
dados_churn_vazios

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
30,0047-ZHDTW,,Female,0,No,No,11,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),79.00,929.3
75,0120-YZLQA,,Male,0,No,No,71,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.90,1355.1
96,0154-QYHJU,,Male,0,No,No,29,Yes,No,DSL,...,Yes,No,Yes,No,No,One year,Yes,Electronic check,58.75,1696.2
98,0162-RZGMZ,,Female,1,No,No,5,Yes,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,No,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,Yes,No,65,Yes,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,No,No,14,Yes,Yes,DSL,...,Yes,No,No,No,No,One year,Yes,Mailed check,54.25,773.2
7180,9872-RZQQB,,Female,0,Yes,No,49,No,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,No,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,No,No,9,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,Yes,Yes,67,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Bank transfer (automatic),19.25,1372.9


 Remover clientes que estão com os valores de Churn ausentes, pois pode influenciar na análise

In [204]:
df_normalizado = df_normalizado[df_normalizado['Churn'].astype(str).str.strip() != '']

Agora não existe nenhum cliente com dados de Churn em brancos ou null

In [205]:
df_normalizado.apply(lambda col: (col.astype(str).str.strip() == '').sum()) #verifica os dados ausentes em branco

Unnamed: 0,0
customerID,0
Churn,0
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0


### Agora temos que verificar como tratar o Charges.Total que possuem valores em branco

De acordo com o dicionário de dados, o campo Charges.Total representa o total gasto pelo cliente durante todo o período do contrato, enquanto Charges.Monthly corresponde ao valor mensal pago pelos serviços contratados. Observou-se que, ao multiplicar Charges.Monthly pelo número de meses de contrato (tenure), obtém-se um valor aproximado ao Charges.Total, conforme verificado nos registros onde este campo está preenchido.
Logo, a ideia é realizar essa multiplicação para os campos de Charges.Total que estão em branco

In [206]:
dados_Charges_Total_vazios = df_normalizado[df_normalizado['Charges.Total'].astype(str).str.strip() == '']

In [207]:
dados_Charges_Total_vazios

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
975,1371-DWPAZ,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,
1775,2520-SGTTA,No,Female,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,
1955,2775-SEFEE,No,Male,0,No,Yes,0,Yes,Yes,DSL,...,Yes,No,Yes,No,No,Two year,Yes,Bank transfer (automatic),61.9,
2075,2923-ARZLG,No,Male,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,
2232,3115-CZMZD,No,Male,0,No,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,
2308,3213-VVOLG,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,
2930,4075-WKNIU,No,Female,0,Yes,Yes,0,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,
3134,4367-NUYAO,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,
3203,4472-LVYGI,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,
4169,5709-LVOEQ,No,Female,0,Yes,Yes,0,Yes,No,DSL,...,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,


In [208]:
df_normalizado[df_normalizado['tenure'] == 0]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
975,1371-DWPAZ,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,
1775,2520-SGTTA,No,Female,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,
1955,2775-SEFEE,No,Male,0,No,Yes,0,Yes,Yes,DSL,...,Yes,No,Yes,No,No,Two year,Yes,Bank transfer (automatic),61.9,
2075,2923-ARZLG,No,Male,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,
2232,3115-CZMZD,No,Male,0,No,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,
2308,3213-VVOLG,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,
2930,4075-WKNIU,No,Female,0,Yes,Yes,0,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,
3134,4367-NUYAO,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,
3203,4472-LVYGI,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,
4169,5709-LVOEQ,No,Female,0,Yes,Yes,0,Yes,No,DSL,...,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,


Observou-se que os registros em que o campo tenure é igual a 0 — identificados por meio da função df_normalizado[df_normalizado['tenure'] == 0] — correspondem aos mesmos casos em que o campo Charges.Total está em branco. Isso indica que o total de gastos do cliente não foi registrado porque o número de meses de contrato (tenure) ainda é igual a zero. Para mudar os valores em branco para 0 foi utlizado uma operação de multiplicação em os campos do tenure e os campos de Charges.Montly


In [209]:
mascara_vazios = df_normalizado['Charges.Total'].astype(str).str.strip() == ''
df_normalizado.loc[mascara_vazios, 'Charges.Total'] = (
    df_normalizado.loc[mascara_vazios, 'tenure'] *
    df_normalizado.loc[mascara_vazios, 'Charges.Monthly']
)

Agora todos os campos de Charges.Total estão com valores preenchidos

In [210]:
df_normalizado[mascara_vazios][['tenure', 'Charges.Monthly', 'Charges.Total']]

Unnamed: 0,tenure,Charges.Monthly,Charges.Total
975,0,56.05,0.0
1775,0,20.0,0.0
1955,0,61.9,0.0
2075,0,19.7,0.0
2232,0,20.25,0.0
2308,0,25.35,0.0
2930,0,73.35,0.0
3134,0,25.75,0.0
3203,0,52.55,0.0
4169,0,80.85,0.0


Verificar o tipo de cada coluna

In [211]:
df_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7043 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   Churn             7043 non-null   object 
 2   gender            7043 non-null   object 
 3   SeniorCitizen     7043 non-null   int64  
 4   Partner           7043 non-null   object 
 5   Dependents        7043 non-null   object 
 6   tenure            7043 non-null   int64  
 7   PhoneService      7043 non-null   object 
 8   MultipleLines     7043 non-null   object 
 9   InternetService   7043 non-null   object 
 10  OnlineSecurity    7043 non-null   object 
 11  OnlineBackup      7043 non-null   object 
 12  DeviceProtection  7043 non-null   object 
 13  TechSupport       7043 non-null   object 
 14  StreamingTV       7043 non-null   object 
 15  StreamingMovies   7043 non-null   object 
 16  Contract          7043 non-null   object 
 17  

Transformando o Charges.Total do tipo object to Float

In [212]:
df_normalizado['Charges.Total'] = df_normalizado['Charges.Total'].astype(np.float64)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_normalizado['Charges.Total'] = df_normalizado['Charges.Total'].astype(np.float64)


Identificar os valores unicos das colunas

In [213]:
for col in df_normalizado.columns:
    print(f"Coluna: {col}")
    print(df_normalizado[col].unique())
    print("-" * 40)

Coluna: customerID
['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
----------------------------------------
Coluna: Churn
['No' 'Yes']
----------------------------------------
Coluna: gender
['Female' 'Male']
----------------------------------------
Coluna: SeniorCitizen
[0 1]
----------------------------------------
Coluna: Partner
['Yes' 'No']
----------------------------------------
Coluna: Dependents
['Yes' 'No']
----------------------------------------
Coluna: tenure
[ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 37 49 66 67
 20 43 59 12 27  2 25 29 14 35 64 39 40 11  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 31 36 17 18 51 38 42
  0]
----------------------------------------
Coluna: PhoneService
['Yes' 'No']
----------------------------------------
Coluna: MultipleLines
['No' 'Yes' 'No phone service']
----------------------------------------
Coluna: InternetService
['DSL' 'Fiber optic' 'No']


Alterando as colunas para lower

In [214]:
df_normalizado.columns = df_normalizado.columns.str.lower()

Trocando o sinal . de Charges.monthly e Charges.total para _

In [215]:
df_normalizado.columns = df_normalizado.columns.str.lower().str.replace('.', '_')

## TASK 3: Coluna de Contas Diárias

In [216]:
df_normalizado['contas_diarias'] = df_normalizado['charges_monthly'] / 30
df_normalizado['contas_diarias'] = df_normalizado['contas_diarias'].round(2)

In [217]:
df_normalizado.head()

Unnamed: 0,customerid,churn,gender,seniorcitizen,partner,dependents,tenure,phoneservice,multiplelines,internetservice,...,deviceprotection,techsupport,streamingtv,streamingmovies,contract,paperlessbilling,paymentmethod,charges_monthly,charges_total,contas_diarias
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3,2.19
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4,2.0
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85,2.46
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85,3.27
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4,2.8


## TASK 4: Padronização e Transformação de Dados (Opcional)

Verificar as colunas que possuem valores de Yes e No para padronizar para 1 e 0

In [218]:
for col in df_normalizado.columns:
    valores = df_normalizado[col].dropna().unique()
    if set(valores).issubset({'Yes', 'No'}):
        print(f"{col}: contém apenas 'Yes' e 'No'")
    else:
        print(f"{col}: contém outros valores: {valores}")

customerid: contém outros valores: ['0002-ORFBO' '0003-MKNFE' '0004-TLHLJ' ... '9992-UJOEL' '9993-LHIEB'
 '9995-HOTOH']
churn: contém apenas 'Yes' e 'No'
gender: contém outros valores: ['Female' 'Male']
seniorcitizen: contém outros valores: [0 1]
partner: contém apenas 'Yes' e 'No'
dependents: contém apenas 'Yes' e 'No'
tenure: contém outros valores: [ 9  4 13  3 71 63  7 65 54 72  5 56 34  1 45 50 23 55 26 69 37 49 66 67
 20 43 59 12 27  2 25 29 14 35 64 39 40 11  6 30 70 57 58 16 32 33 10 21
 61 15 44 22 24 19 47 62 46 52  8 60 48 28 41 53 68 31 36 17 18 51 38 42
  0]
phoneservice: contém apenas 'Yes' e 'No'
multiplelines: contém outros valores: ['No' 'Yes' 'No phone service']
internetservice: contém outros valores: ['DSL' 'Fiber optic' 'No']
onlinesecurity: contém outros valores: ['No' 'Yes' 'No internet service']
onlinebackup: contém outros valores: ['Yes' 'No' 'No internet service']
deviceprotection: contém outros valores: ['No' 'Yes' 'No internet service']
techsupport: contém out

Nota-se que as colunas que dependem de internetservice, se o internetservice == No as colunas estão com os Valores de "No internet service", logo podemos modificar esses valores para No, para padronizar para binário


In [219]:
df_filtrado = df_normalizado[df_normalizado['internetservice'] == 'No']

for col in df_filtrado.columns:
    print(f"Coluna: {col}")
    print(df_filtrado[col].unique())
    print("-" * 40)

Coluna: customerid
['0023-UYUPN' '0030-FNXPP' '0031-PVLZI' ... '9975-GPKZU' '9975-SKRNR'
 '9986-BONCE']
----------------------------------------
Coluna: churn
['No' 'Yes']
----------------------------------------
Coluna: gender
['Female' 'Male']
----------------------------------------
Coluna: seniorcitizen
[1 0]
----------------------------------------
Coluna: partner
['Yes' 'No']
----------------------------------------
Coluna: dependents
['No' 'Yes']
----------------------------------------
Coluna: tenure
[50  3  4 54 26 69 49 67 43 12 25 27  1 10 44 24 71  2 46 30  8 23  5 63
 32 16  9 15 40 65 70 72 48 52 41 11 57 18 20 28 29 38 13 59 53 56  6 61
  7 62 58 36 47 37 19 55 64 17 14 35 66 33 22 60 31 42 51 68 34 39 21 45
  0]
----------------------------------------
Coluna: phoneservice
['Yes']
----------------------------------------
Coluna: multiplelines
['Yes' 'No']
----------------------------------------
Coluna: internetservice
['No']
----------------------------------------
Col

Modificar os valores de "No internet service" para "No"

In [220]:
df_normalizado = df_normalizado.replace("No internet service", "No")

In [221]:
df_filtrado = df_normalizado[df_normalizado['internetservice'] == 'No']

for col in df_filtrado.columns:
    print(f"Coluna: {col}")
    print(df_filtrado[col].unique())
    print("-" * 40)

Coluna: customerid
['0023-UYUPN' '0030-FNXPP' '0031-PVLZI' ... '9975-GPKZU' '9975-SKRNR'
 '9986-BONCE']
----------------------------------------
Coluna: churn
['No' 'Yes']
----------------------------------------
Coluna: gender
['Female' 'Male']
----------------------------------------
Coluna: seniorcitizen
[1 0]
----------------------------------------
Coluna: partner
['Yes' 'No']
----------------------------------------
Coluna: dependents
['No' 'Yes']
----------------------------------------
Coluna: tenure
[50  3  4 54 26 69 49 67 43 12 25 27  1 10 44 24 71  2 46 30  8 23  5 63
 32 16  9 15 40 65 70 72 48 52 41 11 57 18 20 28 29 38 13 59 53 56  6 61
  7 62 58 36 47 37 19 55 64 17 14 35 66 33 22 60 31 42 51 68 34 39 21 45
  0]
----------------------------------------
Coluna: phoneservice
['Yes']
----------------------------------------
Coluna: multiplelines
['Yes' 'No']
----------------------------------------
Coluna: internetservice
['No']
----------------------------------------
Col

Verificar as colunas que só possuem No e Yes

In [222]:
colunas_objeto = df_normalizado.select_dtypes(include='object').columns

for col in colunas_objeto:
    valores = df_normalizado[col].dropna().unique()
    if set(valores).issubset({'Yes', 'No'}):
        print(f"{col}: contém apenas 'Yes' e 'No'")

churn: contém apenas 'Yes' e 'No'
partner: contém apenas 'Yes' e 'No'
dependents: contém apenas 'Yes' e 'No'
phoneservice: contém apenas 'Yes' e 'No'
onlinesecurity: contém apenas 'Yes' e 'No'
onlinebackup: contém apenas 'Yes' e 'No'
deviceprotection: contém apenas 'Yes' e 'No'
techsupport: contém apenas 'Yes' e 'No'
streamingtv: contém apenas 'Yes' e 'No'
streamingmovies: contém apenas 'Yes' e 'No'
paperlessbilling: contém apenas 'Yes' e 'No'


Modificar os valores Yes e No para 1 e 0

In [223]:
df_normalizado.replace({"Yes": 1, "No": 0}, inplace=True)

  df_normalizado.replace({"Yes": 1, "No": 0}, inplace=True)


Dataframe com as colunas com seus valores binários

In [224]:
df_normalizado.head()

Unnamed: 0,customerid,churn,gender,seniorcitizen,partner,dependents,tenure,phoneservice,multiplelines,internetservice,...,deviceprotection,techsupport,streamingtv,streamingmovies,contract,paperlessbilling,paymentmethod,charges_monthly,charges_total,contas_diarias
0,0002-ORFBO,0,Female,0,1,1,9,1,0,DSL,...,0,1,1,0,One year,1,Mailed check,65.6,593.3,2.19
1,0003-MKNFE,0,Male,0,0,0,9,1,1,DSL,...,0,0,0,1,Month-to-month,0,Mailed check,59.9,542.4,2.0
2,0004-TLHLJ,1,Male,0,0,0,4,1,0,Fiber optic,...,1,0,0,0,Month-to-month,1,Electronic check,73.9,280.85,2.46
3,0011-IGKFF,1,Male,1,1,0,13,1,0,Fiber optic,...,1,0,1,1,Month-to-month,1,Electronic check,98.0,1237.85,3.27
4,0013-EXCHZ,1,Female,1,1,0,3,1,0,Fiber optic,...,0,1,1,0,Month-to-month,1,Mailed check,83.9,267.4,2.8


Mudar o nome das colunas para uma forma mais clara aos stakeholders


In [225]:
df_normalizado.rename(columns={'customerid':'ID_cliente',
                               'churn': 'status_saida_cliente',
                               'gender': 'genero',
                               'seniorcitizen': 'cliente_idoso',
                               'partner':'possui_parceiro',
                               'dependents': 'dependentes',
                               'tenure': 'duracao_contrato',
                               'charges_total': 'total_gasto_cliente',
                               'charges_monthly':'valor_mensal_cobrado',
                               'paymentmethod':'metodo_pagamento',
                               'paperlessbilling':'opcao_fatura_digital',
                               'contract':'contrato',
                               'phoneservice': 'servico_telefonia',
                               'multiplelines':'possui_multiplas_linhas',
                               'internetservice':'servico_internet',
                               'onlinesecurity':'seguranca_online',
                               'onlinebackup': 'backup_online',
                               'deviceprotection':'protecao_dispositivo',
                               'techsupport': 'suporte_tecnico'
                               }, inplace=True)

Dataframe final

In [226]:
df_normalizado.columns

Index(['ID_cliente', 'status_saida_cliente', 'genero', 'cliente_idoso',
       'possui_parceiro', 'dependentes', 'duracao_contrato',
       'servico_telefonia', 'possui_multiplas_linhas', 'servico_internet',
       'seguranca_online', 'backup_online', 'protecao_dispositivo',
       'suporte_tecnico', 'streamingtv', 'streamingmovies', 'contrato',
       'opcao_fatura_digital', 'metodo_pagamento', 'valor_mensal_cobrado',
       'total_gasto_cliente', 'contas_diarias'],
      dtype='object')

In [227]:
df_normalizado.head()

Unnamed: 0,ID_cliente,status_saida_cliente,genero,cliente_idoso,possui_parceiro,dependentes,duracao_contrato,servico_telefonia,possui_multiplas_linhas,servico_internet,...,protecao_dispositivo,suporte_tecnico,streamingtv,streamingmovies,contrato,opcao_fatura_digital,metodo_pagamento,valor_mensal_cobrado,total_gasto_cliente,contas_diarias
0,0002-ORFBO,0,Female,0,1,1,9,1,0,DSL,...,0,1,1,0,One year,1,Mailed check,65.6,593.3,2.19
1,0003-MKNFE,0,Male,0,0,0,9,1,1,DSL,...,0,0,0,1,Month-to-month,0,Mailed check,59.9,542.4,2.0
2,0004-TLHLJ,1,Male,0,0,0,4,1,0,Fiber optic,...,1,0,0,0,Month-to-month,1,Electronic check,73.9,280.85,2.46
3,0011-IGKFF,1,Male,1,1,0,13,1,0,Fiber optic,...,1,0,1,1,Month-to-month,1,Electronic check,98.0,1237.85,3.27
4,0013-EXCHZ,1,Female,1,1,0,3,1,0,Fiber optic,...,0,1,1,0,Month-to-month,1,Mailed check,83.9,267.4,2.8
