#### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa
* `gender`: gênero (masculino e feminino)
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico
* `MultipleLines`: assisnatura de mais de uma linha de telefone
* `InternetService`: assinatura de um provedor internet
* `OnlineSecurity`: assinatura adicional de segurança online
* `OnlineBackup`: assinatura adicional de backup online
* `DeviceProtection`: assinatura adicional de proteção no dispositivo
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo
* `StreamingMovies`: assinatura de streaming de filmes
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

In [88]:
# Criei um dicionario do dicionario das colunas para facilitar entendimento dos dados de cada coluna.
dict_data = {
    'customerID': 'número de identificação único de cada cliente',
    'Churn': 'se o cliente deixou ou não a empresa' ,
    'gender': 'gênero (masculino e feminino)',
    'SeniorCitizen':' informação sobre um cliente ter ou não idade igual ou maior que 65 anos ',
    'Partner':  'se o cliente possui ou não um parceiro ou parceira',
    'Dependents': 'se o cliente possui ou não dependentes',
    'tenure': ' meses de contrato do cliente',
    'PhoneService': 'assinatura de serviço telefônico',
    'MultipleLines': 'assisnatura de mais de uma linha de telefone',
    'InternetService': 'assinatura de um provedor internet',
    'OnlineSecurity': 'assinatura adicional de segurança online',
    'OnlineBackup': 'assinatura adicional de backup online ',
    'DeviceProtection': 'assinatura adicional de proteção no dispositivo',
    'TechSupport': 'assinatura adicional de suporte técnico, menos tempo de espera',
    'StreamingTV': 'assinatura de TV a cabo ',
    'StreamingMovies': 'assinatura de streaming de filmes ',
    'Contract': 'tipo de contrato',
    'PaperlessBilling': 'se o cliente prefere receber online a fatura',
    'PaymentMethod': 'forma de pagamento',
    'Charges.Monthly': 'total de todos os serviços do cliente por mês',
    'Charges.Total': 'total gasto pelo cliente'
    }

In [89]:
# Imports das bibliotecas utilizadas
import pandas as pd
import numpy as np
import requests
import io

In [190]:
# Buscando os Dados

# Url da base de dados
data_url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json'

response = requests.get(data_url)

if response.status_code == 200:
    json_file = io.StringIO(response.text)
else:
    print(f"Bad response: status code: {response.status_code}")
    


In [91]:
# Criando o Dataframe
raw_data = pd.read_json(json_file)

# Primeira visualização
raw_data.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


Os dados das colunas: **customer, phone, internet e account** estão aninhados e precisam ser normalizados 

In [92]:
# Criando uma lista com as colunas que precisam ser normalizadas
to_normalize = raw_data.columns[2:].tolist()

# Utilizando o a método json_normalize do pandas para normalizar o dataframe
# Criando uma lista para auxiliar na normalização
dfs_normalized = [pd.json_normalize(raw_data[x]) for x in to_normalize]

Com uma lista com 4 dataframes correspondente as colunas que precisavam ser normalizadas, agora juntarei tudo em um único dataframe

In [93]:
# Juntando os dataframes
df = pd.concat([raw_data[['customerID', 'Churn']], dfs_normalized[0], dfs_normalized[1],dfs_normalized[2],dfs_normalized[3]], axis=1)

In [94]:
# Primeira view do dataframe já normalizado
df.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


#### Conhecendo o dataSet

In [95]:
# Informação de linhas colunas e tipos de colunas
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


In [96]:
# Confirmando o número de linhas e colunas
rows, columns = df.shape
print(f'linhas: {rows}, colunas: {columns}')

linhas: 7267, colunas: 21


In [97]:
# Describe das colunas categóricas
df.describe(exclude=[np.number])

Unnamed: 0,customerID,Churn,gender,Partner,Dependents,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Total
count,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267.0
unique,7267,3,2,2,2,2,3,3,3,3,3,3,3,3,3,2,4,6531.0
top,0002-ORFBO,No,Male,No,No,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,20.2
freq,1,5174,3675,3749,5086,6560,3495,3198,3608,3182,3195,3582,2896,2870,4005,4311,2445,11.0


In [98]:
# Describe das colunas numéricas
df.describe()

Unnamed: 0,SeniorCitizen,tenure,Charges.Monthly
count,7267.0,7267.0,7267.0
mean,0.162653,32.346498,64.720098
std,0.369074,24.571773,30.129572
min,0.0,0.0,18.25
25%,0.0,9.0,35.425
50%,0.0,29.0,70.3
75%,0.0,55.0,89.875
max,1.0,72.0,118.75


#### Verificando Inconsistências nos Dados

Analisando o método describe, é notável que algumas colunas que deveriam ser numéricas não estão sendo exibidas no método

In [99]:
# Utilizando o dicionário de dados fornecido para saber qual é o propósito de cada coluna no dataframe

for key, value in dict_data.items():
    print(f"{key}: {value}")

customerID: número de identificação único de cada cliente
Churn: se o cliente deixou ou não a empresa
gender: gênero (masculino e feminino)
SeniorCitizen:  informação sobre um cliente ter ou não idade igual ou maior que 65 anos 
Partner: se o cliente possui ou não um parceiro ou parceira
Dependents: se o cliente possui ou não dependentes
tenure:  meses de contrato do cliente
PhoneService: assinatura de serviço telefônico
MultipleLines: assisnatura de mais de uma linha de telefone
InternetService: assinatura de um provedor internet
OnlineSecurity: assinatura adicional de segurança online
OnlineBackup: assinatura adicional de backup online 
DeviceProtection: assinatura adicional de proteção no dispositivo
TechSupport: assinatura adicional de suporte técnico, menos tempo de espera
StreamingTV: assinatura de TV a cabo 
StreamingMovies: assinatura de streaming de filmes 
Contract: tipo de contrato
PaperlessBilling: se o cliente prefere receber online a fatura
PaymentMethod: forma de pagamen

In [100]:
# Valores unicos por coluna
for col in df.columns.tolist():
    print(f'{col}: {df[col].nunique()}')

customerID: 7267
Churn: 3
gender: 2
SeniorCitizen: 2
Partner: 2
Dependents: 2
tenure: 73
PhoneService: 2
MultipleLines: 3
InternetService: 3
OnlineSecurity: 3
OnlineBackup: 3
DeviceProtection: 3
TechSupport: 3
StreamingTV: 3
StreamingMovies: 3
Contract: 3
PaperlessBilling: 2
PaymentMethod: 4
Charges.Monthly: 1585
Charges.Total: 6531


In [101]:
# Verificando o tipo atual das colunas
df.dtypes

customerID           object
Churn                object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
Charges.Monthly     float64
Charges.Total        object
dtype: object

A coluna **account.Charges.Total** está como object (texto), mas deveria ser float. Há indícios de valores ausentes ou inválidos (provavelmente strings vazias ou espaços)

In [102]:
# Verificando qual insconsistência está acontecendo na coluna
df[df['Charges.Total'].apply(pd.to_numeric, errors='coerce').isna()]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
975,1371-DWPAZ,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,
1775,2520-SGTTA,No,Female,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,
1955,2775-SEFEE,No,Male,0,No,Yes,0,Yes,Yes,DSL,...,Yes,No,Yes,No,No,Two year,Yes,Bank transfer (automatic),61.9,
2075,2923-ARZLG,No,Male,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,
2232,3115-CZMZD,No,Male,0,No,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,
2308,3213-VVOLG,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,
2930,4075-WKNIU,No,Female,0,Yes,Yes,0,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,
3134,4367-NUYAO,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,
3203,4472-LVYGI,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,
4169,5709-LVOEQ,No,Female,0,Yes,Yes,0,Yes,No,DSL,...,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,


Existe 11 linhas da coluna **Charges.Total** são strings vazias, possívelmente cliente que acabaram de se juntar a base de clientes, pois os mesmo tem 0 como valor padrão a todos na coluna ternure que é o tempo em que o mesmo já é cliente.

In [103]:
# Atribuindo o valor zero a todas as strings vazias

# Criei uma lista com todos os indices que tem uma string vazia no df
empty_string = df[df['Charges.Total'].apply(pd.to_numeric, errors='coerce').isna()].index.tolist()

empty_string

[975, 1775, 1955, 2075, 2232, 2308, 2930, 3134, 3203, 4169, 5599]

In [104]:
# Usando o .loc com a lista como mascara para localizar e substituir as strings vazias por zero
df.loc[empty_string, 'Charges.Total'] = 0

In [105]:
# aplicando o filtro para visualizar as alterações
df.loc[empty_string]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
975,1371-DWPAZ,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,0
1775,2520-SGTTA,No,Female,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,0
1955,2775-SEFEE,No,Male,0,No,Yes,0,Yes,Yes,DSL,...,Yes,No,Yes,No,No,Two year,Yes,Bank transfer (automatic),61.9,0
2075,2923-ARZLG,No,Male,0,Yes,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,0
2232,3115-CZMZD,No,Male,0,No,Yes,0,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,0
2308,3213-VVOLG,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,0
2930,4075-WKNIU,No,Female,0,Yes,Yes,0,Yes,Yes,DSL,...,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,0
3134,4367-NUYAO,No,Male,0,Yes,Yes,0,Yes,Yes,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,0
3203,4472-LVYGI,No,Female,0,Yes,Yes,0,No,No phone service,DSL,...,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,0
4169,5709-LVOEQ,No,Female,0,Yes,Yes,0,Yes,No,DSL,...,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,0


Após a substituição das strings vazias por zero, modificarei o tipo da coluna para float 64

In [106]:
# Mudando o tipo da coluna para float
df['Charges.Total'] = df['Charges.Total'].astype(np.float64)

In [107]:
df.dtypes

customerID           object
Churn                object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
Charges.Monthly     float64
Charges.Total       float64
dtype: object

#### Identificando as colunas com booleanas e efetuando a mudança de tipo

In [189]:
df.dtypes

customerID           object
Churn               boolean
gender               object
SeniorCitizen          bool
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
Charges.Monthly     float64
Charges.Total       float64
dtype: object

##### Análise da coluna __customerID__
Essa coluna segundo o dicionário de dados trata da idêntificação única de cada cliente. É Composta por dados do tipo nnnn-LLLL, sendo "n" um número inteiro e "L" letras capitalizadas, os mesmo separados por um hífen. Não existem valores ausentes, duplicados ou dados inconsistentes nessa coluna.

A parte numérica do __customerID__ com 4 dígitos está em sequência na coluna, o que indica que a mesma é um id gerado por inserção, a parte alphabética do __customerID__ com 5 caracteres capitalizados talvéz represente a abreviação do nome do cliente ou um código único.

In [108]:
dict_data.get('customerID')

'número de identificação único de cada cliente'

In [109]:
# Cada valor da coluna é único.
df['customerID'].is_unique

True

Criando um df secundario para fazer a derivação da coluna customerID, separando em duas colunas ('customer_number', 'customer_cod') a coluna 'customerID'

In [136]:
df_secundary = df.copy()
df_secundary[['customer_number', 'customer_cod']] = df_secundary['customerID'].str.split('-', expand=True)


In [137]:
df_secundary[['customer_number', 'customer_cod']]

Unnamed: 0,customer_number,customer_cod
0,0002,ORFBO
1,0003,MKNFE
2,0004,TLHLJ
3,0011,IGKFF
4,0013,EXCHZ
...,...,...
7262,9987,LUTYD
7263,9992,RRAMN
7264,9992,UJOEL
7265,9993,LHIEB


Análisando a agora coluna "**customer_number**", notei que existem valores duplicados, ou seja, a coluna se uma sequência por inserção, tem valores inconsistentes.

In [142]:
df_secundary['customer_number'].value_counts()

customer_number
3096    5
3097    5
6734    5
1866    5
0621    5
       ..
0015    1
0014    1
0011    1
0004    1
0003    1
Name: count, Length: 5194, dtype: int64

In [139]:
df_secundary['customer_cod'].value_counts()

customer_cod
VUVJN    2
GSODA    2
CYWMH    2
KYRCV    1
MYYYZ    1
        ..
LXDEV    1
YZZYM    1
DIUUN    1
KWFBM    1
EHMNK    1
Name: count, Length: 7264, dtype: int64

In [141]:
df_secundary[df_secundary['customer_cod'].str.endswith('VUVJN')]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total,customer_number,customer_cod
2088,2931-VUVJN,False,female,1,Yes,No,59,Yes,Yes,Fiber optic,...,Yes,No,No,One year,Yes,Electronic check,94.05,5483.9,2931,VUVJN
6185,8473-VUVJN,True,male,1,No,No,1,Yes,Yes,Fiber optic,...,No,No,No,Month-to-month,Yes,Electronic check,73.65,73.65,8473,VUVJN


Assim como também a coluna agora "**customer_cod**" que possui valores duplicados, mas como as mesmas fazer parte de um conjunto que é único, decidí não fazer mais alterações ou análise com base nesse novo dataframe até que eu possua mais informações a respeito de como esses dados foram gerados.

#### Análise da coluna __Churn__
Essa colunas informa se o cliente deixou ou não a empresa. Sendo composta dos valores Yes para sim e No para não, ou seja, uma coluna com dados booleanos.  Observando a coluna com o método .value_counts(), notei que existem 224 valores ausentes, ou seja, strings vazias que precisarão ser tratadas.


In [114]:
dict_data.get('Churn')

'se o cliente deixou ou não a empresa'

In [115]:
df['Churn'].value_counts()

Churn
No     5174
Yes    1869
        224
Name: count, dtype: int64

In [116]:
# Exibindo as linhas e analisando os dados
df[df['Churn']=='']

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
30,0047-ZHDTW,,Female,0,No,No,11,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),79.00,929.30
75,0120-YZLQA,,Male,0,No,No,71,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.90,1355.10
96,0154-QYHJU,,Male,0,No,No,29,Yes,No,DSL,...,Yes,No,Yes,No,No,One year,Yes,Electronic check,58.75,1696.20
98,0162-RZGMZ,,Female,1,No,No,5,Yes,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,No,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,Yes,No,65,Yes,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,No,No,14,Yes,Yes,DSL,...,Yes,No,No,No,No,One year,Yes,Mailed check,54.25,773.20
7180,9872-RZQQB,,Female,0,Yes,No,49,No,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,No,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,No,No,9,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,Yes,Yes,67,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Bank transfer (automatic),19.25,1372.90


##### Alterando as strings vazias para NaN

Como os valores dessas strings são desconhecidos, o tratamento mais coerente e limpo para esses dados é tratá-los como  NaN(valores ausentes), para que futuras análises possam dar o tratamento adequado  como imputações, filtragens ou exclusão.

In [117]:
# Alterando as strings vazias para NaN
df['Churn'] = df['Churn'].replace('', np.nan) 

In [118]:
# Verificando com value_counts()
df['Churn'].value_counts()

Churn
No     5174
Yes    1869
Name: count, dtype: int64

In [119]:
# Verificando as linhas alteradas
df[df['Churn'].isna()]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
30,0047-ZHDTW,,Female,0,No,No,11,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),79.00,929.30
75,0120-YZLQA,,Male,0,No,No,71,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.90,1355.10
96,0154-QYHJU,,Male,0,No,No,29,Yes,No,DSL,...,Yes,No,Yes,No,No,One year,Yes,Electronic check,58.75,1696.20
98,0162-RZGMZ,,Female,1,No,No,5,Yes,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,No,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,Yes,No,65,Yes,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,No,No,14,Yes,Yes,DSL,...,Yes,No,No,No,No,One year,Yes,Mailed check,54.25,773.20
7180,9872-RZQQB,,Female,0,Yes,No,49,No,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,No,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,No,No,9,Yes,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,Yes,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,Yes,Yes,67,Yes,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Bank transfer (automatic),19.25,1372.90


Ainda na coluna Churn, como se trata de uma colunas de valores booleanos, mudarei seu tipo para boolean tratando valores Yes como True e No como False

In [None]:
# Transformando em True e False
df['Churn'] = df['Churn'].map({'Yes': True, 'No': False}) 

In [121]:
#Verificando as alterações
df['Churn'].value_counts()

Churn
False    5174
True     1869
Name: count, dtype: int64

Após a alteração dos valores para True e False, mudarei o tipo da coluna para boolean

In [122]:
df['Churn'] = df['Churn'].astype('boolean')

In [123]:
# Verificando 
df.dtypes

customerID           object
Churn               boolean
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
Charges.Monthly     float64
Charges.Total       float64
dtype: object

Análise da coluna __gender__

A coluna gender é uma coluna categórica que informa o gênero do cliente(Masculino e feminino). Está completa de dados sem valores ausentes ou dados inconsistentes. Nela farei apenas apadronização dos dados para que todos estejam lowercase para otimização da análise, modelagem e visualização posterior.

In [124]:
dict_data.get('gender')

'gênero (masculino e feminino)'

In [125]:
df['gender'].value_counts()

gender
Male      3675
Female    3592
Name: count, dtype: int64

In [126]:
# Normalizando valores, deixando todos lowercase, removendo espaços em branco.
df['gender'] = df['gender'].str.strip().str.lower() 

In [127]:
# Verificando
df['gender'].value_counts()

gender
male      3675
female    3592
Name: count, dtype: int64

##### Análise da coluna __SeniorCitizen__

Essa coluna, segundo o dicionário de dados informa a se o cliente tem ou não mais de 65 anos de idade. É composta por valores 0 e 1, onde zero é False, ou seja, o cliente está abaixo da idade de 65 anos e 1 é True, o cliente está na idade igual ou maior que 65 anos. Trata-se então de uma coluna booleana.

In [144]:
dict_data.get('SeniorCitizen')

' informação sobre um cliente ter ou não idade igual ou maior que 65 anos '

In [None]:
# Contagem de cada valor na coluna
df['SeniorCitizen'].value_counts()

SeniorCitizen
0    6085
1    1182
Name: count, dtype: int64

In [None]:
# Nulos e NaN
df['SeniorCitizen'].isnull().sum() + df['SeniorCitizen'].isna().sum()

np.int64(0)

Para manter um padrão, como na coluna Chunh que também é booleana e possui valores True e False, vou manter esse padrão e atribuir os valores True/False para todas as colunas booleanas

In [156]:
df['SeniorCitizen'] = df['SeniorCitizen'].astype(bool)

In [158]:
df['SeniorCitizen'].dtype

dtype('bool')

#### Análise da coluna Partner

Segundo o dicionário de dados, essa colunas informa se o cliente possui ou não um parceiro.

In [161]:
df['Partner'].value_counts()

Partner
No     3749
Yes    3518
Name: count, dtype: int64

In [160]:
dict_data.get('Partner')

'se o cliente possui ou não um parceiro ou parceira'

In [162]:
df.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,False,female,False,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,False,male,False,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,True,male,False,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,True,male,True,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,True,female,True,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [None]:
df['PaymentMethod'].value_counts()

[2445, 1665, 1589, 1568]

In [None]:
df.columns
# Churn, SeniorCitizen, Partner, Dependents, PhoneService, MultipleLines, OnlineSecurity, OnlineBackup, DeviceProtection, TechSupport, StreamingTV, StreamingMovies, PaperlessBilling

Index(['customerID', 'Churn', 'gender', 'SeniorCitizen', 'Partner',
       'Dependents', 'tenure', 'PhoneService', 'MultipleLines',
       'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
       'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract',
       'PaperlessBilling', 'PaymentMethod', 'Charges.Monthly',
       'Charges.Total'],
      dtype='object')

In [None]:
[x for x in df.columns.tolist() if len(df[x].value_counts().to_list()) <= 3 and (df[x][0] == 'Yes' or df[x][0] == 'No')]

['Partner',
 'Dependents',
 'PhoneService',
 'MultipleLines',
 'OnlineSecurity',
 'OnlineBackup',
 'DeviceProtection',
 'TechSupport',
 'StreamingTV',
 'StreamingMovies',
 'PaperlessBilling']

In [180]:
len(df['PaymentMethod'].value_counts().to_list())

4