#### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa
* `gender`: gênero (masculino e feminino)
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico
* `MultipleLines`: assisnatura de mais de uma linha de telefone
* `InternetService`: assinatura de um provedor internet
* `OnlineSecurity`: assinatura adicional de segurança online
* `OnlineBackup`: assinatura adicional de backup online
* `DeviceProtection`: assinatura adicional de proteção no dispositivo
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo
* `StreamingMovies`: assinatura de streaming de filmes
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

In [123]:
# Criei um dicionario do dicionario das colunas para facilitar entendimento dos dados de cada coluna.
dict_data = {
    'customerID': 'número de identificação único de cada cliente',
    'Churn': 'se o cliente deixou ou não a empresa' ,
    'gender': 'gênero (masculino e feminino)',
    'SeniorCitizen':' informação sobre um cliente ter ou não idade igual ou maior que 65 anos ',
    'Partner':  'se o cliente possui ou não um parceiro ou parceira',
    'Dependents': 'se o cliente possui ou não dependentes',
    'tenure': ' meses de contrato do cliente',
    'PhoneService': 'assinatura de serviço telefônico',
    'MultipleLines': 'assisnatura de mais de uma linha de telefone',
    'InternetService': 'assinatura de um provedor internet',
    'OnlineSecurity': 'assinatura adicional de segurança online',
    'OnlineBackup': 'assinatura adicional de backup online ',
    'DeviceProtection': 'assinatura adicional de proteção no dispositivo',
    'TechSupport': 'assinatura adicional de suporte técnico, menos tempo de espera',
    'StreamingTV': 'assinatura de TV a cabo ',
    'StreamingMovies': 'assinatura de streaming de filmes ',
    'Contract': 'tipo de contrato',
    'PaperlessBilling': 'se o cliente prefere receber online a fatura',
    'PaymentMethod': 'forma de pagamento',
    'Charges.Monthly': 'total de todos os serviços do cliente por mês',
    'Charges.Total': 'total gasto pelo cliente'
    }

In [124]:
# Imports das bibliotecas utilizadas
import pandas as pd
import numpy as np
import requests
import io

In [125]:
# Buscando os Dados

# Url da base de dados
data_url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json'

response = requests.get(data_url)

if response.status_code == 200:
    json_file = io.StringIO(response.text)
else:
    print(f"Bad response: status code: {response.status_code}")
    


In [126]:
# Criando o Dataframe
raw_data = pd.read_json(json_file)

# Primeira visualização
raw_data.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


Os dados das colunas: **customer, phone, internet e account** estão aninhados e precisam ser normalizados 

In [127]:
# Criando uma lista com as colunas que precisam ser normalizadas
to_normalize = raw_data.columns[2:].tolist()

# Utilizando o a método json_normalize do pandas para normalizar o dataframe
# Criando uma lista para auxiliar na normalização
dfs_normalized = [pd.json_normalize(raw_data[x]) for x in to_normalize]

Com uma lista com 4 dataframes correspondente as colunas que precisavam ser normalizadas, agora juntarei tudo em um único dataframe

In [128]:
# Juntando os dataframes
df = pd.concat([raw_data[['customerID', 'Churn']], dfs_normalized[0], dfs_normalized[1],dfs_normalized[2],dfs_normalized[3]], axis=1)

In [129]:
# Primeira view do dataframe já normalizado
df.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


#### Conhecendo o dataSet

In [130]:
# Informação de linhas colunas e tipos de colunas
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


In [131]:
# Confirmando o número de linhas e colunas
rows, columns = df.shape
print(f'linhas: {rows}, colunas: {columns}')

linhas: 7267, colunas: 21


In [132]:
# Describe das colunas categóricas
df.describe(exclude=[np.number])

Unnamed: 0,customerID,Churn,gender,Partner,Dependents,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Total
count,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267.0
unique,7267,3,2,2,2,2,3,3,3,3,3,3,3,3,3,2,4,6531.0
top,0002-ORFBO,No,Male,No,No,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,20.2
freq,1,5174,3675,3749,5086,6560,3495,3198,3608,3182,3195,3582,2896,2870,4005,4311,2445,11.0


In [133]:
# Describe das colunas numéricas
df.describe()

Unnamed: 0,SeniorCitizen,tenure,Charges.Monthly
count,7267.0,7267.0,7267.0
mean,0.162653,32.346498,64.720098
std,0.369074,24.571773,30.129572
min,0.0,0.0,18.25
25%,0.0,9.0,35.425
50%,0.0,29.0,70.3
75%,0.0,55.0,89.875
max,1.0,72.0,118.75


#### Verificando Inconsistências nos Dados

Analisando o método describe, é notável que algumas colunas que deveriam ser numéricas não estão sendo exibidas no método

In [134]:
# Utilizando o dicionário de dados fornecido para saber qual é o propósito de cada coluna no dataframe

for key, value in dict_data.items():
    print(f"{key}: {value}")

customerID: número de identificação único de cada cliente
Churn: se o cliente deixou ou não a empresa
gender: gênero (masculino e feminino)
SeniorCitizen:  informação sobre um cliente ter ou não idade igual ou maior que 65 anos 
Partner: se o cliente possui ou não um parceiro ou parceira
Dependents: se o cliente possui ou não dependentes
tenure:  meses de contrato do cliente
PhoneService: assinatura de serviço telefônico
MultipleLines: assisnatura de mais de uma linha de telefone
InternetService: assinatura de um provedor internet
OnlineSecurity: assinatura adicional de segurança online
OnlineBackup: assinatura adicional de backup online 
DeviceProtection: assinatura adicional de proteção no dispositivo
TechSupport: assinatura adicional de suporte técnico, menos tempo de espera
StreamingTV: assinatura de TV a cabo 
StreamingMovies: assinatura de streaming de filmes 
Contract: tipo de contrato
PaperlessBilling: se o cliente prefere receber online a fatura
PaymentMethod: forma de pagamen

In [135]:
# Valores unicos por coluna
for col in df.columns.tolist():
    print(f'{col}: {df[col].nunique()}')

customerID: 7267
Churn: 3
gender: 2
SeniorCitizen: 2
Partner: 2
Dependents: 2
tenure: 73
PhoneService: 2
MultipleLines: 3
InternetService: 3
OnlineSecurity: 3
OnlineBackup: 3
DeviceProtection: 3
TechSupport: 3
StreamingTV: 3
StreamingMovies: 3
Contract: 3
PaperlessBilling: 2
PaymentMethod: 4
Charges.Monthly: 1585
Charges.Total: 6531


#### Identificando as colunas com booleanas e efetuando a mudança de tipo

Observando o comando acima com o .nunique(), fica claro que se tratam de colunas com valores booleanos que precisam de uma padronização, sendo assim, farei uma lista com todas as colunas que precisaram desse tratamento.

In [None]:

# Esse list Compreension cria uma lista com nome de todas as colunas que tem o tamanho menor ou igual a 3, e seu primeiro elemento é um 'Yes' ou 'No' ou '1' ou '0'. Essas são as colunas booleanas do df.
possible_bool_columns = [x for x in df.columns.tolist() if len(df[x].value_counts().to_list()) <= 3 and (df[x][0] == 'Yes' or df[x][0] == 'No' or df[x][0] == 0 or df[x][0] == 1)]

possible_bool_columns

['Churn',
 'SeniorCitizen',
 'Partner',
 'Dependents',
 'PhoneService',
 'MultipleLines',
 'OnlineSecurity',
 'OnlineBackup',
 'DeviceProtection',
 'TechSupport',
 'StreamingTV',
 'StreamingMovies',
 'PaperlessBilling']

Dentro das colunas booleanas, existem colunas que precisam de um tratamento a mais além da conversão de tipo, e se for feita a conversão para o tipo bool diretamente, modificará o conteúdo das colunas, então vou criar uma segunda lista com as colunas que de fato podem ser diretamente convertidas para o tipo bool

In [137]:

true_bool_columns = [x for x in df.columns.tolist() if len(df[x].value_counts().to_list()) == 2 and (df[x][0] == 'Yes' or df[x][0] == 'No')]
true_bool_columns

['Partner', 'Dependents', 'PhoneService', 'PaperlessBilling']

In [138]:
# Verificando
for x in true_bool_columns:
    print(f'{x}: {df[x].value_counts()}')

Partner: Partner
No     3749
Yes    3518
Name: count, dtype: int64
Dependents: Dependents
No     5086
Yes    2181
Name: count, dtype: int64
PhoneService: PhoneService
Yes    6560
No      707
Name: count, dtype: int64
PaperlessBilling: PaperlessBilling
Yes    4311
No     2956
Name: count, dtype: int64


In [139]:
# As colunas da lista true_bool_columns podem ser diretamente convertidas para o tipo boolean, as demais colunas booleanas serão convertidas para seu tipo ideal com um tratamento mais detalhado
# df[true_bool_columns] = df[true_bool_columns].map({'Yes': True, 'No': False})
# df[true_bool_columns] = df[true_bool_columns].astype('boolean')

for col in true_bool_columns:
    df[col] = df[col].map({'Yes': True, 'No': False})
    df[col] = df[col].astype('boolean')

In [140]:
# Verificando
df[true_bool_columns].dtypes

# As colunas 'Partner', 'Dependents', 'PhoneService', 'PaperlessBilling', agora são do tipo booleano

Partner             boolean
Dependents          boolean
PhoneService        boolean
PaperlessBilling    boolean
dtype: object

In [141]:
for x in true_bool_columns:
    print(f'{x}: {df[x].value_counts()}')
    print('==========================')

Partner: Partner
False    3749
True     3518
Name: count, dtype: Int64
Dependents: Dependents
False    5086
True     2181
Name: count, dtype: Int64
PhoneService: PhoneService
True     6560
False     707
Name: count, dtype: Int64
PaperlessBilling: PaperlessBilling
True     4311
False    2956
Name: count, dtype: Int64


### Análise das colunas

##### Análise da coluna __customerID__
Essa coluna segundo o dicionário de dados trata da idêntificação única de cada cliente. É Composta por dados do tipo nnnn-LLLL, sendo "n" um número inteiro e "L" letras capitalizadas, os mesmo separados por um hífen. Não existem valores ausentes, duplicados ou dados inconsistentes nessa coluna.

A parte numérica do __customerID__ com 4 dígitos está em sequência na coluna, o que indica que a mesma é um id gerado por inserção, a parte alphabética do __customerID__ com 5 caracteres capitalizados talvéz represente a abreviação do nome do cliente ou um código único.

A coluna **account.Charges.Total** está como object (texto), mas deveria ser float. Há indícios de valores ausentes ou inválidos (provavelmente strings vazias ou espaços)

In [142]:
dict_data.get('customerID')

'número de identificação único de cada cliente'

In [143]:
# Cada valor da coluna é único.
df['customerID'].is_unique

True

In [None]:
# Garantindo
df['customerID'].duplicated().sum()

np.int64(0)

Criando um df secundario para fazer a derivação da coluna customerID, separando em duas colunas ('customer_number', 'customer_cod') a coluna 'customerID'

In [144]:
df_secundary = df.copy()
df_secundary[['customer_number', 'customer_cod']] = df_secundary['customerID'].str.split('-', expand=True)

In [145]:
df_secundary[['customer_number', 'customer_cod']]

Unnamed: 0,customer_number,customer_cod
0,0002,ORFBO
1,0003,MKNFE
2,0004,TLHLJ
3,0011,IGKFF
4,0013,EXCHZ
...,...,...
7262,9987,LUTYD
7263,9992,RRAMN
7264,9992,UJOEL
7265,9993,LHIEB


In [146]:
df_secundary['customer_number'].value_counts()

customer_number
3096    5
3097    5
6734    5
1866    5
0621    5
       ..
0015    1
0014    1
0011    1
0004    1
0003    1
Name: count, Length: 5194, dtype: int64

In [147]:
df_secundary['customer_cod'].value_counts()

customer_cod
VUVJN    2
GSODA    2
CYWMH    2
KYRCV    1
MYYYZ    1
        ..
LXDEV    1
YZZYM    1
DIUUN    1
KWFBM    1
EHMNK    1
Name: count, Length: 7264, dtype: int64

Análisando a agora coluna "**customer_number**", notei que existem valores duplicados, ou seja, a coluna se uma sequência por inserção, tem valores inconsistentes.

In [148]:
# Verificando a duplicidade dos dados
df_secundary[df_secundary['customer_cod'].str.endswith('VUVJN')]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total,customer_number,customer_cod
2088,2931-VUVJN,No,Female,1,True,False,59,True,Yes,Fiber optic,...,Yes,No,No,One year,True,Electronic check,94.05,5483.9,2931,VUVJN
6185,8473-VUVJN,Yes,Male,1,False,False,1,True,Yes,Fiber optic,...,No,No,No,Month-to-month,True,Electronic check,73.65,73.65,8473,VUVJN


Assim como também a coluna agora "**customer_cod**" que possui valores duplicados, mas como as mesmas fazer parte de um conjunto que é único, decidí não fazer mais alterações ou análise com base nesse novo dataframe até que eu possua mais informações a respeito de como esses dados foram gerados.

### Análise da coluna __Churn__
Essa colunas informa se o cliente deixou ou não a empresa. Sendo composta dos valores **Yes** para sim e **No** para não, ou seja, uma coluna com dados booleanos.  Observando a coluna com o método .value_counts(), notei que existem 224 valores ausentes, ou seja, strings vazias que precisarão ser tratadas.


In [149]:
dict_data.get('Churn')

'se o cliente deixou ou não a empresa'

In [150]:
df['Churn'].value_counts()

Churn
No     5174
Yes    1869
        224
Name: count, dtype: int64

In [151]:
# Exibindo as linhas e analisando os dados
df[df['Churn']=='']

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
30,0047-ZHDTW,,Female,0,False,False,11,True,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,True,Bank transfer (automatic),79.00,929.3
75,0120-YZLQA,,Male,0,False,False,71,True,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,True,Credit card (automatic),19.90,1355.1
96,0154-QYHJU,,Male,0,False,False,29,True,No,DSL,...,Yes,No,Yes,No,No,One year,True,Electronic check,58.75,1696.2
98,0162-RZGMZ,,Female,1,False,False,5,True,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,False,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,True,False,65,True,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,True,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,False,False,14,True,Yes,DSL,...,Yes,No,No,No,No,One year,True,Mailed check,54.25,773.2
7180,9872-RZQQB,,Female,0,True,False,49,False,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,False,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,False,False,9,True,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,True,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,True,True,67,True,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,True,Bank transfer (automatic),19.25,1372.9


##### Alterando as strings vazias para NaN

Como os valores dessas strings são desconhecidos, o tratamento mais coerente e limpo para esses dados é tratá-los como  NaN(valores ausentes), para que futuras análises possam dar o tratamento adequado  como imputações, filtragens ou exclusão.

In [152]:
# Alterando as strings vazias para NaN
df['Churn'] = df['Churn'].replace('', np.nan) 

In [153]:
# Verificando com value_counts()
df['Churn'].value_counts()

Churn
No     5174
Yes    1869
Name: count, dtype: int64

In [154]:
# Verificando as linhas alteradas
df[df['Churn'].isna()]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
30,0047-ZHDTW,,Female,0,False,False,11,True,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,True,Bank transfer (automatic),79.00,929.3
75,0120-YZLQA,,Male,0,False,False,71,True,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,True,Credit card (automatic),19.90,1355.1
96,0154-QYHJU,,Male,0,False,False,29,True,No,DSL,...,Yes,No,Yes,No,No,One year,True,Electronic check,58.75,1696.2
98,0162-RZGMZ,,Female,1,False,False,5,True,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,False,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,True,False,65,True,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,True,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,False,False,14,True,Yes,DSL,...,Yes,No,No,No,No,One year,True,Mailed check,54.25,773.2
7180,9872-RZQQB,,Female,0,True,False,49,False,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,False,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,False,False,9,True,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,True,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,True,True,67,True,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,True,Bank transfer (automatic),19.25,1372.9


Ainda na coluna Churn, como se trata de uma colunas de valores booleanos, mudarei seu tipo para boolean tratando valores Yes como True e No como False

In [155]:
# Transformando em True e False
df['Churn'] = df['Churn'].map({'Yes': True, 'No': False}) 

In [156]:
#Verificando as alterações
df['Churn'].value_counts()

Churn
False    5174
True     1869
Name: count, dtype: int64

Após a alteração dos valores para True e False, mudarei o tipo da coluna para boolean, pois embora mudando os valores para True e False, o tipo da coluna ainda está como object.

A melhor forma de fazer essa alteração para valores NaN é utilizar o pd.BooleanDtype(), que é especializado para lhe dar com dipos NaN para booleanos.

In [157]:
df['Churn'] = df['Churn'].astype('boolean')

In [158]:
df['Churn'].value_counts()

Churn
False    5174
True     1869
Name: count, dtype: Int64

In [159]:
# Verificando 
df['Churn'].dtype

BooleanDtype

### Análise da coluna __gender__

A coluna gender é uma coluna categórica que informa o gênero do cliente(Masculino e feminino). Está completa de dados sem valores ausentes ou dados inconsistentes. Nela farei apenas a padronização dos dados para que todos estejam lowercase para otimização da análise, modelagem e visualização posterior.

In [160]:
dict_data.get('gender')

'gênero (masculino e feminino)'

In [None]:
df['gender'].dtype # Está como tipo Object

dtype('O')

In [None]:
df['gender'].value_counts()

gender
Male      3675
Female    3592
Name: count, dtype: int64

In [162]:
# Normalizando valores, deixando todos lowercase, removendo espaços em branco.
df['gender'] = df['gender'].str.strip().str.lower() 

In [163]:
# Verificando
df['gender'].value_counts()

gender
male      3675
female    3592
Name: count, dtype: int64

converter a coluna gender de object para category para mais eficiência e prepara melhor os dados para ML.

In [240]:
df['gender'] = df['gender'].astype('category')


In [241]:
df['gender'].dtype

CategoricalDtype(categories=['female', 'male'], ordered=False, categories_dtype=object)

### Análise da coluna __SeniorCitizen__

Essa coluna, segundo o dicionário de dados informa a se o cliente tem ou não mais de 65 anos de idade. É composta por valores 0 e 1, onde zero é False, ou seja, o cliente está abaixo da idade de 65 anos e 1 é True, o cliente está na idade igual ou maior que 65 anos. Trata-se então de uma coluna booleana.

In [164]:
dict_data.get('SeniorCitizen')

' informação sobre um cliente ter ou não idade igual ou maior que 65 anos '

In [165]:
# Contagem de cada valor na coluna
df['SeniorCitizen'].value_counts()

SeniorCitizen
0    6085
1    1182
Name: count, dtype: int64

In [166]:
# Nulos e NaN
df['SeniorCitizen'].isnull().sum() + df['SeniorCitizen'].isna().sum()

np.int64(0)

Para manter um padrão, como na coluna Chunh que também é booleana e possui valores True e False, vou manter esse padrão e atribuir os valores True/False para todas as colunas booleanas

In [167]:
df['SeniorCitizen'] = df['SeniorCitizen'].astype(bool)

In [168]:
df['SeniorCitizen'].value_counts()

SeniorCitizen
False    6085
True     1182
Name: count, dtype: int64

In [169]:
df['SeniorCitizen'].dtype

dtype('bool')

#### Análise da coluna Partner

Segundo o dicionário de dados, essa colunas informa se o cliente possui ou não um parceiro. Ela está na lista das colunas que foram convertidas o tipo diretamente para boolean.

In [170]:
true_bool_columns[0]

'Partner'

In [171]:
df['Partner'].value_counts()

Partner
False    3749
True     3518
Name: count, dtype: Int64

In [172]:
dict_data.get('Partner')

'se o cliente possui ou não um parceiro ou parceira'

### Análise da coluna __Dependents__

In [173]:
dict_data.get('Dependents')

'se o cliente possui ou não dependentes'

In [174]:
true_bool_columns

['Partner', 'Dependents', 'PhoneService', 'PaperlessBilling']

In [175]:
df['Dependents'].value_counts()

Dependents
False    5086
True     2181
Name: count, dtype: Int64

In [176]:
df.columns

Index(['customerID', 'Churn', 'gender', 'SeniorCitizen', 'Partner',
       'Dependents', 'tenure', 'PhoneService', 'MultipleLines',
       'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
       'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract',
       'PaperlessBilling', 'PaymentMethod', 'Charges.Monthly',
       'Charges.Total'],
      dtype='object')

### Análise da coluna __Tenure__

Segundo o dicionário de dados, essa coluna registra a quantidade de meses que o cliente tem contrato com a empresa.

In [177]:
dict_data.get('tenure')

' meses de contrato do cliente'

In [178]:
df['tenure'].value_counts()

tenure
1     634
72    369
2     246
3     207
4     185
     ... 
28     60
39     59
44     54
36     50
0      11
Name: count, Length: 73, dtype: int64

### Análise da coluna __PhoneService__

Coluna booleana que indica se o cliente possui serviços telefônicos em seu contrato.

In [179]:
dict_data.get('PhoneService')

'assinatura de serviço telefônico'

In [180]:
df['PhoneService'].value_counts()

PhoneService
True     6560
False     707
Name: count, dtype: Int64

### Análise da coluna __MultipleLines__

Coluna booleana que indica se o cliente tem multiplas linhas em seu contrato. Além dos valores padrões booleanos "Yes/No", possui 707 valores "No phone service" que para padronização dos dados, serão tratados como No na coluna.



In [181]:
dict_data.get('MultipleLines')

'assisnatura de mais de uma linha de telefone'

In [182]:
df['MultipleLines'].value_counts()

MultipleLines
No                  3495
Yes                 3065
No phone service     707
Name: count, dtype: int64

In [183]:
df['MultipleLines'] = df['MultipleLines'].str.strip().str.lower().map({
    'yes': True,
    'no': False,
    'no phone service': False 
})


In [184]:
df['MultipleLines'].value_counts()

MultipleLines
False    4202
True     3065
Name: count, dtype: int64

### Análise da coluna __InternetService__
Os dados dessa coluna indicam se o cliente tem no contrato serviços de internet, com 3 possibilidades: 'Fiber opitic', 'DSL' e 'No'. Poderiamos transformá-la também em uma coluna booleana, assumindo todos os valores diferentes de 'No' como __True__. Porém para o problemas da empresa em questão, seria interessante manter os dados como estão para fim de análises e modelos. Por isso decidi apenas verificar possíveis inconsistências e mudar o tipo da coluna para 'category'. O tipo 'category' é um tipo especializado para representar valores discretos e repetidos (como rótulos, classes, categorias).

In [185]:
dict_data.get('InternetService')

'assinatura de um provedor internet'

In [186]:
df['InternetService'].value_counts()

InternetService
Fiber optic    3198
DSL            2488
No             1581
Name: count, dtype: int64

In [187]:
# Mudando o tipo da coluna para categorica
df['InternetService'] = df['InternetService'].astype('category')


In [188]:
df['InternetService'].value_counts()

InternetService
Fiber optic    3198
DSL            2488
No             1581
Name: count, dtype: int64

In [189]:
df['InternetService'].dtype

CategoricalDtype(categories=['DSL', 'Fiber optic', 'No'], ordered=False, categories_dtype=object)

### Análise da coluna __OnlineSecurity__

Os dados dessa coluna indicam se o cliente tem serviço de segurança adicional online, semelhante a coluna 'MultipleLInes' possui três valores possíveis: 'Yes','No' e 'No internet service'. Por isso sera dado o mesmo tratamento.


In [190]:
dict_data.get('OnlineSecurity')

'assinatura adicional de segurança online'

In [191]:
df['OnlineSecurity'].value_counts()

OnlineSecurity
No                     3608
Yes                    2078
No internet service    1581
Name: count, dtype: int64

In [192]:
df['OnlineSecurity'] = df['OnlineSecurity'].str.strip().str.lower().map({
    'yes': True,
    'no': False,
    'no internet service': False 
})

In [193]:
df['OnlineSecurity'].value_counts()

OnlineSecurity
False    5189
True     2078
Name: count, dtype: int64

### Análise da coluna __OnlineBackup__

Os dados dessa coluna indicam se o cliente tem um serviço adicional de backup online. Trata-se também de uma coluna booleana, porém, assim como a coluna anterior, tem os mesmo três valores 'Yes','No' e 'No internet service'.

In [194]:
dict_data.get('OnlineBackup')

'assinatura adicional de backup online '

In [195]:
df['OnlineBackup'].value_counts()

OnlineBackup
No                     3182
Yes                    2504
No internet service    1581
Name: count, dtype: int64

In [196]:
df['OnlineBackup'] = df['OnlineBackup'].str.strip().str.lower().map({
    'yes': True,
    'no': False,
    'no internet service': False 
})

In [197]:
df['OnlineBackup'].value_counts()

OnlineBackup
False    4763
True     2504
Name: count, dtype: int64

### Análise da coluna __DeviceProtection__
Essa coluna indica se o cliente tem proteção adicional no seu dispositívo. Também é uma coluna booleana com 3 valores distintos ("Yes", "No", "No internet service"). 

In [198]:
dict_data.get('DeviceProtection')

'assinatura adicional de proteção no dispositivo'

In [199]:
df['DeviceProtection'].value_counts()

DeviceProtection
No                     3195
Yes                    2491
No internet service    1581
Name: count, dtype: int64

In [200]:
df['DeviceProtection'] = df['DeviceProtection'].str.strip().str.lower().map({
    'yes': True,
    'no': False,
    'no internet service': False 
})

In [201]:
df['DeviceProtection'].value_counts()

DeviceProtection
False    4776
True     2491
Name: count, dtype: int64

TechSupport

In [202]:
dict_data.get('TechSupport')

'assinatura adicional de suporte técnico, menos tempo de espera'

In [203]:
df['TechSupport'].value_counts()

TechSupport
No                     3582
Yes                    2104
No internet service    1581
Name: count, dtype: int64

In [204]:
df['TechSupport'] = df['TechSupport'].str.strip().str.lower().map({
    'yes': True,
    'no': False,
    'no internet service': False 
})

In [205]:
df['TechSupport'].value_counts()

TechSupport
False    5163
True     2104
Name: count, dtype: int64

### Análise da coluna __StreamingTV__
Indica se o cliente possui assinatura de TV a cabo no seu contrato. Também uma coluna booleana com 3 valores distintos, sendo normalizada transformando os valores "No internet service" como False

In [206]:
dict_data.get('StreamingTV')

'assinatura de TV a cabo '

In [207]:
df['StreamingTV'].value_counts()

StreamingTV
No                     2896
Yes                    2790
No internet service    1581
Name: count, dtype: int64

In [208]:
df['StreamingTV'] = df['StreamingTV'].str.strip().str.lower().map({'yes': True, 'no': False, 'no internet service': False})

In [209]:
df['StreamingTV'].value_counts()

StreamingTV
False    4477
True     2790
Name: count, dtype: int64

In [210]:
df['StreamingTV'].dtype

dtype('bool')

### Análise da coluna  __StreamingMovies__

Essa coluna indica se o cliente possui assinatura de stream de filmes em seu contrato. Também uma coluna booleana com 3 valores distinto, sendo normalizada para valores **True/False**

In [211]:
dict_data.get('StreamingMovies')

'assinatura de streaming de filmes '

In [212]:
df['StreamingMovies'].value_counts()

StreamingMovies
No                     2870
Yes                    2816
No internet service    1581
Name: count, dtype: int64

In [213]:
df['StreamingMovies'] = df['StreamingMovies'].str.strip().str.lower().map({'yes': True, 'no': False, 'no internet service': False})

In [214]:
df['StreamingMovies'].value_counts()

StreamingMovies
False    4451
True     2816
Name: count, dtype: int64

In [215]:
df['StreamingMovies'].dtype

dtype('bool')

### Análise da coluna __Contract__
Indica o tipo de contrato o cliente possui, sendo esse três valores possíveis (Month-to-month, Two year, One year). Assim como na coluna InternetServices, atribuirei o tipo **categórica** a coluna para melhoria de busca e desempenho.

In [216]:
dict_data.get('Contract')

'tipo de contrato'

In [217]:
df['Contract'].value_counts() # transformar para categorica

Contract
Month-to-month    4005
Two year          1743
One year          1519
Name: count, dtype: int64

In [218]:
df['Contract'] = df['Contract'].astype('category')


In [219]:
df['Contract'].dtype

CategoricalDtype(categories=['Month-to-month', 'One year', 'Two year'], ordered=False, categories_dtype=object)

### Análise da coluna __PaperlessBilling__
Essa coluna indica como o clinte é fatura, se recebe a sua fatura online ou em papel. Essa coluna já havia sido tratada como booleana

In [220]:
dict_data.get("PaperlessBilling")

'se o cliente prefere receber online a fatura'

In [221]:
df['PaperlessBilling'].value_counts()

PaperlessBilling
True     4311
False    2956
Name: count, dtype: Int64

In [222]:
true_bool_columns[-1]

'PaperlessBilling'

### Análise da coluna __PaymentMethod__
Essa coluna indica a forma de pagamento escolhida pelo cliente, sendo 4 valores possíveis: Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic). A está coluna també será tipada como categorica.

In [223]:
dict_data.get('PaymentMethod')

'forma de pagamento'

In [224]:
df['PaymentMethod'].value_counts()

PaymentMethod
Electronic check             2445
Mailed check                 1665
Bank transfer (automatic)    1589
Credit card (automatic)      1568
Name: count, dtype: int64

In [225]:
df['PaymentMethod'] = df['PaymentMethod'].astype('category') 

In [226]:
df['PaymentMethod'].dtype

CategoricalDtype(categories=['Bank transfer (automatic)', 'Credit card (automatic)',
                  'Electronic check', 'Mailed check'],
, ordered=False, categories_dtype=object)

### Análise da coluna __Charges.Monthly__
Essa coluna informa o total dos serviços do contrato mensalmente. Possue valores monetários que já são do tipo float64

In [227]:
dict_data.get('Charges.Monthly')


'total de todos os serviços do cliente por mês'

In [228]:
df['Charges.Monthly'].dtype

dtype('float64')

### Análise da coluna __Charges.Total__
Segundo o dicionário de dados, essa colunas informa o total já pago pelo cliente durante todo o período de seu contrato. Possívelmente essa coluna é o resultado da multiplicação da coluna **"tenure"** pela coluna **"Charges.Monthly"** e apesar de possuir valores monetários, está como o tipo object.


In [229]:
dict_data.get('Charges.Total')

'total gasto pelo cliente'

In [230]:
df['Charges.Total'].dtypes # A coluna está como tipo Object

dtype('O')

Localizando as colunas que não são numéricas

In [231]:
# Esse comando exibe as colunas que não podem ter seus valores convertidos para valores numéricos
df[df['Charges.Total'].apply(pd.to_numeric, errors='coerce').isna()]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
975,1371-DWPAZ,False,female,False,True,True,0,False,False,DSL,...,True,True,True,True,False,Two year,False,Credit card (automatic),56.05,
1775,2520-SGTTA,False,female,False,True,True,0,True,False,No,...,False,False,False,False,False,Two year,False,Mailed check,20.0,
1955,2775-SEFEE,False,male,False,False,True,0,True,True,DSL,...,True,False,True,False,False,Two year,True,Bank transfer (automatic),61.9,
2075,2923-ARZLG,False,male,False,True,True,0,True,False,No,...,False,False,False,False,False,One year,True,Mailed check,19.7,
2232,3115-CZMZD,False,male,False,False,True,0,True,False,No,...,False,False,False,False,False,Two year,False,Mailed check,20.25,
2308,3213-VVOLG,False,male,False,True,True,0,True,True,No,...,False,False,False,False,False,Two year,False,Mailed check,25.35,
2930,4075-WKNIU,False,female,False,True,True,0,True,True,DSL,...,True,True,True,True,False,Two year,False,Mailed check,73.35,
3134,4367-NUYAO,False,male,False,True,True,0,True,True,No,...,False,False,False,False,False,Two year,False,Mailed check,25.75,
3203,4472-LVYGI,False,female,False,True,True,0,False,False,DSL,...,False,True,True,True,False,Two year,True,Bank transfer (automatic),52.55,
4169,5709-LVOEQ,False,female,False,True,True,0,True,False,DSL,...,True,True,False,True,True,Two year,False,Mailed check,80.85,


Existe 11 linhas da coluna **Charges.Total** são strings vazias, possívelmente cliente que acabaram de se juntar a base de clientes, pois os mesmo tem 0 como valor padrão a todos na coluna ternure que é o tempo em que o mesmo já é cliente.
Sendo novos clientes, que ainda terão seus pagamentos faturados, o melhor tratamento é atribuir o valor 0 as essas linhas com string vazias, possibilitando a conversão do tipo da coluna e futuras análises.

In [232]:
# Atribuindo o valor zero a todas as strings vazias

# Criei uma lista com todos os indices que tem uma string vazia no df
empty_string = df[df['Charges.Total'].apply(pd.to_numeric, errors='coerce').isna()].index.tolist()

empty_string

[975, 1775, 1955, 2075, 2232, 2308, 2930, 3134, 3203, 4169, 5599]

In [233]:

# Usando o .loc com a lista como mascara para localizar e substituir as strings vazias por zero
df.loc[empty_string, 'Charges.Total'] = 0

In [234]:

# aplicando o filtro para visualizar as alterações
df.loc[empty_string]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
975,1371-DWPAZ,False,female,False,True,True,0,False,False,DSL,...,True,True,True,True,False,Two year,False,Credit card (automatic),56.05,0
1775,2520-SGTTA,False,female,False,True,True,0,True,False,No,...,False,False,False,False,False,Two year,False,Mailed check,20.0,0
1955,2775-SEFEE,False,male,False,False,True,0,True,True,DSL,...,True,False,True,False,False,Two year,True,Bank transfer (automatic),61.9,0
2075,2923-ARZLG,False,male,False,True,True,0,True,False,No,...,False,False,False,False,False,One year,True,Mailed check,19.7,0
2232,3115-CZMZD,False,male,False,False,True,0,True,False,No,...,False,False,False,False,False,Two year,False,Mailed check,20.25,0
2308,3213-VVOLG,False,male,False,True,True,0,True,True,No,...,False,False,False,False,False,Two year,False,Mailed check,25.35,0
2930,4075-WKNIU,False,female,False,True,True,0,True,True,DSL,...,True,True,True,True,False,Two year,False,Mailed check,73.35,0
3134,4367-NUYAO,False,male,False,True,True,0,True,True,No,...,False,False,False,False,False,Two year,False,Mailed check,25.75,0
3203,4472-LVYGI,False,female,False,True,True,0,False,False,DSL,...,False,True,True,True,False,Two year,True,Bank transfer (automatic),52.55,0
4169,5709-LVOEQ,False,female,False,True,True,0,True,False,DSL,...,True,True,False,True,True,Two year,False,Mailed check,80.85,0


Após a substituição das strings vazias por zero, modificarei o tipo da coluna para float 64

In [235]:
# Mudando o tipo da coluna para float
df['Charges.Total'] = df['Charges.Total'].astype(np.float64)

In [236]:
# Verificando
df['Charges.Total'].dtype

dtype('float64')

Após a normalização e tipagem correta das colunas e dados nas mesma, ...

In [237]:
df.dtypes

customerID            object
Churn                boolean
gender                object
SeniorCitizen           bool
Partner              boolean
Dependents           boolean
tenure                 int64
PhoneService         boolean
MultipleLines           bool
InternetService     category
OnlineSecurity          bool
OnlineBackup            bool
DeviceProtection        bool
TechSupport             bool
StreamingTV             bool
StreamingMovies         bool
Contract            category
PaperlessBilling     boolean
PaymentMethod       category
Charges.Monthly      float64
Charges.Total        float64
dtype: object

In [243]:
df

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,False,female,False,True,True,9,True,False,DSL,...,True,False,True,True,False,One year,True,Mailed check,65.60,593.30
1,0003-MKNFE,False,male,False,False,False,9,True,True,DSL,...,False,False,False,False,True,Month-to-month,False,Mailed check,59.90,542.40
2,0004-TLHLJ,True,male,False,False,False,4,True,False,Fiber optic,...,False,True,False,False,False,Month-to-month,True,Electronic check,73.90,280.85
3,0011-IGKFF,True,male,True,True,False,13,True,False,Fiber optic,...,True,True,False,True,True,Month-to-month,True,Electronic check,98.00,1237.85
4,0013-EXCHZ,True,female,True,True,False,3,True,False,Fiber optic,...,False,False,True,True,False,Month-to-month,True,Mailed check,83.90,267.40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,False,female,False,False,False,13,True,False,DSL,...,False,False,True,False,False,One year,False,Mailed check,55.15,742.90
7263,9992-RRAMN,True,male,False,True,False,22,True,True,Fiber optic,...,False,False,False,False,True,Month-to-month,True,Electronic check,85.10,1873.70
7264,9992-UJOEL,False,male,False,False,False,2,True,False,DSL,...,True,False,False,False,False,Month-to-month,True,Mailed check,50.30,92.75
7265,9993-LHIEB,False,male,False,True,True,67,True,False,DSL,...,False,True,True,False,True,Two year,False,Mailed check,67.85,4627.65


df.select_dtypes(include='category')


In [244]:
df.select_dtypes(include='category')


Unnamed: 0,gender,InternetService,Contract,PaymentMethod
0,female,DSL,One year,Mailed check
1,male,DSL,Month-to-month,Mailed check
2,male,Fiber optic,Month-to-month,Electronic check
3,male,Fiber optic,Month-to-month,Electronic check
4,female,Fiber optic,Month-to-month,Mailed check
...,...,...,...,...
7262,female,DSL,One year,Mailed check
7263,male,Fiber optic,Month-to-month,Electronic check
7264,male,DSL,Month-to-month,Mailed check
7265,male,DSL,Two year,Mailed check
