#### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa
* `gender`: gênero (masculino e feminino)
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico
* `MultipleLines`: assisnatura de mais de uma linha de telefone
* `InternetService`: assinatura de um provedor internet
* `OnlineSecurity`: assinatura adicional de segurança online
* `OnlineBackup`: assinatura adicional de backup online
* `DeviceProtection`: assinatura adicional de proteção no dispositivo
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo
* `StreamingMovies`: assinatura de streaming de filmes
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

In [1]:
# Criei um dicionario do dicionario das colunas para facilitar entendimento dos dados de cada coluna.
dict_data = {
    'customerID': 'número de identificação único de cada cliente',
    'Churn': 'se o cliente deixou ou não a empresa' ,
    'gender': 'gênero (masculino e feminino)',
    'SeniorCitizen':' informação sobre um cliente ter ou não idade igual ou maior que 65 anos ',
    'Partner':  'se o cliente possui ou não um parceiro ou parceira',
    'Dependents': 'se o cliente possui ou não dependentes',
    'tenure': ' meses de contrato do cliente',
    'PhoneService': 'assinatura de serviço telefônico',
    'MultipleLines': 'assisnatura de mais de uma linha de telefone',
    'InternetService': 'assinatura de um provedor internet',
    'OnlineSecurity': 'assinatura adicional de segurança online',
    'OnlineBackup': 'assinatura adicional de backup online ',
    'DeviceProtection': 'assinatura adicional de proteção no dispositivo',
    'TechSupport': 'assinatura adicional de suporte técnico, menos tempo de espera',
    'StreamingTV': 'assinatura de TV a cabo ',
    'StreamingMovies': 'assinatura de streaming de filmes ',
    'Contract': 'tipo de contrato',
    'PaperlessBilling': 'se o cliente prefere receber online a fatura',
    'PaymentMethod': 'forma de pagamento',
    'Charges.Monthly': 'total de todos os serviços do cliente por mês',
    'Charges.Total': 'total gasto pelo cliente'
    }

In [2]:
# Imports das bibliotecas utilizadas
import pandas as pd
import numpy as np
import sqlalchemy
import requests
import io
import re

In [3]:
# Buscando os Dados

# Url da base de dados
data_url = 'https://raw.githubusercontent.com/ingridcristh/challenge2-data-science/refs/heads/main/TelecomX_Data.json'

response = requests.get(data_url)

if response.status_code == 200:
    json_file = io.StringIO(response.text)
else:
    print(f"Bad response: status code: {response.status_code}")
    


In [4]:
# Criando o Dataframe
raw_data = pd.read_json(json_file)

# Primeira visualização
raw_data.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


Os dados das colunas: **customer, phone, internet e account** estão aninhados e precisam ser normalizados 

In [None]:
# Criando uma lista com as colunas que precisam ser normalizadas
to_normalize = raw_data.columns[2:].tolist()

# Utilizando o a método json_normalize do pandas para normalizar o dataframe
# Criando uma lista para auxiliar na normalização
dfs_normalized = [pd.json_normalize(raw_data[x]) for x in to_normalize]

Com uma lista com 4 dataframes correspondente as colunas que precisavam ser normalizadas, agora juntarei tudo em um único dataframe

In [6]:
# Juntando os dataframes
df = pd.concat([raw_data[['customerID', 'Churn']], dfs_normalized[0], dfs_normalized[1],dfs_normalized[2],dfs_normalized[3]], axis=1)

In [7]:
# Primeira view do dataframe já normalizado
df.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


#### Conhecendo o dataSet

In [8]:
# Informação de linhas colunas e tipos de colunas
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


O dataset é composto por 7267 linhas e 21 colunas, sendo essas de maioria do tipo Object.

In [9]:
# Confirmando o número de linhas e colunas
rows, columns = df.shape
print(f'linhas: {rows}, colunas: {columns}')

linhas: 7267, colunas: 21


In [10]:
# Describe das colunas categóricas
df.describe(exclude=[np.number])

Unnamed: 0,customerID,Churn,gender,Partner,Dependents,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Total
count,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267,7267.0
unique,7267,3,2,2,2,2,3,3,3,3,3,3,3,3,3,2,4,6531.0
top,0002-ORFBO,No,Male,No,No,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,20.2
freq,1,5174,3675,3749,5086,6560,3495,3198,3608,3182,3195,3582,2896,2870,4005,4311,2445,11.0


In [11]:
# Describe das colunas numéricas
df.describe()

Unnamed: 0,SeniorCitizen,tenure,Charges.Monthly
count,7267.0,7267.0,7267.0
mean,0.162653,32.346498,64.720098
std,0.369074,24.571773,30.129572
min,0.0,0.0,18.25
25%,0.0,9.0,35.425
50%,0.0,29.0,70.3
75%,0.0,55.0,89.875
max,1.0,72.0,118.75


### Data Clean - Verificando Inconsistências nos Dados

Analisando o método describe, é notável que algumas colunas que deveriam ser numéricas não estão sendo exibidas no método

In [12]:
# Utilizando o dicionário de dados fornecido para saber qual é o propósito de cada coluna no dataframe

for key, value in dict_data.items():
    print(f"{key}: {value}")

customerID: número de identificação único de cada cliente
Churn: se o cliente deixou ou não a empresa
gender: gênero (masculino e feminino)
SeniorCitizen:  informação sobre um cliente ter ou não idade igual ou maior que 65 anos 
Partner: se o cliente possui ou não um parceiro ou parceira
Dependents: se o cliente possui ou não dependentes
tenure:  meses de contrato do cliente
PhoneService: assinatura de serviço telefônico
MultipleLines: assisnatura de mais de uma linha de telefone
InternetService: assinatura de um provedor internet
OnlineSecurity: assinatura adicional de segurança online
OnlineBackup: assinatura adicional de backup online 
DeviceProtection: assinatura adicional de proteção no dispositivo
TechSupport: assinatura adicional de suporte técnico, menos tempo de espera
StreamingTV: assinatura de TV a cabo 
StreamingMovies: assinatura de streaming de filmes 
Contract: tipo de contrato
PaperlessBilling: se o cliente prefere receber online a fatura
PaymentMethod: forma de pagamen

Utilizo o método .nunique() através de um laço for para verificar padrões nos valores de cada coluna.

In [13]:
# Valores unicos por coluna
for col in df.columns.tolist():
    print(f'{col}: {df[col].nunique()}')

customerID: 7267
Churn: 3
gender: 2
SeniorCitizen: 2
Partner: 2
Dependents: 2
tenure: 73
PhoneService: 2
MultipleLines: 3
InternetService: 3
OnlineSecurity: 3
OnlineBackup: 3
DeviceProtection: 3
TechSupport: 3
StreamingTV: 3
StreamingMovies: 3
Contract: 3
PaperlessBilling: 2
PaymentMethod: 4
Charges.Monthly: 1585
Charges.Total: 6531


Através dessa primeira análise, verifico que a maioria das colunas são do tipo booleanas/categóricas.

#### Identificando as colunas com booleanas e efetuando a mudança de tipo

Observando o comando acima com o .nunique(), fica claro que se tratam de colunas com valores booleanos que precisam de uma padronização, sendo assim, farei uma lista com todas as colunas que precisaram desse tratamento.

In [14]:

# Esse list Compreension cria uma lista com nome de todas as colunas que tem o tamanho menor ou igual a 3, e seu primeiro elemento é um 'Yes' ou 'No' ou '1' ou '0'. Essas são as colunas booleanas do df.
possible_bool_columns = [x for x in df.columns.tolist() if len(df[x].value_counts().to_list()) <= 3 and (df[x][0] == 'Yes' or df[x][0] == 'No' or df[x][0] == 0 or df[x][0] == 1)]

possible_bool_columns

['Churn',
 'SeniorCitizen',
 'Partner',
 'Dependents',
 'PhoneService',
 'MultipleLines',
 'OnlineSecurity',
 'OnlineBackup',
 'DeviceProtection',
 'TechSupport',
 'StreamingTV',
 'StreamingMovies',
 'PaperlessBilling']

Dentro das colunas booleanas, existem colunas que precisam de um tratamento a mais além da conversão de tipo, e se for feita a conversão para o tipo bool diretamente, modificará o conteúdo das colunas, então vou criar uma segunda lista com as colunas que de fato podem ser diretamente convertidas para o tipo bool

In [15]:

true_bool_columns = [x for x in df.columns.tolist() if len(df[x].value_counts().to_list()) == 2 and (df[x][0] == 'Yes' or df[x][0] == 'No')]
true_bool_columns

['Partner', 'Dependents', 'PhoneService', 'PaperlessBilling']

In [16]:
# Verificando
for x in true_bool_columns:
    print(f'{x}: {df[x].value_counts()}')

Partner: Partner
No     3749
Yes    3518
Name: count, dtype: int64
Dependents: Dependents
No     5086
Yes    2181
Name: count, dtype: int64
PhoneService: PhoneService
Yes    6560
No      707
Name: count, dtype: int64
PaperlessBilling: PaperlessBilling
Yes    4311
No     2956
Name: count, dtype: int64


In [17]:
# As colunas da lista true_bool_columns podem ser diretamente convertidas para o tipo boolean, as demais colunas booleanas serão convertidas para seu tipo ideal com um tratamento mais detalhado

for col in true_bool_columns:
    df[col] = df[col].map({'Yes': 1, 'No': 0})
    df[col] = df[col].astype(np.int64)

In [18]:
# Visualizando resultado
df.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,1,1,9,1,No,DSL,...,Yes,No,Yes,Yes,No,One year,1,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,0,0,9,1,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,0,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,0,0,4,1,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,1,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,1,0,13,1,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,1,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,1,0,3,1,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,1,Mailed check,83.9,267.4


In [19]:
# Verificando
df[true_bool_columns].dtypes

# As colunas 'Partner', 'Dependents', 'PhoneService', 'PaperlessBilling', agora são do tipo booleano

Partner             int64
Dependents          int64
PhoneService        int64
PaperlessBilling    int64
dtype: object

In [20]:
for x in true_bool_columns:
    print(f'{x}: {df[x].value_counts()}')
    print('==========================')

Partner: Partner
0    3749
1    3518
Name: count, dtype: int64
Dependents: Dependents
0    5086
1    2181
Name: count, dtype: int64
PhoneService: PhoneService
1    6560
0     707
Name: count, dtype: int64
PaperlessBilling: PaperlessBilling
1    4311
0    2956
Name: count, dtype: int64


### Análise das colunas

Nessa etapa, analisarei coluna a coluna em busca e insonsistências nos dados

##### Análise da coluna __customerID__
Essa coluna segundo o dicionário de dados trata da idêntificação única de cada cliente. É Composta por dados do tipo nnnn-LLLL, sendo "n" um número inteiro e "L" letras capitalizadas, os mesmo separados por um hífen. Não existem valores ausentes, duplicados ou dados inconsistentes nessa coluna.

A parte numérica do __customerID__ com 4 dígitos está em sequência na coluna, o que indica que a mesma é um id gerado por inserção, a parte alphabética do __customerID__ com 5 caracteres capitalizados talvéz represente a abreviação do nome do cliente ou um código único.

A coluna **account.Charges.Total** está como object (texto), mas deveria ser float. Há indícios de valores ausentes ou inválidos (provavelmente strings vazias ou espaços)

In [21]:
# Utilizando o dicionário de dados criado anteriormente para saber o propósito da coluna
dict_data.get('customerID')

'número de identificação único de cada cliente'

In [22]:
# Cada valor da coluna é único.
df['customerID'].is_unique

True

In [23]:
# Garantindo
df['customerID'].duplicated().sum()

np.int64(0)

Criando um df secundario para fazer a derivação da coluna customerID, separando em duas colunas ('customer_number', 'customer_cod') a coluna 'customerID'

In [24]:
df_secundary = df.copy() # Utilizando o .copy() para garantir que as alterações feitas nesse df não reflitam no df original.
df_secundary[['customer_number', 'customer_cod']] = df_secundary['customerID'].str.split('-', expand=True)

In [25]:
df_secundary[['customer_number', 'customer_cod']]

Unnamed: 0,customer_number,customer_cod
0,0002,ORFBO
1,0003,MKNFE
2,0004,TLHLJ
3,0011,IGKFF
4,0013,EXCHZ
...,...,...
7262,9987,LUTYD
7263,9992,RRAMN
7264,9992,UJOEL
7265,9993,LHIEB


In [26]:
df_secundary['customer_number'].value_counts()

customer_number
3096    5
3097    5
6734    5
1866    5
0621    5
       ..
0015    1
0014    1
0011    1
0004    1
0003    1
Name: count, Length: 5194, dtype: int64

In [27]:
df_secundary['customer_cod'].value_counts()

customer_cod
VUVJN    2
GSODA    2
CYWMH    2
KYRCV    1
MYYYZ    1
        ..
LXDEV    1
YZZYM    1
DIUUN    1
KWFBM    1
EHMNK    1
Name: count, Length: 7264, dtype: int64

Análisando a agora coluna "**customer_number**", notei que existem valores duplicados, ou seja, a coluna se uma sequência por inserção, tem valores inconsistentes.

In [28]:
# Verificando a duplicidade dos dados
df_secundary[df_secundary['customer_cod'].str.endswith('VUVJN')]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total,customer_number,customer_cod
2088,2931-VUVJN,No,Female,1,1,0,59,1,Yes,Fiber optic,...,Yes,No,No,One year,1,Electronic check,94.05,5483.9,2931,VUVJN
6185,8473-VUVJN,Yes,Male,1,0,0,1,1,Yes,Fiber optic,...,No,No,No,Month-to-month,1,Electronic check,73.65,73.65,8473,VUVJN


Assim como também a coluna agora "**customer_cod**" que possui valores duplicados, mas como as mesmas fazer parte de um conjunto que é único, decidí não fazer mais alterações ou análise com base nesse novo dataframe até que eu possua mais informações a respeito de como esses dados foram gerados.

### Análise da coluna __Churn__
Essa colunas informa se o cliente deixou ou não a empresa. Sendo composta dos valores **Yes** para sim e **No** para não, ou seja, uma coluna com dados booleanos.  Observando a coluna com o método .value_counts(), notei que existem 224 valores ausentes, ou seja, strings vazias que precisarão ser tratadas.


In [29]:
dict_data.get('Churn')

'se o cliente deixou ou não a empresa'

In [30]:
df['Churn'].value_counts()

Churn
No     5174
Yes    1869
        224
Name: count, dtype: int64

In [31]:
# Exibindo as linhas e analisando os dados
df[df['Churn']=='']

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
30,0047-ZHDTW,,Female,0,0,0,11,1,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,1,Bank transfer (automatic),79.00,929.3
75,0120-YZLQA,,Male,0,0,0,71,1,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,1,Credit card (automatic),19.90,1355.1
96,0154-QYHJU,,Male,0,0,0,29,1,No,DSL,...,Yes,No,Yes,No,No,One year,1,Electronic check,58.75,1696.2
98,0162-RZGMZ,,Female,1,0,0,5,1,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,0,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,1,0,65,1,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,1,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,0,0,14,1,Yes,DSL,...,Yes,No,No,No,No,One year,1,Mailed check,54.25,773.2
7180,9872-RZQQB,,Female,0,1,0,49,0,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,0,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,0,0,9,1,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,1,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,1,1,67,1,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,1,Bank transfer (automatic),19.25,1372.9


##### Alterando as strings vazias para NaN

Como os valores dessas strings são desconhecidos, o tratamento mais coerente e limpo para esses dados é tratá-los como  NaN(valores ausentes), para que futuras análises possam dar o tratamento adequado  como imputações, filtragens ou exclusão.

In [32]:
# Alterando as strings vazias para NaN
df['Churn'] = df['Churn'].replace('', np.nan) 

In [33]:
# Verificando com value_counts()
df['Churn'].value_counts()

Churn
No     5174
Yes    1869
Name: count, dtype: int64

In [34]:
# Verificando as linhas alteradas
df[df['Churn'].isna()]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
30,0047-ZHDTW,,Female,0,0,0,11,1,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,1,Bank transfer (automatic),79.00,929.3
75,0120-YZLQA,,Male,0,0,0,71,1,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,1,Credit card (automatic),19.90,1355.1
96,0154-QYHJU,,Male,0,0,0,29,1,No,DSL,...,Yes,No,Yes,No,No,One year,1,Electronic check,58.75,1696.2
98,0162-RZGMZ,,Female,1,0,0,5,1,No,DSL,...,Yes,No,Yes,No,No,Month-to-month,0,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,1,0,65,1,Yes,Fiber optic,...,Yes,Yes,No,Yes,Yes,One year,1,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,0,0,14,1,Yes,DSL,...,Yes,No,No,No,No,One year,1,Mailed check,54.25,773.2
7180,9872-RZQQB,,Female,0,1,0,49,0,No phone service,DSL,...,No,No,No,Yes,No,Month-to-month,0,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,0,0,9,1,Yes,Fiber optic,...,No,No,No,No,No,Month-to-month,1,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,1,1,67,1,No,No,...,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,1,Bank transfer (automatic),19.25,1372.9


Ainda na coluna Churn, como se trata de uma com afirmação de positivo e negativo, mudarei seu tipo para int64 tratando valores Yes como 1 e No como 0.

In [35]:
# Transformando em True e False
df['Churn'] = df['Churn'].map({'Yes': 1, 'No': 0}) 

In [36]:
df['Churn'] = df['Churn'].astype('Int64')

In [37]:
#Verificando as alterações
df['Churn'].value_counts()

Churn
0    5174
1    1869
Name: count, dtype: Int64

In [38]:
df['Churn']

0       0
1       0
2       1
3       1
4       1
       ..
7262    0
7263    1
7264    0
7265    0
7266    0
Name: Churn, Length: 7267, dtype: Int64

In [39]:
df['Churn'].value_counts()

Churn
0    5174
1    1869
Name: count, dtype: Int64

In [40]:
# Verificando 
df['Churn'].dtype

Int64Dtype()

### Análise da coluna __gender__

A coluna gender é uma coluna categórica que informa o gênero do cliente(Masculino e feminino). Está completa de dados sem valores ausentes ou dados inconsistentes. Nela farei apenas a padronização dos dados para que todos estejam lowercase para otimização da análise, modelagem e visualização posterior.

In [41]:
dict_data.get('gender')

'gênero (masculino e feminino)'

In [42]:
df['gender'].dtype # Está como tipo Object

dtype('O')

In [43]:
df['gender'].value_counts()

gender
Male      3675
Female    3592
Name: count, dtype: int64

In [44]:
# Normalizando valores, deixando todos lowercase, removendo espaços em branco.
df['gender'] = df['gender'].str.strip().str.lower() 

In [45]:
# Verificando
df['gender'].value_counts()

gender
male      3675
female    3592
Name: count, dtype: int64

converter a coluna gender de object para category para mais eficiência e prepara melhor os dados para ML.

In [46]:
df['gender'] = df['gender'].astype('category')


In [47]:
df['gender'].dtype

CategoricalDtype(categories=['female', 'male'], ordered=False, categories_dtype=object)

### Análise da coluna __SeniorCitizen__

Essa coluna, segundo o dicionário de dados informa a se o cliente tem ou não mais de 65 anos de idade. É composta por valores 0 e 1, onde zero é False, ou seja, o cliente está abaixo da idade de 65 anos e 1 é True, o cliente está na idade igual ou maior que 65 anos. Trata-se então de uma coluna booleana.

In [48]:
dict_data.get('SeniorCitizen')

' informação sobre um cliente ter ou não idade igual ou maior que 65 anos '

In [49]:
# Contagem de cada valor na coluna
df['SeniorCitizen'].value_counts()

SeniorCitizen
0    6085
1    1182
Name: count, dtype: int64

In [50]:
# Nulos e NaN
df['SeniorCitizen'].isnull().sum() + df['SeniorCitizen'].isna().sum()

np.int64(0)

In [51]:
df['SeniorCitizen'].value_counts()

SeniorCitizen
0    6085
1    1182
Name: count, dtype: int64

In [52]:
df['SeniorCitizen'].dtype

dtype('int64')

#### Análise da coluna Partner

Segundo o dicionário de dados, essa colunas informa se o cliente possui ou não um parceiro. Ela está na lista das colunas que foram convertidas o tipo diretamente para boolean.

In [53]:
true_bool_columns[0]

'Partner'

In [54]:
df['Partner'].value_counts()

Partner
0    3749
1    3518
Name: count, dtype: int64

In [55]:
dict_data.get('Partner')

'se o cliente possui ou não um parceiro ou parceira'

### Análise da coluna __Dependents__

Essa coluna indica se o cliente tem ou não dependentes.

In [56]:
dict_data.get('Dependents')

'se o cliente possui ou não dependentes'

In [57]:
true_bool_columns

['Partner', 'Dependents', 'PhoneService', 'PaperlessBilling']

In [58]:
df['Dependents'].value_counts()

Dependents
0    5086
1    2181
Name: count, dtype: int64

### Análise da coluna __Tenure__

Segundo o dicionário de dados, essa coluna registra a quantidade de meses que o cliente tem contrato com a empresa.

In [59]:
dict_data.get('tenure')

' meses de contrato do cliente'

In [60]:
df['tenure'].head()

0     9
1     9
2     4
3    13
4     3
Name: tenure, dtype: int64

In [61]:
df['tenure'].dtype

dtype('int64')

### Análise da coluna __PhoneService__

Coluna booleana que indica se o cliente possui serviços telefônicos em seu contrato.

In [62]:
dict_data.get('PhoneService')

'assinatura de serviço telefônico'

In [63]:
df['PhoneService'].value_counts()

PhoneService
1    6560
0     707
Name: count, dtype: int64

### Análise da coluna __MultipleLines__

Coluna booleana que indica se o cliente tem multiplas linhas em seu contrato. Além dos valores padrões booleanos "Yes/No", possui 707 valores "No phone service" que para padronização dos dados, serão tratados como No na coluna.



In [64]:
dict_data.get('MultipleLines')

'assisnatura de mais de uma linha de telefone'

In [65]:
df['MultipleLines'].value_counts()

MultipleLines
No                  3495
Yes                 3065
No phone service     707
Name: count, dtype: int64

In [66]:
df['MultipleLines'] = df['MultipleLines'].str.strip().str.lower().map({
    'yes': 1,
    'no': 0,
    'no phone service': 0 
})


In [67]:
df['MultipleLines'].value_counts()

MultipleLines
0    4202
1    3065
Name: count, dtype: int64

### Análise da coluna __InternetService__
Os dados dessa coluna indicam se o cliente tem no contrato serviços de internet, com 3 possibilidades: 'Fiber opitic', 'DSL' e 'No'. Poderiamos transformá-la também em uma coluna booleana, assumindo todos os valores diferentes de 'No' como __True__. Porém para o problemas da empresa em questão, seria interessante manter os dados como estão para fim de análises e modelos. Por isso decidi apenas verificar possíveis inconsistências e mudar o tipo da coluna para 'category'. O tipo 'category' é um tipo especializado para representar valores discretos e repetidos (como rótulos, classes, categorias).

In [68]:
dict_data.get('InternetService')

'assinatura de um provedor internet'

In [69]:
df['InternetService'].value_counts()

InternetService
Fiber optic    3198
DSL            2488
No             1581
Name: count, dtype: int64

In [70]:
# Padronizando para minusculas
df['InternetService'] = df['InternetService'].str.strip().str.lower()

In [71]:
# Mudando o tipo da coluna para categorica
df['InternetService'] = df['InternetService'].astype('category')


In [72]:
df['InternetService'].value_counts()

InternetService
fiber optic    3198
dsl            2488
no             1581
Name: count, dtype: int64

In [73]:
df['InternetService'].dtype

CategoricalDtype(categories=['dsl', 'fiber optic', 'no'], ordered=False, categories_dtype=object)

### Análise da coluna __OnlineSecurity__

Os dados dessa coluna indicam se o cliente tem serviço de segurança adicional online, semelhante a coluna 'MultipleLInes' possui três valores possíveis: 'Yes','No' e 'No internet service'. Por isso sera dado o mesmo tratamento.


In [74]:
dict_data.get('OnlineSecurity')

'assinatura adicional de segurança online'

In [75]:
df['OnlineSecurity'].value_counts()

OnlineSecurity
No                     3608
Yes                    2078
No internet service    1581
Name: count, dtype: int64

In [76]:
df['OnlineSecurity'] = df['OnlineSecurity'].str.strip().str.lower().map({
    'yes': 1,
    'no': 0,
    'no internet service': 0 
})

In [77]:
df['OnlineSecurity'].value_counts()

OnlineSecurity
0    5189
1    2078
Name: count, dtype: int64

### Análise da coluna __OnlineBackup__

Os dados dessa coluna indicam se o cliente tem um serviço adicional de backup online. Trata-se também de uma coluna booleana, porém, assim como a coluna anterior, tem os mesmo três valores 'Yes','No' e 'No internet service'.

In [78]:
dict_data.get('OnlineBackup')

'assinatura adicional de backup online '

In [79]:
df['OnlineBackup'].value_counts()

OnlineBackup
No                     3182
Yes                    2504
No internet service    1581
Name: count, dtype: int64

In [80]:
df['OnlineBackup'] = df['OnlineBackup'].str.strip().str.lower().map({
    'yes': 1,
    'no': 0,
    'no internet service': 0 
})

In [81]:
df['OnlineBackup'].value_counts()

OnlineBackup
0    4763
1    2504
Name: count, dtype: int64

### Análise da coluna __DeviceProtection__
Essa coluna indica se o cliente tem proteção adicional no seu dispositívo. Também é uma coluna booleana com 3 valores distintos ("Yes", "No", "No internet service"). 

In [82]:
dict_data.get('DeviceProtection')

'assinatura adicional de proteção no dispositivo'

In [83]:
df['DeviceProtection'].value_counts()

DeviceProtection
No                     3195
Yes                    2491
No internet service    1581
Name: count, dtype: int64

In [84]:
df['DeviceProtection'] = df['DeviceProtection'].str.strip().str.lower().map({
    'yes': 1,
    'no': 0,
    'no internet service': 0 
})

In [85]:
df['DeviceProtection'].value_counts()

DeviceProtection
0    4776
1    2491
Name: count, dtype: int64

### Anállise da coluna __TechSupport__

Essa coluna indica se em seu contrato o cliente tem plano de suporte técnico.

In [86]:
dict_data.get('TechSupport')

'assinatura adicional de suporte técnico, menos tempo de espera'

In [87]:
df['TechSupport'].value_counts()

TechSupport
No                     3582
Yes                    2104
No internet service    1581
Name: count, dtype: int64

In [88]:
df['TechSupport'] = df['TechSupport'].str.strip().str.lower().map({
    'yes': 1,
    'no': 0,
    'no internet service': 0 
})

In [89]:
df['TechSupport'].value_counts()

TechSupport
0    5163
1    2104
Name: count, dtype: int64

### Análise da coluna __StreamingTV__
Indica se o cliente possui assinatura de TV a cabo no seu contrato. Também uma coluna booleana com 3 valores distintos, sendo normalizada transformando os valores "No internet service" como False

In [90]:
dict_data.get('StreamingTV')

'assinatura de TV a cabo '

In [91]:
df['StreamingTV'].value_counts()

StreamingTV
No                     2896
Yes                    2790
No internet service    1581
Name: count, dtype: int64

In [92]:
df['StreamingTV'] = df['StreamingTV'].str.strip().str.lower().map({'yes': 1, 'no': 0, 'no internet service': 0})

In [93]:
df['StreamingTV'].value_counts()

StreamingTV
0    4477
1    2790
Name: count, dtype: int64

In [94]:
df['StreamingTV'].dtype

dtype('int64')

### Análise da coluna  __StreamingMovies__

Essa coluna indica se o cliente possui assinatura de stream de filmes em seu contrato. Também uma coluna booleana com 3 valores distinto, sendo normalizada para valores **True/False**

In [95]:
dict_data.get('StreamingMovies')

'assinatura de streaming de filmes '

In [96]:
df['StreamingMovies'].value_counts()

StreamingMovies
No                     2870
Yes                    2816
No internet service    1581
Name: count, dtype: int64

In [97]:
df['StreamingMovies'] = df['StreamingMovies'].str.strip().str.lower().map({'yes': 1, 'no': 0, 'no internet service': 0})

In [98]:
df['StreamingMovies'].value_counts()

StreamingMovies
0    4451
1    2816
Name: count, dtype: int64

In [99]:
df['StreamingMovies'].dtype

dtype('int64')

### Análise da coluna __Contract__
Indica o tipo de contrato o cliente possui, sendo esse três valores possíveis (Month-to-month, Two year, One year). Assim como na coluna InternetServices, atribuirei o tipo **categórica** a coluna para melhoria de busca e desempenho.

In [100]:
dict_data.get('Contract')

'tipo de contrato'

In [101]:
df['Contract'].value_counts() # transformar para categorica

Contract
Month-to-month    4005
Two year          1743
One year          1519
Name: count, dtype: int64

In [102]:
# Padronizando para minúsculas
df['Contract'] = df['Contract'].str.lower()

In [103]:
df['Contract'] = df['Contract'].astype('category')


In [104]:
df['Contract'].dtype

CategoricalDtype(categories=['month-to-month', 'one year', 'two year'], ordered=False, categories_dtype=object)

In [105]:
df['Contract'].sample()

6144    two year
Name: Contract, dtype: category
Categories (3, object): ['month-to-month', 'one year', 'two year']

### Análise da coluna __PaperlessBilling__
Essa coluna indica como o clinte é fatura, se recebe a sua fatura online ou em papel. Essa coluna já havia sido tratada como booleana

In [106]:
dict_data.get("PaperlessBilling")

'se o cliente prefere receber online a fatura'

In [107]:
df['PaperlessBilling'].value_counts()

PaperlessBilling
1    4311
0    2956
Name: count, dtype: int64

In [108]:
true_bool_columns[-1]

'PaperlessBilling'

### Análise da coluna __PaymentMethod__
Essa coluna indica a forma de pagamento escolhida pelo cliente, sendo 4 valores possíveis: Electronic check, Mailed check, Bank transfer (automatic), Credit card (automatic). A está coluna també será tipada como categorica.

In [109]:
dict_data.get('PaymentMethod')

'forma de pagamento'

In [110]:
df['PaymentMethod'].value_counts()

PaymentMethod
Electronic check             2445
Mailed check                 1665
Bank transfer (automatic)    1589
Credit card (automatic)      1568
Name: count, dtype: int64

In [111]:
df['PaymentMethod'] = df['PaymentMethod'].str.lower()

In [112]:
df['PaymentMethod'] = df['PaymentMethod'].astype('category') 

In [113]:
df['PaymentMethod'].dtype

CategoricalDtype(categories=['bank transfer (automatic)', 'credit card (automatic)',
                  'electronic check', 'mailed check'],
, ordered=False, categories_dtype=object)

### Análise da coluna __Charges.Monthly__
Essa coluna informa o total dos serviços do contrato mensalmente. Possue valores monetários que já são do tipo float64

In [114]:
dict_data.get('Charges.Monthly')


'total de todos os serviços do cliente por mês'

In [115]:
df['Charges.Monthly'].dtype

dtype('float64')

### Análise da coluna __Charges.Total__
Segundo o dicionário de dados, essa colunas informa o total já pago pelo cliente durante todo o período de seu contrato. Possívelmente essa coluna é o resultado da multiplicação da coluna **"tenure"** pela coluna **"Charges.Monthly"** e apesar de possuir valores monetários, está como o tipo object.


In [116]:
dict_data.get('Charges.Total')

'total gasto pelo cliente'

In [117]:
df['Charges.Total'].dtypes # A coluna está como tipo Object

dtype('O')

Localizando as colunas que não são numéricas

In [118]:
# Esse comando exibe as colunas que não podem ter seus valores convertidos para valores numéricos
df[df['Charges.Total'].apply(pd.to_numeric, errors='coerce').isna()]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
975,1371-DWPAZ,0,female,0,1,1,0,0,0,dsl,...,1,1,1,1,0,two year,0,credit card (automatic),56.05,
1775,2520-SGTTA,0,female,0,1,1,0,1,0,no,...,0,0,0,0,0,two year,0,mailed check,20.0,
1955,2775-SEFEE,0,male,0,0,1,0,1,1,dsl,...,1,0,1,0,0,two year,1,bank transfer (automatic),61.9,
2075,2923-ARZLG,0,male,0,1,1,0,1,0,no,...,0,0,0,0,0,one year,1,mailed check,19.7,
2232,3115-CZMZD,0,male,0,0,1,0,1,0,no,...,0,0,0,0,0,two year,0,mailed check,20.25,
2308,3213-VVOLG,0,male,0,1,1,0,1,1,no,...,0,0,0,0,0,two year,0,mailed check,25.35,
2930,4075-WKNIU,0,female,0,1,1,0,1,1,dsl,...,1,1,1,1,0,two year,0,mailed check,73.35,
3134,4367-NUYAO,0,male,0,1,1,0,1,1,no,...,0,0,0,0,0,two year,0,mailed check,25.75,
3203,4472-LVYGI,0,female,0,1,1,0,0,0,dsl,...,0,1,1,1,0,two year,1,bank transfer (automatic),52.55,
4169,5709-LVOEQ,0,female,0,1,1,0,1,0,dsl,...,1,1,0,1,1,two year,0,mailed check,80.85,


Existe 11 linhas da coluna **Charges.Total** são strings vazias, possívelmente cliente que acabaram de se juntar a base de clientes, pois os mesmo tem 0 como valor padrão a todos na coluna ternure que é o tempo em que o mesmo já é cliente.
Sendo novos clientes, que ainda terão seus pagamentos faturados, o melhor tratamento é atribuir o valor 0 as essas linhas com string vazias, possibilitando a conversão do tipo da coluna e futuras análises.

In [119]:
# Atribuindo o valor zero a todas as strings vazias

# Criei uma lista com todos os indices que tem uma string vazia no df
empty_string = df[df['Charges.Total'].apply(pd.to_numeric, errors='coerce').isna()].index.tolist()

empty_string

[975, 1775, 1955, 2075, 2232, 2308, 2930, 3134, 3203, 4169, 5599]

In [120]:

# Usando o .loc com a lista como mascara para localizar e substituir as strings vazias por zero
df.loc[empty_string, 'Charges.Total'] = 0

In [121]:

# aplicando o filtro para visualizar as alterações
df.loc[empty_string]

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
975,1371-DWPAZ,0,female,0,1,1,0,0,0,dsl,...,1,1,1,1,0,two year,0,credit card (automatic),56.05,0
1775,2520-SGTTA,0,female,0,1,1,0,1,0,no,...,0,0,0,0,0,two year,0,mailed check,20.0,0
1955,2775-SEFEE,0,male,0,0,1,0,1,1,dsl,...,1,0,1,0,0,two year,1,bank transfer (automatic),61.9,0
2075,2923-ARZLG,0,male,0,1,1,0,1,0,no,...,0,0,0,0,0,one year,1,mailed check,19.7,0
2232,3115-CZMZD,0,male,0,0,1,0,1,0,no,...,0,0,0,0,0,two year,0,mailed check,20.25,0
2308,3213-VVOLG,0,male,0,1,1,0,1,1,no,...,0,0,0,0,0,two year,0,mailed check,25.35,0
2930,4075-WKNIU,0,female,0,1,1,0,1,1,dsl,...,1,1,1,1,0,two year,0,mailed check,73.35,0
3134,4367-NUYAO,0,male,0,1,1,0,1,1,no,...,0,0,0,0,0,two year,0,mailed check,25.75,0
3203,4472-LVYGI,0,female,0,1,1,0,0,0,dsl,...,0,1,1,1,0,two year,1,bank transfer (automatic),52.55,0
4169,5709-LVOEQ,0,female,0,1,1,0,1,0,dsl,...,1,1,0,1,1,two year,0,mailed check,80.85,0


Após a substituição das strings vazias por zero, modificarei o tipo da coluna para float 64

In [122]:
# Mudando o tipo da coluna para float
df['Charges.Total'] = df['Charges.Total'].astype(np.float64)

In [123]:
# Verificando
df['Charges.Total'].dtype

dtype('float64')

Após a normalização e tipagem correta das colunas e dados nas mesma, ...

In [124]:
df.dtypes

customerID            object
Churn                  Int64
gender              category
SeniorCitizen          int64
Partner                int64
Dependents             int64
tenure                 int64
PhoneService           int64
MultipleLines          int64
InternetService     category
OnlineSecurity         int64
OnlineBackup           int64
DeviceProtection       int64
TechSupport            int64
StreamingTV            int64
StreamingMovies        int64
Contract            category
PaperlessBilling       int64
PaymentMethod       category
Charges.Monthly      float64
Charges.Total        float64
dtype: object

In [125]:
df.sample(10)

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
2319,3230-JCNZS,0,female,0,1,1,71,1,1,fiber optic,...,1,1,0,1,0,two year,1,credit card (automatic),99.0,7061.65
4297,5908-QMGOE,1,male,1,0,0,15,1,1,fiber optic,...,0,0,0,0,0,month-to-month,1,credit card (automatic),74.2,1133.9
2352,3279-DYZQM,0,male,0,1,1,71,1,0,no,...,0,0,0,0,0,two year,0,mailed check,19.45,1378.45
904,1269-FOYWN,0,male,0,1,1,44,1,0,no,...,0,0,0,0,0,one year,0,bank transfer (automatic),20.0,860.85
5851,8000-REIQB,1,female,1,0,0,1,1,0,fiber optic,...,0,0,0,0,0,month-to-month,1,electronic check,69.95,69.95
6277,8631-XVRZL,0,male,0,0,0,9,1,0,no,...,0,0,0,0,0,one year,1,mailed check,20.15,163.7
5798,7928-VJYAB,0,male,0,1,1,11,1,0,fiber optic,...,0,0,0,1,1,month-to-month,0,electronic check,90.6,1020.2
2343,3261-CQXOL,0,female,0,1,1,71,1,1,no,...,0,0,0,0,0,two year,0,bank transfer (automatic),25.45,1813.35
5671,7748-UMTRK,0,female,1,0,1,30,1,1,fiber optic,...,0,0,1,1,1,month-to-month,1,electronic check,101.3,2974.5
1632,2320-TZRRH,0,female,0,0,0,20,1,0,no,...,0,0,0,0,0,one year,0,mailed check,19.5,403.15


### Padronização dos nomes das colunas


In [126]:
# Função para padronização dos nomes das colunas
def camel_to_snake(name):
    name = name.replace('.', '')  # remove pontos
    # insere _ antes de uma letra maiúscula que vem depois de uma letra minúscula ou número
    name = re.sub(r'(?<=[a-z0-9])(?=[A-Z])', '_', name)
    return name.lower()

In [127]:
old_columns = df.columns.tolist()
new_columns = list(map(camel_to_snake, old_columns))
dict_columns = {key: value for key, value in zip(old_columns, new_columns)}

In [128]:

df.rename(columns=dict_columns, inplace=True)

In [129]:
df.columns

Index(['customer_id', 'churn', 'gender', 'senior_citizen', 'partner',
       'dependents', 'tenure', 'phone_service', 'multiple_lines',
       'internet_service', 'online_security', 'online_backup',
       'device_protection', 'tech_support', 'streaming_tv', 'streaming_movies',
       'contract', 'paperless_billing', 'payment_method', 'charges_monthly',
       'charges_total'],
      dtype='object')

### Enriquecendo o Dataset

Agora, com os dados limpos, criarei a coluna"Contas_Diarias" utiliz o faturamento mensal para calcular o valor diário, proporcionando uma visão mais detalhada do comportamento dos clientes ao longo do tempo.

In [130]:
df['charge_daily'] = df['charges_monthly'] / 30 

In [131]:
df.head()

Unnamed: 0,customer_id,churn,gender,senior_citizen,partner,dependents,tenure,phone_service,multiple_lines,internet_service,...,device_protection,tech_support,streaming_tv,streaming_movies,contract,paperless_billing,payment_method,charges_monthly,charges_total,charge_daily
0,0002-ORFBO,0,female,0,1,1,9,1,0,dsl,...,0,1,1,0,one year,1,mailed check,65.6,593.3,2.186667
1,0003-MKNFE,0,male,0,0,0,9,1,1,dsl,...,0,0,0,1,month-to-month,0,mailed check,59.9,542.4,1.996667
2,0004-TLHLJ,1,male,0,0,0,4,1,0,fiber optic,...,1,0,0,0,month-to-month,1,electronic check,73.9,280.85,2.463333
3,0011-IGKFF,1,male,1,1,0,13,1,0,fiber optic,...,1,0,1,1,month-to-month,1,electronic check,98.0,1237.85,3.266667
4,0013-EXCHZ,1,female,1,1,0,3,1,0,fiber optic,...,0,1,1,0,month-to-month,1,mailed check,83.9,267.4,2.796667


In [132]:
df.dtypes

customer_id            object
churn                   Int64
gender               category
senior_citizen          int64
partner                 int64
dependents              int64
tenure                  int64
phone_service           int64
multiple_lines          int64
internet_service     category
online_security         int64
online_backup           int64
device_protection       int64
tech_support            int64
streaming_tv            int64
streaming_movies        int64
contract             category
paperless_billing       int64
payment_method       category
charges_monthly       float64
charges_total         float64
charge_daily          float64
dtype: object

### Salvando os dados limpos em um DataBase

Com a conclusão do ETL - Extract, Transform, agora só falta o L de load. Decidí criar um banco de dados local para salvar o dados já limpos, facilitando o desempenho e consultas.

In [133]:
from sqlalchemy import create_engine, MetaData, Table, inspect

In [134]:
engine = create_engine('sqlite:///clened_telecomX_db/teleconX.db')

In [135]:
# Salvando no banco de dados
df.to_sql('teleconX_origin', engine, index=False, if_exists='replace')

7267

In [136]:
print(inspect(engine).get_table_names())

['teleconX_no_NaN', 'teleconX_origin', 'teleconX_ptbr']


Salvando uma versão sem NaN

In [137]:
df_no_NaN = df.copy()
df_no_NaN.dropna(inplace=True)

In [138]:
df_no_NaN.isna().sum()

customer_id          0
churn                0
gender               0
senior_citizen       0
partner              0
dependents           0
tenure               0
phone_service        0
multiple_lines       0
internet_service     0
online_security      0
online_backup        0
device_protection    0
tech_support         0
streaming_tv         0
streaming_movies     0
contract             0
paperless_billing    0
payment_method       0
charges_monthly      0
charges_total        0
charge_daily         0
dtype: int64

In [139]:
# Salvando no banco de dados
df_no_NaN.to_sql('teleconX_no_NaN', engine, index=False, if_exists='replace')

7043

### Desafio Opcional

Traduzir ou renomear colunas e dados torna os dados mais acessíveis e compreensíveis, especialmente quando se lida com fontes externas ou termos técnicos. Embora não seja obrigatória, essa etapa pode melhorar significativamente a clareza e a comunicação dos resultados, facilitando a interpretação e evitando confusões, especialmente ao compartilhar informações com stakeholders não técnicos.

In [140]:
old_columns = [key for key in df.columns.tolist()]
old_columns

['customer_id',
 'churn',
 'gender',
 'senior_citizen',
 'partner',
 'dependents',
 'tenure',
 'phone_service',
 'multiple_lines',
 'internet_service',
 'online_security',
 'online_backup',
 'device_protection',
 'tech_support',
 'streaming_tv',
 'streaming_movies',
 'contract',
 'paperless_billing',
 'payment_method',
 'charges_monthly',
 'charges_total',
 'charge_daily']

#### Traduzindo as colunas

In [141]:
ptbr_columns = ['id_cliente', 'cancelou', 'genero', 'idoso', 'tem_parceiro','tem_dependente', 'meses_contrato', 'servicos_telefonicos', 'multiplas_linhas', 'servicos_internet', 'seguranca_online','backup_online','seguro_protecao','suporte_tecnico','tem_tv_cabo', 'tem_stream_filmes', 'tipo_contrato','fatura_online','forma_pagamento','valor_mensal','valor_total','valor_diario']

In [142]:
df_ptbr = df.copy()
df_ptbr.rename(columns=dict(zip(old_columns, ptbr_columns)), inplace=True)

In [143]:
df_ptbr.head()

Unnamed: 0,id_cliente,cancelou,genero,idoso,tem_parceiro,tem_dependente,meses_contrato,servicos_telefonicos,multiplas_linhas,servicos_internet,...,seguro_protecao,suporte_tecnico,tem_tv_cabo,tem_stream_filmes,tipo_contrato,fatura_online,forma_pagamento,valor_mensal,valor_total,valor_diario
0,0002-ORFBO,0,female,0,1,1,9,1,0,dsl,...,0,1,1,0,one year,1,mailed check,65.6,593.3,2.186667
1,0003-MKNFE,0,male,0,0,0,9,1,1,dsl,...,0,0,0,1,month-to-month,0,mailed check,59.9,542.4,1.996667
2,0004-TLHLJ,1,male,0,0,0,4,1,0,fiber optic,...,1,0,0,0,month-to-month,1,electronic check,73.9,280.85,2.463333
3,0011-IGKFF,1,male,1,1,0,13,1,0,fiber optic,...,1,0,1,1,month-to-month,1,electronic check,98.0,1237.85,3.266667
4,0013-EXCHZ,1,female,1,1,0,3,1,0,fiber optic,...,0,1,1,0,month-to-month,1,mailed check,83.9,267.4,2.796667


#### Traduzindo os dados onde é necessário

In [144]:
df_ptbr['genero'] = df_ptbr['genero'].replace({'male': 'masculino', 'female': 'feminino'})


  df_ptbr['genero'] = df_ptbr['genero'].replace({'male': 'masculino', 'female': 'feminino'})


In [145]:
df_ptbr['servicos_internet'] = df_ptbr['servicos_internet'].replace({'dsl': 'dsl-cabo', 'fiber optic': 'fibra optica', 'no' : 'sem serviço'})

  df_ptbr['servicos_internet'] = df_ptbr['servicos_internet'].replace({'dsl': 'dsl-cabo', 'fiber optic': 'fibra optica', 'no' : 'sem serviço'})


In [146]:
df_ptbr['tipo_contrato'] = df_ptbr['tipo_contrato'].replace({'month-to-month': 'mensal', 'two year': 'dois anos', 'one year': 'anual'})

  df_ptbr['tipo_contrato'] = df_ptbr['tipo_contrato'].replace({'month-to-month': 'mensal', 'two year': 'dois anos', 'one year': 'anual'})


In [147]:
df_ptbr['forma_pagamento'] = df_ptbr['forma_pagamento'].replace({'eletronic check': 'cheque eletrônico', 'mailed check': 'cheque via correios', 'bank transfer (automatic)': 'tranferência bancária automática', 'credit card (automatic)': 'cartão de crédito automático'})

  df_ptbr['forma_pagamento'] = df_ptbr['forma_pagamento'].replace({'eletronic check': 'cheque eletrônico', 'mailed check': 'cheque via correios', 'bank transfer (automatic)': 'tranferência bancária automática', 'credit card (automatic)': 'cartão de crédito automático'})


Visualizando ...

In [148]:

df_ptbr.head()

Unnamed: 0,id_cliente,cancelou,genero,idoso,tem_parceiro,tem_dependente,meses_contrato,servicos_telefonicos,multiplas_linhas,servicos_internet,...,seguro_protecao,suporte_tecnico,tem_tv_cabo,tem_stream_filmes,tipo_contrato,fatura_online,forma_pagamento,valor_mensal,valor_total,valor_diario
0,0002-ORFBO,0,feminino,0,1,1,9,1,0,dsl-cabo,...,0,1,1,0,anual,1,cheque via correios,65.6,593.3,2.186667
1,0003-MKNFE,0,masculino,0,0,0,9,1,1,dsl-cabo,...,0,0,0,1,mensal,0,cheque via correios,59.9,542.4,1.996667
2,0004-TLHLJ,1,masculino,0,0,0,4,1,0,fibra optica,...,1,0,0,0,mensal,1,electronic check,73.9,280.85,2.463333
3,0011-IGKFF,1,masculino,1,1,0,13,1,0,fibra optica,...,1,0,1,1,mensal,1,electronic check,98.0,1237.85,3.266667
4,0013-EXCHZ,1,feminino,1,1,0,3,1,0,fibra optica,...,0,1,1,0,mensal,1,cheque via correios,83.9,267.4,2.796667


In [149]:
df_ptbr.dropna(inplace=True)

In [150]:
df_ptbr.isna().sum()

id_cliente              0
cancelou                0
genero                  0
idoso                   0
tem_parceiro            0
tem_dependente          0
meses_contrato          0
servicos_telefonicos    0
multiplas_linhas        0
servicos_internet       0
seguranca_online        0
backup_online           0
seguro_protecao         0
suporte_tecnico         0
tem_tv_cabo             0
tem_stream_filmes       0
tipo_contrato           0
fatura_online           0
forma_pagamento         0
valor_mensal            0
valor_total             0
valor_diario            0
dtype: int64

Salvando no banco de dados o dataset traduzido

In [151]:
df_ptbr.to_sql('teleconX_ptbr', engine, index=False, if_exists='replace')

7043

### Exibindo as tabelas no Banco

In [152]:
print(inspect(engine).get_table_names())

['teleconX_no_NaN', 'teleconX_origin', 'teleconX_ptbr']
