In [147]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

<img src="img/alura-vox.png" style="height:260px">

# Tarefas
- Entender quais informações a base de dados possui
- Analisar os tipos de dados fornecidos pela API
- Verificar quais são as inconsistências presentes nos dados obtidos
- Corrigir as inconsistências da base de dados
- Traduzir as colunas
- Criar uma coluna com o cálculo dos custos diários de cada cliente

## Dicionário de dados

#### Cliente:
* `gender`: gênero (masculino e feminino) 
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos 
* `customerID`: número de identificação único de cada cliente
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes

#### Variável Target:
* `Churn`: se o cliente deixou ou não a empresa 

#### Serviço de Telefonia:
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico 
* `MultipleLines`: assisnatura de mais de uma linha de telefone 

#### Serviço de Internet:
* `InternetService`: assinatura de um provedor internet 
* `OnlineSecurity`: assinatura adicional de segurança online 
* `OnlineBackup`: assinatura adicional de backup online 
* `DeviceProtection`: assinatura adicional de proteção no dispositivo 
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo 
* `StreamingMovies`: assinatura de streaming de filmes 

#### Contrato:
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

# Importando base de dados

In [148]:
dados = pd.read_json('Telco-Customer-Churn.json')

## Explorando os dados

In [149]:
dados.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


In [150]:
dados.tail()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
7262,9987-LUTYD,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
7263,9992-RRAMN,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7264,9992-UJOEL,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7265,9993-LHIEB,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Two year', 'PaperlessBilling': '..."
7266,9995-HOTOH,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'No', 'MultipleLines': 'No ph...","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Two year', 'PaperlessBilling': '..."


## Observação sobre os dados originais:
Percebe-se que as colunas `customer`, `phone`, `internet`, `account` possuem vários valores dentro de chaves, impossibilitando sua análise imediata da tabela original. Tais colunas precisarão ser exploradas individualmente e anexadas num novo dataframe.

# Vamos traduzir e padronizar os rótulos do Data Frame

In [151]:
rotulos_df = {'customerID': 'cliente_id', 'Churn': 'churn', 'customer': 'dados_cliente', 'phone': 'servicos_telefone', 'internet': 'servicos_internet','account': 'detalhes_contrato'}
dados.rename(columns = rotulos_df, inplace = True)
dados.head()

Unnamed: 0,cliente_id,churn,dados_cliente,servicos_telefone,servicos_internet,detalhes_contrato
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


## Buscando inconsistências nas colunas `cliente_id` e `churn`

In [152]:
dados.cliente_id.unique()

array(['0002-ORFBO', '0003-MKNFE', '0004-TLHLJ', ..., '9992-UJOEL',
       '9993-LHIEB', '9995-HOTOH'], dtype=object)

In [153]:
dados.cliente_id.value_counts()

0002-ORFBO    1
6614-VBEGU    1
6637-KYRCV    1
6635-MYYYZ    1
6635-CPNUN    1
             ..
3374-TTZTK    1
3374-PZLXD    1
3374-LXDEV    1
3373-YZZYM    1
9995-HOTOH    1
Name: cliente_id, Length: 7267, dtype: int64

In [154]:
dados.churn.unique()

array(['No', 'Yes', ''], dtype=object)

In [155]:
dados.churn.value_counts(normalize = True) * 100

No     71.198569
Yes    25.719004
        3.082427
Name: churn, dtype: float64

Os dados na coluna `cliente_id` não apresentam qualquer problema. 
Já a coluna `churn` apresenta valores inconsistentes que deverão ser eliminados para dar continuidade ao trabalho.

In [156]:
dados.dados_cliente[0]

{'gender': 'Female',
 'SeniorCitizen': 0,
 'Partner': 'Yes',
 'Dependents': 'Yes',
 'tenure': 9}

In [157]:
dados.servicos_telefone[0]

{'PhoneService': 'Yes', 'MultipleLines': 'No'}

In [158]:
dados.servicos_internet[0]

{'InternetService': 'DSL',
 'OnlineSecurity': 'No',
 'OnlineBackup': 'Yes',
 'DeviceProtection': 'No',
 'TechSupport': 'Yes',
 'StreamingTV': 'Yes',
 'StreamingMovies': 'No'}

In [159]:
dados.detalhes_contrato[0]

{'Contract': 'One year',
 'PaperlessBilling': 'Yes',
 'PaymentMethod': 'Mailed check',
 'Charges': {'Monthly': 65.6, 'Total': '593.3'}}

Os dados estão dispostos dentro de chaves, configurando dicionários (chave: valor). Estes serão explorados separadamente, constituindo novas colunas.

In [160]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   cliente_id         7267 non-null   object
 1   churn              7267 non-null   object
 2   dados_cliente      7267 non-null   object
 3   servicos_telefone  7267 non-null   object
 4   servicos_internet  7267 non-null   object
 5   detalhes_contrato  7267 non-null   object
dtypes: object(6)
memory usage: 340.8+ KB


# Observação
Todas as 7267 entradas da base de dados não são nulas mas ainda podem existir inconsistências.

## Traduzindo e padronizando os valores de churn
Tais traduções serão realizadas para os demais campos de valores da base de dados

In [161]:
dados.churn.unique()

array(['No', 'Yes', ''], dtype=object)

In [162]:
churn_traducao = {'No': 'Não', 'Yes': 'Sim'}
dados.churn.replace(churn_traducao, inplace = True)
dados.head()

Unnamed: 0,cliente_id,churn,dados_cliente,servicos_telefone,servicos_internet,detalhes_contrato
0,0002-ORFBO,Não,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,Não,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Sim,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Sim,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Sim,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


In [163]:
dados.churn.value_counts(normalize = True) * 100

Não    71.198569
Sim    25.719004
        3.082427
Name: churn, dtype: float64

## Observação
Aproximadamente 3% das entradas de dados apresentam problemas na coluna churn, sendo assim, deverão ser tratadas posteriormente.

In [164]:
dados.shape

(7267, 6)

## Agora vamos normalizar as demais colunas do Data Frame
### Iniciando com dados_cliente

In [165]:
dados_cliente = pd.json_normalize(dados.dados_cliente)
clientes_rotulos = {'gender': 'genero', 'SeniorCitizen': 'idoso', 'Partner': 'casado', 'Dependents': 'dependentes', 'tenure': 'duracao_contrato'}
dados_cliente.rename(columns = clientes_rotulos, inplace = True)
dados_cliente.head()

Unnamed: 0,genero,idoso,casado,dependentes,duracao_contrato
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3


In [166]:
dados_cliente.genero.unique()

array(['Female', 'Male'], dtype=object)

In [167]:
dados_cliente.idoso.unique()

array([0, 1])

In [168]:
dados_cliente.casado.unique()

array(['Yes', 'No'], dtype=object)

In [169]:
dados_cliente.dependentes.unique()

array(['Yes', 'No'], dtype=object)

In [170]:
dados_cliente.duracao_contrato.unique()

array([ 9,  4, 13,  3, 71, 63,  7, 65, 54, 72,  5, 56, 34,  1, 45, 50, 23,
       55, 26, 69, 11, 37, 49, 66, 67, 20, 43, 59, 12, 27,  2, 25, 29, 14,
       35, 64, 39, 40,  6, 30, 70, 57, 58, 16, 32, 33, 10, 21, 61, 15, 44,
       22, 24, 19, 47, 62, 46, 52,  8, 60, 48, 28, 41, 53, 68, 51, 31, 36,
       17, 18, 38, 42,  0])

In [171]:
dados_cliente.duracao_contrato.value_counts()

1     634
72    369
2     246
3     207
4     185
     ... 
38     60
39     59
44     54
36     50
0      11
Name: duracao_contrato, Length: 73, dtype: int64

## Observação:
11 clientes apresentam duração de contrato igual à 0. Talvez sejam clientes recentes que ainda não completaram o primeiro mês.

In [172]:
traducao_genero = {'Female': 'Feminino', 'Male': 'Masculino'}
traducao_idoso = {0: 'Não', 1: 'Sim'}
traducao_casado = {'Yes': 'Sim', 'No': 'Não'}
traducao_dependentes = {'Yes': 'Sim', 'No': 'Não'}
dados_cliente.genero.replace(traducao_genero, inplace = True)
dados_cliente.idoso.replace(traducao_idoso, inplace = True)
dados_cliente.casado.replace(traducao_casado, inplace = True)
dados_cliente.dependentes.replace(traducao_dependentes, inplace = True)
dados_cliente.head()

Unnamed: 0,genero,idoso,casado,dependentes,duracao_contrato
0,Feminino,Não,Sim,Sim,9
1,Masculino,Não,Não,Não,9
2,Masculino,Não,Não,Não,4
3,Masculino,Sim,Sim,Não,13
4,Feminino,Sim,Sim,Não,3


## Normalizando servicos_telefone

In [173]:
servicos_telefone = pd.json_normalize(dados.servicos_telefone)
telefone_rotulos = {'PhoneService': 'assinatura_telefone','MultipleLines': 'linhas_extras'}
servicos_telefone.rename(columns = telefone_rotulos, inplace = True)
servicos_telefone.head()

Unnamed: 0,assinatura_telefone,linhas_extras
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No


In [174]:
servicos_telefone.assinatura_telefone.unique()

array(['Yes', 'No'], dtype=object)

In [175]:
servicos_telefone.linhas_extras.unique()

array(['No', 'Yes', 'No phone service'], dtype=object)

In [176]:
traducao_assinatura = {'Yes': 'Sim', 'No': 'Não'}
traducao_linhas_extras = {'No': 'Não', 'Yes': 'Sim', 'No phone service': 'Sem assinatura de telefone'}
servicos_telefone.assinatura_telefone.replace(traducao_assinatura, inplace = True)
servicos_telefone.linhas_extras.replace(traducao_linhas_extras, inplace = True)
servicos_telefone.head()

Unnamed: 0,assinatura_telefone,linhas_extras
0,Sim,Não
1,Sim,Sim
2,Sim,Não
3,Sim,Não
4,Sim,Não


## Normalizando servicos_internet

In [177]:
servicos_internet = pd.json_normalize(dados.servicos_internet)

In [178]:
servicos_rotulos = {'InternetService': 'assinatura_internet',
                    'OnlineSecurity': 'protecao_online',
                    'OnlineBackup': 'backup_nuvem',
                    'DeviceProtection': 'protecao_dispositivo',
                    'TechSupport': 'suporte_tecnico',
                    'StreamingTV': 'streaming_tv',
                    'StreamingMovies': 'streaming_filmes'}
servicos_internet.rename(columns = servicos_rotulos, inplace = True)
servicos_internet.head()

Unnamed: 0,assinatura_internet,protecao_online,backup_nuvem,protecao_dispositivo,suporte_tecnico,streaming_tv,streaming_filmes
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No


In [179]:
servicos_internet.assinatura_internet.unique()

array(['DSL', 'Fiber optic', 'No'], dtype=object)

### Nota-se que as demais colunas apresentam valores parecidos

In [180]:
servicos_internet.protecao_online.unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

In [181]:
servicos_internet.backup_nuvem.unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

In [182]:
servicos_internet.protecao_dispositivo.unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

In [183]:
servicos_internet.suporte_tecnico.unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

In [184]:
servicos_internet.streaming_tv.unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

In [185]:
servicos_internet.streaming_filmes.unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

In [186]:
assinatura_internet_traduzia = {'Fiber optic': 'fibra', 'DSL': 'dsl', 'No': 'não contratada'}
servicos_internet.assinatura_internet.replace(assinatura_internet_traduzia, inplace = True)

In [187]:
demais_traducoes = {'No': 'Não', 'Yes': 'Sim', 'No internet service': 'internet não contratada'}
colunas_servicos = servicos_internet.columns
colunas_servicos

Index(['assinatura_internet', 'protecao_online', 'backup_nuvem',
       'protecao_dispositivo', 'suporte_tecnico', 'streaming_tv',
       'streaming_filmes'],
      dtype='object')

In [188]:
servicos_internet[['protecao_online', 'backup_nuvem',
       'protecao_dispositivo', 'suporte_tecnico', 'streaming_tv',
       'streaming_filmes']] = servicos_internet[['protecao_online', 'backup_nuvem',
       'protecao_dispositivo', 'suporte_tecnico', 'streaming_tv',
       'streaming_filmes']].replace(demais_traducoes)

In [189]:
servicos_internet

Unnamed: 0,assinatura_internet,protecao_online,backup_nuvem,protecao_dispositivo,suporte_tecnico,streaming_tv,streaming_filmes
0,dsl,Não,Sim,Não,Sim,Sim,Não
1,dsl,Não,Não,Não,Não,Não,Sim
2,fibra,Não,Não,Sim,Não,Não,Não
3,fibra,Não,Sim,Sim,Não,Sim,Sim
4,fibra,Não,Não,Não,Sim,Sim,Não
...,...,...,...,...,...,...,...
7262,dsl,Sim,Não,Não,Sim,Não,Não
7263,fibra,Não,Não,Não,Não,Não,Sim
7264,dsl,Não,Sim,Não,Não,Não,Não
7265,dsl,Sim,Não,Sim,Sim,Não,Sim


## Normalizando a coluna detalhes_contrato

In [190]:
detalhes_contrato = pd.json_normalize(dados.detalhes_contrato)
detalhes_contrato_rotulos = {'Contract': 'contrato','PaperlessBilling': 'cobranca_digital','PaymentMethod': 'metodo_pagamento','Charges.Monthly': 'custo_mensal','Charges.Total': 'custo_total'}
detalhes_contrato.rename(columns = detalhes_contrato_rotulos, inplace = True)
detalhes_contrato.head()

Unnamed: 0,contrato,cobranca_digital,metodo_pagamento,custo_mensal,custo_total
0,One year,Yes,Mailed check,65.6,593.3
1,Month-to-month,No,Mailed check,59.9,542.4
2,Month-to-month,Yes,Electronic check,73.9,280.85
3,Month-to-month,Yes,Electronic check,98.0,1237.85
4,Month-to-month,Yes,Mailed check,83.9,267.4


In [191]:
detalhes_contrato.contrato.unique()

array(['One year', 'Month-to-month', 'Two year'], dtype=object)

In [192]:
tipos_contrato = {'One year': 'Anual', 'Two year': 'Bianual','Month-to-month': 'Mensal'}
detalhes_contrato.contrato.replace(tipos_contrato, inplace = True)

In [193]:
detalhes_contrato.cobranca_digital.unique()

array(['Yes', 'No'], dtype=object)

In [194]:
conta_digital = {'Yes': 'Sim', 'No': 'Não'}
detalhes_contrato.cobranca_digital.replace(conta_digital, inplace = True)

In [195]:
detalhes_contrato.metodo_pagamento.unique()

array(['Mailed check', 'Electronic check', 'Credit card (automatic)',
       'Bank transfer (automatic)'], dtype=object)

In [196]:
metodos_pagamento = {'Mailed check': 'Cheque',
                     'Electronic check': 'Cheque eletrônico',
                     'Credit card (automatic)': 'Cartão de crédito',
                     'Bank transfer (automatic)': 'Transferência bancária'}
detalhes_contrato.metodo_pagamento.replace(metodos_pagamento, inplace = True)

In [197]:
detalhes_contrato.custo_mensal.unique()

array([65.6 , 59.9 , 73.9 , ..., 91.75, 68.8 , 67.85])

In [198]:
detalhes_contrato.custo_total.unique()

array(['593.3', '542.4', '280.85', ..., '742.9', '4627.65', '3707.6'],
      dtype=object)

## Observação:
Os valores na coluna `custo_total` estão formatados como string. Estes valores serão convertidos para float, com duas casas decimais.

# Criação de nova base de dados
Faremos concatenação dos campos `cliente_id` e `churn` da base de dados original com os demais campos que foram normalizados.

In [224]:
dados_organizado = pd.concat([dados[['cliente_id', 'churn']], dados_cliente, servicos_telefone, servicos_internet, detalhes_contrato], axis = 1)
dados_organizado.head()

Unnamed: 0,cliente_id,churn,genero,idoso,casado,dependentes,duracao_contrato,assinatura_telefone,linhas_extras,assinatura_internet,...,backup_nuvem,protecao_dispositivo,suporte_tecnico,streaming_tv,streaming_filmes,contrato,cobranca_digital,metodo_pagamento,custo_mensal,custo_total
0,0002-ORFBO,Não,Feminino,Não,Sim,Sim,9,Sim,Não,dsl,...,Sim,Não,Sim,Sim,Não,Anual,Sim,Cheque,65.6,593.3
1,0003-MKNFE,Não,Masculino,Não,Não,Não,9,Sim,Sim,dsl,...,Não,Não,Não,Não,Sim,Mensal,Não,Cheque,59.9,542.4
2,0004-TLHLJ,Sim,Masculino,Não,Não,Não,4,Sim,Não,fibra,...,Não,Sim,Não,Não,Não,Mensal,Sim,Cheque eletrônico,73.9,280.85
3,0011-IGKFF,Sim,Masculino,Sim,Sim,Não,13,Sim,Não,fibra,...,Sim,Sim,Não,Sim,Sim,Mensal,Sim,Cheque eletrônico,98.0,1237.85
4,0013-EXCHZ,Sim,Feminino,Sim,Sim,Não,3,Sim,Não,fibra,...,Não,Não,Sim,Sim,Não,Mensal,Sim,Cheque,83.9,267.4


## Removendo as entradas inválidas da coluna `churn`

In [225]:
limpeza_churn = dados_organizado.churn != ''
dados_organizado = dados_organizado[limpeza_churn]
dados_organizado.reset_index(drop=True, inplace=True)
dados_organizado.shape[0]

7043

In [226]:
dados_organizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   cliente_id            7043 non-null   object 
 1   churn                 7043 non-null   object 
 2   genero                7043 non-null   object 
 3   idoso                 7043 non-null   object 
 4   casado                7043 non-null   object 
 5   dependentes           7043 non-null   object 
 6   duracao_contrato      7043 non-null   int64  
 7   assinatura_telefone   7043 non-null   object 
 8   linhas_extras         7043 non-null   object 
 9   assinatura_internet   7043 non-null   object 
 10  protecao_online       7043 non-null   object 
 11  backup_nuvem          7043 non-null   object 
 12  protecao_dispositivo  7043 non-null   object 
 13  suporte_tecnico       7043 non-null   object 
 14  streaming_tv          7043 non-null   object 
 15  streaming_filmes     

### Convertendo os valores númericos que estão como string na coluna `custo_total`

In [227]:
dados_organizado.custo_total = pd.to_numeric(dados_organizado.custo_total, errors = 'coerce')

In [228]:
dados_organizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   cliente_id            7043 non-null   object 
 1   churn                 7043 non-null   object 
 2   genero                7043 non-null   object 
 3   idoso                 7043 non-null   object 
 4   casado                7043 non-null   object 
 5   dependentes           7043 non-null   object 
 6   duracao_contrato      7043 non-null   int64  
 7   assinatura_telefone   7043 non-null   object 
 8   linhas_extras         7043 non-null   object 
 9   assinatura_internet   7043 non-null   object 
 10  protecao_online       7043 non-null   object 
 11  backup_nuvem          7043 non-null   object 
 12  protecao_dispositivo  7043 non-null   object 
 13  suporte_tecnico       7043 non-null   object 
 14  streaming_tv          7043 non-null   object 
 15  streaming_filmes     

## Observação:
Após a conversão da coluna `custo_total` para float, evidencia-se 11 valores nulos que deverão ser tratados, possivelmente sendo aqueles que estavam com duração de contrato igual à 0.

In [229]:
dados_organizado[dados_organizado.custo_total.isnull()][['cliente_id', 'churn', 'duracao_contrato', 'custo_mensal', 'custo_total']]

Unnamed: 0,cliente_id,churn,duracao_contrato,custo_mensal,custo_total
945,1371-DWPAZ,Não,0,56.05,
1731,2520-SGTTA,Não,0,20.0,
1906,2775-SEFEE,Não,0,61.9,
2025,2923-ARZLG,Não,0,19.7,
2176,3115-CZMZD,Não,0,20.25,
2250,3213-VVOLG,Não,0,25.35,
2855,4075-WKNIU,Não,0,73.35,
3052,4367-NUYAO,Não,0,25.75,
3118,4472-LVYGI,Não,0,52.55,
4054,5709-LVOEQ,Não,0,80.85,


Como são clientes que estão com contrato ativo (apresentam Não na coluna churn), podemos concluir que ainda não completaram o primeiro mês de contrato, com isso, a coluna `custo_total` será preenchida com o valor do `custo_mensal`

## Corrigindo as entradas nulas para `custo_total` substituindo com os valores de `custo_mensal`

In [230]:
indice_valores_nulos = dados_organizado[dados_organizado.custo_total.isnull()].index
dados_organizado.loc[indice_valores_nulos, 'custo_total'] = dados_organizado.loc[indice_valores_nulos, 'custo_mensal']

In [231]:
dados_organizado[dados_organizado.duracao_contrato == 0][['cliente_id', 'churn', 'duracao_contrato', 'custo_mensal', 'custo_total']]

Unnamed: 0,cliente_id,churn,duracao_contrato,custo_mensal,custo_total
945,1371-DWPAZ,Não,0,56.05,56.05
1731,2520-SGTTA,Não,0,20.0,20.0
1906,2775-SEFEE,Não,0,61.9,61.9
2025,2923-ARZLG,Não,0,19.7,19.7
2176,3115-CZMZD,Não,0,20.25,20.25
2250,3213-VVOLG,Não,0,25.35,25.35
2855,4075-WKNIU,Não,0,73.35,73.35
3052,4367-NUYAO,Não,0,25.75,25.75
3118,4472-LVYGI,Não,0,52.55,52.55
4054,5709-LVOEQ,Não,0,80.85,80.85


### Criação da coluna `custo_diario`

In [232]:
custo_diario = round(dados_organizado.custo_mensal / 30, 2)
dados_organizado.insert(loc = 19, column = 'custo_diario', value = custo_diario)

In [233]:
dados_organizado.head()

Unnamed: 0,cliente_id,churn,genero,idoso,casado,dependentes,duracao_contrato,assinatura_telefone,linhas_extras,assinatura_internet,...,protecao_dispositivo,suporte_tecnico,streaming_tv,streaming_filmes,contrato,cobranca_digital,metodo_pagamento,custo_diario,custo_mensal,custo_total
0,0002-ORFBO,Não,Feminino,Não,Sim,Sim,9,Sim,Não,dsl,...,Não,Sim,Sim,Não,Anual,Sim,Cheque,2.19,65.6,593.3
1,0003-MKNFE,Não,Masculino,Não,Não,Não,9,Sim,Sim,dsl,...,Não,Não,Não,Sim,Mensal,Não,Cheque,2.0,59.9,542.4
2,0004-TLHLJ,Sim,Masculino,Não,Não,Não,4,Sim,Não,fibra,...,Sim,Não,Não,Não,Mensal,Sim,Cheque eletrônico,2.46,73.9,280.85
3,0011-IGKFF,Sim,Masculino,Sim,Sim,Não,13,Sim,Não,fibra,...,Sim,Não,Sim,Sim,Mensal,Sim,Cheque eletrônico,3.27,98.0,1237.85
4,0013-EXCHZ,Sim,Feminino,Sim,Sim,Não,3,Sim,Não,fibra,...,Não,Sim,Sim,Não,Mensal,Sim,Cheque,2.8,83.9,267.4


In [234]:
dados_organizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   cliente_id            7043 non-null   object 
 1   churn                 7043 non-null   object 
 2   genero                7043 non-null   object 
 3   idoso                 7043 non-null   object 
 4   casado                7043 non-null   object 
 5   dependentes           7043 non-null   object 
 6   duracao_contrato      7043 non-null   int64  
 7   assinatura_telefone   7043 non-null   object 
 8   linhas_extras         7043 non-null   object 
 9   assinatura_internet   7043 non-null   object 
 10  protecao_online       7043 non-null   object 
 11  backup_nuvem          7043 non-null   object 
 12  protecao_dispositivo  7043 non-null   object 
 13  suporte_tecnico       7043 non-null   object 
 14  streaming_tv          7043 non-null   object 
 15  streaming_filmes     

In [235]:
dados_organizado.isnull().sum()

cliente_id              0
churn                   0
genero                  0
idoso                   0
casado                  0
dependentes             0
duracao_contrato        0
assinatura_telefone     0
linhas_extras           0
assinatura_internet     0
protecao_online         0
backup_nuvem            0
protecao_dispositivo    0
suporte_tecnico         0
streaming_tv            0
streaming_filmes        0
contrato                0
cobranca_digital        0
metodo_pagamento        0
custo_diario            0
custo_mensal            0
custo_total             0
dtype: int64

# Salvando os dados limpos

In [236]:
dados_organizado.to_json('dados_churn_clean.json')