# Semana 1 do challenge

## Tarefa 1 - Entender quais informações o conjunto de dados possui

### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa 
* `gender`: gênero (masculino e feminino) 
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos 
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico 
* `MultipleLines`: assisnatura de mais de uma linha de telefone 
* `InternetService`: assinatura de um provedor internet 
* `OnlineSecurity`: assinatura adicional de segurança online 
* `OnlineBackup`: assinatura adicional de backup online 
* `DeviceProtection`: assinatura adicional de proteção no dispositivo 
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo 
* `StreamingMovies`: assinatura de streaming de filmes 
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

### Leitura inicial dos dados

In [222]:
import pandas as pd
pd.set_option("display.max_columns", 100)

dados = pd.read_json(
    path_or_buf='Telco-Customer-Churn.json',
    orient='columns'
)
dados.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


O dataset possui informaçções gerais do cliente como ID e seu Churn. Há ainda outras quatro listas referentes a caracerísticas do cliente. 
* customer: Caractéristicas gerais do cliente
* phone: Informações sobre a conta telefônica do cliente
* internet: Informações da conta de internet do cliente
* account: Informações do contrato do cliente

### Extraindo conteúdo das colunas

O arquivo json será normalizado para um DataFrame do pandas.

In [223]:
# Extraindo dados das listas do arquivo json

customer = pd.json_normalize(data=dados.customer)
phone = pd.json_normalize(data=dados.phone)
internet = pd.json_normalize(data=dados.internet)
account = pd.json_normalize(data=dados.account, sep='_')

Concatenando os dados em um único DataFrame

In [224]:
dados = pd.concat([dados[['customerID', 'Churn']], customer, phone, internet, account], axis=1) 

## Tarefa 2 - Analisar quais os tipos de dados

Informações sobre as variáveis.

In [225]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


O dataset contém 20 variáveis. Automaticamente a coluna `ternure`foi reconhedida como do tipo inteiro e a coluna `Charges_Monthly` como do tipo float64 as demais foram reconhecidas como object. Porém, a coluna `Charges_Total` também deverá ser reconhecida como do tipo float64, esta correção é feita na próxima secção. 

A maioria das colunas são variáveis categóricas e as colunas `Charges_Monthly`, `Charges_Total` e `tenure`são numéricas.

## Tarefa 3 - Verificar quais as inconsistências nos dados

Na coluna `Charges_Total` existem células preenchidas com espaços em branco.

In [226]:
dados.query("Charges_Total == ' '").shape

(11, 21)

Já na coluna `Churn` existe incosistência semelhante porém as células são vazias.

In [227]:
dados.Churn.value_counts()

No     5174
Yes    1869
        224
Name: Churn, dtype: int64

Na coluna `SeniorCitizen` os valores estão entre 0 e 1 quando deveriam estar como Yes ou No, matendo o padrão das demais colunas.

In [228]:
dados.SeniorCitizen.value_counts()

0    6085
1    1182
Name: SeniorCitizen, dtype: int64

Verificando se há dados repetidos

In [229]:
numero_registros_unicos = dados['customerID'].nunique()
total_registros = len(dados)

print(f'Quantidade de registros = {total_registros}')
print(f'Quantidade de registros únicos = {numero_registros_unicos}')


Quantidade de registros = 7267
Quantidade de registros únicos = 7267


Portanto não há registros únicos.

Verificando se há inconsistência quanto ao serviço telefônico. Neste caso uma inconsistência seria se um cliente que não têm registro telefônico tivesse multiplas linhas telefônicas.

In [230]:
clientes_sem_linha_telefonica = dados.query('PhoneService == "No"')
numero_clientes_sem_linha_telefonica = len(clientes_sem_linha_telefonica)

print(f'Quantidade de clientes sem linha telefônica = {numero_clientes_sem_linha_telefonica}')

print('Quantidade de clientes sem múltiplas linhas tefefônicas:')
clientes_sem_linha_telefonica['MultipleLines'].value_counts()

Quantidade de clientes sem linha telefônica = 707
Quantidade de clientes sem múltiplas linhas tefefônicas:


No phone service    707
Name: MultipleLines, dtype: int64

OK. Não há inconsistência aparente com as linhas telefônicas.

Da mesma forma será verificada a possível inconsistência relacionada ao serviço de internet. Clientes sem serviço de internet não podem ter os serviços relacionados: OnlineSecurity, OnlineBackup, DeviceProtection,
TechSuport, StreamingTV, StreamingMovies.

In [231]:
clientes_sem_servico_internet = dados.query('InternetService == "No"')
quantidade_clientes_sem_servico_internet = len(clientes_sem_servico_internet)

print(f'Quantide de clientes sem serviço de internet = {quantidade_clientes_sem_servico_internet}')
print('Número de clientes sem os serviços associados a internet:')

clientes_sem_servico_internet[['OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies']].value_counts()


Quantide de clientes sem serviço de internet = 1581
Número de clientes sem os serviços associados a internet:


OnlineSecurity       OnlineBackup         DeviceProtection     TechSupport          StreamingTV          StreamingMovies    
No internet service  No internet service  No internet service  No internet service  No internet service  No internet service    1581
dtype: int64

Portanto também não há incosistência nesta parte.

Outra incosistência possível seria valores negativos em algumas das variáveis numéricas. A seguir é verificado isto.

In [232]:
dados.describe()

Unnamed: 0,SeniorCitizen,tenure,Charges_Monthly
count,7267.0,7267.0,7267.0
mean,0.162653,32.346498,64.720098
std,0.369074,24.571773,30.129572
min,0.0,0.0,18.25
25%,0.0,9.0,35.425
50%,0.0,29.0,70.3
75%,0.0,55.0,89.875
max,1.0,72.0,118.75


Em todas as variáveis numéricas o valor mínimo é zero portanto não há a inconsistência de números negativos. Porém, ainda será necessario ajustar a coluna "Charges_Total" que veio como string, Após a transformação dos dados de string para float será verificado novamente se há valores estranhos na coluna.

## Tarefa 4 - Corrigir as incosistências nos dados

Para os dados faltantes na coluna `Charges_Total` irei transformá-los em NaN e os demais em float.

In [233]:
import numpy as np

# Substitui espaços em branco ' ' por NaN e converte os demais casos pra float64
dados.Charges_Total = dados.Charges_Total.apply(lambda x: np.nan if x == ' ' else float(x))

Verificando se `Charges_Total` contém valores negativos.

In [234]:
dados.Charges_Total.min()

18.8

Não há valores nulos em `Charges_Total` podemos coninuar.

Verificando a quantidade de nulos em `Charges_Total`.

In [235]:
dados.Charges_Total.isna().sum()

11

De forma semelhante será feito na coluna de `Churn`.

In [236]:
# Caso haja valor vazio substitui por NaN caso contrário mantém o valor
dados.Churn = dados.Churn.apply(lambda x: np.nan if x == "" else x)

Verificando a quantidade de nulos em `Churn`.

In [237]:
dados.Churn.isna().sum()

224

Checando se existem valores vazios nas demais colunas.

In [238]:
for column in dados.columns:
    if len(dados.query(f'{column} == ""')):
        print(dados.query(f'{column} == ""'))
    if len(dados.query(f'{column} == " "')):
        print(dados.query(f'{column} == " "'))

Não há mais dados vazios.

Mudando os valores 0 e 1 da `SeniorCitizen' para Yes ou No

In [239]:
map_seniors = {0:'No', 1:'Yes'}
dados.SeniorCitizen.replace(map_seniors, inplace=True)

dados.SeniorCitizen.value_counts()

No     6085
Yes    1182
Name: SeniorCitizen, dtype: int64

Total de linhas contendo valores nulos no dataset.

In [240]:
total_linhas_com_nulos = dados.isna().sum()
print('Total = ', total_linhas_com_nulos)

Total =  customerID            0
Churn               224
gender                0
SeniorCitizen         0
Partner               0
Dependents            0
tenure                0
PhoneService          0
MultipleLines         0
InternetService       0
OnlineSecurity        0
OnlineBackup          0
DeviceProtection      0
TechSupport           0
StreamingTV           0
StreamingMovies       0
Contract              0
PaperlessBilling      0
PaymentMethod         0
Charges_Monthly       0
Charges_Total        11
dtype: int64


Como existe uma pequena quantidade de dados nulos, quando comparamos com o tamanho da base de dados, as linhas com valores nulos poderão ser removidas sem grades prejuízos para análises futuras.

Removendo valores nulos da base de dados.

In [241]:
numero_registros_inicial = dados.shape[0]
dados.dropna(inplace=True)
numero_registros_final = dados.shape[0]
variacao_percentual = (numero_registros_final - numero_registros_inicial) / numero_registros_inicial * 100
print("Quantidade de registros antes da remoção dos valores nulos", numero_registros_inicial)
print("Quantidade de registros depois da remoção das linhas com valores nulos",numero_registros_final)
print(f"Porcentagem de registros removidos {variacao_percentual:.2f}%")


Quantidade de registros antes da remoção dos valores nulos 7267
Quantidade de registros depois da remoção das linhas com valores nulos 7032
Porcentagem de registros removidos -3.23%


Apenas 3,23% dos registros orignias foram perdidos no processo.

## Tarefa 5 - Traduzir os dados

Primeiro passo será substituir as ocorrências de Yes e No por Sim e Não respectivamente

In [242]:
yes_no = {'Yes': 'Sim', 'No':'Não'}

colunas_yes_no = ['Churn', 'SeniorCitizen', 'Partner', 'Dependents', 'PhoneService', 'MultipleLines', 'InternetService',
                     'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 
                     'StreamingTV', 'StreamingMovies', 'PaperlessBilling']

for coluna in colunas_yes_no:
    dados[coluna].replace(yes_no, inplace=True)

Na sequência é feita a tradução dos gêneros.

In [243]:
male_female = {'Male':'Masculino', 'Female':'Feminino'}

dados.gender.replace(male_female, inplace=True)
dados.gender.value_counts()

Masculino    3549
Feminino     3483
Name: gender, dtype: int64

Tradução dos registros sem serviço de telefone. Como `No phone service` significa o mesmo que `No` será traduzido como `Não` para simplificar análises futuras.

In [244]:
dados.PhoneService.replace('No phone service', 'Não', inplace=True)
dados.MultipleLines.replace('No phone service', 'Não', inplace=True)

Tradução dos serviços de internet.

In [245]:
dados.InternetService.replace('Fiber optic', 'Fibra Óptica', inplace=True)

Tradução dos contratos.

In [246]:
contratos = {'Month-to-month' : 'Mensal', 'Two year': 'Dois anos', 'One year': 'Um ano'}
dados.Contract.replace(contratos, inplace=True)
dados.Contract.value_counts()

Mensal       3875
Dois anos    1685
Um ano       1472
Name: Contract, dtype: int64

Tradução dos métodos de pagamento.

In [247]:
metodo_pagamento = {'Electronic check': 'Cheque eletrônico', 'Mailed check':'Cheque',
                    'Bank transfer (automatic)': 'Transferência bancária',
                    'Credit card (automatic)': 'Cartão de crédito'}

dados.PaymentMethod.replace(metodo_pagamento, inplace=True)
dados.PaymentMethod.value_counts()

Cheque eletrônico         2365
Cheque                    1604
Transferência bancária    1542
Cartão de crédito         1521
Name: PaymentMethod, dtype: int64

Tradução dos registros sem serviço de internet. Da mesmo forma que nos registros sem linha telefônica `No Internet service` será traduzido como `Não` para simplificar análises futuras.

In [248]:
sem_internet = {'No internet service': 'Não'}
colunas = ['OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV',
            'StreamingMovies']

for coluna in colunas:
    dados[coluna].replace(sem_internet, inplace=True)

Tradução das colunas

In [249]:
novos_nomes_colunas = ['ID_cliente', 'churn', 'genero', 'senior', 'parceiro', 'dependentes', 'tempo_permanencia',
                        'servico_telefone', 'multiplas_linhas', 'servico_internet', 'seguranca_online',
                        'backup_online', 'protecao_dispositivo', 'suporte_tecnico', 'streaming_TV',
                        'streaming_filmes', 'contrato', 'fatura_online', 'metodo_pagamento',
                        'gastos_mensais', 'gastos_totais']

dados.columns = novos_nomes_colunas
dados.head()

Unnamed: 0,ID_cliente,churn,genero,senior,parceiro,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,streaming_TV,streaming_filmes,contrato,fatura_online,metodo_pagamento,gastos_mensais,gastos_totais
0,0002-ORFBO,Não,Feminino,Não,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Um ano,Sim,Cheque,65.6,593.3
1,0003-MKNFE,Não,Masculino,Não,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mensal,Não,Cheque,59.9,542.4
2,0004-TLHLJ,Sim,Masculino,Não,Não,Não,4,Sim,Não,Fibra Óptica,Não,Não,Sim,Não,Não,Não,Mensal,Sim,Cheque eletrônico,73.9,280.85
3,0011-IGKFF,Sim,Masculino,Sim,Sim,Não,13,Sim,Não,Fibra Óptica,Não,Sim,Sim,Não,Sim,Sim,Mensal,Sim,Cheque eletrônico,98.0,1237.85
4,0013-EXCHZ,Sim,Feminino,Sim,Sim,Não,3,Sim,Não,Fibra Óptica,Não,Não,Não,Sim,Sim,Não,Mensal,Sim,Cheque,83.9,267.4


## Tarefa 6 - Criar coluna de contas diárias

In [250]:
dados['gastos_diarios'] = dados.gastos_mensais / 30

In [251]:
dados.head()

Unnamed: 0,ID_cliente,churn,genero,senior,parceiro,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,streaming_TV,streaming_filmes,contrato,fatura_online,metodo_pagamento,gastos_mensais,gastos_totais,gastos_diarios
0,0002-ORFBO,Não,Feminino,Não,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Um ano,Sim,Cheque,65.6,593.3,2.186667
1,0003-MKNFE,Não,Masculino,Não,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mensal,Não,Cheque,59.9,542.4,1.996667
2,0004-TLHLJ,Sim,Masculino,Não,Não,Não,4,Sim,Não,Fibra Óptica,Não,Não,Sim,Não,Não,Não,Mensal,Sim,Cheque eletrônico,73.9,280.85,2.463333
3,0011-IGKFF,Sim,Masculino,Sim,Sim,Não,13,Sim,Não,Fibra Óptica,Não,Sim,Sim,Não,Sim,Sim,Mensal,Sim,Cheque eletrônico,98.0,1237.85,3.266667
4,0013-EXCHZ,Sim,Feminino,Sim,Sim,Não,3,Sim,Não,Fibra Óptica,Não,Não,Não,Sim,Sim,Não,Mensal,Sim,Cheque,83.9,267.4,2.796667


## Observações finais.

A tabelas com variáveis categóricas textuais é ótima para a interpretação humana. Porém para os processamentos de máquina textos não são fáceis de processar. Assim todas as variáveis categóricas textuais, do tipo binárias (sim ou não, feminino ou masculino) serão convertidas em variáveis categóricas binárias (0 ou 1).

Criação do mapa de conversões

In [253]:
mapa_binarios = {
    'Sim' : 1,
    'Não' : 0,
    'Feminino' : 1,
    'Masculino' : 0,
}
colunas_binarias = ['churn', 'genero', 'senior', 'parceiro', 'dependentes',
                    'servico_telefone', 'multiplas_linhas', 'seguranca_online',
                    'backup_online', 'protecao_dispositivo', 'suporte_tecnico',
                    'streaming_TV', 'streaming_filmes', 'fatura_online', ]

dados[colunas_binarias] = dados[colunas_binarias].replace(mapa_binarios)
dados.head()


Unnamed: 0,ID_cliente,churn,genero,senior,parceiro,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,streaming_TV,streaming_filmes,contrato,fatura_online,metodo_pagamento,gastos_mensais,gastos_totais,gastos_diarios
0,0002-ORFBO,0,1,0,1,1,9,1,0,DSL,0,1,0,1,1,0,Um ano,1,Cheque,65.6,593.3,2.186667
1,0003-MKNFE,0,0,0,0,0,9,1,1,DSL,0,0,0,0,0,1,Mensal,0,Cheque,59.9,542.4,1.996667
2,0004-TLHLJ,1,0,0,0,0,4,1,0,Fibra Óptica,0,0,1,0,0,0,Mensal,1,Cheque eletrônico,73.9,280.85,2.463333
3,0011-IGKFF,1,0,1,1,0,13,1,0,Fibra Óptica,0,1,1,0,1,1,Mensal,1,Cheque eletrônico,98.0,1237.85,3.266667
4,0013-EXCHZ,1,1,1,1,0,3,1,0,Fibra Óptica,0,0,0,1,1,0,Mensal,1,Cheque,83.9,267.4,2.796667


Exportando arquivo csv

In [254]:
dados.to_csv('dados_clientes_alura_voz.csv', index=False)