# Limpando o Dataset


---

### Importando o Pandas e ajustando configurações

In [1]:
import pandas as pd
pd.set_option('display.max_columns', 100)

### Lendo o JSON e separando os conteúdos

In [2]:
dataset = pd.read_json("dataset.json")

customer_data = pd.json_normalize(data=dataset.customer)
phone_data = pd.json_normalize(data=dataset.phone)
internet_data = pd.json_normalize(data=dataset.internet)
account_data = pd.json_normalize(data=dataset.account, sep='_')

### Unindo os conteúdos e deletando as colunas originais

In [3]:
dataset = pd.concat([dataset, customer_data, phone_data, internet_data, account_data], axis=1)

del dataset['customer']
del dataset['phone']
del dataset['internet']
del dataset['account']

### Retirando valores inválidos e Mudando os tipos dos valores



In [4]:
idx = dataset[dataset['Charges_Total'] == ' '].index
dataset.loc[idx, "Charges_Total"] = dataset.loc[idx, "Charges_Monthly"]

dataset = dataset[dataset['Churn']!= '']
dataset.reset_index(drop=True, inplace=True)

### Traduzindo colunas e valores (Extra)

In [5]:
new_columns = {"customerID": "ID", 
               "Churn": "deixou_empresa",
               "gender": "genero",
               "SeniorCitizen": "idoso",
               "Partner": "em_relacionamento",
               "Dependents":"dependentes",
               "tenure": "meses_contratado",
               "PhoneService": "servico_telefone",
               "MultipleLines": "varias_linhas_telefone",
               "InternetService": "servico_internet",
               "OnlineSecurity": "servico_seguranca_online",
               "OnlineBackup": "servico_backup_online",
               "DeviceProtection": "servico_protecao",
               "TechSupport": "servico_suporte_tecnico",
               "StreamingTV": "servico_tv_a_cabo",
               "StreamingMovies": "servico_streaming",
               "Contract": "tipo_contrato",
               "PaperlessBilling": "pagamento_online",
               "PaymentMethod": "forma_pagamento",
               "Charges_Monthly": "custo_mensal",
               "Charges_Total": "custo_ate_entao"}
dataset = dataset.rename(columns=new_columns)

dataset = dataset.replace(['Yes', 'No'], ['Sim', 'Nao'])
dataset = dataset.replace(['Male', 'Female'], ['Masculino', 'Feminino'])
dataset = dataset.replace(['No phone service'], 'Sem Servico Telefone')
dataset = dataset.replace(['No internet service'], 'Sem Servico Internet')
dataset = dataset.replace(['Fiber optic'], 'Fibra Optica')
dataset = dataset.replace(['One year', "Month-to-month", "Two year"], ['Anual', 'Mensal', 'Bienal'])
dataset = dataset.replace(['Mailed check', 'Electronic check'], ['Cheque por Email', 'Cheque Eletronico'])
dataset = dataset.replace(['Credit card (automatic)'], ['Cartao de Credito (auto)'])
dataset = dataset.replace(['Bank transfer (automatic)'], ['Transferencia Bancaria (auto)'])

### Criando nova coluna - Custo Diário (Extra)

In [6]:
dataset['custo_diario'] = dataset.custo_mensal/30
new_columns = ['ID', 'deixou_empresa', 'genero', 'idoso', 'em_relacionamento',
       'dependentes', 'meses_contratado', 'servico_telefone',
       'varias_linhas_telefone', 'servico_internet',
       'servico_seguranca_online', 'servico_backup_online', 'servico_protecao',
       'servico_suporte_tecnico', 'servico_tv_a_cabo', 'servico_streaming',
       'tipo_contrato', 'pagamento_online', 'forma_pagamento', 'custo_diario', 'custo_mensal',
       'custo_ate_entao']
dataset = dataset.reindex(columns=new_columns)