## Parte 1 - Limpeza dos dados

Boas vindas ao notebook do Challenge de Data Science - Semana 1!

Nesse notebook será realizada a limpeza e tratamento dos dados obtidos a partir da API da Alura Voz, empresa de telecomunicações.

<p align = 'center'>
<img src = 'https://i.imgur.com/8LTNXxF.jpg'>
</p>

### Importando a base de dados da API

O primeiro passo para começar os tratamentos é instalar e importar as bibliotecas necessárias. Vamos utilizar a biblioteca `pandas` e a biblioteca `numpy`. As documentações de ambas as bibliotecas podem ser acessadas abaixo:

 - [Documentação pandas](https://pandas.pydata.org/docs/)
 - [Documentação numpy](https://numpy.org/doc/stable/)

In [1]:
import pandas as pd
import numpy as np

Para realizar a leitura de um arquivo json, pode ser utilizada o método `pd.read_json()`, passando o caminho do arquivo como parâmetro do método.

*Esse procedimento é mostrado na aula [Carregando os dados](https://cursos.alura.com.br/course/python-pandas-tecnicas-avancadas/task/91739) do curso [Python Pandas: técnicas avançadas](https://cursos.alura.com.br/course/python-pandas-tecnicas-avancadas)*

In [2]:
dados = pd.read_json('../Dados/Telco-Customer-Churn.json')
dados.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


### Explorando o conteúdo de cada coluna

Como as colunas de **customer**, **phone**, **internet**, **account** estão com vários valores dentro de chaves e fica inviável de analisar apenas olhando para a tabela, vamos abrir o primeiro elemento de cada uma dessas colunas para entender cada uma delas.

In [3]:
dados.customer[0]

{'gender': 'Female',
 'SeniorCitizen': 0,
 'Partner': 'Yes',
 'Dependents': 'Yes',
 'tenure': 9}

In [4]:
dados.phone[0]

{'PhoneService': 'Yes', 'MultipleLines': 'No'}

In [5]:
dados.internet[0]

{'InternetService': 'DSL',
 'OnlineSecurity': 'No',
 'OnlineBackup': 'Yes',
 'DeviceProtection': 'No',
 'TechSupport': 'Yes',
 'StreamingTV': 'Yes',
 'StreamingMovies': 'No'}

In [6]:
dados.account[0]

{'Contract': 'One year',
 'PaperlessBilling': 'Yes',
 'PaymentMethod': 'Mailed check',
 'Charges': {'Monthly': 65.6, 'Total': '593.3'}}

Notamos que os elementos das colunas **custumer**, **phone**, **internet**, **account** são dicionários e apresentam muitas informações condensadas. Do modo que estão organizados é muito difícil realizar qualquer análise, portanto será necessário transformar cada uma das informações em uma nova coluna no DataFrame.

### Normalizando os dados de cada coluna

Para transformar os dados em novas colunas, vamos utilizar o método `pd.json_normalize()`. Esse método mapeia cada chave do dicionário em uma nova coluna e os valores contidos se tornarão as linhas.

Precisamos realizar esse procedimento para cada uma das colunas **custumer**, **phone**, **internet**, **account**, armazenando o resultado em variáveis para serem agrupadas posteriormente.

*Esse procedimento é mostrado na aula [Transformando dados no formato JSON para uma tabela](https://cursos.alura.com.br/course/python-pandas-tecnicas-avancadas/task/91745) do curso [Python Pandas: técnicas avançadas](https://cursos.alura.com.br/course/python-pandas-tecnicas-avancadas)*

In [7]:
customer_dados = pd.json_normalize(dados.customer)
customer_dados

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3
...,...,...,...,...,...
7262,Female,0,No,No,13
7263,Male,0,Yes,No,22
7264,Male,0,No,No,2
7265,Male,0,Yes,Yes,67


In [8]:
phone_dados = pd.json_normalize(dados.phone)
phone_dados

Unnamed: 0,PhoneService,MultipleLines
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No
...,...,...
7262,Yes,No
7263,Yes,Yes
7264,Yes,No
7265,Yes,No


In [9]:
internet_dados = pd.json_normalize(dados.internet)
internet_dados

Unnamed: 0,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No
...,...,...,...,...,...,...,...
7262,DSL,Yes,No,No,Yes,No,No
7263,Fiber optic,No,No,No,No,No,Yes
7264,DSL,No,Yes,No,No,No,No
7265,DSL,Yes,No,Yes,Yes,No,Yes


In [10]:
account_dados = pd.json_normalize(dados.account, sep='')
account_dados

Unnamed: 0,Contract,PaperlessBilling,PaymentMethod,ChargesMonthly,ChargesTotal
0,One year,Yes,Mailed check,65.60,593.3
1,Month-to-month,No,Mailed check,59.90,542.4
2,Month-to-month,Yes,Electronic check,73.90,280.85
3,Month-to-month,Yes,Electronic check,98.00,1237.85
4,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...
7262,One year,No,Mailed check,55.15,742.9
7263,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,Month-to-month,Yes,Mailed check,50.30,92.75
7265,Two year,No,Mailed check,67.85,4627.65


### Juntando todas as normalizações

Para realizar a junção das informações, é necessário utilizar o método `pd.concat()`.

Construímos uma função para realizar a normalização dos objetos json e a junção das informações em um DataFrame.

*Esse procedimento é mostrado na aula [Empilhando DataFrames](https://cursos.alura.com.br/course/python-pandas-tecnicas-avancadas/task/91755) do curso [Python Pandas: técnicas avançadas](https://cursos.alura.com.br/course/python-pandas-tecnicas-avancadas)*

In [11]:
def normalize_json(dataframe):
    return_dataframe = pd.DataFrame()
    for column in list(dados.columns[2:]):
        dataframe_column = pd.json_normalize(dataframe[column])
        return_dataframe = pd.concat([return_dataframe, dataframe_column], axis=1)
    
    return pd.concat([dataframe[list(dados.columns[:2])], return_dataframe], axis=1)

In [12]:
dados = normalize_json(dados)
dados

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,No,Yes,No,No,One year,No,Mailed check,55.15,742.9
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,No,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65


Com o método `info()`, visualizamos todas as colunas que foram geradas a partir da junção dos DataFrames.

In [13]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


Vamos utilizar o método `value_counts()` em cada uma das colunas para indentificar possíveis categorias com nomes incorretos ou incoerentes.

In [14]:
for coluna in dados.columns:
    print('---')
    print(dados[coluna].value_counts())

---
0002-ORFBO    1
6614-VBEGU    1
6637-KYRCV    1
6635-MYYYZ    1
6635-CPNUN    1
             ..
3374-TTZTK    1
3374-PZLXD    1
3374-LXDEV    1
3373-YZZYM    1
9995-HOTOH    1
Name: customerID, Length: 7267, dtype: int64
---
No     5174
Yes    1869
        224
Name: Churn, dtype: int64
---
Male      3675
Female    3592
Name: gender, dtype: int64
---
0    6085
1    1182
Name: SeniorCitizen, dtype: int64
---
No     3749
Yes    3518
Name: Partner, dtype: int64
---
No     5086
Yes    2181
Name: Dependents, dtype: int64
---
1     634
72    369
2     246
3     207
4     185
     ... 
38     60
39     59
44     54
36     50
0      11
Name: tenure, Length: 73, dtype: int64
---
Yes    6560
No      707
Name: PhoneService, dtype: int64
---
No                  3495
Yes                 3065
No phone service     707
Name: MultipleLines, dtype: int64
---
Fiber optic    3198
DSL            2488
No             1581
Name: InternetService, dtype: int64
---
No                     3608
Yes             

É possível perceber na variável Churn que há uma categoria que não está nomeada, representando dados faltantes. Dados faltantes não nos trazem informação útil para análise e portanto devemos removê-los do conjunto de dados.

In [15]:
dados['Churn'].value_counts()

No     5174
Yes    1869
        224
Name: Churn, dtype: int64

Para remover os dados com nome vazio, fazemos uma seleção na coluna Churn em que no nome seja diferente de vazio (''). Armazenamos o resultado na variável dados.

*Esse procedimento é mostrado na aula [Seleções e frequências](https://cursos.alura.com.br/course/introducao-python-pandas/task/40991) do curso [Python Pandas: tratando e analisando dados](https://cursos.alura.com.br/course/introducao-python-pandas)*

In [16]:
# Removendo valores vazios em Churn

dados = dados[dados['Churn']!= '']
dados.reset_index(drop=True, inplace=True)

Ao fim da execução do código, podemos identificar que a variável Churn não apresenta mais a classe com nome vazio.

In [17]:
dados['Churn'].value_counts()

No     5174
Yes    1869
Name: Churn, dtype: int64

Outra coluna que apresenta dados vazios (' ') é a Charges.Total. Essa coluna tem uma relação com Charges.Monthly e tenure.

A coluna tenure representa a quantidade de meses em que o cliente estava assinando o serviço. A coluna Charges.Monthly representa os gastos mensais do cliente e Charges.Total é a quantidade total de gastos, portanto seria uma multiplicação de Charges.Monthly por tenure.

Vamos selecionar todas as linhas onde o tenure = 0, ou seja, os clientes que assinaram o serviço por 0 meses, e mostrar os resultados para as colunas Charges.Total e Charges.Monthly.

In [18]:
dados.query('tenure == 0')[['Charges.Total', 'Charges.Monthly', 'tenure']]

Unnamed: 0,Charges.Total,Charges.Monthly,tenure
945,,56.05,0
1731,,20.0,0
1906,,61.9,0
2025,,19.7,0
2176,,20.25,0
2250,,25.35,0
2855,,73.35,0
3052,,25.75,0
3118,,52.55,0
4054,,80.85,0


Verificamos que quando tenure = 0, os dados de Charges.Total é vazio (' ').

Vamos agora selecionar os dados onde Charges.Total = ' ', mostrando os resultados para Charges.Monthly e tenure.

In [19]:
# Pegando todas as linhas onde a coluna "Charges.Total" é vazia.

dados[dados['Charges.Total'] == ' '][['Charges.Total', 'Charges.Monthly', 'tenure']]

Unnamed: 0,Charges.Total,Charges.Monthly,tenure
945,,56.05,0
1731,,20.0,0
1906,,61.9,0
2025,,19.7,0
2176,,20.25,0
2250,,25.35,0
2855,,73.35,0
3052,,25.75,0
3118,,52.55,0
4054,,80.85,0


Percebe-se que todas as linhas de Charges.Total que estão vazias é porque o cliente não assinou nem por um mês. Temos que preencher esse valor com o mesmo valor que está presente em "Charges.Monthly" pois esse representa o total.

In [20]:
idx = dados[dados['Charges.Total'] == ' '].index
dados.loc[idx, "Charges.Total"] = dados.loc[idx, "Charges.Monthly"]

In [21]:
dados.query('tenure == 0')[['Charges.Total', 'Charges.Monthly', 'tenure']]

Unnamed: 0,Charges.Total,Charges.Monthly,tenure
945,56.05,56.05,0
1731,20.0,20.0,0
1906,61.9,61.9,0
2025,19.7,19.7,0
2176,20.25,20.25,0
2250,25.35,25.35,0
2855,73.35,73.35,0
3052,25.75,25.75,0
3118,52.55,52.55,0
4054,80.85,80.85,0


Por fim, vamos modificar o tipo da variável para float, uma vez que o tipo estava como object.

In [22]:
dados['Charges.Total'] = dados['Charges.Total'].astype('float64')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados['Charges.Total'] = dados['Charges.Total'].astype('float64')


Por fim, vamos armazenar os dados tratados em um arquivo **Telco-Customer-Churn-limpeza.json** na pasta Dados com o método `to_json()`.

Os dados podem ser armazenados em qualquer formato de arquivo, por exemplo o csv com o método `to_csv()`.

In [23]:
dados.to_json("../Dados/Telco-Customer-Churn-limpeza.json")  