# Challenge DataScience da Alura

# Semana 1 - Limpeza dos dados

Nesse challenge realizado pela [Alura](https://www.alura.com.br), fomos contatados por uma empresa de telecomunicações fictícia chamada **AluraVoz** para realizar uma análise acerca da taxa de evasão de clientes, o chamado **Churn Rate**. Com essa análise, buscamos identificar clientes que tenham uma maior chance de deixar a empresa e com base nas características desses clientes, tomar medidas para a redução da taxa de evasão.

Para a primeira semana, nos foram passadas, através da plataforma [Trello](https://trello.com/pt-BR), as seguintes demandas:
> - Obter acesso aos dados dos clientes através da API da AluraVoz;
> - Entender acerca das informações contidas na base de dados;
> - Analisar quais os tipos de dados que estamos trabalhando;
> - Verificar as inconsistências presentes nos dados;
> - Corrigir as inconsistências encontradas.

Ainda, nos foram passadas duas tarefas extras:
> - Traduzir as informações contidas no dataset;
> - Criar uma nova variável contendo os gastos diários do(a) cliente e inseri-la na posição 19 do Data Frame.

---
## Importando os dados
Para realizar as tarefas demandadas, a empresa disponibilizou o acesso aos dados a partir de uma API. Dessa forma, os dados importados estarão no formato JSON (**J**ava**S**cript **O**bject **N**otation) e precisarão passar por um tratamento especial antes de serem analisados.

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.set_option('display.max_columns', 100)

In [3]:
uri ='https://raw.githubusercontent.com/sthemonica/alura-voz/main/Dados/Telco-Customer-Churn.json'
dados = pd.read_json(path_or_buf=uri, orient='columns')
dados.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


Podemos notar que algumas colunas possuem dados não normalizados, isto é, possuem informação acerca de mais de uma variável. Para facilitar nossa análise, será interessante normalizar esses dados, tornando cada variável uma coluna única.

### Normalizando os dados

In [4]:
dados_customer = pd.json_normalize(data=dados.customer,sep='_')
dados_customer

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3
...,...,...,...,...,...
7262,Female,0,No,No,13
7263,Male,0,Yes,No,22
7264,Male,0,No,No,2
7265,Male,0,Yes,Yes,67


In [5]:
dados_phone = pd.json_normalize(data=dados.phone, sep='_')
dados_phone

Unnamed: 0,PhoneService,MultipleLines
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No
...,...,...
7262,Yes,No
7263,Yes,Yes
7264,Yes,No
7265,Yes,No


In [6]:
dados_internet = pd.json_normalize(dados.internet, sep='_')
dados_internet

Unnamed: 0,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No
...,...,...,...,...,...,...,...
7262,DSL,Yes,No,No,Yes,No,No
7263,Fiber optic,No,No,No,No,No,Yes
7264,DSL,No,Yes,No,No,No,No
7265,DSL,Yes,No,Yes,Yes,No,Yes


In [7]:
dados_account = pd.json_normalize(dados.account, sep='_')
dados_account

Unnamed: 0,Contract,PaperlessBilling,PaymentMethod,Charges_Monthly,Charges_Total
0,One year,Yes,Mailed check,65.60,593.3
1,Month-to-month,No,Mailed check,59.90,542.4
2,Month-to-month,Yes,Electronic check,73.90,280.85
3,Month-to-month,Yes,Electronic check,98.00,1237.85
4,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...
7262,One year,No,Mailed check,55.15,742.9
7263,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,Month-to-month,Yes,Mailed check,50.30,92.75
7265,Two year,No,Mailed check,67.85,4627.65


In [8]:
# Unindo os dataframes normalizados às duas primeiras colunas do dataframe original

dados = pd.concat([dados[['customerID','Churn']],dados_customer, dados_phone, dados_internet, dados_account], axis=1)
dados

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges_Monthly,Charges_Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,Yes,No,No,Yes,No,No,One year,No,Mailed check,55.15,742.9
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,No,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,Yes,No,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65


Com os dados bem estruturados, conseguimos agora partir para análise das informações contidas no dataset.
-  [<b>✓</b>] Obter acesso aos dados dos clientes através da API da AluraVoz.

---
## Análise dos dados e seus tipos
Podemos começar nossa análise entendendo sobre o tamanho do dataset que estamos trabalhando:

In [9]:
print(f'Nosso dataset possui\033[1m {dados.shape[0]}\033[0m entradas e\033[1m {dados.shape[1]}\033[0m colunas.')

Nosso dataset possui[1m 7267[0m entradas e[1m 21[0m colunas.


Agora vamos analisar o tipo de variável contida em cada uma das colunas e a quantidade de entradas não-nulas em cada uma delas:

In [10]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


Então aparentemente não possuímos nenhum valor faltante em nossas 21 colunas.

Vamos analisar os valores únicos de cada coluna e suas distribuições de frequência:

In [11]:
for coluna in dados.columns:
    print('-'*20)
    print('Coluna:' ,coluna)
    print('Número de valores únicos:', dados[coluna].nunique(),'\n')
    print(dados[coluna].value_counts())

--------------------
Coluna: customerID
Número de valores únicos: 7267 

0002-ORFBO    1
6614-VBEGU    1
6637-KYRCV    1
6635-MYYYZ    1
6635-CPNUN    1
             ..
3374-TTZTK    1
3374-PZLXD    1
3374-LXDEV    1
3373-YZZYM    1
9995-HOTOH    1
Name: customerID, Length: 7267, dtype: int64
--------------------
Coluna: Churn
Número de valores únicos: 3 

No     5174
Yes    1869
        224
Name: Churn, dtype: int64
--------------------
Coluna: gender
Número de valores únicos: 2 

Male      3675
Female    3592
Name: gender, dtype: int64
--------------------
Coluna: SeniorCitizen
Número de valores únicos: 2 

0    6085
1    1182
Name: SeniorCitizen, dtype: int64
--------------------
Coluna: Partner
Número de valores únicos: 2 

No     3749
Yes    3518
Name: Partner, dtype: int64
--------------------
Coluna: Dependents
Número de valores únicos: 2 

No     5086
Yes    2181
Name: Dependents, dtype: int64
--------------------
Coluna: tenure
Número de valores únicos: 73 

1     634
72    36

Para basearmos nossa análise, a empresa disponibilizou um dicionário contendo o significado de cada coluna:

Nome da coluna | Dicionário da empresa
-------|------------------
customerID| Código único para o cliente da empresa
Churn| se o cliente deixou ou não a empresa
gender| gênero (masculino e feminino)
SeniorCitizen| informação sobre um cliente ter ou não idade igual ou maior que 65 anos
Partner| se o cliente possui ou não um parceiro ou parceira
Dependents| se o cliente possui ou não dependentes
tenure| meses de contrato do cliente
PhoneService| assinatura de serviço telefônico
MultipleLines| assinatura de mais de uma linha de telefone
InternetService| assinatura de um provedor internet
OnlineSecurity| assinatura adicional de segurança online
OnlineBackup| assinatura adicional de backup online
DeviceProtection| assinatura adicional de proteção no dispositivo
TechSupport| assinatura adicional de suporte técnico, menos tempo de espera
StreamingTV| assinatura de TV a cabo
StreamingMovies| assinatura de streaming de filmes
Contract| tipo de contrato
PaperlessBilling| se o cliente prefere receber online a fatura
PaymentMethod| forma de pagamento
Charges_Monthly| total de todos os serviços do cliente por mês
Charges_Total| total gasto pelo cliente

Com base nisso, podemos notar nessa primeira análise que o nosso banco de dados não possui entradas de clientes duplicadas, visto que a coluna `customerID`, que identifica cada cliente, possui 7267 valores únicos (igual à quantidade total de entradas do dataset).

-  [<b>✓</b>] Entender acerca das informações contidas na base de dados;
-  [<b>✓</b>] Analisar quais os tipos de dados que estamos trabalhando.

---
## Inconsistências encontradas
### Inconsistências nos dados das colunas
1. A coluna `Churn` possui alguns dados sem label. Isto é, deveria conter apenas a informação acerca da evasão do cliente, categorizada em `'Yes'` ou `'No'`, mas em nossa análise observamos a presença de um terceiro tipo de entrada sem nenhuma informação: `''`. É interessante ressaltar que essa inconsistência não foi notada antes, em nossa análise sobre os valores faltantes, por não se tratar de um valor nulo (não preenchido) e sim de um valor sem informação.

2. Notamos que todas as colunas com valores booleanos (verdadeiro ou falso) seguem o padrão de utilizar `'Yes'` ou `'No'`, com exceção da coluna `SeniorCitizen`, que possui os valores `0` ou `1`. Dessa forma, é interessante padronizarmos nosso dataset, transformando os valores da coluna `SeniorCitizen` em `'Yes'` e `'No'`.

### Inconsistências nos tipos da coluna
3. A coluna `Charges_Total` está com tipo **OBJECT**, que é interpretado pelo algoritmo como um *texto*, mas deveria ser do tipo **FLOAT64**, já que possui informações acerca de dados *numéricos*.

Até o momento, essas foram as inconsistências encontradas em nossa base de dados. Vamos agora tentar corrigir esses problemas de maneira a facilitar a análise dos dados no futuro.
-  [<b>✓</b>] Verificar as inconsistências presentes nos dados.

---
## Lidando com a coluna `Churn`

Vamos analisar as entradas com os valores de Churn faltantes:

In [12]:
dados[dados['Churn']=='']

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges_Monthly,Charges_Total
30,0047-ZHDTW,,Female,0,No,No,11,Yes,Yes,Fiber optic,Yes,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),79.00,929.3
75,0120-YZLQA,,Male,0,No,No,71,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.90,1355.1
96,0154-QYHJU,,Male,0,No,No,29,Yes,No,DSL,Yes,Yes,No,Yes,No,No,One year,Yes,Electronic check,58.75,1696.2
98,0162-RZGMZ,,Female,1,No,No,5,Yes,No,DSL,Yes,Yes,No,Yes,No,No,Month-to-month,No,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,Yes,No,65,Yes,Yes,Fiber optic,No,Yes,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,No,No,14,Yes,Yes,DSL,No,Yes,No,No,No,No,One year,Yes,Mailed check,54.25,773.2
7180,9872-RZQQB,,Female,0,Yes,No,49,No,No phone service,DSL,Yes,No,No,No,Yes,No,Month-to-month,No,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,No,No,9,Yes,Yes,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,Yes,Yes,67,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Bank transfer (automatic),19.25,1372.9


Em primeira análise, não conseguimos notar nenhuma relação entre a falta de valores na coluna `Churn` e os dados presentes nas demais colunas. Portanto, podemos concluir que essa inconsistência provavelmente se deu por conta de uma aleatoriedade. Por exemplo, um funcionário da empresa pode ter esquecido de preencher esse campo para alguns dos clientes.

Cabe a nós optar pela melhor maneira de se lidar com esses dados faltantes. Podemos começar analisando a porcentagem que essas entradas faltantes representam em nosso dataset inteiro:

In [13]:
print(f"Quantidade de entradas total do dataset: {dados.shape[0]}")
print(f"Quantidade de entradas com valor de Churn faltante: {dados[dados['Churn']==''].shape[0]}")
print(f"Porcentagem de entradas com coluna Churn faltante: {dados[dados['Churn']==''].shape[0]/dados.shape[0]:.2%}")

Quantidade de entradas total do dataset: 7267
Quantidade de entradas com valor de Churn faltante: 224
Porcentagem de entradas com coluna Churn faltante: 3.08%


Como o objetivo da empresa é reduzir o **Churn Rate**, os dados da coluna `Churn` serão imprescindíveis para o nosso modelo. Além disso, como os dados faltantes representam apenas aproximadamente 3% do nosso dataset, poderíamos remover as entradas dos clientes correspondentes, visto que apenas clientes com informação sobre sua evasão serão utilizados no modelo. Entretanto, vou optar por manter esses dados e salva-los em um arquivo separado. Dessa forma, depois de validarmos nosso futuro modelo de machine learning, podemos utilizar esses dados faltantes para testar a acurácia do modelo.

## Lidando com a coluna `SeniorCitizen`

Como vimos, será interessante padronizar todas as variáveis booleanas do nosso dataset. Assim, vamos transformar os valores presentes na coluna `SeniorCitizen` para `Yes` ou `No`.

In [14]:
mapa = {
    0:'No',
    1:'Yes'
}

dados['SeniorCitizen'] = dados['SeniorCitizen'].map(mapa)
dados['SeniorCitizen']

0        No
1        No
2        No
3       Yes
4       Yes
       ... 
7262     No
7263     No
7264     No
7265     No
7266     No
Name: SeniorCitizen, Length: 7267, dtype: object

## Lidando com a coluna `Charges_Total`

Vamos mudar o tipo da coluna `Charges_Total` para **FLOAT64**:

In [15]:
dados['Charges_Total'] = pd.to_numeric(dados['Charges_Total'])

ValueError: Unable to parse string " " at position 975

Encontramos aqui uma inconsistência que não havia sido observada antes. Dentre os valores numéricos presentes na coluna `Charges_Total` temos algumas entradas sem nenhuma informação `' '` e por isso, o método `to_numeric` não conseguiu transformar esses valores em numéricos. Para decidir como tratar esses valores faltantes, vamos analisar a relação entre as entradas que não possuem informação de `Charges_Total` e as colunas relacionadas à cobrança do cliente.

In [16]:
dados[dados['Charges_Total']==' '][['tenure', 'Charges_Monthly', 'Charges_Total']]

Unnamed: 0,tenure,Charges_Monthly,Charges_Total
975,0,56.05,
1775,0,20.0,
1955,0,61.9,
2075,0,19.7,
2232,0,20.25,
2308,0,25.35,
2930,0,73.35,
3134,0,25.75,
3203,0,52.55,
4169,0,80.85,


Observamos que todas as entradas em que o valor de `Charges_Total` é nulo temos que o valor de `tenure` é zero. Ou seja, os clientes em questão ainda não completaram o primeiro mês de assinatura e portanto ainda não foram cobrados. Então vamos preencher essas entradas com o valor zero para a coluna `Charges_Total`.

In [17]:
index_nulos = dados.loc[dados['Charges_Total']==' '].index

In [18]:
dados.loc[dados['Charges_Total']==' ', 'Charges_Total'] = 0

In [19]:
dados.iloc[index_nulos][['tenure', 'Charges_Monthly', 'Charges_Total']]

Unnamed: 0,tenure,Charges_Monthly,Charges_Total
975,0,56.05,0
1775,0,20.0,0
1955,0,61.9,0
2075,0,19.7,0
2232,0,20.25,0
2308,0,25.35,0
2930,0,73.35,0
3134,0,25.75,0
3203,0,52.55,0
4169,0,80.85,0


Agora estamos aptos a transformar o tipo dessa coluna para **FLOAT64**:

In [20]:
dados['Charges_Total'] = pd.to_numeric(dados['Charges_Total'])

In [21]:
dados['Charges_Total']

0        593.30
1        542.40
2        280.85
3       1237.85
4        267.40
         ...   
7262     742.90
7263    1873.70
7264      92.75
7265    4627.65
7266    3707.60
Name: Charges_Total, Length: 7267, dtype: float64

Então as inconsistências encontradas até o momento foram solucionadas.

-  [<b>✓</b>] Corrigir as inconsistências encontradas.

---
## Extra: Traduzindo o Dataset

Além dessas tarefas, a empresa também nos pediu para que traduzíssemos as informações contidas no dataset. Para isso, vamos começar traduzindo as colunas da base de dados:

In [22]:
mapa_colunas = {
    'customerID' : 'ID_Cliente',
    'Churn' : 'Evasao',
    'gender' : 'Genero',
    'SeniorCitizen' : 'Maior65',
    'Partner' : 'Parceiro',
    'Dependents' : 'Dependentes',
    'tenure' : 'MesesContrato',
    'PhoneService' : 'ServicoTelefonico',
    'MultipleLines' : 'MultiplasLinhas',
    'InternetService' : 'ServicoInternet',
    'OnlineSecurity' : 'AdicionalSeguranca',
    'OnlineBackup' : 'AdicionalBackup',
    'DeviceProtection' : 'AdicionalProtecao',
    'TechSupport' : 'AdicionalSuporte',
    'StreamingTV' : 'ServicoTVCabo',
    'StreamingMovies' : 'ServicoFilme',
    'Contract' : 'TipoContrato',
    'PaperlessBilling' : 'FaturaOnline',
    'PaymentMethod' : 'FormaPagamento',
    'Charges_Monthly' : 'CobrancaMensal',
    'Charges_Total' : 'CobrancaTotal'
}

dados.rename(mapa_colunas, axis=1, inplace=True)
dados.head()

Unnamed: 0,ID_Cliente,Evasao,Genero,Maior65,Parceiro,Dependentes,MesesContrato,ServicoTelefonico,MultiplasLinhas,ServicoInternet,AdicionalSeguranca,AdicionalBackup,AdicionalProtecao,AdicionalSuporte,ServicoTVCabo,ServicoFilme,TipoContrato,FaturaOnline,FormaPagamento,CobrancaMensal,CobrancaTotal
0,0002-ORFBO,No,Female,No,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,No,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,No,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,Yes,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,Yes,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


Em seguida, podemos traduzir os valores presentes nas colunas:

In [23]:
mapa_valores = {
    'Yes' : 'Sim',
    'No' : 'Não',
    'Male' : 'Masculino',
    'Female' : 'Feminino',
    'No phone service' : 'Sem serviço telefônico',
    'Fiber optic' : 'Fibra óptica',
    'No internet service' : 'Sem serviço de internet',
    'One year' : 'Anual',
    'Month-to-month' : 'Mensal',
    'Two year' : 'Bianual',
    'Mailed check' : 'Cheque por correio',
    'Electronic check' : 'Cheque eletrônico',
    'Credit card (automatic)' : 'Cartão de crédito (automático)',
    'Bank transfer (automatic)' : 'Transferência bancária (automâtico)'
}

dados.replace(mapa_valores, inplace=True)
dados.head()

Unnamed: 0,ID_Cliente,Evasao,Genero,Maior65,Parceiro,Dependentes,MesesContrato,ServicoTelefonico,MultiplasLinhas,ServicoInternet,AdicionalSeguranca,AdicionalBackup,AdicionalProtecao,AdicionalSuporte,ServicoTVCabo,ServicoFilme,TipoContrato,FaturaOnline,FormaPagamento,CobrancaMensal,CobrancaTotal
0,0002-ORFBO,Não,Feminino,Não,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Anual,Sim,Cheque por correio,65.6,593.3
1,0003-MKNFE,Não,Masculino,Não,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mensal,Não,Cheque por correio,59.9,542.4
2,0004-TLHLJ,Sim,Masculino,Não,Não,Não,4,Sim,Não,Fibra óptica,Não,Não,Sim,Não,Não,Não,Mensal,Sim,Cheque eletrônico,73.9,280.85
3,0011-IGKFF,Sim,Masculino,Sim,Sim,Não,13,Sim,Não,Fibra óptica,Não,Sim,Sim,Não,Sim,Sim,Mensal,Sim,Cheque eletrônico,98.0,1237.85
4,0013-EXCHZ,Sim,Feminino,Sim,Sim,Não,3,Sim,Não,Fibra óptica,Não,Não,Não,Sim,Sim,Não,Mensal,Sim,Cheque por correio,83.9,267.4


-  [<b>✓</b>] Traduzir as informações contidas no dataset.

---
## Extra: Coluna de cobrança diária

Por fim, nos foi pedido que se inserisse, na posição 19 do dataframe, uma coluna contendo os gastos diários do(a) cliente. Para tal, realizamos uma divisão entre a coluna que informa a sua mensalidade e a quantidade de dias no mês (consideramos que um mês contém 30 dias).

In [24]:
diaria_series = pd.Series(round(dados['CobrancaMensal']/30,2))
dados.insert(19, 'CobrancaDiaria', diaria_series)
dados.head()

Unnamed: 0,ID_Cliente,Evasao,Genero,Maior65,Parceiro,Dependentes,MesesContrato,ServicoTelefonico,MultiplasLinhas,ServicoInternet,AdicionalSeguranca,AdicionalBackup,AdicionalProtecao,AdicionalSuporte,ServicoTVCabo,ServicoFilme,TipoContrato,FaturaOnline,FormaPagamento,CobrancaDiaria,CobrancaMensal,CobrancaTotal
0,0002-ORFBO,Não,Feminino,Não,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Anual,Sim,Cheque por correio,2.19,65.6,593.3
1,0003-MKNFE,Não,Masculino,Não,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mensal,Não,Cheque por correio,2.0,59.9,542.4
2,0004-TLHLJ,Sim,Masculino,Não,Não,Não,4,Sim,Não,Fibra óptica,Não,Não,Sim,Não,Não,Não,Mensal,Sim,Cheque eletrônico,2.46,73.9,280.85
3,0011-IGKFF,Sim,Masculino,Sim,Sim,Não,13,Sim,Não,Fibra óptica,Não,Sim,Sim,Não,Sim,Sim,Mensal,Sim,Cheque eletrônico,3.27,98.0,1237.85
4,0013-EXCHZ,Sim,Feminino,Sim,Sim,Não,3,Sim,Não,Fibra óptica,Não,Não,Não,Sim,Sim,Não,Mensal,Sim,Cheque por correio,2.8,83.9,267.4


Para finalizar, vamos verificar os tipos de cada coluna do dataframe para se assegurar de que nenhum erro foi cometido durante o processo:

In [25]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 22 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   ID_Cliente          7267 non-null   object 
 1   Evasao              7267 non-null   object 
 2   Genero              7267 non-null   object 
 3   Maior65             7267 non-null   object 
 4   Parceiro            7267 non-null   object 
 5   Dependentes         7267 non-null   object 
 6   MesesContrato       7267 non-null   int64  
 7   ServicoTelefonico   7267 non-null   object 
 8   MultiplasLinhas     7267 non-null   object 
 9   ServicoInternet     7267 non-null   object 
 10  AdicionalSeguranca  7267 non-null   object 
 11  AdicionalBackup     7267 non-null   object 
 12  AdicionalProtecao   7267 non-null   object 
 13  AdicionalSuporte    7267 non-null   object 
 14  ServicoTVCabo       7267 non-null   object 
 15  ServicoFilme        7267 non-null   object 
 16  TipoCo

- [<b>✓</b>] Criar uma nova variável contendo os gastos diários do(a) cliente e inseri-la na posição 19 do Data Frame.

---
## Exportando os Datasets

Como mencionado anteriormente, vamos exportar nosso banco de dados em dois arquivos separados. No primeiro, vamos manter apenas as entradas que possuem a informação sobre a evasão do cliente. Esse será o arquivo que trabalharemos no futuro para realizar as análises e modelagem.

In [26]:
dados[dados.Evasao != ''].to_csv('dados/Dados_Limpos.csv', index=False)

Já no segundo arquivo, vamos exportar as entradas que não possuem informação na coluna `Churn`. Com esses dados poderemos pôr em prática o nosso modelo de previsões, a fim de tentar prever informações sobre a evasão desses clientes.

In [27]:
dados[dados.Evasao == ''].to_csv('dados/Dados_Limpos_Faltantes.csv', index=False)