<a href="https://colab.research.google.com/github/askot19/Portfolio/blob/main/Churn%20Prediction/1%20-%20Explora%C3%A7%C3%A3o%20e%20Limpeza%20de%20Dados/01%20-%20Explora%C3%A7%C3%A3o%20e%20Limpeza%20dos%20Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align = 'left'>
<img src = 'https://i.imgur.com/8LTNXxF.jpg'>
</p>

---
## **Data Scientist & Analyst**

*by [Paulo Henrique de Melo Ferreira](https://www.linkedin.com/in/paulo-henrique-ferreira-20151374/)*

---

## Predição de Churn

Neste projeto, eu construirei um modelo de machine learning para predizer o Churn de uma empresa de telefonia. Ele envolve aprendizado supervisionado (utilizando um dataset) para classificação, onde a evasão positiva é determinada como 1, e a não evasão é 0.

Utilizarei o pipeline baseado na metodologia CRISP-DM:

1. Definir o problema de negócio.
2. Coleta de dados e entendimento de seus significados.
3. Limpeza de dados.
4. Exploração dos dados.
5. Divisão dos dados para treinamento e predição.
6. Treinamento de modelo, comparação, seleção de características e ajustes.
7. Produção final do modelo e avaliação.
8. Conclusões e interpretação dos resultados obtidos do modelo.

Neste notebook, farei a Análise Exploratória de Dados (EDA), cobrindo os passos de 1 a 4 do pipeline acima. O principal objetivo aqui é revelar insights que nos darão informação relevante sobre os padrões de Churn dentro das características disponibilizadas. Dessa maneira, mesmo antes de se construir um modelo, será possível identificar os perfis de Churn sofridos pela empresa. Ademais, irei detalhar esses passos abaixo, explicando o porquê de cada tomada de decisão.

1. Problema de Negócio

Um gerente de uma empresa de serviços telefônicos está preocupado com o crescente número de clientes evadidos. Seria interessante realizar uma predição para eles do quão suscetível à evasão um cliente possa ser, para que eles possam agir proativamente e fornecer melhores serviços, ações de marketing e alterar a decisão desses clientes.

1.1 Qual o contexto?

Em tempos atuais empresas de telefonia oferecem não apenas serviços voltados para comunicação, para manterem-se ativos no mercado são fornecidos também atividades voltadas para lazer, banda larga, backups e segurança online.
Com o auxílio de análises estatísticas, identificaremos quais os Indicadores Chaves de Performance (KPIs) do Churn de clientes desta empresa, podendo traçar estratégias e entender o que motiva ou não a evasão.

- Which are the project objectives?

1. Identificar os fatores associados com o Churn de clientes;
2. Construir um modelo capaz de prever de maneira acurada a probabilidade de um cliente desistir dos serviços;
3. Oferecer planos de ação para reduzir a evasão de clientes.

- Which are the benefits?

1. Redução de custos;
2. Melhorar a retenção de clientes;
3. Melhorar a experiência dos clientes;
4. Marketing direcionado;
5. Proteção da receita.

E como resultado, o problema de negócio será resolvido.

## Importando as bibliotecas

In [None]:
# Carregando pacostes para análise de dados
import pandas as pd
import numpy as np

In [None]:
# Aqui carregamos os dados por meio de um arquivo no formato JSON, disponibilizado pelo github
dados = pd.read_json('https://raw.githubusercontent.com/sthemonica/alura-voz/main/Dados/Telco-Customer-Churn.json')
dados.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


In [None]:
# Como o carregamento para o Data Frame não ocorreu como o esperado, vamos explorar o que cada campo armazena em sua primeira linha.
dados.customer[0]
# Aqui observamos que são dados gerais referentes ao cliente

{'gender': 'Female',
 'SeniorCitizen': 0,
 'Partner': 'Yes',
 'Dependents': 'Yes',
 'tenure': 9}

In [None]:
# Dados acerca da linha do cliente
dados.phone[0]

{'PhoneService': 'Yes', 'MultipleLines': 'No'}

In [None]:
# Dados a respeito de serviços de internet
dados.internet[0]

{'InternetService': 'DSL',
 'OnlineSecurity': 'No',
 'OnlineBackup': 'Yes',
 'DeviceProtection': 'No',
 'TechSupport': 'Yes',
 'StreamingTV': 'Yes',
 'StreamingMovies': 'No'}

In [None]:
# Dados acerca do contrato e formas de pagamento
dados.account[0]

{'Contract': 'One year',
 'PaperlessBilling': 'Yes',
 'PaymentMethod': 'Mailed check',
 'Charges': {'Monthly': 65.6, 'Total': '593.3'}}

In [None]:
# A partir daqui vamos normalizar os dados, a fim de poder trabalhar melhor com o Data Frame
customer_dados = pd.json_normalize(dados.customer)

In [None]:
phone_dados = pd.json_normalize(dados.phone)
phone_dados.head()

Unnamed: 0,PhoneService,MultipleLines
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No


In [None]:
internet_dados = pd.json_normalize(dados.internet)
internet_dados.head()

Unnamed: 0,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No


In [None]:
account_dados = pd.json_normalize(dados.account)
account_dados.head()

Unnamed: 0,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,One year,Yes,Mailed check,65.6,593.3
1,Month-to-month,No,Mailed check,59.9,542.4
2,Month-to-month,Yes,Electronic check,73.9,280.85
3,Month-to-month,Yes,Electronic check,98.0,1237.85
4,Month-to-month,Yes,Mailed check,83.9,267.4


In [None]:
# Definindo uma função para concatenar todas as tabelas ao longo das colunas
def normalize_json(dataframe):
    return_dataframe = pd.DataFrame()
    for column in list(dados.columns[2:]):
        dataframe_column = pd.json_normalize(dataframe[column])
        return_dataframe = pd.concat([return_dataframe, dataframe_column], axis=1)

    return pd.concat([dataframe[list(dados.columns[:2])], return_dataframe], axis=1)

In [None]:
# Aplicando a função e rearmazenando os dados na respectiva variável, vamos também visualizar o resultado
dados = normalize_json(dados)
dados

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,No,Yes,No,No,One year,No,Mailed check,55.15,742.9
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,No,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65


Agora com os dados devidamente armazenados em um Data Frame, podemos iniciar a limpeza de dados deste. Mas antes, vamos entender do que se tratam cada uma das variáveis de análise.

In [None]:
# Consultando os nomes dos das colunas no Data Frame
dados.columns.values

array(['customerID', 'Churn', 'gender', 'SeniorCitizen', 'Partner',
       'Dependents', 'tenure', 'PhoneService', 'MultipleLines',
       'InternetService', 'OnlineSecurity', 'OnlineBackup',
       'DeviceProtection', 'TechSupport', 'StreamingTV',
       'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod',
       'Charges.Monthly', 'Charges.Total'], dtype=object)

Para facilitar o entendimento das colunas, vamos traduzi-las para conferir maior acessibilidade à equipe de trabalho.

In [None]:
nomes = {'customerID': 'ID', 'Churn': 'Evasao', 'gender': 'Genero', 'SeniorCitizen': 'Senior', 'Partner': 'Casado(a)',
       'Dependents': 'Dependentes', 'tenure': 'Posse', 'PhoneService': 'ServicoTelefonico', 'MultipleLines': 'MultiplasLinhas',
       'InternetService': 'ServicodeInternet', 'OnlineSecurity': 'SegurancaOnline', 'OnlineBackup': 'BackupOnline',
       'DeviceProtection': 'ProtecaodeDispositivo', 'TechSupport': 'SuporteTecnico', 'StreamingTV': 'StreamingTV',
       'StreamingMovies': 'StreamingFilmes', 'Contract': 'Contrato', 'PaperlessBilling': 'CobrancasemPapel', 'PaymentMethod': 'MetododePagamento',
       'Charges.Monthly': 'CobrancasMensais', 'Charges.Total': 'CobrancasTotais'}

In [None]:
dados.rename(columns = nomes, inplace = True)
dados

Unnamed: 0,ID,Evasao,Genero,Senior,Casado(a),Dependentes,Posse,ServicoTelefonico,MultiplasLinhas,ServicodeInternet,...,BackupOnline,ProtecaodeDispositivo,SuporteTecnico,StreamingTV,StreamingFilmes,Contrato,CobrancasemPapel,MetododePagamento,CobrancasMensais,CobrancasTotais
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,No,Yes,No,No,One year,No,Mailed check,55.15,742.9
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,No,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65


In [None]:
# Verificando valores únicos das colunas
dados['MultiplasLinhas'].unique()

array(['No', 'Yes', 'No phone service'], dtype=object)

In [None]:
dados['ServicodeInternet'].unique()

array(['DSL', 'Fiber optic', 'No'], dtype=object)

In [None]:
dados['Contrato'].unique()

array(['One year', 'Month-to-month', 'Two year'], dtype=object)

In [None]:
dados['SegurancaOnline'].unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

In [None]:
dados['MetododePagamento'].unique()

array(['Mailed check', 'Electronic check', 'Credit card (automatic)',
       'Bank transfer (automatic)'], dtype=object)

In [None]:
dados['Senior'].unique()

array([0, 1])

In [None]:
# Traduzindo valores contidos nas colunas
dados.replace({'Yes': 'Sim', 'No': 'Nao', 'Female': 'Mulher', 'Male': 'Homem', 'No phone service': 'Sem servico telefonico', 'Fiber optic': 'Fibra optica', 'One year': 'Anual', 'Month-to-month': 'Mensal', 'Two year': 'Dois anos', 'No internet service': 'Sem servico de Internet', 'Mailed check': 'Correspondencia', 'Electronic check': 'Eletronico', 'Credit card (automatic)': 'Cartao de credito', 'Bank transfer (automatic)': 'Debito automatico'}, inplace = True)
dados

Unnamed: 0,ID,Evasao,Genero,Senior,Casado(a),Dependentes,Posse,ServicoTelefonico,MultiplasLinhas,ServicodeInternet,...,BackupOnline,ProtecaodeDispositivo,SuporteTecnico,StreamingTV,StreamingFilmes,Contrato,CobrancasemPapel,MetododePagamento,CobrancasMensais,CobrancasTotais
0,0002-ORFBO,Nao,Mulher,0,Sim,Sim,9,Sim,Nao,DSL,...,Sim,Nao,Sim,Sim,Nao,Anual,Sim,Correspondencia,65.60,593.3
1,0003-MKNFE,Nao,Homem,0,Nao,Nao,9,Sim,Sim,DSL,...,Nao,Nao,Nao,Nao,Sim,Mensal,Nao,Correspondencia,59.90,542.4
2,0004-TLHLJ,Sim,Homem,0,Nao,Nao,4,Sim,Nao,Fibra optica,...,Nao,Sim,Nao,Nao,Nao,Mensal,Sim,Eletronico,73.90,280.85
3,0011-IGKFF,Sim,Homem,1,Sim,Nao,13,Sim,Nao,Fibra optica,...,Sim,Sim,Nao,Sim,Sim,Mensal,Sim,Eletronico,98.00,1237.85
4,0013-EXCHZ,Sim,Mulher,1,Sim,Nao,3,Sim,Nao,Fibra optica,...,Nao,Nao,Sim,Sim,Nao,Mensal,Sim,Correspondencia,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,Nao,Mulher,0,Nao,Nao,13,Sim,Nao,DSL,...,Nao,Nao,Sim,Nao,Nao,Anual,Nao,Correspondencia,55.15,742.9
7263,9992-RRAMN,Sim,Homem,0,Sim,Nao,22,Sim,Sim,Fibra optica,...,Nao,Nao,Nao,Nao,Sim,Mensal,Sim,Eletronico,85.10,1873.7
7264,9992-UJOEL,Nao,Homem,0,Nao,Nao,2,Sim,Nao,DSL,...,Sim,Nao,Nao,Nao,Nao,Mensal,Sim,Correspondencia,50.30,92.75
7265,9993-LHIEB,Nao,Homem,0,Sim,Sim,67,Sim,Nao,DSL,...,Nao,Sim,Sim,Nao,Sim,Dois anos,Nao,Correspondencia,67.85,4627.65


Após esses processos vamos dar início à limpeza dos dados do nosso Data Frame.

In [None]:
# Compreendendo a composição do Data Frame
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   ID                     7267 non-null   object 
 1   Evasao                 7267 non-null   object 
 2   Genero                 7267 non-null   object 
 3   Senior                 7267 non-null   int64  
 4   Casado(a)              7267 non-null   object 
 5   Dependentes            7267 non-null   object 
 6   Posse                  7267 non-null   int64  
 7   ServicoTelefonico      7267 non-null   object 
 8   MultiplasLinhas        7267 non-null   object 
 9   ServicodeInternet      7267 non-null   object 
 10  SegurancaOnline        7267 non-null   object 
 11  BackupOnline           7267 non-null   object 
 12  ProtecaodeDispositivo  7267 non-null   object 
 13  SuporteTecnico         7267 non-null   object 
 14  StreamingTV            7267 non-null   object 
 15  Stre

In [None]:
# Verficando os valores inseridos em cada coluna
for coluna in dados.columns:
  print(dados[coluna].value_counts())

0002-ORFBO    1
6614-VBEGU    1
6637-KYRCV    1
6635-MYYYZ    1
6635-CPNUN    1
             ..
3374-TTZTK    1
3374-PZLXD    1
3374-LXDEV    1
3373-YZZYM    1
9995-HOTOH    1
Name: ID, Length: 7267, dtype: int64
Nao    5174
Sim    1869
        224
Name: Evasao, dtype: int64
Homem     3675
Mulher    3592
Name: Genero, dtype: int64
0    6085
1    1182
Name: Senior, dtype: int64
Nao    3749
Sim    3518
Name: Casado(a), dtype: int64
Nao    5086
Sim    2181
Name: Dependentes, dtype: int64
1     634
72    369
2     246
3     207
4     185
     ... 
38     60
39     59
44     54
36     50
0      11
Name: Posse, Length: 73, dtype: int64
Sim    6560
Nao     707
Name: ServicoTelefonico, dtype: int64
Nao                       3495
Sim                       3065
Sem servico telefonico     707
Name: MultiplasLinhas, dtype: int64
Fibra optica    3198
DSL             2488
Nao             1581
Name: ServicodeInternet, dtype: int64
Nao                        3608
Sim                        2078
Sem se

Verificamos que a coluna Evasão contém 224 valores em branco. Como este é o principal fator que consideraremos para a nossa análise, não há sentido em manter estes 224 valores em nossa análise.

In [None]:
dados['Evasao'].value_counts()

Nao    5174
Sim    1869
        224
Name: Evasao, dtype: int64

In [None]:
# Selecionando os dados de interesse para um novo Data Frame
dados_clean = dados[dados['Evasao'] != '']
dados_clean

Unnamed: 0,ID,Evasao,Genero,Senior,Casado(a),Dependentes,Posse,ServicoTelefonico,MultiplasLinhas,ServicodeInternet,...,BackupOnline,ProtecaodeDispositivo,SuporteTecnico,StreamingTV,StreamingFilmes,Contrato,CobrancasemPapel,MetododePagamento,CobrancasMensais,CobrancasTotais
0,0002-ORFBO,Nao,Mulher,0,Sim,Sim,9,Sim,Nao,DSL,...,Sim,Nao,Sim,Sim,Nao,Anual,Sim,Correspondencia,65.60,593.3
1,0003-MKNFE,Nao,Homem,0,Nao,Nao,9,Sim,Sim,DSL,...,Nao,Nao,Nao,Nao,Sim,Mensal,Nao,Correspondencia,59.90,542.4
2,0004-TLHLJ,Sim,Homem,0,Nao,Nao,4,Sim,Nao,Fibra optica,...,Nao,Sim,Nao,Nao,Nao,Mensal,Sim,Eletronico,73.90,280.85
3,0011-IGKFF,Sim,Homem,1,Sim,Nao,13,Sim,Nao,Fibra optica,...,Sim,Sim,Nao,Sim,Sim,Mensal,Sim,Eletronico,98.00,1237.85
4,0013-EXCHZ,Sim,Mulher,1,Sim,Nao,3,Sim,Nao,Fibra optica,...,Nao,Nao,Sim,Sim,Nao,Mensal,Sim,Correspondencia,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,Nao,Mulher,0,Nao,Nao,13,Sim,Nao,DSL,...,Nao,Nao,Sim,Nao,Nao,Anual,Nao,Correspondencia,55.15,742.9
7263,9992-RRAMN,Sim,Homem,0,Sim,Nao,22,Sim,Sim,Fibra optica,...,Nao,Nao,Nao,Nao,Sim,Mensal,Sim,Eletronico,85.10,1873.7
7264,9992-UJOEL,Nao,Homem,0,Nao,Nao,2,Sim,Nao,DSL,...,Sim,Nao,Nao,Nao,Nao,Mensal,Sim,Correspondencia,50.30,92.75
7265,9993-LHIEB,Nao,Homem,0,Sim,Sim,67,Sim,Nao,DSL,...,Nao,Sim,Sim,Nao,Sim,Dois anos,Nao,Correspondencia,67.85,4627.65


In [None]:
# Resetando o Index
dados_clean.reset_index(drop = True, inplace = True)
dados_clean

Unnamed: 0,ID,Evasao,Genero,Senior,Casado(a),Dependentes,Posse,ServicoTelefonico,MultiplasLinhas,ServicodeInternet,...,BackupOnline,ProtecaodeDispositivo,SuporteTecnico,StreamingTV,StreamingFilmes,Contrato,CobrancasemPapel,MetododePagamento,CobrancasMensais,CobrancasTotais
0,0002-ORFBO,Nao,Mulher,0,Sim,Sim,9,Sim,Nao,DSL,...,Sim,Nao,Sim,Sim,Nao,Anual,Sim,Correspondencia,65.60,593.3
1,0003-MKNFE,Nao,Homem,0,Nao,Nao,9,Sim,Sim,DSL,...,Nao,Nao,Nao,Nao,Sim,Mensal,Nao,Correspondencia,59.90,542.4
2,0004-TLHLJ,Sim,Homem,0,Nao,Nao,4,Sim,Nao,Fibra optica,...,Nao,Sim,Nao,Nao,Nao,Mensal,Sim,Eletronico,73.90,280.85
3,0011-IGKFF,Sim,Homem,1,Sim,Nao,13,Sim,Nao,Fibra optica,...,Sim,Sim,Nao,Sim,Sim,Mensal,Sim,Eletronico,98.00,1237.85
4,0013-EXCHZ,Sim,Mulher,1,Sim,Nao,3,Sim,Nao,Fibra optica,...,Nao,Nao,Sim,Sim,Nao,Mensal,Sim,Correspondencia,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7038,9987-LUTYD,Nao,Mulher,0,Nao,Nao,13,Sim,Nao,DSL,...,Nao,Nao,Sim,Nao,Nao,Anual,Nao,Correspondencia,55.15,742.9
7039,9992-RRAMN,Sim,Homem,0,Sim,Nao,22,Sim,Sim,Fibra optica,...,Nao,Nao,Nao,Nao,Sim,Mensal,Sim,Eletronico,85.10,1873.7
7040,9992-UJOEL,Nao,Homem,0,Nao,Nao,2,Sim,Nao,DSL,...,Sim,Nao,Nao,Nao,Nao,Mensal,Sim,Correspondencia,50.30,92.75
7041,9993-LHIEB,Nao,Homem,0,Sim,Sim,67,Sim,Nao,DSL,...,Nao,Sim,Sim,Nao,Sim,Dois anos,Nao,Correspondencia,67.85,4627.65


In [None]:
# Verificando se a seleção foi realizada com êxito
dados_clean['Evasao'].value_counts()

Nao    5174
Sim    1869
Name: Evasao, dtype: int64

Verificamos que também há 11 valores em branco na coluna CobrancasTotais, contudo esses clientes ainda podem servir de algum valor para nossa análise. Vamos verificar o que ocorre com esta seleção específica.

In [None]:
# Seleciecionando os 11 casos especificados
dados_clean[dados_clean['CobrancasTotais'] == ' '][['Posse', 'CobrancasMensais', 'CobrancasTotais']]

Unnamed: 0,Posse,CobrancasMensais,CobrancasTotais
945,0,56.05,
1731,0,20.0,
1906,0,61.9,
2025,0,19.7,
2176,0,20.25,
2250,0,25.35,
2855,0,73.35,
3052,0,25.75,
3118,0,52.55,
4054,0,80.85,


Como observado, não são casos em que houve evasão, mas novos clientes os quais tiveram apenas uma cobrança. Isso é verificado pelo tempo de posse apresentado pelo cliente que consta como zero. Não devemos apagar estes dados, sendo assim devemos duplicar o valor do único mês cobrado para cobranças totais.

In [None]:
# Alterando os valores
sem_total = dados_clean[dados_clean['CobrancasTotais'] == ' '].index
dados_clean.loc[sem_total, 'CobrancasTotais'] = dados_clean.loc[sem_total, 'CobrancasMensais']

In [None]:
# Verificando se ainda temos valores em branco em CobrancasTotais
dados_clean[dados_clean['CobrancasTotais'] == ' '][['Posse', 'CobrancasMensais', 'CobrancasTotais']]

Unnamed: 0,Posse,CobrancasMensais,CobrancasTotais


In [None]:
# Verificando os clientes com tempo de posse igual a zero
dados_clean[dados_clean['Posse'] == 0][['Posse', 'CobrancasMensais', 'CobrancasTotais']]

Unnamed: 0,Posse,CobrancasMensais,CobrancasTotais
945,0,56.05,56.05
1731,0,20.0,20.0
1906,0,61.9,61.9
2025,0,19.7,19.7
2176,0,20.25,20.25
2250,0,25.35,25.35
2855,0,73.35,73.35
3052,0,25.75,25.75
3118,0,52.55,52.55
4054,0,80.85,80.85


In [None]:
dados_clean.to_csv('aluravoz_clean.csv', encoding = 'utf-8', index = False)