# Alura Voz

Para todas as empresa o fundamental é aumentar o seu número de clientes, por isso dizem que a propaganda é a alma do negócio, porém muitas vezes a empresa não se atenta a manter os clientes que já tem. Evitar os cancelamentos é tão importante quanto captar novos clientes. Sendo assim uma das métricas usadas para medir o nível de cancelamento de uma empresa é a taxa de Churn, essa taxa é medida sempre em um determinado período, sendo assim basta dividir a quantidade de clientes que cancelaram no período pela quantidade de clientes que havia iniciado neste período.

## $$ \text{Taxa de Churn} =  \frac{\text{Quantidade de cancelamento no Período}}{\text{Total de clientes no Período}}$$

Assim pode-se concluir que o aumento do faturamento está ligado diretamente a uma taxa baixa de Churn, uma taxa de Churn considerada boa deve ficar abaixo do 10%, claro que quanto menor melhor. 
Mas e como fazer esta taxa baixar ? Bem, para isso é preciso de um estudo mais detalhado dos clientes, observar como eles estão reagindo e tentar prever um perfil para os possíveis cancelamentos.
O banco da dados a seguir vem de uma API e tem seu formato Json, para isso então será utilizada algumas técnicas de organização dos dados para que se possa ter uma melhor ideia dos dados.

# Importação dos dados

In [4]:
import sys
sys.path.append('../')
from suporte.suportedata import visualizar, explorador_de_colunas_json,explorar_colunas


import pandas as pd

In [5]:
clientes = pd.read_json('../dados/Telco-Customer-Churn.json')

In [6]:
# configurações inicias
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_colwidth', None)

In [7]:
clientes

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Partner': 'Yes', 'Dependents': 'Yes', 'tenure': 9}","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': 'No', 'OnlineBackup': 'Yes', 'DeviceProtection': 'No', 'TechSupport': 'Yes', 'StreamingTV': 'Yes', 'StreamingMovies': 'No'}","{'Contract': 'One year', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Mailed check', 'Charges': {'Monthly': 65.6, 'Total': '593.3'}}"
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partner': 'No', 'Dependents': 'No', 'tenure': 9}","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': 'No', 'OnlineBackup': 'No', 'DeviceProtection': 'No', 'TechSupport': 'No', 'StreamingTV': 'No', 'StreamingMovies': 'Yes'}","{'Contract': 'Month-to-month', 'PaperlessBilling': 'No', 'PaymentMethod': 'Mailed check', 'Charges': {'Monthly': 59.9, 'Total': '542.4'}}"
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partner': 'No', 'Dependents': 'No', 'tenure': 4}","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecurity': 'No', 'OnlineBackup': 'No', 'DeviceProtection': 'Yes', 'TechSupport': 'No', 'StreamingTV': 'No', 'StreamingMovies': 'No'}","{'Contract': 'Month-to-month', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Electronic check', 'Charges': {'Monthly': 73.9, 'Total': '280.85'}}"
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partner': 'Yes', 'Dependents': 'No', 'tenure': 13}","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecurity': 'No', 'OnlineBackup': 'Yes', 'DeviceProtection': 'Yes', 'TechSupport': 'No', 'StreamingTV': 'Yes', 'StreamingMovies': 'Yes'}","{'Contract': 'Month-to-month', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Electronic check', 'Charges': {'Monthly': 98.0, 'Total': '1237.85'}}"
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Partner': 'Yes', 'Dependents': 'No', 'tenure': 3}","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecurity': 'No', 'OnlineBackup': 'No', 'DeviceProtection': 'No', 'TechSupport': 'Yes', 'StreamingTV': 'Yes', 'StreamingMovies': 'No'}","{'Contract': 'Month-to-month', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Mailed check', 'Charges': {'Monthly': 83.9, 'Total': '267.4'}}"
...,...,...,...,...,...,...
7262,9987-LUTYD,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Partner': 'No', 'Dependents': 'No', 'tenure': 13}","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': 'Yes', 'OnlineBackup': 'No', 'DeviceProtection': 'No', 'TechSupport': 'Yes', 'StreamingTV': 'No', 'StreamingMovies': 'No'}","{'Contract': 'One year', 'PaperlessBilling': 'No', 'PaymentMethod': 'Mailed check', 'Charges': {'Monthly': 55.15, 'Total': '742.9'}}"
7263,9992-RRAMN,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partner': 'Yes', 'Dependents': 'No', 'tenure': 22}","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecurity': 'No', 'OnlineBackup': 'No', 'DeviceProtection': 'No', 'TechSupport': 'No', 'StreamingTV': 'No', 'StreamingMovies': 'Yes'}","{'Contract': 'Month-to-month', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Electronic check', 'Charges': {'Monthly': 85.1, 'Total': '1873.7'}}"
7264,9992-UJOEL,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partner': 'No', 'Dependents': 'No', 'tenure': 2}","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': 'No', 'OnlineBackup': 'Yes', 'DeviceProtection': 'No', 'TechSupport': 'No', 'StreamingTV': 'No', 'StreamingMovies': 'No'}","{'Contract': 'Month-to-month', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Mailed check', 'Charges': {'Monthly': 50.3, 'Total': '92.75'}}"
7265,9993-LHIEB,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partner': 'Yes', 'Dependents': 'Yes', 'tenure': 67}","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': 'Yes', 'OnlineBackup': 'No', 'DeviceProtection': 'Yes', 'TechSupport': 'Yes', 'StreamingTV': 'No', 'StreamingMovies': 'Yes'}","{'Contract': 'Two year', 'PaperlessBilling': 'No', 'PaymentMethod': 'Mailed check', 'Charges': {'Monthly': 67.85, 'Total': '4627.65'}}"


É possível observar que cada coluna, no formato Json, trás uma grande quantidade de informações, sendo assim será feita uma exploração individual nos elementos da cada coluna.

# Analisando as Colunas Json individualmente

In [8]:
explorador_de_colunas_json(clientes)


Explorando a coluna: customer



{'gender': 'Female',
 'SeniorCitizen': 0,
 'Partner': 'Yes',
 'Dependents': 'Yes',
 'tenure': 9}


-----------------------------

Explorando a coluna: phone



{'PhoneService': 'Yes', 'MultipleLines': 'No'}


-----------------------------

Explorando a coluna: internet



{'InternetService': 'DSL',
 'OnlineSecurity': 'No',
 'OnlineBackup': 'Yes',
 'DeviceProtection': 'No',
 'TechSupport': 'Yes',
 'StreamingTV': 'Yes',
 'StreamingMovies': 'No'}


-----------------------------

Explorando a coluna: account



{'Contract': 'One year',
 'PaperlessBilling': 'Yes',
 'PaymentMethod': 'Mailed check',
 'Charges': {'Monthly': 65.6, 'Total': '593.3'}}


-----------------------------


Como agora é possível ver do que se trata cada coluna, elas passaram por um processo de normalização para que seja montado um novo **DataFrame** com as informações separadas em novas colunas.

# Normalização das Colunas

O processo de normalização das colunas as transformará em DataFrames que serão unidos posteriormente.

In [9]:
dados = pd.json_normalize(clientes['customer']) 
telefone = pd.json_normalize(clientes['phone']) 
internet = pd.json_normalize(clientes['internet']) 
conta = pd.json_normalize(clientes['account'])
lista = [dados, telefone, internet, conta]

In [10]:
clientes.drop(columns=['customer', 'phone', 'internet', 'account'], inplace=True)

In [11]:
visualizar(lista)

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3


Unnamed: 0,PhoneService,MultipleLines
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No


Unnamed: 0,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No


Unnamed: 0,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,One year,Yes,Mailed check,65.6,593.3
1,Month-to-month,No,Mailed check,59.9,542.4
2,Month-to-month,Yes,Electronic check,73.9,280.85
3,Month-to-month,Yes,Electronic check,98.0,1237.85
4,Month-to-month,Yes,Mailed check,83.9,267.4


# Junção

Fazendo a junção de todas as colunas, para que se tenha novamente todas as informações concentradas em uma única coluna. 

In [12]:
clientes = pd.concat([clientes, dados, telefone, internet, conta], axis=1)
clientes_backup = clientes.copy()

clientes.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


# Verificando os valores

Após a junção das colunas é preciso verificar os tipos de informações cada coluna trás e os seus conteúdos.

In [13]:
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


In [14]:
explorar_colunas(clientes)

-----
Coluna: customerID

0002-ORFBO    1
6614-VBEGU    1
6637-KYRCV    1
6635-MYYYZ    1
6635-CPNUN    1
             ..
3374-TTZTK    1
3374-PZLXD    1
3374-LXDEV    1
3373-YZZYM    1
9995-HOTOH    1
Name: customerID, Length: 7267, dtype: int64
-----
Coluna: Churn

No     5174
Yes    1869
        224
Name: Churn, dtype: int64
-----
Coluna: gender

Male      3675
Female    3592
Name: gender, dtype: int64
-----
Coluna: SeniorCitizen

0    6085
1    1182
Name: SeniorCitizen, dtype: int64
-----
Coluna: Partner

No     3749
Yes    3518
Name: Partner, dtype: int64
-----
Coluna: Dependents

No     5086
Yes    2181
Name: Dependents, dtype: int64
-----
Coluna: tenure

1     634
72    369
2     246
3     207
4     185
     ... 
38     60
39     59
44     54
36     50
0      11
Name: tenure, Length: 73, dtype: int64
-----
Coluna: PhoneService

Yes    6560
No      707
Name: PhoneService, dtype: int64
-----
Coluna: MultipleLines

No                  3495
Yes                 3065
No phone service 

Algumas inconsistências são observadas, como por exemplo na coluna `Churn`, ela trás 224 entradas sem preenchimento. Outra inconsistência observada é na coluna de `Charges.Total`, quando visualizamos os tipos de elementos da coluna observamos que nos foi retornado que é uma coluna na qual se trata de elementos do tipo `object`, mas ao analisarmos os elementos que da mesma observamos que se trata de números e que então ela deveria está no tipo `float`.

# Tradução

In [12]:
colunas = {
    'gender' : 'Genero',
    'SeniorCitizen' : 'Maior65anos',
    'Partner' : 'Conjuge',
    'Dependents' : 'Dependentes',
    'tenure' : 'MesesDeContrato',
    'PhoneService' : 'ServicoTelefonico',
    'MultipleLines' : 'MultiplasLinhas',
    'InternetService': 'ServicoInternet',
    'OnlineSecurity' : 'SeguroOnline',
    'DeviceProtection' : 'ProtecaoDoDispositivo',
    'TechSupport' : 'SuporteTecnico',
    'StreamingTV' : 'TVaCabo',
    'StreamingMovies' : 'StreamingDeFilmes',
    'Contract' : 'TipoDeContrato',
    'PaperlessBilling' : 'PagamentoOnline',
    'PaymentMethod' : 'FormaDePagamento',
    'Charges.Monthly' : 'GastoMensal',
    'Charges.Total' : 'GastoTotal'
}

valores = {
    'Female' : 'Mulher',
    'Male' : 'Homem',
    'Yes' : 'Sim',
    'No' : 'Não',
    'No phone service' : 'SemServicoTelefonico',
    'No internet service' : 'SemServicoInternet',
    'Fiber optic' :'Fibra Optica',
    'One year' : 'Um Ano',
    'Two year' : 'Dois Anos',
    'Month-to-month' : 'Mensal',
    'Mailed check' : 'Envio de Cheque',
    'Electronic check' : 'Cheque Eletronico',
    'Credit card (automatic)' : 'Cartao Credito',
    'Bank transfer (automatic)' : 'Transferencia Bancaria',
}

In [13]:
clientes.rename(columns=colunas, inplace=True)
clientes.replace(to_replace=valores, inplace=True)
clientes.head()

Unnamed: 0,customerID,Churn,Genero,Maior65anos,Conjuge,Dependentes,MesesDeContrato,ServicoTelefonico,MultiplasLinhas,ServicoInternet,SeguroOnline,OnlineBackup,ProtecaoDoDispositivo,SuporteTecnico,TVaCabo,StreamingDeFilmes,TipoDeContrato,PagamentoOnline,FormaDePagamento,GastoMensal,GastoTotal
0,0002-ORFBO,Não,Mulher,0,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Um Ano,Sim,Envio de Cheque,65.6,593.3
1,0003-MKNFE,Não,Homem,0,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mensal,Não,Envio de Cheque,59.9,542.4
2,0004-TLHLJ,Sim,Homem,0,Não,Não,4,Sim,Não,Fibra Optica,Não,Não,Sim,Não,Não,Não,Mensal,Sim,Cheque Eletronico,73.9,280.85
3,0011-IGKFF,Sim,Homem,1,Sim,Não,13,Sim,Não,Fibra Optica,Não,Sim,Sim,Não,Sim,Sim,Mensal,Sim,Cheque Eletronico,98.0,1237.85
4,0013-EXCHZ,Sim,Mulher,1,Sim,Não,3,Sim,Não,Fibra Optica,Não,Não,Não,Sim,Sim,Não,Mensal,Sim,Envio de Cheque,83.9,267.4


In [14]:
for coluna in clientes.columns:
    print('-----')
    print(f'Coluna: {clientes[coluna].name}')
    print()
    print(clientes[coluna].value_counts())

-----
Coluna: customerID

0002-ORFBO    1
6614-VBEGU    1
6637-KYRCV    1
6635-MYYYZ    1
6635-CPNUN    1
             ..
3374-TTZTK    1
3374-PZLXD    1
3374-LXDEV    1
3373-YZZYM    1
9995-HOTOH    1
Name: customerID, Length: 7267, dtype: int64
-----
Coluna: Churn

Não    5174
Sim    1869
        224
Name: Churn, dtype: int64
-----
Coluna: Genero

Homem     3675
Mulher    3592
Name: Genero, dtype: int64
-----
Coluna: Maior65anos

0    6085
1    1182
Name: Maior65anos, dtype: int64
-----
Coluna: Conjuge

Não    3749
Sim    3518
Name: Conjuge, dtype: int64
-----
Coluna: Dependentes

Não    5086
Sim    2181
Name: Dependentes, dtype: int64
-----
Coluna: MesesDeContrato

1     634
72    369
2     246
3     207
4     185
     ... 
38     60
39     59
44     54
36     50
0      11
Name: MesesDeContrato, Length: 73, dtype: int64
-----
Coluna: ServicoTelefonico

Sim    6560
Não     707
Name: ServicoTelefonico, dtype: int64
-----
Coluna: MultiplasLinhas

Não                     3495
Sim       

# Resolvendo Inconsistências

## Corrigindo a inconsistência da coluna `Churn`.

In [15]:
selecao = clientes['Churn'] == ''
clientes[selecao]

Unnamed: 0,customerID,Churn,Genero,Maior65anos,Conjuge,Dependentes,MesesDeContrato,ServicoTelefonico,MultiplasLinhas,ServicoInternet,SeguroOnline,OnlineBackup,ProtecaoDoDispositivo,SuporteTecnico,TVaCabo,StreamingDeFilmes,TipoDeContrato,PagamentoOnline,FormaDePagamento,GastoMensal,GastoTotal
30,0047-ZHDTW,,Mulher,0,Não,Não,11,Sim,Sim,Fibra Optica,Sim,Não,Não,Não,Não,Não,Mensal,Sim,Transferencia Bancaria,79.00,929.3
75,0120-YZLQA,,Homem,0,Não,Não,71,Sim,Não,Não,SemServicoInternet,SemServicoInternet,SemServicoInternet,SemServicoInternet,SemServicoInternet,SemServicoInternet,Dois Anos,Sim,Cartao Credito,19.90,1355.1
96,0154-QYHJU,,Homem,0,Não,Não,29,Sim,Não,DSL,Sim,Sim,Não,Sim,Não,Não,Um Ano,Sim,Cheque Eletronico,58.75,1696.2
98,0162-RZGMZ,,Mulher,1,Não,Não,5,Sim,Não,DSL,Sim,Sim,Não,Sim,Não,Não,Mensal,Não,Cartao Credito,59.90,287.85
175,0274-VVQOQ,,Homem,1,Sim,Não,65,Sim,Sim,Fibra Optica,Não,Sim,Sim,Não,Sim,Sim,Um Ano,Sim,Transferencia Bancaria,103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Mulher,0,Não,Não,14,Sim,Sim,DSL,Não,Sim,Não,Não,Não,Não,Um Ano,Sim,Envio de Cheque,54.25,773.2
7180,9872-RZQQB,,Mulher,0,Sim,Não,49,Não,SemServicoTelefonico,DSL,Sim,Não,Não,Não,Sim,Não,Mensal,Não,Transferencia Bancaria,40.65,2070.75
7211,9920-GNDMB,,Homem,0,Não,Não,9,Sim,Sim,Fibra Optica,Não,Não,Não,Não,Não,Não,Mensal,Sim,Cheque Eletronico,76.25,684.85
7239,9955-RVWSC,,Mulher,0,Sim,Sim,67,Sim,Não,Não,SemServicoInternet,SemServicoInternet,SemServicoInternet,SemServicoInternet,SemServicoInternet,SemServicoInternet,Dois Anos,Sim,Transferencia Bancaria,19.25,1372.9


Como é possível ver existem algumas entrada sem a especificação do valor de `Churn`, como essa é a principal métrica a ser estuda a falta dela pode prejudicar nas análises que serão feitas, por conta disso esses clientes que possuem o valor de `Churn` vazio serão excluídos da nossa tabela.

In [16]:
clientes = clientes[~selecao]
clientes.reset_index(inplace=True, drop=True)
print(f'Após a exclusão se passou a ter {clientes.shape[0]} clientes na nossa tabela')

Após a exclusão se passou a ter 7043 clientes na nossa tabela


In [17]:
clientes

Unnamed: 0,customerID,Churn,Genero,Maior65anos,Conjuge,Dependentes,MesesDeContrato,ServicoTelefonico,MultiplasLinhas,ServicoInternet,SeguroOnline,OnlineBackup,ProtecaoDoDispositivo,SuporteTecnico,TVaCabo,StreamingDeFilmes,TipoDeContrato,PagamentoOnline,FormaDePagamento,GastoMensal,GastoTotal
0,0002-ORFBO,Não,Mulher,0,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Um Ano,Sim,Envio de Cheque,65.60,593.3
1,0003-MKNFE,Não,Homem,0,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mensal,Não,Envio de Cheque,59.90,542.4
2,0004-TLHLJ,Sim,Homem,0,Não,Não,4,Sim,Não,Fibra Optica,Não,Não,Sim,Não,Não,Não,Mensal,Sim,Cheque Eletronico,73.90,280.85
3,0011-IGKFF,Sim,Homem,1,Sim,Não,13,Sim,Não,Fibra Optica,Não,Sim,Sim,Não,Sim,Sim,Mensal,Sim,Cheque Eletronico,98.00,1237.85
4,0013-EXCHZ,Sim,Mulher,1,Sim,Não,3,Sim,Não,Fibra Optica,Não,Não,Não,Sim,Sim,Não,Mensal,Sim,Envio de Cheque,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7038,9987-LUTYD,Não,Mulher,0,Não,Não,13,Sim,Não,DSL,Sim,Não,Não,Sim,Não,Não,Um Ano,Não,Envio de Cheque,55.15,742.9
7039,9992-RRAMN,Sim,Homem,0,Sim,Não,22,Sim,Sim,Fibra Optica,Não,Não,Não,Não,Não,Sim,Mensal,Sim,Cheque Eletronico,85.10,1873.7
7040,9992-UJOEL,Não,Homem,0,Não,Não,2,Sim,Não,DSL,Não,Sim,Não,Não,Não,Não,Mensal,Sim,Envio de Cheque,50.30,92.75
7041,9993-LHIEB,Não,Homem,0,Sim,Sim,67,Sim,Não,DSL,Sim,Não,Sim,Sim,Não,Sim,Dois Anos,Não,Envio de Cheque,67.85,4627.65


## Corrigindo a inconsistência na colunas `GastoTotal`

Como dito anteriormente a coluna `GastoTotal` é outra coluna que trás inconsistências. Aqui é preciso trocar o tipo de valores para `float`.

In [18]:
clientes['GastoTotal'].value_counts()

           11
20.2       11
19.75       9
19.9        8
20.05       8
           ..
2387.75     1
6302.8      1
2058.5      1
829.55      1
3707.6      1
Name: GastoTotal, Length: 6531, dtype: int64

Uma outra inconsistência observada nessa coluna é que existem valores 11 valores que não tem seu preenchimento definido, por isso vamos analisa-los com mais meticulosidade.

In [19]:
clientes[clientes['GastoTotal'] == ' '][['Churn', 'MesesDeContrato','ServicoTelefonico','ServicoInternet','GastoMensal' ,'GastoTotal']]

Unnamed: 0,Churn,MesesDeContrato,ServicoTelefonico,ServicoInternet,GastoMensal,GastoTotal
945,Não,0,Não,DSL,56.05,
1731,Não,0,Sim,Não,20.0,
1906,Não,0,Sim,DSL,61.9,
2025,Não,0,Sim,Não,19.7,
2176,Não,0,Sim,Não,20.25,
2250,Não,0,Sim,Não,25.35,
2855,Não,0,Sim,DSL,73.35,
3052,Não,0,Sim,Não,25.75,
3118,Não,0,Não,DSL,52.55,
4054,Não,0,Sim,DSL,80.85,


É possível ver que esses 11 clientes são clientes novos, por isso não tem valor dos gastos totais ainda, porém como eles iram completar ainda um mês de seus contratos e irão efetuar o pegamento deste mês então o mais correto é repetir as os valores gasto no mês para o seu valor de gastos total.
Porém antes de preencher estes valores é melhor resolver o problema do tipo de dados primeiro.

In [20]:
clientes['GastoTotal'] = pd.to_numeric(clientes['GastoTotal'], errors='coerce')

In [21]:
clientes['GastoTotal'].dtype

dtype('float64')

Agora que os dados estão como `float64`, ou seja, são valores numéricos, podemos fazer com que os valores da coluna `GastoTotal` sejam preenchidos com os valores da coluna `GastoMensal`.

In [22]:
clientes['GastoTotal'].fillna(value = clientes['GastoMensal'], inplace=True)
clientes[clientes['MesesDeContrato'] == 0][['MesesDeContrato', 'GastoMensal', 'GastoTotal']]

Unnamed: 0,MesesDeContrato,GastoMensal,GastoTotal
945,0,56.05,56.05
1731,0,20.0,20.0
1906,0,61.9,61.9
2025,0,19.7,19.7
2176,0,20.25,20.25
2250,0,25.35,25.35
2855,0,73.35,73.35
3052,0,25.75,25.75
3118,0,52.55,52.55
4054,0,80.85,80.85


# Criando a variavel Gasto diário

In [23]:
clientes['GastoDiario'] = (clientes['GastoMensal'] / 30).round(2)
clientes.head()

Unnamed: 0,customerID,Churn,Genero,Maior65anos,Conjuge,Dependentes,MesesDeContrato,ServicoTelefonico,MultiplasLinhas,ServicoInternet,SeguroOnline,OnlineBackup,ProtecaoDoDispositivo,SuporteTecnico,TVaCabo,StreamingDeFilmes,TipoDeContrato,PagamentoOnline,FormaDePagamento,GastoMensal,GastoTotal,GastoDiario
0,0002-ORFBO,Não,Mulher,0,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Um Ano,Sim,Envio de Cheque,65.6,593.3,2.19
1,0003-MKNFE,Não,Homem,0,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mensal,Não,Envio de Cheque,59.9,542.4,2.0
2,0004-TLHLJ,Sim,Homem,0,Não,Não,4,Sim,Não,Fibra Optica,Não,Não,Sim,Não,Não,Não,Mensal,Sim,Cheque Eletronico,73.9,280.85,2.46
3,0011-IGKFF,Sim,Homem,1,Sim,Não,13,Sim,Não,Fibra Optica,Não,Sim,Sim,Não,Sim,Sim,Mensal,Sim,Cheque Eletronico,98.0,1237.85,3.27
4,0013-EXCHZ,Sim,Mulher,1,Sim,Não,3,Sim,Não,Fibra Optica,Não,Não,Não,Sim,Sim,Não,Mensal,Sim,Envio de Cheque,83.9,267.4,2.8


# Importando banco de dados após a limpeza

In [24]:
clientes.to_json('../dados/Telco-Customer-Churn-limpeza.json')