<a href="https://colab.research.google.com/github/camilamaestrelli/Telco-Customer-Churn/blob/main/01_DataCleaning_TelcoCustomerChurn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color=blue size=10> Telco Customer Churn</font>

# <b><font color=BLUE size=12> Evasão de Clientes da Telco</b>

***
**Author**: [Camila Maestrelli](https://www.linkedin.com/in/camila-maestrelli-leobons/)
***

## <b><font color=green> Etapas do Projeto:


### <font color=green> `1. Definição do Problema`
### <font color=green> `2. Importação dos dados`
### <font color=green> `3. Entendimento dos dados`
### <font color=green> `4. Limpeza dos dados (esse notebook vai até aqui)`

### 5. EDA 

### 6. Pré-processamento
### 7. Algoritmo e criação do modelo

### 8. Interpretação do resultado e avaliação do modelo


## <font color=green> <b>1. Definição do problema </b>

#### <b> Objetivo: </b>

* reduzir a Taxa de Evasão de Clientes, conhecido como Churn Rate. 
<br></br>

Basicamente, o Churn Rate indica o quanto a empresa perdeu de receita ou clientes em um período de tempo.

Passo inicial: identificação de clientes que teriam uma maior chance de deixar a empresa. 

## <font color=green> <b>2. Importação dos dados

In [276]:
import numpy as np
import pandas as pd
print('Versão numpy: ', np.__version__)
print('Versão pandas: ', pd.__version__)


Versão numpy:  1.21.6
Versão pandas:  1.3.5


In [277]:
url = 'https://raw.githubusercontent.com/camilamaestrelli/Telco-Customer-Churn/main/telco_customer_churn.json'

In [278]:
df = pd.read_json(url)
dados = df.copy()
dados.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


## <font color=green> <b>3. Entendimento dos dados


In [279]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 397.4+ KB


***
* customerID - ID do cliente
* Churn - se o cliente deixou a empresa ou não
* curtomer - características do cliente
* phone - informações do telefone do cliente
* internet - informações da internet do cliente
* account - informações da conta/contrato do cliente
***

Nota-se que as colunas customer, phone, internet e account estão com um dicionário e precisamos transformá-las em múltiplas colunas.

Para isso, será usada a função do pandas json_normalize

In [280]:
dados.customer[0]

{'Dependents': 'Yes',
 'Partner': 'Yes',
 'SeniorCitizen': 0,
 'gender': 'Female',
 'tenure': 9}

In [281]:
dados_customer = pd.json_normalize(dados.customer)
dados_customer

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3
...,...,...,...,...,...
7262,Female,0,No,No,13
7263,Male,0,Yes,No,22
7264,Male,0,No,No,2
7265,Male,0,Yes,Yes,67


### Json normalize

In [282]:
colunas = ['customer', 'phone', 'internet', 'account']

dados = dados.join([pd.json_normalize(dados[coluna]) for coluna in colunas]
                   ).drop(columns=colunas)
dados.head()


Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [283]:
dados.customerID.nunique()

7267

In [284]:
linha, coluna = dados.shape
print(f'O dataset contém informações de {linha} clientes e {coluna} variáveis.')

O dataset contém informações de 7267 clientes e 21 variáveis.


In [285]:
dados.columns

Index(['customerID', 'Churn', 'gender', 'SeniorCitizen', 'Partner',
       'Dependents', 'tenure', 'PhoneService', 'MultipleLines',
       'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
       'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract',
       'PaperlessBilling', 'PaymentMethod', 'Charges.Monthly',
       'Charges.Total'],
      dtype='object')

In [286]:
pd.options.display.max_columns = 21

In [287]:
dados.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


### Renomeando colunas

* Dicionário de dados

|Coluna|Coluna Renomeada| Descrição|
|---|---|---|
|customerID|id_cliente|número de identificação único de cada cliente|
|Churn|churn|se o cliente deixou ou não a empresa|
|gender|genero|gênero (masculino e feminino)|
|SeniorCitizen|idoso|informação sobre um cliente ter ou não idade igual ou maior que 65 anos|
|Partner|parceirx| se o cliente possui ou não um parceiro ou parceira|
|Dependents|dependentes|se o cliente possui ou não dependentes|
|tenure|tempo_permanencia|meses de contrato do cliente|
|PhoneService|servico_telefone|assinatura de serviço telefônico|
|MultipleLines|multiplas_linhas|assisnatura de mais de uma linha de telefone|
|InternetService| servico_internet|assinatura de um provedor internet|
|OnlineSecurity|seguranca_online|assinatura adicional de segurança online|
|OnlineBackup|backup_online|assinatura adicional de backup online|
|DeviceProtection|protecao_dispositivo|assinatura adicional de proteção no dispositivo|
|TechSupport|suporte_tecnico|assinatura adicional de suporte técnico, menos tempo de espera|
|StreamingTV|assinatura_tv|assinatura de TV a cabo|
|StreamingMovies|assinatura_filmes|assinatura de streaming de filmes|
|Contract|contrato|tipo de contrato|
|PaperlessBilling|fatura_digital|se o cliente prefere receber online a fatura|
|PaymentMethod|metodo_pagamento|forma de pagamento|
|Charges.Monthly|mensalidade|total de todos os serviços do cliente por mês|
|Charges.Total|cobrancas_total|total gasto pelo cliente|



In [288]:
colunas_renomeadas = {'customerID':'id_cliente', 
                      'Churn':'churn', 
                      'gender':'genero', 
                      'SeniorCitizen':'idoso', 
                      'Partner':'parceirx', 
                      'Dependents':'dependentes', 
                      'tenure':'tempo_permanencia',
                      'PhoneService':'servico_telefone', 
                      'MultipleLines':'multiplas_linhas', 
                      'InternetService':'servico_internet', 
                      'OnlineSecurity':'seguranca_online', 
                      'OnlineBackup':'backup_online', 
                      'DeviceProtection': 'protecao_dispositivo', 
                      'TechSupport':'suporte_tecnico', 
                      'StreamingTV':'assinatura_tv', 
                      'StreamingMovies':'assinatura_filmes', 
                      'Contract':'contrato', 
                      'PaperlessBilling':'fatura_digital', 
                      'PaymentMethod':'metodo_pagamento',
                      'Charges.Monthly':'mensalidade', 
                      'Charges.Total':'cobrancas_total'}

In [289]:
dados.rename(columns=colunas_renomeadas, inplace=True)

In [290]:
dados.head()

Unnamed: 0,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


## <font color=green> <b>4. Limpeza dos dados
 

In [291]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id_cliente            7267 non-null   object 
 1   churn                 7267 non-null   object 
 2   genero                7267 non-null   object 
 3   idoso                 7267 non-null   int64  
 4   parceirx              7267 non-null   object 
 5   dependentes           7267 non-null   object 
 6   tempo_permanencia     7267 non-null   int64  
 7   servico_telefone      7267 non-null   object 
 8   multiplas_linhas      7267 non-null   object 
 9   servico_internet      7267 non-null   object 
 10  seguranca_online      7267 non-null   object 
 11  backup_online         7267 non-null   object 
 12  protecao_dispositivo  7267 non-null   object 
 13  suporte_tecnico       7267 non-null   object 
 14  assinatura_tv         7267 non-null   object 
 15  assinatura_filmes    

### Vamos analisar cada variável para procurar por inconsistências nos dados

#### `id_cliente`

In [292]:
dados.id_cliente.nunique()

7267

#### `churn`

* Note que existem clientes que não tem a informação se parou de assinar o serviço ou não. Como o objetivo deste projeto é analisar o churn, estes clientes cujo churn não foi identificado serão excluídos do dataset.

In [293]:
dados.churn.unique()

array(['No', 'Yes', ''], dtype=object)

In [294]:
dados.loc[dados.churn == '']

Unnamed: 0,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total
30,0047-ZHDTW,,Female,0,No,No,11,Yes,Yes,Fiber optic,Yes,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),79.00,929.3
75,0120-YZLQA,,Male,0,No,No,71,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.90,1355.1
96,0154-QYHJU,,Male,0,No,No,29,Yes,No,DSL,Yes,Yes,No,Yes,No,No,One year,Yes,Electronic check,58.75,1696.2
98,0162-RZGMZ,,Female,1,No,No,5,Yes,No,DSL,Yes,Yes,No,Yes,No,No,Month-to-month,No,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,Yes,No,65,Yes,Yes,Fiber optic,No,Yes,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,No,No,14,Yes,Yes,DSL,No,Yes,No,No,No,No,One year,Yes,Mailed check,54.25,773.2
7180,9872-RZQQB,,Female,0,Yes,No,49,No,No phone service,DSL,Yes,No,No,No,Yes,No,Month-to-month,No,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,No,No,9,Yes,Yes,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,Yes,Yes,67,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Bank transfer (automatic),19.25,1372.9


In [297]:
dados = dados[~(dados['churn'] == '')]
dados.reset_index(inplace=True)
dados.churn.unique()

array(['No', 'Yes'], dtype=object)

In [299]:
dados.churn.replace('No', 'Não', inplace = True)
dados.churn.replace('Yes', 'Sim', inplace = True)
dados.churn.unique()

array(['Não', 'Sim'], dtype=object)

#### `genero`

In [300]:
dados.genero.unique()


array(['Female', 'Male'], dtype=object)

In [301]:
dados.genero = dados.genero.map({'Female': 'Feminino',
                                 'Male': 'Masculino'})
dados.genero.unique()

array(['Feminino', 'Masculino'], dtype=object)

#### `idoso`

In [302]:
dados.idoso.unique()

array([0, 1])

#### `parceirx`

In [303]:
dados.parceirx.unique()

array(['Yes', 'No'], dtype=object)

In [304]:
dados.parceirx = dados.parceirx.map({'Yes': 1,
                                     'No': 0})
dados.parceirx.unique()

array([1, 0])

#### `dependentes`

In [305]:
dados.dependentes.unique()

array(['Yes', 'No'], dtype=object)

In [306]:
dados.dependentes = dados.dependentes.map({'Yes': 1,
                                           'No': 0})
dados.dependentes.unique()

array([1, 0])

#### `tempo_permanencia`

In [307]:
dados.tempo_permanencia.unique()

array([ 9,  4, 13,  3, 71, 63,  7, 65, 54, 72,  5, 56, 34,  1, 45, 50, 23,
       55, 26, 69, 37, 49, 66, 67, 20, 43, 59, 12, 27,  2, 25, 29, 14, 35,
       64, 39, 40, 11,  6, 30, 70, 57, 58, 16, 32, 33, 10, 21, 61, 15, 44,
       22, 24, 19, 47, 62, 46, 52,  8, 60, 48, 28, 41, 53, 68, 31, 36, 17,
       18, 51, 38, 42,  0])

#### `servico_telefone`

In [308]:
dados.servico_telefone.unique()

array(['Yes', 'No'], dtype=object)

In [309]:
dados.servico_telefone = dados.servico_telefone.map({'Yes': 1,
                                                     'No': 0})

#### `multiplas_linhas`

In [310]:
dados.multiplas_linhas.unique()

array(['No', 'Yes', 'No phone service'], dtype=object)

In [311]:
dados.multiplas_linhas = dados.multiplas_linhas.map({'Yes': 'Sim',
                                                     'No': 'Não',
                                                     'No phone service': 'Sem telefone'})

#### `servico_internet`

In [312]:
dados.servico_internet.unique()

array(['DSL', 'Fiber optic', 'No'], dtype=object)

In [313]:
dados.servico_internet.replace('No', 'Não', inplace = True)
dados.servico_internet.replace('Fiber optic', 'Fibra', inplace = True)
dados.servico_internet.unique()

array(['DSL', 'Fibra', 'Não'], dtype=object)

#### `seguranca_online`

In [314]:
dados.seguranca_online.unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

In [315]:
dados.seguranca_online = dados.seguranca_online.map({'Yes': 'Sim',
                                                     'No': 'Não',
                                                     'No internet service': 'Sem internet'})
dados.seguranca_online.unique()

array(['Não', 'Sim', 'Sem internet'], dtype=object)

#### `backup_online`

In [316]:
dados.backup_online.unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

In [317]:
dados.backup_online = dados.backup_online.map({'Yes': 'Sim',
                                               'No': 'Não',
                                               'No internet service': 'Sem internet'})
dados.backup_online.unique()
                                               

array(['Sim', 'Não', 'Sem internet'], dtype=object)

#### `protecao_dispositivo`

In [318]:
dados.protecao_dispositivo.unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

In [319]:
dados.protecao_dispositivo = dados.protecao_dispositivo.map({'Yes': 'Sim',
                                                             'No': 'Não',
                                                             'No internet service': 'Sem internet'})
dados.protecao_dispositivo.unique()

array(['Não', 'Sim', 'Sem internet'], dtype=object)

#### `suporte_tecnico`

In [320]:
dados.suporte_tecnico.unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

In [321]:
dados.suporte_tecnico = dados.suporte_tecnico.map({'Yes': 'Sim',
                                                   'No': 'Não',
                                                   'No internet service': 'Sem internet'})
dados.suporte_tecnico.unique()

array(['Sim', 'Não', 'Sem internet'], dtype=object)

#### `assinatura_tv`

In [322]:
dados.assinatura_tv.unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

In [323]:
dados.assinatura_tv = dados.assinatura_tv.map({'Yes': 'Sim',
                                               'No': 'Não',
                                               'No internet service': 'Sem internet'})
dados.assinatura_tv.unique()

array(['Sim', 'Não', 'Sem internet'], dtype=object)

#### `assinatura_filmes`

In [324]:
dados.assinatura_filmes.unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

In [325]:
dados.assinatura_filmes = dados.assinatura_filmes.map({'Yes': 'Sim',
                                                       'No': 'Não',
                                                       'No internet service': 'Sem internet'})
dados.assinatura_filmes.unique()
                                                       

array(['Não', 'Sim', 'Sem internet'], dtype=object)

#### `contrato`

In [326]:
dados.contrato.unique()

array(['One year', 'Month-to-month', 'Two year'], dtype=object)

In [327]:
dados.contrato = dados.contrato.map({'One year': 'Anual',
                                     'Month-to-month': 'Mensal',
                                     'Two year': 'Bianual'})
dados.contrato.unique()

array(['Anual', 'Mensal', 'Bianual'], dtype=object)

#### `fatura_digital`

In [328]:
dados.fatura_digital.unique()

array(['Yes', 'No'], dtype=object)

In [329]:
dados.fatura_digital = dados.fatura_digital.map({'Yes': 'Sim',
                                                 'No': 'Não'})
dados.fatura_digital.unique()

array(['Sim', 'Não'], dtype=object)

#### `metodo_pagamento`

In [330]:
dados.metodo_pagamento.unique()

array(['Mailed check', 'Electronic check', 'Credit card (automatic)',
       'Bank transfer (automatic)'], dtype=object)

In [331]:
dados.metodo_pagamento = dados.metodo_pagamento.map({'Mailed check': 'Cheque',
                                                     'Electronic check': 'Cheque Eletrônico',
                                                     'Credit card (automatic)': 'cartão de crédito (automático)',
                                                     'Bank transfer (automatic)': 'transferência bancária (automático)'})
dados.metodo_pagamento.unique()

array(['Cheque', 'Cheque Eletrônico', 'cartão de crédito (automático)',
       'transferência bancária (automático)'], dtype=object)

#### `mensalidade`

In [332]:
dados.mensalidade.unique()

array([65.6 , 59.9 , 73.9 , ..., 91.75, 68.8 , 67.85])

#### `cobrancas_total`

In [333]:
dados.cobrancas_total.unique()

array(['593.3', '542.4', '280.85', ..., '742.9', '4627.65', '3707.6'],
      dtype=object)

* Note que por algum motivo a coluna cobrancas_total está como tipo object e não número. Isso será investigado

In [334]:
dados['cobrancas_total'].value_counts()

           11
20.2       11
19.75       9
19.9        8
20.05       8
           ..
2387.75     1
6302.8      1
2058.5      1
829.55      1
3707.6      1
Name: cobrancas_total, Length: 6531, dtype: int64

In [335]:
dados['cobrancas_total'] = pd.to_numeric(dados['cobrancas_total'])
dados['cobrancas_total'].dtype()

ValueError: ignored

Existe um espaço na posição 975. Este será retirado para a transformação em numérico

In [336]:
dados['cobrancas_total'] = dados['cobrancas_total'].apply(lambda x: x.strip())

In [337]:
dados['cobrancas_total'] = pd.to_numeric(dados['cobrancas_total'])

In [338]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   index                 7043 non-null   int64  
 1   id_cliente            7043 non-null   object 
 2   churn                 7043 non-null   object 
 3   genero                7043 non-null   object 
 4   idoso                 7043 non-null   int64  
 5   parceirx              7043 non-null   int64  
 6   dependentes           7043 non-null   int64  
 7   tempo_permanencia     7043 non-null   int64  
 8   servico_telefone      7043 non-null   int64  
 9   multiplas_linhas      7043 non-null   object 
 10  servico_internet      7043 non-null   object 
 11  seguranca_online      7043 non-null   object 
 12  backup_online         7043 non-null   object 
 13  protecao_dispositivo  7043 non-null   object 
 14  suporte_tecnico       7043 non-null   object 
 15  assinatura_tv        

Ainda existem os valores nulos (aqueles com " ") a serem tratados nessa coluna

In [339]:
dados.loc[dados['cobrancas_total'].isna()]

Unnamed: 0,index,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,...,backup_online,protecao_dispositivo,suporte_tecnico,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total
945,975,1371-DWPAZ,Não,Feminino,0,1,1,0,0,Sem telefone,...,Sim,Sim,Sim,Sim,Não,Bianual,Não,cartão de crédito (automático),56.05,
1731,1775,2520-SGTTA,Não,Feminino,0,1,1,0,1,Não,...,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,20.0,
1906,1955,2775-SEFEE,Não,Masculino,0,0,1,0,1,Sim,...,Sim,Não,Sim,Não,Não,Bianual,Sim,transferência bancária (automático),61.9,
2025,2075,2923-ARZLG,Não,Masculino,0,1,1,0,1,Não,...,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Anual,Sim,Cheque,19.7,
2176,2232,3115-CZMZD,Não,Masculino,0,0,1,0,1,Não,...,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,20.25,
2250,2308,3213-VVOLG,Não,Masculino,0,1,1,0,1,Sim,...,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,25.35,
2855,2930,4075-WKNIU,Não,Feminino,0,1,1,0,1,Sim,...,Sim,Sim,Sim,Sim,Não,Bianual,Não,Cheque,73.35,
3052,3134,4367-NUYAO,Não,Masculino,0,1,1,0,1,Sim,...,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,25.75,
3118,3203,4472-LVYGI,Não,Feminino,0,1,1,0,0,Sem telefone,...,Não,Sim,Sim,Sim,Não,Bianual,Sim,transferência bancária (automático),52.55,
4054,4169,5709-LVOEQ,Não,Feminino,0,1,1,0,1,Não,...,Sim,Sim,Não,Sim,Sim,Bianual,Não,Cheque,80.85,


In [340]:
dados.loc[dados['tempo_permanencia'] == 0].shape

(11, 22)

In [341]:
dados.loc[dados['cobrancas_total'] == 0]

Unnamed: 0,index,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,...,backup_online,protecao_dispositivo,suporte_tecnico,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total


* Nota-se que os valores na coluna cobrancas_total estão nulos quando tempo_permanencia = 0, ou seja, visto que o cliente ainda não tem 1 mês de contrato para considerar no gasto total dele.
* Vamos preencher os vazios com o valor da mensalidade pois este será o valor correspondente ao total nesse caso

In [344]:
indices = dados.loc[dados['tempo_permanencia'] == 0].index
indices

Int64Index([945, 1731, 1906, 2025, 2176, 2250, 2855, 3052, 3118, 4054, 5433], dtype='int64')

In [347]:
dados.loc[indices, 'cobrancas_total'] = dados.loc[indices, 'mensalidade'] 
dados.loc[indices, ['cobrancas_total', 'mensalidade']]

Unnamed: 0,cobrancas_total,mensalidade
945,56.05,56.05
1731,20.0,20.0
1906,61.9,61.9
2025,19.7,19.7
2176,20.25,20.25
2250,25.35,25.35
2855,73.35,73.35
3052,25.75,25.75
3118,52.55,52.55
4054,80.85,80.85


#### Observando se há diferença entre a coluna cobranças_total e mensalidade * tempo_permanencia

In [348]:
dados['verificacao_cobrancas_total'] = dados.mensalidade * dados.tempo_permanencia
dados['dif_cobrancas_total'] = dados.cobrancas_total - dados['verificacao_cobrancas_total']
dados.head()

Unnamed: 0,index,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,...,suporte_tecnico,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total,verificacao_cobrancas_total,dif_cobrancas_total
0,0,0002-ORFBO,Não,Feminino,0,1,1,9,1,Não,...,Sim,Sim,Não,Anual,Sim,Cheque,65.6,593.3,590.4,2.9
1,1,0003-MKNFE,Não,Masculino,0,0,0,9,1,Sim,...,Não,Não,Sim,Mensal,Não,Cheque,59.9,542.4,539.1,3.3
2,2,0004-TLHLJ,Sim,Masculino,0,0,0,4,1,Não,...,Não,Não,Não,Mensal,Sim,Cheque Eletrônico,73.9,280.85,295.6,-14.75
3,3,0011-IGKFF,Sim,Masculino,1,1,0,13,1,Não,...,Não,Sim,Sim,Mensal,Sim,Cheque Eletrônico,98.0,1237.85,1274.0,-36.15
4,4,0013-EXCHZ,Sim,Feminino,1,1,0,3,1,Não,...,Sim,Sim,Não,Mensal,Sim,Cheque,83.9,267.4,251.7,15.7


In [349]:
dados.dif_cobrancas_total.value_counts()

 0.00     614
 3.25       7
-1.00       6
-3.00       6
-7.25       6
         ... 
-94.95      1
 29.20      1
-59.90      1
-79.55      1
-9.40       1
Name: dif_cobrancas_total, Length: 5318, dtype: int64

Nota-se uma diferença dos valores de cobrancas_total para a multiplicação da mensalidade pelo tempo_permanencia. Isso pode ser devido a alguma mudança no valor mensalidade, que poderia estar relacionada a uma assinatura a mais ou menos

### Criando a coluna de contas diárias

In [350]:
dados['diaria'] = round(dados.mensalidade.divide(30), 2)
dados.head()

Unnamed: 0,index,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,...,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total,verificacao_cobrancas_total,dif_cobrancas_total,diaria
0,0,0002-ORFBO,Não,Feminino,0,1,1,9,1,Não,...,Sim,Não,Anual,Sim,Cheque,65.6,593.3,590.4,2.9,2.19
1,1,0003-MKNFE,Não,Masculino,0,0,0,9,1,Sim,...,Não,Sim,Mensal,Não,Cheque,59.9,542.4,539.1,3.3,2.0
2,2,0004-TLHLJ,Sim,Masculino,0,0,0,4,1,Não,...,Não,Não,Mensal,Sim,Cheque Eletrônico,73.9,280.85,295.6,-14.75,2.46
3,3,0011-IGKFF,Sim,Masculino,1,1,0,13,1,Não,...,Sim,Sim,Mensal,Sim,Cheque Eletrônico,98.0,1237.85,1274.0,-36.15,3.27
4,4,0013-EXCHZ,Sim,Feminino,1,1,0,3,1,Não,...,Sim,Não,Mensal,Sim,Cheque,83.9,267.4,251.7,15.7,2.8


In [351]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 25 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   index                        7043 non-null   int64  
 1   id_cliente                   7043 non-null   object 
 2   churn                        7043 non-null   object 
 3   genero                       7043 non-null   object 
 4   idoso                        7043 non-null   int64  
 5   parceirx                     7043 non-null   int64  
 6   dependentes                  7043 non-null   int64  
 7   tempo_permanencia            7043 non-null   int64  
 8   servico_telefone             7043 non-null   int64  
 9   multiplas_linhas             7043 non-null   object 
 10  servico_internet             7043 non-null   object 
 11  seguranca_online             7043 non-null   object 
 12  backup_online                7043 non-null   object 
 13  protecao_dispositi

### Salvando os dados limpos

In [352]:
dados.to_csv('Telco-Customer-Churn.csv', index = False)