<a href="https://colab.research.google.com/github/camilamaestrelli/Telco-Customer-Churn/blob/main/01_DataCleaning_TelcoCustomerChurn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color=blue size=10> Telco Customer Churn</font>

# <b><font color=BLUE size=12> Evasão de Clientes da Telco</b>

***
**Author**: [Camila Maestrelli](https://www.linkedin.com/in/camila-maestrelli-leobons/)
***

## <font color=green> Etapas do Projeto:


### <font color=green> `1. Definição do Problema`
### <font color=green> `2. Importação dos dados`
### <font color=green> `3. Entendimento dos dados`
### <font color=green> `4. Limpeza dos dados (esse notebook vai até aqui)`

### 5. EDA 

### 6. Pré-processamento
### 7. Algoritmo e criação do modelo

### 8. Interpretação do resultado e avaliação do modelo


## <font color=green> <b>1. Definição do problema </b>

#### <b> Objetivo: </b>

* reduzir a Taxa de Evasão de Clientes, conhecido como Churn Rate. 
<br></br>

Basicamente, o Churn Rate indica o quanto a empresa perdeu de receita ou clientes em um período de tempo.

Passo inicial: identificação de clientes que teriam uma maior chance de deixar a empresa. 

## <font color=green> <b>2. Importação dos dados

In [187]:
import numpy as np
import pandas as pd
print('Versão numpy: ', np.__version__)
print('Versão pandas: ', pd.__version__)


Versão numpy:  1.21.6
Versão pandas:  1.3.5


In [188]:
url = 'https://raw.githubusercontent.com/camilamaestrelli/Telco-Customer-Churn/main/telco_customer_churn.json'

In [189]:
df = pd.read_json(url)
dados = df.copy()
dados.head()

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."


## <font color=green> <b>3. Entendimento dos dados


In [190]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7267 entries, 0 to 7266
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   customerID  7267 non-null   object
 1   Churn       7267 non-null   object
 2   customer    7267 non-null   object
 3   phone       7267 non-null   object
 4   internet    7267 non-null   object
 5   account     7267 non-null   object
dtypes: object(6)
memory usage: 397.4+ KB


***
* customerID - ID do cliente
* Churn - se o cliente deixou a empresa ou não
* curtomer - características do cliente
* phone - informações do telefone do cliente
* internet - informações da internet do cliente
* account - informações da conta/contrato do cliente
***

Nota-se que as colunas customer, phone, internet e account estão com um dicionário e precisamos transformá-las em múltiplas colunas.

Para isso, será usada a função do pandas json_normalize

In [191]:
dados.customer[0]

{'Dependents': 'Yes',
 'Partner': 'Yes',
 'SeniorCitizen': 0,
 'gender': 'Female',
 'tenure': 9}

In [192]:
dados_customer = pd.json_normalize(dados.customer)
dados_customer

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3
...,...,...,...,...,...
7262,Female,0,No,No,13
7263,Male,0,Yes,No,22
7264,Male,0,No,No,2
7265,Male,0,Yes,Yes,67


### Json normalize

In [193]:
colunas = ['customer', 'phone', 'internet', 'account']

dados = dados.join([pd.json_normalize(dados[coluna]) for coluna in colunas]
                   ).drop(columns=colunas)
dados.head()


Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


In [194]:
dados.customerID.nunique()

7267

In [195]:
linha, coluna = dados.shape
print(f'O dataset contém informações de {linha} clientes e {coluna} variáveis.')

O dataset contém informações de 7267 clientes e 21 variáveis.


In [196]:
dados.columns

Index(['customerID', 'Churn', 'gender', 'SeniorCitizen', 'Partner',
       'Dependents', 'tenure', 'PhoneService', 'MultipleLines',
       'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
       'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract',
       'PaperlessBilling', 'PaymentMethod', 'Charges.Monthly',
       'Charges.Total'],
      dtype='object')

In [197]:
pd.options.display.max_columns = 21

In [198]:
dados.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


### Renomeando colunas

* Dicionário de dados

|Coluna|Coluna Renomeada| Descrição|
|---|---|---|
|customerID|id_cliente|número de identificação único de cada cliente|
|Churn|churn|se o cliente deixou ou não a empresa|
|gender|genero|gênero (masculino e feminino)|
|SeniorCitizen|idoso|informação sobre um cliente ter ou não idade igual ou maior que 65 anos|
|Partner|parceirx| se o cliente possui ou não um parceiro ou parceira|
|Dependents|dependentes|se o cliente possui ou não dependentes|
|tenure|tempo_permanencia|meses de contrato do cliente|
|PhoneService|servico_telefone|assinatura de serviço telefônico|
|MultipleLines|multiplas_linhas|assisnatura de mais de uma linha de telefone|
|InternetService| servico_internet|assinatura de um provedor internet|
|OnlineSecurity|seguranca_online|assinatura adicional de segurança online|
|OnlineBackup|backup_online|assinatura adicional de backup online|
|DeviceProtection|protecao_dispositivo|assinatura adicional de proteção no dispositivo|
|TechSupport|suporte_tecnico|assinatura adicional de suporte técnico, menos tempo de espera|
|StreamingTV|assinatura_tv|assinatura de TV a cabo|
|StreamingMovies|assinatura_filmes|assinatura de streaming de filmes|
|Contract|contrato|tipo de contrato|
|PaperlessBilling|fatura_digital|se o cliente prefere receber online a fatura|
|PaymentMethod|metodo_pagamento|forma de pagamento|
|Charges.Monthly|mensalidade|total de todos os serviços do cliente por mês|
|Charges.Total|cobrancas_total|total gasto pelo cliente|



In [199]:
colunas_renomeadas = {'customerID':'id_cliente', 
                      'Churn':'churn', 
                      'gender':'genero', 
                      'SeniorCitizen':'idoso', 
                      'Partner':'parceirx', 
                      'Dependents':'dependentes', 
                      'tenure':'tempo_permanencia',
                      'PhoneService':'servico_telefone', 
                      'MultipleLines':'multiplas_linhas', 
                      'InternetService':'servico_internet', 
                      'OnlineSecurity':'seguranca_online', 
                      'OnlineBackup':'backup_online', 
                      'DeviceProtection': 'protecao_dispositivo', 
                      'TechSupport':'suporte_tecnico', 
                      'StreamingTV':'assinatura_tv', 
                      'StreamingMovies':'assinatura_filmes', 
                      'Contract':'contrato', 
                      'PaperlessBilling':'fatura_digital', 
                      'PaymentMethod':'metodo_pagamento',
                      'Charges.Monthly':'mensalidade', 
                      'Charges.Total':'cobrancas_total'}

In [200]:
dados.rename(columns=colunas_renomeadas, inplace=True)

In [201]:
dados.head()

Unnamed: 0,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


## <font color=green> <b>4. Limpeza dos dados
 

In [202]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id_cliente            7267 non-null   object 
 1   churn                 7267 non-null   object 
 2   genero                7267 non-null   object 
 3   idoso                 7267 non-null   int64  
 4   parceirx              7267 non-null   object 
 5   dependentes           7267 non-null   object 
 6   tempo_permanencia     7267 non-null   int64  
 7   servico_telefone      7267 non-null   object 
 8   multiplas_linhas      7267 non-null   object 
 9   servico_internet      7267 non-null   object 
 10  seguranca_online      7267 non-null   object 
 11  backup_online         7267 non-null   object 
 12  protecao_dispositivo  7267 non-null   object 
 13  suporte_tecnico       7267 non-null   object 
 14  assinatura_tv         7267 non-null   object 
 15  assinatura_filmes    

### Vamos analisar cada variável para procurar por inconsistências nos dados

#### `id_cliente`

In [203]:
dados.id_cliente.nunique()

7267

#### `churn`

* Note que existem clientes que não tem a informação se parou de assinar o serviço ou não. Para esses clientes, colocaremos que não existe informação (a princípio)

In [204]:
dados.churn.unique()

array(['No', 'Yes', ''], dtype=object)

In [205]:
dados.loc[dados.churn == '']

Unnamed: 0,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total
30,0047-ZHDTW,,Female,0,No,No,11,Yes,Yes,Fiber optic,Yes,No,No,No,No,No,Month-to-month,Yes,Bank transfer (automatic),79.00,929.3
75,0120-YZLQA,,Male,0,No,No,71,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.90,1355.1
96,0154-QYHJU,,Male,0,No,No,29,Yes,No,DSL,Yes,Yes,No,Yes,No,No,One year,Yes,Electronic check,58.75,1696.2
98,0162-RZGMZ,,Female,1,No,No,5,Yes,No,DSL,Yes,Yes,No,Yes,No,No,Month-to-month,No,Credit card (automatic),59.90,287.85
175,0274-VVQOQ,,Male,1,Yes,No,65,Yes,Yes,Fiber optic,No,Yes,Yes,No,Yes,Yes,One year,Yes,Bank transfer (automatic),103.15,6792.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7158,9840-GSRFX,,Female,0,No,No,14,Yes,Yes,DSL,No,Yes,No,No,No,No,One year,Yes,Mailed check,54.25,773.2
7180,9872-RZQQB,,Female,0,Yes,No,49,No,No phone service,DSL,Yes,No,No,No,Yes,No,Month-to-month,No,Bank transfer (automatic),40.65,2070.75
7211,9920-GNDMB,,Male,0,No,No,9,Yes,Yes,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,76.25,684.85
7239,9955-RVWSC,,Female,0,Yes,Yes,67,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Bank transfer (automatic),19.25,1372.9


In [206]:
dados.loc[dados.churn == '', 'churn'] = 'Sem info'
dados.churn.unique()

array(['No', 'Yes', 'Sem info'], dtype=object)

In [207]:
dados.churn.replace('No', 'Não', inplace = True)
dados.churn.replace('Yes', 'Sim', inplace = True)
dados.churn.unique()

array(['Não', 'Sim', 'Sem info'], dtype=object)

#### `genero`

In [208]:
dados.genero.unique()


array(['Female', 'Male'], dtype=object)

In [209]:
dados.genero = dados.genero.map({'Female': 'Feminino',
                                 'Male': 'Masculino'})
dados.genero.unique()

array(['Feminino', 'Masculino'], dtype=object)

#### `idoso`

In [210]:
dados.idoso.unique()

array([0, 1])

#### `parceirx`

In [211]:
dados.parceirx.unique()

array(['Yes', 'No'], dtype=object)

In [212]:
dados.parceirx = dados.parceirx.map({'Yes': 1,
                                     'No': 0})
dados.parceirx.unique()

array([1, 0])

#### `dependentes`

In [213]:
dados.dependentes.unique()

array(['Yes', 'No'], dtype=object)

In [214]:
dados.dependentes = dados.dependentes.map({'Yes': 1,
                                           'No': 0})
dados.dependentes.unique()

array([1, 0])

#### `tempo_permanencia`

In [215]:
dados.tempo_permanencia.unique()

array([ 9,  4, 13,  3, 71, 63,  7, 65, 54, 72,  5, 56, 34,  1, 45, 50, 23,
       55, 26, 69, 11, 37, 49, 66, 67, 20, 43, 59, 12, 27,  2, 25, 29, 14,
       35, 64, 39, 40,  6, 30, 70, 57, 58, 16, 32, 33, 10, 21, 61, 15, 44,
       22, 24, 19, 47, 62, 46, 52,  8, 60, 48, 28, 41, 53, 68, 51, 31, 36,
       17, 18, 38, 42,  0])

#### `servico_telefone`

In [216]:
dados.servico_telefone.unique()

array(['Yes', 'No'], dtype=object)

In [217]:
dados.servico_telefone = dados.servico_telefone.map({'Yes': 1,
                                                     'No': 0})

#### `multiplas_linhas`

In [218]:
dados.multiplas_linhas.unique()

array(['No', 'Yes', 'No phone service'], dtype=object)

In [219]:
dados.multiplas_linhas = dados.multiplas_linhas.map({'Yes': 'Sim',
                                                     'No': 'Não',
                                                     'No phone service': 'Sem telefone'})

#### `servico_internet`

In [220]:
dados.servico_internet.unique()

array(['DSL', 'Fiber optic', 'No'], dtype=object)

In [221]:
dados.servico_internet.replace('No', 'Não', inplace = True)
dados.servico_internet.replace('Fiber optic', 'Fibra', inplace = True)
dados.servico_internet.unique()

array(['DSL', 'Fibra', 'Não'], dtype=object)

#### `seguranca_online`

In [222]:
dados.seguranca_online.unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

In [223]:
dados.seguranca_online = dados.seguranca_online.map({'Yes': 'Sim',
                                                     'No': 'Não',
                                                     'No internet service': 'Sem internet'})
dados.seguranca_online.unique()

array(['Não', 'Sim', 'Sem internet'], dtype=object)

#### `backup_online`

In [224]:
dados.backup_online.unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

In [225]:
dados.backup_online = dados.backup_online.map({'Yes': 'Sim',
                                               'No': 'Não',
                                               'No internet service': 'Sem internet'})
dados.backup_online.unique()
                                               

array(['Sim', 'Não', 'Sem internet'], dtype=object)

#### `protecao_dispositivo`

In [226]:
dados.protecao_dispositivo.unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

In [227]:
dados.protecao_dispositivo = dados.protecao_dispositivo.map({'Yes': 'Sim',
                                                             'No': 'Não',
                                                             'No internet service': 'Sem internet'})
dados.protecao_dispositivo.unique()

array(['Não', 'Sim', 'Sem internet'], dtype=object)

#### `suporte_tecnico`

In [228]:
dados.suporte_tecnico.unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

In [229]:
dados.suporte_tecnico = dados.suporte_tecnico.map({'Yes': 'Sim',
                                                   'No': 'Não',
                                                   'No internet service': 'Sem internet'})
dados.suporte_tecnico.unique()

array(['Sim', 'Não', 'Sem internet'], dtype=object)

#### `assinatura_tv`

In [230]:
dados.assinatura_tv.unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

In [231]:
dados.assinatura_tv = dados.assinatura_tv.map({'Yes': 'Sim',
                                               'No': 'Não',
                                               'No internet service': 'Sem internet'})
dados.assinatura_tv.unique()

array(['Sim', 'Não', 'Sem internet'], dtype=object)

#### `assinatura_filmes`

In [232]:
dados.assinatura_filmes.unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

In [233]:
dados.assinatura_filmes = dados.assinatura_filmes.map({'Yes': 'Sim',
                                                       'No': 'Não',
                                                       'No internet service': 'Sem internet'})
dados.assinatura_filmes.unique()
                                                       

array(['Não', 'Sim', 'Sem internet'], dtype=object)

#### `contrato`

In [234]:
dados.contrato.unique()

array(['One year', 'Month-to-month', 'Two year'], dtype=object)

In [235]:
dados.contrato = dados.contrato.map({'One year': 'Anual',
                                     'Month-to-month': 'Mensal',
                                     'Two year': 'Bianual'})
dados.contrato.unique()

array(['Anual', 'Mensal', 'Bianual'], dtype=object)

#### `fatura_digital`

In [236]:
dados.fatura_digital.unique()

array(['Yes', 'No'], dtype=object)

In [237]:
dados.fatura_digital = dados.fatura_digital.map({'Yes': 'Sim',
                                                 'No': 'Não'})
dados.fatura_digital.unique()

array(['Sim', 'Não'], dtype=object)

#### `metodo_pagamento`

In [238]:
dados.metodo_pagamento.unique()

array(['Mailed check', 'Electronic check', 'Credit card (automatic)',
       'Bank transfer (automatic)'], dtype=object)

In [239]:
dados.metodo_pagamento = dados.metodo_pagamento.map({'Mailed check': 'Cheque',
                                                     'Electronic check': 'Cheque Eletrônico',
                                                     'Credit card (automatic)': 'cartão de crédito (automático)',
                                                     'Bank transfer (automatic)': 'transferência bancária (automático)'})
dados.metodo_pagamento.unique()

array(['Cheque', 'Cheque Eletrônico', 'cartão de crédito (automático)',
       'transferência bancária (automático)'], dtype=object)

#### `mensalidade`

In [240]:
dados.mensalidade.unique()

array([65.6 , 59.9 , 73.9 , ..., 91.75, 68.8 , 67.85])

#### `cobrancas_total`

In [241]:
dados.cobrancas_total.unique()

array(['593.3', '542.4', '280.85', ..., '742.9', '4627.65', '3707.6'],
      dtype=object)

* Note que por algum motivo a coluna cobrancas_total está como tipo object e não número. Isso será investigado

In [242]:
dados['cobrancas_total'].value_counts()

           11
20.2       11
19.75       9
19.55       9
19.9        9
           ..
272         1
1426.45     1
371.6       1
6786.4      1
3707.6      1
Name: cobrancas_total, Length: 6531, dtype: int64

In [243]:
dados['cobrancas_total'] = pd.to_numeric(dados['cobrancas_total'])
dados['cobrancas_total'].dtype()

ValueError: ignored

Existe um espaço na posição 975. Este será retirado para a transformação em numérico

In [244]:
dados['cobrancas_total'] = dados['cobrancas_total'].apply(lambda x: x.strip())

In [245]:
dados['cobrancas_total'] = pd.to_numeric(dados['cobrancas_total'])

In [246]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id_cliente            7267 non-null   object 
 1   churn                 7267 non-null   object 
 2   genero                7267 non-null   object 
 3   idoso                 7267 non-null   int64  
 4   parceirx              7267 non-null   int64  
 5   dependentes           7267 non-null   int64  
 6   tempo_permanencia     7267 non-null   int64  
 7   servico_telefone      7267 non-null   int64  
 8   multiplas_linhas      7267 non-null   object 
 9   servico_internet      7267 non-null   object 
 10  seguranca_online      7267 non-null   object 
 11  backup_online         7267 non-null   object 
 12  protecao_dispositivo  7267 non-null   object 
 13  suporte_tecnico       7267 non-null   object 
 14  assinatura_tv         7267 non-null   object 
 15  assinatura_filmes    

Ainda existem os valores nulos (aqueles com " ") a serem tratados nessa coluna

In [247]:
dados.loc[dados['cobrancas_total'].isna()]

Unnamed: 0,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total
975,1371-DWPAZ,Não,Feminino,0,1,1,0,0,Sem telefone,DSL,Sim,Sim,Sim,Sim,Sim,Não,Bianual,Não,cartão de crédito (automático),56.05,
1775,2520-SGTTA,Não,Feminino,0,1,1,0,1,Não,Não,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,20.0,
1955,2775-SEFEE,Não,Masculino,0,0,1,0,1,Sim,DSL,Sim,Sim,Não,Sim,Não,Não,Bianual,Sim,transferência bancária (automático),61.9,
2075,2923-ARZLG,Não,Masculino,0,1,1,0,1,Não,Não,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Anual,Sim,Cheque,19.7,
2232,3115-CZMZD,Não,Masculino,0,0,1,0,1,Não,Não,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,20.25,
2308,3213-VVOLG,Não,Masculino,0,1,1,0,1,Sim,Não,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,25.35,
2930,4075-WKNIU,Não,Feminino,0,1,1,0,1,Sim,DSL,Não,Sim,Sim,Sim,Sim,Não,Bianual,Não,Cheque,73.35,
3134,4367-NUYAO,Não,Masculino,0,1,1,0,1,Sim,Não,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,25.75,
3203,4472-LVYGI,Não,Feminino,0,1,1,0,0,Sem telefone,DSL,Sim,Não,Sim,Sim,Sim,Não,Bianual,Sim,transferência bancária (automático),52.55,
4169,5709-LVOEQ,Não,Feminino,0,1,1,0,1,Não,DSL,Sim,Sim,Sim,Não,Sim,Sim,Bianual,Não,Cheque,80.85,


In [248]:
dados.loc[dados['tempo_permanencia'] == 0].shape

(11, 21)

In [249]:
dados.loc[dados['cobrancas_total'] == 0]

Unnamed: 0,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total


* Nota-se que os valores na coluna cobrancas_total estão nulos quando tempo_permanencia = 0, ou seja, visto que o cliente ainda não tem 1 mês de contrato para considerar no gasto total dele.
* Vamos preencher os vazios com zero

In [250]:
dados.loc[dados['cobrancas_total'].isna(), 'cobrancas_total'] = 0

In [251]:
dados.loc[dados['cobrancas_total'] == 0]

Unnamed: 0,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,seguranca_online,backup_online,protecao_dispositivo,suporte_tecnico,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total
975,1371-DWPAZ,Não,Feminino,0,1,1,0,0,Sem telefone,DSL,Sim,Sim,Sim,Sim,Sim,Não,Bianual,Não,cartão de crédito (automático),56.05,0.0
1775,2520-SGTTA,Não,Feminino,0,1,1,0,1,Não,Não,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,20.0,0.0
1955,2775-SEFEE,Não,Masculino,0,0,1,0,1,Sim,DSL,Sim,Sim,Não,Sim,Não,Não,Bianual,Sim,transferência bancária (automático),61.9,0.0
2075,2923-ARZLG,Não,Masculino,0,1,1,0,1,Não,Não,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Anual,Sim,Cheque,19.7,0.0
2232,3115-CZMZD,Não,Masculino,0,0,1,0,1,Não,Não,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,20.25,0.0
2308,3213-VVOLG,Não,Masculino,0,1,1,0,1,Sim,Não,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,25.35,0.0
2930,4075-WKNIU,Não,Feminino,0,1,1,0,1,Sim,DSL,Não,Sim,Sim,Sim,Sim,Não,Bianual,Não,Cheque,73.35,0.0
3134,4367-NUYAO,Não,Masculino,0,1,1,0,1,Sim,Não,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Sem internet,Bianual,Não,Cheque,25.75,0.0
3203,4472-LVYGI,Não,Feminino,0,1,1,0,0,Sem telefone,DSL,Sim,Não,Sim,Sim,Sim,Não,Bianual,Sim,transferência bancária (automático),52.55,0.0
4169,5709-LVOEQ,Não,Feminino,0,1,1,0,1,Não,DSL,Sim,Sim,Sim,Não,Sim,Sim,Bianual,Não,Cheque,80.85,0.0


#### Observando se há diferença entre a coluna cobranças_total e mensalidade * tempo_permanencia

In [252]:
dados['verificacao_cobrancas_total'] = dados.mensalidade * dados.tempo_permanencia
dados['dif_cobrancas_total'] = dados.cobrancas_total - dados['verificacao_cobrancas_total']
dados.head()

Unnamed: 0,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,...,suporte_tecnico,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total,verificacao_cobrancas_total,dif_cobrancas_total
0,0002-ORFBO,Não,Feminino,0,1,1,9,1,Não,DSL,...,Sim,Sim,Não,Anual,Sim,Cheque,65.6,593.3,590.4,2.9
1,0003-MKNFE,Não,Masculino,0,0,0,9,1,Sim,DSL,...,Não,Não,Sim,Mensal,Não,Cheque,59.9,542.4,539.1,3.3
2,0004-TLHLJ,Sim,Masculino,0,0,0,4,1,Não,Fibra,...,Não,Não,Não,Mensal,Sim,Cheque Eletrônico,73.9,280.85,295.6,-14.75
3,0011-IGKFF,Sim,Masculino,1,1,0,13,1,Não,Fibra,...,Não,Sim,Sim,Mensal,Sim,Cheque Eletrônico,98.0,1237.85,1274.0,-36.15
4,0013-EXCHZ,Sim,Feminino,1,1,0,3,1,Não,Fibra,...,Sim,Sim,Não,Mensal,Sim,Cheque,83.9,267.4,251.7,15.7


In [253]:
dados.dif_cobrancas_total.value_counts()

 0.00      646
 3.25        7
-7.25        6
-3.00        6
-1.00        6
          ... 
-6.80        1
 1.55        1
 101.85      1
 37.85       1
-9.40        1
Name: dif_cobrancas_total, Length: 5310, dtype: int64

Nota-se uma diferença dos valores de cobrancas_total para a multiplicação da mensalidade pelo tempo_permanencia. Isso pode ser devido a alguma mudança no valor mensalidade, que poderia estar relacionada a uma assinatura a mais ou menos

### Criando a coluna de contas diárias

In [254]:
dados['diaria'] = round(dados.mensalidade.divide(30), 2)
dados.head()

Unnamed: 0,id_cliente,churn,genero,idoso,parceirx,dependentes,tempo_permanencia,servico_telefone,multiplas_linhas,servico_internet,...,assinatura_tv,assinatura_filmes,contrato,fatura_digital,metodo_pagamento,mensalidade,cobrancas_total,verificacao_cobrancas_total,dif_cobrancas_total,diaria
0,0002-ORFBO,Não,Feminino,0,1,1,9,1,Não,DSL,...,Sim,Não,Anual,Sim,Cheque,65.6,593.3,590.4,2.9,2.19
1,0003-MKNFE,Não,Masculino,0,0,0,9,1,Sim,DSL,...,Não,Sim,Mensal,Não,Cheque,59.9,542.4,539.1,3.3,2.0
2,0004-TLHLJ,Sim,Masculino,0,0,0,4,1,Não,Fibra,...,Não,Não,Mensal,Sim,Cheque Eletrônico,73.9,280.85,295.6,-14.75,2.46
3,0011-IGKFF,Sim,Masculino,1,1,0,13,1,Não,Fibra,...,Sim,Sim,Mensal,Sim,Cheque Eletrônico,98.0,1237.85,1274.0,-36.15,3.27
4,0013-EXCHZ,Sim,Feminino,1,1,0,3,1,Não,Fibra,...,Sim,Não,Mensal,Sim,Cheque,83.9,267.4,251.7,15.7,2.8


In [255]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7267 entries, 0 to 7266
Data columns (total 24 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   id_cliente                   7267 non-null   object 
 1   churn                        7267 non-null   object 
 2   genero                       7267 non-null   object 
 3   idoso                        7267 non-null   int64  
 4   parceirx                     7267 non-null   int64  
 5   dependentes                  7267 non-null   int64  
 6   tempo_permanencia            7267 non-null   int64  
 7   servico_telefone             7267 non-null   int64  
 8   multiplas_linhas             7267 non-null   object 
 9   servico_internet             7267 non-null   object 
 10  seguranca_online             7267 non-null   object 
 11  backup_online                7267 non-null   object 
 12  protecao_dispositivo         7267 non-null   object 
 13  suporte_tecnico   

### Salvando os dados limpos

In [256]:
dados.to_csv('Telco-Customer-Churn.csv', index = False)