<a href="https://colab.research.google.com/github/devayache/Churn_Rate_Alura_Voz/blob/main/Challenges_Semana_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Churn - Alura Voz 
<p>Em toda empresa a taxa de Churn é um problema, esta taxa mede a quantidade de clientes que deixaram a empresa, influenciando diretamente no lucro da empresa.</p>
<p>Hoje em dia, com a quantidade de informações armazenadas é possível medir esta taxa e identificar os clientes em potencial que podem deixar a empresa.</p>

<p>A  <font color='green'>Alura Voz</font> sendo uma empresa de telecomunicações, possui vários produtos, tais como internet e telefonia, sendo assim é preciso analisa quais tipos de produtos os consumidores estão usando e entender qual o comportamento dos clientes que se desligam da empresa.</p>




In [1]:
#importar o pandas
import pandas as pd

In [2]:
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_colwidth', None)

## Visão Geral

In [3]:
# Abir o aquivo (formato: Jason)
clientes = pd.read_json('https://raw.githubusercontent.com/sthemonica/alura-voz/main/Dados/Telco-Customer-Churn.json')
clientes.columns = ['ClienteID', 'Cancelamento', 'Informações', 'Telefone', 'Internet', 'Conta']
clientes.head()

Unnamed: 0,ClienteID,Cancelamento,Informações,Telefone,Internet,Conta
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Partner': 'Yes', 'Dependents': 'Yes', 'tenure': 9}","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': 'No', 'OnlineBackup': 'Yes', 'DeviceProtection': 'No', 'TechSupport': 'Yes', 'StreamingTV': 'Yes', 'StreamingMovies': 'No'}","{'Contract': 'One year', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Mailed check', 'Charges': {'Monthly': 65.6, 'Total': '593.3'}}"
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partner': 'No', 'Dependents': 'No', 'tenure': 9}","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': 'No', 'OnlineBackup': 'No', 'DeviceProtection': 'No', 'TechSupport': 'No', 'StreamingTV': 'No', 'StreamingMovies': 'Yes'}","{'Contract': 'Month-to-month', 'PaperlessBilling': 'No', 'PaymentMethod': 'Mailed check', 'Charges': {'Monthly': 59.9, 'Total': '542.4'}}"
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partner': 'No', 'Dependents': 'No', 'tenure': 4}","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecurity': 'No', 'OnlineBackup': 'No', 'DeviceProtection': 'Yes', 'TechSupport': 'No', 'StreamingTV': 'No', 'StreamingMovies': 'No'}","{'Contract': 'Month-to-month', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Electronic check', 'Charges': {'Monthly': 73.9, 'Total': '280.85'}}"
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partner': 'Yes', 'Dependents': 'No', 'tenure': 13}","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecurity': 'No', 'OnlineBackup': 'Yes', 'DeviceProtection': 'Yes', 'TechSupport': 'No', 'StreamingTV': 'Yes', 'StreamingMovies': 'Yes'}","{'Contract': 'Month-to-month', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Electronic check', 'Charges': {'Monthly': 98.0, 'Total': '1237.85'}}"
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Partner': 'Yes', 'Dependents': 'No', 'tenure': 3}","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecurity': 'No', 'OnlineBackup': 'No', 'DeviceProtection': 'No', 'TechSupport': 'Yes', 'StreamingTV': 'Yes', 'StreamingMovies': 'No'}","{'Contract': 'Month-to-month', 'PaperlessBilling': 'Yes', 'PaymentMethod': 'Mailed check', 'Charges': {'Monthly': 83.9, 'Total': '267.4'}}"


In [4]:
print(f'É possível observar que existem um total de {clientes.shape[0]} clientes nesta tabela')

É possível observar que existem um total de 7267 clientes nesta tabela


Ao olhar a tabela a primeira vez podemos ver que ela possui várias categorias, cada uma dessas categorias traz informações sobre os clientes, sendo assim, inicialmente, será analisado separadamente cada uma dessas categorias.

In [5]:
#Backup para caso haja necessidade do uso da tabela original
clientes_backup = clientes.copy()

## Normalizando as colunas


### Coluna: Informações

---



In [6]:
clientes_informacoes = pd.json_normalize(data = clientes['Informações'])
#aproveitando para traduzir o nome das colunas 
clientes_informacoes.rename(columns = {
    'gender': 'Gênero', 
    'SeniorCitizen': 'Idoso', 
    'Partner': 'Cônjuge',
    'Dependents': 'Dependentes',
    'tenure': 'Tempo de Cliente'
    }, inplace=True)
clientes_informacoes.columns.name = 'Id'
clientes_informacoes

Id,Gênero,Idoso,Cônjuge,Dependentes,Tempo de Cliente
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3
...,...,...,...,...,...
7262,Female,0,No,No,13
7263,Male,0,Yes,No,22
7264,Male,0,No,No,2
7265,Male,0,Yes,Yes,67


### Coluna: Telefone



---



In [7]:
clientes_telefone = pd.json_normalize(data = clientes['Telefone'])
#aproveitando para traduzir o nome das colunas 
clientes_telefone.rename(columns = {
    'MultipleLines': 'Múltiplas Linhas', 
    'PhoneService': 'Telefone', 
    }, inplace=True)
clientes_telefone.columns.name = 'Id'
clientes_telefone

Id,Telefone,Múltiplas Linhas
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No
...,...,...
7262,Yes,No
7263,Yes,Yes
7264,Yes,No
7265,Yes,No


### Coluna: Internet 



---



In [8]:
clientes_internet = pd.json_normalize(data = clientes['Internet'])
#aproveitando para traduzir o nome das colunas 
clientes_internet.rename(columns = {
    'DeviceProtection': 'Proteção do Dispositivo', 
    'OnlineSecurity' : 'Seguro Online',
    'InternetService': 'Serviço de Internet', 
    'OnlineBackup': 'Backup Online',
    'StreamingMovies': 'Streaming de Filmes',
    'StreamingTV': 'Streaming de Tv',
    'TechSupport': 'Suporte Técnico',
    }, inplace=True)
clientes_internet.columns.name = 'Id'
clientes_internet

Id,Serviço de Internet,Seguro Online,Backup Online,Proteção do Dispositivo,Suporte Técnico,Streaming de Tv,Streaming de Filmes
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No
...,...,...,...,...,...,...,...
7262,DSL,Yes,No,No,Yes,No,No
7263,Fiber optic,No,No,No,No,No,Yes
7264,DSL,No,Yes,No,No,No,No
7265,DSL,Yes,No,Yes,Yes,No,Yes


### Coluna: Conta


---



In [9]:
clientes_conta = pd.json_normalize(data = clientes['Conta'])
clientes_conta.rename(columns = {
    'Charges': 'Dados de Cobrança',
    'Charges.Monthly': 'Gasto Mensal',
    'Charges.Total': 'Gasto Total', 
    'Contract': 'Tempo de Contrato', 
    'PaperlessBilling': 'Fatura sem Papel', 
    'PaymentMethod': 'Metodo de Pagamento' 
    }, inplace=True)
clientes_conta.columns.name = 'Id'
clientes_conta

Id,Tempo de Contrato,Fatura sem Papel,Metodo de Pagamento,Gasto Mensal,Gasto Total
0,One year,Yes,Mailed check,65.60,593.3
1,Month-to-month,No,Mailed check,59.90,542.4
2,Month-to-month,Yes,Electronic check,73.90,280.85
3,Month-to-month,Yes,Electronic check,98.00,1237.85
4,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...
7262,One year,No,Mailed check,55.15,742.9
7263,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,Month-to-month,Yes,Mailed check,50.30,92.75
7265,Two year,No,Mailed check,67.85,4627.65


## Entendo e Traduzindo as colunas


### Coluna: Informações

---



In [10]:
clientes_informacoes

Id,Gênero,Idoso,Cônjuge,Dependentes,Tempo de Cliente
0,Female,0,Yes,Yes,9
1,Male,0,No,No,9
2,Male,0,No,No,4
3,Male,1,Yes,No,13
4,Female,1,Yes,No,3
...,...,...,...,...,...
7262,Female,0,No,No,13
7263,Male,0,Yes,No,22
7264,Male,0,No,No,2
7265,Male,0,Yes,Yes,67


##### Gênero

In [11]:
clientes_informacoes['Gênero'].describe()

count     7267
unique       2
top       Male
freq      3675
Name: Gênero, dtype: object

In [12]:
clientes_informacoes['Gênero'].unique()

array(['Female', 'Male'], dtype=object)

A coluna `Gênero` traz as opções `Famale` e `Male`. 

Traduzindo: `Feminino` e  `Masculino`.


Essa coluna informa o gênero do cliente 


##### Idoso

In [13]:
clientes_informacoes['Idoso'].describe()

count    7267.000000
mean        0.162653
std         0.369074
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max         1.000000
Name: Idoso, dtype: float64

In [14]:
clientes_informacoes['Idoso'].dtype

dtype('int64')

In [15]:
clientes_informacoes['Idoso'].unique()

array([0, 1])

A coluna `Idoso`  traz um intervalo binário de `0` e `1`.


Como essa coluna serve para classificar se o cliente é ou não idoso, seria melhor se o tipo de dados estivesse em booleano, mas ele se encontra como inteiro, isso será tratado posteriormente.



##### Cônjuge

In [16]:
clientes_informacoes['Cônjuge'].describe()

count     7267
unique       2
top         No
freq      3749
Name: Cônjuge, dtype: object

In [17]:
clientes_informacoes['Cônjuge'].unique()

array(['Yes', 'No'], dtype=object)

A coluna ` Cônjuge `  traz as opções `Yes`, `No`. 

Traduzindo: `Sim`, `Não`.


Essa coluna informa se o cliente tem um parceiro.


In [18]:
clientes_informacoes['Dependentes'].describe()

count     7267
unique       2
top         No
freq      5086
Name: Dependentes, dtype: object

In [19]:
clientes_informacoes['Dependentes'].unique()

array(['Yes', 'No'], dtype=object)

A coluna ` Dependentes `  traz as opções `Yes`, `No`. 

Traduzindo: `Sim`, `Não`.

Essa coluna informa se o cliente possui filhos ou dependentes.


##### Tempo de Cliente

In [20]:
clientes_informacoes['Tempo de Cliente'].describe()

count    7267.000000
mean       32.346498
std        24.571773
min         0.000000
25%         9.000000
50%        29.000000
75%        55.000000
max        72.000000
Name: Tempo de Cliente, dtype: float64

In [21]:
clientes_informacoes['Tempo de Cliente'].dtype

dtype('int64')

A coluna `Tempo de Cliente`  traz valores inteiros.

Esta coluna informa o tempo, em meses, que esse cliente está vinculado a empresa.

In [22]:
# Tradução
clientes_informacoes['Gênero'] = clientes_informacoes['Gênero'].map({'Female' : 'F', 'Male' : 'M'})
clientes_informacoes['Cônjuge'] = clientes_informacoes['Cônjuge'].map({'Yes' : 'Sim', 'No' : 'Não'})
clientes_informacoes['Dependentes'] = clientes_informacoes['Dependentes'].map({'Yes' : 'Sim', 'No' : 'Não'})
clientes_informacoes

Id,Gênero,Idoso,Cônjuge,Dependentes,Tempo de Cliente
0,F,0,Sim,Sim,9
1,M,0,Não,Não,9
2,M,0,Não,Não,4
3,M,1,Sim,Não,13
4,F,1,Sim,Não,3
...,...,...,...,...,...
7262,F,0,Não,Não,13
7263,M,0,Sim,Não,22
7264,M,0,Não,Não,2
7265,M,0,Sim,Sim,67


In [23]:
#dropando a coluna para facilitar na hora de juntar
clientes.drop(columns = ['Informações'], inplace=True)

### Coluna: Telefone

---




In [24]:
clientes_telefone

Id,Telefone,Múltiplas Linhas
0,Yes,No
1,Yes,Yes
2,Yes,No
3,Yes,No
4,Yes,No
...,...,...
7262,Yes,No
7263,Yes,Yes
7264,Yes,No
7265,Yes,No


##### Telefone

In [25]:
clientes['Telefone'].describe()

count                                               7267
unique                                                 3
top       {'PhoneService': 'Yes', 'MultipleLines': 'No'}
freq                                                3495
Name: Telefone, dtype: object

In [26]:
clientes_telefone['Telefone'].unique()

array(['Yes', 'No'], dtype=object)

A coluna `Telefone`  traz as opções `Yes` e `No`.

Traduzindo: `Sim` e `Não`.

Esta coluna informa se o cliente possui serviço telefônico.



##### Múltiplas Linhas

In [27]:
clientes_telefone['Múltiplas Linhas'].describe()

count     7267
unique       3
top         No
freq      3495
Name: Múltiplas Linhas, dtype: object

In [28]:
clientes_telefone['Múltiplas Linhas'].unique()

array(['No', 'Yes', 'No phone service'], dtype=object)

A coluna `Múltiplas Linhas`  traz as opções `No`, `Yes` e `No phone service`. 

Traduzindo: `Não`, `Sim`  e `Sem Serviço Telefônico`.

Esta coluna informa se o cliente mais de uma linha telefônica.

Esta coluna passara futuramente por uma análise, mas aprofundada para identificar se há alguma inconsistência em relação a variável `Sem serviço Telefônico`, pois ela não poderá aparecer quando a coluna `Serviço Telefônico` for `Sim`.


In [29]:
#Tradução
clientes_telefone['Telefone'] = clientes_telefone['Telefone'].map({'Yes' : 'Sim', 'No' : 'Não'})
clientes_telefone['Múltiplas Linhas'] = clientes_telefone['Múltiplas Linhas'].map({'Yes' : 'Sim', 'No' : 'Não', 'No phone service' : 'Sem serviço de Telefone'})
clientes_telefone

Id,Telefone,Múltiplas Linhas
0,Sim,Não
1,Sim,Sim
2,Sim,Não
3,Sim,Não
4,Sim,Não
...,...,...
7262,Sim,Não
7263,Sim,Sim
7264,Sim,Não
7265,Sim,Não


In [30]:
#dropando a coluna para facilitar na hora de juntar
clientes.drop(columns = ['Telefone'], inplace=True)


### Coluna: Internet

In [31]:
clientes_internet

Id,Serviço de Internet,Seguro Online,Backup Online,Proteção do Dispositivo,Suporte Técnico,Streaming de Tv,Streaming de Filmes
0,DSL,No,Yes,No,Yes,Yes,No
1,DSL,No,No,No,No,No,Yes
2,Fiber optic,No,No,Yes,No,No,No
3,Fiber optic,No,Yes,Yes,No,Yes,Yes
4,Fiber optic,No,No,No,Yes,Yes,No
...,...,...,...,...,...,...,...
7262,DSL,Yes,No,No,Yes,No,No
7263,Fiber optic,No,No,No,No,No,Yes
7264,DSL,No,Yes,No,No,No,No
7265,DSL,Yes,No,Yes,Yes,No,Yes


#### Serviço de Internet

In [32]:
clientes_internet['Serviço de Internet'].describe()

count            7267
unique              3
top       Fiber optic
freq             3198
Name: Serviço de Internet, dtype: object

In [33]:
clientes_internet['Serviço de Internet'].unique()

array(['DSL', 'Fiber optic', 'No'], dtype=object)


A coluna `Serviço de Internet`  traz as opções `DSL`, `Fiber optic` e `No`. 

Traduzindo: `Fibra ótica ` e `Não`.

Esta coluna informa se o cliente possui assinatura de serviço de internet.


#### Seguro Online

In [34]:
clientes_internet['Seguro Online'].describe()

count     7267
unique       3
top         No
freq      3608
Name: Seguro Online, dtype: object

In [35]:
clientes_internet['Seguro Online'].unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

A coluna `Seguro Online`  traz as opções `No`, `Yes` e `No Internet service`. 

Traduzindo: `Não`, `Sim`  e `Sem Serviço de Internet`.

Esta coluna informa se o cliente possui assinatura adicional de seguro online.

Esta coluna passara futuramente por uma análise, mas aprofundada para identificar se há alguma inconsistência em relação a variável `Sem serviço de Internet`, pois ela não poderá aparecer quando a coluna `Serviço de Internet` for `Sim` 



#### Backup Online

In [36]:
clientes_internet['Backup Online'].describe()

count     7267
unique       3
top         No
freq      3182
Name: Backup Online, dtype: object

In [37]:
clientes_internet['Backup Online'].unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

A coluna `Backup Online`  traz as opções `Yes`, `No` e `No Internet service`. 

Traduzindo: `Sim`, `Não`  e `Sem Serviço de Internet`.

Esta coluna informa se o cliente possui assinatura adicional de um backup online.

Esta coluna passara futuramente por uma análise, mas aprofundada para identificar se há alguma inconsistência em relação a variável `Sem serviço de Internet`, pois ela não poderá aparecer quando a coluna `Serviço de Internet` for `Sim`


#### Proteção do Dispositivo

In [38]:
clientes_internet['Proteção do Dispositivo'].describe()

count     7267
unique       3
top         No
freq      3195
Name: Proteção do Dispositivo, dtype: object

In [39]:
clientes_internet['Proteção do Dispositivo'].unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

A coluna `Proteção do Dispositivo`  traz as opções `No`, `Yes` e `No Internet service`. 

Traduzindo: `Não`, `Sim` e `Sem Serviço de Internet`.

Esta coluna informa se o cliente possui assinatura adicional de proteção no dispositivo.

Esta coluna passara futuramente por uma análise, mas aprofundada para identificar se há alguma inconsistência em relação a variável `Sem serviço de Internet`, pois ela não poderá aparecer quando a coluna `Serviço de Internet` for `Sim`


#### Superte Técnico

In [40]:
clientes_internet['Suporte Técnico'].describe()

count     7267
unique       3
top         No
freq      3582
Name: Suporte Técnico, dtype: object

In [41]:
clientes_internet['Suporte Técnico'].unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

A coluna `Suporte Técnico`  traz as opções `Yes`, `No` e `No Internet service`. 

Traduzindo: `Sim`, `Não` e `Sem Serviço de Internet`.

Esta coluna informa se o cliente possui assinatura adicional suporte técnico.

Esta coluna passara futuramente por uma análise, mas aprofundada para identificar se há alguma inconsistência em relação a variável `Sem serviço de Internet`, pois ela não poderá aparecer quando a coluna `Serviço de Internet` for `Sim`


#### Streaming de Tv

In [42]:
clientes_internet['Streaming de Tv'].describe()

count     7267
unique       3
top         No
freq      2896
Name: Streaming de Tv, dtype: object

In [43]:
clientes_internet['Streaming de Tv'].unique()

array(['Yes', 'No', 'No internet service'], dtype=object)

A coluna `Streaming de Tv`  traz as opções `Yes`, `No` e `No Internet service`. 

Traduzindo: `Sim`, `Não` e `Sem Serviço de Internet`.

Esta coluna informa se o cliente possui assinatura adicional TV a cabo.

In [44]:
clientes_internet['Streaming de Filmes'].describe()

count     7267
unique       3
top         No
freq      2870
Name: Streaming de Filmes, dtype: object

In [45]:
clientes_internet['Streaming de Filmes'].unique()

array(['No', 'Yes', 'No internet service'], dtype=object)

A coluna `Streaming de Filmes`  traz as opções `No`, `Yes` e `No Internet service`. 

Traduzindo: `Não`, `Sim` e `Sem Serviço de Internet`.

Esta coluna informa se o cliente possui assinatura adicional streaming de filmes

Esta coluna passara futuramente por uma análise, mas aprofundada para identificar se há alguma inconsistência em relação a variável `Sem serviço de Internet`, pois ela não poderá aparecer quando a coluna `Serviço de Internet` for `Sim`

In [46]:
#Tradução
clientes_internet['Serviço de Internet']  = clientes_internet['Serviço de Internet'].map({'DSL':'DSL','Fiber optic' : 'Fibra Optica ', 'No': 'Não Possui'})
nomes = [i for i in clientes_internet.columns]
del(nomes[0])
for i in nomes:
  clientes_internet[i] = clientes_internet[i].map({'Yes': 'Sim', 'No' : 'Não', 'No internet service' : 'Sem serviço de Internet'})
clientes_internet

Id,Serviço de Internet,Seguro Online,Backup Online,Proteção do Dispositivo,Suporte Técnico,Streaming de Tv,Streaming de Filmes
0,DSL,Não,Sim,Não,Sim,Sim,Não
1,DSL,Não,Não,Não,Não,Não,Sim
2,Fibra Optica,Não,Não,Sim,Não,Não,Não
3,Fibra Optica,Não,Sim,Sim,Não,Sim,Sim
4,Fibra Optica,Não,Não,Não,Sim,Sim,Não
...,...,...,...,...,...,...,...
7262,DSL,Sim,Não,Não,Sim,Não,Não
7263,Fibra Optica,Não,Não,Não,Não,Não,Sim
7264,DSL,Não,Sim,Não,Não,Não,Não
7265,DSL,Sim,Não,Sim,Sim,Não,Sim


In [47]:
#dropando a coluna para facilitar na hora de juntar
clientes.drop(columns = ['Internet'], inplace=True)


### Coluna: Conta

In [48]:
clientes_conta

Id,Tempo de Contrato,Fatura sem Papel,Metodo de Pagamento,Gasto Mensal,Gasto Total
0,One year,Yes,Mailed check,65.60,593.3
1,Month-to-month,No,Mailed check,59.90,542.4
2,Month-to-month,Yes,Electronic check,73.90,280.85
3,Month-to-month,Yes,Electronic check,98.00,1237.85
4,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...
7262,One year,No,Mailed check,55.15,742.9
7263,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,Month-to-month,Yes,Mailed check,50.30,92.75
7265,Two year,No,Mailed check,67.85,4627.65


#### Tempo de Contrato

In [49]:
clientes_conta['Tempo de Contrato'].describe()

count               7267
unique                 3
top       Month-to-month
freq                4005
Name: Tempo de Contrato, dtype: object

In [50]:
clientes_conta['Tempo de Contrato'].unique()

array(['One year', 'Month-to-month', 'Two year'], dtype=object)

A coluna `Tempo de Contrato`  traz as opções `One year`, `Month-to-month` e `Two year`. 

Traduzindo: `Um ano`, `Mês a mês` e `Dois anos`.

Esta coluna informa o tipo de contrato que o cliente possui.


#### Fatura sem Papel

In [51]:
clientes_conta['Fatura sem Papel'].describe()

count     7267
unique       2
top        Yes
freq      4311
Name: Fatura sem Papel, dtype: object

In [52]:
clientes_conta['Fatura sem Papel'].unique()

array(['Yes', 'No'], dtype=object)

A coluna `Fatura sem Papel`  traz as opções `Yes` e `No`. 

Traduzindo: `Sim` e `Não`.

Esta coluna informa se o cliente recebe o faturamento online


#### Metodo de Pagamento

In [53]:
clientes_conta['Metodo de Pagamento'].describe()

count                 7267
unique                   4
top       Electronic check
freq                  2445
Name: Metodo de Pagamento, dtype: object

In [54]:
clientes_conta['Metodo de Pagamento'].unique()

array(['Mailed check', 'Electronic check', 'Credit card (automatic)',
       'Bank transfer (automatic)'], dtype=object)

In [55]:
clientes_conta['Metodo de Pagamento'].unique()

array(['Mailed check', 'Electronic check', 'Credit card (automatic)',
       'Bank transfer (automatic)'], dtype=object)

#### Gasto Mensal

In [56]:
clientes_conta['Gasto Mensal'].describe()

count    7267.000000
mean       64.720098
std        30.129572
min        18.250000
25%        35.425000
50%        70.300000
75%        89.875000
max       118.750000
Name: Gasto Mensal, dtype: float64

In [57]:
clientes_conta['Gasto Mensal'].dtype

dtype('float64')

A coluna `Gasto Mensal `  traz as opções os valores gasto por mês de cada clientes
Esta coluna já tem os elementos do tipo `float`, sendo assim não será preciso que se faça nenhuma alteração nela


#### Gasto Total

In [58]:
clientes_conta['Gasto Total'].describe()

count     7267
unique    6531
top           
freq        11
Name: Gasto Total, dtype: object

In [59]:
clientes_conta['Gasto Total'].mode()

0        
1    20.2
dtype: object

In [60]:
[clientes_conta['Gasto Total'].value_counts()][0]

           11
20.2       11
19.75       9
19.55       9
19.9        9
           ..
272         1
1426.45     1
371.6       1
6786.4      1
3707.6      1
Name: Gasto Total, Length: 6531, dtype: int64

A coluna `Gasto Total`  traz as informações do total de gasto do cliente em todo o tempo que ele usufrui os serviços da empresa, porém esta coluna está como Objecet e ela deveria esta como float e é possível perceber que existem colunas vazias, por isso esta coluna será observada mais a frente na seção onde serão vistas as inconsistências. 

In [61]:
#Tradução
clientes_conta['Tempo de Contrato']  = clientes_conta['Tempo de Contrato'].map({'One year':'Um Ano','Two year' : 'Dois Anos', 'Month-to-month': 'Mês a mês'})
clientes_conta['Metodo de Pagamento']  = clientes_conta['Metodo de Pagamento'].map({'Mailed check':'Envio de Cheque','Electronic check' : 'Cheque eletrônico', 
                                                                                'Credit card (automatic)': 'Cartão de crédito (Automático)', 'Bank transfer (automatic)' : 'Transferência Bancária (Automático)' })
clientes_conta['Fatura sem Papel']  = clientes_conta['Fatura sem Papel'].map({'Yes': 'Sim', 'No' : 'Não'})
clientes_conta

Id,Tempo de Contrato,Fatura sem Papel,Metodo de Pagamento,Gasto Mensal,Gasto Total
0,Um Ano,Sim,Envio de Cheque,65.60,593.3
1,Mês a mês,Não,Envio de Cheque,59.90,542.4
2,Mês a mês,Sim,Cheque eletrônico,73.90,280.85
3,Mês a mês,Sim,Cheque eletrônico,98.00,1237.85
4,Mês a mês,Sim,Envio de Cheque,83.90,267.4
...,...,...,...,...,...
7262,Um Ano,Não,Envio de Cheque,55.15,742.9
7263,Mês a mês,Sim,Cheque eletrônico,85.10,1873.7
7264,Mês a mês,Sim,Envio de Cheque,50.30,92.75
7265,Dois Anos,Não,Envio de Cheque,67.85,4627.65


In [62]:
#dropando a coluna para facilitar na hora de juntar
clientes.drop(columns = ['Conta'], inplace=True)

### Últimas analises 

In [63]:
clientes

Unnamed: 0,ClienteID,Cancelamento
0,0002-ORFBO,No
1,0003-MKNFE,No
2,0004-TLHLJ,Yes
3,0011-IGKFF,Yes
4,0013-EXCHZ,Yes
...,...,...
7262,9987-LUTYD,No
7263,9992-RRAMN,Yes
7264,9992-UJOEL,No
7265,9993-LHIEB,No


A coluna `ClienteID` não será relevante inicialmente para a nossa analise, sendo assim ela será dropada inicialmente para que os dados fiquem os mais limpos possíveis para serem analisados.

In [64]:
clientes.drop(columns = ['ClienteID'], inplace = True)

In [65]:
# traduzido a coluna Cancelamento
clientes['Cancelamento'] = clientes['Cancelamento'].map({'Yes': 'Sim', 'No': 'Não'})

#### Junção dos DataFrames

In [66]:
clientes = pd.concat([clientes, clientes_informacoes, clientes_telefone, clientes_internet, clientes_conta], axis=1)
clientes

Unnamed: 0,Cancelamento,Gênero,Idoso,Cônjuge,Dependentes,Tempo de Cliente,Telefone,Múltiplas Linhas,Serviço de Internet,Seguro Online,Backup Online,Proteção do Dispositivo,Suporte Técnico,Streaming de Tv,Streaming de Filmes,Tempo de Contrato,Fatura sem Papel,Metodo de Pagamento,Gasto Mensal,Gasto Total
0,Não,F,0,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Um Ano,Sim,Envio de Cheque,65.60,593.3
1,Não,M,0,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mês a mês,Não,Envio de Cheque,59.90,542.4
2,Sim,M,0,Não,Não,4,Sim,Não,Fibra Optica,Não,Não,Sim,Não,Não,Não,Mês a mês,Sim,Cheque eletrônico,73.90,280.85
3,Sim,M,1,Sim,Não,13,Sim,Não,Fibra Optica,Não,Sim,Sim,Não,Sim,Sim,Mês a mês,Sim,Cheque eletrônico,98.00,1237.85
4,Sim,F,1,Sim,Não,3,Sim,Não,Fibra Optica,Não,Não,Não,Sim,Sim,Não,Mês a mês,Sim,Envio de Cheque,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,Não,F,0,Não,Não,13,Sim,Não,DSL,Sim,Não,Não,Sim,Não,Não,Um Ano,Não,Envio de Cheque,55.15,742.9
7263,Sim,M,0,Sim,Não,22,Sim,Sim,Fibra Optica,Não,Não,Não,Não,Não,Sim,Mês a mês,Sim,Cheque eletrônico,85.10,1873.7
7264,Não,M,0,Não,Não,2,Sim,Não,DSL,Não,Sim,Não,Não,Não,Não,Mês a mês,Sim,Envio de Cheque,50.30,92.75
7265,Não,M,0,Sim,Sim,67,Sim,Não,DSL,Sim,Não,Sim,Sim,Não,Sim,Dois Anos,Não,Envio de Cheque,67.85,4627.65


### Inconsistências

#### Verificando a coluna `Idosos`


In [67]:
clientes['Idoso'].dtype

dtype('int64')

Como dito anteriormente a coluna `Idoso` tem o formato de número inteiros, porém com essa coluna serve para indicar se o cliente tem mais de 65 anos ou não, ou ela era preenchida de `Sim` ou `Não`, ou seus valores deveriam ser booleanos, facilitando assim a analise estatista e futuras previsões. 

In [68]:
clientes['Idoso'] = clientes['Idoso'].astype('bool')

In [69]:
clientes['Idoso'].dtype

dtype('bool')

#### Verificando a coluna `Múltiplas Linhas`


Como a coluna `Múltiplas Linhas` traz a possibilidade de o cliente ter mais de uma linha isso, porém se o cliente já possui o serviço de telefonia nessa coluna não se pode encontrar valores do tipo `Sem serviço de Telefone`, pois isso causa um incoerência visto que anteriormente já havia sido dito que ele possui este serviço.

In [70]:
selecao = (clientes['Múltiplas Linhas'] == 'Sem serviço de Telefone') & (clientes['Telefone'] == 'Sim')
print(f'Existem {clientes[selecao].shape[0]} clientes nessa inconsistência')

Existem 0 clientes nessa inconsistência


#### Verificando a coluna `Seguro Online`


As colunas referentes a Internet do cliente são `Serviço de Internet`, `Seguro Online`, `Backup Online`, `Proteção do Dispositivo`, `Streaming de TV` e `Streaming de Filmes`, essa categorias se correlacionam, pois se o cliente possuir algum tipo de `Serviço de Internet`, as outras colunas não podem esta preenchidas por `Sem serviço de Internet`. 


In [71]:
selecao_1 = (clientes['Seguro Online'] == 'Sem serviço de Internet') & (clientes['Serviço de Internet'] == 'Sim')
selecao_2 = (clientes['Backup Online'] == 'Sem serviço de Internet') & (clientes['Serviço de Internet'] == 'Sim')
selecao_3 = (clientes['Proteção do Dispositivo'] == 'Sem serviço de Internet') & (clientes['Serviço de Internet'] == 'Sim')
selecao_4 = (clientes['Streaming de Tv'] == 'Sem serviço de Internet') & (clientes['Serviço de Internet'] != 'Não Possui')
selecao_5 = (clientes['Streaming de Filmes'] == 'Sem serviço de Internet') & (clientes['Serviço de Internet'] != 'Não Possui')
print(f'Nº de Inconsistências em Seguro Online: {clientes[selecao_1].shape[0]}')
print(f'Nº de Inconsistências em Backup Online: {clientes[selecao_2].shape[0]}')
print(f'Nº de Inconsistências em Proteção do Dispositivo: {clientes[selecao_3].shape[0]}')
print(f'Nº de Inconsistências em Streaming de Tv: {clientes[selecao_4].shape[0]}')
print(f'Nº de Inconsistências em Streaming de Filmes: {clientes[selecao_5].shape[0]}')

Nº de Inconsistências em Seguro Online: 0
Nº de Inconsistências em Backup Online: 0
Nº de Inconsistências em Proteção do Dispositivo: 0
Nº de Inconsistências em Streaming de Tv: 0
Nº de Inconsistências em Streaming de Filmes: 0


#### Verificando a coluna `Gasto Total`


A coluna `Gasto Total` está no formato objeto, mas para que se possa trabalhar melhor a estatística do DataFrame e até mesmo para se ter um modelo de Machine Learning mais preciso, é preciso que esta coluna esteja como `float`, pois assim se poderá trabalhar com os números de cada cliente. 

In [72]:
# Trocando a separação da casa decimal por ponto em vez de virgula 
clientes['Gasto Total'] = clientes['Gasto Total'].replace(',', '.')

Anteriormente já havia sido observado um valor inconsistente para essa coluna, um valor vazio, por isso é preciso que se analise melhor esses dados.


In [73]:
clientes['Gasto Total'].value_counts()

           11
20.2       11
19.75       9
19.55       9
19.9        9
           ..
272         1
1426.45     1
371.6       1
6786.4      1
3707.6      1
Name: Gasto Total, Length: 6531, dtype: int64

In [74]:
(clientes['Gasto Total'] == ' ').sum()

11

In [75]:
clientes[clientes['Gasto Total'] == ' '][['Tempo de Cliente', 'Metodo de Pagamento', 'Gasto Mensal', 'Gasto Total']]

Unnamed: 0,Tempo de Cliente,Metodo de Pagamento,Gasto Mensal,Gasto Total
975,0,Cartão de crédito (Automático),56.05,
1775,0,Envio de Cheque,20.0,
1955,0,Transferência Bancária (Automático),61.9,
2075,0,Envio de Cheque,19.7,
2232,0,Envio de Cheque,20.25,
2308,0,Envio de Cheque,25.35,
2930,0,Envio de Cheque,73.35,
3134,0,Envio de Cheque,25.75,
3203,0,Transferência Bancária (Automático),52.55,
4169,0,Envio de Cheque,80.85,


Estes 11 clientes que não possuem `Gasto Total`, são clientes novos, não completaram um mês ainda como clientes, então para preencher esse campos faltes a coluna Gasto Total será o valor da Coluna Mensal, tendo em vista que esse valor será cobrado a ele ao final do seu primeiro mês com cliente.

In [76]:
clientes[clientes['Gasto Total']==0] = clientes['Gasto Mensal'] 

In [77]:
clientes['Gasto Total'] = pd.to_numeric(clientes['Gasto Total'], errors = 'coerce')

In [78]:
clientes['Gasto Total'].dtype

dtype('float64')

#### Verificando a coluna `Cancelamento`


In [79]:
clientes['Cancelamento'].unique()

array(['Não', 'Sim', nan], dtype=object)

In [80]:
(clientes['Cancelamento'] == '').sum()

0


Por fim ao verificar os valores da coluna `Cancelamento`, nota-se que existe um valor que não satisfaz a necessidade do nosso estudo, por mais que a coluna não traga valores vazios, ela traz um valor de uma string sem conteúdo, sendo assim algo bem parecido com um valor vazio, e como o objetivo principal de estudo da analise é justamente a taxa de Chrun, esses  224 clientes serão retirados do DataFrame para que se possa fazer um estudo melhor dos valores.


In [81]:
clientes = clientes[clientes['Cancelamento'] != '']

In [82]:
# resetando o index
clientes.reset_index()

Unnamed: 0,index,Cancelamento,Gênero,Idoso,Cônjuge,Dependentes,Tempo de Cliente,Telefone,Múltiplas Linhas,Serviço de Internet,Seguro Online,Backup Online,Proteção do Dispositivo,Suporte Técnico,Streaming de Tv,Streaming de Filmes,Tempo de Contrato,Fatura sem Papel,Metodo de Pagamento,Gasto Mensal,Gasto Total
0,0,Não,F,False,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Um Ano,Sim,Envio de Cheque,65.60,593.30
1,1,Não,M,False,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mês a mês,Não,Envio de Cheque,59.90,542.40
2,2,Sim,M,False,Não,Não,4,Sim,Não,Fibra Optica,Não,Não,Sim,Não,Não,Não,Mês a mês,Sim,Cheque eletrônico,73.90,280.85
3,3,Sim,M,True,Sim,Não,13,Sim,Não,Fibra Optica,Não,Sim,Sim,Não,Sim,Sim,Mês a mês,Sim,Cheque eletrônico,98.00,1237.85
4,4,Sim,F,True,Sim,Não,3,Sim,Não,Fibra Optica,Não,Não,Não,Sim,Sim,Não,Mês a mês,Sim,Envio de Cheque,83.90,267.40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,7262,Não,F,False,Não,Não,13,Sim,Não,DSL,Sim,Não,Não,Sim,Não,Não,Um Ano,Não,Envio de Cheque,55.15,742.90
7263,7263,Sim,M,False,Sim,Não,22,Sim,Sim,Fibra Optica,Não,Não,Não,Não,Não,Sim,Mês a mês,Sim,Cheque eletrônico,85.10,1873.70
7264,7264,Não,M,False,Não,Não,2,Sim,Não,DSL,Não,Sim,Não,Não,Não,Não,Mês a mês,Sim,Envio de Cheque,50.30,92.75
7265,7265,Não,M,False,Sim,Sim,67,Sim,Não,DSL,Sim,Não,Sim,Sim,Não,Sim,Dois Anos,Não,Envio de Cheque,67.85,4627.65


In [83]:
gastos = clientes[['Gasto Mensal','Gasto Total']]
clientes.drop(columns = ['Gasto Mensal', 'Gasto Total'], inplace=True)
# clientes.drop(columns = ['Gasto Total'], implace=True)
clientes['Gasto Diário'] = (gastos['Gasto Mensal'] / 30).round(2)

In [84]:
clientes = pd.concat([clientes, gastos], axis=1)
clientes.head()

Unnamed: 0,Cancelamento,Gênero,Idoso,Cônjuge,Dependentes,Tempo de Cliente,Telefone,Múltiplas Linhas,Serviço de Internet,Seguro Online,Backup Online,Proteção do Dispositivo,Suporte Técnico,Streaming de Tv,Streaming de Filmes,Tempo de Contrato,Fatura sem Papel,Metodo de Pagamento,Gasto Diário,Gasto Mensal,Gasto Total
0,Não,F,False,Sim,Sim,9,Sim,Não,DSL,Não,Sim,Não,Sim,Sim,Não,Um Ano,Sim,Envio de Cheque,2.19,65.6,593.3
1,Não,M,False,Não,Não,9,Sim,Sim,DSL,Não,Não,Não,Não,Não,Sim,Mês a mês,Não,Envio de Cheque,2.0,59.9,542.4
2,Sim,M,False,Não,Não,4,Sim,Não,Fibra Optica,Não,Não,Sim,Não,Não,Não,Mês a mês,Sim,Cheque eletrônico,2.46,73.9,280.85
3,Sim,M,True,Sim,Não,13,Sim,Não,Fibra Optica,Não,Sim,Sim,Não,Sim,Sim,Mês a mês,Sim,Cheque eletrônico,3.27,98.0,1237.85
4,Sim,F,True,Sim,Não,3,Sim,Não,Fibra Optica,Não,Não,Não,Sim,Sim,Não,Mês a mês,Sim,Envio de Cheque,2.8,83.9,267.4
