<a href="https://colab.research.google.com/github/jackson-gaivota/challenge_alura_DS/blob/main/challenge_alura_DS_2022_05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Challenge Alura - Data Science

**Boas-vindas!**

Você foi contratado(a) como cientista de dados pela operadora de telecomunicações **Alura Voz**. Na reunião inicial com as pessoas responsáveis pela área de vendas da empresa, foi explicada a importância de se **reduzir a Taxa de Evasão** de Clientes, conhecido como **Churn Rate**. Basicamente, o Churn Rate indica o quanto a empresa perdeu de receita ou clientes em um período de tempo.

Com sua experiência, você sugere, como passo inicial, a identificação de clientes que teriam uma maior chance de deixar a empresa. Para isso, você explica que é interessante investigar algumas características de clientes ou dos planos de clientes para tentar **CLASSIFICAR** estas pessoas como potenciais candidatas a deixar a empresa ou não.

Assim, você solicita o conjunto de dados para começar a explorar, tratar e modelar a partir de agora. Em seguida, o foco será na otimização de cada um dos modelos com a finalidade de obter o melhor resultado para a tomada de decisão da **Alura Voz**. 

Por fim, você vai utilizar o **GitHub** e desenvolverá um **portfólio** focado em Data Science e Machine Learning.

# Semana 1

Na semana 1 o foco será em conhecer a base dados originada da API da **Alura Voz**, explorando as variáveis e corrigindo possíveis inconsistências. Para isso, é importante visualizar o dicionário das variáveis que iremos trabalhar.

#### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa 
* `gender`: gênero (masculino e feminino) 
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos 
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico 
* `MultipleLines`: assisnatura de mais de uma linha de telefone 
* `InternetService`: assinatura de um provedor internet 
* `OnlineSecurity`: assinatura adicional de segurança online 
* `OnlineBackup`: assinatura adicional de backup online 
* `DeviceProtection`: assinatura adicional de proteção no dispositivo 
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo 
* `StreamingMovies`: assinatura de streaming de filmes 
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

In [1]:
# importando pacotes e lendo base de dados
import pandas as pd

raw_data = pd.read_json('https://raw.githubusercontent.com/jackson-simionato/challenge_alura_DS01/main/alura-voz/Dados/Telco-Customer-Churn.json')
raw_data

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
...,...,...,...,...,...,...
7262,9987-LUTYD,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
7263,9992-RRAMN,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7264,9992-UJOEL,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7265,9993-LHIEB,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Two year', 'PaperlessBilling': '..."


Como foi possível observar acima, uma série de variáveis foi agrupada em subcategorias: *customer*, *phone*, *internet* e *account*.

Nesse caso, precisamos desagregar tais variáveis em dataframes separados, para então concatenar tudo em um dataframe final.

# Desagregar as colunas da base de dados

In [2]:
# Dataframes individuais
customer_data = pd.json_normalize(raw_data.customer)
phone_data = pd.json_normalize(raw_data.phone)
internet_data = pd.json_normalize(raw_data.internet)
account_data = pd.json_normalize(raw_data.account)

# Concatenação de todos os dataframes
dados = pd.concat([raw_data[['customerID','Churn']], customer_data, phone_data, internet_data, account_data], axis=1)
print(dados.shape)
display(dados.head())

(7267, 21)


Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


Com todas as variáveis sendo apresentadas corretamente no nosso DataFrame, podemos começar a conhecer e entender melhor nossos dados.

# Conhecendo e entendendo os dados

Para facilitar a compreensão das variáveis e suas informações, vamos traduzir o nome das colunas de acordo com o dicionário disponibilizado

#### Dicionário de dados

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa 
* `gender`: gênero (masculino e feminino) 
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos 
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico 
* `MultipleLines`: assisnatura de mais de uma linha de telefone 
* `InternetService`: assinatura de um provedor internet 
* `OnlineSecurity`: assinatura adicional de segurança online 
* `OnlineBackup`: assinatura adicional de backup online 
* `DeviceProtection`: assinatura adicional de proteção no dispositivo 
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo 
* `StreamingMovies`: assinatura de streaming de filmes 
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

In [3]:
# Criação das listas com nomes antigos e novos das colunas
old_columns = dados.columns
new_columns =['id_cliente','churn','genero','idoso','parceiro','dependentes','meses_contrato','servico_telefone','multiplas_linhas','servico_internet','seguranca_online','backup_online',
'protecao_dispositivo','suporte','streaming_tv','streaming_filmes','contrato','fatura_online','forma_pagamento','cobranca_mensal','cobranca_total']

print(len(old_columns) == len(new_columns))

# Criação dicionário que irá renomear as colunas
dict_rename_columns = dict(zip(old_columns,new_columns))

# Renomeação das colunas
dados.rename(columns=dict_rename_columns, inplace=True)

True


In [4]:
# Visualização das colunas renomeadas e respectivos tipos de dados
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id_cliente            7267 non-null   object 
 1   churn                 7267 non-null   object 
 2   genero                7267 non-null   object 
 3   idoso                 7267 non-null   int64  
 4   parceiro              7267 non-null   object 
 5   dependentes           7267 non-null   object 
 6   meses_contrato        7267 non-null   int64  
 7   servico_telefone      7267 non-null   object 
 8   multiplas_linhas      7267 non-null   object 
 9   servico_internet      7267 non-null   object 
 10  seguranca_online      7267 non-null   object 
 11  backup_online         7267 non-null   object 
 12  protecao_dispositivo  7267 non-null   object 
 13  suporte               7267 non-null   object 
 14  streaming_tv          7267 non-null   object 
 15  streaming_filmes     

Percebe-se que não existem valores NaN no nosso dataset e ainda que ocorrem apenas três variáveis numéricas. Vamos analisá-las primeiro

In [13]:
# Apesar de ser numérica, a variável "idoso" representa uma classificação dos usuários quanto à idade (0 = idade menor que 65 anos; 1 = idade maior que 65 anos). 
# Neste caso de variável categórica, o mais indicado seria usar tipo string ("Yes" e "No").
print(dados.idoso.value_counts())

0    6085
1    1182
Name: idoso, dtype: int64


In [16]:
# Já os valores das variáveis "meses_contrato" e "cobranca_mensal" representam efetivamente números.
print(f'Média de meses de contrato: {round(dados.meses_contrato.mean(),2)} meses')
print(f"Mediana do valor de cobrança mensal: {round(dados.cobranca_mensal.median(),2)}")

Média de meses de contrato: 32.35 meses
Mediana do valor de cobrança mensal: 70.3


In [23]:
# A outra variável que traz informação do preço cobrado de cada cliente não está com tipo de dado numérico
print(dados.cobranca_total.dtypes)

# Analisando com mais detalhe é possível identificar uma nova inconsistência: os números estão sendo lidos como strings
print(type(dados.loc[0,'cobranca_total']))

object
<class 'str'>


Com isso vimos duas inconsistências relacionadas às categorias numéricas. Mais à frente vamos trabalhar na correção destes erros.

Agora vamos olhar para as variáveis categóricas presentes no nosso dataset.

In [28]:
print(dados.genero.unique())

print(dados.fatura_online.unique())

print(dados.streaming_filmes.unique())

print(dados.dependentes.unique())

['Female' 'Male']
['Yes' 'No']
['No' 'Yes' 'No internet service']
['Yes' 'No']


Na celula abaixo é possível ver que as variáveis trazem realmente informações de categoria, sem nenhuma inconcistência.

Por fim, vamos analisar com maior detalhe a nossa variável principal ("churn"), que é o atributo classe do nosso dataset.

In [31]:
# Identificação de valores nulos no atributo "churn"
print(dados.churn.unique())
print(dados.churn.value_counts())

['No' 'Yes' '']
No     5174
Yes    1869
        224
Name: churn, dtype: int64


Assim, identificamos mais uma inconsistência, já que um espaço vazio na coluna "churn" não traz nenhuma informação relevante para o problema da análise de churn

### Corrigindo as inconsistências: `idoso`

In [32]:
# Neste caso vamos fazer uma simples conversão de 0/1 para "No"/"Yes"
dados.loc[dados.idoso == 0, 'idoso'] = "No"
dados.loc[dados.idoso == 1, 'idoso'] = "Yes"

print(dados.idoso.value_counts())

No     6085
Yes    1182
Name: idoso, dtype: int64


### Corrigindo as inconsistências: `cobranca_total`

In [33]:
# Primeiro vamos tentar uma conversão direta da coluna de string para float
dados.cobranca_total == dados.cobranca_total.astype(float)

ValueError: could not convert string to float: 

Vimos que não é possível a conversão direta, possivelmente por conta da presença de valores não numéricos na coluna "cobranca_total"

In [42]:
for index, row in dados.iterrows()[0:10]:
    print(row)

TypeError: 'generator' object is not subscriptable