#Challenge de Dados Alura - Semana 1

Esse notebook é parte de uma atividade da plataforma ALURA, para aprendizado de dados. Ao longo de 4 semanas será realizado a criação de um modelo de classificação a partir de dados de uma empresa de Telecomunicações fictícia.

Mais detalhes sobre o que deveria ser realizado no projeto desse notebook estão presentes aqui:

https://trello.com/b/gS5YWlzF/challenge-dados-2-edi%C3%A7%C3%A3o-semana-1

##Importando as Bibliotecas do Projeto

In [None]:
import pandas as pd
import requests


##Importando os Dados

  Importando o Arquivo JSON e Transformando num DataFrame

In [None]:
json_url = "https://challenge-data-science-3ed.s3.amazonaws.com/Telco-Customer-Churn.json"
response = requests.get(json_url)
json_data = response.json()

dados = pd.DataFrame(json_data)

In [None]:
dados

Unnamed: 0,customerID,Churn,customer,phone,internet,account
0,0002-ORFBO,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
1,0003-MKNFE,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
2,0004-TLHLJ,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
3,0011-IGKFF,Yes,"{'gender': 'Male', 'SeniorCitizen': 1, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
4,0013-EXCHZ,Yes,"{'gender': 'Female', 'SeniorCitizen': 1, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
...,...,...,...,...,...,...
7262,9987-LUTYD,No,"{'gender': 'Female', 'SeniorCitizen': 0, 'Part...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'One year', 'PaperlessBilling': '..."
7263,9992-RRAMN,Yes,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'Yes'}","{'InternetService': 'Fiber optic', 'OnlineSecu...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7264,9992-UJOEL,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Month-to-month', 'PaperlessBilli..."
7265,9993-LHIEB,No,"{'gender': 'Male', 'SeniorCitizen': 0, 'Partne...","{'PhoneService': 'Yes', 'MultipleLines': 'No'}","{'InternetService': 'DSL', 'OnlineSecurity': '...","{'Contract': 'Two year', 'PaperlessBilling': '..."


O dicionário dos dados presente no link: https://challenge-data-science-3ed.s3.amazonaws.com/dicionario.md

* `customerID`: número de identificação único de cada cliente
* `Churn`: se o cliente deixou ou não a empresa
* `gender`: gênero (masculino e feminino)
* `SeniorCitizen`: informação sobre um cliente ter ou não idade igual ou maior que 65 anos
* `Partner`:  se o cliente possui ou não um parceiro ou parceira
* `Dependents`: se o cliente possui ou não dependentes
* `tenure`:  meses de contrato do cliente
* `PhoneService`: assinatura de serviço telefônico
* `MultipleLines`: assisnatura de mais de uma linha de telefone
* `InternetService`: assinatura de um provedor internet
* `OnlineSecurity`: assinatura adicional de segurança online
* `OnlineBackup`: assinatura adicional de backup online
* `DeviceProtection`: assinatura adicional de proteção no dispositivo
* `TechSupport`: assinatura adicional de suporte técnico, menos tempo de espera
* `StreamingTV`: assinatura de TV a cabo
* `StreamingMovies`: assinatura de streaming de filmes
* `Contract`: tipo de contrato
* `PaperlessBilling`: se o cliente prefere receber online a fatura
* `PaymentMethod`: forma de pagamento
* `Charges.Monthly`: total de todos os serviços do cliente por mês
* `Charges.Total`: total gasto pelo cliente

##Normalizando a base de dados

In [None]:
from pandas import json_normalize

# Lista de colunas não aninhadas
colunas_nao_aninhadas = ['customerID', 'Churn']

# Lista de colunas com dados JSON aninhados
colunas_aninhadas = ['customer', 'phone', 'internet', 'account']

# Criar um novo DataFrame para armazenar os dados normalizados
dados_normalizados = pd.DataFrame()

# Iterar através de cada coluna aninhada e normalizá-la
for col in colunas_aninhadas:
    dados_desaninhados = json_normalize(dados[col])
    dados_normalizados = pd.concat([dados_normalizados, dados_desaninhados], axis=1)

# Concatenar as colunas não aninhadas
dados_normalizados = pd.concat([dados[colunas_nao_aninhadas], dados_normalizados], axis=1)

In [None]:
dados_normalizados

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,...,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges.Monthly,Charges.Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,...,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.60,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,...,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.90,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,...,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.90,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,...,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.00,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,...,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.90,267.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7262,9987-LUTYD,No,Female,0,No,No,13,Yes,No,DSL,...,No,No,Yes,No,No,One year,No,Mailed check,55.15,742.9
7263,9992-RRAMN,Yes,Male,0,Yes,No,22,Yes,Yes,Fiber optic,...,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,85.10,1873.7
7264,9992-UJOEL,No,Male,0,No,No,2,Yes,No,DSL,...,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,50.30,92.75
7265,9993-LHIEB,No,Male,0,Yes,Yes,67,Yes,No,DSL,...,No,Yes,Yes,No,Yes,Two year,No,Mailed check,67.85,4627.65


##Análise e limpeza inicial dos Dados

Descrição Estatística dos Valores Numéricos

Analisando Tipos de Dados de Cada Coluna

In [None]:
pd.DataFrame(dados_normalizados.dtypes)

Unnamed: 0,0
customerID,object
Churn,object
gender,object
SeniorCitizen,int64
Partner,object
Dependents,object
tenure,int64
PhoneService,object
MultipleLines,object
InternetService,object


Aqui vemos um problema, nossa variável Charges.Total deveria ser uma variável numérica contínua, vamos corrigir o problema abaixo. Para a conversão dar certo, precisamos primeiro primeiro verificar e limpar qualquer valor vazio que esteja presente na coluna.

In [None]:
# Contar o número de valores de string vazios na coluna "Charges.Total"
contagem_strings_vazias = (dados_normalizados['Charges.Total'].str.strip() == '').sum()

# Exibir o resultado
print(f"A coluna 'Charges.Total' possui {contagem_strings_vazias} valores de string vazios.")

A coluna 'Charges.Total' possui 11 valores de string vazios.


In [None]:
# Eliminar entradas com strings vazias na coluna "Charges.Total"
dados_normalizados = dados_normalizados[dados_normalizados['Charges.Total'].str.strip() != '']

# Obter a contagem de entradas no DataFrame
contagem_entradas = dados_normalizados.shape[0]

# Exibir a contagem de entradas
print(f"O DataFrame possui {contagem_entradas} entradas após a limpeza dos valores vazios")

O DataFrame possui 7256 entradas após a limpeza dos valores vazios


In [None]:
#Convertendo a coluna para o tipo Float após a limpeza
dados_normalizados['Charges.Total'] = dados_normalizados['Charges.Total'].astype(float)
dados_normalizados['Charges.Total'].dtypes



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



dtype('float64')

Também precisamos converter a variável SeniorCitizem em uma variável categórica

In [None]:
dados_normalizados['SeniorCitizen'] = dados_normalizados['SeniorCitizen'].astype(str)
dados_normalizados['SeniorCitizen'].dtypes

dtype('O')

Analisando os valores presentes para cada coluna dos nossos dados

In [None]:
unique_values = [dados_normalizados[col].unique() for col in dados_normalizados.columns]

unique_df = pd.DataFrame([unique_values], columns=dados_normalizados.columns)
unique_df = unique_df.T
unique_df

Unnamed: 0,0
customerID,"[0002-ORFBO, 0003-MKNFE, 0004-TLHLJ, 0011-IGKF..."
Churn,"[No, Yes]"
gender,"[Female, Male]"
SeniorCitizen,"[0, 1]"
Partner,"[Yes, No]"
Dependents,"[Yes, No]"
tenure,"[9, 4, 13, 3, 71, 63, 7, 65, 54, 72, 5, 56, 34..."
PhoneService,"[Yes, No]"
MultipleLines,"[No, Yes, No phone service]"
InternetService,"[DSL, Fiber optic, No]"


In [None]:
# Contar valores nulos em cada coluna do DataFrame
contagem_valores_nulos_por_coluna = dados_normalizados.isnull().sum()

# Criar um novo DataFrame com a contagem de valores nulos por coluna
df_contagem_valores_nulos = pd.DataFrame(contagem_valores_nulos_por_coluna, columns=['Quantidade de Nulos'])

# Exibir o DataFrame de contagem de valores nulos
df_contagem_valores_nulos

Unnamed: 0,Quantidade de Nulos
customerID,0
Churn,0
gender,0
SeniorCitizen,0
Partner,0
Dependents,0
tenure,0
PhoneService,0
MultipleLines,0
InternetService,0


Apesar da variável Churn não ter valores nulos, vemos pelos seus valores únicos que ela possui entradas com valores vazios " ". Vamos verificar o tamanho disso.

In [None]:
# Contar o número de valores de string vazios na coluna "Churn"
contagem_strings_vazias = (dados_normalizados['Churn'].str.strip() == '').sum()

# Exibir o resultado
print(f"A coluna 'Churn' possui {contagem_strings_vazias} valores de string vazios.")

A coluna 'Churn' possui 224 valores de string vazios.


Como ela é nossa variável target para análise, precisamos limpar esses valores para seguir.

In [None]:
# Eliminar entradas com strings vazias na coluna "Churn"
dados_normalizados = dados_normalizados[dados_normalizados['Churn'].str.strip() != '']

# Obter a contagem de entradas no DataFrame
contagem_entradas = dados_normalizados.shape[0]

# Exibir a contagem de entradas
print(f"O DataFrame possui {contagem_entradas} entradas após a limpeza dos valores vazios")

O DataFrame possui 7032 entradas após a limpeza dos valores vazios


dtype('O')

In [None]:
dados_normalizados.describe()

Unnamed: 0,SeniorCitizen,tenure,Charges.Monthly,Charges.Total
count,7032.0,7032.0,7032.0,7032.0
mean,0.1624,32.421786,64.798208,2283.300441
std,0.368844,24.54526,30.085974,2266.771362
min,0.0,1.0,18.25,18.8
25%,0.0,9.0,35.5875,401.45
50%,0.0,29.0,70.35,1397.475
75%,0.0,55.0,89.8625,3794.7375
max,1.0,72.0,118.75,8684.8


##Analisando a Variável Alvo: Churn

Distribuição da variável gênero por Churn

In [None]:
import plotly.express as px

# Criar um gráfico de barras horizontal usando o Plotly Express
fig = px.bar(dados_normalizados, y='gender', color='Churn', title='Distribuição de Gênero em relação ao Churn', orientation='h')

# Mostrar o gráfico
fig.show()

Distribuição da variável InternetService por Churn

In [None]:
# Criar um gráfico de barras horizontal usando o Plotly Express
fig = px.bar(dados_normalizados, y='InternetService', color='Churn', title='Distribuição de Serviço de Internet em relação ao Churn', orientation='h')

# Mostrar o gráfico
fig.show()

Distribuição da variável OnlineSecurity por Churn

In [None]:
# Criar um gráfico de barras horizontal usando o Plotly Express
fig = px.bar(dados_normalizados, y='OnlineSecurity', color='Churn', title='Distribuição de OnlineSecurity em relação ao Churn', orientation='h')

# Mostrar o gráfico
fig.show()

Distribuição da variável DeviceProtection por Churn

In [None]:
# Criar um gráfico de barras horizontal usando o Plotly Express
fig = px.bar(dados_normalizados, y='DeviceProtection', color='Churn', title='Distribuição de DeviceProtection em relação ao Churn', orientation='h')

# Mostrar o gráfico
fig.show()

Distribuição da variável TechSupport por Churn


In [None]:
# Criar um gráfico de barras horizontal usando o Plotly Express
fig = px.bar(dados_normalizados, y='TechSupport', color='Churn', title='Distribuição de TechSupport em relação ao Churn', orientation='h')

# Mostrar o gráfico
fig.show()

Distribuição da variável Contract por Churn


In [None]:
# Criar um gráfico de barras horizontal usando o Plotly Express
fig = px.bar(dados_normalizados, y='Contract', color='Churn', title='Distribuição de tipo de contrato em relação ao Churn', orientation='h')

# Mostrar o gráfico
fig.show()

Distribuição da variável PaymentMethod por Churn

In [None]:
# Criar um gráfico de barras horizontal usando o Plotly Express
fig = px.bar(dados_normalizados, y='PaymentMethod', color='Churn', title='Distribuição de método de pagamento em relação ao Churn', orientation='h')

# Mostrar o gráfico
fig.show()

Distribuição da variável SeniorCitizen por Churn


In [None]:
# Criar um gráfico de barras horizontal usando o Plotly Express
fig = px.bar(dados_normalizados, y='SeniorCitizen', color='Churn', title='Distribuição de Clientes Idosos em relação ao Churn', orientation='h')

# Mostrar o gráfico
fig.show()

Distribuição em Boxplot para as Variáveis Numéricas

In [None]:
# Create a box plot using Plotly Express
fig = px.box(dados_normalizados, x='Churn', y='Charges.Monthly', title='Valor Pago Mensal em U$ vs Churn')

# Show the plot
fig.show()

In [None]:
# Create a box plot using Plotly Express
fig = px.box(dados_normalizados, x='Churn', y='Charges.Total', title='Valor Pago Total em U$ vs Churn')

# Show the plot
fig.show()

In [None]:
# Create a box plot using Plotly Express
fig = px.box(dados_normalizados, x='Churn', y='tenure', title='Meses de Contrato do Cliente vs Churn')

# Show the plot
fig.show()

##Conclusões Gerais

De maneira geral, podemos ver que o número de é cancelamentos é significativamente maior para os clientes que:


- Contrataram serviço de fibra ótica
- NÃO contrataram os serviços de:
	- Online Security
	- Device Protection
	- Tech Support
- Pagam via boleto eletrônico
- Tem contrato mensal


Também podemos concluir que os clientes que realizaram cancelamento:
- Pagam um valor médio maior em suas mensalidades;
- Tendem a ser clientes por muito menos tempo (mediana de 10 meses vs 38 meses dos que não realizaram cancelamento)
