In [None]:
import pandas as pd

## Criar DataFrames com base nos Datasets

In [None]:
# Carregar Dataframe de Clientes(Customers)
df_customers = pd.read_csv('./datasets/churn_customers.csv')

In [None]:
# Mostrar 5 primeiros registros do DataFrame
df_customers.head(5)

In [None]:
# Mostrar 5 últimos registros 
df_customers.tail(5)

In [None]:
# Mostrar estrutura / schema do DataFrame
df_customers.info()

In [None]:
# Carregar Dataframe de Serviços(Services)
df_services = pd.read_csv('./datasets/churn_services.csv')

In [None]:
# Mostrar 5 primeiros registros do DataFrame
df_services.head(5)

In [None]:
# Mostrar 5 últimos registros 
df_services.tail(5)

In [None]:
# Mostrar estrutura / schema do DataFrame
df_services.info()

In [None]:
# Carregar Dataframe de Contrato(contracts)
df_contracts = pd.read_csv('./datasets/churn_contracts.csv')

In [None]:
# Visualizar 5 primeiras linhas
df_contracts.head(5)

In [None]:
# Visualizar 5 últimas linhas do DataFrame
df_contracts.tail(5)

In [None]:
# Mostrar estrutura / schema do DataFrame
df_contracts.info()

## Transformação de Dados

In [None]:
# Transformar coluna TotalCharges de String para Float - Abordagem 1 com astype
# df_contracts['TotalCharges'] = df_contracts['TotalCharges'].astype(float)
# Erro 

In [None]:
# Transformar coluna TotalCharges de String para Float - Abordagem 2 (to_numeric)
# df_contracts['TotalCharges'] = pd.to_numeric(df_contracts['TotalCharges'])
# Erro

In [None]:
# Transformar coluna TotalCharges de String pra Float - Abordagem 3 (to_numeric com coerce)
df_contracts['TotalCharges'] = pd.to_numeric(df_contracts['TotalCharges'], errors='coerce')

In [None]:
# Mostrar estrutura / schema do DataFrame
df_contracts.info()

Após a tranformação da coluna TotalCharges do Dataframe Contracts, a coluna passou a ter 11 valores ausentes (missing values)

## Renomear Colunas

In [None]:
df_customers.info()

In [None]:
# Renomear coluna no DataFrame, usando rename e dicionário
df_customers.rename(columns={'SeniorCitizen': 'Above65yo'})

In [None]:
df_customers.info()

In [None]:
# Criar um Dataframe novo com base nas colunas renomeadas
df_customers_renamed = df_customers.rename(columns={'SeniorCitizen': 'Above65yo'})

In [None]:
# Mostrar estrutura do Dataframe novo
df_customers_renamed.info()

In [None]:
# Aplicar o resultado do rename no próprio Dataframe
df_customers.rename(columns={'SeniorCitizen': 'Above65yo'}, inplace=True)

In [None]:
# Visualizar Estrutura
df_customers.info()

In [None]:
# Rename usando Lista - Modificar todos os nomes de colunas
df_customers.columns = ['IDCliente', 'Genero', 'Mais65anos', 'TemParceiro', 'TemDependentes']

In [None]:
# Mostrar estrutura
df_customers.info()

## Unificar Dataframes de Customers, Services e Contracts

In [None]:
# Contar quantidade de registros por Dataframe
len(df_customers)

In [None]:
len(df_services)

In [None]:
len(df_contracts)

In [None]:
# Renomear colunas
df_services.rename(columns={'customerID': 'IDCliente'}, inplace=True)

In [None]:
df_services.info()

In [None]:
# Unificar Dataframe de Customers com Services, criando um terceiro DataFrame
df_temp = df_customers.merge(df_services, on=['IDCliente'])

In [None]:
# Mostrar estrutura dataframe temp
df_temp.info()

In [None]:
df_temp.head(5)

In [None]:
# Unificar df_temp com df_contracts, usando colunas de junçãoo com nomes distintos
df_churn_temp = df_temp.merge(df_contracts, left_on=['IDCliente'], right_on=['customerID'])

In [None]:
df_churn_temp.info()

In [None]:
# Unificar os três dataframes ao mesmo tempo, com colunas com nomes diferentes
df_churn = df_customers.merge(df_services, on=['IDCliente']).merge(df_contracts, left_on=['IDCliente'], right_on=['customerID'])

In [None]:
df_churn.info()

In [None]:
# Removendo coluna de um Dataframe
df_churn.drop(['customerID'], axis=1, inplace=True)

In [None]:
df_churn.info()

## Detecção de Valores ausentes

In [None]:
# Detectar Valores ausentes em todas as colunas de um DataFrame
df_churn.isna().sum()

In [None]:
# Detectar valores ausentes em uma coluna 
df_churn.TotalCharges.isna().sum()

In [None]:
# Quantas linhas tem pelo menos 1 coluna com valor ausente
df_churn[df_churn.isna().any(axis=1)]

In [None]:
# Quantas colunas tem pelo menso 1 Valor Ausente
df_churn.isna().any(axis=0).sum()

## Remover valores ausentes

In [None]:
# Remover de forma direta e específica a coluna que possui valores ausentes
df_churn.drop(columns=['TotalCharges'], axis=1)

In [None]:
# Remover colunas com valores ausentes
df_churn.dropna(axis=1)

In [None]:
# Remover colunas onde todos os valores são ausentes
df_churn.dropna(axis=1, how='all')

In [None]:
# Remover linhas com valores ausentes
df_churn.dropna(axis=0)

In [None]:
# Remover linhas com todos os valores ausentes
df_churn.dropna(axis=0, how='all')

## Imputação de Valores Ausentes

In [None]:
# Preencher todos os valores ausentes com 0
df_churn.fillna(0)

In [None]:
# Preencher valores padrão conforme a coluna
df_churn.fillna(value={'TotalCharges': 0})

In [None]:
# Preencher todos os valores ausentes de uma coluna com a média
media_TotalCharges = df_churn.TotalCharges.mean()

In [None]:
media_TotalCharges

In [None]:
df_churn.fillna(value={'TotalCharges': media_TotalCharges})

## Análise Univariada

- A faixa etária do cliente tem uma forte associação com o churn
- Um cliente com menos de 6 meses de contrato é mais propenso ao Churn
- Cliente com contrato mensal é mais propenso ao Churn

In [None]:
# Contar clientes usando a variável Churn como referência
df_churn.Churn.value_counts()

In [None]:
# Como identificar valores possíveis (únicos) numa variável do DataFrame
df_churn.Churn.unique()

In [None]:
# Como é a distribuição de Clientes (percentualmente falando) que abandonaram ou continuam ativos
df_churn.Churn.value_counts(normalize=True)

In [None]:
# Plot distribuição Churn (Quantidade)
ax = df_churn.Churn.value_counts().plot.bar()

ax.bar_label(ax.containers[0])

In [None]:
# Plot distribuição Churn (Percentual)
ax = df_churn.Churn.value_counts(normalize=True).plot.bar()

ax.bar_label(ax.containers[0])

In [None]:
# Quais são os tipos de contrato
df_churn.Contract.unique()

In [None]:
# Plot distribuição Contract (Quantidade)
ax = df_churn.Contract.value_counts().plot.bar()

ax.bar_label(ax.containers[0])

In [None]:
# Plot distribuição Contract (Percentual)
ax = df_churn.Contract.value_counts(normalize=True).plot.bar()

ax.bar_label(ax.containers[0])

In [None]:
# Histograma do Tempo de Contrato
df_churn.tenure.plot.hist()

- A variável tempo de contrato (tenure) não apresenta visualmente uma distribuição normal
- A grande parte dos valores se concentram nos extremos, ou seja, contratos com poucos meses de ativação e contratos longos, acima aproximadamente dos 65 meses.

In [None]:
# Histograma do Monthly Charges
df_churn.MonthlyCharges.plot.hist()

In [None]:
# Medidas de Posição - Média Tempo de Contrato
df_churn.tenure.mean()

In [None]:
# Medidas de Posição - Mediana Tempo de Contrato
df_churn.tenure.median()

In [None]:
# Medidas de Posição - Moda Tempo de Contrato
df_churn.tenure.mode()

In [None]:
# Medidas de Dispersão - Desvio Padrão Tempo de Contrato
df_churn.tenure.std()

In [None]:
# Medidas de Dispersão - Coeficiente de Variação
df_churn.tenure.std() / df_churn.tenure.mean() * 100

In [None]:
# Quantos clientes possuem 1 mês de contrato - Filtro
len(df_churn[(df_churn.tenure==1)])

In [None]:
# Quanto os clientes de 1 mês de contrato representam percentualmente
len(df_churn[(df_churn.tenure==1)]) / len(df_churn) * 100

In [None]:
# Quantos clientes possuem entre 1 e 6 meses de contrato
len(df_churn[(df_churn.Genero=='Male') & (df_churn.tenure<=6)])

In [None]:
# Apresentar a quantidade de clientes por tempo de contrato = Agrupamento com sumarização
df_churn.groupby(['tenure'])['tenure'].count().sort_values(ascending=False)

In [None]:
# Apresentar a quantidade de clientes por tempo de contrato = Agrupamento com sumarização - Em um plot
df_churn.groupby(['tenure'])['tenure'].count().sort_values().plot.barh(figsize = (20, 20))

## Análise Bivariada

In [None]:
# Hipótese: Clientes com Contrato de Tipo Mensal são mais propensos ao Churn
# Construir Tabela de Contingência entre Tipo de Contrato e Churn - Quantidade
pd.crosstab(df_churn.Churn, df_churn.Contract, margins=True, margins_name='Total')

In [None]:
# Construir Tabela de Contingência entre Tipo de Contrato e Churn - Proporção
pd.crosstab(df_churn.Churn, df_churn.Contract, normalize='index', margins=True, margins_name='Total') * 100

Considerando o público total, os clientes de contrato mensal representam, 55%. Porém, se considerarmos apenas os clientes que abandonaram o serviço, 88% tinham contrato mensal. Desta forma, podemos afirmar que há uma correlação entre o tipo de contrato mensal e o abandono.

In [None]:
# Avaliar a correlação entre duas variáveis categóricas (qualitativas)

# Executar um teste de hipótese chamado Chi-Square ou Qui-Quadrado de Pearson
# Num teste de hipótese, duas hipóteses são formuladas:
# H0 (Hipótese Nula): as duas variáveis são independentes
# H1 (Hipótese Complementar): as duas variáveis não são independentes

# O teste serve para confirmar ou recusar a hipótese nula (H0)
# Quando a probabilidade de observarmos H0 é inferior a 0.05 (p-value),
# recusamos a hipótese nula e seguimos com a complementar

In [None]:
# Gerar um DF da Crosstab (sem totais)
df_crosstab_churn_contract = pd.crosstab(df_churn.Churn, df_churn.Contract)

In [None]:
# Calcular os Scores e P-Values
from scipy.stats import chi2_contingency

In [None]:
# Tupla = Lista imutável
chi_scores_churn_contract = chi2_contingency(df_crosstab_churn_contract)

In [None]:
chi_scores_churn_contract

In [None]:
scores_churn_contract = pd.Series(chi_scores_churn_contract[0])

In [None]:
pvalues_churn_contract = pd.Series(chi_scores_churn_contract[1])

In [None]:
# Apresentar números com decimais sem a notação científica
pd.set_option('display.float_format', lambda x: '%.15f' % x)

In [None]:
# Criar Dataframe com os resultados
df_chi_scores_churn_contract = pd.DataFrame({
  'Qui2': scores_churn_contract,
  'p-value': pvalues_churn_contract
})

In [None]:
# Analisar Scores e P-Values
df_chi_scores_churn_contract

Conforme Teste Estatístico (Chi-Square), o P-value <= 0.05, desta forma rejeitamos a hipótese nula, ou seja, as variáveis não são independentes. Pelo Qui2 alto, podemos afirmar que há uma forte correlação.

In [None]:
# Avaliar a correlação entre uma variável qualitativa e quantitativa
# Usar o mesmo teste de Chi-Square, mas transformar a variável quantitativa em qualitativa
# Hipótese: Cliente com menos de 6 meses de contrato é mais propenso ao Churn

# Criar uma coluna nova no Dataframe com base numa condição de outra Coluna
# Coluna = 'TempoMenor6Meses'

import numpy as np

In [None]:
# Criar coluna nova
df_churn['TempoMenor6Meses'] = np.where(df_churn.tenure<6, 'Yes', 'No')

In [None]:
# Checar o Dataframe
df_churn.head(5)

In [None]:
# Gerar um DF da Crosstab (sem totais)
df_crosstab_churn_tenure = pd.crosstab(df_churn.Churn, df_churn.TempoMenor6Meses)
df_crosstab_churn_tenure

In [None]:
# Calcular os Scores
chi_scores_churn_tenure = chi2_contingency(df_crosstab_churn_tenure)

In [None]:
scores_churn_tenure = pd.Series(chi_scores_churn_tenure[0])
pvalues_churn_tenure = pd.Series(chi_scores_churn_tenure[1])

In [None]:
# Criar Dataframe com os resultados
df_chi_scores_churn_tenure = pd.DataFrame({
  'Qui2': scores_churn_tenure,
  'p-value': pvalues_churn_tenure
})

In [None]:
df_chi_scores_churn_tenure

Como o P-Value <= 0.05, rejeitamos a H0, ou seja, as variáveis não são independentes. E vale mencionar que com base no Qui2 resultante das 2 análises, a correlação entre Churn e Tempo de contrato < 6 meses é menor do que a correlação entre Churn e Tipo de Contrato 

In [None]:
# Correlação entre 2 variáveis numéricas
# Tenure com TotalCharges
# A intuição é que quanto mais tempo de contrato maior o valor pago.

# Correlação entre 2 variáveis numéricas - Pearson
df_churn.tenure.corr(df_churn.TotalCharges)

In [None]:
# Correlação entre 2 variáveis numéricas - Spearman
df_churn.tenure.corr(df_churn.TotalCharges, method='spearman')

Há uma forte correlação entre Tenure e TotalCharges, usando métodos estatísticos de correlação.

In [None]:
# Apresentar Plot Scatter entre Tenure e TotalCharges
# Gráfico de Dispersão
df_churn.plot.scatter(x='tenure', y='TotalCharges')

- Desafio 1: Validar a primeira hipótese de que a faixa etária do cliente tem uma forte associação com o Churn.
- Desafio 2: Validar com Teste de Hipótese se Contrato Mensal está mais propenso ao Churn.

## Desafio 1

In [None]:
# Hipótese: Faixa etária do cliente tem uma forte associação com o Churn.
# Construir Tabela de Contingência entre Faixa etária e Churn - Quantidade
pd.crosstab(df_churn.Churn, df_churn.Mais65anos, margins=True, margins_name='Total')

In [None]:
# Criar coluna nova
df_churn['Idoso'] = np.where(df_churn.Mais65anos==1, 'Yes', 'No')
df_churn.Idoso.value_counts()

In [None]:
# Gerar um DF da Crosstab (sem totais)
df_crosstab_churn_idoso = pd.crosstab(df_churn.Churn, df_churn.Idoso)
df_crosstab_churn_idoso

In [None]:
# Calcular os Scores
chi_scores_churn_idoso = chi2_contingency(df_crosstab_churn_idoso)
scores_churn_idoso = pd.Series(chi_scores_churn_idoso[0])
pvalues_churn_idoso = pd.Series(chi_scores_churn_idoso[1])

In [None]:
# Criar Dataframe com os resultados
df_chi_scores_churn_idoso = pd.DataFrame({
  'Qui2': scores_churn_idoso,
  'p-value': pvalues_churn_idoso
})

In [None]:
df_chi_scores_churn_idoso

Como o P-Value < 0.05, rejeitamos a H0, ou seja, as variáveis não são independentes. Como o Qui2 é alto, a correlação entre Churn e faixa etária é forte.

## Desafio 2

In [None]:
# Hipótese: Contrato Mensal do cliente tem uma forte associação com o Churn.
# Construir Tabela de Contingência entre Faixa etária e Churn - Quantidade
pd.crosstab(df_churn.Churn, df_churn.Contract, margins=True, margins_name='Total')

In [None]:
# Criar coluna nova
df_churn['ContratoMensal'] = np.where(df_churn.Contract=='Month-to-month', 'Yes', 'No')
df_churn.ContratoMensal.value_counts()

In [None]:
# Gerar um DF da Crosstab (sem totais)
df_crosstab_churn_monthlycontract = pd.crosstab(df_churn.Churn, df_churn.ContratoMensal)
df_crosstab_churn_monthlycontract

In [None]:
# Calcular os Scores
chi_scores_churn_monthlycontract = chi2_contingency(df_crosstab_churn_monthlycontract)
scores_churn_monthlycontract = pd.Series(chi_scores_churn_monthlycontract[0])
pvalues_churn_monthlycontract = pd.Series(chi_scores_churn_monthlycontract[1])

In [None]:
# Criar Dataframe com os resultados
df_chi_scores_churn_monthlycontract = pd.DataFrame({
  'Qui2': scores_churn_monthlycontract,
  'p-value': pvalues_churn_monthlycontract
})

In [None]:
df_chi_scores_churn_monthlycontract

Como o P-Value < 0.05, rejeitamos a H0, ou seja, as variáveis não são independentes. Como o Qui2 é alto, a correlação entre Churn e Contrato Mensal é forte.

In [None]:
# Faixa etária - Churn
df_chi_scores_churn_idoso

In [None]:
# Contrato até 6 meses - Churn
df_chi_scores_churn_tenure

In [None]:
df_chi_scores_churn_monthlycontract

Com esses dados, podemos afirmar que a correlação entre Churn - Contrato Mensal > Churn - Contrato Semestral > Churn - Faixa etária

## Detecção de Outliers (Valores Atípicos)

In [None]:
df_churn.info()

In [None]:
# Remover linhas com valores nulos
df_churn.dropna(axis=0, inplace=True)

In [None]:
# Box Plot Geral
df_churn['TotalCharges'].plot.box()

In [None]:
# Box Plot agrupado por Contract
df_churn.plot.box(column='TotalCharges', by='Contract')

In [None]:
# Criar um dataframe somente com clientes do tipo Month to Month (Contrato Mensal)
df_churn_month = df_churn[df_churn.Contract=='Month-to-month']
df_churn_month.head(5)

In [None]:
# Histograma - Checar visualmente se os dados seguem uma distribuição normal
df_churn_month.TotalCharges.plot.hist()

In [None]:
# Método de Tukey - IQR (Distribuições não normal)
# IQR - Range Interquartil
# IQR = 3° quartil - 1° quartil
q1_TotalCharges_month = df_churn_month.TotalCharges.quantile(0.25)
q3_TotalCharges_month = df_churn_month.TotalCharges.quantile(0.75)

In [None]:
iqr_TotalCharges_month = q3_TotalCharges_month - q1_TotalCharges_month
iqr_TotalCharges_month

In [None]:
# Limites Inferior e Superior
limInf_TotalCharges_month = q1_TotalCharges_month - (iqr_TotalCharges_month * 1.5)
limSup_TotalCharges_month = q3_TotalCharges_month + (iqr_TotalCharges_month * 1.5)
limInf_TotalCharges_month, limSup_TotalCharges_month

In [None]:
df_churn_month[(df_churn_month.TotalCharges < limInf_TotalCharges_month) | ((df_churn_month.TotalCharges > limSup_TotalCharges_month))].any(axis=1).sum()

In [None]:
# ZScore (Usado para Distribuição Normal)
# Indica quantos desvios padrões um ponto específico de dados está distante da média
# zscore = (x - média) / desvio padrão
from scipy.stats import zscore

In [None]:
z = np.abs(zscore(df_churn_month.TotalCharges))

In [None]:
z

In [None]:
df_churn_month[z > 3.0].any(axis=1).sum()

## Automatizando EDA

In [None]:
# SweetViz - Abrir no Jupyter Notebook
import sweetviz as sv
sv_churn_report = sv.analyze(df_churn, target_feat='Churn')

In [None]:
sv_churn_report.show_notebook()