## Criar DataFrame com base no DataSet

In [None]:
import pandas as pd

In [None]:
# Carregar DataFrame de clientes (Customers)
df_customers = pd.read_csv('./datasets/churn_customers.csv')

# Mostra 5 primeiros registros
df_customers.head(5)

# Mostra 5 ultimos registros
df_customers.tail(5)

# Mostrar estrutura / schema do DataFrame
df_customers.info()

## Transformação de dados

In [None]:
# Transformar coluna TotalCharges de String para Float - astype
df_contracts.TotalCharges = df_contracts.TotalCharges.astype(float)

# Transformar coluna TotalCharges de String para Float - to_numeric
df_contracts.TotalCharges = pd.to_numeric(df_contracts.TotalCharges)

# Transformar coluna TotalCharges de String para Float - to_numeric com coerce
df_contracts.TotalCharges = pd.to_numeric(df_contracts.TotalCharges, errors='coerce')

## Renomear colunas

In [None]:
# Renomear coluna no DataFrame, usando rename e dicionário
df_customers.rename(columns={'SeniorCitizen': 'Above65yo'})

# Criar um DataFrame novo com base nas colunas renomeadas
df_customers_renamed = df_customers.rename(columns={'SeniorCitizen': 'Above65yo'})

# Aplicar o resultado do rename no próprio DataFrame
df_customers.rename(columns={'SeniorCitizen': 'Above65yo'}, inplace=True)

# Rename usando Lista - Modificar todos os nomes de colunas
df_customers.columns = ['IDCliente', 'Genero', 'Mais65anos', 'TemParceiro', 'TemDependentes']

## Unificar DataFrames de Customers, Sevices e Contracts

In [None]:
# Contar quantidade de registros por DataFrame
len(df_customers)

In [None]:
# Renomear colunas
df_services.rename(columns={'customerID': 'IDCliente'}, inplace=True)

# Unificar DataFrames de Customers com Sevices, criando um terceiro DataFrame
df_temp = df_customers.merge(df_services, on=['IDCliente'])

# Unificar df_temp com Contracts, usando colunas de junção com nomes distintos
df_churn_temp = df_temp.merge(df_contracts, left_on=['IDCliente'], right_on=['customerID'])

# Unificar os três DataFrames ao mesmo tempo, com colunas com nomes diferentes
df_churn = df_customers.merge(df_services, on=['IDCliente']).merge(df_contracts,left_on=['IDCliente'], right_on=['customerID'])

# Removendo coluna de um DataFrame, axis (0 = linha e 1 = coluna)
df_churn.drop(['customerID'], axis=1, inplace=True)

## Detecção de Valores ausentes

In [None]:
# Detectar valores ausentes em todas as colunas de um DataFrame
df_churn.isna().sum()

# Detectar valores ausentes em uma coluna
df_churn.TotalCharges.isna().sum()

# quantas linhas tem pelo menos 1 coluna com valor ausente
df_churn[df_churn.isna().any(axis=1)]

# Quantas colunas tem pelo menos 1 valor ausente
df_churn.isna().any(axis=0).sum()

## Remover valores ausentes

In [None]:
# Remover de forma direta e específica a coluna que possui valores ausentes
df_churn.drop(columns=['TotalCharges'], axis=1)

# Remover colunas com valores ausentes
df_churn.dropna(axis=1)

# Remover colunas onde todos os valores ausentes
df_churn.dropna(axis=1, how='all')

# Remover linhas com valores ausentes
df_churn.dropna(axis=0)

# Remover linhas com todos os valores ausentes
df_churn.dropna(axis=0, how='all')

## Imputação de valores ausentes

In [None]:
# Preencher todos os valores ausentes com 0
df_churn.fillna(0)

# Preencher valores padrão conforme a coluna
df_churn.fillna(value={'TotalCharges': 0, 'Genero': 'Não Declarado'})

# Preencher todos os valores ausentes com a média
media_TotalCharges = df_churn.TotalCharges.mean()

df_churn.fillna(value={'TotalCharges': media_TotalCharges})

## Análise Univariada

In [None]:
# Contar clientes usando a variável churn como referência
df_churn.Churn.value_counts()

# Como identificar valores possíveis (únicos) numa variável do DataFrame
df_churn.Churn.unique()

# Como é a distribuição de Clientes (%) que abandonaram ou continuam ativos
df_churn.Churn.value_counts(normalize=True)

# plot ditribuição Churn (quantidade)
ax = df_churn.Churn.value_counts().plot.bar()

ax.bar_label(ax.containers[0])

# plot ditribuição Churn (percentual)
ax = df_churn.Churn.value_counts(normalize=True).plot.bar()

ax.bar_label(ax.containers[0])

# Quais são os tipos de contrato
df_churn.Contract.unique()

# plot ditribuição Contract (quantidade)
ax = df_churn.Contract.value_counts().plot.bar()

ax.bar_label(ax.containers[0])

# plot ditribuição Contract (percentual)
ax = df_churn.Contract.value_counts(normalize=True).plot.bar()

ax.bar_label(ax.containers[0])

# Histograma do Tempo de Contrato
df_churn.tenure.plot.hist()

# Histograma do Monthly Charges
df_churn.MonthlyCharges.plot.hist()

# Medidas de Posição - Média Tempo de Contrato
df_churn.tenure.mean()

# Medidas de Posição - Mediana Tempo de Contrato
df_churn.tenure.median()

# Medidas de Posição - moda tempo de Contrato
df_churn.tenure.mode()

# Medidas de Dispersão - desvido padrão tempo de contrato
df_churn.tenure.std()

# Medidas de Dispersão - coeficiente de variação tempo de contrato
df_churn.tenure.std()/df_churn.tenure.mean()*100

# Quantos clientes possuem 1 mês de contrato - filtro
len(df_churn[(df_churn.tenure==1)])

# quanto os clientes de 1 mês representam percentualmente
len(df_churn[(df_churn.tenure==1)]) / len(df_churn)*100

# quantos clientes possuem entre 1 e 6 meses de contrato
len(df_churn[(df_churn.Genero=='Male') & (df_churn.tenure<=6)])

# Apresentar a quantidade de clientes por tempo de contrato - agrupamento com sumarização
df_churn.groupby(['tenure'])['tenure'].count().sort_values()

# Apresentar a quantidade de clientes por tempo de contrato - agrupamento com sumarização - Em um plot
df_churn.groupby(['tenure'])['tenure'].count().sort_values().plot.barh(figsize = (20,20))

## Análise bivariada

In [None]:
# hipótese: Clientes com Contrato do TIpo mensal são mai spropensos ao Churn
# Construir Tabela de Contingência entre Tipo de Contrato e Churn
pd.crosstab(df_churn.Churn, df_churn.Contract, margins=True, margins_name='Total')

# Construir Tabela de Contingência entre Tipo de Contrato e Churn - proporção
pd.crosstab(df_churn.Churn, df_churn.Contract, normalize='index',margins=True, margins_name='Total')



In [None]:
# Avaliar a correlação entre duas variáveis categóricas (qualitativas)

# Executar um teste de hipótese chamado Chi-Square ou Qui-Quadrado de Pearson
# Em um teste de hipótese, duas hipóteses são formuladas:
# H0 (Hipótese Nula): as duas variáveis são independentes
# H1 (Hipótese Complementar): as duas variáveis não são independentes

# O teste serve para confirmar ou recusar a hipótese nula
# Quando a probabilidade de observarmos H0 é inferior a 0.05 (p-value), 
# recusamos a hipótese nula e seguimos com a complementar

In [None]:
# Gerar um DF da crosstab (sem totais)

df_crosstab_churn_contract = pd.crosstab(df_churn.Churn, df_churn.Contract)

In [None]:
# Calcular os Scores e P-Values
from scipy.stats import chi2_contingency

In [None]:
chi_scores_churn_contract = chi2_contingency(df_crosstab_churn_contract)

In [None]:
chi_scores_churn_contract

In [None]:
scores_churn_contract = pd.Series(chi_scores_churn_contract[0])

In [None]:
pvalues_churn_contract = pd.Series(chi_scores_churn_contract[1])

In [None]:
# Apresentar numeros com decimais sem notação científica
pd.set_option('display.float_format', lambda x:'%15f' % x)

In [None]:
# Criar Dataframe com os resultados
df_chiscores_churn_contract = pd.DataFrame({'Qui2': scores_churn_contract, 'p-value': pvalues_churn_contract})

In [None]:
# Analisar Scores e P-Values
df_chiscores_churn_contract

In [None]:
# Criar coluna nova
df_churn['TempoMenor6Meses'] = np.where(df_churn.tenure<6, 'Yes', 'No')

In [None]:
# Gerar um DF da crosstab (sem totais)
df_crosstab_churn_tenure = pd.crosstab(df_churn.Churn, df_churn.TempoMenor6Meses)

In [None]:
# Calcular os Scores
chi_scores_churn_tenure = chi2_contingency(df_crosstab_churn_tenure)

In [None]:
scores_churn_tenure= pd.Series(chi_scores_churn_tenure[0])
pvalues_churn_tenure = pd.Series(chi_scores_churn_tenure[1])

In [None]:
# Criar DataFrame com resultados
df_chiscores_churn_tenure = pd.DataFrame({'Qui2': scores_churn_tenure, 'p-value': pvalues_churn_tenure})

In [None]:
# Análisar os resultados
df_chiscores_churn_tenure

In [None]:
# Correlação entre 2 variáveis numéricas
# Tenure com ToalCharges
# A intuição é que quanto mais tempo de contrato maior o valor pago
# Correlação entre 2 variáveis numéricas - Pearson
df_churn.tenure.corr(df_churn.TotalCharges)

In [None]:
# Correlação entre 2 variáveis numéricas - Spearman
df_churn.tenure.corr(df_churn.TotalCharges, method='spearman')

In [None]:
# Apresentar Plot Scatter entre Tenure e TotalCharges
df_churn.plot.scatter(x='tenure',y='TotalCharges')