<h3>Churn de Clientes - Bank Dataset</h3>

In [None]:
#Link do dataset - https://www.kaggle.com/datasets/mathchi/churn-for-bank-customers

#Descrição das variáveis
#RowNumber - Número da linha do dataset
#CustomerId - Número randômico e único que identifica o cliente
#Surname - Sobrenome do cliente
#CreditScore - Pontuação de crédito atribuida ao cliente
#Geography - Localização do cliente
#Gender - Gênero do cliente
#Age - Idade do cliente
#Tenure - Fidelidade do cliente | Quantidade de anos que o cliente está na instituição
#Balance - Saldo do cliente
#NumOfProducts - Quantidade de produtos que o cliente comprou no banco
#HasCrCard - Se o cliente possui ou não cartão de crédito sendo 1|Sim e 0|Não
#IsActiveMember - Se o cliente é ativo ou não no banco
#EstimatedSalary - Renda do cliente
#Exited - Se o cliente deixou ou não a instituição sendo 1|Sim e 0|Não  

<h5>1. Importação dos pacotes </h5>

In [None]:
#Manipulação de dados
import pandas as pd
import numpy as np
import scipy as sp
import scipy.stats as st

#DataViz
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import chart_studio.plotly as py
import plotly.graph_objects as go

#Machine Learning


<h5>2. Leitura e tratamento do dataset </h5>

In [None]:
df_original = pd.read_csv(filepath_or_buffer='churn.csv', header=0)
df_original.head()

In [None]:
#Excluir colunas que não serão utilizadas
colunas_excluidas = {'RowNumber', 'CustomerId', 'Surname'}
#
df = df_original.drop(columns=colunas_excluidas)

In [None]:
#Criar lista com nome das novas variáveis
new_variaveis = {
    'CustomerId': 'IdCliente',
    'CreditScore': 'ScoreCredito',
    'Geography': 'Localizacao',
    'Gender': 'Genero',
    'Age': 'Idade',
    'Tenure': 'TempoFidelidade',
    'Balance': 'Saldo',
    'NumOfProducts': 'QtdProdutos',
    'HasCrCard': 'TemCartao',
    'IsActiveMember': 'ClienteAtivo',
    'EstimatedSalary': 'SalarioEstimado',
    'Exited': 'Churn'
            }
#renomeando as variáveis
df.rename(columns=new_variaveis, inplace=True)
#
df.head()

<h4>3. Análise Exploratória </h4>

In [None]:
#Informações sobre missing values e tipo das variáveis
df.info()

In [None]:
#Estatísticas descritivas das variáveis numéricas
df.select_dtypes('number').describe().T

In [None]:
#Estatísticas descritivas das variáveis categóricas
df.select_dtypes('object').describe().T

In [None]:
#Lista variáveis numéricas
df_numericas = df.select_dtypes('number').columns 
#Lista variáveis categóricas
df_categoricas = df.select_dtypes('object').columns 

print('Variáveis numéricas:', df_numericas)
print('Variáveis categóricas:', df_categoricas)

<h4>3.1. Análise univariada</h4>

In [None]:
#IQR - https://www.statisticshowto.com/probability-and-statistics/interquartile-range/
#Lower and Upper Fence - https://www.statisticshowto.com/upper-and-lower-fences/

In [None]:
#Definição do estilo dos gráficos
plt.style.use('seaborn-v0_8')

<h5>Score de Crédito<h5>

In [None]:
df.ScoreCredito.describe()

In [None]:
from plotly.subplots import make_subplots
fig = make_subplots(rows=2, cols=1, shared_xaxes=True, vertical_spacing=0.02)

fig.add_trace(go.Histogram(x = df.ScoreCredito), row=1, col=1)
fig.add_trace(go.Box(x = df.ScoreCredito, orientation='h'), row=2, col=1)
fig.update_layout(showlegend=False, title='Score de Crédito')
fig.update_xaxes(range=(300, 900))

fig.show()

In [None]:
df.Idade.describe()

In [None]:
from plotly.subplots import make_subplots
fig = make_subplots(rows=2, cols=1, shared_xaxes=True, vertical_spacing=0.02)

fig.add_trace(go.Histogram(x = df.Idade), row=1, col=1)
fig.add_trace(go.Box(x = df.Idade, orientation='h'), row=2, col=1)
fig.update_layout(showlegend=False, title='Idade')
fig.update_xaxes(range=(0, 100))

fig.show()

In [None]:
df.TempoFidelidade.describe()

In [None]:
from plotly.subplots import make_subplots
fig = make_subplots(rows=2, cols=1, shared_xaxes=True, vertical_spacing=0.02)

fig.add_trace(go.Histogram(x = df.TempoFidelidade), row=1, col=1)
fig.add_trace(go.Box(x = df.TempoFidelidade, orientation='h'), row=2, col=1)
fig.update_layout(showlegend=False, title='Tempo de fidelidade (em anos)')
fig.update_xaxes(range=(-5, 15))

fig.show()

_________________

In [None]:
#Definições dos quartis, mediana e limites e contabilização de outliers
q1_ScoreCredito = np.nanpercentile(df.ScoreCredito, 25)
q3_ScoreCredito = np.nanpercentile(df.ScoreCredito, 75)
media_ScoreCredito = np.mean(df.ScoreCredito)
iqr_ScoreCredito = q3_ScoreCredito - q1_ScoreCredito
lower_f_ScoreCredito = q1_ScoreCredito - (1.5 * iqr_ScoreCredito)
upper_f_ScoreCredito = q3_ScoreCredito + (1.5 * iqr_ScoreCredito)

#Quantidade de outliers
ScoreCredito_outlier = []
for num in df.ScoreCredito:
    if num < lower_f_ScoreCredito:
        ScoreCredito_outlier.append(num)
    if num > upper_f_ScoreCredito:
        ScoreCredito_outlier.append(num)

#Quantidade de não outliers
ScoreCredito_non_outlier = []
for num in df.ScoreCredito:
    if num >= lower_f_ScoreCredito:
        ScoreCredito_non_outlier.append(num)
    if num <= upper_f_ScoreCredito:
        ScoreCredito_non_outlier.append(num)

In [None]:
print('---Score de Crédito---')
print('Q1:', q1_ScoreCredito)
print('Q3:', q3_ScoreCredito)
print('Intervalo Interquartil (IQR):', iqr_ScoreCredito)
print('Média:', media_ScoreCredito)
print('Lower Fence:', lower_f_ScoreCredito)
print('Upper Fence:', upper_f_ScoreCredito)
print('Soma de valores únicos:', len(ScoreCredito_outlier))
print('Menor valor:', np.min(ScoreCredito_non_outlier))
print('Maior valor:', np.max(ScoreCredito_non_outlier))
print('Outliers:', len(ScoreCredito_outlier))
print('Não outliers:', len(ScoreCredito_non_outlier))

In [None]:
#Criando figura para inserção de dois gráficos
fig, ax = plt.subplots(2, 1, gridspec_kw={'height_ratios': [5,1]}, sharex=True)
#Histograma
sns.histplot(x = df.ScoreCredito, kde=True, ax=ax[0])
ax[0].axvline(x = q1_ScoreCredito, linestyle='-', linewidth=1.5, color='black')
ax[0].axvline(x = q3_ScoreCredito, linestyle='-', linewidth=1.5, color='black')
ax[0].axvline(x = np.nanpercentile(df.ScoreCredito, 50), linestyle='-', linewidth=1.5, color='black')
ax[0].axvline(x = np.mean(df.ScoreCredito), linestyle=':', linewidth=2, color='red')
#Boxplot
sns.boxplot(x = df.ScoreCredito, ax=ax[1])

_________________

In [None]:
def outlier(x):
    q1 = np.nanpercentile(x, 25)
    q3 = np.nanpercentile(x, 75)
    iqr = q3 - q1
    lower_fence = q1 - (1.5 * iqr)
    upper_fence = q3 + (1.5 * iqr)
    
    outlier = []
    for num in x:
        if num < lower_fence:
            outlier.append(num)
        if num > upper_fence:
            outlier.append(num)
            
    non_outlier = []
    for num in x:
        if num >= lower_fence:
            non_outlier.append(num)
        if num <= upper_fence:
            non_outlier.append(num)
    
    print(f'sum of unique value : {len(outlier)}' )
    print(f'lower_value: {np.min(non_outlier)}')
    print(f'upper_vaue: {np.max(non_outlier)}')

In [None]:
norm_data = []
for y,x in enumerate(df_numericas,1):
    print(f'{y}. {x}')
    fig, ax = plt.subplots(2,1, sharex=True, gridspec_kw={'height_ratios':[5,1]})
    sns.histplot(data=df, x=x, kde=True, ax=ax[0])
    ax[0].axvline(np.nanpercentile(df[x], 25), c='red',linestyle='--')
    ax[0].axvline(np.nanpercentile(df[x], 50), c='red',linestyle='--')
    ax[0].axvline(np.nanpercentile(df[x], 75), c='red',linestyle='--')
    ax[0].axvline(np.mean(df[x]), c='blue',linestyle='--')
    
    sns.boxplot(data=df, x=x, ax=ax[1])
    ax[1].set_xlabel(f'{x}')
    plt.show()
    print(' ')
    df[x].describe()
    print(' ')
    outlier(df[x])
    print(' ')
    sk, pval = st.skewtest(df[x])
    if pval < 0.05:
        print(f'Data skewed with skew is {sk}')
    else:
        print(f'Data not skewed')
    print(' ')
    norm, pval = st.normaltest(df[x])
    if pval < 0.05:
        print(f'Data not normal')
    else:
        print(f'Data normal')
        norm_data.append(x)
    print('-'*50)
    print(' ')