# Análise exploratória de dados

In [7]:
import pandas as pd
import numpy as np
import geopandas as gpd
import matplotlib.pyplot as plt
import seaborn as sns

In [7]:
# Criar dicionário de dados
data_dictionary = pd.DataFrame([
    {
        'variavel': 'CustomerId',
        'descricao': 'Identificador único do cliente',
        'tipo': 'Quantitativa',
        'subtipo': 'Discreta',
    },
    {
        'variavel': 'CreditScore',
        'descricao': 'Pontuação de crédito do cliente',
        'tipo': 'Quantitativa',
        'subtipo': 'Discreta',
    },
    {
        'variavel': 'Geography',
        'descricao': 'Localização geográfica do cliente',
        'tipo': 'Qualitativa',
        'subtipo': 'Nominal',
    },
    {
        'variavel': 'Gender',
        'descricao': 'Genero do Cliente',
        'tipo': 'Qualitativa',
        'subtipo': 'Nominal',
    },
    {
        'variavel': 'Age',
        'descricao': 'Idade do Cliente',
        'tipo': 'Quantitativa',
        'subtipo': 'Discreta',
    },
    {
        'variavel': 'Tenure',
        'descricao': 'O número de anos que o cliente está no banco',
        'tipo': 'Quantitiva',
        'subtipo': 'Discreta',
    },
    {
        'variavel': 'Balance',
        'descricao': 'Saldo da conta do cliente',
        'tipo': 'Quantitativa',
        'subtipo': 'Continua',
    },
    {
        'variavel': 'NumOfProducts',
        'descricao': 'Número de produtos bancários que o cliente possui',
        'tipo': 'Quantitativa',
        'subtipo': 'Discreta',
    },
    {
        'variavel': 'HasCrCard',
        'descricao': 'Indica se o cliente possui cartão de crédito  (binário: sim/não).',
        'tipo': 'Qualitativa',
        'subtipo': 'Nominal',
    },
    {
        'variavel': 'IsActiveMember',
        'descricao': ' Indica se o cliente é um membro ativo (binário: sim/não).',
        'tipo': 'Qualitativa',
        'subtipo': 'Nominal',
    },
    {
        'variavel': 'EstimatedSalary',
        'descricao': 'O salário estimado do cliente.',
        'tipo': 'Quantitativa',
        'subtipo': 'Contínua',
    },
    {
        'variavel': 'Exited',
        'descricao': ' Indica se o cliente saiu do banco (binário: sim/não).',
        'tipo': 'Qualitativa',
        'subtipo': 'Nominal',
    },



])
# Salvar dicionário de dados
#data_dictionary.to_csv("../data/external/dictionary.csv", index=False)

In [2]:
df = pd.read_csv('../data/raw/Churn_Modelling.csv')
df.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [4]:
# Seleciona apenas as colunas numéricas
df_numeric = df.select_dtypes(include=['number'])

# Calcula a matriz de correlação apenas com as colunas numéricas
correlation_matrix = df_numeric.corr()

# Obtém as correlações com a variável 'Exited'
correlations_with_exited = correlation_matrix['Exited'].drop('Exited')

# Encontra a variável com a maior correlação
variable_with_highest_correlation = correlations_with_exited.idxmax()
highest_correlation_value = correlations_with_exited.max()

print(f"A variável com maior correlação com 'Exited' é '{variable_with_highest_correlation}' com um valor de correlação absoluto de {highest_correlation_value:.4f}")

A variável com maior correlação com 'Exited' é 'Age' com um valor de correlação absoluto de 0.2853


A variavel que tem a maior correlação com o churn é a idade, mas ainda sim é uma correlação positiva fraca.

A variável com maior correlação com 'Exited' é 'Age' com um valor de correlação absoluto de 0.2853

A variável com maior correlação negativa com 'Exited' é 'IsActiveMember' com um valor de correlação absoluto de -0.1561, também muito fraca

In [None]:
# Plot a heatmap of the correlation matrix
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de correlação entre as variaveis')
plt.show()

In [None]:
df.describe()

In [None]:
order = 0
for i, variavel in enumerate(data_dictionary.query("tipo == 'Qualitativa'").variavel.to_list()):
  if data_dictionary.query('variavel == @variavel').subtipo.to_list()[0] == 'Nominal':
    order = df[variavel].value_counts()

print(order)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Configura os subplots em uma grade 2x3
fig, axes = plt.subplots(2, 3, figsize=(12, 8))
plt.tight_layout(pad=4, w_pad=10, h_pad=5)
fig.suptitle('Distribuição de variáveis qualitativas', fontweight='bold')

# Filtra e plota apenas as 5 primeiras variáveis qualitativas
for i, variavel in enumerate(data_dictionary.query("tipo == 'Qualitativa'").variavel.to_list()[:5]):
    order = None
    if data_dictionary.query('variavel == @variavel').subtipo.to_list()[0] == 'Nominal':
        order = df[variavel].value_counts().index
    ax = sns.countplot(
        data=df,
        y=variavel,
        ax=axes.flatten()[i],
        #color=colors[0],
        alpha=0.9,
        order=order,
        orient='h'
    )
    ax.bar_label(
        ax.containers[0],
        fmt='%.0f',
        label_type='center',
        color='white'
    )
    ax.set(frame_on=False)
    ax.axvline(0, color="k", clip_on=False)
    ax.set_title(f"Distribuição da variável '{variavel}'")
    ax.set_xlabel('Quantidade')
    ax.grid(axis='x', linestyle='-')

fig.delaxes(axes[1, 2])

plt.show()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Configura os subplots em uma grade 3x2
fig, axes = plt.subplots(3, 2, figsize=(12, 8))
plt.tight_layout(pad=4, w_pad=10, h_pad=5)
fig.suptitle('Distribuição de variáveis quantitativas', fontweight='bold')

# Filtra e plota apenas as variáveis quantitativas
variaveis = data_dictionary.query("tipo == 'Quantitativa'").variavel.to_list()

for i, variavel in enumerate(variaveis):
    if i < len(axes.flatten()):  # Verifica para evitar erro se houver mais variáveis do que subplots
        ax = axes.flatten()[i]

        # Verifica se é o último subplot para definir a orientação
        if i == len(variaveis) - 1:  # Último gráfico
            sns.histplot(
                data=df,
                y=variavel,  # Altera para o eixo y no último subplot
                ax=ax,
                alpha=0.9,
                #color=colors[0]
            )
            ax.set_xlabel('Quantidade')
            ax.set_ylabel(variavel)
        else:
            sns.histplot(
                data=df,
                x=variavel,
                ax=ax,
                alpha=0.9,
                #color=colors[0]
            )
            ax.set_xlabel(variavel)
            ax.set_ylabel('Quantidade')

        ax.set(frame_on=False)
        ax.axhline(0, color="k", clip_on=False)
        ax.set_title(f"Distribuição da variável '{variavel}'")
        ax.grid(axis='y', linestyle='-')  # Mostra apenas linhas verticais

plt.show()

In [None]:
# Filtra o DataFrame para registros Saldo e HasCrCard
semSaldo = df['Balance'] == 0
semCartao = df['HasCrCard'] == 0
comCartao = df['HasCrCard'] == 1
sairam = df['Exited'] == 1
continuaram = df['Exited'] == 0


# Filtra e exibe o DataFrame com as condições aplicadas
dftmp1 = df[semSaldo & semCartao]
dftmp2 = df[semSaldo & comCartao]

print(dftmp1.shape[0])
print(dftmp2.shape[0])

In [None]:
import matplotlib.pyplot as plt

# Agrupa os dados por país e calcula o número total de clientes e o número de clientes que saíram
churn_by_country = df[df['Exited'] == 1].groupby('Geography')['Exited'].count()
total_by_country = df.groupby('Geography')['Exited'].count()

# Calcula a porcentagem de clientes que saíram em cada país
churn_percentage = (churn_by_country / total_by_country) * 100

# Cria o gráfico de barras
plt.figure(figsize=(8, 6))
bars = plt.bar(churn_percentage.index, churn_percentage.values)

# Adiciona as porcentagens em cada barra
for bar in bars:
    yval = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2, yval, f'{yval:.1f}%', ha='center', va='bottom')

plt.xlabel('País',fontweight='bold')
plt.ylabel('Porcentagem de Clientes que Sairam', fontweight='bold')
plt.title('Porcentagem de Clientes que Sairam por País')
plt.show()

In [None]:
# Example 2: Box plot of 'Balance' for different 'Geography'
plt.figure(figsize=(10, 6))
sns.boxplot(x='Geography', y='Balance', data=df)
plt.title('Balance Distribution by Geography')
plt.show()

## 1. Descrição dos dados

## 2. Perguntas de partida e hipóteses

Qual a taxa de evasão?

Qual país com mais clientes evadidos?

O credit score baixo influencia os clientes desistem do banco?

Clientes com cartão de crédito tendem a permanecer no banco?

Qual variavel tem maior correlação com a permanência do cliente?

Qual faixa etaria possui maior evasão?

# Pergunta 1: Qual a taxa de evasão?

In [None]:
countsExited = df['Exited'].value_counts()

In [None]:
taxaDeEvasao = countsExited[1] / len(df)
taxaDeEvasao

### 20% dos clientes da base de dados saíram do banco

# Pergunta 2: Qual país com mais clientes evadidos?

In [None]:
country_counts = df['Geography'].value_counts()
country_counts

In [None]:
plt.figure(figsize=(4, 3))
country_counts.plot(kind='barh')
plt.xlabel('Number of Customers')
plt.ylabel('Country')
plt.title('Number of Customers per Country')
plt.show()

### A frança é o país com maior número de clientes evadidos, com metade do total da base de dados. Os outros 2 países possuem cada um, aproximadamente 25% do total.

# Pergunta 3: O credit score baixo influencia os clientes desistirem do banco?

# Pergunta 4: Clientes com cartão de crédito permanecem no banco?

# Pergunta 5: Qual variavel tem maior correlação com a permanência do cliente?

### A maior é idade, com 0.29 de correlação, o que mostra que não existem variáveis com correlação forte com o churn

# Pergunta 6: Qual faixa etaria possui maior evasão?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Crie o gráfico de barras horizontal
plt.figure(figsize=(12, 8))
sns.countplot(y='Age', hue='Exited', data=df)

# Ajuste o título e os rótulos
plt.title('Distribuição de Idades em relação à saída do Banco')
plt.xlabel('Número de Clientes')
plt.ylabel('Idade')

# Ajuste o espaçamento entre os rótulos do eixo y
plt.tight_layout()
plt.show()

### O gráfico mostra que, somente para os clientes entre 49 e 57 anos(e 60), há mais clientes que saíram do que permaneceram. Também é de se notar que a saida de clientes com mais de 71 anos quase não acontece

In [6]:
numero_clientes71 = len(df[(df['Age'] > 71)])
numero_clientes = len(df[(df['Exited'] == 1) & (df['Age'] > 71)])
percent = numero_clientes/numero_clientes71 *100
print(f"O número de clientes +71 é {numero_clientes71} e desses o numero que evadiu é: {numero_clientes} equivale a {percent}% de evasão nessa faixa etária")

O número de clientes +71 é 106 e desses o numero que evadiu é: 4 equivale a 3.7735849056603774% de evasão nessa faixa etária
