In [None]:
########################################################################################################################

# Bank Churn Data Exploration And Churn Prediction = cancelamentos de cliente
##### Objetivo: fazer uma análise exploratória do dados

In [None]:
########################################################################################################################

# Significado das colunas
##### CLIENTNUM: Client number. Unique identifier for the customer holding the account
##### Attrition_Flag: Internal event (customer activity) variable - if the account is closed then 1 else 0
##### Customer_Age: Demographic variable - Customer's Age in Years
##### Gender: Demographic variable - M=Male, F=Female
##### Dependent_count: Demographic variable - Number of dependents
##### Education_Level: Demographic variable - Educational Qualification of the account holder (example: high school, college graduate, etc.)
##### Marital_Status: Demographic variable - Married, Single, Divorced, Unknown
##### Income_Category: Demographic variable - Annual Income Category of the account holder (< $40K, $40K - 60K, $60K - $80K, $80K-$120K, > $120K, Unknown)
##### Card_Category: Product Variable - Type of Card (Blue, Silver, Gold, Platinum)
##### Months_on_book: Period of relationship with bank
##### Total_Relationship_Count: Total no. of products held by the customer
##### Months_Inactive_12_mon: No. of months inactive in the last 12 months
##### Contacts_Count_12_mon: No. of Contacts in the last 12 months
##### Credit_Limit: Credit Limit on the Credit Card:
##### Total_Revolving_Bal: Total Revolving Balance on the Credit Card
##### Avg_Open_To_Buy: Open to Buy Credit Line (Average of last 12 months)
##### Total_Amt_Chng_Q4_Q1: Change in Transaction Amount (Q4 over Q1)
##### Total_Trans_Amt: Total Transaction Amount (Last 12 months)
##### Total_Trans_Ct: Total Transaction Count (Last 12 months)
##### Total_Ct_Chng_Q4_Q1: Change in Transaction Count (Q4 over Q1)
##### Avg_Utilization_Ratio: Average Card Utilization Ratio




# Importanto pacotes

In [None]:
# Carrega a biblioteca pandas e atribui um alias chamado "pd"
import pandas as pd

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn as sns

# Deixar colunas e linhas aparentes
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# Conectando com o drive

In [None]:
# Conexão com o drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Leitura da tabela de dados

In [None]:
# Faz a leitura do arquivo BankChurners.xlsx
df = pd.read_excel('caminho_do_seu_arquivo_no_drive')
df.shape

(10127, 21)

In [None]:
# Exemplo de leitura em CSV
# df = pd.read_csv('caminho_do_seu_arquivo_no_drive')
# df.shape

# Checagem da tabela de dados

In [None]:
# Mostra o número linhas, número de colunas
print('Shape do df original:', df.shape)

Shape do df original: (10127, 21)


In [None]:
# Mostra o total de linhas do df
len(df)

10127

In [None]:
# Primeiras cinco linhas do dataset
df.head(5)

In [None]:
# ultimas cinco linhas do dataset
df.tail(5)

In [None]:
# Cinco amostras aleatórias do dataset
df.sample(5)

In [None]:
# Informações do dataset como data type, quantidades, dados faltantes
df.info()

In [None]:
# Frequencia simples ou absoluta da coluna Income_Category
# Aqui mostra todas as possibilidades que existem na coluna com o número de vezes que aparece
df['Income_Category'].value_counts(dropna=False)

In [None]:
# Frequencia relativa da coluna Income_Category
# Aqui mostra todas as possibilidades que existem na coluna em percentuais
# A opção normalize=True mostra a distribuição %
df.Income_Category.value_counts(dropna=False, normalize=True)

In [None]:
# Apenas mostra as colunas do seu dataframe em ordem alfabética
# Não está alterando o seu dataframe
sorted(df.columns)

In [None]:
# Criando um dataset menor para facilitar
df_menor = df[[
 'Attrition_Flag',
 'Avg_Open_To_Buy',
 'Avg_Utilization_Ratio',
 'CLIENTNUM',
 'Card_Category',
 'Contacts_Count_12_mon',
 'Credit_Limit',
 'Customer_Age',
 'Dependent_count',
 'Education_Level',
 'Gender',
 'Income_Category',
 'Marital_Status',
 'Months_Inactive_12_mon',
 'Months_on_book'
]]
df_menor.shape

In [None]:
# Mostra o número de linhas do dataframe
len(df_menor)

In [None]:
# Mostra as 4 primeiras linhas do dataframe
df_menor.head(4)

# Comando df.describe()
##### Estatísticas descritivas das variáveis (colunas numéricas)
##### count = total de registros
##### mean = média
##### std = desvio padrão
##### min = mínimo
##### 25% = 1o quartil
##### 50% = 2o quartil = mediana
##### 75% = 3o quartil
##### max = máximo


###################################
###################################
###################################


##### Estatísticas das variáveis (colunas object)
# Comando df.describe(include='object')
##### count = total de registros
##### unique = contagem de categorias únicas
##### top = categoria mais frequente
##### freq = frequencia da categoria mais frequente

In [None]:
# Estatísticas do dataset
df_menor.describe()

In [None]:
# Estatísticas de colunas categoricas, a inclusão de 'o' ou 'object'
# df_menor.describe(include='o')
df_menor.describe(include='object')

In [None]:
# Média da variável Credit_Limit
df_menor['Credit_Limit'].mean()

In [None]:
# Soma da variável Credit_Limit
df_menor['Credit_Limit'].sum()

In [None]:
# Cálculo da média pela fórmula
df_menor['Credit_Limit'].sum()/len(df_menor)

In [None]:
87415795.1/10127

In [None]:
# Desvio padrão da variável Credit_Limit
df_menor['Credit_Limit'].std()

In [None]:
# Contagem da variável Credit_Limit
df_menor['Credit_Limit'].count()

In [None]:
# Moda da variável Credit_Limit
df_menor['Credit_Limit'].mode()

In [None]:
# Mediana da variável Credit_Limit
df_menor['Credit_Limit'].median()

In [None]:
# Menor valor da variável Credit_Limit
df_menor['Credit_Limit'].min()

In [None]:
# Maior valor da variável LotArea
df_menor['Credit_Limit'].max()

In [None]:
# Média de todas as colunas numericas

# 1a possibilidade
# Selecionar apenas colunas numéricas
df_menor.select_dtypes(include=['float64', 'int64']).mean()

In [None]:
# Média de todas as colunas numericas

# 2a possibilidade
# Selecionar apenas colunas numéricas
df_menor.mean(numeric_only=True)

In [None]:
# Médiana de todas as colunas numericas
df_menor.select_dtypes(include=['float64', 'int64']).median()

In [None]:
# Soma de todas as colunas numericas e categóricas
# df_menor.sum()

# OU se quiser apenas das numéricas
df_menor.select_dtypes(include=['float64', 'int64']).sum()

# Outros comandos

In [None]:
# Lista (array) com as possibilidades de categorias da coluna
df_menor.Attrition_Flag.unique()

In [None]:
# Lista (array) com as possibilidades de categorias da coluna
df_menor.Card_Category.unique()

In [None]:
# Contabiliza as possibilidades únicas de categorias da coluna
df_menor.Card_Category.nunique()

In [None]:
# Checando o df
# Mostra o número de linhas e colunas do df
print(df_menor.shape)

# Mostra o número de ID únicos
print(df_menor.CLIENTNUM.nunique())

In [None]:
# Frequencia da coluna Card_Category
df_menor.Card_Category.value_counts(dropna=False)

In [None]:
# Mostra nome das colunas
df_menor.columns

# sorted(df_menor.columns)

In [None]:
# Altera nome da coluna CLIENTNUM para ID
df_menor.rename({'CLIENTNUM': 'ID'}, axis=1, inplace=True)

In [None]:
# O comando head() é uma das formas de verificar essa alteração
df_menor.head(2)

In [None]:
# Filtrando dataset por Card_Category == Blue - apenas visualização no output
# df_menor[['Attrition_Flag', 'Avg_Open_To_Buy', 'Avg_Utilization_Ratio','Card_Category']].loc[df_menor['Card_Category'] == 'Blue']

# Criando um novo df com a categoria Card_Category == Blue
df_blue = df_menor[['Attrition_Flag', 'Avg_Open_To_Buy', 'Avg_Utilization_Ratio','Card_Category']].loc[df_menor['Card_Category'] == 'Blue']
print(df_blue.shape)
df_blue.head(4)

In [None]:
# Filtrando dataset por Card_Category == Blue e Avg_Utilization_Ratio > 0.7
# df_menor[['Attrition_Flag',
            # 'Avg_Open_To_Buy',
            # 'Avg_Utilization_Ratio',
            # 'Card_Category']].loc[(df_menor['Card_Category']== 'Blue') & (df_menor['Avg_Utilization_Ratio'] > 0.7)]

df_blue_avg = df_menor[['Attrition_Flag',
                        'Avg_Open_To_Buy',
                        'Avg_Utilization_Ratio',
                        'Card_Category']].loc[(df_menor['Card_Category']== 'Blue') & (df_menor['Avg_Utilization_Ratio'] > 0.7)]
df_blue_avg.shape

# Map

In [None]:
# Frequencia da coluna Card_Category
df_menor['Card_Category'].value_counts(dropna=False)

In [None]:
# Criando a coluna Card_Category para Card_Category_num - transformando as categorias "string" em número de 0 a 3
df_menor['Card_Category_num'] = df_menor['Card_Category'].map({'Blue':0,
                                            'Silver':1,
                                            'Gold':2,
                                            'Platinum': 3})

In [None]:
# Frequencia da nova coluna Card_Category_num
df_menor['Card_Category_num'].value_counts(dropna=False)

In [None]:
# Frequencia da nova coluna Card_Category_num
df_menor['Card_Category_num'].value_counts(dropna=False, normalize=True)

# Dados faltantes (missing values)

In [None]:
# Checando dados ausentes
df_menor.isna().sum()
# df_menor.isnull().sum()

In [None]:
# Preenchendo dados ausentes de ALGUMA VARIÁVEL com O QUE VOCÊ ESPECIFICAR - xxxxx - VAI DAR ERRO.
df_menor['xxxxx'].fillna('xxxxx', inplace=True)

In [None]:
# Checando novamente
df_menor.isna().sum()

# Groupby

In [None]:
df_menor.Card_Category.value_counts(dropna=False)

In [None]:
# Agrupando dados pelo Card_Category e calculando a média de todas as colunas do df
Media = df_menor.groupby('Card_Category').mean()
print(Media.shape)
Media

# Crosstab (tabela com duas variáveis)

In [None]:
# Crosstab é como um pivot table fazendo uma contagem dos registros entre linhas e colunas.
pd.crosstab(df_menor['Card_Category'], df_menor['Attrition_Flag'])

In [None]:
# Crosstab é como um pivot table fazendo uma contagem dos registros entre linhas e colunas.
# Neste caso estamos colocando Card_Category nas linhas e Attrition_Flag nas colunas.
pd.crosstab(df_menor['Card_Category'], df_menor['Attrition_Flag'], margins=True).style.background_gradient(cmap='OrRd')

# Visualização de dados

In [None]:
# Histograma da variável Credit_Limit, dropna() para não levar os dados ausentes e bins é a quantidade de barras.
plt.hist(df_menor['Credit_Limit'].dropna(), bins=20)
plt.title('Distribuição dos valores das casas')
plt.ylabel('Casas')
plt.xlabel('Valores')
plt.show()

In [None]:
# Histograma da variável GarageType, dropna() para não levar os dados ausentes e bins é a quantidade de barras.
plt.hist(df_menor['Customer_Age'].dropna(), bins=20)
plt.title('Distribuição das idades dos clientes')
plt.show()

### Subplots

In [None]:
# 1º forma de criar subplots.

####################################### Atenção: esse comando plt.subplot(1,2,1) significa:
# 1,2,1: Este é um argumento para a função subplot() - define a disposição da grade dos subplots na figura. Neste caso:
# O primeiro número (1) especifica o número de linhas na grade de subplots.
# O segundo número (2) especifica o número de colunas na grade de subplots.
# O terceiro número (1) especifica a posição deste subplot específico na grade, contando de cima para baixo e da esquerda para a direita.

####################################### Atenção: esse comando plt.subplot(1,2,2) significa:
# 1,2,2: Este é um argumento para a função subplot() - define a disposição da grade dos subplots na figura. Neste caso:
# O primeiro número (1) especifica o número de linhas na grade de subplots.
# O segundo número (2) especifica o número de colunas na grade de subplots.
# O terceiro número (2) especifica a posição deste subplot específico na grade, contando de cima para baixo e da esquerda para a direita.

# Cria a figura para plot com altura e largura e qualidade(dpi)
plt.figure(figsize=(20,10), dpi=50)

# 1 linha, 2 coluna, 1º Grafico
plt.subplot(1,2,1)
# Histograma da variável Credit_Limit
plt.hist(df_menor['Credit_Limit'].dropna())
# Titulo do Grafico 1
plt.title('Distribuição dos limites de crétido')

# 1 linha, 2 coluna, 2º Grafico
plt.subplot(1,2,2)
# Histograma da variável Customer_Age
plt.hist(df_menor['Customer_Age'].dropna())
# Titulo do Grafico 2
plt.title('Distribuição das idades')

plt.tight_layout()
plt.show()

In [None]:
# 2º Forma de criar subplots

# Cria uma figura (f) e um array de dois eixos (ax) com uma linha e duas colunas, o que significa que estamos criando dois subplots lado a lado.
# O parâmetro figsize define o tamanho da figura como 10 polegadas de largura por 5 polegadas de altura, e dpi define a resolução da figura.
f, ax = plt.subplots(1,2, figsize=(10,5), dpi=150)

# Cria um histograma dos valores na coluna 'Credit_Limit' do DataFrame df_menor e o desenha no primeiro subplot (índice 0) criado anteriormente.
ax[0].hist(df_menor['Credit_Limit'].dropna())
# Define o título do primeiro subplot como 'Distribuição dos limites de créditos'.
ax[0].set_title('Distribuição dos limites de créditos')

# Cria um histograma dos valores na coluna 'Customer_Age' do DataFrame df_menor e o desenha no segundo subplot (índice 1) criado anteriormente.
ax[1].hist(df_menor['Customer_Age'].dropna())
# Define o título do segundo subplot como 'Distribuição das idades dos clientes'.
ax[1].set_title('Distribuição das idades dos clientes')

# Ajusta automaticamente a posição dos subplots para evitar sobreposição de elementos.
plt.tight_layout()
# Exibe a figura com os subplots.
plt.show()

In [None]:
##################################################################################################
###### ATENÇÃO = COMPILAR COM NÚMERO PEQUENO DE VARIÁVEIS! SUGIRO 4, POIS LEVA ALGUNS MINUTOS
##################################################################################################

# Gera distribuição de todas as variáveis, comando demorado para muitas colunas
sns.pairplot(df_menor)

In [None]:
# Grafico de barras com divisão por uma variável categorica
sns.countplot(x='Card_Category', hue='Attrition_Flag', data=df_menor)

In [None]:
# Boxplot (quartis) da variável Card_Category e Credit_Limit com segmentação pela variável Attrition_Flag.
plt.figure(figsize=(8,5), dpi=150)
sns.boxplot(x='Credit_Limit', data=df_menor)

In [None]:
# Boxplot (quartis) da variável Card_Category e Credit_Limit com segmentação pela variável Attrition_Flag.
plt.figure(figsize=(8,5), dpi=150)
sns.boxplot(x='Card_Category', y='Credit_Limit', hue='Attrition_Flag', data=df_menor)

In [None]:
# Histogramas
# Cria um objeto que terá as classes da variável passada, neste caso 5 classes (Card_Category)
g = sns.FacetGrid(df_menor, col='Card_Category')

# Gera um histograma Credit_Limit
g.map(plt.hist,'Credit_Limit', bins=10)

In [None]:
# Gráfico de linhas
# Calcula a média do limite de crédito para cada idade
media_limite_credito_por_idade = df.groupby('Customer_Age')['Credit_Limit'].mean().reset_index()

# Cria o gráfico de linhas
plt.figure(figsize=(10, 6))
plt.plot(media_limite_credito_por_idade['Customer_Age'], media_limite_credito_por_idade['Credit_Limit'],
         marker='o', color='blue', linestyle='-', linewidth=2, markersize=8)
plt.title('Média do Limite de Crédito por Idade', fontsize=16)
plt.xlabel('Idade', fontsize=14)
plt.ylabel('Média do Limite de Crédito', fontsize=14)
plt.grid(True)  # Adiciona grades ao gráfico
plt.show()

In [None]:
# Calcula a contagem de ocorrências de cada categoria
contagem_categorias = df['Card_Category'].value_counts()

# Cria o gráfico de setores
plt.figure(figsize=(8, 6))
ax = contagem_categorias.plot(kind='pie',
                               autopct='%1.1f%%',
                               colors=plt.cm.tab10.colors,
                               wedgeprops=dict(edgecolor='w'),
                               fontsize=12)

# Ajusta o título e a legenda
plt.title('Distribuição de Card_Category', fontsize=16)
plt.ylabel('')  # Remove o rótulo do eixo y
plt.legend(contagem_categorias.index, loc='upper right', bbox_to_anchor=(1.2, 1), fontsize=12)

# Mostra o gráfico
plt.show()


### Outros gráficos

In [None]:
# Boxplot (quartis) da variável Card_Category e Credit_Limit com segmentação pela variável Attrition_Flag.
plt.figure(figsize=(8,5), dpi=150)
sns.boxplot(x='Card_Category', y='Credit_Limit', hue='Attrition_Flag', data=df_menor)

In [None]:
# Gráfico de linhas
# Calcula a média do limite de crédito para cada idade
media_limite_credito_por_idade = df.groupby('Customer_Age')['Credit_Limit'].mean().reset_index()

# Cria o gráfico de linhas
plt.figure(figsize=(10, 6))
plt.plot(media_limite_credito_por_idade['Customer_Age'], media_limite_credito_por_idade['Credit_Limit'],
         marker='o', color='blue', linestyle='-', linewidth=2, markersize=8)
plt.title('Média do Limite de Crédito por Idade', fontsize=16)
plt.xlabel('Idade', fontsize=14)
plt.ylabel('Média do Limite de Crédito', fontsize=14)
plt.grid(True)  # Adiciona grades ao gráfico
plt.show()

# Correlação

In [None]:
# Tabela com a correlação entre as variáveis duas a duas
df_menor.corr()

In [None]:
# plot da matriz de correlação

# análise de correlação

correlation = df_menor.corr()

plot = sns.heatmap(correlation, annot = True, fmt=".2f", linewidths=.6)
plot

In [None]:
# Define o estilo estético do Seaborn
sns.set(style="whitegrid")

# Cria o gráfico de dispersão usando o Seaborn
plt.figure(figsize=(8, 6))
sns.scatterplot(x='Customer_Age', y='Months_on_book', data=df_menor, color='skyblue')
plt.title('Gráfico de Dispersão entre Customer_Age e Months_on_book')
plt.xlabel('Customer_Age')
plt.ylabel('Months_on_book')
plt.show()