# Departamento de marketing

- Dados: https://www.kaggle.com/arjunbhasin2013/ccdata



## Importação das bibliotecas e base de dados

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from sklearn.preprocessing import StandardScaler#  para padronizar dados
from sklearn.cluster import KMeans # para agrupamento de clientes ou segmentação de mercado
from sklearn.decomposition import PCA # para redução de dimensionalidade dos dados

In [None]:
df = pd.read_csv(r'I:\ARQUIVOS PROJETOS\CC GENERAL.csv')

In [None]:
df.shape

In [None]:
df.columns

In [None]:
len(df.columns)

In [None]:
# Dicionário de mapeamento de nomes originais para traduções
traducoes = {
    'CUST_ID': 'ID_DO_CLIENTE',
    'BALANCE': 'SALDO_EM_CONTA',
    'BALANCE_FREQUENCY': 'FREQUENCIA_SALDO',
    'PURCHASES': 'VALOR_COMPRAS',
    'ONEOFF_PURCHASES': 'COMPRAS_A_VISTA',
    'INSTALLMENTS_PURCHASES': 'COMPRAS_PARCELADAS',
    'CASH_ADVANCE': 'ADIANTAMENTO_SAQUE_EM_DINHEIRO',
    'PURCHASES_FREQUENCY': 'FREQUENCIA_DE_COMPRAS',
    'ONEOFF_PURCHASES_FREQUENCY': 'FREQUENCIA_DE_COMPRAS_A_VISTA',
    'PURCHASES_INSTALLMENTS_FREQUENCY': 'FREQUENCIA_DE_COMPRAS_PARCELADAS',
    'CASH_ADVANCE_FREQUENCY': 'FREQUENCIA_DE_ADIANTAMENTO_SAQUE_EM_DINHEIRO',
    'CASH_ADVANCE_TRX': 'TRANSACOES_DE_ADIANTAMENTO_SAQUE_EM_DINHEIRO',
    'PURCHASES_TRX': 'NUMERO_TRANSACOES_DE_COMPRAS',
    'CREDIT_LIMIT': 'LIMITE_DE_CREDITO_CARTAO',
    'PAYMENTS': 'PAGAMENTOS_COM_CARTAO',
    'MINIMUM_PAYMENTS': 'PAGAMENTOS_MINIMOS_FATURA',
    'PRC_FULL_PAYMENT': 'PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA',
    'TENURE': 'ANOS_COMO_CLIENTE'
}

# Renomeando as colunas no DataFrame
df.rename(columns=traducoes, inplace=True)

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.dtypes

In [None]:
df.dtypes.value_counts()

In [None]:
df.info()

In [None]:
df.isnull().sum()

In [None]:
sns.heatmap(df.isnull());

In [None]:
df.describe()

Vamos analisar as informações apresentadas:

SALDO_EM_CONTA (saldo em conta):

Média: 1564,47
Desvio Padrão: 2081.53
Mínimo: 0
Máximo: 19043.14
O saldo médio em conta é 1564,47, mas a variabilidade é alta, conforme indicado pelo desvio padrão. O saldo mínimo é 0, e o saldo máximo é 19043,14.

FREQUENCIA_SALDO (Frequência de Saldo):

Média: 0,877
Desvio Padrão: 0,237
Mínimo: 0
Máximo: 1
A frequência de saldo varia de 0 a 1, com uma média de 0,877. Parece haver uma alta frequência de clientes com saldo.

VALOR_COMPRAS (Valor de compras):

Média: 1003,20
Desvio Padrão: 2136.63
Mínimo: 0
Máximo: 49039,57
O valor médio de compras é 1003,20, mas a variabilidade é alta, com um valor máximo de 49039,57.

COMPRAS_A_VISTA (Compras à vista):

Média: 592,44
Desvio Padrão: 1659,89
Mínimo: 0
Máximo: 40761,25
O valor médio de compras à vista é 592,44, com uma alta variabilidade.

COMPRAS_PARCELADAS (Compras parceladas):

Média: 411,07
Desvio Padrão: 904.34
Mínimo: 0
Máximo: 22500,00
O valor médio de compras parceladas é 411,07, com uma variabilidade significativa.

ADIANTAMENTO_SAQUE_EM_DINHEIRO (Adiantamento/Saque em dinheiro):

Média: 978,87
Desvio Padrão: 2097.16
Mínimo: 0
Máximo: 47137,21
O valor médio de adiantamento/saque em dinheiro é 978,87, com uma alta variabilidade.

FREQUENCIA_DE_COMPRAS (Frequência de compras):

Média: 0,490
Desvio Padrão: 0,401
Mínimo: 0
Máximo: 1
A frequência média de compras é 0,490, diminuindo que os clientes não fazem compras com uma frequência muito alta.

FREQUENCIA_DE_COMPRAS_A_VISTA (Frequência de compras à vista):

Média: 0,202
Desvio Padrão: 0,298
Mínimo: 0
Máximo: 1
A frequência média de compras à vista é de 0,202, diminuindo que a maioria das compras é parcelada.

FREQUENCIA_DE_COMPRAS_PARCELADAS (Frequência de compras parceladas):

Média: 0,364
Desvio Padrão: 0,397
Mínimo: 0
Máximo: 1
A frequência média de compras parceladas é 0,364, indicando uma distribuição equilibrada entre compras à vista e parceladas.

FREQUENCIA_DE_ADIANTAMENTO_SAQUE_EM_DINHEIRO (Frequência de adiantamento/saque em dinheiro):

Média: 0,135
Desvio Padrão: 0,200
Mínimo: 0
Máximo: 1,5
A frequência média de adiantamento/saque em dinheiro é 0,135, o que não é uma ocorrência comum.

TRANSACOES_DE_ADIANTAMENTO_SAQUE_EM_DINHEIRO (Transações de adiantamento/saque em dinheiro):
Média: 3,25
Desvio Padrão: 6,82
Mínimo: 0
Máximo: 123
O número médio de transações de adiantamento/saque em dinheiro é 3,25, com uma variabilidade significativa.

NUMERO_TRANSACOES_DE_COMPRAS (Número de transações de compras):
Média: 14,71
Desvio Padrão: 24,86
Mínimo: 1
Máximo: 358
O número médio de transações de compras é 14,71, com uma variabilidade específica.

LIMITE_DE_CREDITO_CARTAO (Limite de crédito do cartão):
Média: 4494,45
Desvio Padrão: 3638.82
Mínimo: 50
Máximo: 30000
O limite médio de crédito do cartão é 4494,45, com uma variabilidade específica.

PAGAMENTOS_COM_CARTAO (Pagamentos com cartão):
Média: 1733,14
Desvio Padrão: 2895.06
Mínimo: 0,019
Máximo: 50721,48
O valor médio de pagamentos com cartão é 1733,14, com uma variabilidade significativa.

PAGAMENTOS_MINIMOS_FATURA (Pagamentos mínimos de fatura):
Média: 864,21
Desvio Padrão: 2372.45
Mínimo: 0
Máximo: 76406.21
O valor médio dos pagamentos mínimos da fatura é 864,21, com uma variabilidade significativa.

PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA (Percentual de pagamento total da fatura):
Média: 0,154
Desvio Padrão: 0,292
Mínimo: 0
Máximo: 1
O percentual médio de pagamento total da fatura é 0,154, indicando que os clientes tendem a pagar uma parte da fatura, mas não o valor total.

ANOS_COMO_CLIENTE (Anos como cliente):
Média: 11,52
Desvio Padrão: 1,34
Mínimo: 6
Máximo: 12
O tempo médio de permanência como cliente é de 11,52 anos, com uma variabilidade baixa. A maioria dos clientes parece ter dados longos.

Essa análise fornece uma visão geral das características e comportamentos dos clientes com base nos dados fornecidos.

In [None]:
# Crie um gráfico de barras para a média de cada coluna
fig = px.bar(df.describe().loc['mean'], labels={'value': 'Média'})

# Exiba o gráfico
fig.show()

In [None]:
df.duplicated().sum()

In [None]:
plt.figure(figsize=(12, 8))
sns.boxplot(data=df)
plt.xticks(rotation=45, ha='right')  # Adjust rotation angle and horizontal alignment as needed
plt.title('Boxplot of DataFrame')
plt.show()

In [None]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import pandas as pd

# Crie subplots com base no número de colunas
fig = make_subplots(rows=4, cols=2, subplot_titles=[
    'SALDO_EM_CONTA',
    'VALOR_COMPRAS',
    'COMPRAS_A_VISTA',
    'COMPRAS_PARCELADAS',
    'ADIANTAMENTO_SAQUE_EM_DINHEIRO',
    'LIMITE_DE_CREDITO_CARTAO',
    'PAGAMENTOS_COM_CARTAO',
    'PAGAMENTOS_MINIMOS_FATURA'
])

# Adicione os gráficos individuais
fig.add_trace(go.Scatter(x=df.index, y=df['SALDO_EM_CONTA']), row=1, col=1)
fig.add_trace(go.Scatter(x=df.index, y=df['VALOR_COMPRAS']), row=1, col=2)
fig.add_trace(go.Scatter(x=df.index, y=df['COMPRAS_A_VISTA']), row=2, col=1)
fig.add_trace(go.Scatter(x=df.index, y=df['COMPRAS_PARCELADAS']), row=2, col=2)
fig.add_trace(go.Scatter(x=df.index, y=df['ADIANTAMENTO_SAQUE_EM_DINHEIRO']), row=3, col=1)
fig.add_trace(go.Scatter(x=df.index, y=df['LIMITE_DE_CREDITO_CARTAO']), row=3, col=2)
fig.add_trace(go.Scatter(x=df.index, y=df['PAGAMENTOS_COM_CARTAO']), row=4, col=1)
fig.add_trace(go.Scatter(x=df.index, y=df['PAGAMENTOS_MINIMOS_FATURA']), row=4, col=2)

# Atualize o layout para adicionar títulos e rótulos
fig.update_layout(title_text='Subplots com Dados Financeiros',
                  showlegend=False)

# Exiba o gráfico
fig.show()

In [None]:
def calculate_outliers(column):
    try:
        # Tenta converter para float
        column = column.astype(float)
    except ValueError:
        print(f"Column {column.name} contains non-numeric values and will be skipped.")
        return None

    Q1 = column.quantile(0.25)
    Q3 = column.quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = (column < lower_bound) | (column > upper_bound)
    return outliers

# Calcular outliers para cada coluna
outliers_dict = {col: calculate_outliers(df[col]) for col in df.columns}

# Exibir o número de outliers para cada coluna
for col, outliers in outliers_dict.items():
    if outliers is not None:
        print(f"Column {col}: {outliers.sum()} outliers")


## Visualização e exploração dos dados

In [None]:
num_clientes_compraram_a_vista = (df['COMPRAS_A_VISTA'] > 0).sum()

print(f"Número de clientes que realizaram compras à vista: {num_clientes_compraram_a_vista}")


In [None]:
# Criar variável indicando se o cliente fez compras únicas
df['FEZ_COMPRAS_A_VISTA'] = df['COMPRAS_A_VISTA'] > 0

# Filtrar apenas os clientes que fizeram compras únicas
clientes_compraram_a_vista = df[df['FEZ_COMPRAS_A_VISTA']]['ID_DO_CLIENTE']

In [None]:
clientes_compraram_a_vista

In [None]:
# Filtrar o DataFrame para obter as linhas onde 'ID_DO_CLIENTE' é igual a 'C10574'
resultado = df[df['ID_DO_CLIENTE'] == 'C10574']
resultado

ID_DO_CLIENTE: C10574

SALDO_EM_CONTA: 11547.52

O saldo em conta para este cliente é de 11547,52.
FREQUÊNCIA_SALDO: 1,0

A frequência de saldo para este cliente é 1,0, o que indica uma alta frequência.
VALOR_COMPRAS: 49039,57

O valor total de compras para este cliente é 49039,57.
COMPRAS_A_VISTA: 40761,25

O valor total de compras à vista para este cliente é 40761,25.
COMPRAS_PARCELADAS: 8278,32

O valor total de compras parceladas para este cliente é 8278,32.
ADIANTAMENTO_SAQUE_EM_DINHEIRO: 558,17

O valor total de adiantamento/saque em dinheiro para este cliente é 558,17.
FREQUÊNCIA_DE_COMPRAS: 1.0

A frequência de compras para este cliente é 1.0, diminuindo uma alta frequência.
FREQUENCIA_DE_COMPRAS_A_VISTA: 1.0

A frequência de compras à vista para este cliente é 1,0, diminuindo que todas as compras são à vista.
FREQUENCIA_DE_COMPRAS_PARCELADAS: 0,92

A frequência de compras parceladas para este cliente é de 0,92, inferior a que a maioria das compras são parceladas.
FREQUENCIA_DE_ADIANTAMENTO_SAQUE_EM_DINHEIRO: 0,08

A frequência de adiantamento/saque em dinheiro para este cliente é 0,08, diminuindo que isso não é uma ocorrência comum.
TRANSACOES_DE_ADIANTAMENTO_SAQUE_EM_DINHEIRO: 1

O número total de transações de adiantamento/saque em dinheiro para este cliente é 1.
NUMERO_TRANSACOES_DE_COMPRAS: 101

O número total de transações de compras para este cliente é 101.
LIMITE_DE_CREDITO_CARTAO: 22500,0

O limite de crédito do cartão para este cliente é 22500,0.
PAGAMENTOS_COM_CARTAO: 46930.60

O total de pagamentos com cartão para este cliente é 46930,60.
PAGAMENTOS_MINIMOS_FATURA: 2974.07

O total de pagamentos mínimos da fatura para este cliente é 2.974,07.
PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA: 0,25

O percentual de pagamento total da fatura para este cliente é 0,25, indicando que ele paga uma parte significativa da fatura, mas não o valor total.
ANOS_COMO_CLIENTE: 12

Este cliente é cliente há 12 anos.
FEZ_COMPRAS_A_VISTA: Verdadeiro

Este cliente fez compras à vista.
Esta análise detalhada fornece uma visão mais aprofundada do comportamento e das características específicas do cliente com o ID "C10574" em seu conjunto de dados.

In [None]:
num_clientes_compras_parceladas = (df['COMPRAS_PARCELADAS'] > 0).sum()

print(f"Número de clientes que realizaram compras parceladas: {num_clientes_compras_parceladas}")

In [None]:
# Criar variável indicando se o cliente fez compras únicas
df['FEZ_COMPRAS_PARCELADAS'] = df['COMPRAS_PARCELADAS'] > 0

# Filtrar apenas os clientes que fizeram compras únicas
clientes_compras_parceladas = df[df['FEZ_COMPRAS_PARCELADAS']]['ID_DO_CLIENTE']

In [None]:
clientes_compras_parceladas

In [None]:
# Contar o número de pessoas que fizeram tanto compra à vista quanto compra parcelada
num_pessoas_ambas_as_compras = df[(df['FEZ_COMPRAS_A_VISTA'] == True) & (df['FEZ_COMPRAS_PARCELADAS'] == True)].shape[0]

print(f"Número de pessoas que fizeram tanto compra à vista quanto compra parcelada: {num_pessoas_ambas_as_compras}")


In [None]:
# Criar variável indicando se o cliente fez compras únicas
df['AMBAS_COMPRAS'] = (df['FEZ_COMPRAS_A_VISTA'] & df['FEZ_COMPRAS_PARCELADAS'])

# Filtrar apenas os clientes que fizeram compras únicas
clientes_ambas_as_compras = df[df['AMBAS_COMPRAS']]['ID_DO_CLIENTE']



In [None]:
clientes_ambas_as_compras

In [None]:
import matplotlib.pyplot as plt

# Criar uma coluna para indicar se um cliente fez ambas as compras
df['AMBAS_COMPRAS'] = (df['FEZ_COMPRAS_A_VISTA'] & df['FEZ_COMPRAS_PARCELADAS'])

# Dados
clientes = df['ID_DO_CLIENTE']
compras_a_vista = df['COMPRAS_A_VISTA']
compras_parceladas = df['COMPRAS_PARCELADAS']
ambas_compras = df['AMBAS_COMPRAS']

# Criar o gráfico de barras
fig, ax = plt.subplots(figsize=(10, 6))
bar_width = 0.20
bar1 = ax.bar(clientes, compras_a_vista, bar_width, label='Compras à Vista', color='blue')
bar2 = ax.bar(clientes, compras_parceladas, bar_width, label='Compras Parceladas', color='orange', bottom=compras_a_vista)
bar3 = ax.bar(clientes, ambas_compras, bar_width, label='Ambas as Compras', color='green', bottom=compras_a_vista + compras_parceladas)

# Adicionar rótulos e título
ax.set_xlabel('Clientes')
ax.set_ylabel('Valor das Compras')
ax.set_title('Compras à Vista, Parceladas e Ambas por Cliente')
ax.legend()

# Mostrar o gráfico
plt.show()


In [None]:
# Calcular a média da FREQUENCIA_DE_COMPRAS por ID_DO_CLIENTE
frequencia_media_por_cliente = df.groupby('ID_DO_CLIENTE')['FREQUENCIA_DE_COMPRAS'].mean()
frequencia_media_por_cliente

In [None]:
# Calcular o número total de transações de compras por ID_DO_CLIENTE
transacoes_por_cliente = df.groupby('ID_DO_CLIENTE')['NUMERO_TRANSACOES_DE_COMPRAS'].sum()

# Exibir o resultado
print(transacoes_por_cliente)

In [None]:
# Calcular a média geral de transações de compras
media_geral_transacoes = df['NUMERO_TRANSACOES_DE_COMPRAS'].mean()

# Exibir o resultado
print("Média geral de transações de compras:", media_geral_transacoes)

In [None]:
# Calcular a soma total de transações de compras por ID_DO_CLIENTE
transacoes_por_cliente = df.groupby('ID_DO_CLIENTE')['NUMERO_TRANSACOES_DE_COMPRAS'].sum()

# Encontrar o ID_DO_CLIENTE com a maior quantidade de transações de compras
cliente_maior_transacoes = transacoes_por_cliente.idxmax()

# Obter o número total de transações para o cliente com a maior quantidade
num_total_transacoes = transacoes_por_cliente.loc[cliente_maior_transacoes]

# Exibir o resultado
print("ID_DO_CLIENTE com a maior quantidade de transações de compras:", cliente_maior_transacoes)
print("Número total de transações para esse cliente:", num_total_transacoes)



In [None]:
# Calcular o número total de transações de compras por ID_DO_CLIENTE
transacoes_por_cliente = df.groupby('ID_DO_CLIENTE')['NUMERO_TRANSACOES_DE_COMPRAS'].sum().reset_index()

# Encontrar as 100 maiores transações de compras
top_10_transacoes = transacoes_por_cliente.nlargest(10, 'NUMERO_TRANSACOES_DE_COMPRAS')

# Plotar o gráfico
fig = px.bar(top_10_transacoes, x='ID_DO_CLIENTE', y='NUMERO_TRANSACOES_DE_COMPRAS', title='Top 10 Maiores Transações de Compras')
fig.show()

In [None]:
''' Calcular o número total de transações de compras por ID_DO_CLIENTE
transacoes_por_cliente = df.groupby('ID_DO_CLIENTE')['NUMERO_TRANSACOES_DE_COMPRAS'].sum().reset_index()

# Encontrar as 10 menores transações de compras
bottom_10_transacoes = transacoes_por_cliente.nsmallest(10, 'NUMERO_TRANSACOES_DE_COMPRAS')

# Plotar o gráfico
fig = px.bar(bottom_10_transacoes, x='ID_DO_CLIENTE', y='NUMERO_TRANSACOES_DE_COMPRAS', title='Top 10 Menores Transações de Compras')
fig.show()'''

In [None]:
df['ADIANTAMENTO_SAQUE_EM_DINHEIRO'].max()

In [None]:
# cLIENTES QUE MAIS SOLICITAM ADIANTAMENTO

In [None]:
df['ADIANTAMENTO_SAQUE_EM_DINHEIRO'].min()

In [None]:
# Calcular o valor médio de 'ADIANTAMENTO_EM_DINHEIRO' por ID_DO_CLIENTE
adiantamento_medio_por_cliente = df.groupby('ID_DO_CLIENTE')['ADIANTAMENTO_SAQUE_EM_DINHEIRO'].mean()

# Exibir o resultado
print(adiantamento_medio_por_cliente)

In [None]:
# Calcular a média geral do adiantamento
media_geral_adiantamento = df['ADIANTAMENTO_SAQUE_EM_DINHEIRO'].mean()

# Exibir o resultado
print("Média geral do adiantamento:", media_geral_adiantamento)

In [None]:
# Contar o número de clientes que solicitaram ADIANTAMENTO_EM_DINHEIRO (ADIANTAMENTO_EM_DINHEIRO > 0)
num_clientes_com_adiantamento = (df['ADIANTAMENTO_SAQUE_EM_DINHEIRO'] > 0).sum()
percentual_com_adiantamento = (df['ADIANTAMENTO_SAQUE_EM_DINHEIRO'] > 0).mean() * 100

# Exibir os resultados
print("Número de clientes que solicitaram ADIANTAMENTO_SAQUE_EM_DINHEIRO:", num_clientes_com_adiantamento)
print("Percentual de clientes que solicitaram ADIANTAMENTO_SAQUE_EM_DINHEIRO:", percentual_com_adiantamento, "%")

In [None]:
# Contar o número de clientes que não solicitaram ADIANTAMENTO_EM_DINHEIRO (ADIANTAMENTO_EM_DINHEIRO == 0)
num_clientes_sem_adiantamento = (df['ADIANTAMENTO_SAQUE_EM_DINHEIRO'] == 0).sum()
percentual_sem_adiantamento = (df['ADIANTAMENTO_SAQUE_EM_DINHEIRO'] == 0).mean() * 100

# Exibir os resultados
print("Número de clientes que não solicitaram ADIANTAMENTO_SAQUE_EM_DINHEIRO:", num_clientes_sem_adiantamento)
print("Percentual de clientes que não solicitaram ADIANTAMENTO_SAQUE_EM_DINHEIRO:", percentual_sem_adiantamento, "%")

In [None]:
# Obter os IDs dos clientes que solicitaram ADIANTAMENTO_EM_DINHEIRO
id_clientes_com_adiantamento = df[df['ADIANTAMENTO_SAQUE_EM_DINHEIRO'] > 0]['ID_DO_CLIENTE']
id_clientes_com_adiantamento

In [None]:
# Obter os IDs dos clientes que solicitaram ADIANTAMENTO_EM_DINHEIRO
id_clientes_sem_adiantamento = df[df['ADIANTAMENTO_SAQUE_EM_DINHEIRO'] == 0]['ID_DO_CLIENTE']
id_clientes_sem_adiantamento

In [None]:
# Calcular o valor médio de 'ADIANTAMENTO_EM_DINHEIRO' por ID_DO_CLIENTE
adiantamento_medio_por_cliente = df.groupby('ID_DO_CLIENTE')['ADIANTAMENTO_SAQUE_EM_DINHEIRO'].mean().reset_index()

# Encontrar os 10 maiores valores médios de 'ADIANTAMENTO_EM_DINHEIRO'
top_10_adiantamento_medio = adiantamento_medio_por_cliente.nlargest(10, 'ADIANTAMENTO_SAQUE_EM_DINHEIRO')

# Plotar o gráfico
fig = px.bar(top_10_adiantamento_medio, x='ID_DO_CLIENTE', y='ADIANTAMENTO_SAQUE_EM_DINHEIRO', title='Top 10 Maiores Valores Médios de Adiantamento')
fig.show()

In [None]:
''' Calcular o valor médio de 'ADIANTAMENTO_SAQUE_EM_DINHEIRO' por ID_DO_CLIENTE
adiantamento_medio_por_cliente = df.groupby('ID_DO_CLIENTE')['ADIANTAMENTO_SAQUE_EM_DINHEIRO'].mean().reset_index()

# Encontrar os 10 menores valores médios de 'ADIANTAMENTO_EM_DINHEIRO'
bottom_10_adiantamento_medio = adiantamento_medio_por_cliente.nsmallest(10, 'ADIANTAMENTO_SAQUE_EM_DINHEIRO')

# Plotar o gráfico
fig = px.bar(bottom_10_adiantamento_medio, x='ID_DO_CLIENTE', y='ADIANTAMENTO_SAQUE_EM_DINHEIRO', title='Top 10 Menores Valores Médios de Adiantamento')
fig.show()
'''

In [None]:
# Calcular o saldo médio por ID_DO_CLIENTE
saldo_medio_por_cliente = df.groupby('ID_DO_CLIENTE')['SALDO_EM_CONTA'].mean()

# Exibir o resultado
print(saldo_medio_por_cliente)

In [None]:
# Encontrar o ID_DO_CLIENTE com o maior saldo
cliente_maior_saldo = df.loc[df['SALDO_EM_CONTA'].idxmax(), 'ID_DO_CLIENTE']

# Obter o valor do maior saldo
maior_saldo = df['SALDO_EM_CONTA'].max()

# Exibir o resultado
print("ID_DO_CLIENTE com o maior saldo:", cliente_maior_saldo)
print("Maior saldo:", maior_saldo)

In [None]:
# Calcular o saldo geral por ID_DO_CLIENTE
saldo_geral_por_cliente = df.groupby('ID_DO_CLIENTE')['SALDO_EM_CONTA'].sum()

# Calcular a média do saldo geral
media_saldo_geral = saldo_geral_por_cliente.mean()

# Exibir o resultado
print("Média do saldo geral:", media_saldo_geral)

In [None]:
# Encontrar os 10 maiores saldos por cliente
top_10_maiores_saldos = df.groupby('ID_DO_CLIENTE')['SALDO_EM_CONTA'].max().nlargest(10).reset_index()

# Plotar o gráfico
fig = px.bar(top_10_maiores_saldos, x='ID_DO_CLIENTE', y='SALDO_EM_CONTA', title='Top 10 Maiores Saldos por Cliente')
fig.show()

In [None]:
df['PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA'] 

In [None]:
df['PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA'].max()

In [None]:
df['PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA'].min() 

In [None]:
df['PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA'].mean()

In [None]:
df['ANOS_COMO_CLIENTE'].max()

In [None]:
df['ANOS_COMO_CLIENTE'].min()

In [None]:
df['ANOS_COMO_CLIENTE'].mean()

In [None]:
df['PAGAMENTOS_MINIMOS_FATURA'].isnull().sum()

In [None]:
df['PAGAMENTOS_MINIMOS_FATURA'].mean()

In [None]:
# preencher os pagamentos minimos que estão como nulos com a média do mesmo
df.loc[(df['PAGAMENTOS_MINIMOS_FATURA'].isnull() == True), 'PAGAMENTOS_MINIMOS_FATURA'] = df['PAGAMENTOS_MINIMOS_FATURA'].mean()

In [None]:
df['PAGAMENTOS_MINIMOS_FATURA'].isnull().sum()

In [None]:
# Encontrar o ID_DO_CLIENTE com o maior valor de pagamento mínimo
cliente_maior_minimo = df.loc[df['PAGAMENTOS_MINIMOS_FATURA'].idxmax(), 'ID_DO_CLIENTE']

# Obter o valor do maior pagamento mínimo
maior_minimo = df['PAGAMENTOS_MINIMOS_FATURA'].max()

# Exibir o resultado
print("ID_DO_CLIENTE com o maior pagamento mínimo:", cliente_maior_minimo)
print("Maior pagamento mínimo:", maior_minimo)

In [None]:
# Encontrar o ID_DO_CLIENTE com o menor valor de PAGAMENTOS_MINIMOS
cliente_menor_minimo = df.loc[df['PAGAMENTOS_MINIMOS_FATURA'].idxmin(), 'ID_DO_CLIENTE']

# Obter o valor do menor PAGAMENTOS_MINIMOS
menor_minimo = df['PAGAMENTOS_MINIMOS_FATURA'].min()

# Exibir o resultado
print("ID_DO_CLIENTE com o menor pagamento mínimo:", cliente_menor_minimo)
print("Menor pagamento mínimo:", menor_minimo)

In [None]:
df['LIMITE_DE_CREDITO_CARTAO']

In [None]:
df['LIMITE_DE_CREDITO_CARTAO'].isnull().sum()

In [None]:
df['LIMITE_DE_CREDITO_CARTAO'].mean()

In [None]:
# preencher os limite crédito que estão como nulos com a média do mesmo

df.loc[(df['LIMITE_DE_CREDITO_CARTAO'].isnull() == True), 'LIMITE_DE_CREDITO_CARTAO'] = df['LIMITE_DE_CREDITO_CARTAO'].mean()

In [None]:
df.isnull().sum()

In [None]:
sns.heatmap(df.isnull());

In [None]:
df['LIMITE_DE_CREDITO_CARTAO'].max()

In [None]:
df['LIMITE_DE_CREDITO_CARTAO'].min()

In [None]:
# Plotar o gráfico de dispersão
fig = px.scatter(df, x='SALDO_EM_CONTA', y='NUMERO_TRANSACOES_DE_COMPRAS', color='ID_DO_CLIENTE', title='Relação entre Saldo e Transações de Compras')
fig.show()


In [None]:
# Renomear as colunas no DataFrame
df = df.rename(columns={'LIMITE_DE_CREDITO_CARTAO': 'Limite de Crédito', 'NUMERO_TRANSACOES_DE_COMPRAS': 'Transacoes de Compra'})

# Criar o gráfico de dispersão usando Plotly Express
fig = px.scatter(df, x='Limite de Crédito Cartao', y= 'Número Transacoes de Compra', 
                 title='Relação entre Limite de Crédito e Número Transações de Compra',
                 labels={'Limite de Crédito Cartão': 'Limite de Crédito Cartão', 'Numero Transacoes de Compra': 'Numero Transações de Compra'})

# Adicionar linha de tendência
fig.update_traces(marker=dict(size=12, color='blue'), selector=dict(mode='markers'))

# Exibir o gráfico
fig.show()

# Exibir o DataFrame com a nova coluna
print(df)


In [None]:
# Configurar a figura com subplots
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 5))

# Plotar histograma para SALDO
sns.histplot(df['SALDO_EM_CONTA'], bins=10, kde=True, color='skyblue', ax=axes[0])
axes[0].set_title('Distribuição de Saldo')
axes[0].set_xlabel('Saldo em conta')

# Plotar histograma para COMPRAS
sns.histplot(df['VALOR_COMPRAS'], bins=10, kde=True, color='salmon', ax=axes[1])
axes[1].set_title('Distribuição de valor compras')
axes[1].set_xlabel('VALOR_COMPRAS')

# Ajustar o layout
plt.tight_layout()

# Exibir os histogramas
plt.show()

In [None]:
# Aplicar K-means
kmeans = KMeans(n_clusters=3, random_state=42)
df['Segmento'] = kmeans.fit_predict(df[['SALDO_EM_CONTA', 'VALOR_COMPRAS']])

# Visualizar a segmentação
plt.figure(figsize=(8, 6))
sns.scatterplot(x='SALDO_EM_CONTA', y='VALOR_COMPRAS', hue='Segmento', data=df, palette='viridis', s=100)
plt.title('Segmentação de Clientes')
plt.xlabel('Saldo_EM_CONTA')
plt.ylabel('VALOR_COMPRAS')
plt.show()

In [None]:
# Estatísticas descritivas
desc_compras_parceladas = df['COMPRAS_PARCELADAS'].describe()
desc_freq_compras_parceladas = df['FREQUENCIA_DE_COMPRAS_PARCELADAS'].describe()

print("Estatísticas Descritivas para COMPRAS_PARCELADAS:")
print(desc_compras_parceladas)

print("\nEstatísticas Descritivas para FREQUENCIA_DE_COMPRAS_PARCELADAS:")
desc_freq_compras_parceladas

In [None]:
# Histograma para COMPRAS_PARCELADAS
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.histplot(df['COMPRAS_PARCELADAS'], bins=10, kde=True, color='skyblue')
plt.title('Distribuição de COMPRAS_PARCELADAS')

# Histograma para FREQUENCIA_DE_COMPRAS_PARCELADAS
plt.subplot(1, 2, 2)
sns.histplot(df['FREQUENCIA_DE_COMPRAS_PARCELADAS'], bins=10, kde=True, color='salmon')
plt.title('Distribuição de FREQUENCIA_DE_COMPRAS_PARCELADAS')

plt.show()


In [None]:
# Estatísticas descritivas
desc_pagamentos_minimos = df['PAGAMENTOS_MINIMOS_FATURA'].describe()
desc_percentual_pagamento_total = df['PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA'].describe()

print("Estatísticas Descritivas para PAGAMENTOS_MINIMOS_FATURA:")
print(desc_pagamentos_minimos)

print("\nEstatísticas Descritivas para PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA:")
print(desc_percentual_pagamento_total)


In [None]:
# Histograma para PAGAMENTOS_MINIMOS
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.histplot(df['PAGAMENTOS_MINIMOS_FATURA'], bins=10, kde=True, color='blue')
plt.title('Distribuição de PAGAMENTOS_MINIMOS_FATURA')

# Histograma para PERCENTUAL_DE_PAGAMENTO_TOTAL
plt.subplot(1, 2, 2)
sns.histplot(df['PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA'], bins=10, kde=True, color='orange')
plt.title('Distribuição de PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA')

plt.show()


In [None]:
clientes_compras_a_vista = df[df['FEZ_COMPRAS_A_VISTA'] == 1]


In [None]:
# Estatísticas descritivas para o grupo de clientes que fez compras apenas uma vez
desc_a_vista = clientes_compras_a_vista.describe()
print("Estatísticas Descritivas para Clientes que Fizeram Compras a Vista:")
print(desc_a_vista)


In [None]:
# Exemplo: Histograma para SALDO dos clientes que fizeram compras apenas uma vez
plt.figure(figsize=(8, 6))
sns.histplot(clientes_uma_vez['SALDO_EM_CONTA'], bins=10, kde=True, color='purple')
plt.title('Distribuição de SALDO para Clientes que Fizeram Compras Apenas Uma Vez')
plt.xlabel('Saldo em Conta')
plt.ylabel('Frequência')
plt.show()


In [None]:
# Exemplo: Histograma para SALDO dos clientes que fizeram compras apenas uma vez
plt.figure(figsize=(8, 6))
sns.histplot(clientes_uma_vez['SALDO_EM_CONTA'], bins=10, kde=True, color='purple')
plt.title('Distribuição de SALDO para Clientes que Fizeram Compras Apenas Uma Vez')
plt.xlabel('Saldo em conta')
plt.ylabel('Frequência')
plt.show()


In [None]:
# Gráfico de dispersão
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Limite de Crédito cartão', y='Número Transacoes de Compra', data=df, color='blue')
plt.title('Relação entre Limite de Crédito e Transações de Compra')
plt.xlabel('Limite de Crédito')
plt.ylabel('Transações de Compra')
plt.show()


In [None]:
# Exemplo: Boxplot para diferentes grupos de Limite de Crédito
plt.figure(figsize=(12, 6))
sns.boxplot(x='Limite de Crédito', y='Transacoes de Compra', data=df)
plt.title('Distribuição de Transações de Compra por Limite de Crédito')
plt.xlabel('Limite de Crédito')
plt.ylabel('Transações de Compra')
plt.show()


In [None]:
numeric_df = df.select_dtypes(include='number')
correlations = numeric_df.corr()


In [None]:
f, ax = plt.subplots(figsize=(20,20))
sns.heatmap(correlations, annot=True);

In [None]:
correlacao_limite_compra = df['Limite de Crédito'].corr(df['Transacoes de Compra'])
print(f"\nCorrelação entre Limite de Crédito e Transações de Compra: {correlacao_limite_compra}")


In [None]:
# Gráfico de dispersão
plt.figure(figsize=(8, 6))
sns.scatterplot(x='ADIANTAMENTO_SAQUE_EM_DINHEIRO', y='numero_TRANSACOES_DE_ADIANTAMENTO_EM_DINHEIRO', data=df, color='blue')
plt.title('Relação entre ADIANTAMENTO_EM_DINHEIRO e TRANSACOES_DE_ADIANTAMENTO_EM_DINHEIRO')
plt.xlabel('ADIANTAMENTO_SAQUE_EM_DINHEIRO')
plt.ylabel('NUMERO_TRANSACOES_DE_ADIANTAMENTO_EM_DINHEIRO')
plt.show()

# Correlação
correlacao_adiantamento = df['ADIANTAMENTO_SAQUE_EM_DINHEIRO'].corr(df['NUMERO_TRANSACOES_DE_ADIANTAMENTO_EM_DINHEIRO'])
print(f"\nCorrelação entre ADIANTAMENTO_EM_DINHEIRO e TRANSACOES_DE_ADIANTAMENTO_EM_DINHEIRO: {correlacao_adiantamento}")


In [None]:
# Gráfico de dispersão
plt.figure(figsize=(8, 6))
sns.scatterplot(x='COMPRAS_PARCELADAS', y='FREQUENCIA_DE_COMPRAS_PARCELADAS', data=df, color='purple')
plt.title('Relação entre COMPRAS_PARCELADAS e FREQUENCIA_DE_COMPRAS_PARCELADAS')
plt.xlabel('COMPRAS_PARCELADAS')
plt.ylabel('FREQUENCIA_DE_COMPRAS_PARCELADAS')
plt.show()

# Correlação
correlacao = df['COMPRAS_PARCELADAS'].corr(df['FREQUENCIA_DE_COMPRAS_PARCELADAS'])
print(f"\nCorrelação entre COMPRAS_PARCELADAS e FREQUENCIA_DE_COMPRAS_PARCELADAS: {correlacao}")


In [None]:
# Gráfico de dispersão
plt.figure(figsize=(8, 6))
sns.scatterplot(x='PAGAMENTOS_MINIMOS_FATURA', y='PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA', data=df, color='green')
plt.title('Relação entre PAGAMENTOS_MINIMOS e PERCENTUAL_DE_PAGAMENTO_TOTAL')
plt.xlabel('PAGAMENTOS_MINIMOS_FATURA)
plt.ylabel('PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA')
plt.show()

# Correlação
correlacao_pagamentos = df['PAGAMENTOS_MINIMOS_FATURA'].corr(df['PERCENTUAL_DE_PAGAMENTO_TOTAL_FATURA'])
print(f"\nCorrelação entre PAGAMENTOS_MINIMOS e PERCENTUAL_DE_PAGAMENTO_TOTAL: {correlacao_pagamentos}")


In [None]:
df.drop('ID_DO_CLIENTE', axis = 1, inplace = True)

In [None]:
len(df.columns)

In [None]:
df.head()

In [None]:
plt.figure(figsize=(10, 50))

# Choose the number of rows and columns in the subplot grid
num_rows = 17
num_cols = 1

# Limit the loop iteration to the minimum of the number of columns and the number of subplots
for i in range(min(len(df.columns), num_rows * num_cols)):
    plt.subplot(num_rows, num_cols, i + 1)
    sns.distplot(df[df.columns[i]], kde=True)
    plt.title(df.columns[i])

plt.tight_layout()
plt.show()

## Definição do número de clusters usando o Elbow Method

- Mais detalhes
  - https://en.wikipedia.org/wiki/Elbow_method_(clustering)
  - https://www.geeksforgeeks.org/elbow-method-for-optimal-value-of-k-in-kmeans/

In [None]:
min(creditcard_df['BALANCE']), max(creditcard_df['BALANCE'])

In [None]:
scaler = StandardScaler()
creditcard_df_scaled = scaler.fit_transform(creditcard_df)

In [None]:
type(creditcard_df_scaled), type(creditcard_df)

In [None]:
min(creditcard_df_scaled[0]), max(creditcard_df_scaled[0])

In [None]:
creditcard_df_scaled

In [None]:
wcss_1 = []
range_values = range(1, 20)
for i in range_values:
  kmeans = KMeans(n_clusters=i)
  kmeans.fit(creditcard_df_scaled)
  wcss_1.append(kmeans.inertia_)

In [None]:
print(wcss_1)

In [None]:
plt.plot(wcss_1, 'bx-')
plt.xlabel('Clusters')
plt.ylabel('WCSS');

## Agrupamento com k-means

In [None]:
kmeans = KMeans(n_clusters=8)
kmeans.fit(creditcard_df_scaled)
labels = kmeans.labels_

In [None]:
labels, len(labels)

In [None]:
np.unique(labels, return_counts=True)

In [None]:
kmeans.cluster_centers_

In [None]:
cluster_centers = pd.DataFrame(data = kmeans.cluster_centers_, columns = [creditcard_df.columns])
cluster_centers

- Grupo 0 (VIP/Prime): limite do cartão alto (15570) e o mais alto percentual de pagamento da fatura completa (0.47). Aumentar o limite do cartão e o hábito de compras

- Grupo 3: Clientes que pagam poucos juros para o banco e são cuidadosos com seu dinheiro. Possui menos dinheiro na conta corrente (104) e não sacam muito dinheiro do limite do cartão (302). 23% de pagamento da fatura completa do cartão de crédito

- Grupo 5: usam o cartão de crédito como "empréstimo" (setor mais lucrativo para o banco), possuem muito dinheiro na conta corrente (5119) e sacam muito dinheiro do cartão de crédito (5246), compram pouco (0.3) e usam bastante o limite do cartão para saques (0.51). Pagam muito pouco a fatura completa (0.03)

- Grupo 7 (clientes novos): clientes mais novos (7.23) e que mantém pouco dinheiro na conta corrente (863)

In [None]:
cluster_centers = scaler.inverse_transform(cluster_centers)
cluster_centers = pd.DataFrame(data = cluster_centers, columns = [creditcard_df.columns])
cluster_centers

In [None]:
labels, len(labels)

In [None]:
creditcard_df_cluster = pd.concat([creditcard_df, pd.DataFrame({'cluster': labels})], axis = 1)
creditcard_df_cluster.head()

In [None]:
for i in creditcard_df.columns:
  plt.figure(figsize=(35,5))
  for j in range(8):
    plt.subplot(1, 8, j + 1)
    cluster = creditcard_df_cluster[creditcard_df_cluster['cluster'] == j]
    cluster[i].hist(bins = 20)
    plt.title('{} \nCluster {}'.format(i, j))
  plt.show()

In [None]:
credit_ordered = creditcard_df_cluster.sort_values(by = 'cluster')
credit_ordered.head()

In [None]:
credit_ordered.tail()

In [None]:
credit_ordered.to_csv('cluster.csv')

## Aplicação de PCA (principal component analysis) e visualização dos resultados

In [None]:
pca = PCA(n_components=2)
principal_comp = pca.fit_transform(creditcard_df_scaled)
principal_comp

In [None]:
pca_df = pd.DataFrame(data = principal_comp, columns=['pca1', 'pca2'])
pca_df.head()

In [None]:
pca_df = pd.concat([pca_df, pd.DataFrame({'cluster': labels})], axis = 1)
pca_df.head()

In [None]:
plt.figure(figsize=(10,10))
sns.scatterplot(x = 'pca1', y = 'pca2', hue = 'cluster', data = pca_df, palette = ['red', 'green', 'blue', 'pink', 'yellow', 'gray', 'purple', 'black'])

## Aplicação de autoencoders

In [None]:
# 18 -> 10
# Elbow
# K-means
# PCA

In [None]:
creditcard_df_scaled.shape

In [None]:
# 17 -> 500 -> 2000 -> 10 -> 2000 -> 500 -> 17
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.models import Model

In [None]:
input_df = Input(shape=(17,))
x = Dense(500, activation='relu')(input_df)
x = Dense(2000, activation='relu')(x)

encoded = Dense(10, activation='relu')(x)

x = Dense(2000, activation='relu')(encoded)
x = Dense(500, activation='relu')(x)

decoded = Dense(17)(x)

In [None]:
# autoencoder
autoencoder = Model(input_df, decoded)

In [None]:
# encoder
encoder = Model(input_df, encoded)

In [None]:
autoencoder.compile(optimizer = 'Adam', loss = 'mean_squared_error')

In [None]:
autoencoder.fit(creditcard_df_scaled, creditcard_df_scaled, epochs = 50)

In [None]:
creditcard_df_scaled.shape

In [None]:
compact = encoder.predict(creditcard_df_scaled)

In [None]:
compact.shape

In [None]:
creditcard_df_scaled[0]

In [None]:
compact[0]

In [None]:
wcss_2 = []
range_values = range(1, 20)
for i in range_values:
  kmeans = KMeans(n_clusters=i)
  kmeans.fit(compact)
  wcss_2.append(kmeans.inertia_)

In [None]:
plt.plot(wcss_2, 'bx-')
plt.xlabel('Clusters')
plt.ylabel('WCSS');

In [None]:
plt.plot(wcss_1, 'bx-', color = 'r')
plt.plot(wcss_2, 'bx-', color = 'g');

In [None]:
kmeans = KMeans(n_clusters=4)
kmeans.fit(compact)

In [None]:
labels = kmeans.labels_
labels, labels.shape

In [None]:
df_cluster_at = pd.concat([creditcard_df, pd.DataFrame({'cluster': labels})], axis = 1)
df_cluster_at.head()

In [None]:
pca = PCA(n_components = 2)
prin_comp = pca.fit_transform(compact)
pca_df = pd.DataFrame(data = prin_comp, columns = ['pca1', 'pca2'])
pca_df.head()

In [None]:
pca_df = pd.concat([pca_df, pd.DataFrame({'cluster': labels})], axis = 1)
pca_df.head()

In [None]:
plt.figure(figsize=(10,10))
sns.scatterplot(x = 'pca1', y = 'pca2', hue = 'cluster', data = pca_df, palette = ['red', 'green', 'blue', 'pink'])

In [None]:
df_cluster_ordered = df_cluster_at.sort_values(by = 'cluster')
df_cluster_ordered.head()

In [None]:
df_cluster_ordered.tail()

In [None]:
df_cluster_ordered.to_excel('cluster_ordereded.xls')