# **Exploração/Análise de Dados de Crédito com SQL**
*Esse notebook tem como finalidade ser entregue como atividade de SQL para Análise de Dados, na EBAC.*

## Contexto:
(Fictício para fins acadêmicos)

Em uma determinada empresa, houve o pedido para analisar o perfil dos seus clientes, afim de examinar métricas e/ou tendências para o melhor aproveitamento no redirecionamento do público, tanto para propagandas, ou possíveis ofertas e promoções.

Utilizarei comandos de SQL, mais precisamente no serviço da AWS Athena, e também códigos Python, para eventuais criações de gráficos e insights.

## Os dados: 

Representados em 12 colunas, contendo diversas informações de clientes que utilizam nosso cartão de crédito.

*   idade = idade do cliente
*   sexo = sexo do cliente (F/M)
*   dependentes = número de dependentes do cliente
*   escolaridade = nível de escolaridade dos clientes
*   estado_civil = estado civil do cliente
*   salario_anual = faixa salarial do cliente
*   tipo_cartao = tipo de cartão do cliente
*   qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
*   iteracoes_12m = quantidade de iterações/transações nos ultimos 12 meses
*   meses_inativo_12m = quantidade de meses que o cliente ficou inativo
*   limite_credito = limite de credito do cliente
*   valor_transacoes_12m = valor das transações dos ultimos 12 meses
*   qtd_transacoes_12m = quantidade de transações dos ultimos 12 meses


A tabela foi criada no **AWS Athena**, junto ao S3 Bucket, usada em um formato menor, com um número menor de dados.
Local dos dados originais: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

### Exploração dos dados:

Hora de entender um pouco mais dos dados:

#### Quantidade de linhas em nossa tabela:

*Query*: SELECT COUNT(*) FROM credito;
    
> Resposta: 2564 linhas

**OBS:** A base de dados fornecida na aba de "Dados", é maior que a utilizada no exercício. Para fins acadêmicos, utilizamos uma amostra menor de clientes, para desenvolver a atividade. Farei o upload do csv utilizado nessa atividade nesse notebook.

#### Características dos dados:

*Query*: SELECT * FROM credito LIMIT 10;
![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query1-modulo35.PNG?raw=true)

**OBS:** Dados nulos serão tratados mais a frente.


#### Tipos dos dados:

*Query*: DESCRIBE credito;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query2-modulo35.PNG?raw=true)

#### Variáveis não numéricas:

* Tipos presentes no Dataset:

**Escolaridade:**

*Query*: SELECT DISTINCT escolaridade FROM credito;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query3-modulo35.png?raw=true)
> Há 5 tipos de escolaridade, além de valores nulos.

**Estado Civil:**

*Query*: SELECT DISTINCT estado_civil FROM credito;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query4-modulo35.PNG?raw=true)
> Há 3 tipos de estado civil, além de valores nulos.

**Salario Anual:**

*Query*: SELECT DISTINCT salario_anual FROM credito;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query5-modulo35.png?raw=true)

**OBS:** O salário anual é informado pelo cliente, podendo ser apenas uma estimativa do valor real, não exata.


**Tipos de cartões:**

*Query*: SELECT DISTINCT tipo_cartao FROM credito;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query6-modulo35.png?raw=true)
> Possui quatro categorias, NÃO havendo valores nulos.


### Análise dos dados

Com os dados explorados, podemos analisar informações afim de encontrar métricas e tendências, e responder possíveis perguntas/dúvidas.

***Nossa equipe de marketing está considerando a possibilidade de fazer uma campanha de promoções de mês das mulheres para as atuais clientes, mas só acham viável se o total de clientes mulheres forem de, no mínimo, 60%. É viável uma campanha?***


*Query*: SELECT COUNT(*) AS quantidade, sexo FROM credito GROUP BY sexo;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query-quantidade_pessoas_por__sexo.PNG?raw=true)

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/clientes_por_sexo_png.PNG?raw=true)
> ***Resposta:*** Não é viável, pois atualmente o público feminino é de apenas 39%.
> ***OBS:*** O código feito para criação do gráfico acima (e eventualmente os demais ao longo da análise) serão colocados no fim do notebook.

***Como está distribuído a categoria dos cartões?***

*Query*: SELECT COUNT(*) AS quantidade, tipo_cartao from credito GROUP BY tipo_cartao ORDER BY quantidade DESC;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query-tipos_cartoes.PNG?raw=true)

***OBS:*** A maioria esmagadora dos clientes possuem o cartão **BLUE**, e apenas 2 clientes possuem o cartão ***PLATINUM***, representando muito menos que 1% do total.

***E em relação a renda dos clientes, em quais faixas os clientes se encontram?***

*Query*: SELECT COUNT(*) AS quantidade, salario_anual FROM credito 
WHERE salario_anual != 'na' GROUP BY salario_anual ORDER BY quantidade DESC;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query-renda_clientes.PNG?raw=true)

***OBS:*** (Para essa análise, retiramos os clientes que não informaram seu salário anual para a empresa. Na próxima análise eles serão tratados a parte.)

> A ***maioria*** dos clientes se encontram na ***menor faixa de salário anual (menos de 40K)***, e a ***minoria*** se encontra na ***maior faixa de salário anual (120K+)***. Podemos analisar que, existe a possibilidade de reformar as categorias atuais do cartão, pois vários desses grupos utilizam o cartão mais básico, e não apenas o grupo de menor faixa salarial. Uma forma seria analisar o seu salário anual, junto a regularidade do uso de cada cliente.

***DADOS NULOS (salario_anual):***

*Query:* SELECT COUNT(*) AS quantidade, tipo_cartao FROM credito 
WHERE salario_anual = 'na' GROUP BY tipo_cartao ORDER BY quantidade DESC;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query-dados_nulos-tipos_cartoes.PNG?raw=true)

***OBS:*** Observamos que a maioria seguem a mesma linha, possuindo cartão do tipo ***BLUE***, mas ***há 2 pessoas que possuem os melhores cartões da empresa (GOLD e PLATINUM)***. Vamos explorar o uso dos cartões desses dois clientes?

*Query:* SELECT salario_anual, tipo_cartao, qtd_transacoes_12m, valor_transacoes_12m, meses_inativo_12m FROM credito 
WHERE salario_anual = 'na' AND tipo_cartao = 'gold' OR 
salario_anual = 'na' AND tipo_cartao = 'platinum' ORDER BY qtd_transacoes_12m DESC;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query-clientes-platinum_gold-sem_renda_v2.PNG?raw=true)

> Podemos observar que eles possuem poucos meses inativos, e que o cliente ***GOLD*** é mais ativo. Vamos verificar com os demais clientes não nulos?

*Query:* SELECT salario_anual, tipo_cartao, qtd_transacoes_12m, valor_transacoes_12m FROM credito 
WHERE salario_anual != 'na'
ORDER BY qtd_transacoes_12m DESC LIMIT 10;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query-top10_clientes.PNG?raw=true)

> Para efeito de comparação, separei os 10 clientes com os maiores números de transações nos últimos 12 meses. Podemos observar que a maioria deles possui um salario anual **abaixo dos 60K**, e todos esses possuem o mesmo tipo de cartão: o tipo ***BLUE***. Vamos fazer uma análise do perfil dos clientes desse tipo de cartão?

*Query:* SELECT COUNT(salario_anual) as qtd_clientes_blue, salario_anual
FROM credito WHERE tipo_cartao = 'blue' 
GROUP BY salario_anual ORDER BY qtd_clientes_blue DESC;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query-perfil-clientes_blue.PNG?raw=true)

> Podemos observar que os clientes com o salário anual ***menos de 40K*** estão em maior presença no tipo de cartão ***BLUE***. Porém, há diversos clientes com maiores rendas que possuem o mesmo tipo de cartão. Para efeito de comparação novamente, vamos ver as informações dos clientes que possuem os 10 maiores limites de crédito nesse tipo de cartão.

*Query:* SELECT tipo_cartao, limite_credito, valor_transacoes_12m 
FROM credito 
ORDER BY limite_credito DESC LIMIT 10;


![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query-top10-limite_credito.PNG?raw=true)

> Podemos observar que METADE dos clientes com maiores limites de crédito, possuem o cartão do tipo ***BLUE***! E que apenas UM dos dez maiores possuem o cartão mais alto da empresa, o do tipo ***PLATINUM***. Vamos comparar a mesma situação, porém com os 10 clientes com maiores valores de transações dos últimos 12 meses.

*Query:* SELECT tipo_cartao, valor_transacoes_12m, limite_credito  
FROM credito 
ORDER BY valor_transacoes_12m DESC LIMIT 10;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query-top10-valor_transacoes.PNG?raw=true)

> Podemos observar que TODOS os 10 clientes com maiores valores de transações recentes possuem o cartão do tipo ***BLUE***. Já o limite de crédito deles variam.

Para fechar, podemos comparar a média de crédito de cada tipo de cartão:

*Query:* SELECT tipo_cartao, AVG(limite_credito) AS media_limite 
FROM credito
GROUP BY tipo_cartao ORDER BY media_limite DESC;

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/query-media-limite_cartoes.PNG?raw=true)

![](https://github.com/matheus10-2022/atividade-SQL-EBAC/blob/main/grafico-media-limite_cartoes.PNG?raw=true)

> Podemos observar que a média dos limites dos cartões de cada cartão correspondem as suas categorias na ordem.

### Conclusão

Feito algumas análises a respeito do nosso Banco de Dados (Disponibilizado em CSV no notebook), podemos analisar certas ocasiões:

* Há uma massa de clientes bastante desproporcional no tipo de cartão BLUE, tendo em vista a quantidade de transações dos últimos 12 meses e o perfil desses clientes. Seria interessante uma reformulação ou realocação dos clientes para outros tipos de cartões, pois um cartão com um tipo melhor pode oferecer mais benefícios ao cliente que o usufrui, podendo chamar a atenção de novos clientes;

* Há clientes com limites de crédito muito altos, levando em consideração o valor das suas transações recentes. é viável que seja feita uma análise no fator uso x limite, ou criações de campanhas ou marketings para uso mais frequentes de quem possui um limite maior.

* O maior público da empresa é os clientes com cartão do tipo BLUE, e principalmente os que possuem a faixa salarial anual menor que 40K. É necessário uma atenção maior para esse público, com promoções, ofertas e parte das propagandas direcionadas para eles, e claro, de futuros clientes dessa faixa salarial.

* Há vários clientes com super limites, mas que possuem o cartão mais básico da empresa. É ideal que esses clientes sejam redirecionados (com preferência) para tipos de cartões melhores, pois a média de limite para o cartão BLUE é bastante baixa,e valores desprorpocionais podem afetar o cálculo final, modificando resultados.

* É desejado que haja uma busca/incentivo frequente para os clientes que não informaram sua faixa salarial anual, informem. Pois há alguns clientes que tem acesso aos melhores tipos de cartões da empresa, mas suas transações recentes não foram muito altas.

### Referências/Informações adicionais:

Meu Github: https://github.com/matheus10-2022

Repositório com informações, prints das tabelas que usei, gráficos, etc: https://github.com/matheus10-2022/atividade-SQL-EBAC

Kaggle que usei como referência para atividade: https://www.kaggle.com/code/marianeneiva/credit-eda-and-analysis/notebook

***Códigos que fiz para a criação dos gráficos feitos: (Python)***

(Bibliotecas usadas)

> import pandas as pd

> import seaborn as sns

> import matplotlib.pyplot as plt

> import numpy as np

***GRÁFICO 1 (CODE):***
> sexo_df = pd.read_csv('query_quantidade_por_sexo.csv', sep=',') 
> sexo = list(sexo_df['sexo'])
> quant = list(sexo_df['quantidade'])
>  
> explode = (0.0, 0.1)
> colors = ("pink", "yellow")
> wp = {'linewidth': 0.5, 'edgecolor': "black"}
>  
> def func(pct, allvalues):
>     absolute = int(pct / 100.*np.sum(allvalues))
>     return "{:.1f}%\n({:d} g)".format(pct, absolute)
>  
> fig, ax = plt.subplots(figsize=(10, 7))
> wedges, texts, autotexts = ax.pie(quant, autopct=lambda pct: func(pct, quant), explode=explode, labels=sexo,
>                                   shadow=True, colors=colors, startangle=90, wedgeprops=wp,
>                                   textprops=dict(color="black"))
> ax.legend(wedges, sexo, title="Sexo", loc="center left",
>           bbox_to_anchor=(1, 0, 0.5, 1))
> plt.setp(autotexts, size=10, weight="bold")
> ax.set_title("Perfil de clientes por Sexo:", size=14, weight="bold")
> 
> plt.show()

---------------------------------------------------------------------------

***GRÁFICO 2 (CODE):***

> media_limite_df = pd.read_csv('query-media-limite_cartoes.csv', sep=',')
> grafico = sns.barplot(data=media_limite_df, x="tipo_cartao", y="media_limite", ci=None, palette="dark")
> grafico.set(title='Média de limite do cartão por tipo:', xlabel='', ylabel='Valor (em $)', yticks=np.arange(0, 35000, 8000))


**Obrigado!**
