# **PROJETO SQL - EDA de Crédito**
**Parceria - EBAC Escola Britânica de Artes Criativas e Tecnologia**

# 1\. Introdução

Vamos analisar uma base de dados de clientes cadastrados em um banco de crédito; \
Para início, vamos verificar os dados disponíveis para exploração:

- idade = idade do cliente
- sexo = sexo do cliente (F ou M)
- dependentes = número de dependentes do cliente
- escolaridade = nível de escolaridade do clientes
- salario_anual = faixa salarial do cliente
- tipo_cartao = tipo de cartao do cliente
- qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
- iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
- meses_inativo_12m = quantidade de meses que o cliente ficou inativo
- limite_credito = limite de credito do cliente
- valor_transacoes_12m = valor das transações dos ultimos 12 meses
- qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses

A tabela foi criada no **AWS Athena** junto com o **S3 Bucket** com uma versão dos dados disponibilizados neste [link](https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset); \
Para este projeto, usaremos uma menor dimensão do banco completo.

# 2\. Exploração

Como primeira fase, iremos verificar o tipo, quantidade e composição de nossos dados para entendermos melhor sua estrutura e as informações úteis que podemos retirar dele

## 2.1. Quantidade de Dados Disponíveis

- Query 1:
``` sql
SELECT count(*) FROM credito;
```
Resultado: 2564 linhas

Como informado anteriormente, a base de dados do link disponibilizado contém mais linhas do que a seleção utilizada. Podemos sim utilizar todas as linhas ou também considerar apenas uma fração dos dados. \
Na prática, quanto maior a quantidade de dados utilizada, mais confiável a análise, porém existem limites computacionais e financeiros na qual a redução de dados para análise se torna interessante, como é o caso atual.

## 2.2. Como São os Dados

- Query 2:
```sql
SELECT * FROM credito LIMIT 10;
```

Resultado:


![imagem](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/como%20sao%20os%20dados.png?raw=true)


É possível reparar que existem algumas informações nulas na tabela (valor na), vamos olhar mais de perto para os valores de cada coluna!

## 2.3. Tipos de Dados

- Query 3:
``` sql
DESCRIBE credito;
```
Resultado:


![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/describe%20credito.png?raw=true)

Agora que ja entendemos quais são os tipos de dados, vamos olhar mais atentamente para as varíaveis que não são numéricas.

## 2.4. Tipos de Escolaridade

- Query 4:
``` sql
SELECT DISTINCT escolaridade FROM credito;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/escolaridade.png?raw=true)

Os dados contam com vários níveis de escolaridade e é possível perceber que temos valores nulos (na) no dataset, trataremos isso mais tarde!\
Agora, será que temos mais dados nulos? Veremos a seguir

## 2.5. Tipos de Estado Civil

- Query 5:
``` sql
SELECT DISTINCT estado_civil FROM credito;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/estado%20civil.png?raw=true)

Como podemos ver, novamente dados nulos presentes no Banco de Dados

## 2.6. Tipos de Salário Anual

- Query 6:
``` sql
SELECT DISTINCT salario_anual FROM credito;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/salario%20anual.png?raw=true)

Os salários nesse dataset não estão expostas com o valor exato que o cliente ganha. O que está informado é a faixa salarial de cada um. Também contem dados nulos.

## 2.7. Tipos de Cartões

- Query 7:
``` sql
SELECT DISTINCT tipo_cartao FROM credito;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/tipo%20cartao.png?raw=true)

Aqui vemos que não há necessidade de tratar valores nulos!

Agora que já temos uma base dos dados que estamos lidando, vamos seguir com uma análise mais aprofundada destes.

# 3\. Análise de Dados

Uma vez que exploramos o dados e buscamos entender quais são as informações que temos no nosso banco de dados, podemos analisar as informações para buscar entender o que está acontecendo no banco de dados. \
Assim, vamos fazer perguntas:

## 3.1. Query 1

**Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

``` sql
SELECT COUNT(*) AS quantd_pessoas, salario_anual FROM credito GROUP BY salario_anual;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/pessoas%20p%20salario.png?raw=true)

- A maioria dos clientes dessa base de dados possui um renda menor que 40K e existem 235 clientes que não informaram ou não consta a faixa salarial. De certa forma, pode ser interessante para a empresa focar nesse público de mais baixa renda;
- Temos tambem uma grande quantidade de clientes entre 80k e 120k. Seria interessante oferecer serviços e produtos especializados para esse tipo de público, para assim chamar mais pessoas de mesma situação financeira à este banco. Maiores limites de credito, vantagens especializadas, para principalmente manter individuos deste nivel social fixos nesse banco, financeiramente mais confiaveis provavelmente.

## 3.2. Query 2

**Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**

``` sql
SELECT COUNT(*) AS quantd_pessoas, sexo FROM credito GROUP BY sexo;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/pessoas%20p%20sexo.png?raw=true)

- A maioria dos clientes desse banco são homens.
- Do csv extraído dos dados é possível gerar um gráfico em pizza para observarmos melhor a proporção de masculino/feminino presentes na base de dados

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/query2%20grafico.png?raw=true)

## 3.3. Query 3

**Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?**

``` sql
SELECT AVG(idade) AS media_idade, MIN(idade) AS min_idade, MAX(idade) AS max_idade, sexo FROM credito GROUP BY sexo;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/idades.png?raw=true)

- A menor idade dos dois sexos é a mesma e a média é muito similar. A única diferença é a idade máxima mas fato quase irrelevante, pois a diferença não é tão gritante. \
- Neste caso, um marketing mais adequado não deve ter como base de público a idade. Outros parâmetros devem ser analisados para uma campanha de marketing que traga resultados mais relevantes.

## 3.4. Query 4

**Qual a maior e menor transação dos clientes?**

``` sql
SELECT MIN(valor_transacoes_12m) AS transacao_minima,
MAX(valor_transacoes_12m) AS transacao_maxima,
AVG(valor_transacoes_12m) AS media_transacoes
FROM credito;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/query4.png?raw=true)

- Nesse banco de dados temos soma de transações em 12 meses variam de **510.16** a **4776.58**;
- A media de transacoes fica por 1800. Levando em conta que estes valores são de compras unicas (no caso de transc. minima, é referente a uma compra especifica de 510.16, por exemplo), podemos supor que é um banco que mantem clientes de alto porte financeiro ou ao menos, grande estabilidade, que geralmente fazem compras com valores expressivos;
- No geral, clientes dessa "categoria" apresentam grande confiança em bancos, pois o giro monetário geralmente é estável, favorecendo os clientes com bons limites de credito (supostamente) e o banco por clientes confiáveis em relação a quitação de dívidas.

## 3.5. Query 5

**Quais as características dos clientes que possuem os maiores creditos?**


``` sql
SELECT MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo FROM credito
WHERE escolaridade != 'na' AND tipo_cartao != 'na'
GROUP BY escolaridade, tipo_cartao, sexo
ORDER BY limite_credito DESC LIMIT 10;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/query5.png?raw=true)

- Não parece haver um impacto da escolaridade no limite;
- O limite mais alto é oferecido para um homem sem educação formal, por exemplo;
- O cartão também parece não estar relacionado com a escolaridade nem com o limite;
- Dentre os maiores limites, encontramos clientes com cartão: gold, silver, platinum e blue

## 3.6. Query 6

**Quais as características dos clientes que possuem os menores creditos?**

``` sql
SELECT MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo FROM credito
WHERE escolaridade != 'na' AND tipo_cartao != 'na'
GROUP BY escolaridade, tipo_cartao, sexo
ORDER BY limite_credito ASC LIMIT 10;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/query6.png?raw=true)

- Podemos verificar que não há presença de cartoes Platinum para clientes com menores limites
- Também foi possível perceber que a maioria dos menores limites são mulheres enquanto nos maiores limites predomina homens.
- Notamos que o cartão Gold pode apresentar vantagens mais interessantes que o blue  por sua escassez, porem ainda assim é presente em pessoas com limites de credito menor. Isso significa que o tipo de cartão não necessariamente define o limite de crédito, mas provavelmente serviços específicos para necessidades de cada cliente. Isso vale também ao silver

## 3.7. Query 7

**Será que as mulheres gastam mais?**

```sql
SELECT MAX(valor_transacoes_12m) AS maior_valor_gasto,
AVG(valor_transacoes_12m) AS media_valor_gasto,
MIN(valor_transacoes_12m) AS min_valor_gasto,
sexo FROM credito
GROUP BY sexo;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/query7.png?raw=true)

- Apesar da diferença nos limites, os gastos de homens e mulheres são similares. Claramente, o valor gasto nos cartões não detém influência no limite de credito disponibilizado para cada cliente
- Neste caso, outras questoes devem ser analisadas mais profundamente, como a inadimplencia dos clientes, nivel de rotatividade, patrimônio acomulado no nome dos clientes... Pois esses podem ser fatores chaves que definam o limite de credito e serviçoes disponiveis aos clientes.

## 3.8. Query 8

**O salário impacta no limite?**

```sql
SELECT AVG(valor_transacoes_12m) AS media_transacoes,
AVG(limite_credito) AS media_limite,
sexo, salario_anual FROM credito
WHERE salario_anual != 'na'
GROUP BY sexo, salario_anual ORDER BY AVG(valor_transacoes_12m) DESC;
```

Resultado:

![image](https://github.com/VictorCamolese/EBAC-DataAnalyticsProjects/blob/main/query8.png?raw=true)

- Sim, as pessoas que tem menor faixa salarial também apresentam menor limite de credito;
- É interessante também verificar que os que recebem menos e possuem menores limites de crédito, são os que mantém liderança no valor médio de transações feitas no período de 12 meses!

# 4\. Conclusão

Essas foram algumas análises extraídas do dataset de crédito disponibilizado pela EBAC. Espero que tenha sido util para você, caro leitor! \
Se interessar, salve este arquivo para estudos ou o que for mais te agradar, e me contate! Seria ótimo retirarmos conclusões em conjunto sobre este projeto.

Alguns insights interessantes:

- a maior parte dos clientes possui renda até 40K
- a maior parte dos clientes é masculino!
- a escolaridade não parece influenciar no limite nem no tipo do cartão
- os clientes com maiores limites são em sua maioria homens
- os clientes com menores limites são em sua maioria mulheres
- dentre os menores limites não há presença de cartão platinum
- a faixa salarial impacta diretamente no limite de crédito
- nao existem clientes com salário anual acima de 60K do sexo feminino

Uma exploração maior dos dados pode explicar porque as mulheres tem menor crédito. Isso também pode ser um problema cultural que pode ser repensado!

# Contatos

**victorcamolese@gmail.com** \
[**Instagram**](https://www.instagram.com/victorcamolese/#) \
[**Linkedin**](https://www.linkedin.com/in/victorcamolese/)