# Exploração e análise de dados de crédito com SQL

## Índice <a name="topo"></a>

1. [Entendimento do negócio](#1)
2. [Entendimento dos dados](#2)
3. [Exploração dos dados](#3)
4. [Análise](#4)
5. [Conclusões](#5)

## 1. Entendimento do negócio <a name="1"></a>
<div style="text-align: right" 
     
[Voltar ao índice](#topo)

Este é projeto é formado por 3 objetivos:
* Fornecer uma exploração dos dados via SQL
* Analisar alguns dados para compreender como uma análise de crédito depende de determinadas variáveis
* Apresentar insights que possam auxiliar na tomada de decisão da instituição financeira 

## 2. Entendimento dos dados <a name="2"></a>
<div style="text-align: right" 
     
[Voltar ao índice](#topo)
     
Os dados representam informações de clientes de um banco e contam com as seguintes colunas: 


<h1><center>Dicionário de dados</center></h1> 

| Variável                | Descrição                                           | Tipo         |
| ----------------------- |:---------------------------------------------------:| ------------:|
| idade | idade do cliente | inteiro|
| sexo | sexo do cliente (F ou M) | string|
| dependentes | número de dependentes do cliente | inteiro|
| escolaridade | nível de escolaridade do clientes | string|
| salario_anual | faixa salarial do cliente | string|
| tipo_cartao | tipo de cartao do cliente | string|
| qtd_produtos | quantidade de produtos comprados nos últimos 12 meses | bigint|
| iteracoes_12m | quantidade de iterações/transacoes nos ultimos 12 meses | inteiro|
| meses_inativo_12m | quantidade de meses que o cliente ficou inativo | inteiro|
| limite_credito | limite de credito do cliente | float|
|valor_transacoes_12m | valor das transações dos ultimos 12 meses |float|
|qtd_transacoes_12m  | quantidade de transacoes dos ultimos 12 meses | inteiro|


A tabela foi criada no **PostgreSQL** com uma versão dos dados disponibilizados em: https://github.com/Leandrogomesf/projeto-credit-score-eda-sql/blob/main/SQL_M8_support%20material_exercise_credit.csv

Os dados foram também produzidos pela ferramenta do **PostgreSQL**.

## 3. Exploração de dados <a name="3"></a>
<div style="text-align: right" 
     
[Voltar ao índice](#topo)

A primeira fase da análise é entender o que tem na nossa matéria prima. Vamos a exploração de dados:

**Qual a quantidade de informações temos na nossa base de dados?**

Query: SELECT count(*) FROM credito
> Reposta: 2564 linhas

**Como são os dados** 

Query: SELECT * FROM credito LIMIT 10;
![Dez primeiras linhas do dataset](https://github.com/marianeneiva/sqlEBAC/blob/main/limit10.png?raw=true)

> É possível reparar que existem algumas informações nulas na tabela (valor na), vamos olhar mais de perto para os valores de cada coluna!

**Quais os tipos de cada dado**

**Query:** DESCRIBE credito

![Descrição dos tipos de dados](https://github.com/marianeneiva/sqlEBAC/blob/main/describe.png?raw=true)

> Estes dados já haviam sido coletados na fase de anterior de entendimento dos dados

Agora que ja entendemos quais são os tipos de dados, vamos olhar mais atentamente para as varíaveis que não são numéricas.

**Quais são os tipos de escolaridade disponíveis no dataset?**

**Query:** SELECT DISTINCT escolaridade FROM credito

![Tipos de escolaridade](https://github.com/marianeneiva/sqlEBAC/blob/main/escolaridade.png?raw=true)

> Os dados contam com vários níveis de escolaridade e é possível perceber que temos valores nulos (na) no dataset, trataremos isso mais tarde!

Será que temos mais valores nulos?

**Quais são os tipos de estado_civil disponíveis no dataset?**

**Query:** SELECT DISTINCT estado_civil  FROM credito

![Tipos de estado civil](https://github.com/Leandrogomesf/projeto-credit-score-eda-sql/blob/main/graficos/Captura%20de%20tela%202023-08-22%20190509.png?raw=true)

> Novamente encontramos valores nulos nos dados de estado civil!

**Quais são os tipos de salario_anual disponíveis no dataset?**

**Query:** SELECT DISTINCT salario_anual  FROM credito

![Tipos de salario anual](https://github.com/marianeneiva/sqlEBAC/blob/main/salario_anual.png?raw=true)

> Os salários nesse dataset não estão expostas com o valor exato que o cliente ganha. O que está informado é a faixa salarial de cada um. Também contem dados nulos. 

**Quais são os tipos de cartão disponíveis no dataset?**

**Query:** SELECT DISTINCT tipo_cartao  FROM credito

![Tipos de cartão](https://github.com/marianeneiva/sqlEBAC/blob/main/cartao.png?raw=true)

> Aqui vemos que não há necessidade de tratar valores nulos.

Como a variável ``sexo`` é binária, ou F ou M, é evidente que só temos está duas categorias.

## 4. Análise de dados <a name="4"></a>
<div style="text-align: right" 
     
[Voltar ao índice](#topo)

Uma vez que exploramos os dados e buscamos entender quais são as informações que temos no nosso banco de dados, podemos analisar as informações para buscar entender o que está acontecendo no banco de dados. 

### **Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

**Query:** select count(*), salario_anual from credito group by salario_anual

![Quantidade para cada faixa salarial](https://github.com/marianeneiva/sqlEBAC/blob/main/faixa_salarial.png?raw=true)

![Gráfico da distribuição de cada faixa salarial](https://github.com/Leandrogomesf/projeto-credit-score-eda-sql/blob/main/graficos/contagem%20salario%20anual.png?raw=true)

> A maioria dos clientes dessa base de dados possui um renda menor que 40K e existem 235 clientes que não informaram ou não consta a faixa salarial. 
> De certa forma, pode ser interessante para a empresa focar nesse público de mais baixa renda. 

### **Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**

**Query:** select count(*), sexo from credito group by sexo


![Quantidade para cada sexo](https://github.com/marianeneiva/sqlEBAC/blob/main/faixa_sexo.png?raw=true)

![Quantidade para cada sexo - gráfico](https://github.com/Leandrogomesf/projeto-credit-score-eda-sql/blob/main/graficos/distribuicao%20sxo.png?raw=true)

> A maioria dos clientes desse banco é homem! Do csv extraído dos dados é possível gerar o gráfico em pizza com para melhor a proporção de masculino/feminino

## **Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?**

**Query:** select avg(idade) as media_idade, min(idade) as min_idade, max(idade) as max_idade, sexo from credito group by sexo
![Média de idades por sexo](https://github.com/marianeneiva/sqlEBAC/blob/main/idade_sexopng.png?raw=true)
![Gráfico de distribuição das idades entre os sexos](https://github.com/Leandrogomesf/projeto-credit-score-eda-sql/blob/main/graficos/idade_clientes.png?raw=true)

> Por meio dessa análise não foi possível extrair nenhuma informação relevante.  A menor idade dos dois sexos é a mesma e a média é muito similar. A unica  diferença é a idade máxima mas fato quase irrelevante por a diferença não é tão gritante.

### **Qual a maior e menor transação dos clientes por faixa salaria?**

**Query:** select min(valor_transacoes_12m) as transacao_minima, max(valor_transacoes_12m) as transacao_minima from credito


|transacao_minima|transacao_maxima|faixa_salaria  |
|--------------:|--------------:|:-------------|
|602.60          | 4686.93	      |120 +         |
|569.87          | 4642.78	      |40K - 60K    |
|644.06          | 4776.58	      |na             |
|530.36          | 4491.23	      |60K - 80K    |
|510.16          | 4740.94	      |menos que 40K |
|563.93          | 4542.69	      |80K - 120K   |

> Nesse banco de dados temos que o valor das transações no últimos 12 meses é bem semelhante quanto agrupados por faixa salarial. A maior transação é feito por cliente de um grupo de faixa salarial desconhecido e a menor por aquele que ganha menos que $40K

### **Quais as características dos clientes que possuem os maiores creditos?**

**Query:** 
select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo 
from credito
where escolaridade != 'na' and tipo_cartao != 'na' 
group by  escolaridade, tipo_cartao, sexo 
order by limite_credito desc
limit 10

![Valor limite](https://github.com/marianeneiva/sqlEBAC/blob/main/limite_desc.png?raw=true)

> Não parece haver um impacto da escolaridade no limite. O limite mais alto é oferecido para um homem sem educação formal. O cartão também parece não estar relacionado com a escolaridade nem com o limite. Dentre os maiores limites, encontramos clientes com cartão: gold, silver, platinum e blue

### **Quais as características dos clientes que possuem os menores creditos?**

**Query:** 
select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo 
from credito
where escolaridade != 'na' and tipo_cartao != 'na' 
group by  escolaridade, tipo_cartao, sexo 
order by limite_credito asc


![Valor limite](https://github.com/marianeneiva/sqlEBAC/blob/main/limite_asc.png?raw=true)

> Dessa vez conseguimos perceber que não há clientes com cartão platinum dentre os menores limites. Também foi possível perceber que a maioria dos menores limites são mulheres enquanto nos maiores limites predomina homens. 

### **Será que as mulheres gastam mais?**

**Query:** 
select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as  media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo 
from credito
group by sexo 


![Valor transacoes/sexo](https://github.com/marianeneiva/sqlEBAC/blob/main/quemgastamais.png?raw=true)

![Comparação de gastos por sexo](https://github.com/Leandrogomesf/projeto-credit-score-eda-sql/blob/main/graficos/valor_gasto_por_sexo.png?raw=true)

> Apesar da diferença nos limites, os gastos de homens e mulheres são similares!

Por fim, 

### **O salário impacta no limite?**

**Query:** select avg(qtd_produtos) as qts_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite,  sexo,   salario_anual from credito 
where salario_anual != 'na'
group by sexo, salario_anual
order by avg(valor_transacoes_12m) desc

![Valor salario_anualLimite](https://github.com/marianeneiva/sqlEBAC/blob/main/salarioAnualMediaLimite.png?raw=true)

|count|salario_anual|
|---:|:---|
|222	|120K +|
|235	|na|
|450	|60K - 80K|
|467	|40K - 60K|
|488	|80K - 120K|
|701	|menos que 40K|

![Tamanho do limite por faixa salarial](https://github.com/Leandrogomesf/projeto-credit-score-eda-sql/blob/main/graficos/salario_limite.png?raw=true)

>- SIM! As pessoas que tem menor faixa salarial também apresentam menor limite de credito!
>- As pessoas com a maior faixa salarial tem o maior limite também e representam apenas 8% do total de clientes

### **Há alguma diferença de limite de crédito por estado civil entre os sexos?**
- **Query 1:** select max(limite_credito) as maior_limite, 
min(limite_credito) as menor_limite, 
round(avg(limite_credito), 2) as media_limite, 
estado_civil 
from credito 
where estado_civil != 'na'
group by estado_civil

----
- **Query 2:**  select count(*) estado_civil, 
 cast((count(estado_civil) / total.total)*100 as numeric(10,3)),
 estado_civil,sexo 
 from credito, (select cast(count(estado_civil) as numeric(10,3))total from credito) total
 where estado_civil != 'na'
 group by estado_civil, sexo, total.total
 order by estado_civil

#### <center> Max, min e média salarial por estado civil

|maior_limite	 |menor_limite	 |media_limite |estado_civil|
|---:|---:|---:|:---|
|34516.96	     |1438.03        |8140.69      |casado|
|34516.99	     |1438.14        |10198.15     |solteiro|
|34516.99	     |1438.34        |10485.89     |divorciado|

 ----
    
#### <center> Somatório de estado civil por sexo

|Somatório| Percentual do somatório	|estado_civil  |sexo|
|---:|---:|:---|:---:|
|308|0.12	        |solteiro	      |F|
|458|0.18	        |solteiro	      |M|
|591|0.24	        |casado	      |F|
|929|0.37 	        |casado	      |M|
|69	|0.02            |divorciado	  |F|
|92	|0.03            |divorciado	  |M|


> - Clientes casados têm um limite mais baixo do que solteiros ou divorciados.
> - A base é composta por mais homens e mulheres casados, totalizando 61%. Solteiros em 2 lugar com 30% e divociados por último com 5%.

### Pessoas casadas gastam mais?

**Query:** SELECT round(avg(valor_transacoes_12m),2) as media_valor_gasto, estado_civil 
FROM credito
where estado_civil != 'na'
group by estado_civil

![Valor gasto por estado civil](https://github.com/Leandrogomesf/projeto-credit-score-eda-sql/blob/main/graficos/gasto%20por%20estado%20civil.png?raw=true)

> Sim. Pessoas casadas tendem a gastar menos, ainda que a difrença não seja tão grande em relação a solteiro e divorciado

# Conclusão<a name="5"></a>
<div style="text-align: right" 
     
[Voltar ao índice](#topo)

Essas foram **algumas** análises extraídas do dataset de crédito.  

- A maior parte dos clientes possui renda até 40K 
- A maior parte dos clientes é masculino!
- A escolaridade não parece influenciar no limite nem no tipo do cartão
- Os clientes com maiores limites são em sua maioria homens 
- os clientes com menores limites são em sua maioria mulheres
- Dentre os menores limites não há presença de cartão platinum
- A faixa salarial impacta diretamente no limite de crédito
- Nao existem clientes com salário anual acima de 60K do sexo feminino
- As pessoas com a maior faixa salarial tem o maior limite também e representam apenas 8% do total de clientes
- A maioria dos clientes são casados e com o menor limite médio
- Como pessoas casadas gastam menos e o gasto é uma variável importante para definir o crédito, consequentemente, casados, independente do sexo têm menor crédito.