![Fundo Linkedin_Ciência de Dados](https://github.com/user-attachments/assets/0aa9ee1f-9131-4f88-9f25-73b532d9b2f0)

# **Projeto para Concessão de Crédito desenvolvido em SQL e AWS**
## **Victor Resende**
_______________
# **Exploração e análise de dados de crédito com SQL**

Esse notebook é parte do curso SQL para análise de dados da EBAC.

**Curso**: Cientista de Dados

**GitHub**: https://github.com/VHResende/Projeto-04-Credito_SQL

**Resumo**: nesse projeto vamos explorar e analisar dados de banco para a concessão de crédito. Selecionamos uma parte dos dados que estão disponíveis em Dados originais - gitHub André Perez: https://github.com/andre-marcos-perez/ebac-course-utils. Nosso projeto é constituído de três partes: **1. Exploração de dados**; **2. Análise de Dados**; e **3. Conclusão**.
_____________

## **1. Exploração dos Dados**

### **Sobre os dados** 

Os dados representam informações de clientes de um banco e contam com as seguintes colunas: 

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade dos clientes
* estado_civil = estado civil dos clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m  = quantidade de transacoes dos ultimos 12 meses
______________
### **Base de Dados** 

* Lendo as 10 primeiras linhas do Dataset:

Query: SELECT * FROM credito LIMIT 10;

![image.png](attachment:895565ff-2165-4b47-9e6e-53845ba91049.png)

Observamos que existem valores faltantes que precisam ser tratados.
____________________
* Verificando a quantidade de informações em nosso Dataset:
 
Query: SELECT count(*) from credito;

Reposta: 2564 linhas.

**Obs.:** A base de dados original contém mais linhas do que a seleção utilizada.
_____________________
* Verificando os tipos de cada dado:

Query: DESCRIBE credito

![Tipo_dados.png](attachment:9ca7800f-fd9a-48dd-b121-eff97e1dbc00.png)
________________________
* Explorando os dados escolaridade:

Query: SELECT DISTINCT escolaridade FROM credito

![image.png](attachment:0499d75a-fd29-4051-8429-d7a3cdddaef8.png)

Aqui visualizamos os vários níveis de escolaridade em nosso Dataset.

Verificamos, também, que há valores nulos, que serão tratados posteriormente.
________________________
* Verificando os tipos de salários anuais no Dataset:

Query: SELECT count(*), salario_anual from credito group by salario_anual

![Faixa_salario.png](attachment:a44c85a2-34a7-4317-8df3-ec9ce1a7df2f.png)

Aqui nós visualizamos as principais faixas salariais dos clientes.

Verificamos que também existem valores nulos.
________________________
* Quantidade de clientes agrupados por sexo:

Query: SELECT count(*), sexo from credito group by sexo

![Clientes_sexo.png](attachment:9ca9af85-e088-4cf2-9035-68cca4599501.png)

Aqui não há valores nulos.
____________
* Vefificando os tipos de cartão dos clientes:

Query: SELECT DISTINCT tipo_cartao FROM credito

![Tipos_cartão.png](attachment:5b567a20-7e8a-42d9-bba0-de9d5b8110b6.png)

Aqui vemos que não há necessidade de tratar valores nulos.
___________


## **2. Análise dos Dados**

Após a fase de exploração, passamos para a etapa de entendimento dos nossos dados. 

Nessa etapa, buscamos entender quais são as informações que temos no nosso banco de dados e quais *insights* podemos extrair para as possibilidades de concessão de crédito para os clientes.

__________

* **Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

Query: SELECT count(*) AS qtd_clientes, salario_anual salario_anual FROM credito GROUP BY salario_anual;

![Faixa_salario_clientes.png](attachment:8fa7fcd3-2751-49a3-b90e-10954e785b5e.png)

Percebemos que o maior número de clientes recebe menos de 40k.

____________

* **Qual a proporção de homens e de mulheres em nosso Dataset?**

Query: SELECT count(*) AS qtd_clientes, sexo FROM credito GROUP BY sexo

![Clientes_sexo_clientes.png](attachment:2c1f397b-26f3-46c9-8b12-7099e0dd35b8.png)

Percebemos que o número de clientes homens é maior que o de clientes mulheres.

![Grafico_clientes_sexo.png](attachment:fe624b61-494f-4ed0-8924-97d51200d0a6.png)

____________________

* **O nível de escolaridade impacta no limite de crédito dos clientes?**

Query: Select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito 
where escolaridade != 'na' and tipo_cartao != 'na' 
group by escolaridade, tipo_cartao, sexo 
order by limite_credito desc 
limit 10

![Credito_escolaridade.png](attachment:fd81b533-92ce-43b8-ba31-a19bd5a6cf5e.png)

Podemos visualizar que o nível de escolaridade não impacta no limite de crédito dos clientes, visto que os clientes que têm maior limite de crédito não possuem educação formal.

Também nos chama a atenção que o tipo de cartão dos clientes com maior limite de crédito é blue, e não platinum como seria o esperado.

Verificamos, ainda, que os clientes do sexo masculino é que detêm maior limite de crédito.
_________
* **Qual público (masculino ou feminino) teve maior média de gasto com o cartão?**

Query: select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo 
from credito 
group by sexo

![Valor_gasto.png](attachment:57eb99a1-6507-4e27-92f2-0130a8ede4b8.png)

Notamos que, embora a proporção de homens seja maior, é o grupo das mulheres que mais gastou.

Mesmo que os valores sejam bem próximos, podemos dar mais atenção ao público feminino que pode ter um maior potencial de compra.

![Grafico_gastos_por_sexo_novo.png](attachment:3170d6c3-30dc-4d8b-bd66-89b9dc021ba7.png)
______

* **Qual a média de transações do público masculino e feminino, de acordo com a faixa salarial?**

Query: select avg(qtd_produtos) as qts_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite, sexo, salario_anual 
from credito 
where salario_anual != 'na' 
group by sexo, salario_anual 
order by avg(valor_transacoes_12m) desc

![Media_valor_transacoes.png](attachment:54f9df34-91d0-412c-a442-bcf82ce67722.png)

Aqui verificamos que as maiores transações são de homens, que ganham mais de 120k.

Com isso, verificamos que o salário impacta no limite de crédito.

Observamos, também, que as mulheres não estão nas maiores faixas salariais.

![Grafico_transacoes_por_sexo.png](attachment:11e6f435-29de-45ff-934e-4875fb2383e6.png)
_______

## **3. Conclusão**

Após a análise de nossos dados podemos extrair alguns *insights* interessantes:

- a maior parte dos clientes possui renda até 40K.
- **O que nos leva a pensar em estratégias para aumentar o crédito e outras opções interessantes para esses clientes**.
- o nível de escolaridade não impacta no limite de crédito dos clientes.
- a maior parte dos clientes é masculino.
- os clientes com maiores limites são em sua maioria homens.
- os clientes com menores limites são em sua maioria mulheres 
- não existem clientes com salário anual acima de 60K do sexo feminino.
- a faixa salarial impacta diretamente no limite de crédito.
- **Nesse caso, propomos novas ações de marketing para aumentar o número de clientes mulheres, visto ser um público muito mais propenso a compras, conforme percebemos em nossas análises**.
- **Podemos pensar em estudos culturais que expliquem os motivos da menor quantidade de mulheres que detêm maiores limites de crédito e propor ações que impactem na mudança desse comportamento no setor financeiro**.

