<a href="https://colab.research.google.com/github/guilhermervalle/exploracao-e-analise-de-dados-de-credito-com-sql/blob/main/Exploracao_e_analise_de_dados_de_credito_com_SQL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Exploração e análise de dados de crédito com SQL**

## 1. Os dados: 

Os dados representam informações de clientes de um banco e contam com as seguintes colunas: 

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m  = quantidade de transacoes dos ultimos 12 meses

A tabela foi criada no **AWS Athena** junto com o **S3 Bucket** com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset


## 2. Exploração de dados:

A primeira fase da análise é entender o que tem na nossa matéria prima. Vamos a exploração de dados:

### **2.1. Quantidade de informações temos na nossa base de dados**

**Query:** SELECT count(*) FROM credito
> Reposta: 2564 linhas

**ps.:** A base de dados do link acima contém mais linhas do que a seleção utilizada. Você pode utilizar todas as linhas ou considerar apenas uma fração dos dados. Na prática, quanto maior a quantidade de dados utilizada, mais confiável a análise! Mas existem limites computacionais e financeiros na qual a redução de dados para análise para fins de estudo se torna interessante. 

### **2.2. Como são os dados** 

**Query:** SELECT * FROM credito LIMIT 10;
![Dez primeiras linhas do dataset](https://github.com/guilhermervalle/da-ebac/blob/main/q1.PNG?raw=true)

> É possível reparar que existem algumas informações nulas na tabela (valor na), vamos olhar mais de perto para os valores de cada coluna! 

### **2.3. Tipos de cada dado**

**Query:** DESCRIBE credito

![Descrição dos tipos de dados](https://github.com/guilhermervalle/da-ebac/blob/main/q2.PNG?raw=true)


Agora que ja entendemos quais são os tipos de dados, vamos olhar mais atentamente para as varíaveis que não são numéricas.

### **2.4. Tipos de escolaridade disponíveis no dataset**

**Query:** SELECT DISTINCT escolaridade FROM credito

![Tipos de escolaridade](https://github.com/guilhermervalle/da-ebac/blob/main/q3.PNG?raw=true)

> Os dados contam com vários níveis de escolaridade e é possível perceber que temos valores nulos (na) no dataset, trataremos isso mais tarde!

Será que temos mais valores nulos?

### **2.5. Tipos de estado_civil disponíveis no dataset**

**Query:** SELECT DISTINCT estado_civil  FROM credito

![Tipos de estado civil](https://github.com/guilhermervalle/da-ebac/blob/main/q4.PNG?raw=true)

> Novamente encontramos valores nulos nos dados de estado civil!

### **2.6. Tipos de salario_anual disponíveis no dataset**

**Query:** SELECT DISTINCT salario_anual  FROM credito

![Tipos de salario anual](https://github.com/guilhermervalle/da-ebac/blob/main/q5.PNG?raw=true)

> Os salários nesse dataset não estão expostas com o valor exato que o cliente ganha. O que está informado é a faixa salarial de cada um. Também contem dados nulos. 


### **2.7. Tipos de cartão disponíveis no dataset**

**Query:** SELECT DISTINCT tipo_cartao  FROM credito

![Tipos de cartão](https://github.com/guilhermervalle/da-ebac/blob/main/q6.PNG?raw=true)

> Aqui vemos que não há necessidade de tratar valores nulos.







## 3. Análise de dados

Uma vez que exploramos o dados e buscamos entender quais são as informações que temos no nosso banco de dados, podemos analisar as informações para buscar entender o que está acontecendo no banco de dados. Vamos fazer perguntas:

### **3.1. Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

**Query:** SELECT COUNT(*) AS quantidade_cliente, salario_anual 
FROM credito 
GROUP BY salario_anual

![Quantidade para cada faixa salarial](https://github.com/guilhermervalle/da-ebac/blob/main/q7.PNG?raw=true)

![Quantidade para cada faixa salarial - gráfico](https://github.com/guilhermervalle/da-ebac/blob/main/q7-2.PNG?raw=true)

> A maioria dos clientes dessa base de dados possui um renda menor que 40K e existem 235 clientes que não informaram ou não consta a faixa salarial. 
> De certa forma, pode ser interessante para a empresa focar nesse público de mais baixa renda. 

### **3.2. Nesse banco de dados, quantos clientes temos em cada tipo de cartão por faixa salarial?**

**Query:** SELECT COUNT(*) AS quantidade_cliente, tipo_cartao, salario_anual 
FROM credito 
GROUP BY tipo_cartao, salario_anual

![Quantidade para cada tipo de cartão por faixa salarial](https://github.com/guilhermervalle/da-ebac/blob/main/q15.PNG?raw=true)

![Quantidade para cada tipo de cartão por faixa salarial - gráfico](https://github.com/guilhermervalle/da-ebac/blob/main/q15-1.PNG?raw=true)

> 2453 clientes dessa base de dados possui o cartão blue, que corresponde a aproximadamente 95,7%. 
> Talvez, seja interessante a empresa apresentar para esse público benefícios para diversificar mais os tipos de cartão baseado na renda e limite de cada cliente. 

### **3.3. Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**

**Query:** SELECT COUNT(*) AS quantidade_cliente, sexo 
FROM credito 
GROUP BY sexo


![Quantidade para cada sexo](https://github.com/guilhermervalle/da-ebac/blob/main/q8-2.PNG?raw=true)

![Quantidade para cada sexo - gráfico](https://github.com/guilhermervalle/da-ebac/blob/main/q8-1.PNG?raw=true)

> A maioria dos clientes desse banco é homem! Do csv extraído dos dados é possível gerar o gráfico em pizza com para melhor a proporção de masculino/feminino

### **3.4. Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?**

**Query:** SELECT AVG(idade) AS media_idade, MIN(idade) AS min_idade, MAX(idade) AS max_idade, sexo 
FROM credito 
GROUP BY sexo
![Média de idades por sexo](https://github.com/guilhermervalle/da-ebac/blob/main/q9.PNG?raw=true)

> Por meio dessa análise não foi possível extrair nenhuma informação relevante.  A menor idade dos dois sexos é a mesma e a média é muito similar. A unica  diferença é a idade máxima mas fato quase irrelevante por a diferença não é tão gritante.


### **3.5. Qual a maior e menor transação dos clientes?**

**Query:** SELECT MIN(valor_transacoes_12m) AS transacao_minima, MAX(valor_transacoes_12m) AS transacao_maxima FROM credito
![Valor transacoes](https://github.com/guilhermervalle/da-ebac/blob/main/q10.PNG?raw=true)

> Nesse banco de dados temos soma de transações em 12 meses variam de 510.16 a 4776.58

### **3.6. Quais as características dos clientes que possuem os maiores creditos?**

**Query:** 
SELECT MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo 
FROM credito
WHERE escolaridade != 'na' AND tipo_cartao != 'na' 
GROUP BY  escolaridade, tipo_cartao, sexo 
ORDER BY limite_credito desc

![Valor limite](https://github.com/guilhermervalle/da-ebac/blob/main/q11.PNG?raw=true)

> Não parece haver um impacto da escolaridade no limite. O limite mais alto é oferecido para um homem sem educação formal. O cartão também parece não estar relacionado com a escolaridade nem com o limite. Dentre os maiores limites, encontramos clientes com cartão: gold, silver, platinum e blue

### **3.7. Quais as características dos clientes que possuem os menores creditos?**

**Query:** 
SELECT MIN(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo 
FROM credito
WHERE escolaridade != 'na' AND tipo_cartao != 'na' 
GROUP BY  escolaridade, tipo_cartao, sexo 
ORDER BY limite_credito ASC


![Valor limite](https://github.com/guilhermervalle/da-ebac/blob/main/q12.PNG?raw=true)

> Dessa vez conseguimos perceber que só há clientes com cartão blue dentre os menores limites. Foi possível perceber que o grau de escolaridade é irrelevante para determinar o limite de crédito para os de menores valores também. 

### **3.8. Será que as mulheres gastam mais?**

**Query:** 
SELECT SUM(qtd_transacoes_12m) AS qtd_transacoes, SUM(valor_transacoes_12m) AS valor_gasto_total, MAX(valor_transacoes_12m) AS maior_valor_gasto, AVG(valor_transacoes_12m) AS media_valor_gasto, MIN(valor_transacoes_12m) AS min_valor_gasto, sexo
FROM credito 
GROUP BY sexo


![Valor transacoes/sexo](https://github.com/guilhermervalle/da-ebac/blob/main/q13-1.PNG?raw=true)

> Levando em conta que há mais homens na base de dados, era esperado que os homens possuíssem maiores valores de gastos, porém os valores médios, maximos e minimos são similares.

Por fim, 


### **3.9. O salário impacta no limite?**

**Query:** SELECT AVG(qtd_produtos) AS qts_produtos, AVG(valor_transacoes_12m) AS media_valor_transacoes, AVG(limite_credito) AS media_limite,  sexo,   salario_anual FROM credito 
WHERE salario_anual != 'na'
GROUP BY sexo, salario_anual
ORDER BY AVG(limite_credito) DESC

![Valor salario_anualLimite](https://github.com/guilhermervalle/da-ebac/blob/main/q14.PNG?raw=true)

>SIM! As pessoas que tem maior faixa salarial também apresentam maior limite de credito!









## 4. Conclusão

Essas foram **algumas** análises extraídas do dataset de crédito.  

Alguns insights interessantes:

- a maior parte dos clientes possui renda até 40K
- a maior parte dos clientes possui cartão blue 
- a maior parte dos clientes é masculino!
- a escolaridade não parece influenciar no limite nem no tipo do cartão
- os clientes com maiores limites são em sua maioria homens 
- os clientes com menores limites são em sua maioria mulheres
- dentre os menores limites não há presença de cartão platinum
- a faixa salarial impacta diretamente no limite de crédito
- nao existem clientes com salário anual acima de 60K do sexo feminino

**Uma exploração maior dos dados pode explicar porque as mulheres tem menor crédito. Isso também pode ser um problema cultural que pode ser repensado!**

