# **PROJETO FINAL: Exploração e análise de dados de crédito com SQL**

## **Exploração de dados:**

A primeira fase da análise é entender o que tem na nossa matéria prima. Vamos a exploração de dados:

**Qual a quantidade de informações temos na nossa base de dados?**

**Query:** SELECT count(*) FROM credito;
> Reposta: 2564 linhas

**ps.:** A base de dados do link acima contém mais linhas do que a seleção utilizada. Você pode utilizar todas as linhas ou considerar apenas uma fração dos dados. Na prática, quanto maior a quantidade de dados utilizada, mais confiável a análise! Mas existem limites computacionais e financeiros na qual a redução de dados para análise para fins de estudo se torna interessante. 

**Como são os dados** 

**Query:** SELECT * FROM credito LIMIT 10;

![Dez primeiras linhas do dataset](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/tabela.PNG?raw=true)

> É possível reparar que existem algumas informações nulas na tabela (valor na), vamos olhar mais de perto para os valores de cada coluna! 

**Quais os tipos de cada dado**

**Query:** DESCRIBE credito;

![Descrição dos tipos de dados](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/descricao.PNG?raw=true)


Agora que ja entendemos quais são os tipos de dados, vamos olhar mais atentamente para as varíaveis que não são numéricas.

**Quais são os tipos de escolaridade disponíveis no dataset?**

**Query:** SELECT DISTINCT escolaridade FROM credito ORDER BY escolaridade;

![Tipos de escolaridade](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/escolaridade.PNG?raw=true)

> Os dados contam com vários níveis de escolaridade e é possível perceber que temos valores nulos (na) no dataset, trataremos isso mais tarde!

Será que temos mais valores nulos?

**Quais são os tipos de estado_civil disponíveis no dataset?**

**Query:** SELECT DISTINCT estado_civil FROM credito ORDER BY estado_civil;

![Tipos de estado civil](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/estado_civil.PNG?raw=true)

> Novamente encontramos valores nulos nos dados de estado civil!

**Quais são os tipos de salario_anual disponíveis no dataset?**

**Query:** SELECT DISTINCT salario_anual FROM credito ORDER BY salario_anual DESC;

![Tipos de salario anual](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/salario_anual.PNG?raw=true)

> Os salários nesse dataset não estão expostas com o valor exato que o cliente ganha. O que está informado é a faixa salarial de cada um. Também contem dados nulos. 


**Quais são os tipos de cartão disponíveis no dataset?**

**Query:** SELECT DISTINCT tipo_cartao FROM credito ORDER BY tipo_cartao;

![Tipos de cartão](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/tipo_cartao.PNG?raw=true)

> Aqui vemos que não há necessidade de tratar valores nulos.

## **Análise de dados**

Uma vez que exploramos o dados e buscamos entender quais são as informações que temos no nosso banco de dados, podemos analisar as informações para buscar entender o que está acontecendo no banco de dados. Vamos fazer perguntas:
/
**Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

**Query:** SELECT COUNT(*) AS qtd_pessoas, salario_anual FROM credito GROUP BY salario_anual ORDER BY qtd_pessoas DESC;

![Quantidade de pessoas para cada faixa salarial](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/qtd_pessoas_salario.PNG?raw=true)

![Quantidade de pessoas para cada faixa salarial - gráfico](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/porc_faixa_salarial.png?raw=true)

> a maioria dos clientes dessa base de dados possui um renda menor que 40K e existem 235 clientes que não informaram ou não consta a faixa salarial. 
> De certa forma, pode ser interessante para a empresa focar nesse público de mais baixa renda.

**Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**

**Query:** SELECT COUNT(*) AS qtd_sexo, sexo FROM credito GROUP BY sexo;


![Quantidade para cada sexo](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/qtd_sexo.PNG?raw=true)

![Quantidade para cada sexo - gráfico](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/porc_sexo.png?raw=true)

> A maioria dos clientes desse banco é homem! Do csv extraído dos dados é possível gerar o gráfico em pizza com para melhor a proporção de masculino/feminino

**Nesse banco de dados, qual é a porcentagem de clientes para cada estado cívil?**

**Query:** SELECT AVG(valor_transacoes_12m) AS media_valor_transacao, estado_civil FROM credito GROUP BY estado_civil ORDER BY media_valor_transacao DESC;


![Quantidade para cada estado cívil](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/qtd_estado_civil.PNG?raw=true)

![Quantidade para cada estado cívil - gráfico](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/porc_estado_civil.png?raw=true)

> A maioria dos clientes desse banco é homem! Do csv extraído dos dados é possível gerar o gráfico em pizza com para melhor a proporção de masculino/feminino

**Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?**

**Query:** SELECT AVG(idade) AS media_idade, MIN(idade) AS min_idade, MAX(idade) AS max_idade, sexo FROM credito GROUP BY sexo;

![Média de idades por sexo](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/media_idade.PNG?raw=true)

> Por meio dessa análise não foi possível extrair nenhuma informação relevante.  A menor idade dos dois sexos é a mesma e a média é muito similar. A unica  diferença é a idade máxima mas fato quase irrelevante por a diferença não é tão gritante.


**Qual a maior e menor transação dos clientes?**

**Query:** SELECT MIN(valor_transacoes_12m) AS transacao_minima, MAX(valor_transacoes_12m) AS transacao_minima FROM credito;

![Valor transacoes](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/transacao_min_max.PNG?raw=true)

> Nesse banco de dados temos soma de transações em 12 meses variam de 510.16 a 5776.58

**Quais as características dos clientes que possuem os maiores creditos?**

**Query:** SELECT MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo FROM credito WHERE escolaridade != 'na' AND tipo_cartao != 'na' GROUP BY escolaridade, tipo_cartao, sexo ORDER BY limite_credito DESC LIMIT 10;

![Valor maiores limites](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/caracteristica_limite.PNG?raw=true)

> Não parece haver um impacto da escolaridade no limite. O limite mais alto é oferecido para um homem sem educação formal. O cartão também parece não estar relacionado com a escolaridade nem com o limite. Dentre os maiores limites, encontramos clientes com cartão: gold, silver, platinum e blue

**Quais as características dos clientes que possuem os menores creditos?**

**Query:** SELECT MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo FROM credito WHERE escolaridade != 'na' AND tipo_cartao != 'na' GROUP BY escolaridade, tipo_cartao, sexo ORDER BY limite_credito LIMIT 10;

![Valor menores limites](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/caracteristica_limite_min.PNG?raw=true)

> Dessa vez conseguimos perceber que não há clientes com cartão platinum dentre os menores limites. Também foi possível perceber que a maioria dos menores limites são mulheres enquanto nos maiores limites predomina homens. 

**Será que as mulheres gastam mais?**

**Query:** SELECT MAX(valor_transacoes_12m) AS maior_valor_gasto, AVG(valor_transacoes_12m) AS media_valor_gasto, MIN(valor_transacoes_12m) AS min_valor_gasto, sexo FROM credito GROUP BY sexo; 

![Valor transacoes/sexo](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/transacao_sexo.PNG?raw=true)

> Apesar da diferença nos limites, os gastos de homens e mulheres são similares!

Por fim, 


**O salário impacta no limite?**

**Query:** SELECT AVG(qtd_produtos) AS media_qts_produtos, AVG(valor_transacoes_12m) AS media_valor_transacoes, AVG(limite_credito) AS media_limite, sexo, salario_anual FROM credito WHERE salario_anual != 'na' GROUP BY sexo, salario_anual ORDER BY AVG(valor_transacoes_12m) DESC;

![Valor salario_anualLimite](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/media_limite.PNG?raw=true)

>SIM! As pessoas que tem menor faixa salarial também apresentam menor limite de credito!

# Conclusão

Essas foram **algumas** análises extraídas do dataset de crédito.  

Alguns insights interessantes:

- a maior parte dos clientes possui renda até 40K 
- a maior parte dos clientes é masculino!
- a escolaridade não parece influenciar no limite nem no tipo do cartão
- os clientes com maiores limites são em sua maioria homens 
- os clientes com menores limites são em sua maioria mulheres
- dentre os menores limites não há presença de cartão platinum
- a faixa salarial impacta diretamente no limite de crédito
- nao existem clientes com salário anual acima de 60K do sexo feminino

**Uma exploração maior dos dados pode explicar porque as mulheres tem menor crédito. Isso também pode ser um problema cultural que pode ser repensado!**