# **PROJETO FINAL: Exploração e análise de dados de crédito com SQL**

## **Exploração de dados:**

Primeiramente, procurar entender o que temos de matéria prima. Vamos a exploração de dados:


**Qual o tamanho a nossa base de dados tem?**

**Query:** SELECT count(*) FROM credito;
> Reposta: 2564 linhas

**ps.:** Os dados no link do arquivo "README.md" contém mais linhas do que a seleção utilizada. Você pode utilizar todas as linhas ou considerar apenas uma fração dos dados. Na prática, quanto maior a quantidade de dados utilizada, mais confiável a análise! Mas existem limites computacionais e financeiros na qual a redução de dados para análise para fins de estudo se torna interessante. 


**Como são os dados?** 

**Query:** SELECT * FROM credito LIMIT 10;

![Dez primeiras linhas do dataset](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/tabela.PNG?raw=true)

> Há algumas informações nulas na tabela (valor na), olharemos mais de perto para os valores de cada coluna posteriormente. 


**Quais os tipos de cada dado?**

**Query:** DESCRIBE credito;

![Descrição dos tipos de dados](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/descricao.PNG?raw=true)


**Quais são os tipos de escolaridade disponíveis no dataset?**

**Query:** SELECT DISTINCT escolaridade FROM credito ORDER BY escolaridade;

![Tipos de escolaridade](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/escolaridade.PNG?raw=true)

> Há vários níveis de escolaridade nos dados. Percebe-se que temos valores nulos (na) no dataset, trataremos isso mais tarde!


**Quais são os tipos de estado_civil disponíveis no dataset?**

**Query:** SELECT DISTINCT estado_civil FROM credito ORDER BY estado_civil;

![Tipos de estado civil](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/estado_civil.PNG?raw=true)

> Novamente foi encontrado dados nulos.


**Quais são os tipos de salario_anual disponíveis no dataset?**

**Query:** SELECT DISTINCT salario_anual FROM credito ORDER BY salario_anual DESC;

![Tipos de salario anual](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/salario_anual.PNG?raw=true)

> Os salários são representados por faixas salariais, não mostrando o valor exato que o cliente ganha. Há mais dados nulos...


**Quais são os tipos de cartão disponíveis no dataset?**

**Query:** SELECT DISTINCT tipo_cartao FROM credito ORDER BY tipo_cartao;

![Tipos de cartão](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/tipo_cartao.PNG?raw=true)

> Aqui vemos que não há necessidade de tratar valores nulos.

## **Análise de dados**

Uma vez que exploramos o dados e buscamos entender quais são as informações que temos no nosso banco de dados, podemos analisar as informações para buscar entender o que está acontecendo no banco de dados.

Vamos fazer perguntas:

**Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

**Query:** SELECT COUNT(*) AS qtd_pessoas, salario_anual FROM credito GROUP BY salario_anual ORDER BY qtd_pessoas DESC;

![Quantidade de pessoas para cada faixa salarial - gráfico](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/porc_faixa_salarial.png?raw=true)

> Boa parte dos clientes dessa base de dados possui um renda menor que 40K e existem 235 clientes que não informaram ou não consta a faixa salarial. Pode ser interessante a empresa focar nesse público de mais baixa renda.

**Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**

**Query:** SELECT COUNT(*) AS qtd_sexo, sexo FROM credito GROUP BY sexo;

![Quantidade para cada sexo](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/qtd_sexo.PNG?raw=true)

> A maioria dos clientes desse banco é homem!

![Quantidade para cada sexo - gráfico](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/porc_sexo.png?raw=true)

> Do CSV extraído dos dados é possível gerar o gráfico em pizza com visualizar melhor a proporção.

**Nesse banco de dados, qual é a porcentagem de clientes para cada estado cívil?**

![Quantidade para cada estado cívil - gráfico](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/porc_estado_civil.png?raw=true)

Temos uma boa fatia de casados! Do csv extraído dos dados é possível gerar o gráfico em pizza para melhor a proporção do estado cívil.

**Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?**

**Query:** SELECT AVG(idade) AS media_idade, MIN(idade) AS min_idade, MAX(idade) AS max_idade, sexo FROM credito GROUP BY sexo;
    
![Média de idades por sexo](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/media_idade.PNG?raw=true)
    
> A menor idade dos dois sexos é a mesma e a média é muito similar. A unica  diferença é a idade máxima mas fato quase irrelevante por a diferença não é tão gritante. Logo, não foi possível extrair nenhuma informação relevante.
   
**Qual a maior e menor transação dos clientes?**

**Query:** SELECT MIN(valor_transacoes_12m) AS transacao_minima, MAX(valor_transacoes_12m) AS transacao_minima FROM credito;

![Valor transacoes](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/transacao_min_max.PNG?raw=true)

> Nesse banco de dados temos soma de transações em 12 meses variam de 510.16 a 5776.58

**Quais as características dos clientes que possuem os maiores creditos?**

**Query:** SELECT MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo FROM credito WHERE escolaridade != 'na' AND tipo_cartao != 'na' GROUP BY escolaridade, tipo_cartao, sexo ORDER BY limite_credito DESC LIMIT 10;

![Valor maiores limites](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/caracteristica_limite.PNG?raw=true)

> O limite mais alto é oferecido para um homem sem educação formal. O cartão também parece não estar relacionado com a escolaridade nem com o limite. Dentre os maiores limites, encontramos clientes com cartão: gold, silver, platinum e blue. Portanto, não parece haver um impacto da escolaridade no limite.

**Quais as características dos clientes que possuem os menores creditos?**

**Query:** SELECT MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo FROM credito WHERE escolaridade != 'na' AND tipo_cartao != 'na' GROUP BY escolaridade, tipo_cartao, sexo ORDER BY limite_credito LIMIT 10;

![Valor menores limites](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/caracteristica_limite_min.PNG?raw=true)
    
> Podemos perceber que não há clientes com cartão platinum dentre os menores limites. Também foi possível notar que a maioria dos menores limites são mulheres enquanto nos maiores limites predomina homens.

**Que sexo gasta mais? Masculino ou feminino?**

**Query:** SELECT MAX(valor_transacoes_12m) AS maior_valor_gasto, AVG(valor_transacoes_12m) AS media_valor_gasto, MIN(valor_transacoes_12m) AS min_valor_gasto, sexo FROM credito GROUP BY sexo;

![Valor transacoes/sexo](https://github.com/lucastbeloni/Analise-de-dados-com-SQL-visualizacao-de-dados-de-credito/blob/main/imagens/transacao_sexo.PNG?raw=true)

> Os gastos de homens e mulheres são similares apesar da diferença nos limites!

Por fim,

# Conclusão
  
Podemos afirmar alguns fatos:

- Maioria dos clientes é masculino;
- A maior parte dos clientes possui renda até 40K;
- A escolaridade não parece influenciar no limite nem no tipo do cartão;
- Dentre os menores limites não há presença de cartão platinum;
- Os clientes com menores limites são em sua maioria mulheres;
- Os clientes com maiores limites são em sua maioria homens;
- A faixa salarial impacta diretamente no limite de crédito;
- Não existem clientes com salário anual acima de 60K do sexo feminino.


**Por que as mulheres tem menor crédito? Havendo uma exploração maior dos dados pode explicar isso. Podendo ou não ser um problema cultural que pode ser repensado!**