#**Exploração e análise de dados de crédito com SQL**

###Os dados:
Os dados representam informações de clientes de um banco e contam com as seguintes colunas:

*   idade = idade do cliente
*   sexo = sexo do cliente (F ou M)
*   dependentes = número de dependentes do cliente
*   escolaridade = nível de escolaridade do clientes
*   salario_anual = faixa salarial do cliente
*   tipo_cartao = tipo de cartao do cliente
*   qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
*   iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
*   meses_inativo_12m = quantidade de meses que o cliente ficou inativo
*   limite_credito = limite de credito do cliente
*   valor_transacoes_12m = valor das transações dos ultimos 12 meses
*   qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses

A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

##Exploração dos Dados

**Quantos dados temos em nosso banco de dados?**

QUERY: SELECT * FROM default.credito

**Resultado**: 2.564 linhas

**Obs**.: A base de dados vinculada acima contém mais registros do que a seleção atualmente utilizada. Você pode optar por utilizar todos os registros ou apenas uma amostra dos dados. Em geral, quanto maior a quantidade de dados utilizada, mais confiável será a análise!

**Quais os tipos de cada dado?**

QUERY: DESCRIBE credito

![](https://github.com/fabioib/Projeto-SQL/blob/main/describe.png?raw=true)

Agora que compreendemos os tipos de dados, vamos analisar com mais atenção as variáveis que não são numéricas.

**Quais são os tipos de estado civil disponíveis no dataset?**

Query: SELECT DISTINCT estado_civil FROM credito

![](https://github.com/fabioib/Projeto-SQL/blob/main/estadocivil.png?raw=true)

Encontramos valores nulos nos dados de estado civil!



**Quais são os tipos de escolaridade disponíveis no dataset?**

Query: SELECT DISTINCT escolaridade FROM credito

![](https://github.com/fabioib/Projeto-SQL/blob/main/escolaridade.png?raw=true)


Os dados contam com vários níveis de escolaridade e é possível perceber que temos mais valores nulos no dataset.

Vemos que nesse dataset precisa tratar os valores nulos (na).

##**Análise de Dados**

Após explorarmos os dados e identificarmos as informações contidas no nosso banco de dados, podemos proceder com a análise para compreender o que está ocorrendo nos dados.

 **Qual o salário mais e alto no dataset em relação ao sexo e escolaridade?**

**QUERY**: select max (salario_anual) as salario_anual, sexo, escolaridade from credito
where salario_anual != 'na' and escolaridade != 'na'
group by salario_anual, sexo, escolaridade
order by salario_anual asc
limit 10
![](https://github.com/fabioib/Projeto-SQL/blob/main/salarioanualmax.jpg?raw=true)


Analisando os dados, percebemos que os maiores salários são dos indivíduos do sexo masculino e que a escolaridade não influencia nos valores.

**Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**

**Query:** select count(*), sexo from credito group by sexo




**Neste banco de dados, quem realiza mais transações: homens ou mulheres?**

**QUERY:** SELECT sexo, COUNT(*) AS total_transacoes
FROM credito
WHERE sexo IN ('M', 'F')
  AND qtd_transacoes_12m IS NOT NULL
GROUP BY sexo;

![](https://github.com/fabioib/Projeto-SQL/blob/main/maistransacoes.png?raw=true)

![](https://github.com/fabioib/Projeto-SQL/blob/main/graficodetransacoes.png?raw=true)



Analisando os dados, percebemos que os homens tem uma quantidade maior de transações feitas.


**Quais as características dos clientes que possuem os maiores creditos?**

**Query:** select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito where escolaridade != 'na' and tipo_cartao != 'na' group by escolaridade, tipo_cartao, sexo order by limite_credito desc limit 10

![](https://github.com/fabioib/Projeto-SQL/blob/main/maiorescreditos.png?raw=true)

Parece que a escolaridade não tem impacto no limite. O maior limite foi oferecido a um homem sem educação formal. Além disso, o tipo de cartão não parece estar relacionado ao limite. Entre os maiores limites, encontramos clientes com os cartões gold, silver, platinum e blue.



**O salário impacta no limite?**

**Query:** select avg(qtd_produtos) as qts_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite, sexo, salario_anual from credito where salario_anual != 'na' group by sexo, salario_anual order by avg(valor_transacoes_12m) desc

![](https://github.com/fabioib/Projeto-SQL/blob/main/salariolimite.png?raw=true)

Sim! As pessoas com salários mais baixos também têm limites de crédito mais baixos!

##**Conclusão**

Aqui estão alguns insights extraídos do conjunto de dados de crédito:


*   A maioria dos clientes tem renda até 40K.
*   A maioria dos clientes é do sexo masculino.
*   A escolaridade não parece influenciar no limite de crédito nem no tipo de cartão.
*   Os clientes com os maiores limites são principalmente homens.
*   Os clientes com os menores limites são principalmente mulheres.
*   Entre os clientes com os menores limites, não há presença de cartões platinum.
*   A faixa salarial tem um impacto direto no limite de crédito.
*   Não há clientes do sexo feminino com salário anual acima de 60K.
*   Uma exploração mais profunda dos dados pode explicar por que as mulheres têm menor crédito. Isso também pode ser um problema cultural que merece reflexão e revisão!