# **Exploração e análise de dados de crédito com SQL**

# **1. Os dados**:

  Os dados representam informações de clientes de um banco e contam com as seguintes colunas:

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* estado_civil = estado civil do cliente (solteiro, casado)
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses

  A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

# **2. Exploração de dados**:

  A primeira fase da análise é entender o que tem na nossa matéria prima. Vamos a exploração de dados:

   **Qual a quantidade de informações temos na nossa base de dados**?

**Query**: SELECT count(*) FROM credito

![](https://github.com/carlos-eschholz/sql/blob/main/query1.png?raw=true)

   **Como são os dados**?
   
**Query**: SELECT * FROM credito LIMIT 10;

![](https://github.com/carlos-eschholz/sql/blob/main/query2.png?raw=true)

   É possível reparar que existem alguns valores nulos na tabela (valor na), vamos olhar mais de perto para os valores de cada coluna!
    
   Quais os tipos de cada dado?
   

**Query**: DESCRIBE credito

![](https://github.com/carlos-eschholz/sql/blob/main/query3.png?raw=true)

   Bom, entendemos quais são os tipos de dados, vamos olhar mais atentamente para as varíaveis que não são numéricas:
    
   **Quais são os níveis de escolaridade**?
   
**Query**: SELECT DISTINCT escolaridade FROM credito

![](https://github.com/carlos-eschholz/sql/blob/main/query4.png?raw=true)

   Os dados contam com vários níveis de escolaridade mas é possível perceber que temos valores nulos (na) no dataset, teremos que tratar isso mais tarde!
   

   **Quais são os tipos de estado_civil**?
   
 **Query**: SELECT DISTINCT estado_civil FROM credito
 
![](https://github.com/carlos-eschholz/sql/blob/main/query5.png?raw=true)

   Ainda temos valores nulos.
   
   
   **Quais são os tipos de salario_anual**?
   
**Query**: SELECT DISTINCT salario_anual FROM credito

![](https://github.com/carlos-eschholz/sql/blob/main/query6.png?raw=true)

   Os salários nessa base de dados não estão expostas com o valor  que o cliente ganha e sim a faixa salarial de cada um. Também contem dados nulos.

   **Quais são os tipos de cartão disponíveis no dataset**?
   
 **Query**: SELECT DISTINCT tipo_cartao FROM credito
 
![](https://github.com/carlos-eschholz/sql/blob/main/query7.png?raw=true)

   Aqui vemos que não há necessidade de tratar valores nulos.
   


# **3. Análise de dados**


   Agora que os dados foram explorados, buscaremos entender quais são as informações que temos no nosso banco de dados, para alisarmos as informações e buscar entender o que está acontecendo no banco de dados!
   
   **quantos clientes temos de cada faixa salarial**?
   
   **Query**: select count(*), salario_anual from credito group by salario_anual
   
![](https://github.com/carlos-eschholz/sql/blob/main/query8.png?raw=true)     ![](https://github.com/carlos-eschholz/sql/blob/main/grafico1.png?raw=true)

   Observamos que a maioria dos clientes dessa base de dados possui um renda menor que 40K. De certa forma, pode ser interessante para a empresa focar nesse público.
    
   **quantos clientes são homens e quantos são mulheres**?
  
 **Query**: select count(*), sexo from credito group by sexo
 
![](https://github.com/carlos-eschholz/sql/blob/main/query9.png?raw=true)  ![](https://github.com/carlos-eschholz/sql/blob/main/grafico2.png?raw=true)  

   Podemos ver que a maioria dos clientes desse banco é homem.
   
**Qual será a faixa etária deles**?

**Query**: select avg(idade) as media_idade, min(idade) as min_idade, max(idade) as max_idade, sexo from credito group by sexo

![](https://github.com/carlos-eschholz/sql/blob/main/query10.png?raw=true)

   Verificamos que por meio dessa análise não foi possível extrair nenhuma informação relevante.
   
   **Qual a maior e menor transação dos clientes**?
   
  **Query**: select min(valor_transacoes_12m) as transacao_minima, max(valor_transacoes_12m) as transacao_minima from credito
  
![](https://github.com/carlos-eschholz/sql/blob/main/query11.png?raw=true)

   Vemos que nesse banco de dados temos transações em 12 meses variam de 510.16 a 5776.58!
   
   **Quais as características dos clientes que possuem os maiores creditos**?
   
 **Query**: select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito where escolaridade != 'na' and tipo_cartao != 'na' group by escolaridade, tipo_cartao, sexo order by limite_credito desc limit 10

![](https://github.com/carlos-eschholz/sql/blob/main/query12.png?raw=true)

Parece não haver um impacto da escolaridade no limite. O limite mais alto é oferecido para um homem sem educação formal. O cartão também parece não estar relacionado com a escolaridade nem com o limite. Dentre os maiores limites, encontramos clientes com cartão: gold, silver, platinum e blue.

**Quais as características dos clientes que possuem os menores creditos**?

**Query**: select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito where escolaridade != 'na' and tipo_cartao != 'na' group by escolaridade, tipo_cartao, sexo order by limite_credito asc

![](https://github.com/carlos-eschholz/sql/blob/main/query13.png?raw=true)

   Verificamos que não há clientes com cartão platinum dentre os menores limites. Também foi possível perceber que a maioria dos menores limites são de mulheres enquanto nos maiores limites predomina entre homens.
   
   **Quem Será que gastam mais**?
   
**Query**: select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo from credito group by sexo

![](https://github.com/carlos-eschholz/sql/blob/main/query14.png?raw=true)  ![](https://github.com/carlos-eschholz/sql/blob/main/grafico3.png?raw=true)

   Apesar da diferença nos limites, os gastos de homens e mulheres são similares!
   
 **Será que o salário impacta no limite**?
 
 **Query**: select avg(qtd_produtos) as qts_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite, sexo, salario_anual from credito where salario_anual != 'na' group by sexo, salario_anual order by avg(valor_transacoes_12m) desc
 
![](https://github.com/carlos-eschholz/sql/blob/main/query15.png?raw=true) ![](https://github.com/carlos-eschholz/sql/blob/main/grafico4%20(1).png?raw=true)

SIM! As pessoas que tem menor faixa salarial também apresentam menor limite de credito!

# **4. Conclusão**

Essas foram algumas análises extraídas do dataset de crédito.

insights interessantes:

* a maior parte dos clientes possui renda até 40K
* a maior parte dos clientes é masculino!
* a escolaridade não parece influenciar no limite nem no tipo do cartão
* os clientes com maiores limites são em sua maioria homens
* os clientes com menores limites são em sua maioria mulheres
* dentre os menores limites não há presença de cartão platinum
* a faixa salarial impacta diretamente no limite de crédito
* nao existem clientes com salário anual acima de 60K do sexo feminino

    
 Uma exploração maior dos dados pode explicar porque as mulheres tem menor crédito.