# **Exploração e análise de dados de crédito com SQL**



## Sobre os dados:

Os dados representam informações de clientes de um banco e contam com as seguintes colunas:

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses


A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

## Exploração dos dados 


### 1) Exploração geral da tabela como um todo:


**Quantos registros existem na tabela?**

**Query:** SELECT COUNT(*) AS qtde_linhas FROM credito;
![Query 1](imagens/query_1.png)
> Temos um total de 2564 linhas

**obs:** essa base de dados é apenas uma amostra de uma base de dados maior. A base completa pode ser encontrada no link abaixo da descrição dos campos.


**Como é a disposição dos dados na tabela?**

**Query:** SELECT * FROM credito LIMIT 10;
![Query 2](imagens/query_2.png)
> Dados aparentemente bem dispostos, sendo que algumas colunas possuem valores nulos (NA) que serão analisados mais pra frente.


**Qual o tipo de cada coluna?**

**Query:** DESCRIBE credito;
![Query 3](imagens/query_3.png)
> Aparentemente cada coluna está com seu respectivo tipo correto.


Agora que já realizamos uma exploração geral dos dados como um todo, podemos realizar uma exploração mais específica para cada variável da tabela.



### 2) Exploração expecífica por variável


**Quais os valores para a variável *sexo* na base de dados?**

**Query:** SELECT DISTINCT(sexo) FROM credito
![Query 4](imagens/query_4.png)
> Temos apenas os valores "M" e "F" e não há valores nulos nessa coluna.


**Quais os valores para a variável *escolaridade* na base de dados?**

**Query:** SELECT DISTINCT(escolaridade) FROM credito
![Query 5](imagens/query_5.png)
> Pode-se observar diversas categorias para a *escolaridade* e também que há valores nulos (NA).


**Quais os valores para a variável *estado_civil* na base de dados?**

**Query:** SELECT DISTINCT(estado_civil) FROM credito
![Query 6](imagens/query_6.png)
> Neste caso temos 3 categorias e também há valores nulos (NA).


**Quais os valores para a variável *salario_anual* na base de dados?**

**Query:** SELECT DISTINCT(salario_anual) FROM credito
![Query 7](imagens/query_7.png)
> Novamente, possuímos valores nulos nessa coluna.


**Quais os valores para a variável *tipo_cartao* na base de dados?**

**Query:** SELECT DISTINCT(tipo_cartao) FROM credito
![Query 8](imagens/query_8.png)
> Para esta coluna, temos 4 valores distintos e não há valores nulos.


## Análise dos Dados


Agora, podemos começar a analisar os dados para tentar tirar conclusões dos mesmos.


**Qual a faixa de salário da maioria das pessoas?**

**Query:** SELECT COUNT(*) as qtde, salario_anual FROM credito WHERE salario_anual != 'na' GROUP BY salario_anual
![Query 9](imagens/query_9.png)
> A maioria das pessoas (701), recebem um salário de até 40k ao ano.


**Homens recebem mais do que as mulheres?**

**Query:** SELECT COUNT(*) as qtde, salario_anual, sexo FROM credito WHERE salario_anual != 'na' GROUP BY salario_anual, sexo
![Query 10](imagens/query_10.png)
> Olhando apenas para os dados dessa base, os homens recebem mais do que as mulheres, a maioria esmagadora das mulheres ocupam a categoria de salário abaixo dos 40K anual, enquanto os homens ocupam em peso as categorias acima. 

**obs:** Isso baseado apenas nestes dados, para poder afirmar com certeza, é preciso realizar um teste de hipótese.


**Tendo em vista que nessa base os homens recebem mais do que as mulheres, eles também possuem um limite maior?**

**Query:** SELECT MIN(limite_credito) AS limite_min, AVG(limite_credito) AS limite_medio, MAX(limite_credito) AS limite_max, sexo FROM credito GROUP BY sexo
![Query 11](imagens/query_11.png)
> A resposta é sim. Apesar de o menor e maior valor de limite para ambos os sexos serem muito próximos, o limite médio para os homens é cerca do dobro do limite médio para as mulheres.

**obs:** Isso baseado apenas nestes dados, para poder afirmar com certeza, é preciso realizar um teste de hipótese.



**Esse limite maior, é em conta do sexo ou do salário maior?**

**Query:** SELECT AVG(limite_credito) AS limite_medio, salario_anual, sexo FROM credito WHERE salario_anual != 'na' GROUP BY sexo, salario_anual
![Query 12](imagens/query_12.png)
> Visto que, conforme o salário anual aumenta, o limite médio também aumenta, o fator mais importante é sim o salário anual. 
No entanto, nas duas categegorias que temos ambos os sexos, para o mesmo salário anual, os homens tem um limite cerca de 1k maior, portanto o sexo também tem influencia no limite.

**obs:** Isso baseado apenas nestes dados, para poder afirmar com certeza, é preciso realizar um teste de hipótese.



**O tipo do cartão tem relação com o limite de crédito?**

**Query:** SELECT COUNT(*) as qtde, AVG(limite_credito) AS limite_medio, tipo_cartao FROM credito GROUP BY tipo_cartao 
![Query 13](imagens/query_13.png)
> Sim, o tipo *blue* que é o mais comum é o que possuí o menor limite. Na medida que conforme o tipo de cartão muda, o limite vai aumentando, até chegar no *platinum* que é o com o maior limite.

**obs:** Isso baseado apenas nestes dados, para poder afirmar com certeza, é preciso realizar um teste de hipótese.
