# **Exploração e análise de dados de crédito com SQL**

*Esse notebook faz parte do curso SQL para análise de dados da EBAC.*

## Os dados: 

Os dados representam informações de clientes de um banco e contam com as seguintes colunas: 

* **idade** = idade do cliente;
* **sexo** = sexo do cliente (F ou M);
* **dependentes** = número de dependentes do cliente;
* **escolaridade** = nível de escolaridade do clientes;
* **salario_anual** = faixa salarial do cliente;
* **tipo_cartao** = tipo de cartão do cliente;
* **qtd_produtos** = quantidade de produtos comprados nos últimos 12 meses;
* **iteracoes_12m** = quantidade de iterações/transações nos últimos 12 meses;
* **meses_inativo_12m** = quantidade de meses que o cliente ficou inativo;
* **limite_credito** = limite de crédito do cliente;
* **valor_transacoes_12m** = valor das transações dos últimos 12 meses;
* **qtd_transacoes_12m**  = quantidade de transações dos últimos 12 meses.

A tabela foi criada no **AWS Athena** junto com o **S3 Bucket** com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset


## **Exploração de dados:**

A primeira fase da análise é entender o que tem na nossa matéria prima. Vamos a exploração de dados:

**Qual é a quantidade de informações temos na nossa base de dados?**

**Query**: SELECT count(*) FROM credito
> **Resposta**: 2564 linhas.

**Como são os dados?** 

**Query**: SELECT * FROM credito LIMIT 10;
![Dez primeiras linhas do dataset](https://github.com/guipalomares/sql_ebac/blob/main/limit10.png?raw=true)
> Podemos notar que a base de dados possui 12 variáveis distintas e, que existem algumas informações nulas em algumas delas.

**Quais os tipos de cada dado?**

**Query**: DESCRIBE credito

![Descrição dos tipos de dados](https://github.com/guipalomares/sql_ebac/blob/main/describe.png?raw=true)

Após entender quais são os tipos de dados, vamos olhar mais atentamente para as variáveis que não são numéricas.

**Quais são os tipos de estado civil disponíveis no dataset?**

**Query**: SELECT DISTINCT estado_civil FROM credito

![Tipos de estado civil](https://github.com/guipalomares/sql_ebac/blob/main/estado%20civil.png?raw=true)


**Quais são os tipos de escolaridade disponíveis no dataset?**

**Query**: SELECT DISTINCT escolaridade  FROM credito

![Tipos de escolaridade](https://github.com/guipalomares/sql_ebac/blob/main/escolaridade.png?raw=true)

> Assim como já observado anteriormente, podemos notar que foram encontrados valores nulos tanto nas variáveis **estado civil**, quanto em **escolaridade**!


**Quais são os tipos de cartão disponíveis no dataset?**

**Query:** SELECT DISTINCT tipo_cartao  FROM credito

![Tipos de cartão](https://github.com/guipalomares/sql_ebac/blob/main/tipo%20cartao.png?raw=true)
> Podemos observar que aqui não foram encontrados valores nulos a serem tratados.


## **Análise de dados:**

Agora que exploramos o dados e buscamos entender quais são as informações que temos no nosso banco de dados, podemos analisar as informações para buscar entender o que está acontecendo no banco de dados. Vamos fazer perguntas:


**Quantos meses a maioria dos clientes ficaram inativos?**

**Query**: select count(*), meses_inativo_12m from credito group by meses_inativo_12m

![Quantidade inativos](https://github.com/guipalomares/sql_ebac/blob/main/meses%20inativos.png?raw=true)

> A maioria dos clientes permaneceram três meses inativos. 

**Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**

**Query**: select count(*), sexo from credito group by sexo


![Quantidade para cada sexo](https://github.com/guipalomares/sql_ebac/blob/main/sexo.png?raw=true)

> Nota-se que a marioria dos clientes são homens (1563) e, a minoria são mulheres (1001).

**Quais as características dos clientes que possuem maiores transações?**

**Query**: 
select sum(valor_transacoes_12m) as transacoes, escolaridade, tipo_cartao, sexo 
from credito
where escolaridade != 'na' and tipo_cartao != 'na' 
group by  escolaridade, tipo_cartao, sexo 
order by transacoes desc
limit 10

![Transações](https://github.com/guipalomares/sql_ebac/blob/main/transacoes.png?raw=true)

> Podemos analisar que os clientes com maiores transações no banco nos últimos 12 meses são: homens com o cartão blue e que possuem mestrado.

**Qual é o sexo que mais realizou transações nos últimos 12 meses?**

**Query**:
select sum(valor_transacoes_12m) as transacoes, sexo
from credito
group by  sexo
order by transacoes desc

![Sexo transações](https://github.com/guipalomares/sql_ebac/blob/main/sexo%20transacoes.png?raw=true)

> Ficou constatado que os homens possuem mais transações que as mulheres nos últimos 12 meses.

**Quais são as características dos clientes que possuem os maiores limites de crédito?**

**Query**: 
select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo 
from credito
where escolaridade != 'na' and tipo_cartao != 'na' 
group by  escolaridade, tipo_cartao, sexo 
order by limite_credito desc
limit 10

![Valor limite](https://github.com/guipalomares/sql_ebac/blob/main/maior%20limite.png?raw=true)

> O maior limite de crédito é oferecido para um homem sem educação formal. O cartão também parece não estar relacionado com a escolaridade nem com o limite. Dentre os maiores limites, encontramos clientes com cartão: gold, silver, platinum e blue.

**Quais são as características dos clientes que possuem os menores limites de crédito?**

**Query**: 
select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo 
from credito
where escolaridade != 'na' and tipo_cartao != 'na' 
group by  escolaridade, tipo_cartao, sexo 
order by limite_credito asc
limit 10

![Valor limite](https://github.com/guipalomares/sql_ebac/blob/main/menor%20limite.png?raw=true)

> Dessa vez conseguimos perceber que não há clientes com cartão platinum dentre os menores limites. Também foi possível perceber que a maioria dos menores limites são mulheres enquanto nos maiores limites predominam homens.

# Conclusões:

Alguns insights interessantes, obtidos através das análises extraídas do dataset de crédito:

- a maioria dos clientes ficam 3 meses inativos;
- a maioria dos clientes é do sexo masculino;
- os clientes com maiores transações possuem mestrado;
- a escolaridade não parece influenciar no limite nem no tipo do cartão;
- os clientes com maiores limites são em sua maioria homens;
- os clientes com menores limites são em sua maioria mulheres;
- dentre os menores limites não há presença de cartão platinum.