# **Exploração e análise de dados de crédito com AWS e SQL**

## Os dados representam os clientes de um banco com as seguintes informações:

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m  = quantidade de transacoes dos ultimos 12 meses

[A tabela original](https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset) foi reduzida e armazenada em um **Bucket no Amazon S3** e as consultas SQL feitas através do **Editor de consultas do Amazon Athena**. Algumas análises de dados estão a seguir.

## **Exploração de dados**

### Quantidade de registros na base de dados

Query:

```sql
SELECT count(*) FROM credito
```
Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/count%20all.png?raw=true)

### Características da tabela

Query:

```sql
SELECT * FROM credito LIMIT 5;
```
Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/select%20all%20limit%205.png?raw=true)

> O conjunto de dados apresenta valores nulos (na) 

Query:

```sql
DESCRIBE credito
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/describe.png?raw=true)

### Varíaveis não numéricas

Query:
```sql
SELECT DISTINCT escolaridade FROM credito
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/select%20distinct%20escolaridade.png?raw=true)

> São observados 5 níveis de escolaridade e valores nulos (na).

Query:
```sql
SELECT DISTINCT estado_civil  FROM credito
```
Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/select%20distinct%20estado%20civil.png?raw=true)

> São observadas 3 modalidades de estado civíl e valores nulos (na).

Query:
```sql
SELECT DISTINCT salario_anual  FROM credito
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/select%20distinct%20salario%20anual.png?raw=true)

> Este conjunto de dados agrupa os salários anuais em 5 faixas de saláriais e valores nulos (na).

Query:

```sql
SELECT DISTINCT tipo_cartao  FROM credito
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/select%20distinct%20tipo%20cartao.png?raw=true)

> São observados 4 tipos de cartão.


## **Análise de dados**

### Faixa salarial

Query:
```sql
SELECT COUNT(*), salario_anual FROM credito GROUP BY salario_anual
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/count%20group%20by%20salario%20anual.png?raw=true)

> Renda menor que 40K predomina com 27%, as faixas contidas entre 40K e 120K apresentam distribuição de clientes equilibrada (18%, 18% e 19%), 9% declararam renda acima de 120K e 9% dos dados não apresentam valores válidos para salário anual (na).

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/count%20group%20by%20salario%20anual%20pizza.png?raw=true)

> Esta análise dá suporte para o agrupamento de públicos alvo de campanhas empresariáis.

### Distribuição de idade e sexo declarado

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/count%20idade%20barras.png?raw=true)

> É observada uma concentração de clientes com idades entre 33 e 58 anos.

Query:
```sql
SELECT COUNT(*), sexo FROM credito GROUP BY sexo
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/count%20group%20by%20sexo.png?raw=true)

> 39% é de clientes F e o restante é declarado como M.

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/count%20group%20by%20sexo%20pizza.png?raw=true)

Query:
```sql
SELECT avg(idade) AS media_idade, min(idade) AS min_idade, max(idade) AS max_idade, sexo FROM credito GROUP BY sexo

```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/idade%20max%20avg%20min%20group%20by%20sexo.png?raw=true)

> As idades média, mínima e máxima, por sexo são próximas. 

### Transações

Query:

```sql
SELECT min(valor_transacoes_12m) AS transacao_minima, max(valor_transacoes_12m) AS transacao_minima FROM credito
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/transacoes%20min%20max.png?raw=true)

> Neste banco de dados a variação da soma de transações em 12 meses é de 510.16 à 4776.58.

### Tipos de cartão

Query:

```sql
SELECT COUNT(*), tipo_cartao FROM credito GROUP BY tipo_cartao;
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/count%20group%20by%20tipo%20cartao.png?raw=true)

> Quase todos os clientes possuem o tipo 'blue' (96%), 4% possuem 'silver' e os tipos 'gold' e 'platinum' não chegam a 1%.

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/count%20group%20by%20tipo%20cartao%20pizza.png?raw=true)


### Quantidade de crédito por cliente

Query:

```sql
SELECT max(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo 
FROM credito
WHERE escolaridade != 'na' AND tipo_cartao != 'na' 
GROUP BY  escolaridade, tipo_cartao, sexo 
ORDER BY limite_credito DESC
LIMIT 10
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/max%20where%20escolaridade%20and%20tipo%20cartao%20not%20na%20.png?raw=true)

> Nos 10 maiores limites de crédito predomina sexo M com apenas 2 sexo F. Dentre os 10 maiores limites de crédito encontramos clientes com todos os tipos de cartão e de todas a  escolariades.

Query:

```sql
SELECT min(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo 
FROM credito
WHERE escolaridade != 'na' AND tipo_cartao != 'na' 
GROUP BY  escolaridade, tipo_cartao, sexo 
ORDER BY limite_credito ASC
LIMIT 10
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/min%20where%20escolaridade%20and%20tipo%20cartao%20not%20na%20.png?raw=true)

> Entre os menores limites de crédito o sexo é igualmente dividido, apenas o tipo de cartão 'blue' é econtrado e todas as ecolaridades são observadas nesta consulta.

### Gastos versus sexo declado

Query:

```sql
SELECT max(valor_transacoes_12m) AS maior_valor_gasto, avg(valor_transacoes_12m) AS  media_valor_gasto, min(valor_transacoes_12m) AS min_valor_gasto, sexo 
FROM credito
GROUP BY sexo
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/valor%20gasto%20max%20avg%20min%20group%20by%20sexo.png?raw=true)

> Sem diferença clara.


### Salário versus limite

Query:

```sql
SELECT avg(valor_transacoes_12m) AS media_valor_transacoes, avg(limite_credito) AS media_limite,  sexo,   salario_anual FROM credito 
WHERE salario_anual != 'na'
GROUP BY sexo, salario_anual
ORDER BY avg(valor_transacoes_12m) DESC
```

Resultado:

![](https://github.com/rafie-b/Profession-Data-Analyst/blob/main/Projeto%20M36%20Resultados%20das%20consultas/avg%20limite%20salario.png?raw=true)

> As pessoas que tem menor faixa salarial também apresentam menor limite de credito.


# Destaques

- renda até $40K predomina com 27%;
- idades entre 33 à 58 se apresentam em evidência;
- sexo M é maioria (61%);
- o tipo de cartão 'blue' domina com 96%;
- escolaridade não determina limite de crédito e tipo do cartão;
- a faixa salarial impacta diretamente no limite de crédito.
