# Exploração e análise de dados de crédito com SQL Athena

*Projeto de conclução de curso da EBAC*

## **Dados da tabela:**

A tabela conta com colunas com informações de clientes de um banco, os dados são organizados da seguintes forma:

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses

A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: https://github.com/JhonGb26/ebacSql/blob/main/credito8.csv

## **Exploração de dados:**

A primeira fase da análise é entender o que tem na nosso dado. Vamos a explorar ele:

**Qual a quantidade de informações temos na nossa base de dados?**

**Query:** select count(*) from credito

> Reposta: 2564 linhas

**ps.:** No link acima pode-se verificar a quantidade de informações do próprio CSV.

**Como são os dados** (visualizando as 10 primairas linhas)

**Query:** SELECT * FROM credito LIMIT 10;

![Dez primeiras linhas do dataset](https://raw.githubusercontent.com/JhonGb26/ebacSql/89c2c3c84eb27063dbcc6aaa47e0d91af9b3817f/image.png)

**Quais os dados e o seus tipos estamos analisando**

**Query:** DESCRIBE credito

![Descrição dos tipos de dados](https://github.com/JhonGb26/ebacSql/blob/main/image.png?raw=true)

> Agora que ja sabemos quais são os tipos de dados, vamos olhar mais para as varíaveis que não são numéricas. As STRING

**Quais são as escolaridade disponíveis no dataset?**

![Tipos de escolaridade](https://github.com/JhonGb26/ebacSql/blob/main/imgs/SELECT%20DISTINCT%20escolaridade%20FROM%20credito.png?raw=true)

**Quais são os tipos de estado_civil no dataset?**

**Query:** SELECT DISTINCT estado_civil  FROM credito

![Tipos de estado civil](https://github.com/JhonGb26/ebacSql/blob/main/imgs/SELECT%20DISTINCT%20estado_civil%20%20FROM%20credito.png?raw=true)

**Quais são os valores de salario_anual disponíveis no dataset?**

**Query:** select count(*), salario_anual from credito group by salario_anual

![Tipos de salario anual](https://github.com/JhonGb26/ebacSql/blob/main/imgs/select%20count%20salario_anual%20from%20credito%20group%20by%20salario_anual.png?raw=true)

> O que está informado no dataset é a faixa salarial de cada um dos clientes ao ano.

**Quais são os tipos de cartão disponíveis no dataset?**

**Query:** SELECT DISTINCT tipo_cartao  FROM credito

![Tipos de cartão](https://github.com/JhonGb26/ebacSql/blob/main/imgs/SELECT%20DISTINCT%20tipo_cartao%20%20FROM%20credito.png?raw=true)

Aqui vemos que essa Query não tem valores nulos(na). Mas as outras Querys onde a a varíavel também é String podemos observar os valores nulos(na). Vamos vê o total de valores nulos nessas varíaveis String.

**Qual a quantidade de valor nulo(na) nas Querys anteriores?**

**Query:** select count(*) as total_nulo
from credito
WHERE salario_anual = 'na' OR escolaridade = 'na'  OR estado_civil = 'na'  OR tipo_cartao = 'na'

![Total nulos](https://github.com/JhonGb26/ebacSql/blob/main/imgs/total%20nulos.png?raw=true)


## **Análise de dados**

Quando exploramos algo novo ou até mesmo já visto há um instinto de questionamento que nos faz buscar compreender cada vez mais esse "algo". Isso pode ser usado por nós analistas de dados, temos aquele produto bruto em um banco de dados sem lapidar e começamos a questionar e a buscar para entende-lo melhor as informações. 

***Vamos fazer perguntas no nosso banco de dados***

**Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

**Query:** select count(*), salario_anual from credito group by salario_anual

![Quantidade para cada faixa salarial](https://github.com/JhonGb26/ebacSql/blob/main/imgs/select%20count%20salario_anual%20from%20credito%20group%20by%20salario_anual.png?raw=true)

> Existem cerca de 222 clientes que recebem valores acima de 120K, mas o numero maior de cliente (701) recebem menos de 40k anualmente.
> A empresa deve liberar credito pra uma quantidade maior de clientes com renda miníma.

**Qual a média, máxima e mínima de idade dos clientes por sexo?**

**Query:** select avg(idade) as media_idade, min(idade) as min_idade, max(idade) as max_idade, sexo from credito group by sexo.
![Clientes por idade e sexo](https://github.com/JhonGb26/ebacSql/blob/main/imgs/Query%20quantidade%20de%20homem%20e%20mulher%20por%20idade.png?raw=true)


# Gráfico feito no Excel.
![Clientes por idade e sexo](https://github.com/JhonGb26/ebacSql/blob/main/imgs/Quantidade%20de%20homem%20e%20mulher%20por%20idade.png?raw=true)

>Podemos notar que a idade mínima entre homens e mulheres não se altera, porém a idade máxima dos clientes masculinos é maior que o feminino. Conclui-se que a média de idade entre os dois sexos o feminino é maior.
>Vamos vê a quantidade clientes por idade.

**Quantos clientes são homens e quantos são mulheres?**

**Query:**  select count(*) as Quant, sexo  from credito group by sexo
![Clientes por  sexo](https://github.com/JhonGb26/ebacSql/blob/main/imgs/Query%20quantidade%20de%20Clientes%20por%20sexo..png?raw=true)

![Grafico clientes por sexo](https://github.com/JhonGb26/ebacSql/blob/main/imgs/Quantidade%20de%20Clientes%20por%20sexo..png?raw=true)

>Existe mais homens que mulheres nesse banco de dados. Aqui um outro gráfico feito no Excel, agora em pizza para melhor visualização.

**Qual a quantidade de cliente por escolaridade ?**

**Query:** select count(*) as Quant, escolaridade  from credito group by escolaridade

![Escolaridade](https://github.com/JhonGb26/ebacSql/blob/main/imgs/Qual%20a%20quantidade%20de%20cliente%20por%20escolaridade%20.png?raw=true)

>A maior parte dos clientes tem mestrado e a menor quantidade de clientes tem doutorado. Mas cerca de 367 sem educacao formal e 346 é informação nula no banco de dados.

**Quais tipos de cartão os clientes possuem mais?**

**Query:** select count(*) as Quant, tipo_cartao  from credito group by tipo_cartao

![Clientes por tipo de cartão](https://github.com/JhonGb26/ebacSql/blob/main/imgs/Quantidade%20de%20cliente%20por%20tipos%20de%20cart%C3%A3o.png?raw=true)

>Só 2 clientes tem o cartão Platinum, enquanto cerca de 2453 usam o cartão Blue.
>Vamos além e analisar os clientes com mais créditos e os com menos créditos e suas características.

**Quais as características dos clientes que possuem os maiores créditos?**

**Query:** select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito where escolaridade != 'na' and tipo_cartao != 'na' group by escolaridade, tipo_cartao, sexo order by limite_credito desc limit 10

![Maiores créditos](https://github.com/JhonGb26/ebacSql/blob/main/imgs/Maiores%20cr%C3%A9ditos.png?raw=true)

**Quais as características dos clientes que possuem os menores créditos?**

**Query:** select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito where escolaridade != 'na' and tipo_cartao != 'na' group by escolaridade, tipo_cartao, sexo order by limite_credito asc limit 10

![Menores créditos](https://github.com/JhonGb26/ebacSql/blob/main/imgs/Menores%20cr%C3%A9ditos.png?raw=true)

>Os limites mais altos têm sua maioria homens quando os limites mais baixos mulheres. Podemos notar que das duas mulheres que aparecem com limites alto uma possui o cartão Platinum com a escolaridade de doutorado. Parece não haver um impacto da escolaridade no limite nem no tipo do cartão, o limite mais alto é oferecido para um homem sem educação formal. Dentre os maiores limites, encontramos clientes com cartão: gold, silver, platinum e blue. Enquanto com os menores limites encontramos: gold, silver e blue. Vamos analisar se o salario impacta no limite de crédito.


**O salário impacta no limite crédito?**

**Query:** select avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite, sexo, salario_anual from credito where salario_anual != 'na' group by sexo, salario_anual order by avg(valor_transacoes_12m) desc

![Limite credito/salario](https://github.com/JhonGb26/ebacSql/blob/main/imgs/Salario%20impacta%20no%20limite.png?raw=true)

> Podemos vê que maior parte dos clientes com o salário anual maior tem mais limites de créditos.


# Conclusão

Essas foram **algumas** análises extraídas do dataset de crédito.  

Alguns insights interessantes:

- a maior parte dos clientes possui renda menos de 40K.
- e a menor parte dos clientes recebem +120k.
- a maior parte dos clientes é masculino!
- sendo também os clientes masculinos com idade mais elevada.
- temos mais clientes com mestrando.
-  temos cerca de 346 clientes com informação nula sobre escolaridade.
- existe mais clientes que usam o tipo de cartão blue do que outros tipos.
- a escolaridade não parece influenciar no limite nem no tipo do cartão.
- os clientes com maiores limites são em sua maioria homens .
- os clientes com menores limites são em sua maioria mulheres.
- dos clientes que possui limite alto só um tem cartão platinum e é mulher.
- dentre os menores limites não há presença de cartão platinum.
- a faixa salarial impacta diretamente no limite de crédito.

**Uma exploração maior dos dados pode explicar porque as mulheres tem menor crédito mesmo tendo grandes escolaridades. Isso também pode ser um problema cultural que pode ser repensado!**