# Exploração a análise de dados de crédito usando SQL

---

##### Neste notebook iremos realizar a exploração e a análise dos dados de um banco de dados que contém informações sobre crédito de clientes de uma instituição.

##### Iremos gerar alguns insights destes dados fazendo uso da linguagem de programação SQL através da aplicação Athena e criação de diretório de dados na aplicação S3. Ambas oferecidas pela plataforma da AWS.

----

## Carregando os dados

##### Antes de mais nada, iremos realizar o upload dos dados na aplicação S3 da plataforma AWS.

##### Criaremos um bucket chamado "bucket-transacoes-lucas-souza" que irá armazenar nossa base de dados de crédito chamada "SQL_analise_credito.csv"

##### Em seguida nós vamos configurar nosso Athena para que os resultados de nossas querys estejam todos guardados em um bucket separado chamado bucket-lucas-souza-results

##### Com nosso dataset upado na aplicação S3 e um bucket criado para armazenar os resultados das nossas consultas, podemos agora criar uma tabela na aplicação Athena para que possamos trabalhar com estes dados.

####  QUERY:

CREATE EXTERNAL TABLE IF NOT EXISTS default.credito (

    `idade` int,
    
    `sexo` string,
    
    `dependentes` int,
    
    `escolaridade` string,
    
    `estado_civil` string,
    
    `salario_anual` string,
    
    `tipo_cartao` string,
    
    `qtd_produtos` bigint,
    
    `iteracoes_12m` int,
    
    `meses_inativo_12m` int,
    
    `limite_credito` float,
    
    `valor_transacoes_12m` float,
    
    `qtd_transacoes_12m` int
    
)

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'

WITH SERDEPROPERTIES (

    'serialization.format' = ',',
    
    'field.delim' = ','
    
)

LOCATION 's3://bucket-transacoes-lucas-souza/'

TBLPROPERTIES ('has_encrypted_data' = 'false');

---

## Conhecendo os dados

##### Os dados representam informações de clientes de um banco e contam com as sseguintes colunas:

- idade = idade do cliente
- sexo = sexo do cliente (F ou M)
- dependentes = número de dependentes do cliente
- escolaridade = nível de escolaridade dos clientes
- salario_anual = faixa salarial do cliente
- tipo_cartão = tipo de cartao do cliente
- qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
- iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
- meses_inativo = quantidade de meses que o cliente ficou inativo
- limite_credito = limite de credito do cliente
- valor_transacoes_12m = valor das transações dos ultimos 12 meses
- qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses

#### OBS:

A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset.

---

## Exploração dos dados

##### Vamos agora iniciar a exploração de dados para que possamos entender um pouco mais nossa base.

 #### Quantas observações existem na base?

 Query: SELECT count(*) FROM credito
  
Resposta 2564 linhas:

##### Esta base de dados é uma parte da base de dados original que podemos encontrar no link já fornecido acima. Na prática, quanto maior o número de dados mais confiável será a análise. Para este caso estamos usando somente uma parte desta base para que possamos praticar nossos conhecimentos de análise exploratória e também economizar recusros do AWS que cobra a cada consulta que é feita na plataforma.

##### Veja como é a nossa tabela:

#### QUERY: 

SELECT * FROM "default"."credito" limit 10;

![image.png](attachment:f006c5de-92dd-4967-b76a-f8cce8130574.png)

##### De cara, podemos observar que existem alguns dados nulos (com valor = 'na'). Numa analise mais aprofundada estes dados teriam que ser tratados de alguma forma para que nossas visões dos dados não se distorçam por conta de ausencia de dados que poderiam ser importantes.

### Quais os tipos de cada dado?

#### QUERY:

DESCRIBE credito

![image.png](attachment:30c1b273-b560-4c26-a1a9-de31e2a2041e.png)

#### Aqui vemos que temos diferentes naturezas de dados que nos informam que temos dados numéricos e categóricos em nossa base.

#### Quais as escolaridades temos em nossa base?

#### QUERY:

SELECT DISTINCT escolaridade FROM credito

WHERE escolaridade != 'na'

![image.png](attachment:bf3c824b-0603-4aad-a6a4-f460b3613800.png)

#### Contamos com cinco tipos diferentes de escolaridade. Mais a frente poderemos explorar estas categorias mais a fundo para vermos se conseguimos alguma informação relevante

#### Quais sã os tipos de estado civil disponíveis na base?

#### QUERY:

SELECT DISTINCT estado_civil FROM credito

![image.png](attachment:b084d417-50a6-4d5b-b98a-d712f11b7fc9.png)

##### Estado civil temos três opções diferentes.

#### Quais são as faixas salariais disponíveis na base?

#### QUERY:

SELECT DISTINCT salario_anual FROM credito

WHERE salario_anual != 'na'

![image.png](attachment:6c4c288d-c873-4456-ad91-2cde60150f4e.png)

#### Os salários estão divididos por faixas que vão de menos de 40 mil por ano até mais de 120 mil por ano. Podem ser categorias interessantes para medir características financeiras com relação à outras variáveis da base.

#### Quais são os tipos de cartão disponiveis?

#### QUERY:

SELECT DISTINCT tipo_cartao FROM credito

WHERE tipo_cartao != 'na'

![image.png](attachment:aaa56dbf-cf7e-4268-a3e9-151b2f31a7d5.png)

#### Quatro tipos de cartão. Provavelmente cada cartão se encaixará em sua respectiva faixa de salário anual.

---

## Análise dos dados

#### Agora que compreendemos um pouco sobre os dados da nossa base, vamos analisá-los.

#### Para isso podemos levantar questões para respondê-las através dos dados usando o consultas em SQL

### Quantos clientes temos de cada faixa salarial?

### QUERY:

SELECT salario_anual, COUNT(*) AS contagem

FROM credito 

WHERE salario_anual != 'na'

GROUP BY salario_anual 

![image.png](attachment:e51da215-85ff-4507-9892-a881bc019ae7.png)

#### Vemos que a maioria dos clientes da base têm uma renda igual ou menor a 40k anuais.

### Quantos clientes são homens e quantos são mulheres?

### QUERY:

SELECT sexo, COUNT (*) AS contagem

FROM credito

GROUP BY sexo;

![image.png](attachment:28ac4dc0-b1bd-4425-9401-3d66977f87a5.png)

#### Vemos que temos mais de 500 observações a mais na base para homens se comparado ao número de observações para mulheres.

### Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?

### QUERY:

SELECT sexo, MIN(idade) AS idade_min, AVG(idade) AS media_idade, MAX(idade) AS idade_max

FROM credito

GROUP BY sexo;

![image.png](attachment:e3c51554-a4f3-4ba6-b7b0-2adddabb373c.png)

#### Vemos que nesta base as idades estão muito equilibradas sem nuances marcantes entre os sexos. Do ponto de vista de alguma ação de marketing podemos fazer três ações. Uma para cada "faixa" da tabela acima: Idade minima, média de idade e idade máxima.

### Qual a maior e menor transação dos clientes?

### QUERY:

SELECT MIN(valor_transacoes_12m) AS vlr_min_trs, MAX(valor_transacoes_12m) AS vlr_max_trs

FROM credito;

![image.png](attachment:59daead4-0499-4935-beae-d9bf88b1d34c.png)

#### O valor de transação diz respeito ao valor de uma compra. Vemos que a menor transação gerou 510,16 reais enquanto o máximo foi de 4.776,58 reais.

### Quais as características dos clientes que possuem os maiores creditos?

### QUERY:

SELECT MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo

FROM credito 

WHERE escolaridade != 'na' and tipo_cartao != 'na' 

GROUP BY escolaridade, tipo_cartao, sexo 

ORDER BY limite_credito ASC;

![image.png](attachment:629d9719-29a2-4cc9-b4e4-debd51ae55ce.png)

#### O resultado da QUERY acima nos mostra que o nível de escolaridade não influencia diretamente no crédito que o cliente possui bem também como no cartão que ele tem.

### Quais as características dos clientes que possuem os menores creditos?

### QUERY:

SELECT MIN(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo

FROM credito 

WHERE escolaridade != 'na' and tipo_cartao != 'na' 

GROUP BY escolaridade, tipo_cartao, sexo 

ORDER BY limite_credito ASC;

![image.png](attachment:bf9e9ed9-e8f0-46ff-a2a2-91b8c84bb21e.png)

#### Já a QUERY acima nos mostra que existe uma certa correlação entre o limite de crédito ( que na tabela são os menores da base ) e o tipo de cartão de credito que o cliente possui.

### Será que as mulheres gastam mais?

### QUERY:

SELECT sexo,

	MAX(valor_transacoes_12m) AS maior_valor_gasto,
 
	avg(valor_transacoes_12m) AS media_valor_gasto,
 
	min(valor_transacoes_12m) AS min_valor_gasto
 
FROM credito

GROUP BY sexo;

![image.png](attachment:ccfe020a-b1ea-43f2-aa60-516312d1f11e.png)

#### A QUERY acima nos mostra que não há diferença marcante entre os gastos dos homens e das mulheres. O que nos acusa de que não existe distinção de valores gastos entre os sexos.

### A idade influencia no salário do cliente?

### QUERY:

SELECT idade,

	AVG(limite_credito) AS sal_med
 
FROM credito

GROUP BY idade

ORDER BY idade ASC;

![image.png](attachment:eed18034-4d65-40ce-bbb8-3cdcbeef217a.png)

#### É possível ver também que a idade do cliente não impacta diretamente no salário do cliente.

### O salário impacta no limite?

### QUERY:

SELECT salario_anual,

    AVG(qtd_produtos) as qts_produtos,
    
	AVG(valor_transacoes_12m) as media_valor_transacoes,
 
	AVG(limite_credito) as media_limite
 
FROM credito

WHERE salario_anual != 'na'

GROUP BY salario_anual

ORDER BY AVG(valor_transacoes_12m) DESC

![image.png](attachment:7ae5331c-41d7-465d-8878-bca0fbc2be69.png)

#### Aqui vemos uma correlação clara de que quanto maior o salário anual do cliente, maior o crédito liberado.

---

## Conclusão

##### Essas foram algumas análises extraídas do dataset de crédito:

- a maior parte dos clientes possui renda de até 40k
- a maior parte dos clientes é do sexo masculino
- a escolaridade não parece influenciar no limite nem no tipo do cartão
- os clientes com maiores limites são em sua maioria homens
- os clientes com menores limites são em sua maioria mulheres
- dentre os menores limites não há presença de cartão platinum
- a faixa salarial impacta diretamente no limite de crédito
- não existem clientes com salário anual acima de 60k do sexo feminino
- a idade não influencia no salário dos clienteseminino

##### Uma exploração maior dos dados pode explicar porque as mulheres tem menor crédito. Isso também pode ser um problema cultural que pode ser repensado!