# **CREDIT  EDA AND ANALYSIS**

Esse notebook fas parte do Curso SQL para análise de dados da EBAC.


** **
## **I - Exploração e análise de dados de crédito com SQL**


### **Dos Dados:**

O banco de dados contém informações de clientes de uma instituição bancária e possui 13 colunas a seguir discirminadas:

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = numéros de dependentes do cliente
* escolaridade = nível de escolaridade dos clientes
* estado_civil = estado civil do cliente
* salário_anual = faixa salarial do cliente
* tipo_cartao =  tipo de cartão do cliente
* qtd_produtos = quantidade de produtos compados nos últimos 12 meses
* iterações_12m = quantidade de iteração/transações nos últimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes = valor de transações dos últimos 12 meses
* qtd_transacoes_12m = quantidade de transações dos últimos 12 meses 

A tabela foi criada no **AWS Athena** junto com o **S3 Bucket** com uma versão dos dados disponibilizados em: hhtps://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset


### **Exploração de Dados**

A Primeira fase de análise é entender o que tem no nosso banco de dados. Vamos a exploração de dados:

**Qual a quantidade de informações temos na nossa base de dados?**

Query: SELECT count(*) FROM credito

> Resposta: 2564 linhas

**OBS:** A base de dados do link acima contém mais linhas do que a seleção utilizada. Na prática, quanto maior a quantidade de dados utilizada, mais confiável é a análise. Contudo por questões de limites computacionais e financeiros, a redução de dados para análise foi aplicada, visto que o presente projeto possui fins de estudo.

**Como são os dados?**

Query: SELECT * FROM credito LIMIT 10:

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/01_Select_credito_limit_10.png?raw=true)

> Observe-se que existem algumas informações nulas na tabela (valor 'na').

**Quais os tipos de cada dado?**

Query: DESCRIBE credito

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/03%20-%20DESCRIBE_credito.png?raw=true)

De posse das informações acerca do tipo de dados, vamos olhar mais atentamente para as variáveis que não são numéricas.

**Quais são os tipos de escolaridade disponíveis na dataset?**

Query: SELECT DISTINCT escolaridade FROM credito

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/04%20-%20SELECT%20_DISTINCT_escolaridade_credito.png?raw=true)

> Os dados constam com váriosníveis de escolaridade e percebe-se a presença de valores nulos ('na') no dataset, que será tratada mais tarde.

**Quais são os tipos de estado_civil disponíveis no dataset?**

Query: SELECT DISTINCT estado_civil FROM credito

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/10%20-%20SELECT_DISTINCT_estado_civil.png?raw=true)

> Novamente, encontraram-se valores nulos ('na') nos dados de estado_civil do cliente que deverá ser tratada mais tarde. 





**Quais são os tipos de salario_anual disponíveis no dataset?**

Query: SELECT DISTINCT salario_anual FROM credito

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/11%20-%20SELECT_DISTINCT_salario_anual.png?raw=true)

> Os salários nesse dataset estão categorizados em faixa salarial, ou seja não informa o valor exato do salário que o cliente ganha. Tmabém contém valores nulos ('na').

**Quais são os tipos de cartão disponíveis no dataset?**

Query: SELECT DISTINCT tipo_cartão FROM credito

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/12%20-%20SELECT_DISTINCT_tipo_cartao.png?raw=true)

> Em relação aos dados tipos de cartão, como não há valores nulos ('na') não há necessitadade de realizar qualquer tipo de tratamento. 

** **
## **ANALISE DE DADOS**

Uma vez explorados os dados do dataset, cabe entender quais são as informações que o dataset fornece. Para tanto, passaremos a uma análise bivariada (ou seja, analisaremos a relação entre vários dados (colunas) disponíveis no dataset.

Assim, faremos as seguintes perguntas:

**Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

Query: SELECT COUNT (*), salario_anual FROM credito GROUP BY salario_anual;

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/05%20-%20SELECT_COUNT_GROUP_BY_salario_anual.png?raw=true)

> A maioria dos clientes dessa base de dados possui uma renda de até 40K e existem 235 clientes que não informaram ou não consta a faixa salarial. De certa forma, pode ser interessante para a empresa focar nesse público de renda mais baixa.

**Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**


Query: SELECT COUNT (*) sexo FROM credito GROUP BY sexo;

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/06-SELICT_COUNT_GROUP_BY_sexo.png?raw=true)

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/Captura%20de%20tela%20de%202024-03-21%2010-20-01.png?raw=true)

> A maioria dos clientes desse banco de dados é homem. 

**Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?**


Query: SELECT AVG (idade) AS media_idade, MIN(idade) AS min_idade, MAX(idade) AS max_idade, sexo FROM credito GROUP BY sexo;

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/SELECT%20_AVG_idade.png?raw=true)

> Por meio dessa análise não foi possível extrair nenhuma informação relevante. A menoridade dos dois sexos é a mesma e a média é muito similar. A única diferença é a idade máxima mas é fato quase irrelevante pois a diferença não é tão gritante.

**Quais as características dos clientes que possuem os maiores creditos?**

Query: SELECT MAX (limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo FROM credito WHERE escolaridade != 'na' AND tipo_cartao != 'na' GROUP BY escolaridade, tipo_cartao, sexo ORDER BY limite_credito DESC LIMIT 10;

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/07%20-%20SELECT_MAX_limite_credito.png?raw=true)

> Verifica-se que a escolaridade não impacta o limite de credito dos clientes. O limite mais alto é concedido ao homem sem educação formal. O cartão também parecer não ter nenhuma relação com a escolaridade e o limite de crédito. Dentre os maiores limites, encontramos clientes com cartão: blue, gold, platinum e silver.

**Quais as características dos clientes que possuem os menores creditos?**

Query: SELECT MAX (limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo FROM credito WHERE escolaridade != 'na' AND tipo_cartao != 'na' GROUP BY escolaridade, tipo_caertao, sexo ORDER BY limite_credito ASC LIMIT 10;

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/SELECT_MIN%20_limite_credito.png?raw=true)

> Verificamos que não há cliente com cartão platinum dentre os menores limites de credito. Percebe-se, ainda, que a maioria dos menores limites de crédito são mulheres enquanto que nos maiores limites predomina homens. 

**Será que as mulheres gastam mais que os homens?**

Query: SELECT MAX (valor_transacoes_12m) AS maior_valor_gasto, AVG(valor_transacoes_12m) AS media_valor_gasto, MIN(valor_transacoes_12m) AS min_valor gasto, sexo FROM credito GROUP BY sexo;

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/08-SELECT_valor_transacoes_12m.png?raw=true)

> Apesar da diferença nos limites, os gatos de homens e mulheres são similares.

**O salario impacta no limite de crédito?**

Query: SELECT AVG(qtd_produtos) as qtd_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, AVG(limite_credito) as media_limite, sexo, salario_anual FROM credito WHERE salario_anual != 'na' GROUP BY sexo, salario_anual ORDER BY avg(valor_transacoes_12m) desc;

![](https://github.com/FBMissono/Credit-EDA-and-Analysis/blob/master/09-SELECT_salario_anual.png?raw=true)

SIM. Pessoas na faixa salarial menor apresentam menor limite de crédito.

** **
## **CONCLUSÃO**

Essas foram **algumas** análises extraídas do dataset de crédito.


Alguns insights interessantes:

* a maior parte dos clientes possui renda até 40K;
* a maior parte dos clientes são homens;
* a escolaridade não parece influenciar no limite nem no tipo do cartão;
* os clientes com maiores limites são em sua maioria homens;
* os clientes com menores limites de crédito são em sua maioria mulheres;
* dentre os menores limites não há presença de cartão platinum;
* a faixa salarial impacta diretamente no limite de crédito;
* não existem clientes com salário anual acima de 60K do sexo feminino.

OBS: Uma exploração maior dos dados pode explicar porque as mulheres tem menor crédito. Isso também pode ser problema cultural que merece ser analisado e ajustado.