# **Exploração e análise de dados de crédito com SQL**

## **Os dados:**

Os dados representam informações de clientes de um banco e contam com as seguintes colunas:
idade = idade do cliente
* **sexo** = sexo do cliente (F ou M)
* **dependentes** = número de dependentes do cliente
* **escolaridade** = nível de escolaridade do clientes
* **salario_anual** = faixa salarial do cliente
* **tipo_cartao** = tipo de cartao do cliente
* **qtd_produtos** = quantidade de produtos comprados nos últimos 12 meses
* **iteracoes_12m** = quantidade de iterações/transacoes nos ultimos 12 meses
* **meses_inativo_12m** = quantidade de meses que o cliente ficou inativo
* **limite_credito** = limite de credito do cliente
* **valor_transacoes_12m** = valor das transações dos ultimos 12 meses
* **qtd_transacoes_12m** = quantidade de transacoes dos ultimos 12 meses

> A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

## Descrição dos dados


**Quantidade de linhas**

**Query:** SELECT COUNT(*) FROM credito
* **Resultado:** 2564 linhas

**Visão geral do dataset**

**Query:** SELECT * FROM credito LIMIT 10;
* **Resultado:**

![10 primeiras linhas do dataset](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q01.png?raw=true)

> É possível verificar que existem valores nulos (na) em várias colunas, é necessário maior atenção para esses dados para que não haja impacto nas avaliações.

**Tipos de dados**

**Query:**  DESCRIBE credito
* **Resultado:**

![Descrição do dataset 'credito.csv'](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q02.png?raw=true)

## Exploração das variáveis

**Salário anual:**

**Query:** SELECT COUNT(*), salario_anual FROM credito GROUP BY salario_anual
* **Resultado:**


![salario anual](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q03.png?raw=true)

> Os salários dos clientes são organizados por faixas salariais de 20K, sendo que a menor é definida com 'menos de $40K' e a maior é '120K+'.

![salario anual grafico](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q03_graph.png?raw=true)

![salario anul porcentagem](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q03_graph2.png?raw=true)

> É possível observar que a grande maioria dos clientes (27,3%) se encontra na menor faixa de renda anual. A quantidade de clientes na maior faixa de renda representa a minoria, porém, existe uma quantidade considerável (9,2%) de valores não declarados (nulos).

**Sexo:**

**Query:** SELECT COUNT(*) sexo FROM credito GROUP BY sexo

* **Resultado:**

![sexo](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q04.png?raw=true)

> O dataset distingue os clientes com base nos sexo (M e F). A quantidade de clientes do sexo masculino ultrapassa os de sexo feminino em mais de 500

![sexo grafico](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q04_graph.png?raw=true)

> Os homens representam 61% dos clientes e as mulheres 39%

**Escolaridade**

**Query:** SELECT COUNT(*) escolaridade FROM credito GROUP BY escolaridade

* **Resultado:**

![escolaridade](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q10.png?raw=true)

![escolaridade grafico](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q10_graph.png?raw=true)

> Grande número de clientes possuem mestrado, seguidos por clientes com ensino médio e clientes em educação formal. Também é possível observar que existem muitos dados nulos (na)

**Estado civil:**

**Query:** SELECT COUNT(*) estado_civil FROM credito GROUP BY estado_civil

* **Resultado:**

![estado civil](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q09.png?raw=true)


![estado civil grafico](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q09_graph.png?raw=true)

> A grande maioria dos clientes (1521) dos clientes é casado. Essa variável possui uma pequena porcentagem de dados não informados (nulos).

**Idade:**

**Query:** SELECT 
    ROUND(AVG(idade),1) AS media_idade,
    MAX(idade) AS idade_maxima,
    MIN(idade) AS idade_minima
FROM credito;

* **Resultado:**

![idade](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q18.png?raw=true)

> Podemos perceber que a média de idade dos clientes é de aproximadamente 46 anos, sendo que a mínima é de 26 e a máxima de 73.


**Idade por sexo:**

**Query:** SELECT ROUND(AVG(idade),1) AS media_idade, MAX(idade) AS idade_maxima, MIN(idade) AS idade_minima, sexo FROM credito GROUP BY sexo;

* **Resultado:**

![idade por sexo](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q20.png?raw=true)

![idade por sexo grafico](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q20_graph.png?raw=true)

> Podemos perceber que as idades mínimas e média entre homens e mulhers não são muito diferentes, já sobre a idade máxima, os clientes do sexo masculino são ligeiramente mais velhos que os do sexo feminino.

**Número de dependentes**

**Query:** SELECT COUNT(*) dependentes FROM credito GROUP BY dependentes

* **Resultado:**

![dependentes](https://github.com/marinafso/Projeto-de-parceria-EBAC/blob/main/M36_q11.png?raw=true)


![dependentes grafico](https://github.com/marinafso/Projeto-de-parceria-EBAC/blob/main/M36_q11_graph.png?raw=true)

> A maior parte dos clientes tem dependentes, sendo que 26,5% possui 2, 23,9% possui 3 e 21,3% possui 1 dependente. Essa variável não tem dados nulos.

**Tipo de cartão:**

**Query:** SELECT COUNT(*) tipo_cartao FROM credito GROUP BY tipo_cartao

* **Resultado:**

![tipo cartao](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q08.png?raw=true)

![tipo cartao grafico](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q08_graph.jpg?raw=true)

> A grande maioria (95,7%) dos clientes possui o cartão 'blue', seguidos pelo cartão 'silver' com 3,6%, 'gold' com apenas 16 clientes e finalmente existem apenas 2 clientes que possuem o cartão 'platinum'. Não há dados nulos nessa coluna.

## **Análise dos dados:**

Com as variáveis analisadas, agora é necessário extrair informações para a geração de *insights* e tomada de decisão. Como estamos analisando um dataset sobre limites de crédito de clientes de uma instituição financeita, podemos buscar determinar quais são os principais fatores que determinam o crédito de um cliente.

**O sexo do cliente influencia os gastos?**

**Query:**

SELECT MAX(valor_transacoes_12m) AS maior_valor_gasto, AVG(valor_transacoes_12m) AS media_valor_gasto, MIN(valor_transacoes_12m) AS min_valor_gasto, sexo
FROM credito
GROUP BY sexo

**Resultado:**

![gasto por sexo](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q06.png?raw=true)

![gasto por sexo grafico](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q06_graph.png?raw=true)

> Neste caso é possível observar que não há praticamente diferenças entre os gastos de ambos os sexos, provavelmente essa não é uma variável que impacta o limite.

**O sexo do cliente influencia o limite de crédito?**

**Query:** SELECT ROUND(AVG(limite_credito),2) AS media_credito, sexo FROM credito GROUP BY sexo

**Resultado:**

![media credito por sexo](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q21.png?raw=true)

> Aparentemente existe uma diferença notável entre o limite de crédito entre homens e mulheres. Podemos especular as razões deste resultado, como por exemplo, o fato que historicamente mulheres possuem remuneração menor que homens. Porém, é necessário também considerar que clientes do sexo feminino representam 39% da amostra, podendo comprometer a relevância estatística desta métrica.

**Há diferença de salários entre homens e mulheres?**

**Query**: SELECT salario_anual, sexo, COUNT(*) AS quantidade_clientes FROM credito WHERE salario_anual != 'na' GROUP BY salario_anual, sexo ORDER BY salario_anual, sexo;

**Resultado:** 

![salario por sexo](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q22.png?raw=true)

![salario por sexo grafico](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q22_graph.png?raw=true)

> É possível observar que existe grande disparidade entre homens e mulheres quando se trata da faixa salarial. A maioria das mulheres se encontra nas duas faixas salarias mais baixas. Já as categorias acima de $60K são compostas exclusivamente por clientes do sexo masculino.




**O limite de crédito é influenciado pelo estado civil e número de dependentes?**

**Query:** SELECT AVG(limite_credito) as limite_credito_media, dependentes, estado_civil FROM credito
WHERE estado_civil !='na'
GROUP BY dependentes, estado_civil
ORDER BY AVG(limite_credito) desc 
LIMIT 10

**Resultado:**

![idade e estado civil](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q19.png?raw=true)

> As maiores médias de limite de crédito são compostas por clientes com número de dependentes e estado civil variado, então aparentemente, essas características não afetam o crédito.

**Como são os habitos financeiros por faixa salarial?**

**Query:** SELECT 
    salario_anual,
    MAX(valor_transacoes_12m) AS maior_valor_gasto,
    AVG(valor_transacoes_12m) AS media_valor_gasto,
    MIN(valor_transacoes_12m) AS min_valor_gasto,
    COUNT(*) AS qtd_clientes
FROM credito
WHERE salario_anual != 'na'
GROUP BY salario_anual
ORDER BY salario_anual;

**Resultado:**

![transaçoes por salario](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M35_q15.png?raw=true)

![transacoes por salario grafico](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q15_graph.png?raw=true)

> É possível observar que apesar da grande diferença entre as faixas salariais, os valores transacionados (mínimo, máximo e média) são similares entre todas as categorias de clientes.

**Quais são as características dos clientes com os maiores e menores limites de crédito?**

**Maiores limites:**

**Query:** SELECT MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo from credito WHERE escolaridade != 'na' AND tipo_cartao != 'na' GROUP BY escolaridade, tipo_cartao, sexo ORDER BY limite_credito DESC LIMIT 10

**Resultado:**

![maior limite](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q12.png?raw=true)

> É possível notar que existe grande variedade de escolaridade entre os clientes com maior nível de crédito, sendo que o maior limite é de um indivíduo que não possui educação formal. Também é possível notar a presença de cartão do tipo 'premium' (silver, gold e platinum) entre esses clientes, mas não de forma exclusiva, pois há vários clientes com o cartão do tipo 'blue'.

**Menores limites:**

**Query:** SELECT MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo from credito WHERE escolaridade != 'na' AND tipo_cartao != 'na' GROUP BY escolaridade, tipo_cartao, sexo ORDER BY limite_credito ASC LIMIT 10

**Resultado:** 

![menor limite](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q14.png?raw=true)

> Já em relação aos clientes com menor limite de crédito é possível observar a predominância de clientes do sexo feminino, também a prevalência exclusiva de cartões do tipo 'blue'. Em comum com os clientes com maior limite de crédito, há a grande variedade de nível de escolaridade, sendo possível concluir que essa característica não é relevante para determinar o crédito do cliente.

**As transações e o salário impactam no crédito?**

**Query:** 

SELECT AVG(qtd_produtos) AS qts_produtos, AVG(valor_transacoes_12m) AS media_valor_transacoes, AVG(limite_credito) AS media_limite, sexo, salario_anual 
FROM credito 
WHERE salario_anual != 'na' 
GROUP BY sexo, salario_anual 
ORDER BY AVG(limite_credito) DESC

**Resultado:**

![transacoes limite max](https://github.com/marinafso/M36_Projeto_SQL_EBAC/blob/main/M36_q16.png?raw=true)

> Observando a tabela acima, é possível observar que quanto maior a faixa salarial, maior é o limite de crédito concendido ao cliente. Sendo assim, considerando as demais variáveis analisadas neste estudo, é possível concluir que o salário é o principal fator que influência no limite de crédito.