# *Exploração e análise de dados de crédito com SQL*

## Os dados: 

Os dados representam as informações de clientes em um banco e contém as seguintes colunas:

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m  = quantidade de transacoes dos ultimos 12 meses

## *Exploração dos dados:*

Para realizar a análise de forma que seja possível extrair informações úteis e relevantes dos dados é necessário o entendimento da nossa matéria prima. Vamos a exploração de dados: 

**Qual a quantidade de informações que temos na nossa base de dados?**

Query: 
```sql 
SELECT 
    count(*) 
FROM credito;
```

![Contagem das linhas da base de dados](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/count.png?raw=true)
>Temos 2564 linhas

**Como são os dados?**

Query: 
```sql
SELECT * FROM credito LIMIT 10;
```
![Dez primeiras linhas da base de dados](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/limit10.png?raw=true)
> As colunas mostradadas são como as descritas acima, existem algumas colunas com valores nulos (na), vamos analisar cada coluna para entender melhor! 

**Quais os tipos de cada dado?**

Query:
```sql
DESCRIBE credito;
```
![Tipos de dados que compõem cada coluna](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/describe.png?raw=true)
> Temos dados do tipo numérico: ``int``, ``bigint`` e ``float``, e dados do tipo não numérico: ``string``.

Vamos observar mais atentamente as variáveis do tipo ``string``.

**Quais os tipos de sexo no Dataset?**

Query: 
```sql
SELECT 
    DISTINCT sexo 
FROM credito;
```
![Tipo de sexo](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/distinct_sexo.png?raw=true)
> Podemos ver que existem somente dois valores, com nenhum deles sendo valores nulos (na).

**Quais os tipos de escolaridade no Dataset?**

Query: 
```sql
SELECT 
    DISTINCT escolaridade 
FROM credito;
```
![Tipo de escolaridade](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/distinct_escolaridade.png?raw=true)
> Os dados apresentam diferentes classes de escolaridade, também nota-se que existem valores nulos (na) na coluna.

**Quais os tipos de estado_civil no Dataset?**

Query: 
```sql
SELECT 
    DISTINCT estado_civil 
FROM credito;
```
![Tipo de estado civil](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/distinct_estado_civil.png?raw=true)
> Apresenta as classes `solteiro`, `casado` e `divorciado`, novamente encontramos valores nulos na coluna ``estado_civil``.

**Quais os tipos de salario_anual no Dataset?**

Query: 
```sql
SELECT 
    DISTINCT salario_anual 
FROM credito;
```
![Tipo de salário anual](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/distinct_salario_anual.png?raw=true)
> Os salários nesse Dataset são organizados por faixas salariais, não com o valor exato que o cliente recebe. Por isso a variável é uma ``string``. Também apresenta valores nulos (na).

**Quais os tipos de cartão no Dataset?**

Query: 
```sql
SELECT 
    DISTINCT tipo_cartao 
FROM credito;
```
![Tipo de cartão](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/distinct_tipo_cartao.png?raw=true)
> Existem os tipos `silver`, `platinum`, `blue` e `gold`, não apresenta nenhum valor nulo (na).

**Qual a quantidade de linhas com valores nulos para cada uma dessas colunas?**

Query: 
```sql 
SELECT 
    COUNT(*) AS total_linhas, 
    COUNT_IF(sexo IS NULL OR sexo='na') AS sexo_null,
    COUNT_IF(escolaridade IS NULL OR escolaridade='na') AS escolaridade_null,
    COUNT_IF(estado_civil IS NULL OR estado_civil='na') AS estado_civil_null,
    COUNT_IF(salario_anual IS NULL OR salario_anual='na') AS salario_anual_null,
    COUNT_IF(tipo_cartao IS NULL OR tipo_cartao='na') AS tipo_cartao_null
FROM credito;
```

![Quantidade de valores nulos](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/null_string.png?raw=true)
> A variável ``sexo`` e ``tipo_cartao`` não possuem valores nulos (na), já ``escolaridade`` é aquela com a maior quantidade de valores nulos (na) contando com 346 deles, seguido por ``salario_anual`` e ``estado_civil`` com 235 e 116 respectivamente. 


## **Análise de dados**

Feita a exploração de dados para um melhor entendimento das informações contidas no banco de dados, é preciso entendender o que acontece no banco de dados.

**Quantos clientes existem de cada faixa salarial?**

Query:
```sql
SELECT 
    COUNT(*) AS total,
    salario_anual
FROM credito
WHERE salario_anual != 'na'
GROUP BY salario_anual
ORDER BY total DESC;
``` 
![Quantidade salario anual](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/qtd_salario_anual.png?raw=true)

> Como já sabemos quais colunas categóricas possuem valores nulos e as suas respectivas quantidades, não é preciso incluir o valor na consulta. Seguindo com a análise, é possível notar que, para os dados da empresa em questão, quanto maior a faixa salarial menor a quantidade de clientes, portanto estratégias para focar mais neste público devem ser incentivadas. 

**Quantos clientes são homens e quantos são mulheres?**

Query:
```sql
SELECT 
    COUNT(*) AS total,
    sexo
FROM credito
GROUP BY sexo
ORDER BY total DESC;
```

![Quantidade sexo](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/qtd_sexo.png?raw=true)

![Quantidade por sexo](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/qtde_por_sexo.png?raw=true)

>A maioria dos clientes presentes nesse banco de dados são homens, representando 61% dos dados, enquanto as mulheres representam apenas 39%.

Para um melhor entendimento de quais estratégias de marketing e posicionamento da empresa, conhecer melhor a quais são as idades dos clientes é uma questão importante.

**Qual a distribuição de idades dos clientes?**

Query:

```sql
SELECT 
    AVG(idade) AS media_idade, 
    MAX(idade) AS max_idade,
    MIN(idade) AS min_idade,
    sexo
FROM credito
GROUP BY sexo;
```

![Distribuição de idades dos clientes](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/media_idade.png?raw=true)
> Ambos possuem a idade média parecida, com os homens apresentando idades mais avançadas que as mulheres.

![Boxplot Idade](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/boxplot_idade.png?raw=true)
> Utilizando do boxplot para entender melhor qual a distribuição das idades por sexo, podemos concluir que a maioria dos clientes, independente do sexo, está entre 35 e 55 anos, com ligeira tendência de idade mais alta entre os homens. As idades para as clientes do sexo feminino se apresentam com maior diversidade, enquanto os homens têm uma distribuição mais concentrada. 

**Qual a amplitude dos valores das transações dos clientes?**

Query:

```sql
SELECT 
    MIN(valor_transacoes_12m) AS transacao_minima,
    MAX(valor_transacoes_12m) AS transacao_maxima
FROM credito;
```

![Amplitude transações](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/amplitude_transacao.png?raw=true)
> Neste banco a soma de transações em 12 meses tem valor mínimo de 510.16 e máximo de 4776.58. Com um amplitude de 4266.42.

**Quais as caracteristicas dos clientes que possuem os maiores limites de crédito?**

Query:

```sql
SELECT 
    MAX(limite_credito) AS limite_credito, 
    escolaridade, 
    tipo_cartao, 
    sexo 
FROM credito 
WHERE escolaridade != 'na' AND tipo_cartao != 'na' 
GROUP BY escolaridade, tipo_cartao, sexo 
ORDER BY limite_credito DESC 
LIMIT 12;
```

![Caracteristicas dos clientes com maiores limites](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/limite_credito.png?raw=true)
> A escolaridade não parece afetar o limite de crédito, já que o cliente com maior limite não poussui educação formal. No tipo de cartão temos uma distribuição bem diversificada, com todas as categorias aparecendo nos 10 maiores limites de crédito. O sexo predominante é o masculino com presenças pontuais do sexo feminino.

Agora vamos verificar qual a situação para os clientes com os menores limites.

**Quais as caracteristicas dos clientes que possuem os menores limites de crédito?**

Query:

```sql
SELECT 
    MAX(limite_credito) AS limite_credito, 
    escolaridade, 
    tipo_cartao, 
    sexo 
FROM credito 
WHERE escolaridade != 'na' AND tipo_cartao != 'na' 
GROUP BY escolaridade, tipo_cartao, sexo 
ORDER BY limite_credito ASC 
LIMIT 12;
```

![Caracteristicas dos clientes com menores limites](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/min_limite_credito.png?raw=true)
> Vemos que a escolaridade também não afeta nos menores limites, assim como o tipo do cartão, pois ambos apresentam todas as respectivas categorias. Já o sexo predominante para este caso é o feminino.

**Qual sexo gasta mais?**

```sql
SELECT 
    MAX(valor_transacoes_12m) AS maior_valor_gasto,
    MIN(valor_transacoes_12m) AS menor_valor_gasto,
    AVG(valor_transacoes_12m) AS media_valor_gasto,
    sexo
FROM credito 
GROUP BY sexo;
```

![Gasto por sexo](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/valor_gasto_por_sexo.png?raw=true)
> Apesar de apresentar valores diferentes para homens e mulheres, a diferença observada não é significante para criar afirmações.

**A idade impacta no limite de crédito?**

```sql
SELECT 
    CASE 
        WHEN idade < 25 THEN 'Menos de 25'
        WHEN idade BETWEEN 25 AND 34 THEN '25 a 34'
        WHEN idade BETWEEN 35 AND 44 THEN '35 a 44'
        WHEN idade BETWEEN 45 AND 54 THEN '45 a 54'
        WHEN idade BETWEEN 55 AND 64 THEN '55 a 64'
        ELSE 'Mais de 65'
    END AS faixa_idade,
    COUNT(*) AS qtd_clientes, 
    AVG(limite_credito) AS media_limite,
    MAX(limite_credito) AS maior_limite,
    MIN(limite_credito) AS menor_limite
FROM credito
GROUP BY CASE 
        WHEN idade < 25 THEN 'Menos de 25'
        WHEN idade BETWEEN 25 AND 34 THEN '25 a 34'
        WHEN idade BETWEEN 35 AND 44 THEN '35 a 44'
        WHEN idade BETWEEN 45 AND 54 THEN '45 a 54'
        WHEN idade BETWEEN 55 AND 64 THEN '55 a 64'
        ELSE 'Mais de 65'
    END
ORDER BY faixa_idade;
```

![Idade por limite de crédito](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/limite_por_idade.png?raw=true)
> Os jovens adultos (25 a 34 anos) possuem o segundo menor número de clientes e um limite relativamente baixo, possivelmente têm menor histórico de crédito.

>A faixa de 34 a 44 anos apresenta o maior número de clientes e um limite alto, próximo ao pico, com o valor de 9371.36.

>A faixa etaria com maior limite de crédio é de 45 a 54 anos com o valor de 10810.59, provavelmente no no auge da estabilidade financeira e com maior histórico de crédito.

>A faixa dos 55 aos 64 possui limite superior aos jovens adultos e aos maiores de 65 anos, no valor de 7653.48, ficando abaixo tanto em quantidade quanto em valor de limite das duas faixas mais jovens a esta.

>A com menor limite são aqueles com mais de 65 anos com o valor de 5771.23, também se apresentam em menor quantidade no banco de dados.  

Portanto, sim, a idade gera impacto sobre o limite de crédito concedido, sendo os clientes de 35 a 54 anos os que mais confiam no crédito e provavelmente gerem mais receita.

**O salário anual impacta no limite de crédito?**

```sql
SELECT 
    salario_anual,
    sexo,
    AVG(limite_credito) AS media_limite,
    COUNT(*) AS qtd_clientes,
    AVG(idade) AS media_idade
FROM credito
WHERE salario_anual != 'na'
GROUP BY salario_anual, sexo
ORDER BY media_limite DESC;
```

![Salário por limite de crédito](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/limite_por_salario.png?raw=true)

<img src="https://raw.githubusercontent.com/nobrevitor/EBAC/refs/heads/main/SQL%20para%20analise%20de%20dados/Querys/limite_medio.jpeg" alt="Descrição" width="1130"/>

> O salário anual é o que tem o maior impacto no limite de crédito. A partir do gráfico acima para facilitar a visualização, vemos que homens com renda média acima de $120k apresentam o maior limite médio: $17081.49. Em seguida vemos novamente homens com renda entre $80k e $120k, com limite médio de $14886.56. Já os clientes com salário abaixo de $40k apresentam os menores limites, sendo de $3452.40 para homens e $4212.20 para mulheres.