# Análise de dados de crédito com SQL

## Entendimento dos dados

- Os dados representam informações de clientes de um banco.

A tabela foi criada no **AWS Athena** junto com o **S3 Bucket** com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

| Colunas                | Tipo de dado    |
|-----------------------:|:----------------|
| idade                  | tinyint         |
| sexo                   | char(1)         |
| dependentes            | tinyint         |
| escolaridade           | varchar(30)     |
| estado_civil           | varchar(30)     |
| salario_anual          | varchat(30)     |
| tipo_cartao            | varchar(30)     |
| qtd_produtos           | tinyint         |
| iteracoes_12m          | smallint        |
| meses_inativo_12m      | smallint        |
| limite_credito         | float           |
| valor_transacoes_12m   | float           |
| qtd_transacoes_12m     | smallint        |

## Análise exploratória

- **Qual a quantidade de informações temos na nossa base de dados?**

**Query**:

> SELECT COUNT(*) as "count" FROM credit

**Resultado**:

![Contagem](https://github.com/dannydays/EBAC_SQL/blob/main/img/contagem.png?raw=true)

- **Como são os dados?**

**Query**:

> SELECT * FROM credit LIMIT 5;

**Resultado**:

![head(5)](https://github.com/dannydays/EBAC_SQL/blob/main/img/head_5.png?raw=true)

- **Quais os tipos de cada dado?**

**Query**:

> DESCRIBE credit

**Resultado**:

![describe](https://github.com/dannydays/EBAC_SQL/blob/main/img/DESCRIBE.png?raw=true)

- **Quais são os tipos das variáveis categóricas?**

    - **escolaridade:**

        **Query**:
        
        > SELECT DISTINCT escolaridade FROM credit;
        
        **Resultado**:

        ![distinct escolaridade](https://github.com/dannydays/EBAC_SQL/blob/main/img/escolaridade.png?raw=true)

    - **estado_civil:**

        **Query**:
        
        > SELECT DISTINCT estado_civil FROM credit;
        
        **Resultado**:

        ![distinct escolaridade](https://github.com/dannydays/EBAC_SQL/blob/main/img/estado_civil.png?raw=true)

    - **salario_anual:**

        **Query**:
        
        > SELECT DISTINCT salario_anual FROM credit;
        
        **Resultado**:

        ![distinct escolaridade](https://github.com/dannydays/EBAC_SQL/blob/main/img/salario_anual.PNG?raw=true)

    - **tipo_cartao:**

        **Query**:
        
        > SELECT DISTINCT tipo_cartao FROM credit;
        
        **Resultado**:
        
        ![distinct escolaridade](https://github.com/dannydays/EBAC_SQL/blob/main/img/tipo_cartao.png?raw=true)

## Análise de dados

- **Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

**Query**:

>```
SELECT COUNT(salario_anual) as contagem, salario_anual
FROM credit
WHERE salario_anual != 'na'
GROUP BY salario_anual;
>```

**Resultado**:

![](https://github.com/dannydays/EBAC_SQL/blob/main/img/contagem_salario_anual.png?raw=true)

- **Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**

**Query**:

>```
SELECT COUNT(sexo) as contagem, sexo
FROM credit
GROUP BY sexo;
>```

**Resultado**:

![](https://github.com/dannydays/EBAC_SQL/blob/main/img/contagem_sexo.png?raw=true)

- **Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?**

**Query**:

>```
SELECT MIN(idade) as min_idade, AVG(idade) as media_idade, MAX(idade) as max_idade, sexo
FROM credit
GROUP BY sexo;
>```

**Resultado**:

![](https://github.com/dannydays/EBAC_SQL/blob/main/img/analise_idade_sexo.png?raw=true)

- **Qual a quantidade de clientes por faixa etária?**

**Query**:

>```
SELECT
    COUNT(faixa_etaria) AS contagem, faixa_etaria
FROM (
    SELECT
        CASE
            WHEN idade BETWEEN 26 AND 34 THEN '26-34'
            WHEN idade BETWEEN 35 AND 40 THEN '35-40'
            WHEN idade BETWEEN 41 AND 49 THEN '41-49'
            WHEN idade BETWEEN 50 AND 54 THEN '50-54'
            WHEN idade >= 55 THEN '55+'
            ELSE 'Indefinido'
        END AS faixa_etaria
    FROM credit
) AS subconsulta
GROUP BY faixa_etaria
ORDER BY contagem DESC;
>```

**Resultado**:

![Contagem Faixa Etária](https://github.com/dannydays/EBAC_SQL/blob/main/img/contagem_faixa_etaria.png?raw=true)

- **Qual a maior e menor transação dos clientes?**

**Query**:

>```
SELECT MIN(valor_transacoes_12m) AS min, AVG(valor_transacoes_12m) AS media, MAX(valor_transacoes_12m) AS max
from credit;
>```

**Resultado**:

![](https://github.com/dannydays/EBAC_SQL/blob/main/img/analise_valor_transacoes_12m.png?raw=true)

- **Quais as características dos clientes que possuem os maiores creditos?**

**Query**:
>```
SELECT MAX(limite_credito) AS limite_credito, escolaridade, estado_civil, tipo_cartao, sexo
FROM credit
WHERE escolaridade != 'na' AND tipo_cartao != 'na' AND estado_civil != 'na'
GROUP BY  escolaridade, estado_civil, tipo_cartao, sexo
ORDER BY limite_credito DESC
LIMIT 10
>```

**Resultado**:

![](https://github.com/dannydays/EBAC_SQL/blob/main/img/analise_maiores_creditos.png?raw=true)

- **Quais as características dos clientes que possuem os menores creditos?**

**Query**:

>```
SELECT MAX(limite_credito) AS limite_credito, escolaridade, estado_civil, tipo_cartao, sexo
FROM credit
WHERE escolaridade != 'na' AND tipo_cartao != 'na' AND estado_civil != 'na'
GROUP BY  escolaridade, estado_civil, tipo_cartao, sexo
ORDER BY limite_credito ASC
LIMIT 10
>```

**Resultado**:

![](https://github.com/dannydays/EBAC_SQL/blob/main/img/analise_menores_creditos.png?raw=true)

- **Qual sexo gasta mais?**

**Query**:

>```
SELECT MIN(valor_transacoes_12m) AS min_valor_gasto, AVG(valor_transacoes_12m) AS media_valor_gasto, MAX(valor_transacoes_12m) AS maior_valor_gasto, sexo
FROM credit
GROUP BY sexo
>```

**Resultado**:

![](https://github.com/dannydays/EBAC_SQL/blob/main/img/gasto_por_sexo.png?raw=true)

- **Existe diferença de idade no limite de crédito e no salário?**

**Query**:

>```
SELECT
    faixa_etaria,
    AVG(valor_transacoes_12m) AS media_salario,
    AVG(limite_credito) AS media_limite_credito
FROM (
    SELECT
        CASE
            WHEN idade BETWEEN 26 AND 34 THEN '26-34'
            WHEN idade BETWEEN 35 AND 40 THEN '35-40'
            WHEN idade BETWEEN 41 AND 49 THEN '41-49'
            WHEN idade BETWEEN 50 AND 54 THEN '50-54'
            WHEN idade >= 55 THEN '55+'
            ELSE 'Indefinido'
        END AS faixa_etaria,
        valor_transacoes_12m,
        limite_credito
    FROM credit
) AS subconsulta
GROUP BY faixa_etaria
ORDER BY faixa_etaria;
>```

**Resultado**:

![Salario e limite pela idade](https://github.com/dannydays/EBAC_SQL/blob/main/img/analise_credito_salario_idade.png?raw=true)

- **O salário impacta no limite?**

**Query**:

>```
SELECT AVG(valor_transacoes_12m) AS media_valor_transacoes, AVG(limite_credito) AS media_limite, salario_anual, sexo
FROM credit
WHERE salario_anual != 'na'
GROUP BY sexo, salario_anual
ORDER BY media_limite DESC;
>```

**Resultado**:

![](https://github.com/dannydays/EBAC_SQL/blob/main/img/analise_salario_limite_credito.png?raw=true)


# Conclusão

- Os clientes possuem idades variando entre 26 e 73 anos, com a maior parte da base concentrada nas faixas etárias acima de 40 anos, especialmente nos grupos de 41-49 e 55+.

- Curiosamente, os clientes mais jovens têm, em média, salários mais altos do que os mais velhos, mas apresentam limites de crédito menores. Isso pode indicar que, apesar de seus salários mais altos, os clientes mais jovens podem ter um histórico de crédito menos robusto, o que impacta seus limites de crédito.

- A análise revela uma disparidade significativa entre os sexos em relação ao limite de crédito e salário, com homens apresentando, em média, limites de crédito e salários mais altos do que as mulheres.

- Embora a amostra seja limitada, observa-se que as mulheres, apesar de possuírem escolaridade avançada, tendem a estar associadas a limites de crédito mais baixos. Por outro lado, homens, mesmo aqueles sem formação formal, frequentemente têm limites de crédito e salários mais altos, o que sugere que fatores além da escolaridade podem estar influenciando essas diferenças.
