# *Exploração e análise de dados de crédito com SQL*

## Os dados: 

Os dados representam as informações de clientes em um banco e contém as seguintes colunas:

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m  = quantidade de transacoes dos ultimos 12 meses

## *Exploração dos dados:*

Para realizar a análise de forma que seja possível extrair informações úteis e relevantes dos dados é necessário o entendimento da nossa matéria prima. Vamos a exploração de dados: 

**Qual a quantidade de informações que temos na nossa base de dados?**

Query: 
```sql 
SELECT count(*) FROM credito;
```

![Contagem das linhas da base de dados](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/count.png?raw=true)
>Temos 2564 linhas

**Como são os dados?**

Query: 
```sql
SELECT * FROM credito LIMIT 10;
```
![Dez primeiras linhas da base de dados](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/limit10.png?raw=true)
> Há algumas colunas com valores nulos (na), vamos analisar cada coluna para entender melhor! 

**Quais os tipos de cada dado?**

Query: DESCRIBE credito;

![Tipos de dados que compõem cada coluna](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/describe.png?raw=true)
> Temos dados do tipo numérico: ``int``, ``bigint`` e ``float``, e dados não numérico: ``string``.

Vamos observar mais atentamente as variáveis do tipo ``string``.

**Quais os tipos de sexo no Dataset?**

Query: SELECT DISTINCT sexo FROM credito;

![Tipo de sexo](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/distinct_sexo.png?raw=true)
> Podemos ver que há somente dois valores, com nenhum deles sendo valores nulos (na).

**Quais os tipos de escolaridade no Dataset?**

Query: SELECT DISTINCT escolaridade FROM credito;

![Tipo de escolaridade](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/distinct_escolaridade.png?raw=true)
> Os dados apresentam diferentes classes de escolaridade, também nota-se que há valores nulos (na) na coluna.

**Quais os tipos de estado_civil no Dataset?**

Query: SELECT DISTINCT estado_civil FROM credito;

![Tipo de estado civil](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/distinct_estado_civil.png?raw=true)
> Novamente encontramos valores nulos na coluna ``estado_civil``.

**Quais os tipos de salario_anual no Dataset?**

Query: SELECT DISTINCT salario_anual FROM credito;

![Tipo de salário anual](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/distinct_salario_anual.png?raw=true)
> Os salários nesse Dataset são organizados por faixas salariais, não com o valor exato que o cliente recebe. Por isso a variável é uma ``string``. Também apresenta valores nulos (na).

**Quais os tipos de cartão no Dataset?**

Query: SELECT DISTINCT tipo_cartao FROM credito;

![Tipo de cartão](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/distinct_tipo_cartao.png?raw=true)
> Não apresenta nenhum valor nulo (na).

**Qual a quantidade de linhas com valores nulos para cada uma dessas colunas?**

Query: 
```sql 
SELECT 
    COUNT(*) AS total_linhas, 
    COUNT_IF(sexo IS NULL OR sexo='na') AS sexo_null,
    COUNT_IF(escolaridade IS NULL OR escolaridade='na') AS escolaridade_null,
    COUNT_IF(estado_civil IS NULL OR estado_civil='na') AS estado_civil_null,
    COUNT_IF(salario_anual IS NULL OR salario_anual='na') AS salario_anual_null,
    COUNT_IF(tipo_cartao IS NULL OR tipo_cartao='na') AS tipo_cartao_null
FROM credito;
```

![Quantidade de valores nulos](https://github.com/nobrevitor/EBAC/blob/main/SQL%20para%20analise%20de%20dados/Querys/null_string.png?raw=true)
