<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# SQL para Análise de Dados | Projeto Final

Professor: [Mariane Neiva](https://www.linkedin.com/in/mariane-neiva/)<br>
Aluna: [Luciana Gonzaga](https://www.linkedin.com/in/lucianagonzaga/)

---


## Exploração e análise de dados de crédito com SQL

*Esse notebook faz parte do curso SQL para análise de dados da EBAC.*

---

### Dicionário de dados:

Os dados representam informações de clientes de um banco e contam com as seguintes colunas:<br><br>


| **Variável**            | **Descrição**                                       
| ----------------------- |:---------------------------------------------------:
|idade                    | idade do cliente
|sexo                     | sexo do cliente (F ou M)
|dependentes              | número de dependentes do cliente
|escolaridade             | nível de escolaridade do clientes
|salario_anual            | faixa salarial do cliente
|tipo_cartao              | tipo de cartao do cliente
|qtd_produtos             | quantidade de produtos comprados nos últimos 12 meses
|iteracoes_12m            | quantidade de iterações/transacoes nos ultimos 12 meses
|meses_inativo_12m        | quantidade de meses que o cliente ficou inativo
|limite_credito           | limite de credito do cliente
|valor_transacoes_12m     | valor das transações dos ultimos 12 meses
|qtd_transacoes_12m       | quantidade de transacoes dos ultimos 12 meses

<br>A tabela utilizada neste projeto foi criada no **SQLite Studio** com uma versão reduzida dos dados disponibilizados em:
<br>https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

**ps.:** A base de dados do link acima contém mais linhas do que a seleção utilizada. Você pode utilizar todas as linhas ou considerar apenas uma fração dos dados. Na prática, quanto maior a quantidade de dados utilizada, mais confiável a análise! Mas existem limites computacionais e financeiros na qual a redução de dados para análise para fins de estudo se torna interessante.

### 1. Exploração dos dados:

Nesta primeira fase da análise iremos explorar os dados para entender o que tem na nossa matéria prima.

**Qual a quantidade de informações que tem na base de dados?**

*Query:*
```Sql
SELECT count(*) as 'Qtd de linhas' FROM credito
```

![linhas](imagens/qtd_linhas.png)

> A base de dados utilizada possui 2564 linhas.

**Como são os dados?**

*Query:*
```Sql
SELECT * FROM credito LIMIT 10;
```

![10 primeiras linhas](imagens/10_primeiras_linhas.png)

> Mesmo mostrando apenas as 10 primeiras linhas da tebela, é possível reparar que existem algumas informações nulas (valor ```na```), vamos olhar mais de perto para os valores de cada coluna!

**Quais os tipos de cada dado?**

*Query:*
```sql
PRAGMA table_info(credito);
```

![tipo dos dados](imagens/tipo_dados.png)

> Os valores nulos (```na```) observados anteriormente não foram caracterizados como valores ```NULL```, pois foram considerados como uma string válida para a coluna apesar de não ser uma informação útil para a análise.

Vamos olhar individualmente para as varíaveis que não são numéricas e entender esses valores:

**Escolaridade:**

*Query:*
```sql
SELECT DISTINCT escolaridade FROM credito
```

![escolaridade](imagens/escolaridade.png)

> Os dados contam com vários níveis de escolaridade e é possível perceber que temos valores nulos (```na```) no dataset, trataremos isso mais tarde!

Será que temos mais valores nulos?

**Estado civil:**

*Query:*
```sql
SELECT DISTINCT estado_civil FROM credito
```

![estado civil](imagens/estado_civil.png)

> Novamente encontramos valores nulos nos dados de estado civil!

**Salário anual:**

*Query:*
```sql
SELECT DISTINCT salario_anual FROM credito
```

![salario anual](imagens/salario_anual.png)

> Nesse dataset não é informado o valor exato que o cliente ganha e, sim, a faixa salarial de cada um.<br>
>Também contem dados nulos.

**Tipos de cartão:**

*Query:*
```sql
SELECT DISTINCT tipo_cartao FROM credito
```

![tipo cartao](imagens/tipo_cartao.png)

> Esta variável não apresenta valores nulos.

---

### 2. Análise de dados

Após a etapa exploratória dos dados e o entendimento de quais são as informações contidas no dataset, analisaremos essas informações para que possamos entender o que está acontecendo e as possíveis relações entre as variáveis.<br>
Vamos fazer perguntas:

**Quantos clientes temos de cada faixa salarial?**

*Query:*
```sql
SELECT count(*), salario_anual FROM credito GROUP BY salario_anual
```

![qtd por faixa salarial](imagens/qtd_por_faixa_salarial.png)

> A faixa salarial que apresenta maior número de clientes é de salário anual menor que 40k e existem 235 clientes que não informaram ou não consta a faixa salarial.<br>
De certa forma, pode ser interessante para a empresa focar nesse público de mais baixa renda.

**Quantos clientes são homens e quantos são mulheres?**

*Query:*
```sql
SELECT count(*), sexo FROM credito GROUP BY sexo
```

![qtd por sexo](imagens/qtd_por_sexo.png)<br>

![% sexo grafico](imagens/%_sexo_grafico.png)

> A maioria dos clientes desse banco é do sexo masculino!<br>
Do csv extraído dos dados é possível gerar o gráfico em pizza para comparar melhor a proporção de masculino/feminino.

**Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?**

*Query:*
```sql
SELECT avg(idade) AS media_idade, min(idade) AS min_idade, max(idade) AS max_idade, sexo FROM credito GROUP BY sexo
```

![media idade](imagens/media_idade.png)

> A menor idade dos dois sexos é a mesma e a média é muito similar. Já as idades máximas possuem uma diferença mas nada muito significativo.<br>
>> Assim, não foi possível extrair nenhuma informação relevante desta análise.

**Qual a maior e menor transação dos clientes?**

*Query:*
```sql
SELECT min(valor_transacoes_12m) AS transacao_minima, max(valor_transacoes_12m) AS transacao_minima FROM credito
```

![transações máx e mín](imagens/transacao_max_min.png)

> A soma de transações em 12 meses variam de 510.16 a 5776.58

**Quais as características dos clientes que possuem os maiores creditos?**

*Query:*
```sql
SELECT max(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo FROM credito
WHERE escolaridade != 'na' AND tipo_cartao != 'na'
GROUP BY escolaridade, tipo_cartao, sexo
ORDER BY limite_credito DESC LIMIT 10
```

![clientes maiores créditos](imagens/clientes_maiores_creditos.png)

> Dentre os maiores limites, encontramos clientes que possuem todos os tipos de cartões (gold, silver, platinum e blue).<br>
O cliente que posssui o limite mais alto não possui educação formal.<br>
Dentre os 10 limites mais altos, há apenas 2 clientes do sexo feminino.<br>
>> Não parece haver um impacto direto entre o grau de escolaridade e o tipo do cartão no limite oferecido.


**E dos clientes que possuem os menores creditos?**

*Query:*
```sql
SELECT max(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo FROM credito
WHERE escolaridade != 'na' AND tipo_cartao != 'na'
GROUP BY escolaridade, tipo_cartao, sexo
ORDER BY limite_credito ASC LIMIT 10
```

![clientes menores créditos](imagens/clientes_menores_creditos.png)

> Não há clientes com cartão platinum dentre os menores limites.<br>
Ao contrário do anterior, a grande maioria dos clientes com os menores limites são do sexo feminino.

**Qual o limite de crédito médio entre os tipos de escolaridade?**

*Query:*
```sql
SELECT avg(limite_credito) AS limite_credito_medio, escolaridade FROM credito
WHERE escolaridade != 'na'
GROUP BY escolaridade
ORDER BY limite_credito_medio DESC 
```

![limite x escolaridade](imagens/limite_escolaridade.png)

> Percebemos que as médias são bem próximas e os valores também não aumentam seguindo a ordem de escolaridade.
>> Podemos concluir que realmente não há um impacto direto do grau de escolaridade no limite de credito oferecido.

**E o limite de crédito médio entre os tipos de cartão?**

*Query:*
```sql
SELECT avg(limite_credito) AS limite_credito_medio, tipo_cartao FROM credito
WHERE tipo_cartao != 'na'
GROUP BY tipo_cartao
ORDER BY limite_credito_medio DESC 
```

![limite x tipo do cartão](imagens/limite_tipo_cartao.png)

> Já, olhando para as médias por tipo de cartão, percebemos que há, sim, uma diferença de limite entre eles que cresce conforme a categoria do cartão.

**Será que as mulheres gastam mais?**

*Query:*
```sql
SELECT max(valor_transacoes_12m) AS maior_valor_gasto,
avg(valor_transacoes_12m) AS media_valor_gasto,
min(valor_transacoes_12m) AS min_valor_gasto, sexo FROM credito GROUP BY sexo
```

![gasta mais](imagens/gasta_mais.png)

> Apesar da diferença nos limites, os gastos de homens e mulheres são similares!

**Quem gasta mais, os mais novos ou os mais velhos?**

*Query: (clientes mais velhos)*
```sql
SELECT avg(valor_transacoes_12m) AS gasto_medio_mais_velhos FROM credito
WHERE valor_transacoes_12m IN
(SELECT valor_transacoes_12m FROM credito
ORDER BY idade DESC LIMIT 10);
```

![gasto médio mais velhos](imagens/gasto_medio_mais_velhos.png)

*Query: (clientes mais jovens)*
```sql
SELECT avg(valor_transacoes_12m) AS gasto_medio_mais_jovens FROM credito
WHERE valor_transacoes_12m IN
(SELECT valor_transacoes_12m FROM credito
ORDER BY idade ASC LIMIT 10);
```

![gasto médio mais velhos](imagens/gasto_medio_mais_velhos.png)

> Os clientes mais jovens tendem a gastarem mais em coparação com os clientes mais velhos.


Por fim,

**O salário impacta no limite?**

*Query:*
```sql
SELECT avg(qtd_produtos) AS qts_produtos,
avg(valor_transacoes_12m) AS media_valor_transacoes,
avg(limite_credito) AS media_limite, sexo, salario_anual FROM credito
WHERE salario_anual != 'na'
GROUP BY sexo, salario_anual
ORDER BY avg(valor_transacoes_12m) DESC
```

![salário x limite](imagens/salario_limite.png)

> Sim! As pessoas que tem menor faixa salarial também apresentam menor limite de credito!<br>
Da mesma forma, os clientes com maior faixa salarial possuem maior limite de crédito.<br>
>> Contudo clientes com faixas salariais menores tentem a ter o valor médio de transação maior.

### 3. Conclusão

Essas foram algumas análises extraídas do dataset de crédito.

Alguns insights interessantes:

> - A faixa salarial com maior número de clientes é abaixo de 40K.
> - A maior parte dos clientes é do sexo masculino.
> - O grau de escolaridade não influencia diretamente no limite de crédito.
> - Em média, o tipo de cartão impacta no limite oferecido que aumenta conforme a categoria do cartão.
> - Os clientes com maiores limites são em sua maioria do sexo masculino.
> - Os clientes com menores limites são em sua maioria do sexo feminino.
> - Dentre os menores limites não há presença de cartão platinum.
> - Homens e mulheres tem média de gastos similares
> - Clientes mais jovens possuem média de gastos maior que os mais velhos.
> - A faixa salarial impacta diretamente no limite de crédito.
> - Não existem clientes com salário anual acima de 60K do sexo feminino.
>> Uma exploração maior dos dados pode explicar porque as mulheres tem menor crédito.<br>
Isso também pode ser um problema cultural que pode ser repensado!