# Análise de Dados em SQL
### Aluno: João Paulo Costa Leite

*Modulo 08 do Curso de SQL da EBAC*

# Descrição do Projeto
O projeto consiste em realizar a exploração e analise dos dados fazendo uso de SQL. A base de dados foi disponibilizada por uma instituição financeira e pode ser encontrada aqui: https://github.com/andre-marcos-perez/ebac-course-utils/blob/main/dataset/credito.csv

A base de dados do link acima contém mais dados que a seleção utilizada neste projeto, pois neste projeto foi feito o uso do AWS Athena e por isso existem limites computacionais e financeiros na qual a redução de dados para análise para fins de estudo se torna interessante.

### Os dados:
Os dados representam informações de clientes de um banco e contam com as seguintes colunas:


* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses

A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados com dito acima

# Exploração dos Dados
Para começar vamos explorar essa base de dados e entender o que temos em mãos e como podemos trabalh-los

**Visualização dos dados**

> **Query:** SELECT * FROM credito LIMIT 10;

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query1.png?raw=true)

**Qual a quantidade de informações?**

> **Query:** SELECT COUNT(*) FROM credito;
> 
> Resposta: 2564 linhas

A partir dessas duas Querys podemos visualizar os nossos dados e o tamanho total da base de dados, estamos trabalhando com 2564 linhas e já podemos ver que temos valores nulos(na) presentes nas nossas colunas.

Vamos dar uma olhada nos tipos dessas colunas para começarmos a entender esses dados.

**Quais os tipos de cada dado**

> **Query:** DESCRIBE credito;

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query%202.png?raw=true)


Muito bem, agora sabemos os tipos de cada coluna, vamos analisar quantos valores nulos(na) nós temos

**Contando os valores nulos por coluna**

>**Query:**
>
>SELECT
>
>COUNT(*) AS total_linhas,
>
>COUNT_IF(idade IS NULL) AS idade_nulos,
>
>COUNT_IF(sexo IS NULL OR sexo = 'na') AS sexo_nulos,
>
>COUNT_IF(dependentes IS NULL) AS dependentes_nulos,
>
>COUNT_IF(escolaridade IS NULL OR escolaridade = 'na') AS escolaridade_nulos,
>
>COUNT_IF(estado_civil IS NULL OR estado_civil = 'na') AS estado_civil_nulos,
>
>COUNT_IF(salario_anual IS NULL OR salario_anual = 'na') AS salario_anual_nulos,
>
>COUNT_IF(tipo_cartao IS NULL OR tipo_cartao = 'na') AS tipo_cartao_nulos,
>
>COUNT_IF(qtd_produtos IS NULL) AS qtd_produtos_nulos,
>
>COUNT_IF(iteracoes_12m IS NULL) AS iteracoes_12m_nulos,
>
>COUNT_IF(meses_inativo_12m IS NULL) AS meses_inativo_12m_nulos,
>
>COUNT_IF(limite_credito IS NULL) AS limite_credito_nulos,
>
>COUNT_IF(valor_transacoes_12m IS NULL) AS valor_transacoes_12m_nulos,
>
>COUNT_IF(qtd_transacoes_12m IS NULL) AS qtd_transacoes_12m_nulos
>
>FROM credito;

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query3.png?raw=true)

A partir dessa Query podemos ver que apenas 3 das 13 colunas da tabela tem dados faltantes, `'escolaridade'`, `'estado_civil'` e `'salario_anual'`, três variaveis categoricas, vamos olha-las mais de perto

**Quais os tipos de escolaridade disponíveis na base de dados?**

> **Query:** SELECT DISTINCT escolaridade FROM credito

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query4.png?raw=true)

Podemos ver que os dados trazem varios niveis de escolaridade e podemos ver a presença de dados nulos no meio do resultado, trataremos isso posteriormente

**Quais os tipos de estado_civil disponíveis na base de dados?**

> **Query:** SELECT DISTINCT estado_civil  FROM credito

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query5.png?raw=true)

Aqui temos os diferentes tipos de estado civil e também encontramos dados nulos

**Quais os tipos de salario_anual disponíveis na base de dados?**

> **Query:** SELECT DISTINCT salario_anual  FROM credito

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query6.png?raw=true)

Os salários nessa base de dados não estão expostas com o valor exato e sim com a faixa salarial de cada cliente. Também contem dados nulos. 

Vamos aproveitar e olhar a ultima variavel categorica que possuimos na tebela, a variavel `'tipo_cartao'`

**Quais os tipos de cartão disponíveis na base de dados?**

> **Query:** SELECT DISTINCT tipo_cartao  FROM credito

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query7.png?raw=true)

Aqui vemos que não há necessidade de tratar valores nulos.

## **Análise de dados**

Uma vez que exploramos o dados e buscamos entender quais são as informações que temos no nosso banco de dados, podemos analisar as informações para buscar entender o que está acontecendo no banco de dados. Para isso vamos simular algumas perguntas:

**Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

> **Query:** SELECT COUNT(*) AS quantidade, salario_anual FROM credito WHERE salario_anual != 'na' GROUP BY salario_anual

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query8.png?raw=true)

A maioria dos clientes dessa base de dados possui um renda menor que 40K e sabemos com base na exploração anterior que 235 clientes não informaram ou não consta a faixa salarial. 
De certa forma, pode ser interessante para a empresa focar nesse público de mais baixa renda.

**Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**

> **Query:** SELECT COUNT(*) AS Quantidade, sexo FROM credito GROUP BY sexo

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query9.png?raw=true)

![gráfico](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/grafico_qtd_por_sexo.jpg?raw=true)

A maioria dos clientes desse banco é homem! Do csv extraído dos dados é possível gerar o gráfico em pizza com para melhor a proporção de masculino/feminino

**Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?**

> **Query:** SELECT AVG(idade) AS media_idade, min(idade) AS min_idade, max(idade) AS max_idade, sexo FROM credito GROUP BY sexo

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query10.png?raw=true)

Por meio dessa análise não foi possível extrair nenhuma informação relevante.  A menor idade dos dois sexos é a mesma e a média é muito similar. A unica  diferença é a idade máxima mas fato quase irrelevante por a diferença não é tão gritante.

**Qual a maior e menor transação dos clientes?**

> **Query:** SELECT min(valor_transacoes_12m) AS transacao_minima, max(valor_transacoes_12m) AS transacao_minima FROM credito

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query11.png?raw=true)

Nesse banco de dados temos a soma de transações em 12 meses, sendo o menor valor um cliente com total de 510.16 e o maximo um cliente com um total de 5776.58 em transações nos ultimos 12 meses 

**Quais as características dos clientes que possuem os maiores creditos?**

> **Query:**
> 
>SELECT max(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo
>
>FROM credito
> 
>WHERE escolaridade != 'na' AND tipo_cartao != 'na'
> 
>GROUP BY  escolaridade, tipo_cartao, sexo
> 
>ORDER BY limite_credito DESC
> 
>LIMIT 10

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query12.png?raw=true)

Não parece haver um impacto da escolaridade no limite. O limite mais alto é oferecido para um homem sem educação formal. O cartão também parece não estar relacionado com a escolaridade nem com o limite. Dentre os maiores limites, encontramos clientes com cartão: gold, silver, platinum e blue

**Quais as características dos clientes que possuem os menores creditos?**

>**Query:**
>
>SELECT max(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo
>
>FROM credito
>
>WHERE escolaridade != 'na' AND tipo_cartao != 'na'
>
>GROUP BY  escolaridade, tipo_cartao, sexo
>
>GROUP BY limite_credito ASC
>
>LIMIT 10

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query13.png?raw=true)

Dessa vez conseguimos perceber que não há clientes com cartão platinum dentre os menores limites. Também foi possível perceber que a maioria dos menores limites são mulheres enquanto nos maiores limites predomina homens. 

**O salário impacta no limite?**
>**Query:**
>
>SELECT AVG(qtd_produtos) AS qts_produtos, AVG(valor_transacoes_12m) AS media_valor_transacoes, AVG(limite_credito) AS media_limite,  sexo,   salario_anual
>
>FROM credito
> 
>WHERE salario_anual != 'na'
>
>GROUP BY sexo, salario_anual
>
>ORDER BY AVG(valor_transacoes_12m) DESC

![](https://github.com/JoaoPauloCosta812/SQL-Projeto-EBAC/blob/main/Query14.png?raw=true)

Podemos ver que sim! As pessoas que tem menor faixa salarial também apresentam menor limite de credito!


# Conclusão

Essas foram **algumas** análises extraídas da base de dados de crédito.  

Alguns insights interessantes:

- A maior parte dos clientes possui renda até 40K 
- A maior parte dos clientes é masculino!
- A escolaridade não parece influenciar no limite nem no tipo do cartão
- Os clientes com maiores limites são em sua maioria homens 
- Os clientes com menores limites são em sua maioria mulheres
- Dentre os menores limites não há presença de cartão platinum
- A faixa salarial impacta diretamente no limite de crédito
- Nao existem clientes com salário anual acima de 60K do sexo feminino

A partir desses insights podemos melhorar a tomada de decisões da empresa, mas podemos continuar a analisar e estudar mais os dados e entender cada vez melhor as situações que estão acontecendo ou que podem vir a acontecer com os clientes e a empresa, sempre haverá espaço para a analise de dados!