# **Exploração e Análise de Dados com SQL**

## Os dados:
Nossa base de dados apresenta informações de clientes de um banco e contam com as seguintes informações:


| Variável                | Descrição                                           | Tipo         |
| ----------------------- |:---------------------------------------------------:| ------:|
| dependentes             |  Quantidade de dependentes do cliente               | int64|
| salario_anual           |  Faixa salarial do cliente                          | object|
| sexo                    |  Gênero (F ou M)                                    | object|
| tipo_cartao             |  Tipo de cartão do cliente                          | object|
| qtd_produtos            |  Quantidade de produtos comprados nos últimos 12 meses | bigint|
| iteracoes_12m           |  Quantidade de iterações/transações nos últimos 12 meses         | int64|
| meses_inativo_12m          |  Quantidade de meses que o cliente ficou inativo  | int64|
| limite_credito          |  Limite de crédito do cliente                   | float|
| valor_transacoes_12m            |  Valor das transações dos últimos 12 meses               | float|
| qtd_transacoes_12m         |  Quantidade de transações dos últimos 12 meses                                 | int64|
| idade                   |  Idade                                              | int64|
| escolaridade         |  Nível de escolaridade do clientes                     | object|
| estado civil         |  Estado civil do cliente                     | object|


A tabela foi criada no **AWS Athena** junto com o **S3 Bucket** com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

## Exploração dos Dados
Nesse primeiro momento, com os dados, precisaremos entendê-los. Quais informações estão disponíveis?

**Distribuição dos dados**

![distribuição dos dados](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/dados.png?raw=true)
> Um exemplar de 10 linhas dos dados disponíveis.

**Quantidade de linhas na base de dados**

Query: SELECT count(*) FROM credito
> Possuimos 2564 linhas para trabalhar.

**OBS.:** A base de dados citado acima contém mais linhas do que a seleção utilizada. As informações foram reduzidas com o objetivo que evitar custos com a AWS Athena.

**Níveis de escolaridade**

**Query** SELECT DISTINCT escolaridade FROM credito

![Tipos de escolaridade](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/escolaridade.png?raw=true)
> Os dados apresentam diversos níveis de escolaridade e é possível notar que há valores nulos (na) que precisarão ser tratados.

**Estado_civil**

**Query:** SELECT DISTINCT estado_civil  FROM credito

![Tipos de estado civil](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/estado_civil.png?raw=true)
> Mais valores nulos encontrados.

**Salario_anual**

**Query:** SELECT DISTINCT salario_anual  FROM credito

![Tipos de salario anual](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/salario_anual.png?raw=true)
> É possível observar que os salários estão distribuídos em faixas e que apresentam dados nulos.

**tipo_cartao**

**Query:** SELECT DISTINCT tipo_cartao  FROM credito

![Tipos de cartão](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/cartao.png?raw=true)

> Dados distribuídos entre os níveis de cartão de crédito. Não há necessidade de tratamento.

## **Análise de dados**

Após compreender as informações disponíveis, chegou a hora de realizar análises para extrair insights menos perceptíveis. Para isso, precisaremos de perguntas para responder:

- **Qual a faixa salarial dos clientes?**

**Query:** SELECT count(*), salario_anual FROM credito GROUP BY salario_anual

![Quantidade para cada faixa salarial](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/faixa_salarial.png?raw=true)

![grafico faixa salarial](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/grafico_faixa_salarial.png?raw=true)
> Grande parte dos clientes da base de dados possuem renda anual menor que 40K (quarenta mil) e 235 não possuem essa informação.
> Dedicar esforços para o público de menor renda pode ser uma boa opção para a empresa.

- **Como está a distribuição entre clientes homens e mulheres?**

**Query:** SELECT count(*), sexo FROM credito GROUP BY sexo

![Quantidade para cada sexo](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/faixa_sexo.png?raw=true)

![Quantidade para cada sexo - gráfico](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/qtde_por_sexo.png?raw=true)

> Clientes do sexo masculino estão com maior presença neste banco de dados.

- **Qual a faixa etária dos clientes para uma possível ação de marketing?**

**Query:** SELECT avg(idade) AS media_idade, min(idade) AS min_idade, max(idade) AS max_idade, sexo FROM credito GROUP BY sexo
![Média de idades por sexo](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/idade_sexopng.png?raw=true)

> O intervalo da faixa etária dos clientes é bastante amplo, partindo dos 26 anos até 67 para as mulheres e 73 para homens.
Já a média está em aproximadamente 46 anos para ambos, evidenciando um público maduro. Uma ação de marketing focada nessa faixa etária pode atingir uma quantidade satisfatória de pessoas.

- **Qual a maior e menor transação dos clientes?**

**Query:** SELECT min(valor_transacoes_12m) AS transacao_minima, max(valor_transacoes_12m) AS transacao_minima FROM credito
![transacoes](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/transacoes.png?raw=true)

> As transações em 12 meses variam de 510.16 a 4776.58.

- **Como a idade se relaciona com a média de transações anuais?**

**Query:** SELECT avg(valor_transacoes_12m) AS media_transacoes_12m, idade FROM credito GROUP BY "idade" LIMIT 10
![mediaXidade](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/media%20x%20idade.png?raw=true)

![grafico_mediaXidade](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/media%20transacoes%20x%20idade.png?raw=true)

> Uma característica notável nessa iteração de  dados é que a média de transações anuais sofre queda com o aumento da idade do cliente. Seria interessante investigar a causa disso, pois pode ser reflexo de algum ponto não explorado ou deficiência do banco.

- **Quais as características dos clientes que possuem os maiores creditos?**

**Query:** 
SELECT max(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo 
FROM credito
WHERE escolaridade != 'na' AND tipo_cartao != 'na' 
GROUP BY  escolaridade, tipo_cartao, sexo 
ORDER BY limite_credito desc
limit 10

![Valor limite](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/limite_desc.png?raw=true)

> A escolaridade não aparenta ser um fator de grande importância na distribuição dos maiores limites de crédito, pois estes variam de pessoas sem escolaridade formal até com doutorado. 

> O tipo de cartão não está distribuído de forma adequada, é uma boa ideia buscar esses clientes e oferecer cartões com mais benefícios.

> A distribuição entre os sexos também merece atenção, pois pessoas do sexo feminino representam apenas 20% entre os maiores limites. É importante investigar a causa disso.

- **Quais as características dos clientes que possuem os menores creditos?**

**Query:** 
SELECT min(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo 
FROM credito
WHERE escolaridade != 'na' AND tipo_cartao != 'na' 
GROUP BY  escolaridade, tipo_cartao, sexo 
ORDER BY limite_credito asc


![menores_limites](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/menores%20limites.png?raw=true)

>  Analisando os menores limites de crédito, é possível observar unanimidade da presença dos cartões blue.

> A coluna de escolaridade está bem distribuída entre seus diferentes níveis.

> A distribuição entre os sexos então em uma proporção de 50% para ambos.

- **Qual dos sexos apresentam maiores gastos?**

**Query:** 
SELECT max(valor_transacoes_12m) AS maior_valor_gasto, avg(valor_transacoes_12m) AS  media_valor_gasto, min(valor_transacoes_12m) AS min_valor_gasto, sexo 
FROM credito
GROUP BY sexo 


![Valor transacoes/sexo](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/quemgastamais.png?raw=true)

> Apesar da diferença nos limites, os gastos de homens e mulheres são bastante próximos.

- **Qual o impacto dos salários na distribuição dos limites?**

**Query:** SELECT avg(qtd_produtos) AS qts_produtos, avg(valor_transacoes_12m) AS media_valor_transacoes, avg(limite_credito) AS media_limite,  sexo,   salario_anual FROM credito 
WHERE salario_anual != 'na'
GROUP BY sexo, salario_anual
ORDER BY avg(valor_transacoes_12m) DESC

![Valor salario_anualLimite](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/salarioAnualMediaLimite.png?raw=true)

> O nível salarial está diretamente relacionado com o valor do limite, em que os menores salários apresentam a menor média de limite de crédito.

- **Quais características estão relacionadas com a maior inatividade anual?**

**Query:** SELECT avg("meses_inativo_12m") AS media_inatividade_anual, "escolaridade"
FROM credito
GROUP BY "escolaridade"
ORDER BY media_inatividade_anual

![inatividadeXescolaridade](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/inatividade%20x%20escolaridade.png?raw=true)

**Query** SELECT avg("meses_inativo_12m") AS media_inatividade_anual, "salario_anual"
FROM credito
GROUP BY "salario_anual"

![inatividadeXsalario](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/inatividade%20x%20salario.png?raw=true)

**Query** SELECT avg("meses_inativo_12m") AS media_inatividade_anual, "estado_civil"
FROM credito
GROUP BY "estado_civil"

![InatividadeXestado_civil](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/inatividade%20x%20estado%20civil.png?raw=true)

**Query** SELECT avg("meses_inativo_12m") AS media_inatividade_anual, "tipo_cartao" FROM credito GROUP BY "tipo_cartao"

![InatividadeXtipo_cartao](https://github.com/tauanjsn/SQL-Project/blob/main/imagens/inatividade%20x%20tipo_cartao.png?raw=true)

> Apenas na comparação do tipo de cartão que foi possível fazer uma correlação com a inatividade anual. Os dados indicam que os cartões mais simples costumam apresentar maior tempo de inatividade.




# Conclusão

Após a análise aprofundada dos dados fornecidos, foi possível extrair alguns insights.

São eles:

- A maioria dos clientes, cerca de 27%, possuem renda de até 40K;
- A base de clientes é constituída, em sua maioria, por homens; 
- O banco possui um público com intervalo de idade bastante amplo, variando dos 26 até os 73 anos e com média de 46 para ambos os sexos;
- Há um grande intervalo na variação de transações anuais entre os clientes;
- A média de transações anuais vai caindo com o aumento da idade dos clientes;
- O nível de escolaridade não parece influenciar na distribuição dos limites de crédito;
- Alguns clientes com os maiores limites de crédito possuem cartões com poucos benefícios;
- No ranking dos maiores limites de crédito, os homens representam 80% e mulheres apenas 20%; 
- Dentre os menores limites há uma melhor distribuição entre sexos;
- Dentre os menores limites existem apenas cartões blue;
- Os sexos não influenciam os valores gastos anualmente;
- A faixa salarial impacta diretamente no limite de crédito;
- Não existem clientes com salário anual acima de 60K do sexo feminino;
- Cartões de crédito de menor nível apresentam maior índice de inatividade anual.