**IMPORTANTE!**

A tabela foi criada no **AWS Athena** junto com o **S3 Bucket** com uma versão dos dados do dataset "credito.csv" disponibilizado em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

*A base de dados do link acima contém mais linhas do que a seleção utilizada. Na prática, quanto maior a quantidade de dados utilizada, mais confiável a análise! Neste caso houve redução para poder atender uma demanda de estudo.*


***

# **EXPLORAÇÃO E ANÁLISE DE DADOS COM SQL**

No início surgiu a dúvida: *Quais são os melhores clientes?*

Considerei "os melhores" aqueles com maior quantidade e valores de transações, menor tempo de inatividade, maiores iterações e que possuem maior salário. A estes é possível oferecer limite maior, melhores serviços, etc. Para isso encontrarei a média de cada item e usarei ela como base para o cliente entrar na categoria "dos melhores". Mas no item salário considerei os que recebem acima de 60K anual.


EXPLORAÇÃO:
<ul>
    <li> Quantidade de registros</li>
    <li> Como são os dados</li>
    <li> Quais tipos de dados</li>
    <li> Explorando as colunas</li>
</ul>


ANÁLISE:
<ul>
    <li> Transações (Maior, menor e a média)</li>
    <li> Inatividade e Iterações (Maior, menor e a média)</li>
    <li> Limite de Crédito (Maior, menor e a média)</li>
    <li> Salários (acima de 60K anual)</li>
    <li> Cliente 1, Cliente 2 e Cliente 3</li>
</ul>


CONCLUSÃO

***
## OS DADOS: 

Os dados representam informações de clientes de um banco e contam com as seguintes colunas: 

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m  = quantidade de transacoes dos ultimos 12 meses

***

## **EXPLORAÇÃO DOS DADOS**

**QUANTOS REGISTROS SERÃO TRATADOS?**

**Query:** SELECT COUNT(*) FROM credito;
> Reposta: 2564 linhas


**COMO SÃO OS DADOS** 

Query: SELECT * FROM credito LIMIT 10;
![Dez primeiras linhas do dataset](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/limit10.png)

> É possível reparar que existem algumas informações nulas na tabela (valor na), vamos olhar mais de perto para os valores de cada coluna! 

**OS TIPOS DE CADA DADO**

**Query:** DESCRIBE credito;

![Descrição dos tipos de dados](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/describe.png)


Agora que ja entendemos quais são os tipos de dados, vamos olhar mais atentamente para as varíaveis que não são numéricas.


**QUAIS SÃO AS OPÇÕES EM escolaridade?**

**Query:** SELECT DISTINCT escolaridade FROM credito;

![Tipos de escolaridade](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/escolaridade.png)

> Os dados contam com vários níveis de escolaridade e é possível perceber que temos valores nulos (na) no dataset.

Será que temos mais valores nulos?

**QUAIS SÃO AS OPÇÕES EM estado_civil?**

**Query:** SELECT DISTINCT estado_civil  FROM credito;

![Tipos de estado civil](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/estado-civil.png)

> Novamente encontramos valores nulos nos dados de estado civil!

**QUAIS SÃO AS OPÇÕES EM salario_anual?**

**Query:** SELECT DISTINCT salario_anual  FROM credito;

![Tipos de salario anual](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/salario-anual.png)

> Os salários nesse dataset não estão expostas com o valor exato que o cliente ganha. O que está informado é a faixa salarial de cada um. Também contem dados nulos. 


**QUAIS SÃO AS OPÇÕES EM tipo_cartao?**

**Query:** SELECT DISTINCT tipo_cartao FROM credito;

![Tipos de cartão](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/tipo-cartao.png)

> Aqui não há valores nulos.

***

## **ANÁLISE DE DADOS**

Uma vez que exploramos o dados e buscamos entender quais são as informações que temos no nosso banco de dados, podemos analisar as informações para buscar responder a pergunta inicial "Quais são os melhores clientes?".

Os requisitos são:
* maior quantidade e valores de transações
* menor tempo de inatividade
* maiores iterações
* salário acima de 60K anual

**Qual a maior e menor idade dos clientes?**

**Query:** SELECT MIN(idade) AS MENOR, MAX(idade) AS MAIOR FROM credito;

![Idade clientes](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/idade_clientes.png)

> Confirmando a integridade dos dados confirmando que nenhum cliente seja menor de idade


**TRANSAÇÕES: Valores**

**Query:** SELECT MIN(valor_transacoes_12m) AS MINIMA, MAX(valor_transacoes_12m) AS MAXIMA, AVG(valor_transacoes_12m) AS MEDIA FROM credito;

![Valores transacoes](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/transacoes_valores.png)

> Usarei a "Média" como base mas o parâmetro será 2000.00


**TRANSAÇÕES: Quantidade**

**Query** SELECT MIN(qtd_transacoes_12m) AS MINIMA, MAX(qtd_transacoes_12m) AS MAXIMA, AVG(qtd_transacoes_12m) AS MEDIA FROM credito;

![Quantidade transacoes](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/transacoes_quantidade.png)

>Usarei a "Média" como base mas o parâmetro será 50


**INATIVIDADE**

**Query** SELECT MIN(meses_inativo_12m) AS MINIMA, MAX(meses_inativo_12m) AS MAXIMA, AVG(meses_inativo_12m) AS MEDIA FROM credito;

![Quantidade transacoes](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/inatividade.png)

>Usarei a "Média" como base mas o parâmetro será 2


**ITERAÇÕES**

**Query** SELECT MIN(iteracoes_12m) AS MINIMA, MAX(iteracoes_12m) AS MAXIMA, AVG(iteracoes_12m) AS MEDIA FROM credito;

![Quantidade iterações](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/iteracoes.png)

>Usarei a "Média" como base mas o parâmetro será 3


**LIMITE DE CRÉDITO**

***Usarei a variàvel "limite_credito" como parâmetro para selecionar, dentre os melhores clientes, àqueles que tem baixo limite.***

**Query** SELECT MIN(limite_credito) AS MENOR, AVG(limite_credito) AS MEDIA, MAX(limite_credito) AS MAIOR FROM credito;

![Limite crédito](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/limite_credito.png)


***Os parâmetros acima serão sempre os mesmos. A variável salario_anual é uma string e por isso não será possível tratá-la usando BETWEEN. Criarei 3 views usando os parâmetros acima porém categorizando por "salario_anual". Assim serão criadas as views "cliente6080" (salário entre 60k e 80k), cliente80120" (salário entre 80k e 120k) e cliente120" (salário acima de 120k)***

---

**CRIANDO AS VIEWS**


### ***IMPORTANTE!</b> Toda variável salario_anual tem cifrão (&#36;) antes de 60k, 80k e 120k como mostrado acima, na exploração dos dados.***



**CLIENTE6080**

**Query** CREATE VIEW cliente6080 AS
(SELECT limite_credito, tipo_cartao FROM credito
WHERE (limite_credito < 9072.72)
AND (iteracoes_12m >= 3)
AND (valor_transacoes_12m >= 2000.00)
AND (qtd_transacoes_12m >= 50)
AND (meses_inativo_12m <= 2)
AND (salario_anual!='na')
AND (salario_anual='60K - 80K'));

View criada. Em seguida farei um select para mostrar os dados

**Query** SELECT * FROM "cliente6080" LIMIT 5;

![View cliente6080](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/cliente6080.png)


**CLIENTE80120**

**Query** CREATE VIEW cliente80120 AS
(SELECT limite_credito, tipo_cartao FROM credito
WHERE (limite_credito < 9072.72)
AND (iteracoes_12m >= 3)
AND (valor_transacoes_12m >= 2000.00)
AND (qtd_transacoes_12m >= 50)
AND (meses_inativo_12m <= 2)
AND (salario_anual!='na')
AND (salario_anual='80K - 120K'));

View criada. Em seguida farei um select para mostrar os dados

**Query** SELECT * FROM "cliente80120";

![View cliente6080](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/cliente80120.png)

**CLIENTE120**

**Query** CREATE VIEW cliente120 AS
(SELECT limite_credito, tipo_cartao FROM credito
WHERE (limite_credito < 9072.72)
AND (iteracoes_12m >= 3)
AND (valor_transacoes_12m >= 2000.00)
AND (qtd_transacoes_12m >= 50)
AND (meses_inativo_12m <= 2)
AND (salario_anual!='na')
AND (salario_anual='120K +'));

View criada. Em seguida farei um select para mostrar os dados

**Query** SELECT * FROM "cliente120";

![View cliente6080](https://raw.githubusercontent.com/marcelvbs/sql-ebac/main/img/cliente120.png)


# **Conclusão**

1 - cliente120   retornou 15 registros de melhores clientes porém 4 clientes possuem limite de crédito abaixo da média

2 - cliente80120 retornou 29 registros de melhores clientes porém 6 clientes possuem limite de crédito abaixo da média

3 - cliente6080  retornou 22 registros de melhores clientes porém 15 clientes possuem limite de crédito abaixo da média


Insights:

- todos os clientes selecionados possuem cartão do tipo "blue"
- 66 melhores clientes totais e destes, 25 possuem limite de crédito bem abaixo do esperado
- 25 clientes para melhorar a oferta de crédito
- 66 cliente para melhorar o tipo de cartão
