<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | SQL: Projeto Final
Aluno **Luís Fernando Castella Fitor Pimentel**<br> 
Professor [Mariane Neiva](www.linkedin.com/in/mariane-neiva)

---

# **Tópicos**

- [**1. Conjunto de dados**](#1.-Conjunto-de-dados)  

- [**2. Criação da tabela**](#2.-Criação-da-tabela)  

- [**3. EDA (Exploratory Data Analysis)**](#3.-EDA-(Exploratory-Data-Analysis))

- [**4. Conclusão**](#4.-Conclusão) 
---

# **1. Conjunto de dados**

Os dados que usamos neste projeto o conjunto de dados **credito8.csv** da professora [Mariane Neiva](www.linkedin.com/in/mariane-neiva). 

Os resultados que você vê aqui não são tão confiáveis quanto uma análise feita com todos os dados. Mas, eles são bons o suficiente para nossos propósitos de aprendizado e para mostrar o que aprendemos no curso. E claro, todas as consultas que usamos aqui podem ser aplicadas ao conjunto completo para análises mais precisas.

Esses dados são sobre clientes de um banco e incluem coisas como:

| Coluna                   | Descrição                                               | Tipo     |
| :----------------------- | :-----------------------------------------------------: | -------: |
| **idade**                | idade do cliente                                        | *int*    | 
| **sexo**                 | sexo do cliente (F ou M)                                | *string* |
| **dependentes**          | número de dependentes do cliente                        | *int*    |
| **escolaridade**         | nível de escolaridade do clientes                       | *string* |
| **estado_civil**         | estado civil do cliente                                 | *string* |
| **salario_anual**        | faixa salarial do cliente                               | *string* |
| **tipo_cartao**          | tipo de cartao do cliente                               | *string* |
| **qtd_produtos**         | quantidade de produtos comprados nos últimos 12 meses   | *bigint* |
| **iteracoes_12m**        | quantidade de iterações/transacoes nos ultimos 12 meses | *int*    |
| **meses_inativo_12m**    | quantidade de meses que o cliente ficou inativo         | *int*    |
| **limite_credito**       | limite de credito do cliente                            | *float*  |
| **valor_transacoes_12m** | valor das transações dos ultimos 12 meses               | *float*  |
| **qtd_transacoes_12m**   | quantidade de transacoes dos ultimos 12 meses           | *int*    |

A tabela e as *queries* em linguagem SQL foram criadas através do [Amazon Athena](https://aws.amazon.com/pt/athena/) junto com o [Amazon Simple Storage Service (Amazon S3)](https://aws.amazon.com/pt/s3/).

[**Amazon Web Services**](https://aws.amazon.com/pt/), também conhecido como [**AWS**](https://aws.amazon.com/pt/), é uma plataforma de serviços de computação em nuvem, que formam uma plataforma de computação na nuvem oferecida pela Amazon.com.

# **2. Criação da tabela**

Primeiro, devemos criar a tabela com o *dataset* armazenado no **Amazon S3 Bucket** utilizando uma *query* no **AWS Athena**, para que possoamos realizar as consultas.

```sql
CREATE EXTERNAL TABLE IF NOT EXISTS default.credito ( 
  `idade` int,
  `sexo` string,
  `dependentes` int,
  `escolaridade` string,
  `estado_civil` string,
  `salario_anual` string,
  `tipo_cartao` string, 
  `qtd_produtos` bigint,
  `iteracoes_12m` int,
  `meses_inativo_12m` int,
  `limite_credito` float,
  `valor_transacoes_12m` float,
  `qtd_transacoes_12m` int 
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'serialization.format' = ',',
  'field.delim' = ','
) LOCATION 's3://ebac-projetofinal-credito/'
TBLPROPERTIES ('has_encrypted_data'='false');
```

# **3. EDA (Exploratory Data Analysis)**

## 3.1 Preview da tabela

> **Query 1:**

```sql
SELECT * FROM "default"."credito" limit 10;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query1.png?raw=true)

## 3.2 Quantidade de linhas do Dataset

> **Query 2:**

```sql
SELECT COUNT(*) AS quantidade_linhas FROM credito;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query2.png?raw=true)

## 3.3 Tipos de dados em cada coluna

> **Query 3:**

```sql
DESCRIBE credito
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query3.png?raw=true)

## 3.4 Categorias da variável `escolaridade`

> **Query 4.1:**

```sql
SELECT DISTINCT escolaridade FROM credito;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query4.png?raw=true)

Nessa consulta, podemos ver que existem valores **nulos** ou **não preenchido** que são representados pelo **na**.

> **Query 4.2:**

```sql
SELECT escolaridade,
    COUNT(*) AS quantidade
    FROM credito
    GROUP BY escolaridade
    ORDER BY quantidade DESC;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query4-2.png?raw=true)

Os valores de **na** representam por volta de 13% do total.

## 3.5 Categorias da variável `estado-civil`

> **Query 5.1:**

```sql
SELECT DISTINCT estado_civil FROM credito;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query5.png?raw=true)

Nessa consulta, podemos ver que também existem valores **nulos** ou **não preenchido**.

> **Query 5.2:**

```sql
SELECT estado_civil,
    COUNT(*) AS quantidade
    FROM credito
    GROUP BY estado_civil
    ORDER BY quantidade DESC;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query5-2.png?raw=true)

Os valores de **na** representam por volta de 4% do total.

## 3.6 Categorias da variável `salario_anual`

> **Query 6.1:**

```sql
SELECT DISTINCT salario_anual FROM credito;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query8.png?raw=true)

Nessa consulta, podemos ver que também existem valores **nulos** ou **não preenchido**.

> **Query 6.2:**

```sql
SELECT salario_anual,
    COUNT(*) AS quantidade
    FROM credito
    GROUP BY salario_anual
    ORDER BY quantidade DESC;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query8-2.png?raw=true)

Os valores de **na** representam por volta de 9% do total.

## 3.7 Quantidade de clientes para cada tipo de cartão

> **Query 7:**

```sql
SELECT tipo_cartao,
    COUNT(*) AS quantidade
    FROM credito
    GROUP BY tipo_cartao
    ORDER BY quantidade DESC;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query6.png?raw=true)

## 3.8 Quantidade de clientes de acordo com o sexo

> **Query 8:**

```sql
SELECT sexo,
    COUNT(*) AS quantidade
    FROM credito
    GROUP BY sexo
    ORDER BY quantidade DESC;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query7.png?raw=true)

Para ilustrar melhor, a baixo temos um gráfico da distrubuição de homens e mulheres no dataset:

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/grafico1.png?raw=true)

## 3.9 Análise dos gastos dos clientes (média, mínima e máxima)

> **Query 9:**

```sql
SELECT ROUND(AVG(valor_transacoes_12m), 2) AS valor_medio_transacoes,
    MIN(valor_transacoes_12m) AS valor_minimo_transacoes,
    MAX(valor_transacoes_12m) AS valor_maximo_transacoes
FROM credito;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query9.png?raw=true)

## 3.10 Limite de salário anual por sexo

> **Query 10:**

```sql
SELECT COUNT(*) 
    as qtde, salario_anual, sexo 
    FROM credito 
    WHERE salario_anual != 'na' 
    GROUP BY salario_anual, sexo
    ORDER BY salario_anual ASC;
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query10.png?raw=true)

## 3.11 Relação entre tipo de cartão e limite de crédito

> **Query 11:**

```sql
SELECT COUNT(*) 
    as qtde, AVG(limite_credito) 
    AS limite_medio, tipo_cartao 
    FROM credito 
    GROUP BY tipo_cartao
```

![](https://github.com/LuisFPimentel/projeto-final-sql/blob/main/Query11.png?raw=true)

# **4. Conclusão**

A partir das visualizações e análises extraídas do conjunto de dados, pode-se gerar alguns insights:

* Existem valores nulos ou vazios que foram representados por **na**

* A maioria dos clientes possui um salário anual abaixo de $40.000,00

* Os homens recebem mais do que as mulheres.

* As médias de limite de crédito mais baixas foram encontradas entre os clientes com o tipo de cartão *blue*