<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | SQL: Projeto
<br> 

Aluno: [Antônio Coelho](https://www.linkedin.com/in/antonio-coelho-datascience/)

Data: 18 de novembro de 2024

---

# **Índice**

- [**Os dados**](#Dados:)  

- [**1. Criação da tabela**](#1.-Criação-da-tabela)  

- [**2. Análise Exploratória dos dados**](#2.-Análise-Exploratória-dados)  

> - [2.1 Visualização](#2.1-Visualização-da-tabela)  

> - [2.2 Quantidade de linhas no dataset](#2.2-Quantidade-de-linhas-no-dataset)  

> - [2.3 Tipos de dados em cada coluna](#2.3-Tipos-de-dados-em-cada-coluna)  

> - [2.4 Categorias da variável *escolaridade*](#2.4-Categorias-da-variável-escolaridade)  
> - [2.5 Salários anuais únicos](#2.5-Salários_anuais_únicos)  
> - [2.6 Distribuição de Frequência por Categoria da Variável *sexo*](#2.6-variável-sexo)  

> - [2.7 Limite máximo de crédito de acordo com o tipo de cartão, sexo e escolaridade](#2.7-limite-credito)  
> - [2.8 Valor Máximo e Médio das Transações no Último Ano por Sexo](#2.8-max-medio-transacao)  
> - [2.9 Produtos e Transações por Sexo e Salário](#2.9-produto-transacao)  


- [**3. Conclusão**](#3.-Conclusão:)

- [**4. Links úteis**](#4.-Link_úteis:)

# **Dados:**

Os dados contidos no arquivo **credito8.csv** representam informações de clientes de um banco e contam com as seguintes colunas:

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses

A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset


[Voltar ao índice](#Índice)

---

# **1.-Criação-da-tabela**

Siga os seguintes passos para criação da tabela:

* Crie uma pasta bucket-coelho-ebac-final no seu S3 e carregue o arquivo **credito8.csv**
* Volta para o AWS Athena e execute o seguinte comando:

```sql
CREATE EXTERNAL TABLE IF NOT EXISTS default.credito ( 
  `idade` int,
  `sexo` string,
  `dependentes` int,
  `escolaridade` string,
  `estado_civil` string,
  `salario_anual` string,
  `tipo_cartao` string, 
  `qtd_produtos` bigint,
  `iteracoes_12m` int,
  `meses_inativo_12m` int,
  `limite_credito` float,
  `valor_transacoes_12m` float,
  `qtd_transacoes_12m` int 
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'serialization.format' = ',',
  'field.delim' = ','
) LOCATION 's3://bucket-coelho-ebac-final/'
TBLPROPERTIES ('has_encrypted_data'='false');
```

Utilizaremos a tabela para o projeto.

[Voltar ao índice](#Índice)

# **2.-Análise-Exploratória-dados**

[Voltar ao índice](#Índice)

## **2.1-Visualização-da-tabela**

> **Query 1:** Como são os dados?

```sql
select * from credito limit 10;
```

![Dez primeiras linhas do dataset](https://github.com/AntonioSCoelho97/Projeto_Final_SQL/blob/main/Imagens_SQL/consulta_tabela_crédito.png?raw=true)

[Voltar ao índice](#Índice)

## **2.2-Quantidade-de-linhas-no-dataset**

> **Query 2:** Qual a quantidade de informações que temos na nossa base de dados?

```sql
select count(*) from credito;
```

![Quantidade linhas do dataset](https://github.com/AntonioSCoelho97/Projeto_Final_SQL/blob/main/Imagens_SQL/qtde_linhas_tabela.png?raw=true)

[Voltar ao índice](#Índice)

## **2.3-Tipos-de-dados-em-cada-coluna**

> **Query 3:** Quais os tipos de cada dado?

```sql
DESCRIBE credito;
```

![Descrição_variáveis](https://github.com/AntonioSCoelho97/Projeto_Final_SQL/blob/main/Imagens_SQL/descrição_tabela.png?raw=true)

[Voltar ao índice](#Índice)

## **2.4-Categorias-da-variável-escolaridade**

> **Query 4:** Quais são os tipos de escolaridade disponíveis no dataset?

```sql
SELECT DISTINCT escolaridade FROM credito;
```

![Categorias_escolaridade](https://github.com/AntonioSCoelho97/Projeto_Final_SQL/blob/main/Imagens_SQL/categorias_escolaridade.png?raw=true)

[Voltar ao índice](#Índice)

## **2.5-Salários_anuais_únicos**

> **Query 5:** Nesse banco de dados, quantos clientes temos de cada faixa salarial?

```sql
select count(*), salario_anual from credito group by salario_anual;
```

![Maiores créditos](https://github.com/AntonioSCoelho97/Projeto_Final_SQL/blob/main/Imagens_SQL/qtde_clientes_salário.png?raw=true)

[Voltar ao índice](#Índice)

## **2.6-variável-sexo**

> **Query 6:** Nesse banco de dados, quantos clientes são homens e quantos são mulheres?

```sql
select count(*), sexo from credito group by sexo;
```

![Quantidade clientes por sexo](https://github.com/AntonioSCoelho97/Projeto_Final_SQL/blob/main/Imagens_SQL/qtde_clientes_sexo.png?raw=true)

[Voltar ao índice](#Índice)

## **2.7-limite-credito**

> **Query 7:** Quais as características dos clientes que possuem os maiores creditos?

```sql
select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito 
where escolaridade != 'na' and tipo_cartao != 'na' 
group by escolaridade, tipo_cartao, sexo 
order by limite_credito desc 
limit 10;
```

![Limites de crédito](https://github.com/AntonioSCoelho97/Projeto_Final_SQL/blob/main/Imagens_SQL/maiores_créditos.png?raw=true)

[Voltar ao índice](#Índice)

## **2.8-max-medio-transacao**

> **Query 8:** Quem gasta mais? homens ou mulheres?

```sql
select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo 
from credito 
group by sexo;
```

![Gasto por sexo](https://github.com/AntonioSCoelho97/Projeto_Final_SQL/blob/main/Imagens_SQL/gasto_por_sexo.png?raw=true)

[Voltar ao índice](#Índice)

## **2.9-produto-transacao**

> **Query 9:** O salário impacta no limite?

```sql
select avg(qtd_produtos) as qts_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite, sexo, salario_anual 
from credito 
where salario_anual != 'na' 
group by sexo, salario_anual 
order by avg(valor_transacoes_12m) desc;
```

![Salario e limite de credito](https://github.com/AntonioSCoelho97/Projeto_Final_SQL/blob/main/Imagens_SQL/salário_e_limite_crédito.png?raw=true)

[Voltar ao índice](#Índice)

# **3.-Conclusão:**

- A base de dados apresenta 2.564 linhas;
- As colunas (variáveis explicativas e variável resposta) estão assim estruturadas: valores monetários com *float*, quantidades como *int* e variáveis categóricas (texto) como *string*;
- Há registro de valores do tipo *'na'* na base de dados;
- A coluna escolaridade está divida em 06 (seis) categorias: sem educação formal, ensino médio, graduação, mestrado, doutorado e na;
- A faixa salarial mais presente é a *'menos que 40k'* com aproximadamente 27,34% e a menos presente é a *'120k +'* com aproximadamente 8,65%;
- Os clientes do sexo masculino representam aproximadamente 1,5 vezes os clientes do sexo feminino;
- As 10 (dez) primeiras linhas para os maiores limites de crédito apresentam 80% do sexo masculino, sem mostrar uma relação clara com as variáveis escolaridade e tipo de cartão;
- Não há evidências de que as mulheres gastem mais que os homens nesta base de dados; e
- A variável salário anual apresenta correlação positiva com a variável limite de crédito.

[Voltar ao índice](#Índice)

# **4.-Link_úteis:**

* Kaggle: https://www.kaggle.com/ 
* Portfólio projeto: https://www.kaggle.com/code/antonioscoelho97/trabalho-sql-ebac
* Linkedlin: https://www.linkedin.com/feed/
* GitHub: https://github.com/
* Dados originais - gitHub André Perez: https://github.com/andre-marcos-perez/ebac-course-utils
* Imagens do gitHub - Antônio Coelho: https://github.com/AntonioSCoelho97/Projeto_Final_SQL/tree/main/Imagens_SQL
* AWS Athena: https://aws.amazon.com/pt/athena/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc 

[Voltar ao índice](#Índice)