<a href="https://www.kaggle.com/code/robertohatiro/credit-eda-and-analysis?scriptVersionId=130731743" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

<img src="https://raw.githubusercontent.com/raafarosa/Ebac_Data_Scientist_General/main/utilities/newebac_logo_black_half.png" alt="ebac-logo">

---
# **SQL para Análise de Dados**
## Projeto final

Aluno [Rafael Rosa](https://www.linkedin.com/in/rafael-rosa-alves/)<br>

---

# **1. Conjunto de dados**

Os dados utilizados neste projeto são derivados de uma amostra parcial do conjunto original fornecido pelo professor André Perez. Destaca-se que as proporções das categorias podem variar entre esta subamostra e o conjunto completo. Essa extração foi realizada com o propósito de simplificar o processamento dos dados para este projeto específico. Para acessar o dataset completo, é possível visitar o repositório GitHub do professor André Perez através do [link](https://github.com/andre-marcos-perez/ebac-course-utils/blob/main/dataset/credito.csv).

É importante notar que as estimativas feitas com base nesta subamostra podem apresentar menor precisão em comparação com a amostra completa. Portanto, os resultados apresentados aqui não refletem a mesma fidelidade que uma análise feita com o conjunto completo de dados. Eles são utilizados exclusivamente para fins didáticos dentro do curso e para fins de demonstração pessoal no portfólio. No entanto, todas as consultas realizadas podem ser aplicadas igualmente ao conjunto de dados original para obter conclusões confiáveis e úteis em análises mais aprofundadas.

Os dados fornecem informações sobre os clientes de um banco e incluem as seguintes variáveis:

| Coluna                   | Descrição                                               | Tipo     |
| :----------------------- | :-----------------------------------------------------: | -------: |
| **idade**                | idade do cliente                                        | *int*    | 
| **sexo**                 | sexo do cliente (F ou M)                                | *string* |
| **dependentes**          | número de dependentes do cliente                        | *int*    |
| **escolaridade**         | nível de escolaridade do clientes                       | *string* |
| **estado_civil**         | estado civil do cliente                                 | *string* |
| **salario_anual**        | faixa salarial do cliente                               | *string* |
| **tipo_cartao**          | tipo de cartao do cliente                               | *string* |
| **qtd_produtos**         | quantidade de produtos comprados nos últimos 12 meses   | *bigint* |
| **iteracoes_12m**        | quantidade de iterações/transacoes nos ultimos 12 meses | *int*    |
| **meses_inativo_12m**    | quantidade de meses que o cliente ficou inativo         | *int*    |
| **limite_credito**       | limite de credito do cliente                            | *float*  |
| **valor_transacoes_12m** | valor das transações dos ultimos 12 meses               | *float*  |
| **qtd_transacoes_12m**   | quantidade de transacoes dos ultimos 12 meses           | *int*    |

A tabela e as *queries* em linguagem SQL foram criadas através do [Amazon Athena](https://aws.amazon.com/pt/athena/) junto com o [Amazon Simple Storage Service (Amazon S3)](https://aws.amazon.com/pt/s3/).

[**Amazon Web Services**](https://aws.amazon.com/pt/), também conhecido como [**AWS**](https://aws.amazon.com/pt/), é uma plataforma de serviços de computação em nuvem, que formam uma plataforma de computação na nuvem oferecida pela Amazon.com.

In [None]:
# Import da biblioteca pandas para visualização dos arquivos CSV resultantes das queries

import pandas as pd

---

# **2. Criação da tabela**

A primeira etapa é a criação da tabela com o *dataset* armazenado no **Amazon S3 Bucket** por meio de uma *query* no **AWS Athena**, para posteriormente realizar as consultas.

```sql
CREATE EXTERNAL TABLE IF NOT EXISTS default.credito (
	`idade` int,
	`sexo` string,
	`dependentes` int,
	`escolaridade` string,
	`estado_civil` string,
	`salario_anual` string,
	`tipo_cartao` string,
	`qtd_produtos` bigint,
	`iteracoes_12m` int,
	`meses_inativo_12m` int,
	`limite_credito` float,
	`valor_transacoes_12m` float,
	`qtd_transacoes_12m` int
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
	'serialization.format' = ',',
	'field.delim' = ','
)
LOCATION 's3:bucket-transacoes-ebac-projetofinal-rafaelrosa'
TBLPROPERTIES ('has_encrypted_data' = 'false');
```

---

# **3. EDA (Exploratory Data Analysis)**

### Preview da tabela

> **Query 1:**

```sql
SELECT * FROM "default"."credito" limit 10;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_1.csv')

## Quantidade de linhas no dataset

> **Query 2:**

```sql
SELECT COUNT(*) AS quantidade_linhas
FROM credito;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_2.csv')

O conjunto de dados completo possui 10.127 linhas, enquanto esta amostra contém 2.564 linhas, representando aproximadamente 25% do dataset original.

## Tipos de dados em cada coluna

> **Query 3:**

```sql
DESCRIBE credito;
```

![query03](https://raw.githubusercontent.com/rhatiro/exercicios-SQL-para-Analise-de-Dados-EBAC/main/Mo%CC%81dulo%208%20-%20Projeto%20Final/img/query03.png)

> Os tipos dos dados no *dataset* podem ser descritos como:
> - `int` representa dados do tipo inteiro (numérico);
> - `string` representa dados do tipo texto ou cadeia de caracteres;
> - `bigint` representa dados do tipo inteiro longo (um número inteiro maior do que o tipo int);
> - `float` representa dados do tipo número de ponto flutuante (um número com parte fracionária).

## Categorias da variável `escolaridade`

> **Query 4:**

```sql
SELECT DISTINCT escolaridade
FROM credito;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_4.csv')

> Podemos notar que há valores **nulos/ausentes** na variável categórica `escolaridade`, representados pelo valor **`na`**.

## Categorias da variável `estado_civil`

> **Query 5:**

```sql
SELECT DISTINCT estado_civil
FROM credito;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_5.csv')

> Também podemos notar a presença de valores nulos na variável categórica `estado_civil`.

##  Categorias da variável `sexo`

> **Query 6:**

```sql
SELECT DISTINCT sexo
FROM credito;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_6.csv')

> Diferente das demais colunas, não há valores nulos na variável categórica `sexo`.

##  Quantidade de clientes em cada faixa salarial

> **Query 7:**

```sql
SELECT salario_anual,
	COUNT(*) AS quantidade
FROM credito
GROUP BY salario_anual
ORDER BY CASE
		salario_anual
		WHEN 'menos que $40K' THEN 1
		WHEN '$40K - $60K' THEN 2
		WHEN '$60K - $80K' THEN 3
		WHEN '$80K - $120K' THEN 4
		WHEN '$120K +' THEN 5 ELSE 6
	END;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_7.csv')

##  Quantidade de clientes de acordo com cada tipo de cartão

> **Query 8:**

```sql
SELECT tipo_cartao,
	COUNT(*) AS quantidade
FROM credito
GROUP BY tipo_cartao
ORDER BY quantidade DESC;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_8.csv')

## Quantidade de clientes de acordo com o sexo

> **Query 9:**

```sql
SELECT sexo,
	COUNT(*) AS quantidade
FROM credito
GROUP BY sexo
ORDER BY quantidade DESC;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_9.csv')

## Análise da idade dos clientes (média, mínima e máxima)

> **Query 10:**

```sql
SELECT ROUND(AVG(idade)) AS idade_media,
	MIN(idade) AS idade_minima,
	MAX(idade) AS idade_maxima
FROM credito;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_10.csv')

##  Análise dos gastos dos clientes (média, mínima e máxima)

> **Query 11:**

```sql
SELECT ROUND(AVG(valor_transacoes_12m), 2) AS valor_medio_transacoes,
	MIN(valor_transacoes_12m) AS valor_minimo_transacoes,
	MAX(valor_transacoes_12m) AS valor_maximo_transacoes
FROM credito;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_11.csv')

##  Limite mínimo de crédito de acordo com o tipo de cartão, sexo e escolaridade

> **Query 12:**

```sql
SELECT COUNT(*) as quantidade,
	MIN(limite_credito) AS limite_credito_maximo,
	tipo_cartao,
	sexo,
	escolaridade
FROM credito
WHERE escolaridade != 'na'
GROUP BY sexo,
	escolaridade,
	tipo_cartao
ORDER BY limite_credito_maximo ASC;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_12.csv')

## Limite máximo de crédito de acordo com o tipo de cartão, sexo e escolaridade

> **Query 13:**

```sql
SELECT COUNT(*) as quantidade,
	MAX(limite_credito) AS limite_credito_maximo,
	tipo_cartao,
	sexo,
	escolaridade
FROM credito
WHERE escolaridade != 'na'
GROUP BY sexo,
	escolaridade,
	tipo_cartao
ORDER BY limite_credito_maximo DESC;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_13.csv')

É possível observar que não há uma relação considerável da variável `escolaridade` com o limite de crédito dos clientes. Os resultados dos limites mínimos de acordo com as separações categóricas demonstram que o tipo de cartão *blue* representa a maior parte dos limites mais baixos enquanto os demais representam os mais altos. 

A variável `sexo` demonstra que clientes do sexo masculino possuem limites máximos de crédito mais altos enquanto clientes do sexo feminino possuem limites máximos de crédito mais baixos.

##  Análise da quantidade e valores das transações de acordo com o sexo e estado civil

> **Query 14:**

```sql
SELECT COUNT(*) AS quantidade,
	sexo,
	estado_civil,
	MIN(valor_transacoes_12m) AS valor_minimo_transacoes,
	MAX(valor_transacoes_12m) AS valor_maximo_transacoes,
	AVG(valor_transacoes_12m) AS valor_medio_transacoes
FROM credito
WHERE estado_civil != 'na'
GROUP BY sexo,
	estado_civil
ORDER BY quantidade ASC;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_14.csv')

Nesta análise podemos notar que a quantidade de transações tem uma relação considerável com a variável `estado_civil`, sendo que a maior parte foi efetuada por clientes casados e a menor parte por clientes divorciados. Em contrapartida, a média de valor das transações também se diferencia de acordo com o estado civil mas de forma contrária, na qual a média mais alta são dos clientes divorciados e a média mais baixa são dos clientes casados, assim como pode ser constatado na relação dos valores mínimos de transações, dando a entender que a baixa quantidade de transações possívelmente tenha relação com o alto valor das mesmas.
Em relação ao sexo do cliente, a variação não chega a ser tão grande, havendo somente uma leve discrepância entre os valores mínimos das transações, demonstrando ser mais alto entre clientes do sexo feminino que estão divorciadas. Já entre as categorias da variável `estado_civil`, observa-se que clientes solteiros e divorciados do sexo masculino efetuaram uma quantidade maior transações do que clientes do sexo feminino, porém a quantidade é um pouco maior entre clientes casados.

##  Média da quantidade de transações, valor das transações e limite de crédito de acordo com o tipo de cartão e salário anual

> **Query 15:**

```sql
SELECT COUNT(*) AS quantidade,
	tipo_cartao,
	salario_anual,
	ROUND(AVG(qtd_transacoes_12m)) AS media_qtd_transacoes,
	ROUND(AVG(valor_transacoes_12m), 2) AS media_valor_transacoes,
	ROUND(AVG(limite_credito), 2) AS media_limite_credito
FROM credito
WHERE salario_anual != 'na'
GROUP BY tipo_cartao,
	salario_anual
ORDER BY CASE
		tipo_cartao
		WHEN 'blue' THEN 1
		WHEN 'silver' THEN 2
		WHEN 'gold' THEN 3 ELSE 4
	END,
	CASE
		salario_anual
		WHEN 'menos que $40K' THEN 1
		WHEN '$40K - $60K' THEN 2
		WHEN '$60K - $80K' THEN 3
		WHEN '$80K - $120K' THEN 4
		WHEN '$120K +' THEN 5 ELSE 6
	END;
```

In [None]:
pd.read_csv('https://raw.githubusercontent.com/raafarosa/Ebac_SQL_for_Data_Analysis/main/Module%208%20-%20Projeto%20final/Database/Results/Result_15.csv')

Nesta análise podemos ver novamente a relação entre o limite de crédito com o tipo de cartão do cliente, sendo que as médias mais baixas de limite são dos clientes que possuem o tipo de cartão *blue*, aumentando de acordo com a faixa salarial anual. As demais médias de quantidade e valor das transações não possuem relação tão considerável com as variáveis deste resultado.

---

# **3. Conclusão:**

Essas foram algumas das análises extraídas do conjunto de dados, fornecendo insights sobre o perfil dos clientes e seus comportamentos de transação. Resumidamente, destacam-se os seguintes insights:
- A maioria dos clientes possui um salário anual abaixo de $40.000,00, apresentando o tipo de cartão *blue* e limites de crédito mais baixos. Isso indica que a campanha de marketing direcionada a esse grupo específico pode ter um impacto significativo, considerando sua representatividade na base de clientes.
- Ao analisar a variável sexo, observa-se que os clientes do sexo masculino possuem limites máximos de crédito mais elevados em comparação aos clientes do sexo feminino. No entanto, é importante ressaltar que a proporção de clientes masculinos e femininos na base de dados não está equilibrada, o que pode influenciar essa discrepância.
- Verificou-se que os clientes casados são responsáveis pela maior parte das transações, enquanto os clientes divorciados apresentam uma menor participação. Além disso, os clientes divorciados possuem uma média mais alta de valor das transações, sugerindo uma possível relação entre a menor quantidade de transações e seu valor mais elevado.
- Quando analisados por gênero, os clientes solteiros e divorciados do sexo masculino realizaram mais transações em comparação às clientes do sexo feminino. No entanto, a quantidade de transações entre clientes casados é ligeiramente superior. Esses dados destacam a importância de considerar o estado civil e o gênero ao desenvolver estratégias de marketing personalizadas.
- As médias de limite de crédito mais baixas foram encontradas entre os clientes com o tipo de cartão *blue*. Além disso, em cada categoria de tipo de cartão, a média de limite de crédito aumenta de acordo com a faixa salarial anual do cliente. Essa informação pode ser relevante para ajustar as ofertas e comunicações de acordo com o perfil de cada cliente, considerando sua capacidade de gastos.

Esses insights oferecem uma visão mais completa do comportamento dos clientes e podem servir como base para a tomada de decisões estratégicas, permitindo uma segmentação mais eficiente e personalizada dos esforços de marketing.

**Com base nesta análise geral do conjunto de dados, conclui-se que, para uma possível campanha de marketing direcionada aos clientes mais ativos, é recomendado um foco maior nos clientes casados que possuem o tipo de cartão *blue* e apresentam um salário anual abaixo de $40.000,00. Essa estratégia visa otimizar os esforços de marketing, concentrando-se nos segmentos de clientes com maior potencial de resposta e engajamento, permitindo uma alocação mais eficiente dos recursos disponíveis. Ao direcionar a campanha para essa demografia específica, espera-se aumentar a eficácia das ações de marketing e obter resultados mais favoráveis em termos de aquisição e retenção de clientes.**

---