<img src="https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/ebac_data_science.png" alt="ebac">

---

# **Análise de Dados - Projeto SQL**

<a href="https://www.kaggle.com/code/guilhermenicolaz/notebooke56382f778" target="_blank"><img align="left" alt="Kaggle_link_project" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

# **Índice**

> - [**1) Conjunto de dados**](#Descrição-do-Conjunto-de-Dados:)  
> - [**2) Criação da Tabela Crédito**](#Criação-da-Tabela-Crédito:)  
> - [**3) Exploração e análise de dados (EDA)**](#EDA---Exploratory-Data-Analysis:)  
>> - [3.1 Tabela](#Visualização-da-Tabela)  
>> - [3.2 Número de Linhas da Amostra](#Número-de-Linhas-da-Amostra)  
>> - [3.3 Dados de Cada Coluna](#Tipos-de-Dados)  
>> - [3.4 Dados Categóricos - **Sexo**](#Dados-da-Coluna-sexo)  
>> - [3.5 Dados Categóricos - **Estado Civil**](#Dados-da-Coluna-estado_civil)  
>> - [3.6 Dados Categóricos - **Tipo_Cartão**](#Dados-da-Coluna-tipo_cartao)  
>> - [3.7 Dados Categóricos - **Salário_Anual**](#Quantidade-de-Clientes-por-Classe-em-salario_anual)  
>> - [3.8 Dados Categóricos - **Escolaridade**](#Quantidade-de-Clientes-por-Classe-em-escolaridade)  
> - [**4) Valores Mínimos, Máximos e Médias**](#Análise-de-Valores-Númericos)  
>> - [4.1 Coluna **idade**](#Valor-Mínimo,-Máximo-e-Média-na-Coluna-idade)  
>> - [4.2 Coluna **qtd_transacoes_12m**](#Valor-Mínimo,-Máximo-e-Média-na-Coluna-qtd_transacoes_12m)  
>> - [4.3 Coluna **valor_transacoes_12m**](#Valor-Mínimo,-Máximo-e-Média-na-Coluna-valor_transacoes_12m)  
> - [**5) Relacionando Variáveis**](#Relacionando-Diferentes-Variáveis)
>> - [5.1 Média da **Qtd_Transacoes_12m** Agrupada por **Tipo_Cartao**, **Sexo** e **Escolaridade**](#Média-da-qtd_transacoes_12m-relacionada-com-o-tipo-de-tipo_cartao,-sexo-e-escolaridade) 
>> - [5.2 Média do **Limite_Credito** Agrupado por **Tipo_Cartao**, **Sexo** e **Escolaridade**](#Média-do-limite_credito-relacionado-com-o-tipo-de-tipo_cartao,-sexo-e-escolaridade)  
>> - [5.3 Médias de **Limite_Credito**, **Qtd_Transacoes_12m**, **Valor_Transacoes_12m** relacionadas com **Tipo_Cartao** e **Salario_Anual**](#Médias-de-limite_credito,-qtd_transacoes_12m,-valor_transacoes_12m-relacionadas-com-o-tipo_cartao-e-salario_anual)  
> - [**6) Conclusão**](#Conclusão:)

# **Descrição do Conjunto de Dados:**

A tabela a seguir apresenta as informações contidas na base de dados, onde cada linha representa o nome das colunas, indicando o tipo de informação que cada uma guarda e o tipo de dado correspondente.

| Coluna                   | Descrição                                               | Tipo     |
| :----------------------- | :-----------------------------------------------------: | -------: |
| **idade**                | Idade do Cliente                                        | *int*    | 
| **sexo**                 | Sexo do Cliente (F ou M)                                | *string* |
| **dependentes**          | Número de Dependentes do Cliente                        | *int*    |
| **escolaridade**         | Nível de Escolaridade do Clientes                       | *string* |
| **estado_civil**         | Estado Civil do cliente                                 | *string* |
| **salario_anual**        | Faixa Salarial do Cliente                               | *string* |
| **tipo_cartao**          | Tipo de Cartao do Cliente                               | *string* |
| **qtd_produtos**         | Quantidade de Produtos Comprados nos Últimos 12 Meses   | *bigint* |
| **iteracoes_12m**        | Quantidade de Iterações/Transações nos Últimos 12 Meses | *int*    |
| **meses_inativo_12m**    | Quantidade de Meses que o Cliente Ficou Inativo         | *int*    |
| **limite_credito**       | Limite de Crédito do Cliente                            | *float*  |
| **valor_transacoes_12m** | Valor das Transações dos Últimos 12 Meses               | *float*  |
| **qtd_transacoes_12m**   | Quantidade de Transações dos Últimos 12 Meses           | *int*    |

Este projeto utiliza uma base de dados contendo uma amostra representativa de um conjunto maior de dados. A amostra foi selecionada para permitir a análise e desenvolvimento de soluções sem a necessidade de lidar com o conjunto completo de dados. O objetivo é realizar análises, interpretações e com base nessa amostra extrapolar compreensão dos resultados das informações contidas nos dados.

A [**Amazon Web Services (AWS)**](https://aws.amazon.com/pt/) é uma plataforma de computação em nuvem. Todo processo foi realizado através de queries utilizando SQL através do [**Amazon Athena**](https://aws.amazon.com/pt/athena/) em conjunto ao [**Amazon Simple Storage Service - Amazon S3**](https://aws.amazon.com/pt/s3/).

O **Amazon Athena** é um serviço de consulta interativa que facilita a análise de dados no Amazon S3 usando SQL padrão, permitindo executar consultas ad-hoc em grandes conjuntos de dados sem a necessidade de configurar ou gerenciar infraestrutura, além de poder lidar com grandes volumes de dados sendo altamente escalável, permitindo que você execute consultas em petabytes de dados com facilidade. Funciona diretamente com os dados armazenados no Amazon S3, o que significa que não é necessário mover os dados para um banco de dados separado para análise.

O **Amazon S3** é um serviço de armazenamento em nuvem escalável, seguro e durável. Os dados no Amazon S3 podem ser armazenados de forma ilimitada e lidar com qualquer volume de tráfego. Pode ser facilmente acessado e gerenciado por meio de uma variedade de interfaces, incluindo a API da AWS, consoles web e ferramentas de linha de comando.

# **Criação da Tabela Crédito:**

Realizando a criação da tabela Crédito, que será utilizada nas queries a seguir:

```sql
CREATE EXTERNAL TABLE IF NOT EXISTS default.credito (
	`idade` int,
	`sexo` string,
	`dependentes` int,
	`escolaridade` string,
	`estado_civil` string,
	`salario_anual` string,
	`tipo_cartao` string,
	`qtd_produtos` bigint,
	`iteracoes_12m` int,
	`meses_inativo_12m` int,
	`limite_credito` float,
	`valor_transacoes_12m` float,
	`qtd_transacoes_12m` int
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
	'serialization.format' = ',',
	'field.delim' = ','
)
LOCATION 's3://bucket-credito-projeto/'
TBLPROPERTIES ('has_encrypted_data' = 'false');
```

[Retornar ao índice](#Índice)

# **EDA - Exploratory Data Analysis:**

**Para melhor qualidade na visualização das Queries como resultado das consultas realizadas no Athena, utilizaremos a biblioteca do Pandas para leitura de cada arquivo .csv das queries realizadas.**

In [1]:
import pandas as pd

### Visualização da Tabela
- **Query 1:**

```sql
SELECT * FROM "default"."credito" limit 10;
```

In [12]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query%201.csv')

Unnamed: 0,idade,sexo,dependentes,escolaridade,estado_civil,salario_anual,tipo_cartao,qtd_produtos,iteracoes_12m,meses_inativo_12m,limite_credito,valor_transacoes_12m,qtd_transacoes_12m
0,45,M,3,ensino medio,casado,$60K - $80K,blue,5,3,1,12691.51,1144.9,42
1,49,F,5,mestrado,solteiro,menos que $40K,blue,6,2,1,8256.96,1291.45,33
2,51,M,3,mestrado,casado,$80K - $120K,blue,4,0,1,3418.56,1887.72,20
3,40,F,4,ensino medio,na,menos que $40K,blue,3,1,4,3313.03,1171.56,20
4,40,M,3,sem educacao formal,casado,$60K - $80K,blue,5,0,1,4716.22,816.08,28
5,44,M,2,mestrado,casado,$40K - $60K,blue,3,2,1,4010.69,1088.07,24
6,51,M,4,na,casado,$120K +,gold,6,3,1,34516.72,1330.87,31
7,32,M,0,ensino medio,na,$60K - $80K,silver,2,2,2,29081.49,1538.32,36
8,37,M,3,sem educacao formal,solteiro,$60K - $80K,blue,5,0,2,22352.5,1350.14,24
9,48,M,2,mestrado,solteiro,$80K - $120K,blue,6,3,3,11656.41,1441.73,32


Realizando a primeira query verificamos a existência de dados nulos: "NA" (Not Available) ou também em alguns casos como: "NaN" (Not a Number) são geralmente usados para representar valores ausentes, em branco ou não disponíveis em uma tabela. Isso pode ocorrer por diversos motivos, como falhas na coleta de dados, erros de medição, ou simplesmente porque os dados não estão disponíveis para determinadas observações.

É importante entender a natureza dos dados ausentes em seu conjunto de dados e escolher a abordagem de tratamento mais adequada para garantir a precisão e a integridade de suas análises.

[Retornar ao índice](#Índice)

### Número de Linhas da Amostra
- **Query 2:**

```sql
SELECT COUNT(*) AS n_linhas
FROM credito;
```

In [13]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query%202.csv')

Unnamed: 0,n_linhas
0,2564


Nossa **amostra** está utilizando um conjunto de dados com **2.564 linhas.**

[Retornar ao índice](#Índice)

### Tipos de Dados
- **Query 3:**

```sql
DESCRIBE credito;
```

![Query 3](https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query%203.JPG)

Esses são os diferentes tipos de informações que você podem ser armazenados em uma tabela de banco de dados:
- **INT (Integer):** Neste caso poderá apenas conter números inteiros.
- **TEXT ou STRING (Texto ou Cadeia de Caracteres):** Pode escrever qualquer coisa com letras e números, como o nome de uma cidade ou uma descrição.
- **BIGINT (Big Integer):** Capaz de armazenar números inteiros muito grandes, como o número de habitantes de uma cidade.
- **FLOAT (Floating Point Number):** Contém números com casas decimais, como um número utilizado para contabilidade.

### Dados da Coluna ```sexo```
- **Query 4:**

```sql
SELECT DISTINCT sexo
FROM credito;
```

In [14]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query%204.csv')

Unnamed: 0,sexo
0,F
1,M


Verificando os dados contidos na variável categórica **SEXO**, podemos notar que não há valores **nulos** na coluna.

### Quantidade de Clientes por Classe em ```sexo```
- **Query 5:**

```sql
SELECT sexo,
    COUNT(*) AS quantidade
FROM credito
GROUP BY sexo
ORDER BY CASE
        sexo
        WHEN 'F' THEN 1
        WHEN 'M' THEN 2 ELSE 3
    END;
```

In [15]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query5.csv')

Unnamed: 0,sexo,quantidade
0,F,1001
1,M,1563


![Query 5.1](https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query%205.1.JPG)

Podemos verificar claramente a diferença entre o número de clientes definidos como **M** muito maior que o público **F**. Se a distribuição na amostra não refletir a distribuição real da população, os resultados da análise podem estar enviesados. Por exemplo, se a amostra contiver muito mais homens do que mulheres, as conclusões da análise podem não ser generalizáveis para a população como um todo.

Para mitigar esses problemas, é importante garantir que a amostra seja representativa da população-alvo. Isso pode envolver estratégias como estratificação da amostra por gênero ou ajuste nos resultados da análise para considerar o desequilíbrio na amostra.

[Retornar ao índice](#Índice)

### Dados da Coluna ```estado_civil```

- **Query 6:**

```sql
SELECT DISTINCT estado_civil
FROM credito;
```

In [16]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query6.csv')

Unnamed: 0,estado_civil
0,divorciado
1,solteiro
2,na
3,casado


### Quantidade de Clientes por Classe em ```estado_civil```
- **Query 7:**

```sql
SELECT estado_civil,
    COUNT(*) AS quantidade
FROM credito
GROUP BY estado_civil
```

In [17]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query7.csv')

Unnamed: 0,estado_civil,quantidade
0,divorciado,161
1,na,116
2,casado,1521
3,solteiro,766


![Query 7.1](https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query%207.1.JPG)

Nesta coluna podemos verificar a existência de valores nulos, podemos definir utilizando a porcentagem para maior noção do peso neste caso: 
> **Divorciado - 6,3%**

> **Na - 4,5%**

> **Casado - 59,3%**

> **Solteiro - 29,9%**


[Retornar ao índice](#Índice)

### Dados da Coluna ```tipo_cartao```

- **Query 8:**

```sql
SELECT DISTINCT tipo_cartao
FROM credito;
```

In [3]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query8.csv')

Unnamed: 0,tipo_cartao
0,platinum
1,blue
2,gold
3,silver


### Quantidade de Clientes por Classe em ```tipo_cartao```
- **Query 9:**

```sql
SELECT tipo_cartao,
    COUNT(*) AS quantidade
FROM credito
GROUP BY tipo_cartao
```

In [4]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query9.csv')

Unnamed: 0,tipo_cartao,quantidade
0,silver,93
1,platinum,2
2,blue,2453
3,gold,16


![Query9.1](https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query%209.1.JPG)

[Retornar ao índice](#Índice)

### Quantidade de Clientes por Classe em ```salario_anual```

- **Query 10:**

```sql
SELECT salario_anual,
	COUNT(*) AS quantidade
FROM credito
GROUP BY salario_anual
ORDER BY CASE
		salario_anual
		WHEN 'menos que $40K' THEN 1
		WHEN '$40K - $60K' THEN 2
		WHEN '$60K - $80K' THEN 3
		WHEN '$80K - $120K' THEN 4
		WHEN '$120K +' THEN 5 ELSE 6
	END;
```

In [2]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query10.csv')

Unnamed: 0,salario_anual,quantidade
0,menos que $40K,701
1,$40K - $60K,467
2,$60K - $80K,451
3,$80K - $120K,488
4,$120K +,222
5,na,235


![query10.1](https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query%2010.1.JPG)

Desconsiderando seus valores nulos que representam o número de 235, verificamos que em sua grande maioria os clientes ganham anualmente um valor menor que \\$40.000,00 porém uma pequena parte ganha mais que \\$120.000,00.

[Retornar ao índice](#Índice)

### Quantidade de Clientes por Classe em ```escolaridade```

- **Query 11:**

```sql
SELECT escolaridade,
	COUNT(*) AS quantidade
FROM credito
GROUP BY escolaridade
ORDER BY quantidade DESC;
```

In [4]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query%2011.csv')

Unnamed: 0,escolaridade,quantidade
0,mestrado,810
1,ensino medio,545
2,sem educacao formal,367
3,na,346
4,graduacao,261
5,doutorado,235


![query11.1](https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query%2011.1.JPG)

Nesta coluna podemos verificar a existência de valores nulos, podemos entender melhor sua representatividade utilizando a porcentagem: 
> **mestrado - 31,6%**

> **ensino medio - 21,3%**

> **sem educacao formal - 14,3%**

> **na - 13,5%**

> **graduacao - 10,2%**

> **doutorado - 9,2%**

[Retornar ao índice](#Índice)

## Análise de Valores Númericos

### Valor Mínimo, Máximo e Média na Coluna ```idade```

- **Query 12:**

```sql
SELECT MIN(idade) AS min_idade,
    ROUND(AVG(idade)) AS med_idade,
    MAX(idade) AS max_idade
FROM credito;
```

In [6]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query12.csv')

Unnamed: 0,min_idade,med_idade,max_idade
0,26,46.0,73


### Valor Mínimo, Máximo e Média na Coluna ```qtd_transacoes_12m```

- **Query 13:**

```sql
SELECT MIN(qtd_transacoes_12m) AS min_qtd_transacoes_12m,
    ROUND(AVG(qtd_transacoes_12m)) AS med_qtd_transacoes_12m,
    MAX(qtd_transacoes_12m) AS max_qtd_transacoes_12m
FROM credito;
```

In [7]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query13.csv')

Unnamed: 0,min_qtd_transacoes_12m,med_qtd_transacoes_12m,max_qtd_transacoes_12m
0,10,42.0,103


### Valor Mínimo, Máximo e Média na Coluna ```valor_transacoes_12m```

- **Query 14:**

```sql
SELECT MIN(valor_transacoes_12m) AS min_valor_transacoes_12m,
    ROUND(AVG(valor_transacoes_12m)) AS med_valor_transacoes_12m,
    MAX(valor_transacoes_12m) AS max_valor_transacoes_12m
FROM credito;
```

In [8]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query14.csv')

Unnamed: 0,min_valor_transacoes_12m,med_valor_transacoes_12m,max_valor_transacoes_12m
0,510.16,1820.0,4776.58


[Retornar ao índice](#Índice)

## Relacionando Diferentes Variáveis

### Média da ```qtd_transacoes_12m``` relacionada com o tipo de ```tipo_cartao```, ```sexo``` e ```escolaridade```

- **Query 15:**

```sql
SELECT COUNT(*) as quantidade,
    AVG(qtd_transacoes_12m) AS media_qtd_transacoes,
    tipo_cartao,
    sexo,
    escolaridade
FROM credito
WHERE escolaridade != 'na'
GROUP BY sexo,
    escolaridade,
    tipo_cartao
ORDER BY quantidade DESC;
```

In [2]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query15.csv')

Unnamed: 0,quantidade,media_qtd_transacoes,tipo_cartao,sexo,escolaridade
0,462,41.274892,blue,M,mestrado
1,330,40.49697,blue,M,ensino medio
2,316,41.553797,blue,F,mestrado
3,203,40.862069,blue,M,sem educacao formal
4,190,42.010526,blue,F,ensino medio
5,158,41.740506,blue,M,graduacao
6,148,41.682432,blue,F,sem educacao formal
7,133,42.759398,blue,M,doutorado
8,92,41.684783,blue,F,doutorado
9,91,45.791209,blue,F,graduacao


Podemos definir as considerações iniciais com a observação da variável ```escolaridade```, que não há relação considerável com as demais variáveis. 

Os resultados das quantidades demonstram que o ```Cartão blue``` representa o cartão mais acessível sendo oferecido com maior facilidade aos seus clientes. A ```quantidade média de transações``` com valor mais alto ocorre nos ```cartões Gold```, ```Silver``` e ```Blue```. Porém pela quantidade e volume podemos definir o ```Cartão Blue``` como o vencedor das ```transações``` realizadas sendo destacado o ```sexo Masculino```.

[Retornar ao índice](#Índice)

### Média do ```limite_credito``` relacionado com o tipo de ```tipo_cartao```, ```sexo``` e ```escolaridade```

- **Query 16:**

```sql
SELECT COUNT(*) as quantidade,
    AVG(limite_credito) AS media_limite_credito,
    sexo,
    escolaridade,
    tipo_cartao
FROM credito
WHERE escolaridade != 'na'
GROUP BY sexo,
    escolaridade,
    tipo_cartao
ORDER BY media_limite_credito DESC;
```

In [2]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query16.csv')

Unnamed: 0,quantidade,media_limite_credito,sexo,escolaridade,tipo_cartao
0,1,34516.96,F,doutorado,platinum
1,2,34516.945,M,mestrado,gold
2,1,34516.94,M,graduacao,gold
3,1,34516.94,F,graduacao,gold
4,4,34516.836,M,ensino medio,gold
5,1,34516.25,M,mestrado,platinum
6,1,34516.16,M,doutorado,gold
7,7,33407.15,M,graduacao,silver
8,7,30228.2,M,sem educacao formal,silver
9,22,29211.072,M,mestrado,silver


Neste caso utilizamos a coluna ```media_limite_credito``` organizada do maior para o menor valor para melhor visualização de como o ```limite de crédito``` ocorre nestes casos. 

Com o maior valor de ```media_limite_credito``` para o tipo de cartão sendo do tipo ```cartão Platinum``` o ```sexo Feminino``` se destaca dos demais porém com apenas 1 ocorrência.

O segundo maior valor de ```media_limite_credito``` para o tipo de cartão sendo sendo do tipo ```cartão Gold``` ocorre para o ```sexo Masculino``` com maior número de ocorrências.

O terceiro maior valor de ```media_limite_credito``` para o tipo de cartão sendo sendo do tipo ```cartão Silver``` ocorre para o ```sexo Masculino``` com maior número de ocorrências, assim como também para o tipo de cartão ```Blue```.

[Retornar ao índice](#Índice)

### Médias de ```limite_credito```, ```qtd_transacoes_12m```, ```valor_transacoes_12m``` relacionadas com o ```tipo_cartao``` e ```salario_anual```

- **Query 17:**


```sql
SELECT COUNT(*) AS quantidade,
    tipo_cartao,
    salario_anual,
    ROUND(AVG(limite_credito), 2) AS media_limite_credito,
    AVG(qtd_transacoes_12m) AS media_qtd_transacoes,
	ROUND(AVG(valor_transacoes_12m), 2) AS media_valor_transacoes
FROM credito
WHERE salario_anual != 'na'
GROUP BY tipo_cartao,
	salario_anual
ORDER BY CASE
		tipo_cartao
		WHEN 'blue' THEN 1
		WHEN 'silver' THEN 2
		WHEN 'gold' THEN 3 ELSE 4
	END,
	CASE
		salario_anual
		WHEN 'menos que $40K' THEN 1
		WHEN '$40K - $60K' THEN 2
		WHEN '$60K - $80K' THEN 3
		WHEN '$80K - $120K' THEN 4
		WHEN '$120K +' THEN 5 ELSE 6
	END;
```

In [2]:
pd.read_csv('https://raw.githubusercontent.com/guilherme-rhein/EDA---Exploratory-Data-Analysis-SQL/main/Queries%20Realizadas/Query17.csv')

Unnamed: 0,quantidade,tipo_cartao,salario_anual,media_limite_credito,media_qtd_transacoes,media_valor_transacoes
0,677,blue,menos que $40K,3797.09,43.0,1857.24
1,449,blue,$40K - $60K,4832.76,42.0,1841.51
2,431,blue,$60K - $80K,8061.38,41.0,1814.45
3,461,blue,$80K - $120K,13736.87,40.0,1748.57
4,212,blue,$120K +,17105.39,40.0,1707.02
5,20,silver,menos que $40K,12007.81,45.0,2120.2
6,17,silver,$40K - $60K,17870.18,43.0,1776.94
7,15,silver,$60K - $80K,30351.36,39.0,1610.78
8,22,silver,$80K - $120K,34516.4,45.0,1910.17
9,9,silver,$120K +,32341.1,41.0,1611.85


A apresentação destes dados deixam as análises anteriores mais claras, nas quais os relacionamentos entre as variáveis ```salario_anual```, ```quantidade```, ```media_limite_credito```, esclarecem melhor a relação entre as variáveis selecionadas.

Podemos dizer que existe uma tendência para redução do valor na ```media_qtd_transacoes``` seguindo a ordem dos cartões ```blue```, ```silver```, ```gold```, ```platinum```.
<br><br>

Verificamos novamente a relação entre a ```media_limite_credito``` está relacionada com ```tipo de cartão```, sendo que os valores mais baixos de ```media_limite_credito``` são dos clientes que possuem o tipo de cartão ```blue```, e a ocorrência de aumento de acordo com a ```faixa salarial anual```.

Para cada faixa de ```salario_anual```, existe um ```tipo_cartao``` seguido de uma faixa crescente para a ```media_limite_credito```.
<br><br>


Analisando a variável```salario_anual``` podemos verificar pela ```quantidade``` que a maior parte dos clientes possuem salários anuais inferiores a ```$40.000,00```

[Retornar ao índice](#Índice)

# **Conclusão:**

Podemos concluir após algumas das análises extraídas, fornecendo insights sobre o perfil dos clientes que poderiam ser utilizados para uma estratégia de marketing, equipe de pricing, entre outras diversas áreas que podem utilizar as vantagens de pesquisas baseadas em dados para tomar ações mais seguras e competitivas dentro do mercado o faz com que os limites para erros sejam parametrizados e quantificados. 

Todo conjunto de ações nas diferente equipes podem trazer maior segurança, seja para o lançamento de novos produtos, análise de performance ao longo do tempo para verificar novas tendências e correções, objetivando uma melhor competitividade dentro do mercado e maior segurança nas tomadas de decisões.


[Retornar ao índice](#Índice)

---