# **(EDA) Análise de dados de crédito com SQL**

*Esse notebook faz parte do curso SQL para análise de dados da EBAC tendo como objetivo exercitar explorar a linguagen SQL.*

## Os dados: 

Os dados representam informações de clientes de um banco e contam com as seguintes colunas: 

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m  = quantidade de transacoes dos ultimos 12 meses

A tabela foi criada no **AWS Athena** junto com o **S3 Bucket** com uma versão dos dados disponibilizados em:https://github.com/joaov222/Analise-de-Dados.git


## **Exploração de dados:**

O primeiro passo para se iniciar a analise de dados e descobrir as dimensãoes que o dataset possue:

**Qual a quantidade de linha que temos na nossa base de dados?**

Query: 
``
SELECT count(*) FROM credito;
``
> Reposta: 10127 linhas

**Como são os dados** 

Query: 
```sql
SELECT * FROM credito LIMIT 10;
```

![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/1_query.png?raw=true)

>Nesta Query podemos indentificar a existencia de valores nulos na coluna escolaridade.


**Quais os tipos de cada dado**

Query: 
```sql
DESCRIBE credito
```

idade        |           bigint              	                    
sexo                 |                      string              	                    
dependentes         |    bigint              	                    
escolaridade         |   string              	                    
salario_anual        |   string              	                    
tipo_cartao         |    string              	                    
qtd_produtos         |   bigint              	                    
iteracoes_12m         |  bigint              	                    
meses_inativo_12m      | bigint              	                    
limite_credito        |  double              	                    
valor_transacoes_12m  |  double              	                    
qtd_transacoes_12m    |  bigint        


agora que compreendemos o tipo de dados que temos em mão vamos analisar seus valores unicos no ambito categórico.

**coluna tipo_cartao**

Query:
``
SELECT DISTINCT tipo_cartao FROM credito``

![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/4_query.png?raw=true)

>Os tipos de cartão não contem nulos 

**coluna escolaridade**

Query:
```sql
SELECT DISTINCT escolaridade FROM credito
```

![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/3_query.png?raw=true)

>a coluna escolaridade possue nulos que podem ser tratados posteriormente.

**coluna salario_anual**

Query:
``
SELECT DISTINCT salario_anual FROM credito``

![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/2_query.png?raw=true)

>o salario anual esta exposto como faixa salrial inves de um valor inteiro ou float, e possue valores nulos

Agora, os valores numéricos serão analisados de modo estatístico. Esta análise permitirá que identifiquemos padrões, tendências e relações importantes dentro do conjunto de dados.

Query:
```sql
SELECT 
    'idade' AS coluna,
    ROUND(AVG(idade), 2) AS media,
    ROUND(MIN(idade), 2) AS minimo,
    ROUND(MAX(idade), 2) AS maximo
FROM credito

UNION ALL

SELECT 
    'dependentes' AS coluna,
    ROUND(AVG(dependentes), 2) AS media,
    ROUND(MIN(dependentes), 2) AS minimo,
    ROUND(MAX(dependentes), 2) AS maximo
FROM credito

UNION ALL

SELECT 
    'limite_credito' AS coluna,
    ROUND(AVG(limite_credito), 2) AS media,
    ROUND(MIN(limite_credito), 2) AS minimo,
    ROUND(MAX(limite_credito), 2) AS maximo
FROM credito

UNION ALL

SELECT 
    'qtd_transacoes_12m' AS coluna,
    ROUND(AVG(qtd_transacoes_12m), 2) AS media,
    ROUND(MIN(qtd_transacoes_12m), 2) AS minimo,
    ROUND(MAX(qtd_transacoes_12m), 2) AS maximo
FROM credito

ORDER BY media DESC
```


![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/5_query.png?raw=true)

>Indentifica-se que os clinetes tem uma idade média na casa dos 40 anos mostra que o publico do banco possue uma idade mais avançada, o limite de credito é bem variado quando se fala de sua amplitude o que faz sentido ja que o banco possue vairo tipos de cartão, os demais valores não saõ relevantes ainda.


dispersabilidade dos dados nas colunas categórias 

**coluna tipo_cartao**

Query:
```sql
select tipo_cartao,count(*) as quantidade
from credito
group by tipo_cartao
order by quantidade desc
```

![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/9_query.png?raw=true)

>Os tipos de cartões seguem bem a regra de niveis esperado blue>silver>gold>platinum quanto mais acima na escala maior o limite

**coluna escolaridade**

Query:
```sql
select escolaridade,count(*) as quantidade
from credito
group by escolaridade
order by quantidade desc
```

![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/7_query.png?raw=true)

>percebe-se um numero de mais ou menos mil individuos por nivel de escolaridade, apenas no nivel de emstrado pode-se consider um outlier ou uma informação unica deste dataframe, Também inentificou-se nulos

**coluna salario_anual**

Query:
```sql
select salario_anual,count(*) as quantidade
from credito
group by salario_anual
order by quantidade desc
```

![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/8_query.png?raw=true)

>verifica-se que boa parte dos individuos ganham menos de 40k ao ano, distribuição nos outros nivis se mantém na logica de quanto maior o salario menor é o numero de pesssoas 

**coluna sexo**

Query:
```sql
select sexo,count(*) as quantidade
from credito
group by sexo
order by quantidade desc
```

![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/6_query.png?raw=true)

>A quantidade de individuos é semelhante entre os sexos 

## **Analise dos dados**

**valor das transações média e produtos entre F & M**

Query:


```sql
select sexo,round(avg(valor_transacoes_12m),2) as valor_transacoes_media_12m, round(avg(qtd_produtos),2) as qtd_media_de_produtos
from credito
group by sexo 
order by valor_transacoes_media_12m desc
```


![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/10_query.png?raw=true)


>vizualiza-se que as transações e os produtos comprados nos ultimos 12 messes entre F e M não possuem uma diferença significativa 

**limite de credito médio entre F & M**

Query:


```sql
select sexo, round(avg(limite_credito),2) as limite_de_credito_medio
from credito
group by sexo
order by limite_de_credito_medio desc
```
![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/11_query.png?raw=true)

>percebe-se que o limite de credito médio entre F e M é quantitativo o M possue 240% a mais que o limite de credito do F

**limite de credito médio entre os niveis de escolaridade**

Query:

```sql
select escolaridade, round(avg(limite_credito),2) as limite_de_credito_medio
from credito
group by escolaridade
order by limite_de_credito_medio desc
```

![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/12_query.png?raw=true)

>O limite de credito médio nos niveis de escolaridades se mantem dentro de um arco de 8492 a 8900 a variação entre os niveis não é muito grande o fato do mestrado grupo que carrega uma grande quantidade de individuos consigo não ser um dos mais altos se deve a sua densidade os valore nulos ainda aparecem e fazem parecer um novo nivem que provavelmete é um grupo feitos das clase  sem educação formal e graduação

**limite de credito médio em relação ao salario anual**

Query:

```sql
select salario_anual, round(avg(limite_credito),2) as limite_de_credito_medio
from credito
group by salario_anual
order by limite_de_credito_medio desc
```

![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/13_query.png?raw=true)

>O salario anual mantem a mesma logica vista na contagem os asalarios maiores possuem um limite de credito maior, outra informação a se lever em conta é que quanto maior o salario menor o numero de individuos no grupo o que afeta bastante o cauculo da média.

**limite de credito médio em relação ao tipo do cartão**

Query:

```sql
select tipo_cartao, round(avg(limite_credito),2) as limite_de_credito_medio
from credito
group by tipo_cartao
order by limite_de_credito_medio desc
```

![](https://github.com/joaov222/portfolio-analista-de-dados/blob/main/Analise%20de%20dados%20com%20SQL/IMG/14_query.png?raw=true)

>Os tipos de cartão mantem um pouco a logica de credito porem acho que pode-se refinar bastante do primeiro nivel ao segunto existe um diferença quamtitativa o que me leva a crer que exista tipos de cartão não compativel com  o limite de credito dos individuos.

# Conclusão

A EDA realizada forneceu uma visão abrangente sobre o perfil dos clientes e seus comportamentos financeiros na base de dados de crédito. Identificaram-se padrões relevantes, bem como áreas que requerem maior atenção para aprimorar a qualidade dos dados e a eficácia das análises futuras. A continuidade deste trabalho, com foco no tratamento de dados e na exploração de insights mais profundos, contribuirá para estratégias mais informadas e decisões de negócio mais assertivas.

insights:

- Idade Média dos Clientes: A média de idade é de 40 anos, indicando um público mais maduro.

- Distribuição de Gênero: A quantidade de clientes é equilibrada entre homens e mulheres.

- Níveis de Escolaridade: A escolaridade é variada, mas há registros nulos que precisam ser tratados.

- Faixa Salarial: A maioria dos clientes ganha menos de 40k anuais, com a distribuição de salários caindo à medida que o valor aumenta.

- Tipos de Cartão: A hierarquia dos cartões segue o esperado, com limites maiores para cartões de níveis superiores.

- Limite de Crédito por Gênero: Homens têm um limite de crédito 240% maior que o das mulheres.

- Limite de Crédito por Escolaridade: A variação no limite de crédito entre diferentes níveis de escolaridade é pequena.

- Limite de Crédito por Salário: Clientes com salários mais altos têm maiores limites de crédito, mas são menos numerosos.

- Transações entre Gêneros: Não há diferenças significativas entre homens e mulheres no valor das transações e produtos adquiridos.

- Valores Nulos: Os nulos em escolaridade e salário anual precisam ser corrigidos para melhorar a análise.

