# Exploração e análise de dados de crédito com SQL
Esse notebook faz parte do curso SQL para análise de dados da EBAC.

# Os dados:
Os dados representam informações de clientes de um banco e contam com as seguintes colunas:

- idade = idade do cliente
- sexo = sexo do cliente (F ou M)
- dependentes = número de dependentes do cliente
- escolaridade = nível de escolaridade do clientes
- salario_anual = faixa salarial do cliente
- tipo_cartao = tipo de cartao do cliente
- qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
- iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
- meses_inativo_12m = quantidade de meses que o cliente ficou inativo
- limite_credito = limite de credito do cliente
- valor_transacoes_12m = valor das transações dos ultimos 12 meses
- qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses

A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: https://github.com/vitorbga/Credit_EDA_and_Analysis/blob/main/SQL_M8_support%20material_exercise_credit.csv



# Exploração de dados:
A primeira fase da análise é entender a nossa matéria prima. Começando pela exploração de dados:

**Qual a quantidade de informações que temos na base de dados?**

**Query:** SELECT count(*) FROM credito

![image.png](attachment:91fe8305-ee98-4781-a42f-5338639119ac.png)

Reposta: 2564 linhas

**Como são os dados?**

**Query:** SELECT * FROM credito LIMIT 10; 

![image.png](attachment:4439fe67-a72c-4726-83e0-c86f9b367540.png)

É possível reparar que existem informações nulas na tabela (valor na).

**Quais os tipos de cada dado?**

**Query:** DESCRIBE credito

![image.png](attachment:58e51323-4380-4e7e-a458-f52654482891.png)

Descrição dos tipos de dados

Agora que identificamos os tipos de dados, vamos verificar as varíaveis que não são numéricas.

**Quais são os tipos de escolaridade disponíveis no dataset?**

**Query:** SELECT DISTINCT escolaridade FROM credito

Tipos de escolaridade

![image.png](attachment:c1e0a17d-2671-42f0-a694-3cecf1589efe.png)

Os dados contam com vários níveis de escolaridade e é possível perceber que existem valores nulos (na) no dataset.

**Será que temos mais valores nulos?**

Quais são os tipos de estado_civil disponíveis no dataset?

**Query:** SELECT DISTINCT estado_civil FROM credito

Tipos de estado civil

![image.png](attachment:56b05f27-4b05-4619-a9fc-632bcc87691b.png)

Novamente encontra-se valores nulos nos dados de estado civil.

**Quais são os tipos de salario_anual disponíveis no dataset?**

**Query:** SELECT DISTINCT salario_anual FROM credito

Tipos de salario anual

![image.png](attachment:cfcf1391-2a90-49ae-9106-a49b44ab2b96.png)

Os salários não estão com o valor exato que o cliente ganha, informando a faixa salarial de cada um. Também contem dados nulos.

**Quais são os tipos de cartão disponíveis no dataset?**

**Query:** SELECT DISTINCT tipo_cartao FROM credito

Tipos de cartão

![image.png](attachment:7e8b1be0-834a-44f9-8828-b6dc21cd5731.png)

Aqui vemos que não há necessidade de tratar valores nulos.






# Análise de dados
Uma vez que exploramos o dados e buscamos entender quais são as informações que temos no nosso banco de dados, podemos analisar as informações para buscar entender o que está acontecendo no banco de dados. Vamos fazer perguntas:

**Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

**Query:** select count(*), salario_anual from credito group by salario_anual

Quantidade para cada faixa salarial

![image.png](attachment:5becf613-1d57-4a71-87af-92d6625c00e3.png)

A maioria dos clientes possuem renda menor que 40K e existem 235 clientes que não informaram ou não consta a faixa salarial. Deste mode, é interessante focar no público de mais baixa renda.

**Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**

**Query:** select count(*), sexo from credito group by sexo

Quantidade para cada sexo

![image.png](attachment:195e3339-101c-4eb6-bd10-4418fdafbd79.png)

Quantidade para cada sexo - gráfico

A maioria dos clientes desse banco são homens.

**Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?**

**Query:** select avg(idade) as media_idade, min(idade) as min_idade, max(idade) as max_idade, sexo from credito group by sexoMédia de idades por sexo

![image.png](attachment:de2d33b0-cf01-402a-bf53-5b129ee73c02.png)

A menor idade dos dois sexos é a mesma e a média é muito similar, a única diferença é a idade máxima, sendo irrelevante pela diferença pequena. Assim essa análise não foi relevante. 

**Qual a maior e menor transação dos clientes?**

**Query:** select min(valor_transacoes_12m) as transacao_minima, max(valor_transacoes_12m) as transacao_minima from creditoValor transacoes

![image.png](attachment:e21a0c69-beae-4228-b27e-d9de000ec412.png)

Nesse banco de dados temos soma de transações em 12 meses que variam de 510.16 a 5776.58

**Quais as características dos clientes que possuem os maiores creditos?**

**Query:** select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito where escolaridade != 'na' and tipo_cartao != 'na' group by escolaridade, tipo_cartao, sexo order by limite_credito desc limit 10

Valor limite

![image.png](attachment:45dd8cd7-8d21-4964-81bf-8982b19329e5.png)

Não existe impacto da escolaridade no limite, já que o limite mais alto é oferecido para um homem sem educação formal. O cartão também não se relaciona com a escolaridade nem com o limite, dentre os maiores limites, encontramos clientes com cartão: gold, silver, platinum e blue

**Quais as características dos clientes que possuem os menores creditos?**

**Query:** select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito where escolaridade != 'na' and tipo_cartao != 'na' group by escolaridade, tipo_cartao, sexo order by limite_credito asc

Valor limite

![image.png](attachment:5e51fbb5-94b5-40d6-a0e0-e1a1a7eabd2c.png)

Dessa vez percebe-se que não há clientes com cartão platinum entre os menores limites. Percebe-se também que a maioria dos menores limites são mulheres enquanto nos maiores são homens.

**Será que as mulheres gastam mais?**

**Query:** select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo from credito group by sexo

Valor transacoes/sexo

![image.png](attachment:15f5a440-0a52-4517-b1f6-f128551ef77c.png)

Apesar da diferença nos limites, os gastos de homens e mulheres são similares.

Por fim,

**O salário impacta no limite?**

**Query:** select avg(qtd_produtos) as qts_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite, sexo, salario_anual from credito where salario_anual != 'na' group by sexo, salario_anual order by avg(valor_transacoes_12m) desc

Valor salario_anualLimite

![image.png](attachment:40ae8c63-ef3d-4c23-82e8-a0a4edb15c22.png)

Sim. É notável que as pessoas que possuem menor faixa salarial também apresentam menor limite de credito.


# Conclusão
Essas foram as análises extraídas do dataset de crédito. Tendo os insights:

- A maior parte dos clientes possui renda até 40K
- A maior parte dos clientes é masculino!
- A escolaridade não parece influenciar no limite nem no tipo do cartão
- Os clientes com maiores limites são em sua maioria homens
- Os clientes com menores limites são em sua maioria mulheres
- Dentre os menores limites não há presença de cartão platinum
- A faixa salarial impacta diretamente no limite de crédito
- Não existem clientes com salário anual acima de 60K do sexo feminino