# **Crédito Clientes - EDA e Análise - SQL**
Autor: Raul Lemelle

Data: 16 de Abril de 2024.
​
## **1.  Dados**:
​
As informações dos clientes bancários estão apresentadas em dados tabulares com as seguintes categorias:
​
* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m  = quantidade de transacoes dos ultimos 12 meses
​

A tabela foi gerada utilizando o **AWS Athena**, em conjunto com o **S3 Bucket**, contendo uma versão dos dados disponíveis em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset
​
​
## **Exploração de dados:**
​
O primeiro passo da análise consiste em compreender o conteúdo do nosso database.


**Quantos registros há na nossa base de dados?**

**Query:** SELECT count(*) FROM credito
> Reposta: 2564 linhas

**Obs:**
A base de dados do link acima contém mais linhas do que a seleção utilizada. Podemos optar por utilizar todas as linhas disponíveis ou considerar apenas uma fração dos dados. Geralmente, quanto maior a quantidade de dados utilizada, mais confiável será a análise. No entanto, é importante considerar limitações computacionais e financeiras ao decidir sobre a redução dos dados para análise em estudos. 

​

**Como são estruturados os dados?** 

**Query:** SELECT * FROM credito LIMIT 10;

![Dez primeiras linhas do dataset-parte1](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_01.1.jpg?raw=true)
![Dez primeiras linhas do dataset-parte2](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_01.2.jpg?raw=true)

> Percebe-se a presença de alguns valores nulos na tabela (indicados como "NA"). Vamos examinar mais detalhadamente os valores de cada coluna. 

​

**Qual é o tipo de dados presente em cada coluna?**

**Query:** DESCRIBE credito

![Descrição dos tipos de dados](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_03.jpg?raw=true)

​

Agora que compreendemos os tipos de dados presentes, vamos direcionar nossa atenção para as variáveis não numéricas.

​

**Quais são os diferentes níveis de escolaridade listados no conjunto de dados?**

**Query:** SELECT DISTINCT escolaridade FROM credito

![Tipos de escolaridade](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_04.jpg?raw=true)

> Os dados incluem múltiplos níveis de escolaridade, e observamos a presença de valores nulos no conjunto de dados. Vamos tratar essa questão mais adiante.

​

Vamos verificar se existem outros valores nulos no conjunto de dados.

​

**Quais são os diferentes estados civis listados no conjunto de dados?**

**Query:** SELECT DISTINCT estado_civil  FROM credito

![Tipos de estado civil](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_10.jpg?raw=true)

> Encontramos novamente valores nulos nos dados de estado civil.

​

**Quais são os diferentes tipos de salário anual disponíveis no conjunto de dados?**

**Query:** SELECT DISTINCT salario_anual  FROM credito

![Tipos de salario anual](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_11.jpg?raw=true)

> Os salários neste conjunto de dados não são apresentados como valores exatos do ganho de cada cliente. Em vez disso, são fornecidas faixas salariais. Além disso, há dados nulos presentes nessas informações. 

​

**Quais são os diferentes tipos de cartões listados no conjunto de dados?**

**Query:** SELECT DISTINCT tipo_cartao  FROM credito

![Tipos de cartão](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_12.jpg?raw=true)

> Observamos que não é preciso lidar com valores nulos neste caso.

# **2. Análise de dados**

Agora que exploramos os dados e identificamos as informações disponíveis em nosso banco de dados, podemos começar a analisar esses dados para compreender o que está ocorrendo.


Vamos formular algumas perguntas:

**No conjunto de dados, quantos clientes estão em cada faixa salarial?**

**Query:** select count(*), salario_anual from credito group by salario_anual

![Quantidade para cada faixa salarial](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_05.jpg?raw=true)

> A maioria dos clientes nesta base de dados tem uma renda inferior a 40 mil, e há 235 clientes com informação ausente ou não especificada sobre a faixa salarial. Considerando isso, pode ser estratégico para a empresa direcionar seu foco para esse público de renda mais baixa. 

​

**No banco de dados, quantos clientes são do sexo masculino e quantos são do sexo feminino?**

**Query:** select count(*), sexo from credito group by sexo

![Quantidade para cada sexo](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_06.jpg?raw=true)

![Quantidade para cada sexo - gráfico](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/distribuicao_clientes_sexo.png?raw=true)

> A maioria dos clientes no banco de dados é do sexo masculino. Com o arquivo CSV extraído dos dados, é possível criar um gráfico de pizza para visualizar melhor a proporção entre masculino e feminino.

​

**Para direcionar nosso marketing de forma eficaz, é importante entender a faixa etária dos nossos clientes.**

**Query:** select avg(idade) as media_idade, min(idade) as min_idade, max(idade) as max_idade, sexo from credito group by sexo
![Média de idades por sexo](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_13.jpg?raw=true)

> Esta análise não revelou informações significativas. A idade mínima é igual para ambos os sexos, e a média é praticamente idêntica. A única disparidade notável é a idade máxima, mas isso tem pouca relevância, já que a diferença não é significativa.

​

**Quais são as transações mais altas e mais baixas feitas pelos clientes?**

**Query:** select min(valor_transacoes_12m) as transacao_minima, max(valor_transacoes_12m) as transacao_minima from credito
![Valor transacoes](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_14.jpg?raw=true)

> No banco de dados, as somas das transações ao longo de 12 meses variam de 510,16 a 4776,58.

​

**Quais são os atributos dos clientes que detêm os créditos mais elevados?**

**Query:** 
select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo 
from credito
where escolaridade != 'na' and tipo_cartao != 'na' 
group by  escolaridade, tipo_cartao, sexo 
order by limite_credito desc
limit 10

![Valor limite](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_07.jpg?raw=true)

> Não parece haver uma correlação entre o nível de escolaridade e o limite de crédito. Surpreendentemente, o limite mais alto é concedido a um homem sem educação formal. Além disso, parece não haver relação entre o tipo de cartão e a escolaridade ou o limite de crédito. Entre os clientes com os limites mais altos, encontramos uma variedade de tipos de cartão, incluindo gold, silver, platinum e blue.

​

**Quais são os atributos dos clientes que possuem os créditos mais baixos?**

**Query:** 
select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo 
from credito
where escolaridade != 'na' and tipo_cartao != 'na' 
group by  escolaridade, tipo_cartao, sexo 
order by limite_credito asc

![Valor limite](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_15.jpg?raw=true)

> Nesta análise, observamos que não há clientes com cartão platinum entre aqueles com os menores limites. Além disso, notamos que a maioria dos limites mais baixos pertence a mulheres, enquanto nos limites mais altos há predominância de homens. 

​

**Será que as mulheres têm um gasto maior?**

**Query:** 
select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as  media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo 
from credito
group by sexo 

![Valor transacoes/sexo](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_08.jpg?raw=true)

> Embora haja uma diferença nos limites, os gastos de homens e mulheres são semelhantes.

​

**O salário influencia no limite de crédito?**

**Query:** select avg(qtd_produtos) as qts_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite,  sexo,   salario_anual from credito 
where salario_anual != 'na'
group by sexo, salario_anual
order by avg(valor_transacoes_12m) desc

![Valor salario_anualLimite](https://github.com/Raul-Lemelle/data/blob/main/credito_clientes_eda_analise_sql_imagens/query_09.jpg?raw=true)

> Sim, as pessoas com salários mais baixos também têm limites de crédito mais baixos.

# **3. Conclusão**
​
Aqui estão algumas conclusões extraídas da análise do conjunto de dados de crédito.

Pontos notáveis incluem:

- A maioria dos clientes tem uma renda de até 40 mil.
- Os clientes são predominantemente do sexo masculino.
- Parece não haver correlação entre escolaridade e o limite ou tipo de cartão.
- Homens tendem a ter os limites mais altos.
- Mulheres são mais comuns entre os clientes com os limites mais baixos.
- Não há clientes com limites mais baixos que possuam o cartão platinum.
- A faixa salarial impacta diretamente no limite de crédito.
- Não há mulheres com salários anuais acima de 60 mil.