# **Exploração e análise de dados de crédito com SQL**

---



![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/SQL.jpg?raw=true)



---


## Tópicos

1.	Introdução
2.	Sobre os dados utilizados
3.	Criação da Tabela
4.	Exploração de Dados
5.	Análise de Dados
6.	Conclusão

---

## 1. INTRODUÇÃO:

Este projeto visa explorar e analisar dados de crédito, empregando a linguagem SQL. A análise será conduzida no ambiente da AWS Athena, uma solução fornecida pela Amazon. Utilizaremos essa abordagem para examinar um conjunto de dados de crédito de clientes bancários.

## 2. SOBRE OS DADOS UTILIZADOS:

Os dados representam informações de clientes de um banco e contam com as seguintes colunas:
* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
*	dependentes = número de dependentes do cliente
*	escolaridade = nível de escolaridade do clientes
*	salario_anual = faixa salarial do cliente
*	tipo_cartao = tipo de cartao do cliente
*	qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
*	iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
*	meses_inativo_12m = quantidade de meses que o cliente ficou inativo
*	limite_credito = limite de credito do cliente
*	valor_transacoes_12m = valor das transações dos ultimos 12 meses
*	qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses

A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset


## 3. Criação da Tabela:
O projeto foi iniciado criando uma pasta chamada " bucket-cezar-transacoes-ebac" no ambiente da AWS  S3, que serve como repositório para a fonte de dados mencionada, posterior foi criado uma outra pasta de nome "credito.csv" e carregado o arquivo. Na AWS Athena, foi estabelecida a tabela "credito" utilizando o referido arquivo CSV.

Sendo executado os seguintes comandos:

CREATE EXTERNAL TABLE IF NOT EXISTS default.credito (

  `idade` int,

  `sexo` string,

  `dependentes` int,

  `escolaridade` string,

  `estado_civil` string,

  `salario_anual` string,

  `tipo_cartao` string,

  `qtd_produtos` bigint,

  `iteracoes_12m` int,
  
  `meses_inativo_12m` int,
  
  `limite_credito` float,
  
  `valor_transacoes_12m` float,
  
  `qtd_transacoes_12m` int

)

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'

WITH SERDEPROPERTIES (

  'serialization.format' = ' , ' ,

  'field.delim' = ' , '

) LOCATION 's3:// bucket-cezar-transacoes-ebac /'

TBLPROPERTIES ('has_encrypted_data'='false');

## 4. Exploração de dados:

Na etapa inicial da análise, o foco está em compreender o conteúdo da nossa matéria-prima. Iniciamos com a exploração de dados para entender mais profundamente o contexto.

> Qual a quantidade de informações temos na nossa base de dados?

**Query:** select count(*) from credito

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query1.png?raw=True)

Obs: Para assegurar uma abordagem menos suscetível a erros e manter organização, a base de dados foi reduzida em relação ao link fornecido. Essa medida preserva a clareza da intenção do projeto, beneficiando-se de uma quantidade adequada de dados para uma análise eficaz.

> Como são os dados?

**Query:** select * from credito limit 10;

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query2.png?raw=True)

Identificamos a presença de valores nulos na tabela, "valor na". Iremos examinar de perto os valores de cada coluna para uma compreensão mais aprofundada dessa condição.

> Quais os tipos de dados existem?

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query3.png?raw=True)

Agora que compreendemos os tipos de dados, concentraremos nossa atenção nas variáveis não numéricas, examinando-as mais detalhadamente.

> Quais são os tipos de escolaridade disponíveis no dataset?

**Query:** SELECT DISTINCT escolaridade FROM credito

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query4.png?raw=True)

Mais uma vez, identificamos valores nulos nos dados de estado civil. Vamos estender essa verificação a outras colunas, buscando por possíveis valores nulos.

> Quais são os tipos de estado_civil disponíveis no dataset?

**Query:** SELECT DISTINCT estado_civil FROM credito

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query5.png?raw=True)

Encontramos novamente valores nulos nos dados de estado civil!

> Quais são os tipos de salario_anual disponíveis no dataset?

**Query:** SELECT DISTINCT salario_anual FROM credito

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query6.png?raw=True)

Os salários nesse dataset não estão expostas com o valor exato que o cliente ganha. O que está informado é a faixa salarial de cada um. Também contém dados nulos.

> Quais são os tipos de cartão disponíveis no dataset?

**Query:** SELECT DISTINCT tipo_cartao FROM credito

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query7.png?raw=True)

Aqui vemos que não há necessidade de tratar valores nulos.

## 5. Análise de dados

Após explorar os dados e compreender as informações contidas em nosso banco de dados, podemos realizar uma análise mais aprofundada para obter insights valiosos sobre o seu conteúdo.

> Nesse banco de dados, quantos clientes temos de cada faixa salarial?

**Query:** select count(*), salario_anual from credito group by salario_anual

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query8.png?raw=True)

Existe uma minoria de clientes nessa base de dados que ganham uma renda acima de 120k, e a maioria dos clientes nessa base de dados apresenta uma renda inferior a 40K, sendo que há 235 clientes sem informação sobre a faixa salarial. Essa observação sugere que focar nesse público de renda mais baixa pode ser uma estratégia interessante para a empresa.

> Conseguimos obter uma visualização mais clara e compreensível dos dados por meio do gráfico de barras gerado a partir do arquivo de dados.

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query9.png?raw=True)

Exploramos a distribuição de gênero dos clientes neste banco de dados

**Query:** SELECT COUNT(*), sexo FROM credito GROUP BY sexo;

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query10.png?raw=true)

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query11.png?raw=true)

Foi criado um gráfico em pizza utilizando o CSV extraído dos dados para proporcionar uma visualização mais clara da proporção entre os clientes do sexo masculino e feminino.

> Visando direcionar estratégias de marketing de forma eficaz para nossos clientes, é crucial determinar a faixa etária predominante entre eles.

**Query:** select avg(idade) as media_idade, min(idade) as min_idade, max(idade) as max_idade, sexo from credito group by sexo

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query12.png?raw=true)

Observa-se que a idade média e a menor idade são muito semelhantes entre os dois sexos. Embora a idade máxima dos homens seja maior, essa diferença não é significativa, tornando-a menos relevante.

> Qual é o valor máximo e mínimo das transações realizadas pelos clientes?

**Query:** select min(valor_transacoes_12m) as transacao_minima, max(valor_transacoes_12m) as transacao_maxima from credito

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query13.png?raw=True)

No banco de dados, a soma das transações em 12 meses varia de 510.16 a 4776.58.

> Quais são as características dos clientes que detêm os maiores limites de crédito?

**Query:** select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito where escolaridade != 'na' and tipo_cartao != 'na' group by escolaridade, tipo_cartao, sexo order by limite_credito desc limit 10

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query14.png?raw=True)

Não aparenta existir uma influência da escolaridade no limite de crédito. O limite mais elevado é concedido a um homem sem educação formal. Além disso, não parece haver correlação entre o tipo de cartão, escolaridade e limite. Entre os maiores limites, observam-se clientes com cartões: gold, silver, platinum e blue.

> Quais são as características dos clientes que detêm os menores limites de crédito?

**Query:** select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito where escolaridade != 'na' and tipo_cartao != 'na' group by escolaridade, tipo_cartao, sexo order by limite_credito asc

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query15.png?raw=True)

Nesta análise, observamos que não há clientes com cartão platinum entre aqueles com os menores limites. Além disso, notamos que a maioria dos menores limites pertence a mulheres, enquanto nos maiores limites predomina o sexo masculino.

> Há influência do estado civil nos valores de transações e no limite de crédito?

**Query:** SELECT AVG(valor_transacoes_12m) AS media_valor_transacoes, AVG(limite_credito)AS media_limite, estado_civil, sexo FROM credito WHERE estado_civil != 'na' GROUP BY estado_civil, sexo ORDER BY media_limite DESC;

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query16.png?raw=True)

Observa-se que os indivíduos divorciados apresentam maiores limites de crédito e gastam mais, assemelhando-se aos solteiros. Enquanto isso, clientes casados, tanto homens quanto mulheres, possuem limites de crédito menores e gastam menos em transações.

> Qual é a diferença nos gastos entre mulheres e homens?

**Query:** select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo from credito group by sexo

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query17.png?raw=true)

Apesar da diferença nos limites, os gastos entre homens e mulheres são semelhantes.

> Há uma influência do salário no limite de crédito?

**Query:** select avg(qtd_produtos) as qts_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite, sexo, salario_anual from credito where salario_anual != 'na' group by sexo, salario_anual order by avg(valor_transacoes_12m) desc

![](https://github.com/CezarRibeiro/Projeto_Credito_SQL/blob/main/Imagens/query18.png?raw=true)

Claramente que os Indivíduos com faixas salariais mais baixas também demonstram ter limites de crédito menores.

## Conclusão:

A partir da análise do dataset de crédito, destacam-se alguns insights valiosos:

- A predominância de clientes possui renda até 40K.

- A maior parcela da base de clientes é composta por homens.

- O estado civil dos clientes casados está associado a limites de crédito e transações mais baixos, independentemente do sexo.

- A faixa salarial influencia diretamente nos limites de crédito.

- A escolaridade não parece ser um fator determinante nos limites ou tipos de cartão.

- Entre os clientes com os menores limites, não se observa a presença do cartão platinum.

- Os clientes com os maiores limites, predominantemente homens, mantêm gastos similares entre os dois sexos.


A análise mais detalhada dos dados pode esclarecer as razões por trás da disparidade nos limites de crédito atribuídos às mulheres. Essa variação destaca a importância de reavaliar possíveis influências culturais ou práticas existentes que contribuem para essa diferença.




In [2]:
![]('query1.png')

/bin/bash: -c: line 1: syntax error near unexpected token `'query1.png''
/bin/bash: -c: line 1: `[]('query1.png')'
