# Análise em SQL do Limite de Crédito de Clientes Bancários 

Para esse estudo, foi utilizado um dataset que contém dados de clientes de uma instituição financeira. O objetivo é analisar o limite de crédito oferecido pelo banco aos clientes de acordo com as características de seu perfil e avaliar as possíveis influências de fatores como gênero, escolaridade, e salário, no limite obtido pelos clientes.
Utilizamos a plataforma AWS, e começamos carregando o arquivo .csv no S3 e a partir dele criando a tabela no Athena:

In [1]:
CREATE EXTERNAL TABLE IF NOT EXISTS default.credito ( 
  `idade` int,
  `sexo` string,
  `dependentes` int,
  `escolaridade` string,
  `estado_civil` string,
  `salario_anual` string,
  `tipo_cartao` string, 
  `qtd_produtos` bigint,
  `iteracoes_12m` int,
  `meses_inativo_12m` int,
  `limite_credito` float,
  `valor_transacoes_12m` float,
  `qtd_transacoes_12m` int 
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'serialization.format' = ',',
  'field.delim' = ','
) LOCATION 's3://bucket-luciana-credito/'
TBLPROPERTIES ('has_encrypted_data'='false');

SyntaxError: invalid syntax (950488453.py, line 1)

Uma rápida descrição da tabela nos mostra as colunas com as quais podemos trabalhar:

In [None]:
DESCRIBE credito;

![describe - b.png](attachment:04b69466-8ecb-4a46-9971-3480c523bf21.png)

Informações como sexo, escolaridade, salário anual, valor das transações e quantidade de transações são os fatores mais relevantes para essa análise, pois possuem relação mais próxima com o perfil e comportamento financeiro do cliente. 

Iniciamos fazendo uma breve estatística desses dados, a começar pela distribuição do sexo:

In [None]:
SELECT COUNT(sexo), sexo
FROM credito
GROUP BY sexo;

![distrib_sexo.png](attachment:0c4b0882-f8a5-475f-b1d6-a75d675d3920.png)

![image.png](attachment:92d4d846-191d-47b5-8e28-5e0fe9d2b666.png)

A porcentagem de homens nesse conjunto de dados é consideravelmente maior do que a porcentagem de mulheres, então levaremos isso em conta durante a análise fazendo as comparações de forma proporcional. 

A seguinte query mostra como a idade dos clientes se distribui, de acordo com o sexo:

In [None]:
SELECT MIN(idade) AS idade_minima, MAX(idade) AS idade_maxima, ROUND(AVG(idade),2) AS idade_media, sexo
FROM credito
GROUP BY sexo;

![idade_stat_groupbysex-B.png](attachment:9273ef91-42f6-4e8c-8b97-b1915c426a12.png)

A idade mínima e a idade média são as mesmas tanto para homens quanto para mulheres, porém a idade máxima é um pouco maior entre os homens. 

# Escolaridade

Examinando agora a distribuição da escolaridade:

In [None]:
SELECT COUNT(escolaridade), escolaridade
FROM credito
GROUP BY escolaridade;

![distrib_escolaridade.png](attachment:2b83c206-dbbb-496f-839d-1b697b78a111.png)

Verificando como a distribuição se divide entre os sexos feminino e masculino:

In [None]:
/*Para o sexo feminino:*/

SELECT COUNT(escolaridade), escolaridade
FROM credito
WHERE sexo = 'F' 
GROUP BY escolaridade;

![distrib_escolaridade_sexoF.png](attachment:55c1a229-0cdb-41a4-bf1e-dda3028fadbf.png) 


In [None]:
/*Para o sexo masculino:*/

SELECT COUNT(escolaridade), escolaridade
FROM credito
WHERE sexo = 'M' 
GROUP BY escolaridade;

![distrib_escolaridade_sexoM.png](attachment:330a339a-2cc5-455e-8d8d-8cc1f9f63529.png)

![image.png](attachment:9b46f78d-cd32-4dc7-9ba8-5a3c0b3dd66b.png)

![image.png](attachment:abd7a87e-9824-4a43-93e6-3a6ca1aba953.png)


Observando a razão entre a distribuição de escolaridade para mulheres e homens, é possível notar que as diferenças não são significativas, os valores estando ao redor de 0.6 para todas as escolaridades, indicando que o nível de escolaridade é bem equilibrado para os dois sexos. 

# Salário Anual

Fazendo o mesmo para o salário anual, já temos outra imagem:

In [None]:
/*Para o sexo feminino:*/

SELECT COUNT(salario_anual), salario_anual
FROM credito
WHERE sexo = 'F' 
GROUP BY salario_anual;

![distrib_salarioanual_sexoF.png](attachment:3e128028-4098-4581-aa4f-b76c568852b5.png)

In [None]:
/*Para o sexo masculino:*/

SELECT COUNT(salario_anual), salario_anual
FROM credito
WHERE sexo = 'M' 
GROUP BY salario_anual;

![distrib_salarioanual_sexoM.png](attachment:d9e5377d-8468-4ca4-8916-81a67deffeec.png)

![grafico_salarioanual_sexo.png](attachment:eebf4bc8-b8d7-4514-8c9f-088a4795ab46.png)

Neste caso a diferença é bem grande. Existem faixas salariais onde não há nenhum cliente do sexo feminino. Todas clientes mulheres estão distribuídas nas duas faixas mais baixas de salário, e uma boa porcentagem (21%, contra 1,5% nos homens) não possui salário declarado. Nos gráficos de fatia abaixo fica clara a diferença da distribuição de salário entre os sexos:

![image.png](attachment:39b6444c-bf59-4a65-ab23-f84dbfd49efc.png)

# Limite de Crédito

Agora vamos analisar o limite de credito, começando pela estatística básica, valor mínimo, máximo e médio, nessa ordem:

In [None]:
SELECT MIN(limite_credito) AS credito_minimo
FROM credito;

![image.png](attachment:7b244f45-6ae4-4920-a770-709975c1773b.png)

In [None]:
SELECT MAX(limite_credito) AS credito_maximo
FROM credito;


![image.png](attachment:05aba7fc-6269-4488-a349-c4687be213d8.png)

In [None]:
SELECT ROUND(AVG(limite_credito), 2) AS credito_medio
FROM credito;

![image.png](attachment:ce7c84ff-8529-41ec-9377-394aed1fb40f.png)

A query abaixo calcula o limite médio de acordo com o sexo. Podemos ver uma grande diferença, sendo o limite para mulheres bem abaixo do limite médio geral, e o limite para os homens acima do limite médio. O limite para clientes do sexo masculino é quase o dobro do limite para o sexo feminino.

In [None]:
SELECT ROUND(AVG(limite_credito),2) AS credito_medio, sexo
FROM credito
GROUP BY sexo;

![image.png](attachment:e993ed1f-178f-43e4-9435-c17a5bd5b3c2.png)

# Limite de Crédito em função da Escolaridade

As queries abaixo calculam a média do limite de crédito para cada agrupamento de escolaridade, geral para os dois sexos. 

In [None]:
SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'sem educacao formal';

SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'ensino medio';

SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'graduacao';

SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'mestrado';

SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'doutorado';

![image.png](attachment:6e4e91f0-f8b1-45e3-a33f-be4835bac42b.png)![image.png](attachment:95946732-9538-4a17-84a6-0b3a2b047ea3.png)![image.png](attachment:eb67de8f-f8d0-447d-b6ca-a703e60b2190.png)![image.png](attachment:6dc854a8-82d5-47bb-8998-960621671e78.png)![image.png](attachment:b7b2fdb9-990f-4fe1-9d2e-8933f1047aea.png)

Vemos que os valores não possuem muita variação. Agora calculando as médias apenas para o sexo feminino:

In [None]:
SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'sem educacao formal' AND sexo = 'F';
​
SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'ensino medio' AND sexo = 'F';
​
SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'graduacao' AND sexo = 'F';
​
SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'mestrado' AND sexo = 'F';
​
SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'doutorado' AND sexo = 'F';

![image.png](attachment:e58372a4-c64b-431e-9b44-3f1642b15179.png)![image.png](attachment:3805814f-857d-4add-9915-78d695432549.png)![image.png](attachment:d6755aad-3be9-427d-bbd3-27f3c33c818b.png)![image.png](attachment:f136dd18-66c0-470c-ba44-90fdd9e6fa04.png)![image.png](attachment:28b3bf0e-0aa3-4612-ad92-c3a3ac5995a3.png)

Os valores continuam sem muita variação entre as escolaridades, porém são mais baixos em relação aos calculados no passo anterior. Agora calculamos o mesmo para o sexo masculino:

In [None]:
SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'sem educacao formal' AND sexo = 'M';
​
SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'ensino medio' AND sexo = 'M';
​
SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'graduacao' AND sexo = 'M';
​
SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'mestrado' AND sexo = 'M';
​
SELECT AVG(limite_credito)
FROM credito
WHERE escolaridade = 'doutorado' AND sexo = 'M';

![image.png](attachment:5eb72fc3-71c6-4c18-9d60-b20c98c51762.png)![image.png](attachment:f63c062f-705c-4a23-8857-79c0a379ff0b.png)![image.png](attachment:a4db3d22-a68d-4116-8608-d13fbdafb989.png)![image.png](attachment:ccbd9d06-6ae0-4300-94fb-29d41252aa0f.png)![image.png](attachment:ab5c4fa9-c9f7-47e9-a813-707488654f0d.png)

Os valores novamente permanecem sem muita variação de acordo com a escolaridade, porém são significativamente maiores que os valores calculados anteriormente. Podemos visualizar isso melhor em um gráfico de linhas:

![image.png](attachment:397a3b8d-0948-4ac0-be68-01aaa5b87558.png)

O gráfico de linhas acima mostra que a escolaridade não tem influência no limite de crédito, porém existe uma grande diferença entre as médias dos sexos feminino e masculino, tendo as mulheres aproximadamente metade do limite de crédito dos homens. 

# Limite de Crédito em função do Salário Anual

Da mesma forma como fizemos com a escolaridade, vamos calcular os valores médios do limite de crédito para cada faixa salarial, geral para os dois sexos:

In [None]:
SELECT AVG(limite_credito)
FROM credito
WHERE salario_anual = 'menos que $40K';

SELECT AVG(limite_credito)
FROM credito
WHERE salario_anual = '$40K - $60K';

SELECT AVG(limite_credito)
FROM credito
WHERE salario_anual = '$60K - $80K';

SELECT AVG(limite_credito)
FROM credito
WHERE salario_anual = '$80K - $120K';

SELECT AVG(limite_credito)
FROM credito
WHERE salario_anual = '$120K +';

![image.png](attachment:5e00327d-579d-49cb-9a36-7fd2f72a2e3b.png)![image.png](attachment:d1722fa7-bc78-43cf-842a-01b98928a2d9.png)![image.png](attachment:740f82d7-40fd-49d9-a812-713382d4dce2.png)![image.png](attachment:3213ced8-5e08-4121-8ec0-18970e361278.png)![image.png](attachment:83ffff27-7f8a-4236-85ff-ca3a541b5d02.png)

Como não existem mulheres na maioria das categorias de salário, não cabe a comparação por sexo nesse caso, pois a maioria do total é representado por homens. Diferentemente da escolaridade, nota-se uma grande variação do limite de acordo com cada faixa de salário, melhor visualizada no gráfico abaixo:

![image.png](attachment:a5beef90-e959-447e-a632-67951de11375.png)

Claramente, quanto maior a faixa salarial, maior o limite de crédito oferecido aos clientes. 

# Movimentação Financeira

Vamos verificar o quanto a movimentação financeira varia entre os sexos. Primeiro calculando a quantidade média de transações geral, e em seguida para cada sexo:

In [None]:
SELECT ROUND(AVG(qtd_transacoes_12m),2) AS qtd_media_geral
FROM credito;

SELECT ROUND(AVG(qtd_transacoes_12m),2)
FROM credito
WHERE sexo = 'F';

SELECT ROUND(AVG(qtd_transacoes_12m),2)
FROM credito
WHERE sexo = 'M';

![image.png](attachment:f0b5477c-da5c-44ba-b5d1-b5fe89b28b26.png)![image.png](attachment:860c27b5-1ae2-4796-bad7-6cc0b62d811d.png)![image.png](attachment:624a0265-1193-48e8-9fe0-4bcddd614c9a.png)

![image.png](attachment:9488e481-e848-4e79-94a2-ce6d6cd8ac8e.png)

Vemos que praticamente não há nenhuma diferença entre os valores, sendo a média geral aproximadamente equivalente à média feminina e à masculina. Calculando o mesmo para o valor médio das transações:

In [None]:
SELECT ROUND(AVG(valor_transacoes_12m),2) AS valor_medio_transacoes_geral
FROM credito;

SELECT ROUND(AVG(valor_transacoes_12m),2) AS valor_medio_transacoes_mulheres
FROM credito
WHERE sexo = 'F';

SELECT ROUND(AVG(valor_transacoes_12m),2) AS valor_medio_transacoes_homens
FROM credito
WHERE sexo = 'M';

![image.png](attachment:3930cf12-b088-4956-8b7b-8f84d7fedbbb.png)![image.png](attachment:707eb524-3a17-40ae-82dd-d0ac99291469.png)![image.png](attachment:b8a0367e-a007-4665-afd6-de80cd26da47.png)

![image.png](attachment:280122aa-5f4a-48ed-ac84-9e5bb6e612e1.png)

Da mesma forma como na quantidade de transações, as diferenças são desprezíveis. Vemos que apesar do limite de crédito ser muito menor para as mulheres, não há diferença significativa na quantidade e valores da movimentação financeira entre os sexos. 

# Conclusão

As conclusões seguintes se aplicam apenas ao conjunto de dados analisado nesse estudo. 

O limite de crédito oferecido aos clientes é proporcional ao salário anual dos mesmos. 

A escolaridade não possui influência no limite de crédito. 

O limite médio oferecido às mulheres é aproximadamente metade do limite médio oferecido aos homens. 

A distribuição do salário anual mostra que as mulheres se concentram nas faixas salariais mais baixas enquanto os homens se distribuem entre todas as faixas.
Não existem mulheres com salário superior a 60K, enquanto a maioria dos homens possui salário entre 60K e 120K.

Não existe diferença no nível de escolaridade entre mulheres e homens. 

Não existe diferença no comportamento financeiro de mulheres e homens. 

A análise sugere que a diferença no limite de crédito oferecido às mulheres se deve à grande diferença salarial, tendo as mulheres salários muito mais baixos e consequentemente limites de crédito muito menores que os homens.
