# **Exploração e análise de dados de crédito com SQL**
Esse notebook faz parte do curso SQL para análise de dados da EBAC.

### Os dados:
#### Os dados representam informações de clientes de um banco e contam com as seguintes colunas:

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses

A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

É importante destacar que pode haver discrepâncias nas proporções das categorias nesta amostra parcial em relação ao conjunto de dados original. Essa subamostra foi extraída com o objetivo de facilitar o processamento dos dados para o projeto em questão.

É válido ressaltar que as estimativas baseadas nesse conjunto de dados podem apresentar menor precisão em comparação com a amostra completa. Portanto, os resultados aqui apresentados não possuem a mesma fidelidade de uma análise realizada com o dataset completo.

## Exploração de Dados

Vamos analisar e entender o que tem no nosso banco de dados:

### Quantidade de linhas no banco de dados

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/qtd%20de%20linhas.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: SELECT count(*) FROM credito

> **ps**.: A base de dados do link acima contém mais linhas do que a seleção utilizada, mas foi optado pela redução de dados para análise para fins de estudos.

### Visão geral dos dados

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/vis%C3%A3o%20geral%20dos%20dados.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: SELECT * FROM credito LIMIT 10;

> É observável que existem dados nulos ('NA') no banco de dados.

### Tipos de cada dado

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/descri%C3%A7%C3%A3o%20dos%20dados.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: DESCRIBE credito

> Temos o total de 13 tipos de dados, variando em strings, int e float.

### Vamos dar uma olhada nos dados não numéricos, e ver o que podemos encontrar

### Dados não numéricos

#### Escolaridade

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/dados%20unicos%20e%20valores%20nulos/dados%20unicos%20e%20valores%20nulos%20-%20escolaridade.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: SELECT DISTINCT escolaridade FROM credito

> Há dados nulos em escolaridade

#### Estado Civil

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/dados%20unicos%20e%20valores%20nulos/dados%20unicos%20e%20valores%20nulos%20-%20estado%20civil.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: SELECT DISTINCT estado_civil FROM credito

> Há dados nulos em estado civil

#### Salário Anual

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/dados%20unicos%20e%20valores%20nulos/dados%20unicos%20e%20valores%20nulos%20-%20salario%20anual.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: SELECT DISTINCT salario_anual FROM credito

> Há dados nulos em salario anual. Vale ressaltar que ele mostra apenas a faixa de salário, não salário exato

#### Tipo de cartão

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/dados%20unicos%20e%20valores%20nulos/dados%20unicos%20e%20valores%20nulos%20-%20tipo%20cartao.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: SELECT DISTINCT tipo_cartao FROM credito

> Nesse não há dados nulos

## Análise de Dados

> Agora que temos uma visão geral do que é o banco de dados, vamos partir para análise mais profunda e entender um pouco mais sobre eles. Faremos diversas análises e observações durante esse processo

### Quantidade de Clientes por faixa de salário anual

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/qtd%20de%20clientes%20por%20faixa%20de%20sal%C3%A1rio%20anual.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: select count(*), salario_anual from credito group by salario_anual

> Rapidamente percebemos que a maior concentração está na menor faixa de salário anual, e possuem 235 pessoas que não informação. Pode ser de interesse focar nas pessoas de salário anual mais baixo por ser a maioria

### Quantidade de clientes por tipo de cartão

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/qtd%20de%20clientes%20por%20tipo%20de%20cart%C3%A3o.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: select count(*), tipo_cartao from credito group by tipo_cartao

> Aqui observamos a gigantesca quantidade de clientes BLUE. Será que talvez falta uma campanha para oferecer cartões com mais vantagens e limites? Veremos com o decorrer da análise

### Idade média por sexo

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/idade%20m%C3%A9dia%20por%20sexo.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: select avg(idade) as media_idade, min(idade) as min_idade, max(idade) as max_idade, sexo from credito group by sexo

> Não vemos significativa nesses valores de idade. Média muito próxima de idade, idade mínima é a mesma e a máxima estão próximas

### Máximo e mínimo de limite de crédito relacionado com escolaridade, tipo de cartão e sexo


<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/max%20limite%20por%20escolaridade,%20tipo%20cartao%20e%20sexo.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito where escolaridade != 'na' and tipo_cartao != 'na' group by escolaridade, tipo_cartao, sexo order by limite_credito desc limit 10

> Escolaridade não parece ser uma influência no limite de crédito, por haver uma variedade de tipos e até pessoas sem educação. Vemos que também todos os tipos de cartões estão presentes, sem relação direta. Porém vemos uma proporção um pouco maior de homens.

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/min%20limite%20por%20escolaridade,%20tipo%20cartao%20e%20sexo.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: select min(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito where escolaridade != 'na' and tipo_cartao != 'na' group by escolaridade, tipo_cartao, sexo order by limite_credito asc

> Mesma coisa com os limites máximos, porém vemos total dominância de cartões blue

### Maior, menor e média de valor gasto por sexo e salário anual

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/maior%20menor%20e%20media%20de%20valor%20gasto%20por%20sexo%20e%20salario%20anual.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo, salario_anual
from credito
where salario_anual != 'na'
group by sexo, salario_anual
order by avg(valor_transacoes_12m) desc

> Salário anual e sexo não tem direta relação com valores de transações pelo período de 12 meses. A média de gasto é MENOR com quem tem salário maior que 120k, e maior com quem tem menos de 40k

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/maior%20menor%20e%20media%20de%20valor%20gasto%20por%20sexo%20e%20estado%20civil.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**QUery**: select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo, estado_civil
from credito
where estado_civil != 'na'
group by sexo, estado_civil
order by avg(valor_transacoes_12m) desc

> Aqui talvez podemos ver algo pouco significativo na média de valor gasto comparado com solteiros e casados. Casado tem menos que solteiros, uma média de 300 a menos

### Média de limite de crédito por sexo, escolaridade e salário anual

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/media%20limite%20de%20credito%20por%20sexo,%20escolaridade%20e%20salario%20anual.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: select avg(limite_credito) as media_limite_credito, escolaridade, sexo, salario_anual
from credito
where salario_anual != 'na' and escolaridade != 'na'
group by sexo, escolaridade, salario_anual
limit 15;

> Podemos ver que nas maiores médias de limite de crédito, vemos uma predominância masculina, talvez uma análise mais profunda sobre esse caso seria interessante. É algo que poderia ser mudado? alguma estratégia da empresa pra ter mais mulheres?
> Escolaridade não apresenta constância em nenhuma delas, e salario anual é de se esperar maiores limites pra salários maiores

### Máximos valores de transação por salario anual, , limite de crédito e tipo de cartão

<img src="https://github.com/heberrossi/Projeto-Final-SQL-EBAC/blob/main/projeto%20credito%20SQL/max%20valor%20de%20transa%C3%A7%C3%A3o%20por%20salario%20anual,%20limite%20credito%20e%20tipo%20cart%C3%A3o.PNG?raw=true" alt="qtd linhas" style="float: left; margin-right: 10px;" />

**Query**: select max(valor_transacoes_12m) as maior_valor_transacoes_12m, salario_anual, limite_credito, tipo_cartao
from credito
where salario_anual != 'na'
group by salario_anual, tipo_cartao, limite_credito
order by max(valor_transacoes_12m) desc
limit 15

> Aqui temos algo interessante a se pensar: Relacionado à análise anterior feita sobre a quantidade de cartão blue que tem, talvez uma ação para oferecer melhores cartões e melhores limites de crédito para essas pessoas que possuem maiores valores de transação. Observa-se que as 15 pessoas que mais gastam possuem cartão blue

## Conclusão

#### O que tiramos de insight de todos os dados observados até aqui:

    * maior parte dos clientes possuem salário menor que 40k
    * maioria dos clientes são cartão blue
    * escolaridade não tem influência significativa nos dados
    * os maiores limites de crédito são compostos por homens
    * não existem mulheres que ganham acima de 60k por ano
    * a faixa salarial impacta diretamente no limite de crédito
    * existem muitos clientes com cartão blue que gastam valores altos e possuem média salarial alta
      (propor ação de oferecer cartões com mais benefícios e limites
    