<a href="https://colab.research.google.com/github/aloisiomartinez/analiseCreditoSQL/blob/main/Credit_EDA_and_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exploração e análise de dados de crédito com **SQL**

## Dicionário dos dados:

Os dados representam informações de clientes de um banco e contam com as seguintes colunas:

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m  = quantidade de transacoes dos ultimos 12 meses

## **Exploração de dados:**

A primeira fase da análise é entender o que tem na nossa matéria prima. Vamos a exploração de dados:

**Qual a quantidade de informações temos na nossa base de dados?**

Query: SELECT count(*) FROM credito
> Reposta: 2564 linhas

## **Entendendo os dados:**

Query: SELECT * FROM credito LIMIT 10;
![Dez primeiras linhas do dataset](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/limit_10.png?raw=true)


## **Tipo de cada Variável**

**Query:** *DESCRIBE credito*

![Descrição dos tipos de dados](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/columns_describe.png?raw=true)



Agora que ja entendemos quais são os tipos de dados, vamos olhar mais atentamente para as varíaveis que não são numéricas.

### **Tipos de escolaridade disponíveis no dataset?**

**Query:** *SELECT DISTINCT escolaridade FROM credito*

![Tipos de escolaridade](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/education.png?raw=true)

### **Tipos de estado_civil disponíveis no dataset?**

**Query:** *SELECT DISTINCT estado_civil  FROM credito*

![Tipos de estado civil](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/civil_state.png?raw=true)


### **Tipos de salario_anual disponíveis no dataset?**

**Query:** *SELECT DISTINCT salario_anual  FROM credito*

![Tipos de salario anual](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/anual_salary.png?raw=true)


### **Tipos de cartão disponíveis no dataset?**

**Query:** *SELECT DISTINCT tipo_cartao  FROM credito*

![Tipos de cartão](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/card_type.png?raw=true)

> ***Importante lembrar que em todas as variáveis existem valores nulos que precisam ser tratados.***

## **Análise de dados**

**Divisão de Clientes por faixa salarial**

**Query:** select count(*), salario_anual from credito group by salario_anual *texto em itálico*

![Quantidade para cada faixa salarial](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/salary_range.png?raw=true)

> Existe uma quantidade semelhante de clientes entre as faixas salariais dentre 40k e 120k, e uma maior quantidade de clientes com uma faixa salarial menor de 40.000 por ano.
> O banco pode focar os clientes com faixa salarial abaixo de 80K pois se trata da sua grande quantidade de clientes.

**Divisão de clientes por sexo**

**Query:** select count(*), sexo from credito group by sexo *texto em itálico*


![Quantidade para cada sexo](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/sex_range.png?raw=true)

> Gráfico em Pizza para melhor visualização:

![Quantidade para cada sexo - gráfico](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/qtd_sex.png?raw=true)


**Media de idade por sexo**

**Query:** *select avg(idade) as media_idade, min(idade) as min_idade, max(idade) as max_idade, sexo from credito group by sexo*
![Média de idades por sexo](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/sex_age.png?raw=true)

> As médias das idades são parecidas em relação ao Sexo de cada cliente, com menos de 1 ano de diferença.

**Maior e menor transação dos clientes?**

**Query:** *select min(valor_transacoes_12m) as transacao_minima, max(valor_transacoes_12m) as transacao_minima from credito*
![Valor transacoes](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/transactions.png?raw=true)

> Nesse banco de dados a soma de transações em 12 meses variam de 510.16 a 5776.58

**Quais as características dos clientes que possuem os maiores creditos?**

**Query:**
*select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo
from credito
where escolaridade != 'na' and tipo_cartao != 'na'
group by  escolaridade, tipo_cartao, sexo
order by limite_credito desc
limit 10*

![Valor limite](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/limite_desc.png?raw=true)

> Podemos perceber que o grau de escolaridade não interfere no limite do cliente, o primeiro clite com maior limite não possui uma educação formal.

**Quais as características dos clientes que possuem os menores creditos?**

**Query:**
*select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo
from credito
where escolaridade != 'na' and tipo_cartao != 'na'
group by  escolaridade, tipo_cartao, sexo
order by limite_credito asc*


![Valor limite](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/limite_asc.png?raw=true)

> Dessa vez conseguimos perceber que não há clientes com cartão platinum dentre os menores limites. Também é possível perceber que a maioria dos menores limites são mulheres.

**Sexo com maior gasto?**

**Query:**
*select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as  media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo
from credito
group by sexo*


![Valor transacoes/sexo](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/spent_more.png?raw=true)

> Os gastos de homens e mulheres são similares.

**O salário impacta no limite?**

**Query:** *select avg(qtd_produtos) as qts_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite,  sexo,   salario_anual from credito
where salario_anual != 'na'
group by sexo, salario_anual
order by avg(valor_transacoes_12m) desc*

![Valor salario_anualLimite](https://github.com/aloisiomartinez/analiseCreditoSQL/blob/main/assets/anual_salary_2.png?raw=true)

>SIM! As pessoas que tem menor faixa salarial também apresentam menor limite de credito!

# Conclusão

Essas foram algumas análises extraídas do dataset de crédito.  

Alguns insights interessantes:

- A maior parte dos clientes possui renda até 80K
- A maior parte dos clientes é masculino!
- A escolaridade não parece influenciar no limite nem no tipo do cartão
- Os clientes com menores limites são em sua maioria mulheres
- Dentre os menores limites não há presença de cartão platinum
- A faixa salarial impacta diretamente no limite de crédito
