# **Projeto final: Análise Exploratória de Dados de crédito em SQL**

Índice

1. [Compreensão do negócio(Business Understanding)](#1.1)
2. [Compreensão dos Dados (Data Understanding)](#1.2)
3. [Limpeza e Pré-processamento de Dados](#1.3)
4. [Exploração de Dados (Análise Exploratória)](#1.4)
5. [Interpretação de Resultados](#1.5)
6. [Tomada de Decisão e Ações](#1.6)

## 1. Compreensão do Negócio (Business Understanding):<a name="1.1"></a>

O objetivo deste projeto é realizar uma análise exploratória de dados em um banco de dados pertencente a uma empresa de concessão de crédito. A análise destes dados tem o objetivo de colaborar para a identificação de padrões e tendências que possam contribuir para um conhecimento mais aprofundado dos dados desta instituição, influenciando na melhora dos resultados da mesma.

## 2. Compreensão dos Dados (Data Understanding):<a name="1.2"></a>

 Será utilizado para a realização deste projeto um banco de dados adquirido bia GitHub, adquirido via download e em formato .csv. Foram fornecidas 15 variáveis. O significado de cada uma dessas variáveis se encontra na tabela abaixo:

### Dicionário de dados

 Os dados estão dispostos em uma tabela com uma linha para cada cliente, e uma coluna para cada variável armazenando as características desses clientes. Há uma cópia do dicionário de dados (explicação dessas variáveis) abaixo:

| Variável                | Descrição                                           | Tipo         |
| ----------------------- |:---------------------------------------------------:| ------------:|
| id                      | Chave de registro do cliente                       | int|
| default                 | Flag de adimplência/inadimplência                  | int|
| idade                   | Idade do cliente                                   | int|
| sexo                    | Sexo do cliente                                    | object|
| dependentes             | Número de dependentes                              | int|
| escolaridade            | Nível de escolaridade                              | object|
| estado_civil            | Se cliente é casado, solteiro, UE, viúvo           | object|
| salário anual           | Renda bruta do cliente                             | object|
| tipo_cartao             | Tipo do cartão de crédito                          | object|
| meses_de_relacionamento | Há quanto tempo é cliente do banco                 | int|
| qtd_produtos            | Quantidade de produtos que o cliente possui        | int|
| iteracoes_12m           | Quantas vezes houve contato entre cliente e instituição| int|
| meses_inativo_12m       | Quantos meses em 12 meses não houveram movimentações financeiras| int|
| limite_credito          | Limite de crédito disponível ao cliente pela instituição | float|
| valor_transacoes_12m    | Quantidade de capital movimentada em 12 meses      | float|
|qtd_transacoes_12m       | Quantidade de transações realizadas pelo cliente em 12 meses | int|

## 3. Limpeza e Pré-processamento de Dados<a name="1.3"></a>
### Nessa etapa realizamos tipicamente as seguintes operações com os dados:

- Seleção: Os dados já estão pré-selecionados.

- Limpeza: Os dados faltantes serão tratados nas células de código abaixo.

- Construção: Foi construída as variável 'cat_qtd_transacoes_12m' para uma avaliação mais aprofundada dos dados.

- integração: Temos apenas uma fonte de dados, não é necessário integração.

- formatação: Os dados já se encontram em formatos úteis? R. Alguns dados serão tratados para formato mais útil.

## 4. Exploração de Dados (Análise Exploratória):<a name="1.4"></a>

 Abaixo serão criadas estatísticas descritivas e visualizações, como gráficos e histogramas, para identificar padrões e tendências para resolução do problema abordado.

 **Qual a quantidade de informações que o banco de dados possui?** <p>
Query: SELECT count() FROM credito </p>
> Resposta: 2564 linhas

 **Qual a escolaridade que os clientes do banco possuem?** <p>
> Query: SELECT DISTINCT escolaridade FROM credito </p>


![Screenshot 2024-08-30 165132.png](attachment:b0345196-0e2d-453f-9ee6-ba5b3938a495.png)



 **Quais as faixas salariais agrupadas por categoria?** <p>
> Query: SELECT count(*), salario_anual FROM credito GROUP BY salario_anual </p>
![Screenshot 2024-08-30 170050.png](attachment:3a820e4c-6ec7-4f75-a32f-14e378284603.png)

Nota-se aqui que a maior parte dos clientes possui renda anual inferior a 60k.

 **Qual o público da base de dados distinto por sexo?** <p>
> Query: SELECT count(*) FROM credito GROUP BY sexo </p>
![Screenshot 2024-08-30 170452.png](attachment:a0a6cb2e-7127-408c-8a03-a31ccc17085a.png)

**Qual o limite de credito relacionado à escolaridade, tipo de cartão e sexo?**<p> 

> Query: SELECT max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo FROM credito 
WHERE escolaridade != 'na' AND tipo_cartao != 'na' 
GROUP BY escolaridade, tipo_cartao, sexo 
ORDER BY limite_credito DESC 
limit 10 </p>
![Screenshot 2024-08-30 171434.png](attachment:b263bddb-3d61-4b11-9350-edb44726a114.png)

Na query acima não notamos relação entre a escolaridade e a quantidade de crédito concedido. 

**Há diferença nos valores gastos se distinguirmos por sexo?**<p>
    
> Query: SELECT MAX(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo 
FROM credito 
GROUP BY sexo![Screenshot 2024-08-30 171350.png](attachment:b6e36fa2-3d30-495e-88db-982610e65d95.png)

Não há diferença significativa nos gastos comparados por sexo.

## 5. Interpretação de Resultados:<a name="1.5"></a>

#### Através da análise dos dados podemos identificar alguns padrões e tendências:
 - É falsa a suposição de que mulheres tendem a ter gastos maiores comparados aos homens;
 - Não existe relação entre escolaridade e crédito concedido; 
 - Na base de dados avaliada existe uma diferença de aproximadamente 30% na quantidade de homens em relação às mulheres

## 6. Tomada de Decisão e Ações:<a name="1.6"></a>

- Os padrões identificados podem ser explorados para avaliar as variáveis para ofertar promoções, campanhas e pacotes relacionados ao perfil apontado pela base de dados avaliada.
