<a href="https://www.kaggle.com/code/cinthyagonalves/explora-o-e-an-lise-de-dados-de-cr-dito-sql?scriptVersionId=112706084" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

**Exploração de Análise de Dados de crédito com  SQL**

Neste projeto, usaremos uma base de dados com informações de clientes de um banco onde iremos explorar e analisar algumas informações de forma a gerar insights importantes para este modelo de negócio. 

**Etapa I - Dados:**
as informações abaixo referem-se às colunas com informações de clientes de um banco 

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses


A tabela foi criada no AWS Athena junto com o S3 Bucket com uma versão dos dados disponibilizados em: 
https://github.com/Cissi-22/Ebac/blob/main/credito8.csv




**Etapa II: Exploração de Dados**

Primeiramente, vamos explorar os tipos de dados que temos em nosso dataset pois isso permitirá avaliarmos quais perguntas podem ser feitas e quais serão mais relevantes de acordo com o modelo de negócio que está sendo analisado. Isso fundamentará a próxima etapa, análise dos dados.

**Qual a quantidade de informações temos na nossa base de dados?**
    
    Query: SELECT count(*) FROM credito
    Resultado: 2564 linhas (clientes analisados)

**Como são dados?**: selecionamos apenas 10 itens (clientes) para identificar os dados

    Query: SELECT * FROM credito LIMIT 10
![](https://github.com/Cissi-22/Ebac/blob/main/Query%20Select.PNG?raw=true)    
    
**Agora vamos identificar a característica de cada dado**
    
    Query: DESCRIBE credito     
![](https://github.com/Cissi-22/Ebac/blob/main/SQL%20Describe%202.PNG?raw=true)    
    
**Vamos analisar mais detalhadamente os dados classificados como string pois são variáveis não numéricas e no geral este tipo de dado é segmentado por categorias (identificá-las será importante para nossa análise)**
        
       Query: SELECT DISTINCT escolaridade FROM credito
![Distinct escolaridade](https://github.com/Cissi-22/Ebac/blob/main/SQL%20Distinct%20Escolaridade.PNG?raw=true)       
       
       Query: SELECT DISTINCT estado_civil FROM credito
![Distinct estado civil](https://github.com/Cissi-22/Ebac/blob/main/Query%20Distinct%20estado%20civil.PNG?raw=true)       
       
       Query: SELECT DISTINCT salario_anual FROM credito
       Obs.: o salário informado nao é o valor exato; trata-se da faixa salarial 
![Distinct salario anual](https://github.com/Cissi-22/Ebac/blob/main/Query%20Distinct%20salario_anual.PNG?raw=true)       

       
       Query: SELECT DISTINCT tipo_cartao FROM credito
![Distinct tipo_cartao](https://github.com/Cissi-22/Ebac/blob/main/Query%20Distinct%20tipo_cartao.PNG?raw=true)    
    
**Resultados nulos: NA**
É possível observar que temos alguns resultados nulos (NA). Isso significa que por algum motivo este dado não foi registado em nosso dataset (ou por algum problema ao salvar ou até mesmo porque o cliente não quis responder). Porém devemos considerar esta informação em nossa análise pois pode ser relevante.
     
  


**Etapa III - Análise de Dados**

Agora que já exploramos os dados e conseguimos entender sobre o tipo de dados que temos, vamos analisar as informações geradas de forma a aumentar nossa compreensão do nosso dataset. Para tanto, vamos fazer algumas perguntas.

**Quantos clientes temos por faixa salarial?**

    Query: select count(*), salario_anual from credito group by salario_anual
    
![Faixa salarial](https://github.com/Cissi-22/Ebac/blob/main/Qtde_faixa%20salarial.PNG?raw=true)
![Graf_Faixa salarial](https://github.com/Cissi-22/Ebac/blob/main/Graf_Clientes%20por%20Faixa%20Salarial%20anual.PNG?raw=true)

Podemos concluir que a maior parte dos clientes tem remuneração dentro da faixa salarial abaixo de R$ 40.000,00 por ano.

**Qual a distribuição por sexo?**

    Query: select count(*), sexo from credito group by sexo
![Qtde_sexo](https://github.com/Cissi-22/Ebac/blob/main/Qtde_sexo%202.PNG?raw=true)  
![Graf_Sexo](https://github.com/Cissi-22/Ebac/blob/main/Graf_Sexo%202.PNG?raw=true)

A maior parte dos clientes é do sexo masculino.

**Qual a idade dos clientes? Esta informação será relevante para a nossa análise?**

    Query: select avg(idade) as media_idade, min(idade) as min_idade, max(idade) as max_idade, sexo from credito group by sexo
    
![Segmentar_idade](https://github.com/Cissi-22/Ebac/blob/main/Segmentar%20por%20idade.PNG?raw=true)    

Através destes dados, podemos observar que ambos os gêneros tem a mesma idade mínimo, 26 anos. A idade máxima tem uma diferença pequena, porém isto se torna irrelevante visto que a idade média de ambos é quase a mesma (45 e 46 anos)

**Qual a maior e menor transação dos clientes?**

    Query: select min(valor_transacoes_12m) as transacao_minima, max(valor_transacoes_12m)       as transacao_minima from credito
![Trans_Min+Max](https://github.com/Cissi-22/Ebac/blob/main/Trans_min%20+%20max.PNG?raw=true)    

![Trans_Min+Max](https://github.com/Cissi-22/Ebac/blob/main/Graf_Transa%C3%A7%C3%A3o%20min+max%20anual.PNG?raw=true)       
   
   Estes dados representam a soma total das transações mínimas e a soma total das transações máximas durante o ano que correspondem a 510.16 e 5.776,58BRL.
   
**Quais o perfil dos clientes que possuem os maiores limites de credito?**

    Query: select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo 
    from credito where escolaridade != 'na' and tipo_cartao != 'na' group by  escolaridade,     tipo_cartao, sexo order by limite_credito asc

![Cliente_maior_credito](https://github.com/Cissi-22/Ebac/blob/main/Clientes_maiores_cr%C3%A9ditos%203.PNG?raw=true)

Não parece haver um impacto da escolaridade no limite. O limite mais alto é oferecido para um homem sem educação formal. O cartão também parece não estar relacionado com a escolaridade nem com o limite. Dentre os maiores limites, encontramos clientes com cartão: gold, silver, platinum e blue

**Quais o perfil dos clientes que possuem os menores limites de credito?**

    Query select min(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo 
    from credito where escolaridade != 'na' and tipo_cartao != 'na' group by  escolaridade,     tipo_cartao, sexo order by limite_credito asc

![Cliente_menor_credito](https://github.com/Cissi-22/Ebac/blob/main/Clientes_menores_cr%C3%A9ditos.PNG?raw=true)

Dessa vez conseguimos perceber que não há clientes com cartão platinum dentre os menores limites. Também foi possível perceber que a maioria dos menores limites são mulheres enquanto nos maiores limites predomina homens. 

**Será que as mulheres gastam mais?**

    Query: select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m)     as  media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo from credito
    group by sexo 
![Quem gasta mais](https://github.com/Cissi-22/Ebac/blob/main/Quem%20gasta%20mais..PNG?raw=true)

![Graf_Gasto genero](https://github.com/Cissi-22/Ebac/blob/main/Graf_Gasto_genero.PNG?raw=true)

Apesar da diferença nos limites, os gastos de homens e mulheres são similares!

**O salário impacta no limite?**

       Query: select max(valor_transacoes_12m) as maior_valor_gasto,      
       avg(valor_transacoes_12m) as  media_valor_gasto, min(valor_transacoes_12m) as 
       min_valor_gasto, sexo from credito group by sexo 

![Impacto_SalarioXLimite](https://github.com/Cissi-22/Ebac/blob/main/Impacto_LimiteXCredito.PNG?raw=true)

Podemos concluir que as pessoas com menor faixa salarial também apresentam menor limite de credito.

**Um parceiro comercial pretende divulgar alguns programas de graduação com descontos progressivos, desde que o banco tenha pelo menos 700 clientes dentro do critério de nível de escolaridade ensino médio. Vamos analisar se é possível desenvolver esta parceria analisando o dataset**

![Bolsa de graduação](https://github.com/Cissi-22/Ebac/blob/main/bolsa%20de%20gradua%C3%A7%C3%A3o.PNG?raw=true)

Como podemos observar, há 545 clientes com nivel ensino médio. Porém temos 346 clientes sem esta informação registrada. Seria interessante obter esta informação pois talvez seja possível atingir o número mínimo exgido e desenvolver esta parcceria. 



**CONCLUSÃO**

Essas foram algumas análises extraídas do dataset de crédito.  

Alguns insights interessantes:

- a maior parte dos clientes possui renda até 40K 
- a maior parte dos clientes é masculino
- a escolaridade não parece influenciar no limite nem no tipo do cartão
- os clientes com maiores limites são em sua maioria homens 
- os clientes com menores limites são em sua maioria mulheres
- dentre os menores limites não há presença de cartão platinum
- a faixa salarial impacta diretamente no limite de crédito
- nao existem clientes com salário anual acima de 60K do sexo feminino
- é interessante popular dados vazios para facilitar a análise e tomada de decisão e    
  aproveitar oportunidades

**Uma exploração maior dos dados pode explicar porque as mulheres tem menor crédito. Isso também pode ser um problema cultural que pode ser repensado!**



