# **Exploração e análise dos dados de crédito usando SQL**

*Esse notebook faz parte do 3º projeto do curso análise de dados da EBAC módulo SQL.*

# **Tópicos**

<ol type="1">
  <li>Introdução;</li>
  <li>Exploração dos dados;</li>
  <li>Análise das informações;</li>
  <li>Considerações Finais.</li>
</ol>

#**1.1 Motivação**

**O objetivo é:**

## **Os dados:**

Os dados representam informações de clientes de um banco e contam com as seguintes colunas:

* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartao do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de credito do cliente
* valor_transacoes_12m = valor das transações dos ultimos 12 meses
* qtd_transacoes_12m  = quantidade de transacoes dos ultimos 12 meses

A tabela foi criada no **AWS Athena** junto com o **S3 Bucket**

com uma versão dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

## **2. Exploração de dados:**

A primeira etapa da análise consiste em compreender a natureza dos dados. Esse processo, conhecido como exploração de dados, nos permite identificar padrões, tendências e possíveis anomalias, oferecendo uma base sólida para as próximas fases da análise:

**Qual a quantidade de informações temos na nossa base de dados?**

Query: SELECT count(*) FROM credito
> Reposta: 2564 linhas

**Insight.:** A estatística descritiva é essencial para a análise de dados, pois permite resumir e compreender grandes volumes de informações. Medidas como média, mediana e moda ajudam a identificar tendências centrais nos dados. Além disso, o desvio padrão, variância e amplitude são usados para avaliar a dispersão dos dados em torno dessas tendências. Esses conceitos são fundamentais para transformar dados complexos em informações acessíveis e acionáveis, facilitando a tomada de decisões baseadas em evidências.

**Como são os dados**

Query: SELECT * FROM credito LIMIT 10;
![Dez primeiras linhas do dataset](https://github.com/marianeneiva/sqlEBAC/blob/main/limit10.png?raw=true)

> É possível observar que a tabela contém algumas informações nulas (valores NA). Vamos examinar mais de perto os valores em cada coluna para entender melhor essas lacunas e como elas podem impactar nossa análise.

**Quais os tipos de cada dado**

**Query:** DESCRIBE credito

![Descrição dos tipos de dados](https://github.com/marianeneiva/sqlEBAC/blob/main/describe.png?raw=true)

Agora que já identificamos os tipos de dados, vamos focar nas variáveis não numéricas para examiná-las mais de perto e entender seu impacto na análise.

**Quais são os tipos de escolaridade disponíveis no dataset?**

**Query:** SELECT DISTINCT escolaridade FROM credito

![Tipos de escolaridade](https://github.com/marianeneiva/sqlEBAC/blob/main/escolaridade.png?raw=true)

> Os dados incluem diversos níveis de escolaridade, e também identificamos a presença de valores nulos (NA) no dataset. Trataremos dessas inconsistências posteriormente!

**Quais são os tipos de estado_civil disponíveis no dataset?**

**Query:** SELECT DISTINCT estado_civil  FROM credito

![Tipos de estado civil](https://github.com/marianeneiva/sqlEBAC/blob/main/escolaridade.png?raw=true)

> Observamos novamente a presença de valores nulos, desta vez nos dados referentes ao estado civil. É importante lidar com essas ausências para garantir a precisão e a integridade da análise futura.

**Quais são os tipos de cartão disponíveis no dataset?**

**Query:** SELECT DISTINCT tipo_cartao  FROM credito

![Tipos de cartão](https://github.com/marianeneiva/sqlEBAC/blob/main/cartao.png?raw=true)

> Neste caso, verificamos que não há valores nulos nos dados, eliminando a necessidade de tratamento adicional para esse aspecto específico.

**Quais são os tipos de salario_anual disponíveis no dataset?**

**Query:** SELECT DISTINCT salario_anual  FROM credito

![Tipos de salario anual](https://github.com/marianeneiva/sqlEBAC/blob/main/salario_anual.png?raw=true)

> Os salários neste dataset não são apresentados como valores exatos, mas sim como faixas salariais para cada cliente. Além disso, existem alguns valores nulos que precisarão ser tratados na análise.

## **3. Análise das informações**

- Após explorarmos os dados e compreendermos as informações disponíveis em nosso banco de dados, podemos avançar para a análise, buscando entender melhor as tendências e padrões presentes nos dados.

>Vamos fazer perguntas:

**Nesse banco de dados, quantos clientes temos de cada faixa salarial?**

**Query:** select count(*), salario_anual from credito group by salario_anual

![Quantidade para cada faixa salarial](https://github.com/marianeneiva/sqlEBAC/blob/main/faixa_salarial.png?raw=true)

> A maior parte dos clientes nesta base de dados tem uma renda inferior a 40K, e há 235 clientes cujas faixas salariais estão ausentes ou não foram informadas.

> Focar nesse segmento de renda mais baixa pode ser uma estratégia interessante para a empresa, considerando o potencial de mercado e a oportunidade de atender a essa faixa específica.

**Nesse banco de dados, quantos clientes são homens e quantos são mulheres?**

**Query:** select count(*), sexo from credito group by sexo


![Quantidade para cada sexo](https://github.com/marianeneiva/sqlEBAC/blob/main/faixa_sexo.png?raw=true)

![Quantidade para cada sexo - gráfico](https://github.com/marianeneiva/sqlEBAC/blob/main/qtde_por_sexo.png?raw=true)

> A maioria dos clientes deste banco é do sexo masculino. Para visualizar melhor a proporção entre masculino e feminino, podemos gerar um gráfico de pizza a partir do CSV extraído dos dados. Isso facilitará a compreensão da distribuição de gênero entre os clientes.

**Queremos focar o nosso marketing de maneira adequada para nossos clientes, qual será a idade deles?**

**Query:** select avg(idade) as media_idade, min(idade) as min_idade, max(idade) as max_idade, sexo from credito group by sexo
![Média de idades por sexo](https://github.com/marianeneiva/sqlEBAC/blob/main/idade_sexopng.png?raw=true)

> Por meio dessa análise não foi possível extrair nenhuma informação relevante.  A menor idade dos dois sexos é a mesma e a média é muito similar. A unica  diferença é a idade máxima mas fato quase irrelevante por a diferença não é tão gritante.


**Qual a maior e menor transação dos clientes?**

**Query:** select min(valor_transacoes_12m) as transacao_minima, max(valor_transacoes_12m) as transacao_minima from credito
![Valor transacoes](https://github.com/marianeneiva/sqlEBAC/blob/main/transacoes.png?raw=true)

> Nesse banco de dados temos soma de transações em 12 meses variam de 510.16 a 5776.58

**Quais as características dos clientes que possuem os maiores creditos?**

**Query:**
select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo
from credito
where escolaridade != 'na' and tipo_cartao != 'na'
group by  escolaridade, tipo_cartao, sexo
order by limite_credito desc
limit 10

![Valor limite](https://github.com/marianeneiva/sqlEBAC/blob/main/limite_desc.png?raw=true)

> Não parece haver uma relação significativa entre a escolaridade e o limite oferecido. Curiosamente, o limite mais alto é concedido a um homem sem educação formal. Além disso, o tipo de cartão também não parece estar relacionado com a escolaridade ou com o limite. Entre os maiores limites, encontramos clientes com cartões das categorias gold, silver, platinum e blue.

**Quais as características dos clientes que possuem os menores creditos?**

**Query:**
select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo
from credito
where escolaridade != 'na' and tipo_cartao != 'na'
group by  escolaridade, tipo_cartao, sexo
order by limite_credito asc


![Valor limite](https://github.com/marianeneiva/sqlEBAC/blob/main/limite_asc.png?raw=true)

> Desta vez, observamos que não há clientes com cartão platinum entre os menores limites. Além disso, notamos que a maioria dos menores limites é atribuída a mulheres, enquanto os maiores limites são predominantemente concedidos a homens.

**Será que as mulheres gastam mais?**

**Query:**
select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as  media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo
from credito
group by sexo


![Valor transacoes/sexo](https://github.com/marianeneiva/sqlEBAC/blob/main/quemgastamais.png?raw=true)

> Apesar da diferença nos limites, os gastos de homens e mulheres são similares!

**O salário impacta no limite?**

**Query:** select avg(qtd_produtos) as qts_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite,  sexo,   salario_anual from credito
where salario_anual != 'na'
group by sexo, salario_anual
order by avg(valor_transacoes_12m) desc

![Valor salario_anualLimite](https://github.com/marianeneiva/sqlEBAC/blob/main/salarioAnualMediaLimite.png?raw=true)

>Sim, é evidente que as pessoas com faixas salariais mais baixas tendem a ter limites de crédito menores. O gráfico confirma essa relação, mostrando que há uma correlação direta entre a faixa salarial e o limite de crédito concedido.

**Quais são os tipos de cartão mais utilizados pelos clientes que realizam as maiores transações, e o que isso revela sobre o comportamento de compra desses clientes?**

**Query:** SELECT tipo_cartao, AVG(valor_transacoes_12m) AS avg_transaction_value
FROM credito
GROUP BY tipo_cartao
ORDER BY avg_transaction_value DESC
LIMIT 5;

![Valor tipo_cartao](https://github.com/marcosengdados/analysticofcredit/blob/main/f1.png?raw=true)
![Valor tipo_cartao](https://github.com/marcosengdados/analysticofcredit/blob/main/grafico.png?raw=true)
>A diferença nos valores médios de transação entre os cartões pode influenciar a estrutura de tarifas, recompensas, e marketing direcionado. Por exemplo, o banco pode explorar oportunidades de cross-selling para usuários de Silver e Blue que poderiam se beneficiar de um upgrade para Gold.

>Este perfil de transações sugere que a segmentação de clientes com base no tipo de cartão pode ser uma estratégia eficaz. Focar em clientes Gold para campanhas de alto valor pode gerar maiores retornos, enquanto explorar os motivos para o desempenho do Platinum pode revelar oportunidades para rebranding ou reposicionamento.

**O valor médio de transação para os tipos de cartão top 5 está correlacionado com o limite de crédito?**

**Query:** SELECT salario_anual, COUNT(*) AS num_customers
FROM credito
WHERE salario_anual != 'na'
GROUP BY salario_anual
ORDER BY num_customers DESC;

![Valor salario_anual](https://github.com/marcosengdados/analysticofcredit/blob/main/f2.png?raw=true)
![Valor salario_anual](https://github.com/marcosengdados/analysticofcredit/blob/main/grafico1.png?raw=true)

>A análise da segmentação de clientes por salário anual fornece insights cruciais para o entendimento profundo da base de clientes e a elaboração de estratégias de negócio eficazes. Ao alinhar produtos, serviços e campanhas de marketing com as características e necessidades específicas de cada segmento salarial, a organização pode melhorar significativamente o engajamento do cliente, a retenção e a lucratividade geral.

>O monitoramento contínuo e a adaptabilidade são essenciais para responder às mudanças do mercado e manter uma posição competitiva sólida.

# **4. Conclusão**

Essas foram **algumas** análises extraídas do dataset de crédito.  

Alguns insights interessantes:

>**Renda e Limite de Crédito:** A maior parte dos clientes possui uma renda anual de até 40K. Esta faixa salarial está fortemente correlacionada com limites de crédito mais baixos, evidenciando uma relação direta entre renda e limite concedido.

>**Distribuição por Gênero:** A maioria dos clientes é do sexo masculino. Além disso, clientes com limites de crédito mais altos tendem a ser predominantemente homens, enquanto os menores limites são frequentemente atribuídos a mulheres.

>**Influência da Escolaridade:** A escolaridade dos clientes não parece impactar significativamente o limite de crédito nem o tipo de cartão concedido. Isso sugere que outros fatores, como renda ou gênero, podem ser mais determinantes na concessão de crédito.

>**Tipo de Cartão e Limite:** Entre os clientes com menores limites de crédito, não há registros de cartões platinum. Isso indica que cartões de categorias mais altas são associados a limites maiores, mas não aparecem em perfis de crédito mais baixos.

>**Faixa Salarial e Limite de Crédito:** A faixa salarial tem um impacto direto no limite de crédito, com limites mais altos geralmente associados a rendas mais elevadas.

>**Representação Feminina em Faixas Altas:** Não há clientes do sexo feminino com uma renda anual superior a 60K, o que pode sugerir uma necessidade de análise mais aprofundada para entender a distribuição de renda e suas implicações para a concessão de crédito.

>**Desenvolvimento de Produtos Alinhados ao Segmento Predominante:**Criar produtos e serviços que atendam especificamente às necessidades e preferências dos clientes de renda média, garantindo competitividade e satisfação do cliente.

>**Diversificação de Mercado:** Investir em estratégias para atrair e reter clientes nos segmentos de baixa e alta renda, diversificando a base de clientes e reduzindo a dependência de um único segmento.

>**Marketing Segmentado e Personalizado:** Implementar campanhas de marketing direcionadas que considerem as características e comportamentos únicos de cada faixa salarial, aumentando a eficácia e o retorno sobre o investimento.

>**Fortalecimento do Gerenciamento de Risco:** Refinar os processos de avaliação de crédito e gerenciamento de risco para equilibrar a expansão de mercado com a sustentabilidade financeira.

>**Monitoramento Contínuo e Feedback:** Estabelecer sistemas de monitoramento contínuo da distribuição salarial e feedback dos clientes para ajustar estratégias de forma ágil e informada.
