In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

# **Análise Exploratória de Dados de Créditos com SQL**

## **Introdução**

Projeto de **Análise Exploratória** do curso de **SQL para Análise de Dados da EBAC**.

O dataset utilizado trata-se das transações de créditos de clientes de um banco.

A base de dados está disponibilizada em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

As colunas possuem as seguintes informações:
* idade = idade do cliente
* sexo = sexo do cliente (F ou M)
* dependentes = número de dependentes do cliente
* escolaridade = nível de escolaridade do clientes
* salario_anual = faixa salarial do cliente
* tipo_cartao = tipo de cartão do cliente
* qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
* iteracoes_12m = quantidade de iterações/transações nos últimos 12 meses
* meses_inativo_12m = quantidade de meses que o cliente ficou inativo
* limite_credito = limite de crédito do cliente
* valor_transacoes_12m = valor das transações dos últimos 12 meses
* qtd_transacoes_12m = quantidade de transções dos últimos 12 meses

Para análise foi utilizado o AWS Athena, através da seguinte query criamos a tabela para início da **exploração de dados**.

![Tabela](https://github.com/marvinbassani/SQL_EBAC/blob/main/tabela.png?raw=true)

## Análise Exploratória

Primeiramente, iniciamos com a análise de **volumetria dos dados** para entender quais campos o dataset nos permite explorar.

Utilizando a seguinte query (consulta) para **contagem de linhas** presente na base:

> SELECT
> COUNT (*)
> FROM credito

**Resultado:** 2.564 linhas.

Para melhor visualização, limitamos o resultado da tabela para 10 linhas, obtendo o seguinte:

![Top 10](https://github.com/marvinbassani/SQL_EBAC/blob/main/tabela_query.png?raw=true)

Logo abaixo, descrevemos algumas colunas presentes no modelo que serão importantes para análises futuras.


**Tipos de Escolaridade (escolaridade)**

Para visualizar os tipos de escolaridade na coluna utilizamos a seguinte query:

> SELECT 
> DISTINCT
> escolaridade
> FROM credito

**Resultado:**

![Escolaridade](https://github.com/marvinbassani/SQL_EBAC/blob/main/escolaridade.png?raw=true)

**Observação**: o valor *na* representa valores nulos.


**Tipos de Estado Civil (estado_civil)**

Para visualizar os tipos de estados civil na coluna utilizamos a seguinte query:

> SELECT 
> DISTINCT
> estado_civil
> FROM credito

**Resultado:**

![Estado Civil](https://github.com/marvinbassani/SQL_EBAC/blob/main/estado_civil.png?raw=true)

**Observação**: neste resultado, também temos valores nulos representados por *na*.


**Tipos de Cartões (tipo_cartoes)**

Para visualizar os tipos de cartões na coluna utilizamos a seguinte query:

> SELECT 
> DISTINCT
> tipo_cartao
> FROM credito

**Resultado**:

![Cartões](https://github.com/marvinbassani/SQL_EBAC/blob/main/cartao.png?raw=true)


**Salários Anuais (salario_anual)**

Para visualizar os salários anuais dos clientes utilizamos a seguinte query:

> SELECT
> DISTINCT
> salario_anual
> FROM credito

**Resultado:**

![Salários](https://github.com/marvinbassani/SQL_EBAC/blob/main/salarios.png?raw=true)

Observamos que os salários estão em faixas, também contendo valores nulos.



## Análise de Dados

Após o entendimendo do conteúdo, iniciaremos as análises com alguns questionamentos relevantes. Visando entender o comportamente deste banco de dados.

**Qual a quantidade de clientes por faixa salarial anual?**

Utilizamos a seguinte query:

>SELECT count(*) AS "quantidade clientes",
salario_anual
FROM credito
GROUP BY salario_anual

**Resultados:**

![Clientes por Salários](https://github.com/marvinbassani/SQL_EBAC/blob/main/clientes_faixa_salario.png?raw=true)

![Gráfico Faixa Salarial](https://github.com/marvinbassani/SQL_EBAC/blob/main/grafico_salario.png?raw=true)


**Comentários:** observamos com os resultados que a maior porção dos clientes encontram-se na faixa salarial abaixo de 40k reais e temos 235 clientes que não estão em nenhuma classificação.

**Quais cartões com maior número de clientes?**

Utilizamos a seguinte query:

> SELECT
COUNT(*) AS "Quantidade Clientes", tipo_cartao
FROM credito
GROUP BY tipo_cartao
ORDER BY "Quantidade Clientes" DESC


**Resultados:**

![Tipos de Cartões](https://github.com/marvinbassani/SQL_EBAC/blob/main/tipo_cart%C3%A3o.png?raw=true)

**Comentários:** observamos maior número de clientes nos cartões Blue e Silver.


**Qual o percentual de homens e mulheres?**

Utilizamos a seguinte query:

> SELECT count(*) AS "Quantidade Clientes", sexo
FROM credito
GROUP BY sexo

**Resultados:**

![Gêneros](https://github.com/marvinbassani/SQL_EBAC/blob/main/clientes_genero.png?raw=true)

![Gráfico Sexo](https://github.com/marvinbassani/SQL_EBAC/blob/main/grafico_clientes_genero.png?raw=true)

**Comentários:** observamos um percentual maior de clientes do sexo masculino, representando 61%.


**Qual média de idade dos clientes?**

Utilizamos a seguinte query:

>  SELECT AVG(idade) AS idade_media,
 MIN(idade) AS idade_minima,
 MAX(idade) AS idade_maxima,
 sexo FROM credito
 GROUP BY sexo
 
 **Resultados:**
 
![Media Idade](https://github.com/marvinbassani/SQL_EBAC/blob/main/media_idade_genero.png?raw=true)

**Comentários:** a idade máxima (73) está presente no sexo masculino, porém não difere tanto do sexo feminino (67). Podemos observar também que as médias de idade por sexo estão bem próximas, o que não é irrelevante dentro deste modelo.

**É possível identificar algo através das transações anuais por gênero?**

Utilizamos a seguinte query:

> SELECT
MIN(valor_transacoes_12m) AS transacao_min,
MAX(valor_transacoes_12m) AS transacao_max,
sexo FROM credito
GROUP BY sexo

**Resultados:**

![Transações](https://github.com/marvinbassani/SQL_EBAC/blob/main/transacoes_gen_query.png?raw=true)


![Gráfico Transações](https://github.com/marvinbassani/SQL_EBAC/blob/main/transacoes_gen.png?raw=true)

**Comentários:** observamos através da consulta realizada que o gênero não tem relevância no valor das transações anuais dos clientes. Com o visual gráfico elaborado, vemos que a diferença de transações mínimas e máximas são irrelevantes. Portanto, o próximo passo é analisar o perfil do cliente que realiza mais transações.

**Quem gasta mais, homens ou mulheres?**

Utilizamos a seguinte query:

> SELECT
MAX(valor_transacoes_12m) AS max_valor_gasto,
MIN(valor_transacoes_12m) AS min_valor_gasto,
AVG(valor_transacoes_12m) AS media_valor_gasto,
sexo FROM credito
GROUP BY sexo

**Resultados:**

![Média Gênero](https://github.com/marvinbassani/SQL_EBAC/blob/main/media_gasto_sexo.png?raw=true)

![Gráfico Média Gastos](https://github.com/marvinbassani/SQL_EBAC/blob/main/grafico_media_gastos_gen.png?raw=true)

**Comentários:** com o gráfico apresentado, a diferença de gastos entre os gêneros é mínima. Podemos afirmar que os dois grupos gastam a mesma coisa (50% do total).


**Quais são as características dos clientes com maiores e menores limites?**

Utilizamos a seguinte query para saber os maiores limites de crédito:

> SELECT
MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo
FROM credito WHERE escolaridade != 'na' AND tipo_cartao != 'na'
GROUP BY escolaridade, tipo_cartao, sexo
ORDER BY limite_credito DESC
LIMIT 10

Utilizamos a seguinte query para saber os menores limites de crédito:

> SELECT
MAX(limite_credito) AS limite_credito, escolaridade, tipo_cartao, sexo
FROM credito WHERE escolaridade != 'na' AND tipo_cartao != 'na'
GROUP BY escolaridade, tipo_cartao, sexo
ORDER BY limite_credito ASC
LIMIT 10

**Resultados:**

![Características Clientes](https://github.com/marvinbassani/SQL_EBAC/blob/main/carac_cliente.png?raw=true)

![Características Menor](https://github.com/marvinbassani/SQL_EBAC/blob/main/carac_cliente_menor.png?raw=true)



**Comentários:** com o resultado da consulta, vemos que a escolaridade não tem importância no limite de crédito, uma pessoa sem escolaridade possui um limite entre os mais altos. O genêro não influencia, porém observamos maior presença masculina nos limites altos (8 em cada 10 clientes).
Nos limites menores predominam pessoas com mestrado e ensino médio, então vemos que não há relação da escolaridade (quanto maior, mais limite) com o limite, observando valores menores. Há também maior número de mulheres com limites baixos de crédito (9 a cada 10 clientes).

Próximo passo iremos observar outras características que possam impactar no limite de crédito dos clientes.


**A faixa salarial tem impacto nos limites de crédito?**

Utilizamos a seguinte query:

> SELECT
AVG(valor_transacoes_12m) AS media_valor_transac,
AVG (limite_credito) AS media_limite, sexo, salario_anual
FROM credito WHERE salario_anual != 'na'
GROUP BY sexo, salario_anual
ORDER BY AVG(valor_transacoes_12m) DESC

**Resultados:**

![Transações Clientes](https://github.com/marvinbassani/SQL_EBAC/blob/main/transac_cliente.png?raw=true)


**Comentários:** através da consulta, vimos que pessoas com a faixa salarial mais elevada possuem maior crédito. As variáveis são diretamente proporcionais.

## Considerações Finais

* Temos mais clientes do sexo masculino;
* A escolaridade não impacta no limite de crédito fornecido para os clientes;
* Maior parte dos clientes possuem renda abaixo de 40k reais;
* O gênero não tem relação com os gastos, neste caso;
* Maiores limites estão presentes no gênero masculino (8 em cada 10);
* Mulheres possuem menores limites de crédito;
* Cartão Blue é predominante entre os clientes;
* Salário e Limite de Créditos são diretamente proporcionais, ou seja, quanto maior a renda mais chances de créditos.

***Através do estudo realizado vimos algumas análises possíveis com o dataset fornecido, para mais detalhes sobre as conclusões seria necessário explorar mais dados e bases que possam complementar o estudo. Relacionando o porquê das mulheres ter menos créditos e estarem na menor faixa salarial. Entendemos os fatores culturais envolvidos os quais comprovam-se com os dados explorados.***