# Análise exploratória e descritiva de dados em SQL

### 1\. Introdução

A exploração de dados (EDA) é uma etapa crucial na análise de dados, permitindo uma compreensão profunda da natureza dos dados, a identificação de padrões e a revelação de tendências. Este trabalho abrange conceitos e técnicas essenciais para a compreensão e manipulação eficaz dos dados.

Para este projeto, utilizei o AWS S3-bucket e o Athena para manipular dados em SQL e para a visualização gráfica foi utilizado o Excel. O AWS S3-bucket é um serviço de armazenamento em nuvem que permite armazenar e acessar grandes volumes de dados de maneira segura e escalável, ideal para armazenar datasets que podem ser acessados e analisados conforme necessário. O Athena é um serviço de consulta interativo que facilita a análise de dados diretamente no S3 usando SQL. Com o Athena, não é necessário carregar dados em um banco de dados separado, permitindo consultas rápidas e eficientes diretamente sobre os dados armazenados no S3. Juntas, essas ferramentas possibilitam uma manipulação ágil e flexível dos dados, otimizando o processo de análise.

O objetivo desta análise é identificar padrões e tendências nos dados de crédito, fornecer insights sobre o comportamento dos clientes e auxiliar na tomada de decisões estratégicas. Pretendo explorar diversas ideias de insights, incluindo a análise do perfil de crédito dos clientes, a identificação de fatores que influenciam a aprovação ou rejeição de crédito e a previsão do comportamento futuro dos clientes com base nos dados históricos.

### 1\.2\. Informações sobre o Dataset

Os dados representam informações de clientes de um banco e contam com as seguintes colunas:

idade = idade do cliente
sexo = sexo do cliente (F ou M)
dependentes = número de dependentes do cliente
escolaridade = nível de escolaridade do clientes
salario_anual = faixa salarial do cliente
tipo_cartao = tipo de cartao do cliente
qtd_produtos = quantidade de produtos comprados nos últimos 12 meses
iteracoes_12m = quantidade de iterações/transacoes nos ultimos 12 meses
meses_inativo_12m = quantidade de meses que o cliente ficou inativo
limite_credito = limite de credito do cliente
valor_transacoes_12m = valor das transações dos ultimos 12 meses
qtd_transacoes_12m = quantidade de transacoes dos ultimos 12 meses


A tabela foi criada no AWS Athena junto com o S3 Bucket, seguindo a Query:

CREATE EXTERNAL TABLE IF NOT EXISTS default.credito ( <br>
  `idade` INT,<br>
  `sexo` STRING, <br>
  `dependentes` INT, <br>
  `escolaridade` STRING, <br>
  `estado_civil` STRING, <br>
  `salario_anual` STRING, <br>
  `tipo_cartao` STRING, <br> 
  `qtd_produtos` BIGINT, <br>
  `iteracoes_12m` INT, <br>
  `meses_inativo_12m` INT, <br>
  `limite_credito` FLOAT, <br>
  `valor_transacoes_12m` FLOAT, <br>
  `qtd_transacoes_12m` INT <br>
) <br>
<br>
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' <br>
WITH SERDEPROPERTIES ('serialization.format' = ',', 'field.delim' = ',')
LOCATION 's3://bucket-leticialavieri-ebac/' <br>
TBLPROPERTIES ('has_encrypted_data'='false'); <br>

<br>

O dataset esta em formato CSV e contem 172KB de tamanho. <br>
Existe uma versão do dataser dos dados disponibilizados em: https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset

---

### 2\. Exploração e Descrição dos dados

* Qual a quantidade de informações temos na nossa base de dados?

<br>

**Query: SELECT count(*) FROM credito**

<br>

![Quantidade de Informações](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/quantidade%20de%20linhas.PNG?raw=true)

A base de dados original, disponibilizada no link acima, contém mais registros do que a amostra utilizada.<br>
Na prática, quanto maior a quantidade de dados utilizada, mais confiável será a análise. No entanto, devido a restrições computacionais e financeiras, pode ser interessante reduzir a quantidade de dados para análise, especialmente para fins de estudo.

<br>

### 2\.1\. Como são os dados

<br>

**Query: SELECT * FROM credito LIMIT 10;**

<br>

![Visualização do dataset](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/visualiza%C3%A7%C3%A3o%20Datase%2010%20linhas.PNG?raw=true)

É possível visualizar a existencia de informações nulas na tabela (valor na)

<br>

* Quais os tipos de cada dado

<br>

**Query: DESCRIBE credito**

<br>

![Descrição](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/descri%C3%A7%C3%A3o%20dos%20dados.PNG?raw=true)

<br>

<br>

* Quais são os tipos de escolaridade disponíveis no dataset?

<br>

**Query: SELECT DISTINCT escolaridade FROM credito**

<br>

![Escolaridade](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/escolaridade.PNG?raw=true)


Os dados abrangem diversos níveis de escolaridade e apresentam valores nulos (NA) em algumas entradas. Continuarei a investigação para identificar outros valores nulos presentes no conjunto de dados.

<br>

<br>

* Quais são os tipos de estado_civil disponíveis no dataset?

<br>

**Query: SELECT DISTINCT estado_civil FROM credito**

<br>

![Estado Civil](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/estado%20civil.PNG?raw=true)


É possivel visualizar a presença de mais valores nulos neste conjunto de dados

<br>

<br>

* Quais são os tipos de salario_anual disponíveis no dataset?

<br>

**Query: SELECT DISTINCT salario_anual FROM credito**

<br>

![Salario](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/salario%20anual.PNG?raw=true)

Estas informações não representam o salário anual, mas sim, a faixa salarial dos clientes. Nesta coluna também existem valores nulos.

<br>

<br>

* Quais são os tipos de cartão disponíveis no dataset?

<br>

**Query: SELECT DISTINCT tipo_cartao FROM credito**

<br>

![Cartões](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/tipo%20cart%C3%A3o.PNG?raw=true)


---

### 3\. Análise dos dados

Após explorar os dados e entender as informações contidas mo dataset, serás realizada uma a análise afim de identificar o que está ocorrendo no sistema e qual o perfil destes clientes.
Para isso, serão formuladas perguntas específicas e estratégicas.

* Quantos clientes há em cada faixa salarial?

<br>

**Query: SELECT COUNT(*) AS Quantidade_clientes,salario_anual FROM credito GROUP BY salario_anual;**

<br>

![Cliente por salario](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/quantidade%20clientes%20por%20salario.PNG?raw=true)

<div align="center">
    <img width="700" title="Gráfico" src="https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/grafico%20cliente%20por%20faixa%20salarial.png?raw=true"/>
</div>

<br> 

A análise dos dados revela que a maioria dos clientes nesta base de dados possui uma renda inferior a 40 mil reais anuais. <br>
Além disso, foi possivel identificar que há 235 clientes cujas informações sobre faixa salarial estão ausentes ou não foram fornecidas. <br>
Este segmento representa uma parte significativa da base de clientes. Dessa forma, pode ser estrategicamente vantajoso para a empresa direcionar seus esforços e campanhas de marketing para atender às necessidades e preferências desse público de menor renda. Focar nesse grupo pode aumentar a fidelização e a satisfação dos clientes, além de abrir novas oportunidades de mercado.

<br>

<br>

* Quantos clientes são homens e quantos são mulheres?

<br>

**Query 1: SELECT COUNT(*) AS Quantidade_clientes, sexo FROM credito GROUP BY sexo;**

<br>

![clientes por genero](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/quantidade%20clientes%20por%20sexo.PNG?raw=true)

<div align="center">
    <img width="700" title="Pizza" src="https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/grafico%20cliente%20por%20genero.png?raw=true"/>
</div>

A análise indica que a maioria dos clientes desse banco é do sexo masculino. Com base nisso é possivel elaborar estratégias em expansão e diversificação de clientes.

<br>

**Query 2: SELECT COUNT(*) AS Quantidade,	sexo, salario_anual FROM credito GROUP BY sexo,	salario_anual;**

![por genero](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/quantidade%20clientes%20por%20sexo%20e%20salario.PNG?raw=true)

<br> 

A tabela fornecida apresenta a quantidade de clientes segmentada por sexo e faixa salarial anual.

* Faixa de Menos de 40K: É a faixa com a maior quantidade de clientes (597) e majoritariamente composta por mulheres.
* Faixas de 40K a 60K, 60K a 80K, 80K a 120K e Mais de 120K: Essas faixas possuem predominantemente clientes do sexo masculino, com a quantidade de clientes diminuindo conforme a faixa salarial aumenta (274, 451, 488 e 222 respectivamente).
* Há 235 clientes sem informação de faixa salarial (211 mulheres e 24 homens), indicando um potencial ponto de atenção para melhorar a coleta de dados e a personalização dos serviços.


Com base nessas informações, é possível desenvolver soluções de negócios alinhadas ao perfil dos clientes identificados. Algumas estratégias incluem:

Desenvolvimento de Produtos e Serviços Financeiros Personalizados:

Para Homens de Alta Renda: Focar no desenvolvimento de produtos e serviços financeiros direcionados aos homens, especialmente nas faixas salariais mais altas (acima de $40K). Essa estrategia e vantajosa, pois essa demografia é significativa nas faixas salariais superiores, apresentando um potencial elevado para produtos premium e de investimentos avançados.
Exploração de Novos Segmentos de Mercado:

Mulheres e Indivíduos de Renda Média ou Baixa: Avaliar oportunidades para desenvolver novos produtos que atraiam segmentos atualmente sub-representados, como mulheres e indivíduos de renda média ou baixa. Essa abordagem não só diversificará a carteira de clientes, mas também promoverá a inclusão financeira e melhorará a retenção desse segmento. As mulheres constituem a maior parte da faixa de renda abaixo de $40K, indicando um potencial significativo para programas e serviços acessíveis.
Melhoria na Coleta de Dados:

Processos de Coleta de Dados: Implementar processos robustos para garantir que todos os clientes forneçam informações completas sobre sua faixa salarial. Isso melhorará a qualidade dos dados disponíveis, permitindo análises mais precisas e segmentações mais eficazes. Dados completos e precisos são essenciais para personalizar ofertas e estratégias de marketing, além de identificar novas oportunidades de mercado com mais assertividade.
Essas ações estratégicas podem ajudar a maximizar o valor do negócio, garantindo que os produtos e serviços estejam alinhados com as características e necessidades dos diferentes segmentos de clientes, além de abrir novas oportunidades de crescimento e melhorar a satisfação do cliente.
<br>


<br>

* Quais as características dos clientes que possuem os maiores e menores creditos?

<br>

Query 1: 

SELECT 
    MAX(limite_credito) AS limite_maximo,
    escolaridade,
    tipo_cartao,
    sexo
FROM credito 
WHERE
    escolaridade != 'na' AND 
    tipo_cartao != 'na'
GROUP BY 
    escolaridade,
    tipo_cartao,
    sexo 
ORDER BY 
    limite_maximo DESC LIMIT 10;

<br>

![Max](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/LIMITE%20MAX%20POR%20ESCOLARIDADE.png?raw=true)

<br>

Query 2:

SELECT
    MAX(limite_credito) AS limite_minimo,
    escolaridade,
    tipo_cartao,
    sexo 
FROM credito
WHERE escolaridade != 'na' AND tipo_cartao != 'na' 
GROUP BY 
    escolaridade, 
    tipo_cartao,
    sexo 
ORDER BY limite_minimo ASC LIMIT 10;

<br>

![Min](https://github.com/LeticiaLavieri/EDA-credito-SQL/blob/main/Imagens/LIMITE%20Min%20POR%20ESCOLARIDADE.PNG?raw=true)

<br>

Não parece haver um impacto significativo da escolaridade no limite de crédito oferecido. O limite mais alto foi concedido a um homem sem educação formal, indicando que fatores além da escolaridade estão influenciando as decisões de crédito.
A ausência de uma relação clara entre escolaridade e limite de crédito sugere que outros fatores, possivelmente renda, histórico de crédito ou perfil de risco, são mais determinantes na definição dos limites de crédito. A empresa deve investigar esses fatores adicionais para entender melhor o processo de concessão de crédito.

O tipo de cartão de crédito também não parece estar fortemente relacionado com a escolaridade ou o limite de crédito. Entre os maiores limites de crédito, encontramos clientes com cartões Gold, Silver, Platinum e Blue, sem uma correlação clara entre o tipo de cartão e o nível de escolaridade ou o valor do limite.
É notável que não há clientes com cartões Platinum entre os menores limites de crédito, sugerindo que este tipo de cartão pode estar reservado para clientes com melhores perfis de crédito ou histórico financeiro mais sólido.
A diversidade de tipos de cartões (Gold, Silver, Platinum, Blue) entre os clientes com maiores limites de crédito indica que o tipo de cartão não é um fator restritivo por si só. No entanto, a ausência de cartões Platinum entre os menores limites sugere um possível critério de seleção mais rigoroso para esses cartões. Avaliar e possivelmente ajustar esses critérios pode ajudar a garantir uma oferta mais equitativa e baseada em mérito.


A maioria dos menores limites de crédito são oferecidos a mulheres, enquanto os maiores limites são predominantemente concedidos a homens. Isso pode indicar um possível viés ou critérios específicos na concessão de crédito que favorecem homens em termos de limites mais altos. A diferença observada entre os limites de crédito concedidos a homens e mulheres aponta para uma necessidade de revisar as políticas e práticas de concessão de crédito. Garantir que não haja discriminação e que as decisões de crédito sejam baseadas em critérios justos e transparentes é essencial para promover a equidade de gênero.

Compreender que a escolaridade não é um fator significativo pode permitir à empresa focar em outras formas de segmentação e personalização de ofertas. Por exemplo, campanhas de marketing e produtos financeiros podem ser melhor direcionados com base em renda, comportamento de gasto, ou histórico de crédito.



---

### 4\. Conclusão

A análise dos dados, realizada utilizando SQL e AWS, revelou insights cruciais sobre a dinâmica de concessão de crédito e os perfis dos clientes. Inicialmente, observamos que a escolaridade não tem um impacto significativo no limite de crédito oferecido. O limite mais alto foi concedido a um homem sem educação formal, sugerindo que fatores como renda, histórico de crédito e perfil de risco são mais determinantes nas decisões de crédito. A empresa deve investigar esses fatores adicionais para entender melhor o processo de concessão de crédito e otimizar suas estratégias.

Além disso, o tipo de cartão de crédito não está fortemente relacionado com a escolaridade ou o limite de crédito. Entre os maiores limites de crédito, encontramos clientes com cartões Gold, Silver, Platinum e Blue, sem uma correlação clara entre o tipo de cartão e o nível de escolaridade ou o valor do limite. A ausência de cartões Platinum entre os menores limites sugere que este tipo de cartão pode ser reservado para clientes com melhores perfis de crédito. Avaliar e possivelmente ajustar os critérios de seleção para cartões Platinum pode garantir uma oferta mais equitativa e baseada em mérito.

A análise também revelou que a maioria dos menores limites de crédito são oferecidos a mulheres, enquanto os maiores limites são predominantemente concedidos a homens. Essa diferença indica a necessidade de revisar as políticas e práticas de concessão de crédito para assegurar que as decisões sejam baseadas em critérios justos e transparentes, promovendo a equidade de gênero. A criação de programas de educação financeira voltados especialmente para mulheres pode ajudá-las a melhorar seus perfis financeiros e, consequentemente, alcançar limites de crédito mais altos, promovendo a inclusão financeira e fortalecendo a fidelização desse segmento de clientes.

A compreensão de que a escolaridade não é um fator significativo permite à empresa focar em outras formas de segmentação e personalização de ofertas. Campanhas de marketing e produtos financeiros podem ser melhor direcionados com base em renda, comportamento de gasto e histórico de crédito, otimizando os esforços de marketing e melhorando a eficácia das ofertas.

Por fim, a análise revelou que a maioria dos clientes possui uma renda inferior a 40 mil reais anuais e que 235 clientes não forneceram informações sobre a faixa salarial. Este grupo representa uma parte significativa da base de clientes. Direcionar esforços e campanhas de marketing para atender às necessidades desse público de menor renda pode aumentar a fidelização e a satisfação dos clientes, além de abrir novas oportunidades de mercado. Implementar processos robustos para garantir que todos os clientes forneçam informações completas sobre sua faixa salarial também melhorará a qualidade dos dados disponíveis, permitindo análises mais precisas e segmentações mais eficazes.

A análise utilizando SQL e AWS permitiu identificar áreas de melhoria e oportunidades de crescimento, destacando a importância de uma abordagem baseada em dados para a tomada de decisões estratégicas.