In [1]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

# EXPLORAÇÃO DE DADOS TABELA CREDITO

# Estruturação dos dados

Para uma análise exploratória é crucial que se faça um atrelamento adequado para os tipos de variáveis para que a tabela criada consiga trazer as informações corretamente.
abaixo é mostrado as variáveis e seus tipos de dados;

* idade = int
* sexo = string
* dependentes = int
* escolaridade = string
* estado civil = string
* salario_anual = string
* tipo_cartao = string
* qtd_produtos = bigint
* iteracoes_12m = int
* meses_inativo_12m = int
* limite_credito =float
* valor_transacoes_12m float
* qtd_transacoes_12m int

Os dados acima represemtam informações de clientes de um banco específico. 

Uma vez que tenhamos os dados planilhados podemos criar um bucket na plataforma (AWS) no setor (s3)fazendo o upload do arquivo e criando a tabela no setor (athena) utilizando as informações dos tipos de dados acima, com isso conseguimos por query extrair informações relevantes como será demonstrado abaixo.





# Visualisando a tabela criada por query

Agora, por meio de consulta podemos visualizar de modo geral o que a tabela pode nos entregar de informação.
Para isso utilizaremos o código abaixo :

select*from credito

![ebac query.png](attachment:9c08e3c3-5e4b-4fca-8008-c8ffb22f345a.png)

Podemos extrair algumas informações com base em cálculos aritiméticos.

# Média de Quantidade de Produtos

select avg(qtd_produtos) as MEDIA_QTD_PRODUTOS from credito


![image.png](attachment:52d1eb5b-945d-4ab9-8bb1-75b4c9994c9b.png)

# Valor Máximo e Mínimo de Produtos

select max(qtd_produtos) as MAXIMO_QTD_PRODUTOS, min(qtd_produtos) as MINIMO_QTD_PRODUTOS from credito

![image.png](attachment:f625df68-3b98-474c-91e7-a80ea715ff91.png)

# Tipos de Escolaridade

select distinct ESCOLARIDADE from credito

![image.png](attachment:947d0514-9904-4a29-967a-807bfdd33714.png)

Nesse caso acima temos de forma distinta todos os tipos de escolaridade da tabela, abaixo o estado civil.

# Estado Civil

select distinct Estado_civil from credito

![image.png](attachment:4f6864ca-1372-420f-9b00-0b7909c0b5e4.png)






# Agrupando Informações

Podemos extrair informações de forma agrupada por exemplo:
Qual é o valor total de limite atribuído a clientes por tipo de cartão.

select sum(limite_credito) as LIMITE_CREDITO, tipo_cartao from credito group by tipo_cartao

![image.png](attachment:09ef1b90-fb13-4980-9879-b2d4862f8672.png)

Conforme mostrado na tabela acima a soma total do  limite de crédito para os cartões do tipo blue é o de maior valor podendo ser o limite de crédito atríbuido ou a quantidade de clientes que utilizam o cartão azul. É possivel tirar uma conclusão verificando a quantidade de cartões por cores conforme mostrado abaixo.

select tipo_cartao, count(tipo_cartao) as QTD_CARTOES from credito group by tipo_cartao

![image.png](attachment:dd40e6b1-125a-4088-9d17-61d36658637c.png)

Podemos concluir que o volume de cartões (blue) é o de maior quantidade isso mostra que a soma do limite de blue é maior pela quantidade de clientes e não pelo limite que 0 cartão corresponde

Podemos analisar a média de idade agrupados por sexo e escolaridade, conforme mostrado na tabela abaixo.

select  avg(idade) as MEDIA_IDADE,  escolaridade, sexo  from credito group by sexo, escolaridade

![image.png](attachment:1314604c-ecb5-4071-9052-f7205374a5d7.png)


Podemos realizar uma filtragem agrupando pela escolaridade onde podemos extrair apenas o sexo feminino e masculino conforme mostrado nas tabelas abaixo.

select  avg(idade) as MEDIA_IDADE, SEXO, escolaridade from credito
where sexo ='F'
group by  escolaridade, SEXO

![image.png](attachment:f908df20-590a-427c-be53-a634e9157436.png)

select  avg(idade) as MEDIA_IDADE, SEXO, escolaridade from credito
where sexo ='M'
group by  escolaridade, SEXO

![image.png](attachment:4e631122-177e-4ea7-b993-b9bd191265eb.png)

Conclui - se que que não há diferença significativa entre as idades de sexo masculino e feminino  em caráter de escolaridade.

# Resultados Mostrados em Gráficos

Uma ótima forma de entregar resultados é mostra-los graficamente pois visualmente ficam mais claros.

O código abaixo nos traz o uso de tipo de cartões com base na média de idade dos usuários do sexo feminino e masculino.

select  avg(idade) as MEDIA_IDADE,  tipo_cartao from credito
where sexo ='F'
group by   tipo_cartao

![image.png](attachment:58e5e187-a4f7-4b94-9e69-bad286a9fcc3.png)

select  avg(idade) as MEDIA_IDADE,  tipo_cartao from credito
where sexo ='M'
group by   tipo_cartao

![image.png](attachment:0997e1f9-37e9-4775-aba6-e038eafcf7b0.png)


Podemos observar abaixo uma grande diferença na facilidade de interpretar os resultados.

![image.png](attachment:4cdc00ab-2f45-4698-9e8b-d284433b1955.png)

![image.png](attachment:5e3972e7-92f4-4320-aa5c-40769b63cde3.png)

É muito claro entender que o cartão (platinium) é utilizado com mulheres com idade média de 51 anos de idade e homens com 48 anos.


Podemos analisar em grau de escolaridade qual é a media de idade e tipo de cartão utilizado para aqueles de ambos os sexos que possuem grau de escolaridade a nível de mestrado.

select  avg(idade) as MEDIA_IDADE,  tipo_cartao, sexo, escolaridade from credito
where escolaridade ='mestrado'
and sexo ='M'
group by   tipo_cartao, sexo, escolaridade

![image.png](attachment:c688f63f-da1f-4758-9af7-0ce605afae25.png)

![image.png](attachment:852580d0-8e9f-4672-afe5-767904f22ad0.png)












select  avg(idade) as MEDIA_IDADE,  tipo_cartao, sexo, escolaridade from credito
where escolaridade ='mestrado'
and sexo ='F'
group by   tipo_cartao, sexo, escolaridade

![image.png](attachment:e4b6737b-fb39-4839-9737-7bf478f694b6.png)

![image.png](attachment:55ea357b-254b-457d-892d-25cb1de3b720.png)

Nesse gráfico podemos concluir que mulheres com escolaridade em mestrado não utilizam o cartão platinium


Abaixo é extraído a quantidade de cartões por tipo, da tabela.

select tipo_cartao, count(*) QUANTIDADE from credito
group by tipo_cartao

![image.png](attachment:fa4aecc6-7225-4f47-b63c-40f9f271ada8.png)

![image.png](attachment:332ead55-4550-44c0-8607-4fa3e8ee5dfc.png)

Podemos observar que a maior quantidade se concentra em blue e a menor em platinum

Abaixo dados de quantidade, tipo de cartão por estado civil

select tipo_cartao, count(*) QUANTIDADE, estado_civil from credito
group by tipo_cartao, estado_civil

![image.png](attachment:9b80f492-a088-4696-bd7e-f188707d2716.png)
![image.png](attachment:b4dc2d29-a52c-4e92-8752-7b0a20c37819.png)



Casados e solteiros são os que mais utilizam cartão blue e silver.

