# Análise Exploratória de Dados (EDA)

- Investigar e analisar conjunto de dados;
- Resumir suas principais características

In [25]:
#Bibliotecas
import json
import pandas as pd
import numpy as np

#Caminho do arquivo
caminho = r'C:\Users\Usuário\Documents\Cursos\HashtagTreinamentos\Python_Impressionador\Mentorias\CustomTkinter\Cotacao.json'

#Abrir o arquivo json
with open(caminho, 'r') as file:
    dados_json = json.load(file)

#Criar uma lista para armazenar os dados
dados = []

#Iterar sobre os elementos do dicionário e adicionar cada um como uma linha
for chave, valor in dados_json['dados'].items():
    dados.append(valor)

#Criar o DataFrame com os dados
df = pd.DataFrame(dados)

#Exibir o df
df.head()

Unnamed: 0,Data,Código,Cotação,Valor Mais Alto,Valor Mais Baixo
0,2024-05-30 16:41:04,USD,5.2034,5.2038,5.2031
1,2024-05-30 18:15:26,EUR,5.6311,5.6351,5.6351
2,2024-05-30 18:16:07,BTC,357560.0,362000.0,352001.0
3,2024-05-30 18:21:37,EUR,5.6311,5.6351,5.6351
4,2024-05-30 18:20:03,BTC,357611.0,362000.0,352001.0


In [26]:
#Exibir os últimos dados
df.tail()

Unnamed: 0,Data,Código,Cotação,Valor Mais Alto,Valor Mais Baixo
37,2024-06-04 17:03:42,EUR,5.7476,5.763,5.685
38,2024-06-04 17:04:40,BTC,371280.0,374384.0,360076.0
39,2024-06-04 18:29:55,USD,5.2896,5.2901,5.2857
40,2024-06-04 19:21:29,EUR,5.7476,5.7516,5.7516
41,2024-06-04 19:21:56,BTC,373463.0,374384.0,360076.0


In [27]:
#Dimensões do df
df.shape

(42, 5)

In [28]:
#Infos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Data              42 non-null     object
 1   Código            42 non-null     object
 2   Cotação           42 non-null     object
 3   Valor Mais Alto   42 non-null     object
 4   Valor Mais Baixo  42 non-null     object
dtypes: object(5)
memory usage: 1.8+ KB


In [29]:
#Vericar se há valores nulos
df.isnull().sum()

Data                0
Código              0
Cotação             0
Valor Mais Alto     0
Valor Mais Baixo    0
dtype: int64

## Transformação de Dados

- Conversão de Tipos

In [30]:
#Remover os espaços dos cabeçalhos
df.columns = df.columns.str.lstrip()
df.columns = df.columns.str.strip().str.replace(' ', '_')

#Renomear as colunas que tenham espaço
#df.rename(columns={'Valor Mais Alto': 'Valor_Mais_Alto', 'Valor Mais Baixo': 'Valor_Mais_Baixo'}, inplace=True)
df.head()

Unnamed: 0,Data,Código,Cotação,Valor_Mais_Alto,Valor_Mais_Baixo
0,2024-05-30 16:41:04,USD,5.2034,5.2038,5.2031
1,2024-05-30 18:15:26,EUR,5.6311,5.6351,5.6351
2,2024-05-30 18:16:07,BTC,357560.0,362000.0,352001.0
3,2024-05-30 18:21:37,EUR,5.6311,5.6351,5.6351
4,2024-05-30 18:20:03,BTC,357611.0,362000.0,352001.0


In [31]:
#Convertendo a coluna Data para datetime (tratando erros)
df['Data'] = pd.to_datetime(df['Data'], errors='coerce', format='%Y-%m-%d %H:%M:%S')
df.head()

Unnamed: 0,Data,Código,Cotação,Valor_Mais_Alto,Valor_Mais_Baixo
0,2024-05-30 16:41:04,USD,5.2034,5.2038,5.2031
1,2024-05-30 18:15:26,EUR,5.6311,5.6351,5.6351
2,2024-05-30 18:16:07,BTC,357560.0,362000.0,352001.0
3,2024-05-30 18:21:37,EUR,5.6311,5.6351,5.6351
4,2024-05-30 18:20:03,BTC,357611.0,362000.0,352001.0


In [32]:
#Converter para numeros (tratando erros)
df['Cotação'] = pd.to_numeric(df['Cotação'], errors='coerce')
df['Valor_Mais_Alto'] = pd.to_numeric(df['Valor_Mais_Alto'], errors='coerce')
df['Valor_Mais_Baixo'] = pd.to_numeric(df['Valor_Mais_Baixo'], errors='coerce')
df.head()

Unnamed: 0,Data,Código,Cotação,Valor_Mais_Alto,Valor_Mais_Baixo
0,2024-05-30 16:41:04,USD,5.2034,5.2038,5.2031
1,2024-05-30 18:15:26,EUR,5.6311,5.6351,5.6351
2,2024-05-30 18:16:07,BTC,357560.0,362000.0,352001.0
3,2024-05-30 18:21:37,EUR,5.6311,5.6351,5.6351
4,2024-05-30 18:20:03,BTC,357611.0,362000.0,352001.0


In [33]:
#Infos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Data              42 non-null     datetime64[ns]
 1   Código            42 non-null     object        
 2   Cotação           42 non-null     float64       
 3   Valor_Mais_Alto   42 non-null     float64       
 4   Valor_Mais_Baixo  42 non-null     float64       
dtypes: datetime64[ns](1), float64(3), object(1)
memory usage: 1.8+ KB


## Estatística Básica

In [34]:
#Estatísticas do Df
df.describe()

Unnamed: 0,Data,Cotação,Valor_Mais_Alto,Valor_Mais_Baixo
count,42,42.0,42.0,42.0
mean,2024-06-02 01:03:18.571428608,137425.391605,138878.206698,135387.854721
min,2024-05-30 16:41:04,5.2034,5.2038,5.1936
25%,2024-05-31 10:18:36,5.28585,5.29175,5.255325
50%,2024-06-01 17:52:04.500000,5.69915,5.7077,5.6654
75%,2024-06-03 18:26:22,357598.25,362000.0,353791.25
max,2024-06-04 19:21:56,373463.0,374384.0,360076.0
std,,177326.310013,179204.544258,174679.799003


In [35]:
#Média de cotação por moeda
df.groupby('Código')[['Cotação']].mean().round(2).sort_values('Cotação', ascending=False)

Unnamed: 0_level_0,Cotação
Código,Unnamed: 1_level_1
BTC,360732.75
EUR,5.68
USD,5.24


In [36]:
#Analise por valor mais alto
analise_valor_alto = df.groupby( by=['Código'] ).agg(
    Quantidade = ('Valor_Mais_Alto', 'count'),
    Media = ('Valor_Mais_Alto', 'mean'),
    Max = ('Valor_Mais_Alto', 'max'),
    Min = ('Valor_Mais_Alto', 'min'),
    Mediana = ('Valor_Mais_Alto', 'median'),
    DesvioPadrao = ('Valor_Mais_Alto', 'std'),
    Variacao = ('Valor_Mais_Alto', 'var')
)


analise_valor_alto.sort_values('Media', ascending=False ).round(2)

Unnamed: 0_level_0,Quantidade,Media,Max,Min,Mediana,DesvioPadrao,Variacao
Código,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
BTC,16,364546.38,374384.0,357835.0,362000.0,5419.88,29375147.32
EUR,14,5.69,5.76,5.64,5.71,0.04,0.0
USD,12,5.25,5.3,5.2,5.25,0.03,0.0


In [37]:
#Analise por valor mais baixo
analise_valor_baixo = df.groupby( by=['Código'] ).agg(
    Quantidade = ('Valor_Mais_Baixo', 'count'),
    Media = ('Valor_Mais_Baixo', 'mean'),
    Max = ('Valor_Mais_Baixo', 'max'),
    Min = ('Valor_Mais_Baixo', 'min'),
    Mediana = ('Valor_Mais_Baixo', 'median'),
    DesvioPadrao = ('Valor_Mais_Baixo', 'std'),
    Variacao = ('Valor_Mais_Baixo', 'var')
)


analise_valor_baixo.sort_values('Media', ascending=False ).round(2)

Unnamed: 0_level_0,Quantidade,Media,Max,Min,Mediana,DesvioPadrao,Variacao
Código,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
BTC,16,355384.25,360076.0,352001.0,355473.5,2845.66,8097792.33
EUR,14,5.66,5.75,5.63,5.64,0.04,0.0
USD,12,5.22,5.29,5.19,5.21,0.03,0.0


## Agrupar por data

**Índices Únicos:** O agrupamento transforma as colunas "Código" e "Data" em índices, e cada índice é único, o DataFrame resultante não terá linhas duplicadas.

In [38]:
#Cotação por código
grouped = df.groupby(["Código", "Data"], as_index=True)
grouped.aggregate(np.max).round(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,Cotação,Valor_Mais_Alto,Valor_Mais_Baixo
Código,Data,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BTC,2024-05-30 18:16:07,357560.0,362000.0,352001.0
BTC,2024-05-30 18:20:03,357611.0,362000.0,352001.0
BTC,2024-05-30 18:35:43,357281.0,362000.0,352001.0
BTC,2024-05-30 19:28:42,356906.0,362000.0,352001.0
BTC,2024-05-31 10:19:15,359996.0,362000.0,352508.0
BTC,2024-05-31 10:47:38,358418.0,362000.0,355147.0
BTC,2024-06-01 17:10:11,356500.0,357835.0,354219.0
BTC,2024-06-01 18:33:58,356297.0,357835.0,354219.0
BTC,2024-06-02 11:14:36,358995.0,359907.0,355800.0
BTC,2024-06-02 12:45:15,358910.0,360397.0,355800.0


## Tecnologias Usadas

In [39]:
#Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python:', python_version())

#Versão do Jupyter
import jupyter_core
print('Versão do Jupyter Notebook:',jupyter_core.__version__)

Versão da Linguagem Python: 3.11.5
Versão do Jupyter Notebook: 5.3.0


In [40]:
import sys

#Versão do json
json_version = sys.version

#Versão do pandas
pandas_version = pd.__version__

#Versão do numpy
numpy_version = np.__version__

print(f"Versão Json : {json_version}")
print(f"Versão Pandas: {pandas_version}")
print(f"Versão Numpy: {numpy_version}")

Versão Json : 3.11.5 | packaged by Anaconda, Inc. | (main, Sep 11 2023, 13:26:23) [MSC v.1916 64 bit (AMD64)]
Versão Pandas: 2.0.3
Versão Numpy: 1.24.3
