<a href="https://colab.research.google.com/github/spdr-lily/modelagem-dimensional-de-uma-loja/blob/main/modelagem_dimensional.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto de Modelagem Dimensional
Com dados simulados de vendas de uma empresa

In [1]:
# importação de bibliotecas
import pandas as pd
import numpy as np

In [3]:
# dados simulados
data = {
    'date': pd.date_range(start='2023-01-01', periods=100, freq='D'),
    'sales_amount': np.random.randint(100, 500, size=100),
    'product_id': np.random.choice(['P1','P2','P3'], size=100)
}

In [4]:
# criando DataFrame
sales_df = pd.DataFrame(data)
print(sales_df.head())

        date  sales_amount product_id
0 2023-01-01           327         P1
1 2023-01-02           155         P3
2 2023-01-03           406         P3
3 2023-01-04           305         P2
4 2023-01-05           281         P1


Neste exemplo, foi criado um DataFrame com três colunas: ‘date’, ‘sales_amount’ e ‘product_id’. A coluna ‘date’ contém datas, ‘sales_amount’ contém valores de vendas simulados, e ‘product_id’ identifica os produtos vendidos. Este DataFrame representa os fatos (vendas) e suas medidas (quantidade de vendas).

# Fatos e Medidas: Estrutura de um Cubo de Dados

In [5]:
import xarray as xr

In [6]:
# convertendo o DataFrame pandas em um DataArray xarray (cubo de dados)
data_array = sales_df.set_index(['date', 'product_id']).to_xarray()
print(data_array)

<xarray.Dataset> Size: 3kB
Dimensions:       (date: 100, product_id: 3)
Coordinates:
  * date          (date) datetime64[ns] 800B 2023-01-01 ... 2023-04-10
  * product_id    (product_id) object 24B 'P1' 'P2' 'P3'
Data variables:
    sales_amount  (date, product_id) float64 2kB 327.0 nan nan ... 337.0 nan nan


Esses dados são então convertidos em um DataArray da biblioteca Xarray, que nos permite representar os dados em uma estrutura multidimensional. O DataArray criado permite acessar e manipular os dados de forma mais intuitiva e eficiente.

In [7]:
# indexando o DataFrame por data para consultas mais rápidas
sales_df.set_index('date', inplace=True)
print("\nDataFrame indexado por data:")
print(sales_df.loc['2023-01-01'])


DataFrame indexado por data:
sales_amount    327
product_id       P1
Name: 2023-01-01 00:00:00, dtype: object
