<a href="https://colab.research.google.com/github/almeida-cma/SI_TEMA6/blob/main/DATA_MART.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Exemplo Prático de Data Warehouse, Data Mart e Mineração de Dados
# Este notebook demonstra conceitos de Data Warehouse, Data Mart e Mineração de Dados usando Python.

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 1. Simulação de um Data Warehouse
# Criamos um conjunto de dados fictício que simula registros de vendas em diferentes regiões.

# Simulação de dados de vendas
data = {
    'Produto': np.random.choice(['Produto A', 'Produto B', 'Produto C'], size=100),
    'Regiao': np.random.choice(['Norte', 'Sul', 'Leste', 'Oeste'], size=100),
    'Quantidade': np.random.randint(1, 10, size=100),
    'Valor_Unitario': np.random.uniform(10.0, 100.0, size=100),
    'Data': pd.date_range(start='2024-01-01', periods=100)
}

# Criação do DataFrame
df_warehouse = pd.DataFrame(data)
df_warehouse['Valor_Total'] = df_warehouse['Quantidade'] * df_warehouse['Valor_Unitario']
print("Data Warehouse (amostra):")
print(df_warehouse.head())

# 2. Simulação de um Data Mart
# Filtramos os dados para criar um Data Mart específico para a região Norte.

# Filtrando dados da região Norte
data_mart_norte = df_warehouse[df_warehouse['Regiao'] == 'Norte']
print("\nData Mart (Região Norte):")
print(data_mart_norte.head())

# 3. Mineração de Dados (Regressão Simples)
# Prevemos o valor total com base na quantidade vendida usando regressão linear simples.

# Separando variáveis independentes e dependentes
X = df_warehouse[['Quantidade']]
y = df_warehouse['Valor_Total']

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinando o modelo de regressão linear
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Previsões
y_pred = modelo.predict(X_test)

# Avaliação do modelo
mse = mean_squared_error(y_test, y_pred)
print(f"\nMSE do modelo: {mse:.2f}")
print(f"Coeficiente: {modelo.coef_[0]:.2f}")
print(f"Intercepto: {modelo.intercept_:.2f}")


Data Warehouse (amostra):
     Produto Regiao  Quantidade  Valor_Unitario       Data  Valor_Total
0  Produto B  Leste           8       71.337769 2024-01-01   570.702151
1  Produto B  Oeste           6       76.419956 2024-01-02   458.519737
2  Produto A    Sul           5       96.376349 2024-01-03   481.881746
3  Produto A  Oeste           7       86.249405 2024-01-04   603.745836
4  Produto A    Sul           2       47.776590 2024-01-05    95.553181

Data Mart (Região Norte):
      Produto Regiao  Quantidade  Valor_Unitario       Data  Valor_Total
15  Produto C  Norte           6       65.739006 2024-01-16   394.434036
17  Produto B  Norte           2       77.142509 2024-01-18   154.285018
18  Produto C  Norte           8       14.384963 2024-01-19   115.079703
21  Produto A  Norte           5       19.173348 2024-01-22    95.866741
22  Produto A  Norte           3       12.128237 2024-01-23    36.384712

MSE do modelo: 16390.05
Coeficiente: 52.43
Intercepto: 23.51
