<a href="https://colab.research.google.com/github/jjhonxpx/confeitaria_projeto01/blob/main/SDV/SDV_teste.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Instala a biblioteca SDV
!pip install sdv

Collecting sdv
  Downloading sdv-1.29.0-py3-none-any.whl.metadata (14 kB)
Collecting boto3<2.0.0,>=1.28 (from sdv)
  Downloading boto3-1.40.74-py3-none-any.whl.metadata (6.8 kB)
Collecting botocore<2.0.0,>=1.31 (from sdv)
  Downloading botocore-1.40.74-py3-none-any.whl.metadata (5.9 kB)
Collecting copulas>=0.12.1 (from sdv)
  Downloading copulas-0.12.3-py3-none-any.whl.metadata (9.5 kB)
Collecting ctgan>=0.11.0 (from sdv)
  Downloading ctgan-0.11.1-py3-none-any.whl.metadata (10 kB)
Collecting deepecho>=0.7.0 (from sdv)
  Downloading deepecho-0.7.0-py3-none-any.whl.metadata (10 kB)
Collecting rdt>=1.18.2 (from sdv)
  Downloading rdt-1.18.2-py3-none-any.whl.metadata (10 kB)
Collecting sdmetrics>=0.21.0 (from sdv)
  Downloading sdmetrics-0.24.0-py3-none-any.whl.metadata (9.3 kB)
Collecting jmespath<2.0.0,>=0.7.1 (from boto3<2.0.0,>=1.28->sdv)
  Downloading jmespath-1.0.1-py3-none-any.whl.metadata (7.6 kB)
Collecting s3transfer<0.15.0,>=0.14.0 (from boto3<2.0.0,>=1.28->sdv)
  Downloading s

In [None]:
# Importa a biblioteca pandas, usada para manipulação de dados tabulares
import pandas as pd

# Importa o sintetizador GaussianCopula do SDV, modelo estatístico para gerar dados sintéticos a partir de uma única tabela
from sdv.single_table import GaussianCopulaSynthesizer

# Importa a classe para criar ou detectar automaticamente o metadado da sua tabela
from sdv.metadata import SingleTableMetadata

# Importa a classe FixedCombinations, que impede o SDV de criar combinações entre colunas que não existem nos dados originais
from sdv.cag import FixedCombinations


In [None]:
# Cria um DataFrame com dados de produtos de uma confeitaria
confeitaria_df = pd.DataFrame({
    'Produto': ['Brigadeiro', 'Coxinha', 'Quindim', 'Empada', 'Bolo de Cenoura', 'Pastel', 'Beijinho', 'Pão de Queijo'],
    'Tipo': ['Doce', 'Salgado', 'Doce', 'Salgado', 'Doce', 'Salgado', 'Doce', 'Salgado'],
    'Preço (R$)': [3.00, 5.00, 4.50, 5.50, 8.00, 6.00, 3.50, 4.00],
    'Custo (R$)': [1.20, 2.00, 1.80, 2.50, 4.50, 2.20, 1.40, 1.80],
    'Quantidade Vendida': [120, 90, 50, 60, 40, 100, 80, 110]
})

confeitaria_df

Unnamed: 0,Produto,Tipo,Preço (R$),Custo (R$),Quantidade Vendida
0,Brigadeiro,Doce,3.0,1.2,120
1,Coxinha,Salgado,5.0,2.0,90
2,Quindim,Doce,4.5,1.8,50
3,Empada,Salgado,5.5,2.5,60
4,Bolo de Cenoura,Doce,8.0,4.5,40
5,Pastel,Salgado,6.0,2.2,100
6,Beijinho,Doce,3.5,1.4,80
7,Pão de Queijo,Salgado,4.0,1.8,110


In [None]:
# Colunas que devem manter apenas as combinações existentes nos dados reais
constraint = FixedCombinations(
    column_names=['Produto', 'Tipo']
)

In [None]:
# Gera o metadado automaticamente
metadata = SingleTableMetadata()
metadata.detect_from_dataframe(confeitaria_df)
print('Metadado detectado:', metadata.to_dict()) # Veja o tipo de dado de cada coluna

Metadado detectado: {'METADATA_SPEC_VERSION': 'SINGLE_TABLE_V1', 'columns': {'Produto': {'sdtype': 'id'}, 'Tipo': {'sdtype': 'categorical'}, 'Preço (R$)': {'sdtype': 'numerical'}, 'Custo (R$)': {'sdtype': 'numerical'}, 'Quantidade Vendida': {'sdtype': 'numerical'}}, 'primary_key': 'Produto'}


In [None]:
# Não definir nenhuma chave primária
metadata.primary_key = None

In [None]:
# Garante que a coluna 'Produto' será categórica
metadata.update_column(column_name='Produto', sdtype='categorical')

In [None]:
# Cria o sintetizador
synthesizer = GaussianCopulaSynthesizer(metadata)

# Adiciona restrições ao sintetizador usando add_constraints
synthesizer.add_constraints([constraint])  # Lista de constraints



In [None]:
# Ajustar o modelo ao seu conjunto real
synthesizer.fit(confeitaria_df)

In [None]:
# Gerar novas linhas sintéticas
sintetico = synthesizer.sample(num_rows=100)
print(sintetico.head())

           Produto     Tipo  Preço (R$)  Custo (R$)  Quantidade Vendida
0         Beijinho     Doce         6.2         3.1                  71
1         Beijinho     Doce         5.7         2.7                  63
2           Empada  Salgado         4.0         1.4                 108
3           Pastel  Salgado         5.8         2.6                  55
4  Bolo de Cenoura     Doce         6.1         2.6                  68


In [None]:
pd.options.display.max_rows = None  # Permite mostrar todas as linhas

sintetico

Unnamed: 0,Produto,Tipo,Preço (R$),Custo (R$),Quantidade Vendida
0,Beijinho,Doce,6.2,3.1,71
1,Beijinho,Doce,5.7,2.7,63
2,Empada,Salgado,4.0,1.4,108
3,Pastel,Salgado,5.8,2.6,55
4,Bolo de Cenoura,Doce,6.1,2.6,68
5,Empada,Salgado,3.9,1.4,68
6,Beijinho,Doce,7.7,4.5,50
7,Quindim,Doce,5.0,1.7,59
8,Empada,Salgado,7.1,3.6,74
9,Coxinha,Salgado,4.6,1.5,111


In [None]:
# Exportar planilha sintética em excel e csv
sintetico.to_csv('dados_sinteticos_sdv.csv', index=False)
sintetico.to_excel('dados_sinteticos_sdv.xlsx', index=False)