O presente projeto foi originado no contexto das atividades da disciplina de pós-graduação IA376L - Deep Learning aplicado a Síntese de Sinais, oferecida no primeiro semestre de 2022, na Unicamp, sob supervisão da Profa. Dra. Paula Dornhofer Paro Costa, do Departamento de Engenharia de Computação e Automação (DCA) da Faculdade de Engenharia Elétrica e de Computação (FEEC).
Nome RA Especialização Álvaro Airemoraes Capelo 104534 Eng. Químico Luiza Amador Pozzobon 233818 Eng. de Controle e Automação Tainá de Souza Coimbra 157305 Eng. Eletricista
Os resultados recentes reportados por um modelo generativo estado-da-arte baseado em difusão sugerem uma solução para o problema enfrentado pelas GANs de representatividade dos dados de treino. Neste trabalho, avaliou-se a Representação Proporcional, uma métrica de fairness, para um modelo dessa arquitetura estado-da-arte, a Denoising Diffusion GAN, e dois modelos da família das GANs, StyleGAN2 e WassersteinGAN. Treinados em conjuntos de dados MNIST modificados, apenas DDGAN e WGAN produziram distribuições dos grupos semelhantes aos conjuntos de treino. Esses resultados sugerem que a DDGAN é potencialmente capaz de atingir Representação Proporcional com alta qualidade de imagens.
O tutorial de como executar o projeto está disponível no README_SETUP.md
O relatório com a metodologia e com os resultados do projeto podem ser visualizados neste link.
Os pesos dos modelos e parâmetros de treinamentos então neste link.
As curvas de treinamento estão nos links a seguir:
- DDGAN, todos os cenários.
- StyleGAN2: Cenário A, Cenário B, Cenário C
- WGAN: Cenário A, Cenário B, Cenário C
- Grupo 1: imagens MNIST invertidas, com dígitos em preto e fundo branco
- Grupo 2: imagens tradicionais do MNIST, dígitos em branco, fundo preto
Três cenários de experimentação foram avaliados variando as proporções de cada grupo:
- Cenário A: Grupo 1 e 2 com 30 e 70% do conjunto de treino, respectivamente.
- Cenário B: Grupos 1 e 2 com 50 e 50% do conjunto de treino, respectivamente.
- Cenário C: Grupos 1 e 2 com 70 e 30% do conjunto de treino, respectivamente.
Figura 1: Comparação das densidades de imagens sintetizadas por cada arquitetura (DDGAN, StyleGAN2 e WGAN) versus a densidade original dos dados em três cenários de teste. Os cenários de teste correspondem ao treinamento dos modelos sob diferentes proporções do dataset MNIST com fundo preto ou branco.
Figura 2: Amostras geradas por cada arquitetura em cada cenário de teste.