Learning-to-Generate-Code-from-Images-with-Actor-Critic

This project explores generating HTML code from input images using actor-critic reinforcement learning. The goal is to reproduce the visual structure and styling of images as functional HTML code.

Approach

Fine-tuned DiT (Document Image Transformer) + GPT2 model using actor-critic reinforcement learning
Actor model generates HTML code given an input image
Critic model estimates similarity between generated and ground truth code
Actor trained to maximize rewards from critic's similarity estimates
Custom htmlBLEU metric compares HTML DOM structure, CSS attributes between outputs

Model Architecture

Synthetic Dataset

25,000 training samples of image + HTML code pairs
Synthetic samples of shapes, colors, layouts
3,000 test samples

Results

Actor-critic model outperforms CNN, ViT, and DiT baselines on htmlBLEU
Achieved mean htmlBLEU score of 0.78 compared to 0.31 for ViT and 0.64 for DiT
Robust performance even as sample complexity increases

Confusion Matrix

Sample Visual Comparison

Input Image	Ground Truth Code	Generated Code

References

Full Project Report

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
notebooks		notebooks
src		src
CMSC828A_Project_Proposal.pdf		CMSC828A_Project_Proposal.pdf
CMSC828A_Project_Report.pdf		CMSC828A_Project_Report.pdf
README.md		README.md
VIT_DIT.png		VIT_DIT.png
confusion_mat.png		confusion_mat.png
mid.png		mid.png
model.png		model.png
model_comparison.png		model_comparison.png
num_elements.png		num_elements.png
presentation.pdf		presentation.pdf
visual_metrics.png		visual_metrics.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Learning-to-Generate-Code-from-Images-with-Actor-Critic

Approach

Model Architecture

Synthetic Dataset

Results

Confusion Matrix

Sample Visual Comparison

References

About

Releases

Packages

Languages

shelvinpauly/Code-generation-from-images

Folders and files

Latest commit

History

Repository files navigation

Learning-to-Generate-Code-from-Images-with-Actor-Critic

Approach

Model Architecture

Synthetic Dataset

Results

Confusion Matrix

Sample Visual Comparison

References

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages