#

post-training

Here are 21 public repositories matching this topic...

mbzuai-oryx / Awesome-LLM-Post-training

Awesome Reasoning LLM Tutorial/Survey/Guide

reinforcement-learning scaling reasoning fine post-training large-language-models

Updated Mar 11, 2025
Python

turningpoint-ai / VisualThinker-R1-Zero

Explore the Multimodal “Aha Moment” on 2B Model

reinforcement-learning reasoning r1 post-training multimodal deepseek deepseek-r1 grpo deepseek-r1-zero r1-zero multimodal-journey multimodal-r1

Updated Mar 10, 2025
Python

yihedeng9 / rlhf-summary-notes

A brief and partial summary of RLHF algorithms.

reinforcement-learning deep-learning post-training large-language-models rlhf

Updated Mar 4, 2025

UIC-Liu-Lab / CPT

[EMNLP 2022] Continual Training of Language Models for Few-Shot Learning

nlp natural-language-processing transformers language-modeling post-training continual-learning catastrophic-forgetting few-shot-learning

Updated Feb 13, 2023
Python

taco-group / Re-Align

A novel alignment framework that leverages image retrieval to mitigate hallucinations in Vision Language Models.

alignment safety vlm post-training ppo hallucination dpo large-language-models llm rlhf mllm vision-language-model multimodal-large-language-models hallucination-mitigation

Updated Feb 19, 2025
Python

AstraZeneca / vlm

Official implementation for "Diffusion Instruction Tuning"

post-training multimodal-alignment supervised-finetuning vision-language-model multimodal-large-language-models

Updated Feb 17, 2025

sastpg / RFTT

RFTT: Reasoning with Reinforced Functional Token Tuning

reinforcement-learning reasoning post-training large-language-models

Updated Mar 11, 2025
Python

anish-bhattacharya / evfly

Official repository for the paper "Monocular Event-Based Vision for Obstacle Avoidance with a Quadrotor" by Bhattacharya, et al. (2024) from GRASP, Penn & RPG, UZH.

robotics quadrotor post-training event-camera vision-transformer sim-to-real

Updated Jan 31, 2025
C++

PurCL / ProSec

Official repo for "ProSec: Fortifying Code LLMs with Proactive Security Alignment"

alignment code-generation post-training large-language-models code-language-model

Updated Dec 9, 2024

24-Game-Reasoning

sylvain-wei / 24-Game-Reasoning

超简单复现Deepseek-R1-Zero和Deepseek-R1，以「24点游戏」为例。通过zero-RL、SFT以及SFT+RL，以激发LLM的自主验证反思能力。

alignment reasoning r1 post-training cot sft o1 24game llm rlhf deepseek r1-zero verl long-cot

Updated Mar 3, 2025
Python

JiaQiSJTU / IterIT

An Approach to Enhancing the Efficacy of Post-Training Using Synthetic Data by Iterative Data Selection

synthetic-data data-selection post-training instruction-tuning

Updated Dec 24, 2024
Python

JudePark96 / BERT-KorQuAD-Competition

Machine Reading Comprehension Competition w/ Korean BERT Model

nlp korean bert korean-nlp machine-reading-comprehension post-training

Updated Aug 4, 2020
Python

DolbyUUU / Logic-RL-Lite

Lightweight replication study of DeepSeek-R1-Zero. Interesting findings include "No Aha Moment", "Longer CoT ≠ Accuracy", and "Language Mixing in Instruct Models".

reinforcement-learning fine-tuning post-training llm deepseek gpt-o1 reasoning-language-models reasoning-models deepseek-r1

Updated Mar 13, 2025
Python

tomMoral / Post_training

Reproducible figures for "Post Training in Deep Learning"

deep-learning tensorflow-experiments reproducible-figures post-training

Updated Oct 27, 2017
Python

chunhuizng / mllm-video-captioner

We use RL to train a SOTA MLLM captioner.

reinforcement-learning alignment image-captioning video-captioning post-training mllm multimodal-language-model

Updated Mar 7, 2025
Python

naufalprakoso / PostTrainingAndroidPart4

Post Training Android Part 4 for Software Laboratory Center 19-2 Binus University

android maps volley post-training bluejack

Updated Aug 11, 2019
Java

DolbyUUU / DeepEnlighten

Pure RL without SFT to post-train base models for social reasoning capabilities. Lightweight replication of DeepSeek-R1-Zero with Social IQa dataset.

reinforcement-learning fine-tuning post-training llm deepseek gpt-o1 reasoning-language-models reasoning-models deepseek-r1

Updated Mar 12, 2025
Python

yshinya6 / clip-refine

Code repository for "Post-pre-training for Modality Alignment in Vision-Language Foundation Models" (CVPR2025)

post-training multimodal vision-language-model modality-gap

Updated Mar 12, 2025

naufalprakoso / PostTrainingAndroidPart2

Post Training Android Part 2 for Software Laboratory Center 19-2 Binus University

android fragment post-training bluejack

Updated Aug 11, 2019
Java

naufalprakoso / PostTrainingAndroidPart1

Post Training Android Part 1 for Software Laboratory Center 19-2 Binus University

android post-training bluejack

Updated Feb 12, 2020
Java

Improve this page

Add a description, image, and links to the post-training topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the post-training topic, visit your repo's landing page and select "manage topics."