# Github PR 자동 리뷰 베이스 노트북

이 노트북은 기존 Github PR 리뷰 데이터를 기반으로 신규 PR에 대해 자동으로 리뷰를 생성하는 워크플로우를 제공합니다.

- 참고 PR 링크 입력
- Github Token 설정
- Ollama LLM(gpt-oss) 및 임베딩(bge-m3) 연동
- RAG 기반 PR 리뷰 파이프라인
- Chat 인터페이스로 신규 PR 리뷰 받기

---

## 1. 참고 PR 링크 입력



In [14]:
# 참고 PR 링크를 텍스트 파일로 저장 (예시)
REFERENCE_PR_FILE = "reference_pr_links.txt"

example_links = [
    "https://github.com/spring-projects/spring-boot/pull/46372",
    "https://github.com/spring-projects/spring-boot/pull/42443",
    "https://github.com/spring-projects/spring-boot/pull/30016",
    "https://github.com/spring-projects/spring-boot/pull/45727",
    "https://github.com/spring-projects/spring-boot/pull/45355"
]

with open(REFERENCE_PR_FILE, "w") as f:
    for link in example_links:
        f.write(link + "\n")

print(f"Saved example PR links to {REFERENCE_PR_FILE}")


Saved example PR links to reference_pr_links.txt


## 2. Github Token 설정

- `.env` 파일에 `GITHUB_TOKEN`을 저장합니다.
- 예시:

```
GITHUB_TOKEN=ghp_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
```



In [1]:
import os
from dotenv import load_dotenv

load_dotenv()
GITHUB_TOKEN = os.getenv("GITHUB_TOKEN")
assert GITHUB_TOKEN, "GITHUB_TOKEN이 .env에 설정되어 있어야 합니다."
print("Github Token Loaded.")


Github Token Loaded.


## 3. Ollama LLM(gpt-oss) 및 임베딩(bge-m3) 연동

- Ollama 서버가 로컬에서 실행 중이어야 합니다.
- LLM: `gpt-oss`
- 임베딩: `bge-m3`



In [2]:
# 필요한 패키지 설치
%pip install -qU langchain-community langchain-core langchain-text-splitters langchain-chroma requests



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [19]:
from langchain_community.llms.ollama import Ollama
from langchain_community.embeddings.ollama import OllamaEmbeddings

llm = Ollama(model="gemma3:4b")
embedding = OllamaEmbeddings(model="bge-m3")

print("Ollama LLM 및 임베딩 모델 준비 완료.")


Ollama LLM 및 임베딩 모델 준비 완료.


## 4. 참고 PR 데이터 수집 및 임베딩

- 참고 PR의 본문, 변경 파일, 리뷰 코멘트 등 데이터를 수집합니다.
- 임베딩 후 벡터DB(Chroma)에 저장합니다.



In [16]:
import requests
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma
from langchain_core.documents import Document

# 참고 PR 링크 불러오기
def load_reference_pr_links(filepath):
    with open(filepath) as f:
        return [line.strip() for line in f if line.strip()]

reference_pr_links = load_reference_pr_links(REFERENCE_PR_FILE)
print(f"Loaded {len(reference_pr_links)} reference PR links.")

# Github PR 데이터 수집 함수 (본문, 변경파일, 리뷰 등)
def fetch_github_pr_data(pr_url, github_token):
    import re
    m = re.match(r"https://github.com/([^/]+)/([^/]+)/pull/(\d+)", pr_url)
    if not m:
        return None
    owner, repo, pr_number = m.groups()
    headers = {"Authorization": f"Bearer {github_token}", "Accept": "application/vnd.github+json"}
    base = f"https://api.github.com/repos/{owner}/{repo}/pulls/{pr_number}"
    pr = requests.get(base, headers=headers).json()
    files = requests.get(base + "/files", headers=headers).json()
    reviews = requests.get(base + "/reviews", headers=headers).json()
    return {"pr": pr, "files": files, "reviews": reviews}

# 참고 PR 데이터 수집 및 문서화
documents = []
for link in reference_pr_links:
    data = fetch_github_pr_data(link, GITHUB_TOKEN)
    if not data: continue
    pr = data["pr"]
    files = data["files"]
    reviews = data["reviews"]
    content = f"[PR Title]\n{pr.get('title','')}\n[PR Body]\n{pr.get('body','')}\n"
    content += "\n[Changed Files]\n" + "\n".join(f['filename'] for f in files)
    content += "\n[Reviews]\n" + "\n".join(r.get('body','') for r in reviews if r.get('body'))
    documents.append(Document(page_content=content, metadata={"url": link}))

print(f"수집된 문서 수: {len(documents)}")

# 텍스트 분할 및 임베딩
splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=200)
split_docs = splitter.split_documents(documents)

# Chroma 벡터DB에 저장
chroma_db = Chroma.from_documents(split_docs, embedding=embedding, collection_name="pr-review", persist_directory="./chroma")
print("Chroma DB 저장 완료.")


Loaded 5 reference PR links.
수집된 문서 수: 5
Chroma DB 저장 완료.


## 5. 신규 PR 리뷰: Chat 인터페이스

- 신규 PR 링크를 입력하면, RAG 기반으로 자동 리뷰를 생성합니다.
- API Path, 에러포맷, 응답포맷, 네이밍 등 일관성에 대한 리뷰도 포함합니다.



In [20]:
# 신규 PR 리뷰용 프롬프트 템플릿
def make_review_prompt(context, pr_url):
    return f"""
[Identity]
- 당신은 최고의 API/시스템 설계 리뷰어입니다.
- [Context]를 참고하여 신규 PR의 API Path, 에러포맷, 응답포맷, 네이밍, 일관성 등을 꼼꼼히 리뷰하세요.

[Context]
{context}

[신규 PR 링크]
{pr_url}

[리뷰]
- 장점
- 개선점
- API 스펙/네이밍/에러포맷/응답포맷 일관성
- 기타 의견
"""

# 신규 PR 리뷰 함수
def review_new_pr(pr_url, chroma_db, llm, github_token):
    data = fetch_github_pr_data(pr_url, github_token)
    if not data:
        return "PR 데이터를 불러올 수 없습니다."
    pr = data["pr"]
    files = data["files"]
    reviews = data["reviews"]
    content = f"[PR Title]\n{pr.get('title','')}\n[PR Body]\n{pr.get('body','')}\n"
    content += "\n[Changed Files]\n" + "\n".join(f['filename'] for f in files)
    content += "\n[Reviews]\n" + "\n".join(r.get('body','') for r in reviews if r.get('body'))
    # RAG: 유사 문서 검색
    retrieved = chroma_db.similarity_search(content, k=4)
    context = "\n---\n".join([d.page_content for d in retrieved])
    prompt = make_review_prompt(context, pr_url)
    return llm.invoke(prompt)

# 예시: 신규 PR 리뷰
new_pr_url = "https://github.com/GyungJa/flash-app/pull/6"  # 실제 PR 링크로 교체
review = review_new_pr(new_pr_url, chroma_db, llm, GITHUB_TOKEN)
print(review)


Okay, let's break down this review and provide a thorough response.

**Overall Assessment:**

This PR addresses a significant performance issue – startup latency – by introducing a `ClassLoaderCache` within the `LaunchedURLClassLoader`. The team has identified a core problem: excessive `loadClass` calls during startup, especially related to logging and other components. The use of a cache is a reasonable and well-motivated approach.  The provided metrics (50-60% improvement) are impressive, demonstrating the effectiveness of this change.

**Detailed Review & Comments:**

1. **General Comments & Kudos:**

   * "Hey @eddumelendez, thanks for the PR." - Appreciated.
   * "I've left some comments for your consideration." - Good practice.

2. **Specific Concerns & Requests (Regarding RabbitMQ Stream Plugin):**

   * **“when rabbitmq_stream plugin is enabled”** – This is the most critical point. The reviewer is absolutely correct to question the lack of explicit validation.
   * **“when rabb

---

## 전체 워크플로우 요약

1. 참고 PR 링크 입력 및 저장
2. Github Token 설정
3. Ollama LLM/임베딩 연동
4. 참고 PR 데이터 수집 및 임베딩, Chroma DB 저장
5. 신규 PR 리뷰: Chat 인터페이스로 자동 리뷰 생성

---

이 노트북을 복사해 실험하거나, 각 셀을 수정해 맞춤화할 수 있습니다.


## 6. 리뷰 결과를 PR에 자동 코멘트로 등록하기

- LLM이 생성한 리뷰 결과를 Github PR에 자동으로 코멘트로 남깁니다.
- 아래 함수는 PR URL, Github Token, 리뷰 내용을 받아 PR에 코멘트를 등록합니다.



In [23]:
def post_pr_comment(pr_url, github_token, comment_body):
    import re
    m = re.match(r"https://github.com/([^/]+)/([^/]+)/pull/(\d+)", pr_url)
    if not m:
        raise ValueError("Invalid PR URL")
    owner, repo, pr_number = m.groups()
    api_url = f"https://api.github.com/repos/{owner}/{repo}/issues/{pr_number}/comments"
    headers = {
        "Authorization": f"Bearer {github_token}",
        "Accept": "application/vnd.github+json"
    }
    data = {"body": comment_body}
    response = requests.post(api_url, headers=headers, json=data)
    if response.status_code == 201:
        print("코멘트 등록 성공!")
    else:
        print("코멘트 등록 실패:", response.status_code, response.text)

post_pr_comment(new_pr_url, GITHUB_TOKEN, review)


코멘트 등록 성공!


In [None]:
# 예시: 리뷰 생성 후 자동 코멘트 등록
# new_pr_url = "https://github.com/yourorg/yourrepo/pull/789"  # 실제 PR 링크로 교체
# review = review_new_pr(new_pr_url, chroma_db, llm, GITHUB_TOKEN)
# post_pr_comment(new_pr_url, GITHUB_TOKEN, review)

# 위 코드를 실행하면 신규 PR에 자동으로 리뷰 코멘트가 등록됩니다.

