In [17]:
import ollama
response = ollama.chat(model='benedict/linkbricks-llama3.1-korean:70b', messages=[
  {
    'role': 'user',
    'content': '안녕',
  },
])
print(response['message']['content'])

안녕하세요, 저는 링크브릭스 호라이즌 AI입니다. 저는 사용자의 삶을 편리하게 만들고 지원해주는 인공지능 어시스턴트입니다. 어떤 도움이 필요하십니까?


In [None]:
import pandas as pd
import ollama
import os

# 경로 설정
input_dir = "./Data/None"
output_dir = "./Data"
os.makedirs(output_dir, exist_ok=True)  # 출력 디렉토리 생성

# 데이터 생성 함수
def generate_data(hate_type, missing_count, existing_data):
    generated_texts = []
    for _ in range(missing_count):
        # Train 데이터에서 해당 클래스의 랜덤 예시 3개 추출
        examples = existing_data[existing_data['hate'] == hate_type]['comments'].dropna().sample(3).tolist()
        prompt = f"""
        아래의 형식에 맞추어 {hate_type} 유형의 새로운 문장을 하나 작성해줘.
        **출력 형식: {{새로운 문장}}**
        다른 형식의 출력은 포함하지 말아줘.

        예시:
        1. {{ {examples[0]} }}
        2. {{ {examples[1]} }}
        3. {{ {examples[2]} }}

        이제 새로운 문장을 작성해줘.
        """

        # Ollama 호출
        response = ollama.chat(model="benedict/linkbricks-llama3.1-korean:70b", messages=[
            {
                "role": "user",
                "content": prompt.strip(),
            }
        ])
        generated_text = response['message']['content'].strip()

        # 출력 형식 검증
        if not (generated_text.startswith("{") and generated_text.endswith("}")):
            print(f"잘못된 출력 형식: {generated_text}. 다시 요청합니다.")
            continue

        # 형식이 올바른 경우 저장
        generated_texts.append(generated_text[1:-1])  # {} 제거 후 저장
        new_row = {"comments": generated_text[1:-1], "hate": hate_type}
        existing_data = pd.concat([existing_data, pd.DataFrame([new_row])], ignore_index=True)
        print(f"생성된 문장 저장 완료: {generated_text[1:-1]}")

    return existing_data

# 각 파일 처리
for file_name in sorted(os.listdir(input_dir)):
    if file_name.endswith(".csv"):
        input_path = os.path.join(input_dir, file_name)
        output_file = f"GR_{file_name.split('_')[-1]}"
        output_path = os.path.join(output_dir, output_file)

        # 파일 로드
        gr_data = pd.read_csv(input_path)
        print(f"파일 {file_name}에서 데이터를 불러왔습니다.")

        # 클래스별 최대 개수 설정
        target_count = gr_data['hate'].value_counts().max()

        # 현재 데이터 분포 확인
        current_counts = gr_data['hate'].value_counts()
        print(f"현재 {file_name} 분포:")
        print(current_counts)

        # 부족한 클래스 데이터 생성
        for hate_type in ["offensive", "hate"]:
            current_count = current_counts.get(hate_type, 0)
            missing_count = target_count - current_count  # 부족한 개수 계산
            if missing_count > 0:
                print(f"{hate_type} 클래스가 {missing_count}개 부족합니다. 생성 중...")
                gr_data = generate_data(hate_type, missing_count, gr_data)
                current_counts = gr_data['hate'].value_counts()  # 생성 후 분포 업데이트
            else:
                print(f"{hate_type} 클래스는 충분합니다.")

        # 파일 저장
        gr_data.to_csv(output_path, index=False, encoding="utf-8-sig")
        print(f"{output_path}에 데이터 저장 완료.")

# 최종 완료 메시지
print("모든 파일에 대한 데이터 생성 및 저장이 완료되었습니다.")


파일 None_1.csv에서 데이터를 불러왔습니다.
현재 None_1.csv 분포:
hate
none         44
offensive    31
hate         25
Name: count, dtype: int64
offensive 클래스가 13개 부족합니다. 생성 중...
생성된 문장 저장 완료:  이거 좀 봐라, 왜 저런 애를 뽑았냐고? 
생성된 문장 저장 완료: 이 영화는 너무 지루하고 재미없어서 관객들이 전혀 공감할 수 없게 만들어진 영화다.
생성된 문장 저장 완료:  요즘에 나온 대부분의 가수들 노래는 그냥 비슷비슷하고 매력이 없다. 
