In [1]:
from langchain.prompts import PromptTemplate
from langchain_community.llms import Ollama
from langchain.chains import LLMChain
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate,
)

In [2]:
# 사용할 LLM 모델 설정
llm = Ollama(model="gemma2")

  llm = Ollama(model="gemma2")


In [24]:
from langchain.prompts import PromptTemplate
from typing import List


# 프롬프트 템플릿 설정 - 좀 더 구체적인 지시사항 추가
prompt = PromptTemplate(
    input_variables=["domain"],
    template="""다음 조건에 맞는 뉴스 기사 제목을 5개 생성해주세요:
    - 도메인: {domain}
    - 각 제목은 실제 뉴스처럼 구체적이고 현실적이어야 함
    - 제목은 한 줄에 하나씩, 번호를 붙여서 작성
    - 클릭베이트나 과장된 표현 사용하지 않기
    """
)

def generate_news_titles(domain: str) -> str:
    """
    특정 도메인에 대한 뉴스 제목을 생성하는 함수
    
    Args:
        domain (str): 뉴스 도메인 (예: 정치, 경제, 사회 등)
    
    Returns:
        str: 생성된 뉴스 제목들
    """
    try:
        # 프롬프트 생성
        formatted_prompt = prompt.format(domain=domain)
        print(f"생성된 프롬프트:\n{formatted_prompt}\n")
        
        # LLM으로 제목 생성
        response = llm.invoke(formatted_prompt)  # .content 제거
        
        return response  # 직접 response 반환
        
    except Exception as e:
        print(f"오류 발생: {str(e)}")
        return ""

# 실행 예시
if __name__ == "__main__":
    domains = ["생활문화", "스포츠", "정치", "사회", "IT과학", "경제", "세계"]
    
    for domain in domains:
        print(f"\n{domain} 도메인 뉴스 제목:")
        titles = generate_news_titles(domain)
        print(titles)


생활문화 도메인 뉴스 제목:
생성된 프롬프트:
다음 조건에 맞는 뉴스 기사 제목을 5개 생성해주세요:
    - 도메인: 생활문화
    - 각 제목은 실제 뉴스처럼 구체적이고 현실적이어야 함
    - 제목은 한 줄에 하나씩, 번호를 붙여서 작성
    - 클릭베이트나 과장된 표현 사용하지 않기
    

1.  故宮博物院 새 전시 '궁궐의 비밀: 조선왕실 가족일기' 개관
2.  강남 테마카페 트렌드, 이번엔 '전쟁게임 배경' 인기 몰아치고
3.  "국민 여행지", 제주도 관광객 수 올해에도 전년 대비 증가 추세
4.  올해 신문체험활동 가장 많이 참여한 연령층은 '대학생' - 문화부 조사 결과 발표
5.  2023 베스트셀러, 범주별 명단 공개! 역시 시각자료 소설 인기  




스포츠 도메인 뉴스 제목:
생성된 프롬프트:
다음 조건에 맞는 뉴스 기사 제목을 5개 생성해주세요:
    - 도메인: 스포츠
    - 각 제목은 실제 뉴스처럼 구체적이고 현실적이어야 함
    - 제목은 한 줄에 하나씩, 번호를 붙여서 작성
    - 클릭베이트나 과장된 표현 사용하지 않기
    

## 스포츠 뉴스 기사 제목 (5개)

1.  **국내 프로야구 시즌 최고 승리점차 달성, 한화이글스 득점폭발**
2.  **축구 K리그2 서울E 7경기 연속 무패 행진, 승격 경쟁서 주도권 약탈**
3.  **손흥민 '해트트릭'으로 토트넘 압승, 프리미어리그 순위 상승 효과 기대**
4.  **이상훈 선수, 올림픽 장애인육상 10km 2등에 오르며 메달 확보**
5.  **바이킹스, NFL 정규시즌 최종전에서 승리하며 플레이오프 진출 목표 향해 나선다** 




정치 도메인 뉴스 제목:
생성된 프롬프트:
다음 조건에 맞는 뉴스 기사 제목을 5개 생성해주세요:
    - 도메인: 정치
    - 각 제목은 실제 뉴스처럼 구체적이고 현실적이어야 함
    - 제목은 한 줄에 하나씩, 번호를 붙여서 작성
    - 클릭베이트나 과장된 표현 사용하지 않기
    

## 정치 뉴스

## FewShotPromptTemplate 활용

In [28]:
from langchain_core.prompts.few_shot import FewShotPromptTemplate
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser

In [None]:
# 사용할 Few-shot예제를 정의합니다.
# 여기서도 마찬가지로 뉴스 제목 생성에 관해 진행하겠습니다.
examples = [
    {
        "domain": "경제",
        "answer": "ESG 투자 확산, 기업들이 새로운 경영 패러다임을 맞이하다",
    },
    {
        "domain": "정치",
        "answer": "정당 간 연합 논의 본격화, 정치 지형에 미칠 영향은",
    },
    {
        "domain": "과학",
        "answer": "유전자 편집 기술의 미래: CRISPR의 혁신과 윤리적 논의"
    },
]

# 입력할 도메인, 그리고 답변을 PromptTemplate에 입력합니다.
example_prompt = PromptTemplate.from_template(
    "Domain:\n{domain}\nAnswer:\n{answer}"
)

# example, example_prompt, input_variables를 활용해주세요
prompt = FewShotPromptTemplate(
    examples=examples,
    example_prompt=example_prompt,
    suffix="Domain:\n{domain}\nAnswer:",
    input_variables=["domain"],
)

domain = "환경"
final_prompt = prompt.format(domain=domain)
print(final_prompt)

Domain:
경제
Answer:
ESG 투자 확산, 기업들이 새로운 경영 패러다임을 맞이하다

Domain:
정치
Answer:
정당 간 연합 논의 본격화, 정치 지형에 미칠 영향은

Domain:
과학
Answer:
유전자 편집 기술의 미래: CRISPR의 혁신과 윤리적 논의

Domain:
환경
Answer:


In [31]:
answer = llm.invoke(final_prompt)
print(answer)

클라이메이트 변화 대응 가속, 국제 사회의 역할 강조  



## JsonOutputParser 활용

In [3]:
from langchain_core.output_parsers import JsonOutputParser

In [15]:
import pandas as pd
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import JsonOutputParser

# 요청 사항 설정
req = "도메인에 맞는 뉴스 기사 제목을 100개 생성해 주세요."

# JSONOutputParser 초기화
parser = JsonOutputParser()

# 프롬프트 템플릿을 설정합니다.
prompt = ChatPromptTemplate.from_messages(
    [
        ("system",
         '''당신은 특정 도메인에 대한 기사 제목을 생성하는 어시스턴트입니다.
         도메인에 맞는 한문장 내외의 적절한 뉴스 기사제목을 100개 생성하여 JSON 배열 형식으로 반환하세요.
         각 제목은 "title"이라는 키로 표시되고, 반드시 JSON 형식으로만 반환해야 합니다.
         도메인은 특정해서 주어지지 않으며, 도메인에 대한 예시가 주어지면 예시를 통해 해당 도메인이 무엇인지 파악해야 합니다.
         예시는 다음과 같습니다:
         예시 1: 도자기 작품 감상하는 손님들
         예시 2: 여행의 매력, 제주에서 다양한 취향을 만족시키다...문화 축제
         예시 3: 공지 1년 만의 소설 출간, 할머니는 죽지 않는다
         예시 4: 한국 코믹콘 축제 개막...다양한 콘텐츠 선보여
         예시 5: 숲속의 숲 해설센터, 청소년 교육 프로그램 운영
         예시 6: 인제 자작나무 숲 입산 통제 15일부터 2개 구간
         예시 7: 6월 5일 날씨: 낮 최고 8도, 강릉 미세먼지 나쁨
         예시 8: 세종시 금정문화권 2단계 개발 사업 7월 착수 문화제 개최
         예시 9: 오늘도 여전히 정선·의성 9.1도, 서울 8도
         예시 10: 스타필드 하남 개장 후 이틀 동안 3만 명 방문
         예시 11: 서울에 다시 오존주의보…도심·서북·동북권 발령종합
         예시 12: 게시판 KBS 코로나가 바꾼 일상 대국민 영상 공모
         예시 13: 영상 냄새가 나는데…퇴근길 마주친 수상한 차 따라가봤더니
         예시 14: 한산한 성산일출봉 주차장
         예시 15: 크루즈 관광객용 반나절 부산 해안 트레킹 상품 개발
         예시 16: 류동, 소리길C 곡으로 새로운 음악적 도전
         예시 17: 섬들의 근대화는 달랐다…일제가 쓰고 버린 태평양 섬 이야기
         예시 18: 어린이날, 과학관서 다채로운 행사로 가족들 웃음꽃 피우다
         예측한 도메인에 맞는 새롭고 창의적인 헤드라인을 작성하세요.
         생성된 헤드라인은 예시의 내용을 포함하지 않아야 합니다.
         '''),
        ("user",
         "#Format: {format_instructions}\n\n#Requirements: {req}\n\n"),
    ]
)

# 지시사항을 프롬프트에 주입합니다.
prompt = prompt.partial(format_instructions=parser.get_format_instructions())

# 프롬프트, 모델, 파서를 연결하는 체인 생성
chain = prompt | llm | parser

# 체인을 호출하여 결과 얻기
response = chain.invoke({"format_instructions": parser.get_format_instructions(), "req": req})

# JSON에서 제목 리스트 추출
titles = [item["title"] for item in response]  # response가 JSON 형식의 리스트라고 가정

# DataFrame으로 변환 후 CSV 파일 저장
df = pd.DataFrame({"title": titles})
df.to_csv("news_headlines_0.csv", index=False, encoding='utf-8-sig')

print("CSV 파일로 저장 완료: news_headlines_0.csv")


CSV 파일로 저장 완료: news_headlines_0.csv


## 도메인이 주어질 때

In [None]:
from typing import Dict, List
import json

# JSONOutputParser 초기화
parser = JsonOutputParser()

# 프롬프트 템플릿 설정
prompt = ChatPromptTemplate.from_messages([
    ("system", 
     "당신은 주어진 도메인에 대한 기사 제목을 생성하는 어시스턴트입니다. 각 도메인마다 한 문장 내외의 적절한 뉴스 기사제목을 생성해야 합니다."),
    ("user", 
     "#Format: {format_instructions}\n\n#Requirements: {req}\n\n#Domain: {domain}")
])

# 지시사항을 프롬프트에 주입
prompt = prompt.partial(format_instructions=parser.get_format_instructions())

# 체인 생성
chain = prompt | llm | parser

def generate_domain_titles(domains: List[str]) -> Dict[str, List[str]]:
    """
    여러 도메인에 대한 뉴스 제목을 생성하는 함수
    
    Args:
        domains (List[str]): 뉴스 도메인 리스트
    
    Returns:
        Dict[str, List[str]]: 각 도메인별 뉴스 제목
    """
    all_titles = {}
    req = "입력된 도메인은 `domain`에, 출력된 뉴스기사 제목은 `titles` 리스트에 5개씩 담아주세요."
    
    try:
        for domain in domains:
            print(f"\n{domain} 도메인의 뉴스 제목 생성 중...")
            response = chain.invoke({"req": req, "domain": domain})
            all_titles[domain] = response.get('titles', [])
            
    except Exception as e:
        print(f"오류 발생: {str(e)}")
    
    return all_titles

# 실행
if __name__ == "__main__":
    domains = ["생활문화", "스포츠", "정치", "사회", "IT과학", "경제", "세계"]
    
    # 뉴스 제목 생성
    all_domain_titles = generate_domain_titles(domains)
    
    # 결과 출력
    print("\n=== 생성된 뉴스 제목 ===")
    for domain, titles in all_domain_titles.items():
        print(f"\n[{domain}]")
        for i, title in enumerate(titles, 1):
            print(f"{i}. {title}")
            
    # JSON 형식으로 저장 (선택사항)
    with open('news_titles.json', 'w', encoding='utf-8') as f:
        json.dump(all_domain_titles, f, ensure_ascii=False, indent=2)


생활문화 도메인의 뉴스 제목 생성 중...

스포츠 도메인의 뉴스 제목 생성 중...

정치 도메인의 뉴스 제목 생성 중...

사회 도메인의 뉴스 제목 생성 중...

IT과학 도메인의 뉴스 제목 생성 중...

경제 도메인의 뉴스 제목 생성 중...

세계 도메인의 뉴스 제목 생성 중...

=== 생성된 뉴스 제목 ===

[생활문화]
1. 전통과 트렌드가 어우러진 '한복 패션' 인기 급상승
2. 커플 로맨틱 여행지, 최신 트렌드 집계!
3. 최저임금 인상에도 '식비 고갈' 소비자 걱정
4. 음악방송 시청률 하락, 차세대 팬들의 변화 심층 분석
5. SNS 챌린지 열풍 확산, 사회문제 논란 불거짐

[스포츠]
1. 김연아, 국제대회서 아름다운 피겨 라이딩으로 관객 감탄
2. KBO 리그 센트럴리그 우승 후보는 누구일까?
3. 한국 축구 국가대표팀, A매치에서 승리하며 월드컵 예선 진출 위한 기세
4. 박찬호, NBA 최고의 포인트 가드로 입성? 잠재력은 무궁무진!
5. 올림픽 금메달 꿈에 한 걸음 더 다가간 대한민국 선수들!

[정치]
1. 새로운 정책 발표로 정치적 논란 확산
2. 대선 후보, 경제 개혁 중심 공약 발표
3. 의회에서 반대 의견 충돌, 법안 통과 위기
4. 정권 교체 이후 국내외 관계 변화
5. 영향력 있는 기업 대표들 정치 참여 논란

[사회]
1. **교육 불평등 심화**: 교육 부족 지역 학생들의 취업률 하락
2. **가계부 형성 챌린지**: 청년층의 경제적 어려움, '소비 단축'으로 변화
3. **사회복지 지원 확대 추진**: 저소득층 주거 및 식량 안정 위한 정책 시행 논의
4. **인공지능 윤리 의견 모색**: 사회 변화 속 AI 기술 개발에 대한 국민 토론 활성화
5. **미래 직업 훈련 강화 필요성 대두**: 자동화 시대, 인간 중심적 역량 개발 요구

[IT과학]
1. 인공지능 기술 발전으로 글로벌 산업 변화 가속화
2. 메타버스 시장 성장세, 새로운 디지털 경제 탄생 기대
3. 5G 통신 확산으로 사물 인터넷(IoT)

생성된 text에 *, : 제거

In [37]:
from typing import Dict, List
import json
import pandas as pd
import csv

# JSONOutputParser 초기화
parser = JsonOutputParser()

# 프롬프트 템플릿 설정
prompt = ChatPromptTemplate.from_messages([
    ("system", 
     "당신은 주어진 도메인에 대한 기사 제목을 생성하는 어시스턴트입니다. 각 도메인마다 한 문장 내외의 적절한 뉴스 기사제목을 생성해야 합니다."),
    ("user", 
     "#Format: {format_instructions}\n\n#Requirements: {req}\n\n#Domain: {domain}")
])

# 지시사항을 프롬프트에 주입
prompt = prompt.partial(format_instructions=parser.get_format_instructions())

# 체인 생성
chain = prompt | llm | parser

def generate_domain_titles(domains: List[str]) -> Dict[str, List[str]]:
    """
    여러 도메인에 대한 뉴스 제목을 생성하고 DataFrame으로 반환하는 함수
    
    Args:
        domains (List[str]): 뉴스 도메인 리스트
    
    Returns:
        pd.DataFrame: target(도메인)과 text(제목) 컬럼을 가진 DataFrame
    """
    data = []
    req = "입력된 도메인은 `domain`에, 출력된 뉴스기사 제목은 `titles` 리스트에 5개씩 담아주세요."
    
    try:
        for domain in domains:
            print(f"\n{domain} 도메인의 뉴스 제목 생성 중...")
            response = chain.invoke({"req": req, "domain": domain})
            
            # 각 제목을 개별 행으로 추가
            for title in response.get('titles', []):
                data.append({
                    'target': domain,
                    'text': title
                })
            
    except Exception as e:
        print(f"오류 발생: {str(e)}")
    
    return pd.DataFrame(data)

# 실행
if __name__ == "__main__":
    domains = ["생활문화", "스포츠", "정치", "사회", "IT과학", "경제", "세계"]
    
    # 뉴스 제목 생성
    df = generate_domain_titles(domains)
    
    # 결과 출력
    print("\n=== 생성된 뉴스 제목 ===")
    print(df)
            
    # CSV 파일로 저장
    csv_filename = 'news_titles.csv'
    df.to_csv(csv_filename, index=False, encoding='utf-8-sig')
    print(f"\nCSV 파일이 {csv_filename}로 저장되었습니다.")


생활문화 도메인의 뉴스 제목 생성 중...

스포츠 도메인의 뉴스 제목 생성 중...

정치 도메인의 뉴스 제목 생성 중...

사회 도메인의 뉴스 제목 생성 중...

IT과학 도메인의 뉴스 제목 생성 중...

경제 도메인의 뉴스 제목 생성 중...

세계 도메인의 뉴스 제목 생성 중...

=== 생성된 뉴스 제목 ===
   target                                               text
0    생활문화  **K-POP 아이돌 팬덤, '팬미팅' 관람 티켓 대리 판매 논란 속 나서 새로운 ...
1    생활문화  **인기 드라마 OST 음악이 일상을 알리는 트렌드, 청춘의 감성을 담은 오디오 콘...
2    생활문화        **비즈니스맨의 필수템? '디지털 디톡스'를 위한 휴식 명소가 핫해진 이유**
3    생활문화  **'테마카페' 열풍, 인증샷과 맛있는 음료만 있는 곳은 과연 오랜 시간 유행할 수...
4    생활문화  **대중문화에 'ESG' 개념 도입! 윤리적 소비가 앞서가는 '지속 가능한 문화' ...
5     스포츠                  한국 축구대표팀, 아시안컵 예선서 강력한 승리로 기대감 고조
6     스포츠                김연아, 4위에 그쳤지만 '올림픽' 도약 위한 여정은 계속된다.
7     스포츠                        전지훈 감독의 전략적 리더십으로 K리그 우승 달성
8     스포츠                      박찬호 선수, 메이저리그 홈런왕 타이틀 경쟁 본격화!
9     스포츠                     조선인들의 스포츠 역동성에 대한 뜨거운 주목받는 상황.
10     정치                         野党, 국회의장 선출 과정에서 새로운 전략 전개
11     정치                         대통령, 주요 안보 문제에 대한 내각 회의 소집
12     정치             

## Files Concat

In [46]:
import pandas as pd
import json

# JSON 파일 열기
json_file_path = 'news_titles.json'
with open(json_file_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

# 데이터 변환: target과 text 컬럼 생성
rows = []
for category, titles in data.items():
    for title in titles:
        rows.append({"target": category, "text": title})

# DataFrame으로 변환
df = pd.DataFrame(rows)

# CSV 파일로 저장
csv_file_path = 'news_titles_json.csv'
df.to_csv(csv_file_path, index=False, encoding='utf-8')

In [48]:
df_2800 = pd.read_csv('news_titles_2800.csv')

concat_df = pd.concat([df, df_2800], ignore_index=True)

In [50]:
concat_df.to_csv('concat_df.csv')

In [51]:
first = pd.read_csv('news_titles.csv')

cconcat_df = pd.concat([concat_df, first], ignore_index=True)

In [52]:
cconcat_df.to_csv('concat_df.csv')

In [53]:
# 각 target별 개수와 비율 구하기
target_counts = cconcat_df['target'].value_counts()
target_ratios = cconcat_df['target'].value_counts(normalize=True)

# 결과 출력
result_df = pd.DataFrame({
    'Count': target_counts,
    'Ratio': target_ratios
})

print(result_df)

        Count     Ratio
target                 
IT과학      106  0.263682
경제         83  0.206468
사회         57  0.141791
생활문화       52  0.129353
정치         49  0.121891
스포츠        45  0.111940
세계         10  0.024876


In [57]:
df_350 = pd.read_csv('news_titles_350.csv')

cconccat_df = pd.concat([cconcat_df, df_350], ignore_index=True)
cconccat_df.to_csv('concat_df.csv')

In [58]:
# 각 target별 개수와 비율 구하기
target_counts = cconccat_df['target'].value_counts()
target_ratios = cconccat_df['target'].value_counts(normalize=True)

# 결과 출력
result_df = pd.DataFrame({
    'Count': target_counts,
    'Ratio': target_ratios
})

print(result_df)

        Count     Ratio
target                 
경제        120  0.201005
IT과학      106  0.177554
사회         98  0.164154
생활문화       90  0.150754
정치         88  0.147404
스포츠        50  0.083752
세계         45  0.075377


In [None]:
df_100 = pd.read_csv('news_titles_100.csv')

cconccatt_df = pd.concat([cconccat_df, df_100], ignore_index=True)
cconccatt_df.to_csv('concat_df.csv')

In [61]:
# 각 target별 개수와 비율 구하기
target_counts = cconccatt_df['target'].value_counts()
target_ratios = cconccatt_df['target'].value_counts(normalize=True)

# 결과 출력
result_df = pd.DataFrame({
    'Count': target_counts,
    'Ratio': target_ratios
})

print(result_df)

        Count     Ratio
target                 
경제        120  0.179104
IT과학      106  0.158209
사회         98  0.146269
생활문화       90  0.134328
정치         88  0.131343
스포츠        87  0.129851
세계         81  0.120896


In [64]:
cconccatt_df

Unnamed: 0,target,text
0,생활문화,전통과 트렌드가 어우러진 '한복 패션' 인기 급상승
1,생활문화,"커플 로맨틱 여행지, 최신 트렌드 집계!"
2,생활문화,최저임금 인상에도 '식비 고갈' 소비자 걱정
3,생활문화,"음악방송 시청률 하락, 차세대 팬들의 변화 심층 분석"
4,생활문화,"SNS 챌린지 열풍 확산, 사회문제 논란 불거짐"
...,...,...
665,세계,인류 공동체 의식 강화: 세계 시민으로서 책임감 고취
666,세계,"국제 분쟁 해결, 평화로운 세계 구축 위해 노력 본격화"
667,세계,세계 경제 불균형 문제 심각성에 대한 국제적 관심 증대
668,세계,글로벌 교육 공동체 형성: 미래 세대 양성 위한 협력


In [62]:
final_df = cconccatt_df.drop_duplicates(subset='text', keep='first')
final_df = final_df.sample(frac=1, random_state=42).reset_index(drop=True)
final_df

Unnamed: 0,target,text
0,IT과학,"클라우드 컴퓨팅, 기업의 IT 인프라 구축 비용 절감"
1,스포츠,"2032년 올림픽 개최, 대한민국은 준비를 끝냈을까? 국민의 기대와 불안감"
2,정치,교육 과정 개편 필요성 제기
3,사회,인공지능 윤리에 대한 논의 활발화 - 공정하고 투명한 기술 발전 필요
4,IT과학,"빅데이터 분석 기술 활용, 맞춤형 서비스 제공"
...,...,...
663,경제,사회적 책임 실천을 통한 지속가능한 경영
664,세계,"북미 주요국, 디지털 기술 분야 경쟁 강화"
665,사회,"지역 사회 발전 기여, 공동체 의식 함양 및 지역 경제 활성화"
666,생활문화,"새로운 유형의 전시 공간 창출, 예술 작품과 관람자 간 상호작용 확대"


In [69]:
# 각 target별 개수와 비율 구하기
target_counts = final_df['target'].value_counts()
target_ratios = final_df['target'].value_counts(normalize=True)

# 결과 출력
result_df = pd.DataFrame({
    'Count': target_counts,
    'Ratio': target_ratios
})

print(result_df)

        Count     Ratio
target                 
경제        120  0.179641
IT과학      104  0.155689
사회         98  0.146707
생활문화       90  0.134731
정치         88  0.131737
스포츠        87  0.130240
세계         81  0.121257


In [67]:
import pandas as pd

# 데이터 구성
data = {
    "생활문화": [
        "故宮博物院 새 전시 '궁궐의 비밀: 조선왕실 가족일기' 개관",
        "강남 테마카페 트렌드, 이번엔 '전쟁게임 배경' 인기 몰아치고",
        "\"국민 여행지\", 제주도 관광객 수 올해에도 전년 대비 증가 추세",
        "올해 신문체험활동 가장 많이 참여한 연령층은 '대학생' - 문화부 조사 결과 발표",
        "2023 베스트셀러, 범주별 명단 공개! 역시 시각자료 소설 인기"
    ],
    "스포츠": [
        "국내 프로야구 시즌 최고 승리점차 달성, 한화이글스 득점폭발",
        "축구 K리그2 서울E 7경기 연속 무패 행진, 승격 경쟁서 주도권 약탈",
        "손흥민 '해트트릭'으로 토트넘 압승, 프리미어리그 순위 상승 효과 기대",
        "이상훈 선수, 올림픽 장애인육상 10km 2등에 오르며 메달 확보",
        "바이킹스, NFL 정규시즌 최종전에서 승리하며 플레이오프 진출 목표 향해 나선다"
    ],
    "정치": [
        "국민의힘, 경제 대책 발표… \"상황 악화, 이정재 밝히지 않는 것에 책임 부과\"",
        "'저출산 대책' 본격 논의 시작… 연금 시급 인상 추진 등 다양한 방안 제시",
        "윤석열 대통령, G7 정상회의 참석 확정… 미국의 중동 전략에 대한 입장 밝힘 예상",
        "야당, '대법원 재판관 임명' 논란 관련 청원 진행… 국민의 목소리 집중 의식 강조",
        "대선 후 보궐선거 여부 논쟁 심화… 전문가들 \"정치적 상황과 선거구 특성 고려 필요\""
    ],
    "사회": [
        "\"생활비 부담 심각하다는 응답… 국민 대다수, 경제 악화 우려 증가\"",
        "지역 주민 참여 강화… '공동체 공원 조성' 프로젝트 시작",
        "아동 학대 사건 발생… 사회적 인식 개선 위한 교육 프로그램 확대 추진",
        "기술 개발을 통한 의료 접근성 향상… 농촌 지역 의료 지원 시스템 구축 논의 진행",
        "'고령화 대비 노인 돌봄 서비스 확대'…\"지역 사회 안전망 강화 필요\""
    ],
    "IT과학": [
        "OpenAI, 새로운 GPT 모델 출시 예고: 더 나은 언어 생성 및 비디오 이해 기능 강화",
        "한국 연구팀, 자율 주행 시스템 안전성 향상 위한 딥러닝 알고리즘 개발 성공",
        "Meta, VR/AR 헤드셋 'Quest Pro' 가격 인하: 메타버스 접근성 확대 추진",
        "블록체인 기반 NFT 거래 플랫폼, 새로운 보안 기능 도입: 지갑 해킹 위협 대응",
        "국내 IT 기업, 스마트팩토리 구축 위한 빅데이터 분석 기술 적용 확대"
    ],
    "경제": [
        "**금리 인상 우려 속, 소비자 물가인지도 급증**",
        "**K팝 콘텐츠 판매 성장세 지속, 해외시장 진출 확대 전망**",
        "**코로나 팬데믹 이후 국내 관광업, 부활의 신호탄**",
        "**에너지 가격 상승 악화, 기업 경영난 심화 우려**",
        "**디지털 금융 서비스 활성화, 전통 은행 업계 변혁 추진**"
    ],
    "세계": [
        "우크라이나 전쟁: 러시아, 새로운 공격으로 동부 지역 철회 속도 증가",
        "아프리카 식량 위기 심화: 기후 변화와 군사 분쟁 영향 확산",
        "인도네시아 화산 폭발 사태: 국제 사회 지원 요청 및 이재민 구조 활동 추진",
        "미국-중국 경제 갈등 지속: 무역 대립 심화 속 자본 시장 불안감 증가",
        "유럽, 에너지 위기 해결 위해 러시아 의존도 축소 노력 고취"
    ]
}

# 데이터 변환: target과 text 컬럼 생성
rows = []
for category, titles in data.items():
    for title in titles:
        rows.append({"target": category, "text": title})

# DataFrame으로 변환
df = pd.DataFrame(rows)

# CSV 파일로 저장
csv_file_path = 'news_titles.csv'
df.to_csv(csv_file_path, index=False, encoding='utf-8-sig')

In [70]:
real_final_df = pd.concat([df, final_df], ignore_index=True)
real_final_df = real_final_df.drop_duplicates(subset='text', keep='first')
real_final_df = real_final_df.sample(frac=1, random_state=42).reset_index(drop=True)
real_final_df

Unnamed: 0,target,text
0,IT과학,"데이터 분석 기술 활용, 비즈니스 전략 개선 및 경쟁력 강화"
1,경제,외환 가치 변동 주목…기업 수출 경쟁력 위협
2,스포츠,새 챔피언이 등장! NBA 최고의 순간을 담은 신나는 플레이오프 결승전!
3,스포츠,"스포츠 의료 기술, 운동선수 건강 증진에 기여"
4,생활문화,"비디오 게임의 확산과 그 영향력, 문화적 사회적 영향 심층 분석"
...,...,...
698,경제,인터넷 기술 활용으로 국내 산업 구조 변화
699,경제,한국 경제의 글로벌 규모와 영향력 증대
700,경제,"현재 경제 상황, 균형점 찾기 어려움…여론의 관심 집중"
701,사회,"인플레이션 심각, 소비자 부담 커짐에 대한 우려 증폭"


In [71]:
# 각 target별 개수와 비율 구하기
target_counts = real_final_df['target'].value_counts()
target_ratios = real_final_df['target'].value_counts(normalize=True)

# 결과 출력
result_df = pd.DataFrame({
    'Count': target_counts,
    'Ratio': target_ratios
})

print(result_df)

        Count     Ratio
target                 
경제        125  0.177809
IT과학      109  0.155050
사회        103  0.146515
생활문화       95  0.135135
정치         93  0.132290
스포츠        92  0.130868
세계         86  0.122333


In [72]:
real_final_df.to_csv('concat_df.csv')

In [75]:
ing = pd.concat([df, real_final_df], ignore_index=True)
ing

Unnamed: 0,target,text
0,생활문화,"최근 인기를 끌고 있는 '전통찻집' 트렌드, 당신도 따라해볼까요?"
1,생활문화,"국내 음악 시장 'K팝 이외의 매력', 독립음악 장르들의 부상"
2,생활문화,"혼밥 문화 확산에 맞춰, 도시 속 새로운 맛집들이 등장합니다."
3,생활문화,SNS 인기! 최신 유행하는 취미 활동 종류 소개
4,생활문화,"심리적 안정을 위한 '디지털 디톡스' 추세, 당신도 시도해보세요."
...,...,...
825,경제,인터넷 기술 활용으로 국내 산업 구조 변화
826,경제,한국 경제의 글로벌 규모와 영향력 증대
827,경제,"현재 경제 상황, 균형점 찾기 어려움…여론의 관심 집중"
828,사회,"인플레이션 심각, 소비자 부담 커짐에 대한 우려 증폭"


In [76]:
# 각 target별 개수와 비율 구하기
target_counts = ing['target'].value_counts()
target_ratios = ing['target'].value_counts(normalize=True)

# 결과 출력
result_df = pd.DataFrame({
    'Count': target_counts,
    'Ratio': target_ratios
})

print(result_df)

        Count     Ratio
target                 
IT과학      136  0.163855
사회        132  0.159036
경제        125  0.150602
생활문화      120  0.144578
정치        119  0.143373
스포츠       112  0.134940
세계         86  0.103614


In [78]:
ingg = pd.concat([ing, df], ignore_index=True)
ingg

Unnamed: 0,target,text
0,생활문화,"최근 인기를 끌고 있는 '전통찻집' 트렌드, 당신도 따라해볼까요?"
1,생활문화,"국내 음악 시장 'K팝 이외의 매력', 독립음악 장르들의 부상"
2,생활문화,"혼밥 문화 확산에 맞춰, 도시 속 새로운 맛집들이 등장합니다."
3,생활문화,SNS 인기! 최신 유행하는 취미 활동 종류 소개
4,생활문화,"심리적 안정을 위한 '디지털 디톡스' 추세, 당신도 시도해보세요."
...,...,...
851,세계,"벨기에, 기후 변화 대응을 위한 지속 가능한 에너지 전환 계획 발표"
852,세계,"스웨덴, 여성 평등 및 사회적 자유 강화 노력 지속"
853,세계,"폴란드, 군사 비용 증대 및 국방력 강화를 통한 국제 안보 유지를 목표로 함."
854,세계,"헝가리, 가족 중심 정책 적극 추진하며 사회 통합 및 경제 성장 도모"


In [79]:
# 각 target별 개수와 비율 구하기
target_counts = ingg['target'].value_counts()
target_ratios = ingg['target'].value_counts(normalize=True)

# 결과 출력
result_df = pd.DataFrame({
    'Count': target_counts,
    'Ratio': target_ratios
})

print(result_df)

        Count     Ratio
target                 
IT과학      136  0.158879
사회        132  0.154206
경제        125  0.146028
생활문화      120  0.140187
정치        119  0.139019
스포츠       112  0.130841
세계        112  0.130841


In [80]:
done = ingg.drop_duplicates(subset='text', keep='first')
done = done.sample(frac=1, random_state=42).reset_index(drop=True)
done

Unnamed: 0,target,text
0,정치,"정보 공개 중요성, 투명한 정부 운영 필수"
1,사회,"기술 발전과 인간 가치 중시, 현명한 사회 발전 방향 모색"
2,IT과학,"데이터 분석 기반 의사결정 지원 시스템 개발, 효율적인 관리 시스템 구축"
3,경제,지식 기반 경제 구축을 위한 노력
4,사회,"지역 주민들의 의견 수렴, 맞춤형 정책 개발 추진"
...,...,...
851,사회,"지역 주민들의 참여로 성장하는 공동체 정원, 도시 미래를 향한 새로운 가능성 열다"
852,IT과학,"빅데이터 분석 기술 활용, 고객 맞춤형 서비스 제공 가능"
853,사회,"다양성을 존중하는 사회 만들기, 사회 구성원 간의 이해 증진 노력"
854,세계,인류 공동체 의식 강화: 세계 시민으로서 책임감 고취


In [83]:
# 각 target별 개수와 비율 구하기
target_counts = done['target'].value_counts()
target_ratios = done['target'].value_counts(normalize=True)

# 결과 출력
result_df = pd.DataFrame({
    'Count': target_counts,
    'Ratio': target_ratios
})

print(result_df)

        Count     Ratio
target                 
IT과학      136  0.158879
사회        132  0.154206
경제        125  0.146028
생활문화      120  0.140187
정치        119  0.139019
스포츠       112  0.130841
세계        112  0.130841


In [81]:
done.to_csv('concat_df.csv')

In [None]:
df = done

# 클래스와 인덱스 매핑 딕셔너리
class_to_idx = {
    '생활문화': 0,
    '스포츠': 1,
    '정치': 2,
    '사회': 3,
    'IT과학': 4,
    '경제': 5,
    '세계': 6
}

# target 컬럼을 숫자로 매핑
df['target'] = df['target'].map(class_to_idx)

# 변환된 데이터 확인
print(df.head())

# CSV 파일로 저장
df.to_csv('llama_retargeted.csv', index=False, encoding='utf-8-sig')

   target                                      text
0       2                   정보 공개 중요성, 투명한 정부 운영 필수
1       3          기술 발전과 인간 가치 중시, 현명한 사회 발전 방향 모색
2       4  데이터 분석 기반 의사결정 지원 시스템 개발, 효율적인 관리 시스템 구축
3       5                        지식 기반 경제 구축을 위한 노력
4       3               지역 주민들의 의견 수렴, 맞춤형 정책 개발 추진
