In [4]:
!pip install pandas sentence-transformers faiss-cpu



In [16]:
import os
import pandas as pd
from sentence_transformers import SentenceTransformer
import faiss
import json

# 폴더 경로
folder_path = r"C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata"

# SentenceTransformer 모델 로드 (한국어 지원)
model = SentenceTransformer('jhgan/ko-sroberta-multitask')  # 모델 선택
embedding_dim = 768  # 모델 임베딩 차원

# FAISS 인덱스 생성
index = faiss.IndexFlatL2(embedding_dim)

# 텍스트와 ID 저장
text_data = []
ids = []

# 폴더 내 모든 엑셀 파일 처리
for file in os.listdir(folder_path):
    if file.endswith(".xlsx"):
        file_path = os.path.join(folder_path, file)
        print(f"Processing file: {file_path}")
        
        # 엑셀 파일 읽기
        df = pd.read_excel(file_path)

        # 텍스트 컬럼 이름 (사용자 환경에 맞게 변경)
        text_column = "text"  # 엑셀 내 텍스트 컬럼 이름
        if text_column in df.columns:
            # 텍스트 데이터 추출
            texts = df[text_column].dropna().tolist()

            # 텍스트 벡터화
            embeddings = model.encode(texts, convert_to_numpy=True)

            # 벡터 추가
            index.add(embeddings)

            # 텍스트와 ID 저장
            text_data.extend(texts)
            ids.extend(range(len(texts)))

# ID-텍스트 매핑 생성
id_to_text = {i: text for i, text in zip(ids, text_data)}

# 저장 경로
faiss_index_path = r"C:\Temp\faiss_newsdata.index"
mapping_path = r"C:\Temp\id_to_text_mapping.json"

# 저장 디렉토리 생성 (필요시)
os.makedirs(os.path.dirname(faiss_index_path), exist_ok=True)

# FAISS 인덱스 저장
faiss.write_index(index, faiss_index_path)

# ID-텍스트 매핑 저장
with open(mapping_path, "w", encoding="utf-8") as f:
    json.dump(id_to_text, f, ensure_ascii=False, indent=4)

print(f"FAISS DB가 '{faiss_index_path}'에 저장되었습니다.")
print(f"ID-텍스트 매핑이 '{mapping_path}'에 저장되었습니다.")


Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata\news_detail_20231201.xlsx
Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata\news_detail_20231202.xlsx
Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata\news_detail_20231203.xlsx
Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata\news_detail_20231204.xlsx
Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata\news_detail_20231205.xlsx
Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata\news_detail_20231206.xlsx
Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata\news_detail_20231207.xlsx
Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata\news_detail_20231208.xlsx
Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata\news_detail_20231209.xlsx
Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata\news_detail_20231210.xlsx
Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata\news_detail_20231211.xlsx
Processing file: C:\Users\Admin\Desktop\삼정\1차_프로젝트\new

In [17]:
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.schema import Document
from langchain.docstore import InMemoryDocstore
from langchain.chat_models import ChatOpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
import faiss
import json
import os

# OpenAI API 키 설정 (환경 변수 또는 직접 입력)
os.environ["OPENAI_API_KEY"] = "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"

# 1. FAISS 인덱스와 매핑 파일 경로
faiss_index_path = r"C:\Temp\faiss_newsdata.index"
mapping_path = r"C:\Temp\id_to_text_mapping.json"

# ID-텍스트 매핑 로드
with open(mapping_path, "r", encoding="utf-8") as f:
    id_to_text = json.load(f)

# SentenceTransformer 임베딩 로드 (LangChain 호환)
embedding_model = HuggingFaceEmbeddings(model_name="jhgan/ko-sroberta-multitask")

# FAISS 인덱스 로드
faiss_index = faiss.read_index(faiss_index_path)

# 문서를 FAISS Docstore로 변환
documents = {str(i): Document(page_content=text) for i, text in id_to_text.items()}
docstore = InMemoryDocstore(documents)

# ID 매핑 생성
index_to_docstore_id = {i: str(i) for i in range(len(documents))}

# FAISS 초기화
vector_store = FAISS(
    embedding_function=embedding_model,
    index=faiss_index,
    docstore=docstore,
    index_to_docstore_id=index_to_docstore_id
)

# 2. 검색 기능 설정
retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 5})

# 3. 프롬프트 생성 함수
def generate_prompt(user_query):
    docs = retriever.get_relevant_documents(user_query)
    context = "\n".join([doc.page_content for doc in docs])

    prompt_template = """
    다음은 사용자 질문에 대한 정보입니다:
    {context}

    질문: {query}

    위 정보를 바탕으로 사용자 질문에 답변을 작성하세요.
    """
    return prompt_template.format(context=context, query=user_query)

# 4. OpenAI 모델 설정
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0.7)

# 5. LLMChain 설정
llm_chain = LLMChain(llm=llm, prompt=PromptTemplate(
    input_variables=["context", "query"],
    template="""
    다음은 사용자 질문에 대한 정보입니다:
    {context}

    질문: {query}

    위 정보를 바탕으로 사용자 질문에 답변을 작성하세요.
    """
))

# 사용자 쿼리 테스트
user_query = "현재 경제상황 헤드라인 4개 뽑아줘"
docs = retriever.get_relevant_documents(user_query)
context = "\n".join([doc.page_content for doc in docs])

# LLMChain 실행
response = llm_chain.run(context=context, query=user_query)
print("AI 응답:", response)


  docs = retriever.get_relevant_documents(user_query)


AI 응답: 1. "경제성장률 지속하며 회복세…정부, 내년 경제성장률 4%대 예상"
2. "미국 금리인상 기대에 환율 1160원선…통상화 지속"
3. "코로나19로 외식·숙박 1월 매출 50% 이상 감소"
4. "한국, 물가 상승세 지속…2월 소비자물가 4.2%↑"


In [None]:
####################
## 주별 헤드라인을 보기 위해 csv 파일 이름에서 "_결과값" 삭제
####################
import os

# 파일 이름 변경 함수
def rename_csv_files(directory):
    for filename in os.listdir(directory):
        if filename.endswith(".csv") and "_결과값" in filename:
            new_filename = filename.replace("_결과값", "")
            os.rename(os.path.join(directory, filename), os.path.join(directory, new_filename))
            print(f"Renamed: {filename} -> {new_filename}")

# 사용할 디렉토리 경로를 입력하세요
directory_path = r"C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata_csv"

# 함수 실행
rename_csv_files(directory_path)


Renamed: news_detail_20231201_결과값.csv -> news_detail_20231201.csv
Renamed: news_detail_20231202_결과값.csv -> news_detail_20231202.csv
Renamed: news_detail_20231203_결과값.csv -> news_detail_20231203.csv
Renamed: news_detail_20231204_결과값.csv -> news_detail_20231204.csv
Renamed: news_detail_20231205_결과값.csv -> news_detail_20231205.csv
Renamed: news_detail_20231206_결과값.csv -> news_detail_20231206.csv
Renamed: news_detail_20231207_결과값.csv -> news_detail_20231207.csv
Renamed: news_detail_20231208_결과값.csv -> news_detail_20231208.csv
Renamed: news_detail_20231209_결과값.csv -> news_detail_20231209.csv
Renamed: news_detail_20231210_결과값.csv -> news_detail_20231210.csv
Renamed: news_detail_20231211_결과값.csv -> news_detail_20231211.csv
Renamed: news_detail_20231212_결과값.csv -> news_detail_20231212.csv
Renamed: news_detail_20231213_결과값.csv -> news_detail_20231213.csv
Renamed: news_detail_20231214_결과값.csv -> news_detail_20231214.csv
Renamed: news_detail_20231215_결과값.csv -> news_detail_20231215.csv
Renamed: n

In [None]:
####################
## csv 파일 이름에서 YYYYMMDD를 YYYY-MM-DD 형식으로 변경
####################
import os
import re

# 파일 이름 변경 함수
def rename_csv_files(directory):
    for filename in os.listdir(directory):
        if filename.endswith(".csv"):
            # 날짜 형식을 찾아서 변환
            match = re.search(r'(\d{4})(\d{2})(\d{2})', filename)
            if match:
                date_formatted = f"{match.group(1)}-{match.group(2)}-{match.group(3)}"
                new_filename = filename.replace(match.group(0), date_formatted)
                
                # 파일 이름 변경
                os.rename(os.path.join(directory, filename), os.path.join(directory, new_filename))
                print(f"Renamed: {filename} -> {new_filename}")

# 사용할 디렉토리 경로를 입력하세요
directory_path = r"C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata_csv"

# 함수 실행
rename_csv_files(directory_path)


Renamed: news_detail_20231201.csv -> news_detail_2023-12-01.csv
Renamed: news_detail_20231202.csv -> news_detail_2023-12-02.csv
Renamed: news_detail_20231203.csv -> news_detail_2023-12-03.csv
Renamed: news_detail_20231204.csv -> news_detail_2023-12-04.csv
Renamed: news_detail_20231205.csv -> news_detail_2023-12-05.csv
Renamed: news_detail_20231206.csv -> news_detail_2023-12-06.csv
Renamed: news_detail_20231207.csv -> news_detail_2023-12-07.csv
Renamed: news_detail_20231208.csv -> news_detail_2023-12-08.csv
Renamed: news_detail_20231209.csv -> news_detail_2023-12-09.csv
Renamed: news_detail_20231210.csv -> news_detail_2023-12-10.csv
Renamed: news_detail_20231211.csv -> news_detail_2023-12-11.csv
Renamed: news_detail_20231212.csv -> news_detail_2023-12-12.csv
Renamed: news_detail_20231213.csv -> news_detail_2023-12-13.csv
Renamed: news_detail_20231214.csv -> news_detail_2023-12-14.csv
Renamed: news_detail_20231215.csv -> news_detail_2023-12-15.csv
Renamed: news_detail_20231216.csv -> new

In [15]:
import pandas as pd
import os
import re
from datetime import datetime
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.schema import Document
from langchain.docstore import InMemoryDocstore
from langchain.chat_models import ChatOpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

# OpenAI API 키 설정
os.environ["OPENAI_API_KEY"] = "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"

# 파일 이름에서 날짜 추출 함수
def extract_date_from_filename(filename):
    # 정규식을 사용해 YYYY-MM-DD 형식의 날짜 추출
    match = re.search(r"\d{4}-\d{2}-\d{2}", filename)
    if match:
        return match.group()
    else:
        raise ValueError(f"파일 이름에서 날짜를 추출할 수 없습니다: {filename}")

# CSV 파일 로드 및 전처리
def load_and_process_csv(folder_path):
    all_data = []

    # 폴더 내 모든 CSV 파일 읽기
    for file_name in os.listdir(folder_path):
        if file_name.endswith(".csv"):
            file_path = os.path.join(folder_path, file_name)
            try:
                # 파일 이름에서 날짜 추출
                file_date = extract_date_from_filename(file_name)
                file_date = pd.to_datetime(file_date)  # 날짜 형식으로 변환
                
                # CSV 파일 읽기
                df = pd.read_csv(file_path)
                
                # 헤드라인 열 확인
                if 'information' not in df.columns:
                    raise KeyError(f"파일 {file_name}에 'information' 열이 없습니다.")
                
                # 결측치 처리 및 문자열 변환
                df['information'] = df['information'].fillna("").astype(str)
                
                # 날짜 열 추가
                df['date'] = file_date
                all_data.append(df)
            except Exception as e:
                print(f"파일 {file_name} 처리 중 오류 발생: {e}")
    
    # 데이터 병합
    if not all_data:
        raise ValueError("CSV 파일에서 데이터를 로드할 수 없습니다. 폴더에 유효한 파일이 있는지 확인하세요.")
    
    combined_df = pd.concat(all_data, ignore_index=True)
    
    # 주 단위로 그룹화
    combined_df['week'] = combined_df['date'].dt.strftime('%Y-%U')  # 연도-주 형식
    grouped = combined_df.groupby('week')['information'].apply(list).reset_index()
    return grouped


# 주요 구성 요소
def get_weekly_headlines(grouped_data, llm_chain):
    weekly_summaries = []
    
    for _, row in grouped_data.iterrows():
        week = row['week']
        headlines = "\n".join(row['information'])
        
        # 프롬프트 생성
        prompt = f"""
        다음은 {week}의 뉴스 헤드라인입니다:
        {headlines}

        위 헤드라인을 분석하여 해당 주의 주요 헤드라인 4개를 선정해주세요.
        """
        # LLM 실행
        summary = llm_chain.run(context=prompt, query=f"{week} 주간 주요 헤드라인 4개 뽑아줘")
        weekly_summaries.append({"week": week, "summary": summary})
    
    return weekly_summaries

# 폴더 경로 설정
folder_path = r"C:\Users\Admin\Desktop\삼정\1차_프로젝트\newsdata_csv"

# 데이터 로드 및 처리
grouped_data = load_and_process_csv(folder_path)

# OpenAI 모델 설정
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0.7)

# LLMChain 설정
llm_chain = LLMChain(llm=llm, prompt=PromptTemplate(
    input_variables=["context", "query"],
    template="""
    다음은 사용자 질문에 대한 정보입니다:
    {context}

    질문: {query}

    위 정보를 바탕으로 사용자 질문에 답변을 작성하세요.
    """
))

# 주별 주요 헤드라인 추출
weekly_summaries = get_weekly_headlines(grouped_data, llm_chain)

# 결과 출력
for summary in weekly_summaries:
    print(f"Week: {summary['week']}")
    print(f"Summary: {summary['summary']}")
    print("-" * 80)


  summary = llm_chain.run(context=prompt, query=f"{week} 주간 주요 헤드라인 4개 뽑아줘")


BadRequestError: Error code: 400 - {'error': {'message': "This model's maximum context length is 16385 tokens. However, your messages resulted in 505129 tokens. Please reduce the length of the messages.", 'type': 'invalid_request_error', 'param': 'messages', 'code': 'context_length_exceeded'}}