In [43]:
import os
import numpy as np
import openai
from langchain.schema import Document
import faiss  # Faiss 라이브러리를 사용하여 벡터 데이터베이스 관리

from dotenv import load_dotenv

load_dotenv()
OPENAI_API_KEY = os.environ['OPENAI_API_KEY']

# OpenAI API 초기화
openai.api_key = OPENAI_API_KEY

In [44]:
# 파일 경로 설정
file_path = r"data/combined.md"

# 파일 읽기 및 전처리
with open(file_path, "r", encoding="utf-8") as f:
    markdown_content = f.read()

# 문서를 문단 단위로 분할
sections = markdown_content.split("\n\n")
print(f"총 문단 수: {len(sections)}")


# 필요한 경우 LangChain이나 다른 처리를 수행할 수 있음
# 예: 내용을 특정 구조로 파싱하거나 데이터를 추출
from langchain.schema import Document

# LangChain Document 생성
doc = Document(page_content=markdown_content, metadata={"source": file_path})

# LangChain 문서의 내용을 활용
print(doc.page_content)
print(doc.metadata)

총 문단 수: 4399
# 1장

# **01장 파이썬이란 무엇인가?**

필자는 파이썬의 프롬프트(`>>>`)를 처음 본 순간부터 지금까지 줄곧 파이썬과 함께 지내온 듯하다. ‘프로그래밍은 어렵고 지루하다’라는 고정관념을 가지고 있던 필자에게 파이썬은 커다란 충격으로 다가왔다. 여러분도 이 책을 통해 파이썬의 매력에 흠뻑 빠져 보기를 바란다. 01장에서는 파이썬의 특징과 장단점을 알아보고 파이썬 프로그래밍을 위한 환경 구축 방법에 대해 배운다. 그리고 간단한 파이썬 프로그램도 작성해 본다.

마지막 편집일시 : 2023년 6월 15일 12:02 오전

- **이전글** : 00-6 주요변경이력
- **다음글** : 01-1 파이썬이란?

# **01-1 파이썬이란?**

파이썬(Python)은 1990년 암스테르담의 귀도 반 로섬(Guido van rossum)이 개발한 인터프리터 언어이다. 귀도는 파이썬이라는 이름을 자신이 좋아하는 코미디 쇼인 ‘몬티 파이썬의 날아다니는 서커스(Monty python's flying circus)’에서 따왔다고 한다.

> 인터프리터 언어란 소스 코드를 한 줄씩 해석한 후 그때그때 실행해 결과를 바로 확인할 수 있는 언어를 말한다.
> 

파이썬의 사전적 의미는 ‘고대 신화에 나오는 파르나소스 산의 동굴에 살던 큰 뱀’을 뜻하며, 아폴로 신이 델파이에서 파이썬을 퇴치했다는 이야기가 전해지고 있다. 대부분의 파이썬 책 표지와 아이콘이 뱀 모양으로 그려져 있는 이유는 바로 이 때문이다.

![https://wikidocs.net/images/page/4307/01_1_python-logo.png](https://wikidocs.net/images/page/4307/01_1_python-logo.png)

파이썬은 컴퓨터 프로그래밍을 교육할 때뿐만 아니라 기업에서 실무를 할 때도 많이 사용한다. 그 대표적인 예가 바로 구글이다. 구글에서 만든 소프트웨어의 50% 이상이 파이썬으로 작성되었다는 이야기도 있을 정도이다. 이 밖에도 

In [46]:
# 데이터 준비

import re

# 마크다운 데이터를 파싱하여 키-값 구조로 변환
def parse_markdown_to_dict(markdown_content):
    sections = re.split(r'\n#+ ', markdown_content)  # 헤딩 기준으로 분리
    parsed_data = {}
    for section in sections:
        lines = section.strip().split("\n")
        if lines:
            title = lines[0].strip()  # 첫 번째 줄을 키로 사용
            content = "\n".join(lines[1:]).strip()  # 나머지를 내용으로 저장
            parsed_data[title] = content
    return parsed_data

parsed_data = parse_markdown_to_dict(markdown_content)
print(parsed_data)



In [47]:
# 랭체인을 사용한 데이터 래핑
from langchain.schema import Document

documents = []
for title, content in parsed_data.items():
    doc = Document(page_content=content, metadata={"section": title})
    documents.append(doc)

# 문서 확인
for doc in documents:
    print(doc.page_content)
    print(doc.metadata)


{'section': '# 1장'}
필자는 파이썬의 프롬프트(`>>>`)를 처음 본 순간부터 지금까지 줄곧 파이썬과 함께 지내온 듯하다. ‘프로그래밍은 어렵고 지루하다’라는 고정관념을 가지고 있던 필자에게 파이썬은 커다란 충격으로 다가왔다. 여러분도 이 책을 통해 파이썬의 매력에 흠뻑 빠져 보기를 바란다. 01장에서는 파이썬의 특징과 장단점을 알아보고 파이썬 프로그래밍을 위한 환경 구축 방법에 대해 배운다. 그리고 간단한 파이썬 프로그램도 작성해 본다.

마지막 편집일시 : 2023년 6월 15일 12:02 오전

- **이전글** : 00-6 주요변경이력
- **다음글** : 01-1 파이썬이란?
{'section': '**01장 파이썬이란 무엇인가?**'}
파이썬(Python)은 1990년 암스테르담의 귀도 반 로섬(Guido van rossum)이 개발한 인터프리터 언어이다. 귀도는 파이썬이라는 이름을 자신이 좋아하는 코미디 쇼인 ‘몬티 파이썬의 날아다니는 서커스(Monty python's flying circus)’에서 따왔다고 한다.

> 인터프리터 언어란 소스 코드를 한 줄씩 해석한 후 그때그때 실행해 결과를 바로 확인할 수 있는 언어를 말한다.
> 

파이썬의 사전적 의미는 ‘고대 신화에 나오는 파르나소스 산의 동굴에 살던 큰 뱀’을 뜻하며, 아폴로 신이 델파이에서 파이썬을 퇴치했다는 이야기가 전해지고 있다. 대부분의 파이썬 책 표지와 아이콘이 뱀 모양으로 그려져 있는 이유는 바로 이 때문이다.

![https://wikidocs.net/images/page/4307/01_1_python-logo.png](https://wikidocs.net/images/page/4307/01_1_python-logo.png)

파이썬은 컴퓨터 프로그래밍을 교육할 때뿐만 아니라 기업에서 실무를 할 때도 많이 사용한다. 그 대표적인 예가 바로 구글이다. 구글에서 만든 소프트웨어의 50% 이상이 파이썬으로 작성되었다는 이야기도 있을 정도이다. 이 밖에도 인스타그램(

In [51]:
# 데이터 학습을 위한 임베딩

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS

# OpenAI Embedding 모델 초기화
embedding_model = OpenAIEmbeddings()

# FAISS Vector Store 생성
vectorstore = FAISS.from_documents(documents, embedding_model)

# 데이터 검색 예시
query = "해당 문서에서 1일차 공부할 계획을 정리해서 알려줘"
results = vectorstore.similarity_search(query)
for result in results:
    print(result.page_content)

for 문은 예제를 통해서 살펴보는 것이 가장 알기 쉽다. 다음 예제를 직접 입력해 보자.
필자는 파이썬의 프롬프트(`>>>`)를 처음 본 순간부터 지금까지 줄곧 파이썬과 함께 지내온 듯하다. ‘프로그래밍은 어렵고 지루하다’라는 고정관념을 가지고 있던 필자에게 파이썬은 커다란 충격으로 다가왔다. 여러분도 이 책을 통해 파이썬의 매력에 흠뻑 빠져 보기를 바란다. 01장에서는 파이썬의 특징과 장단점을 알아보고 파이썬 프로그래밍을 위한 환경 구축 방법에 대해 배운다. 그리고 간단한 파이썬 프로그램도 작성해 본다.

마지막 편집일시 : 2023년 6월 15일 12:02 오전

- **이전글** : 00-6 주요변경이력
- **다음글** : 01-1 파이썬이란?
지금부터 설명할 내용은 프로그래밍 초보자가 쉽게 이해하기 어려울 수 있는 부분이므로 당장 이해되지 않는다면 그냥 읽고 지나가도 된다. 파이썬에 대해서 공부하다 보면 자연스럽게 알게 될 것이다.

- [변수는 어떻게 만들까?](https://wikidocs.net/18#_1)
- [변수란?](https://wikidocs.net/18#_2)
- [리스트를 복사하고자 할 때](https://wikidocs.net/18#_3)
    - [1. [:] 이용하기](https://wikidocs.net/18#1)
    - [2. copy 모듈 이용하기](https://wikidocs.net/18#2-copy)
- [변수를 만드는 여러 가지 방법](https://wikidocs.net/18#_4)
여러분은 이 책을 다 읽은 후 자신에게 필요한 파이썬 프로그램을 만들어 볼 것이다. 간단한 프로그램이 아니라면 이때 반드시 파이썬 표준 라이브러리를 사용해야 하는 순간이 온다. 하지만 파이썬 표준 라이브러리 가운데 몇 가지는 앞에서 배우지 않은 고급 개념을 미리 알아야만 이해할 수 있다. 07장에서는 이 개념에 대해 알아본다. 다만, 파이썬 입문자에게는 조금 어려운 내용이고 파이썬 코드를 작성하는 데 꼭 알아야 하는 내용은 아

In [50]:
from langchain.chains import ConversationalRetrievalChain
from langchain.chat_models import ChatOpenAI

# ChatGPT 모델 초기화
chat_model = ChatOpenAI(model="gpt-3.5-turbo", temperature=0.7)

# Retrieval Chain 생성
qa_chain = ConversationalRetrievalChain.from_llm(
    llm=chat_model,
    retriever=vectorstore.as_retriever()
)

# 대화 예시
chat_history = []
query = "해당 내용을 바탕으로 다음 주 스터디 계획 세워줘"
response = qa_chain({"question": query, "chat_history": chat_history})
print(response["answer"])


좋습니다. 다음 주 스터디 계획은 06장의 내용을 중심으로 짧은 스크립트와 함수를 만들어보고, 오류 처리 방법을 익히는 것이 좋을 것 같습니다. 대화형 인터프리터가 아닌 에디터로 작성하여 예제를 직접 입력해보며, 프로그래밍 감각을 키우는 데 집중할 수 있도록 하겠습니다.
