<a href="https://colab.research.google.com/github/kongnamhyun/jju/blob/main/CSV_Loader.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## CSV Loader

In [None]:
pip install langchain_community

In [None]:
from langchain_community.document_loaders.csv_loader import CSVLoader

# CSV 로더 생성
loader = CSVLoader(file_path="/content/data/titanic.csv")

# 데이터 로드
docs = loader.load()

print(len(docs))
print(docs[0].metadata)


## MetaData


In [None]:
print(docs[0].metadata)

## Contents

In [None]:
# 데이터 출력
print(docs[1].page_content)

## 구조화

In [None]:
# CSV 파일 경로
loader = CSVLoader(
    file_path="/content/data/titanic.csv",
    csv_args={
        "delimiter": ",",  # 구분자
        "quotechar": '"',  # 인용 부호 문자
        "fieldnames": [
            "Passenger ID",
            "Survival (1: Survived, 0: Died)",
            "Passenger Class",
            "Name",
            "Sex",
            "Age",
            "Number of Siblings/Spouses Aboard",
            "Number of Parents/Children Aboard",
            "Ticket Number",
            "Fare",
            "Cabin",
            "Port of Embarkation",
        ],  # 필드 이름
    },
)

## Contents, Metadata

In [None]:
print(docs[1].metadata)

In [None]:
print(docs[0].page_content)

## Export as XML

In [None]:
row = docs[1].page_content.split("\n")
row_str ="<row>"
for element in row:
  splitter_element = element.split(".")
  value = splitter_element[-1]
  col = ":".join(splitter_element[:-1])
  row_str += f"<{col}>{value}</{col}>"
row_str += "</row>"
print(row_str)

## UnstructuredCSVLoader

In [None]:
pip install -qU unstructured

In [None]:
from langchain_community.document_loaders.csv_loader import UnstructuredCSVLoader

# 비구조화 CSV 로더 인스턴스 생성
loader = UnstructuredCSVLoader(file_path="./data/titanic.csv", mode="elements")

# 문서 로드
docs = loader.load()

# 첫 번째 문서의 HTML 텍스트 메타데이터 출력
print(docs[0].metadata["text_as_html"][:1000])


## Dataframe loader

In [None]:
import pandas as pd

# CSV 파일 읽기
df = pd.read_csv("/content/data/titanic.csv")

In [None]:
# 데이터프레임의 처음 다섯 행 조회
df.head()


In [None]:
from langchain_community.document_loaders import DataFrameLoader

# 데이터 프레임 로더 설정, 페이지 내용 컬럼 지정
loader = DataFrameLoader(df, page_content_column="Name")

# 문서 로드
docs = loader.load()

# 데이터 출력
print(docs[0].page_content)

# 메타데이터 출력
print(docs[0].metadata)
