<a href="https://colab.research.google.com/github/kongnamhyun/jju/blob/main/06_03_LOADER_CSV.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 데이터 파싱 코드

In [None]:
pip install -qU langchain_community

In [None]:
from langchain.document_loaders.csv_loader import CSVLoader

# CSV 파일 경로
loader = CSVLoader(
    file_path="/content/data/boston_housing.csv",
    csv_args={
        "delimiter": ",",  # 구분자
        "quotechar": '"',  # 인용 부호 문자
        "fieldnames": [
            "CRIM",   # 인구당 범죄율
            "ZN",     # 25,000 평방피트를 초과하는 거주 구역 비율
            "INDUS",  # 비소매 상업 지역 비율
            "CHAS",   # 찰스강 인접 여부 (1: 인접, 0: 비인접)
            "NOX",    # 일산화질소 농도
            "RM",     # 주택당 평균 방 개수
            "AGE",    # 1940년 이전에 건축된 주택 비율
            "DIS",    # 5개 보스턴 고용 센터까지의 거리
            "RAD",    # 고속도로 접근성 지수
            "TAX",    # 10,000달러당 재산세율
            "PTRATIO", # 지역별 학생-교사 비율
            "B",      # 흑인 비율
            "LSTAT",  # 저소득층 비율
            "PRICE",  # 주택 가격 (목표 변수)
        ],  # 필드 이름
    },
)


## UNSTRUCTED

In [None]:
pip install -qU unstructured

In [None]:
from langchain_community.document_loaders.csv_loader import UnstructuredCSVLoader

# 비구조화 CSV 로더 인스턴스 생성
loader = UnstructuredCSVLoader(file_path="/content/data/bostion_housing.csv", mode="elements")

# 문서 로드
docs = loader.load()

# 첫 번째 문서의 HTML 텍스트 메타데이터 출력
if docs and "text_as_html" in docs[0].metadata:
    print(docs[0].metadata["text_as_html"][:1000])
else:
    print("문서에 HTML 텍스트 메타데이터가 없습니다.")


## XML

In [None]:
# XML 형식으로 변환된 데이터 저장
xml_data = ""

# 상위 10개 데이터 추출
for i, doc in enumerate(docs[:10]):  # 첫 10개 행만 처리
    row = doc.page_content.split("\n")
    row_str = "<row>"
    for element in row:
        splitter_element = element.split(".")
        value = splitter_element[-1]  # 값
        col = ":".join(splitter_element[:-1])  # 컬럼 이름
        row_str += f"<{col}>{value}</{col}>"
    row_str += "</row>"
    xml_data += row_str

print(xml_data)
