# Pandas DataFrame

이 튜토리얼에서는 [pandas](https://pandas.pydata.org/docs/) DataFrame을 사용하여 데이터를 로드하는 방법에 대해 배워보겠습니다. pandas는 Python에서 데이터 조작과 분석을 위해 널리 사용되는 강력한 라이브러리입니다. 특히, 데이터 과학과 머신러닝 분야에서 그 중요성이 더욱 부각됩니다.

DataFrame은 pandas의 핵심적인 데이터 구조로, 행과 열로 구성된 2차원의 레이블이 붙은 데이터 구조입니다. 이를 통해 다양한 유형의 데이터를 효과적으로 저장, 조작, 그리고 분석할 수 있습니다.


In [None]:
%pip install -qU pandas

- `pandas` 라이브러리를 `pd` 별칭으로 임포트합니다.


In [1]:
import pandas as pd

- `pd.read_csv()` 함수를 사용하여 "data/titanic.csv" 파일에서 데이터를 읽어옵니다.
- 읽어온 데이터는 `df` 변수에 저장됩니다.


In [3]:
# CSV 파일에서 데이터를 읽어와 DataFrame 객체로 생성합니다.
df = pd.read_csv("data/titanic.csv")

`df.head()` 메서드를 사용하여 데이터프레임의 처음 5개 행을 출력합니다.

- 데이터프레임 `df`의 `.head()` 메서드를 호출합니다.
- `.head()` 메서드는 인자를 지정하지 않으면 기본적으로 처음 5개의 행을 반환합니다.
- 출력 결과를 통해 데이터프레임의 구조와 내용을 간략히 확인할 수 있습니다.


In [4]:
# 데이터프레임의 첫 5개 행을 출력합니다.
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


`DataFrameLoader`를 사용하여 데이터프레임에서 문서를 로드합니다.

- `DataFrameLoader`는 `langchain_community.document_loaders` 모듈에서 import 됩니다.
- 데이터프레임을 문서 형태로 변환하는 역할을 합니다.
- 로드된 문서는 LangChain의 다른 컴포넌트에서 사용될 수 있습니다.


In [5]:
from langchain_community.document_loaders import DataFrameLoader

- `DataFrameLoader`를 사용하여 데이터프레임 `df`를 로드합니다.
- `page_content_column` 매개변수를 "Name"으로 설정하여 데이터프레임의 "Name" 열을 페이지 콘텐츠로 사용합니다.


In [7]:
# DataFrame에서 데이터를 로드하고, 'Team' 열을 페이지 내용으로 사용합니다.
loader = DataFrameLoader(df, page_content_column="Name")

`loader.load()` 메서드를 호출하여 데이터를 로드합니다.

- `TextLoader` 클래스의 인스턴스인 `loader`가 사용됩니다.
- `load()` 메서드는 `TextLoader`에 지정된 텍스트 파일에서 데이터를 읽어들입니다.
- 로드된 데이터는 `Document` 객체의 리스트 형태로 반환됩니다.


In [8]:
loader.load()  # 데이터를 로드합니다.

[Document(page_content='Braund, Mr. Owen Harris', metadata={'PassengerId': 1, 'Survived': 0, 'Pclass': 3, 'Sex': 'male', 'Age': 22.0, 'SibSp': 1, 'Parch': 0, 'Ticket': 'A/5 21171', 'Fare': 7.25, 'Cabin': nan, 'Embarked': 'S'}),
 Document(page_content='Cumings, Mrs. John Bradley (Florence Briggs Thayer)', metadata={'PassengerId': 2, 'Survived': 1, 'Pclass': 1, 'Sex': 'female', 'Age': 38.0, 'SibSp': 1, 'Parch': 0, 'Ticket': 'PC 17599', 'Fare': 71.2833, 'Cabin': 'C85', 'Embarked': 'C'}),
 Document(page_content='Heikkinen, Miss. Laina', metadata={'PassengerId': 3, 'Survived': 1, 'Pclass': 3, 'Sex': 'female', 'Age': 26.0, 'SibSp': 0, 'Parch': 0, 'Ticket': 'STON/O2. 3101282', 'Fare': 7.925, 'Cabin': nan, 'Embarked': 'S'}),
 Document(page_content='Futrelle, Mrs. Jacques Heath (Lily May Peel)', metadata={'PassengerId': 4, 'Survived': 1, 'Pclass': 1, 'Sex': 'female', 'Age': 35.0, 'SibSp': 1, 'Parch': 0, 'Ticket': '113803', 'Fare': 53.1, 'Cabin': 'C123', 'Embarked': 'S'}),
 Document(page_content

- `loader` 객체의 `lazy_load()` 메서드를 사용하여 데이터를 지연 로드(lazy load)합니다.
- 지연 로드를 사용하면 전체 테이블을 메모리에 읽어들이지 않고 필요한 부분만 로드할 수 있습니다.
- `lazy_load()` 메서드로 반환된 각 아이템을 반복문을 통해 출력합니다.


In [9]:
# 더 큰 테이블에 대해 지연 로드를 사용하여 전체 테이블을 메모리에 읽어들이지 않습니다.
for i in loader.lazy_load():
    # 각 항목을 출력합니다.
    print(i)

page_content='Braund, Mr. Owen Harris' metadata={'PassengerId': 1, 'Survived': 0, 'Pclass': 3, 'Sex': 'male', 'Age': 22.0, 'SibSp': 1, 'Parch': 0, 'Ticket': 'A/5 21171', 'Fare': 7.25, 'Cabin': nan, 'Embarked': 'S'}
page_content='Cumings, Mrs. John Bradley (Florence Briggs Thayer)' metadata={'PassengerId': 2, 'Survived': 1, 'Pclass': 1, 'Sex': 'female', 'Age': 38.0, 'SibSp': 1, 'Parch': 0, 'Ticket': 'PC 17599', 'Fare': 71.2833, 'Cabin': 'C85', 'Embarked': 'C'}
page_content='Heikkinen, Miss. Laina' metadata={'PassengerId': 3, 'Survived': 1, 'Pclass': 3, 'Sex': 'female', 'Age': 26.0, 'SibSp': 0, 'Parch': 0, 'Ticket': 'STON/O2. 3101282', 'Fare': 7.925, 'Cabin': nan, 'Embarked': 'S'}
page_content='Futrelle, Mrs. Jacques Heath (Lily May Peel)' metadata={'PassengerId': 4, 'Survived': 1, 'Pclass': 1, 'Sex': 'female', 'Age': 35.0, 'SibSp': 1, 'Parch': 0, 'Ticket': '113803', 'Fare': 53.1, 'Cabin': 'C123', 'Embarked': 'S'}
page_content='Allen, Mr. William Henry' metadata={'PassengerId': 5, 'Survi