# LangChain으로 데이터 전처리하기1

### 필요 모듈을 불러옵니다.

## 발급 받은 OpenAI key를 불러옵니다.

In [1]:
import os

os.environ["OPENAI_API_KEY"] = ""

## 분석하고자 하는 데이터셋을 불러옵니다.

### 2024년 9월 1일 서울 버스 이용 데이터를 분석해보겠습니다. (출처: https://data.seoul.go.kr)

In [2]:
import pandas as pd

path = "bus_data.csv"
df = pd.read_csv(path, parse_dates=["사용일자"])
df

Unnamed: 0,사용일자,노선번호,노선명,표준버스정류장ID,버스정류장ARS번호,역명,승차총승객수,하차총승객수,등록일자
0,2024-09-01,100,100번(하계동~용산구청),100000002,01002,창경궁.서울대학교병원(00031),55.0,52.0,20240904
1,2024-09-01,9401-1,9401-1번(푸른마을~서울시중부기술교육원.블루스퀘어),206000695,07616,이매촌한신.서현역.AK프라자(00022),11.0,64.0,20240904
2,2024-09-01,9401-1,9401-1번(푸른마을~서울시중부기술교육원.블루스퀘어),206000613,47105,이매촌한신.서현역.AK프라자(00004),56.0,8.0,20240904
3,2024-09-01,9401-1,9401-1번(푸른마을~서울시중부기술교육원.블루스퀘어),206000537,47635,성남역.백현마을3단지(00021),1.0,7.0,20240904
4,2024-09-01,9401-1,9401-1번(푸른마을~서울시중부기술교육원.블루스퀘어),206000536,47634,백현마을4단지(00020),2.0,18.0,20240904
...,...,...,...,...,...,...,...,...,...
40151,2024-09-01,서대문02,서대문02(독립문역.천연뜨란채아파트~독립문극동아파트),112900062,13592,한국예술원(00008),23.0,7.0,20240904
40152,2024-09-01,서대문02,서대문02(독립문역.천연뜨란채아파트~독립문극동아파트),112900062,13592,한국예술원(00037),11.0,28.0,20240904
40153,2024-09-01,N15,N15번(우이동성원아파트~남태령역),119000049,20142,엔지니어링회관(00080),2.0,0.0,20240904
40154,2024-09-01,서대문02,서대문02(독립문역.천연뜨란채아파트~독립문극동아파트),112900069,13583,충정로역7번출구(00007),180.0,123.0,20240904


In [3]:
type(df)

pandas.core.frame.DataFrame

## pandas의 dataframe을 자동으로 분석해주는 langchain의 agent를 불러옵니다.

## agent란?
- LangChain Agent는 생각과 행동을 통해 의사결정을 주체적으로 수행하는 AI 비서라고 생각하시면 됩니다.

In [4]:
from langchain_experimental.agents import create_pandas_dataframe_agent

## LLM 모델은 OpenAI의 gpt-4o-mini와 gpt-4o 모델을 사용합니다.
- 빠르고 비용이 저렴한 gpt-4o-mini가 적당하지만 잘 안나올 때는 gpt-4o 모델이 적합합니다.

In [5]:
from langchain_openai import ChatOpenAI

## agent 객체를 생성합니다.

#### Temperature란?
- 다양성 정도를 나타내며 높을수록 창의적인 결과물을 만들어줍니다.
- Temperature 값이 높을수록 모델이 생성하는 문장이 더 다양해지고, 값이 낮을수록 더 일관성 있는 문장이 생성 됩니다.

#### Verbose란?
- 함수 수행 시 발생하는 정보들의 출력을 자세히 내보낼 것인지 여부를 뜻합니다.
- verbose=False를 하면 어떤 생각과 행동을 통해 결과가 도출되었는지를 확인할 수 없기 때문에 verbose=True를 default로 하는 것을 권장합니다.

In [18]:
agent = create_pandas_dataframe_agent(ChatOpenAI(temperature=0, model='gpt-4o-mini'), df, verbose=True, allow_dangerous_code=True)

#### 앞으로 계속 사용하게 될 reset_agent 함수를 정의합니다.
- agent 내에서 직접적으로 데이터프레임을 변경하게 시킬 수도 있지만, 혼란을 방지하기 위해 agent 내에서 직접적으로 데이터프레임을 변경시키겠지만 agent가 제시한 코드 결과를 적용하지 못할 때가 있습니다.
- 따라서 적용 여부를 주기적으로 확인하면서 필요하다면 복사 붙여넣기함으로써 notebook 환경에서 데이터프레임을 변경시키는 방식으로 진행하도록 하겠습니다.
- reset_agent 함수는 notebook 환경에서 데이터프레임을 업데이트할 때마다 업데이트된 데이터프레임을 기반으로 새로운 agent를 생성하는 코드라고 보시면 됩니다.

In [19]:
# TODO: 위의 내용과 agent를 구성하는 방식을 기반으로 해당 함수를 완성하세요.

def reset_agent(df, model='gpt-4o-mini', temperature=0, verbose=True):
    return __________________(________(temperature=0, model=________), df, verbose=________, allow_dangerous_code=True)

## EDA 수행
- EDA는 Exploratory Data Analysis의 약어로 데이터 분석 과정에서 데이터를 탐색하고 이해하는 과정을 말합니다.

In [20]:
df

Unnamed: 0,사용일자,노선번호,노선명,표준버스정류장ID,버스정류장ARS번호,역명,승차총승객수,하차총승객수,등록일자
0,2024-09-01,100,100번(하계동~용산구청),100000002,01002,창경궁.서울대학교병원(00031),55.0,52.0,20240904
1,2024-09-01,9401-1,9401-1번(푸른마을~서울시중부기술교육원.블루스퀘어),206000695,07616,이매촌한신.서현역.AK프라자(00022),11.0,64.0,20240904
2,2024-09-01,9401-1,9401-1번(푸른마을~서울시중부기술교육원.블루스퀘어),206000613,47105,이매촌한신.서현역.AK프라자(00004),56.0,8.0,20240904
3,2024-09-01,9401-1,9401-1번(푸른마을~서울시중부기술교육원.블루스퀘어),206000537,47635,성남역.백현마을3단지(00021),1.0,7.0,20240904
4,2024-09-01,9401-1,9401-1번(푸른마을~서울시중부기술교육원.블루스퀘어),206000536,47634,백현마을4단지(00020),2.0,18.0,20240904
...,...,...,...,...,...,...,...,...,...
40151,2024-09-01,서대문02,서대문02(독립문역.천연뜨란채아파트~독립문극동아파트),112900062,13592,한국예술원(00008),23.0,7.0,20240904
40152,2024-09-01,서대문02,서대문02(독립문역.천연뜨란채아파트~독립문극동아파트),112900062,13592,한국예술원(00037),11.0,28.0,20240904
40153,2024-09-01,N15,N15번(우이동성원아파트~남태령역),119000049,20142,엔지니어링회관(00080),2.0,0.0,20240904
40154,2024-09-01,서대문02,서대문02(독립문역.천연뜨란채아파트~독립문극동아파트),112900069,13583,충정로역7번출구(00007),180.0,123.0,20240904


### 데이터 살펴보기

In [22]:
# TODO: df.info()가 생성될 수 있도록 invoke 안에 텍스트로 프롬프팅해주세요.
agent = reset_agent(df, model="gpt-4o")
agent.invoke(____________________________________)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mThought: To get the information about the dataframe, including the number of entries and data types of each column, I should use the `info()` method on the dataframe.
Action: python_repl_ast
Action Input: df.info()[0m[36;1m[1;3m<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40156 entries, 0 to 40155
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   사용일자        40156 non-null  datetime64[ns]
 1   노선번호        40156 non-null  object        
 2   노선명         40156 non-null  object        
 3   표준버스정류장ID   40156 non-null  int64         
 4   버스정류장ARS번호  40156 non-null  object        
 5   역명          40156 non-null  object        
 6   승차총승객수      40153 non-null  float64       
 7   하차총승객수      40153 non-null  float64       
 8   등록일자        40156 non-null  int64         
dtypes: datetime64[ns](1), float64(2), int64(2), object(4)
memory usage:

{'input': '전체 데이터의 갯수와 자료형 등 정보를 알려줘.',
 'output': 'The dataframe `df` has 40,156 entries. It contains 9 columns with the following data types:\n- 사용일자: datetime64[ns]\n- 노선번호: object\n- 노선명: object\n- 표준버스정류장ID: int64\n- 버스정류장ARS번호: object\n- 역명: object\n- 승차총승객수: float64\n- 하차총승객수: float64\n- 등록일자: int64\n\nThe memory usage of the dataframe is approximately 2.8 MB.'}