## 간단한 데이터 분석 워크플로우 정의해보기

### 1. 상태(State)와 환경(Import) 정의

In [1]:
import operator
import os
import warnings
from typing import Annotated, List, TypedDict

import matplotlib.font_manager as fm
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

from langchain_core.messages import AIMessage, HumanMessage, BaseMessage, SystemMessage
from langchain_openai import ChatOpenAI
from langgraph.graph import START, END, StateGraph

class AgentState(TypedDict):
    file_path: str
    messages: Annotated[List[BaseMessage], operator.add] # 메시지들의 리스트를 저장하며, 새로운 메시지가 추가될 때 기존 메시지들과 합쳐짐.

2. 데이터 분석 노드 정의(data_analyzer_node)

In [2]:
def data_analyzer_node(state: AgentState) -> dict:
    '''
    [노드 1: 데이터 탐색기]
    CSV를 읽고, 컬럼명을 정리한 후 데이터 프로필을 생성합니다.
    '''
    print("[단계 1/4] 데이터 탐색 시작...")

    file_path = state["file_path"] # 상태객체에서 파일경로 추출
    df = pd.read_csv(file_path) # pandasDML read_csv로 CSV파일을 DataFrame으로 로드

    analysis_summary = (
        f"데이터 파일명: {os.path.basename(file_path)}\n"
        f"데이터 형태: {df.shape}\n"
        f"데이터 타입: {df.dtypes}\n"
        f"기초 통계량: {df.describe()}\n"
        f"결측치 현황: {df.isnull().sum()}\n"
    ) # 데이터 분석 요약 생성

    return {"messages": [HumanMessage(content=f"데이터 파일의 구조와 주요 정보를 요약합니다.\n{analysis_summary}")]} # HumanMessage: 사용자가 보낸 메시지를 나타내는 객체, 분석결과를 메시지 형태로 포장해서 다음 노드로 전달.

### 3. 워크플로우 정의(그래프 생성 & 노드 등록)

In [3]:
# 워크플로우 그래프 생성. 어떤 작업들이 어떤 순서로 연결되어 있는지를 정의하는 틀을 만드는 것.
workflow = StateGraph(AgentState)

# 노드등록. analysis라는 이름으로 data_analyzer_node함수를 등록
workflow.add_node("analysis", data_analyzer_node)

workflow.add_edge(START, "analysis")

app = workflow.compile()
app

<langgraph.graph.state.CompiledStateGraph at 0x1301fb290>

### 4. 실행코드

In [None]:
initial_state = {"file_path": "train.csv"}

for output in app.stream(initial_state):
    for message in output['analysis']['messages']:
        print(message.content)

[단계 1/4] 데이터 탐색 시작...


NameError: name 'message' is not defined