# Boston Housing Price Analysis with Pandas AI

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/yunho0130/claude-code-web-test2/blob/main/pandasai_analysis.ipynb)

이 노트북은 Pandas AI를 사용하여 Boston 주택 가격 데이터를 자연어로 분석합니다.

## 1. 환경 설정 및 라이브러리 설치

먼저 필요한 라이브러리를 설치합니다.

In [None]:
# 필요한 라이브러리 설치
!pip install pandasai pandas matplotlib seaborn -q

print("라이브러리 설치 완료!")

## 2. 라이브러리 임포트

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pandasai import Agent
from pandasai.llm import OpenAI
import os

# 시각화 스타일 설정
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("라이브러리 임포트 완료!")

## 3. OpenAI API 키 설정

Pandas AI는 OpenAI API를 사용합니다. API 키를 설정해주세요.

**참고**: OpenAI API 키는 [OpenAI Platform](https://platform.openai.com/api-keys)에서 발급받을 수 있습니다.

In [None]:
# OpenAI API 키 설정 (직접 입력하거나 환경 변수로 설정)
# 방법 1: 직접 입력
# OPENAI_API_KEY = "your-api-key-here"

# 방법 2: Colab Secrets 사용 (권장)
from google.colab import userdata
try:
    OPENAI_API_KEY = userdata.get('OPENAI_API_KEY')
    print("✓ API 키를 Colab Secrets에서 불러왔습니다.")
except:
    print("⚠ Colab Secrets에 OPENAI_API_KEY를 설정해주세요.")
    print("또는 아래 코드를 수정하여 직접 입력하세요:")
    print('OPENAI_API_KEY = "your-api-key-here"')
    OPENAI_API_KEY = None

## 4. 데이터 로드

Boston 주택 가격 데이터를 로드합니다.

In [None]:
# GitHub에서 데이터 로드
url = "https://raw.githubusercontent.com/yunho0130/claude-code-web-test2/main/boston_house_prices.csv"

try:
    df = pd.read_csv(url, skiprows=1)
    print(f"✓ 데이터 로드 완료!")
    print(f"데이터 크기: {df.shape}")
    print(f"\n컬럼: {list(df.columns)}")
    
    # 데이터 미리보기
    display(df.head())
except Exception as e:
    print(f"⚠ 데이터 로드 실패: {e}")
    print("로컬 파일을 업로드하거나 URL을 확인해주세요.")

## 5. 데이터 정보

### 컬럼 설명

- **CRIM**: 범죄율 (per capita crime rate by town)
- **ZN**: 25,000 평방피트 이상 주거지역 비율
- **INDUS**: 비소매 상업지구 비율
- **CHAS**: 찰스강 인접 여부 (1: 인접, 0: 비인접)
- **NOX**: 일산화질소 농도
- **RM**: 평균 방 개수
- **AGE**: 1940년 이전 건축된 주택 비율
- **DIS**: 보스턴 고용센터까지의 거리
- **RAD**: 고속도로 접근성
- **TAX**: 재산세율
- **PTRATIO**: 학생-교사 비율
- **B**: 흑인 비율 관련 통계
- **LSTAT**: 저소득층 비율
- **MEDV**: 주택 가격 중앙값 (단위: $1000)

In [None]:
# 기본 통계 정보
print("데이터 정보:")
df.info()

print("\n기술 통계:")
display(df.describe())

print("\n결측치 확인:")
print(df.isnull().sum())

## 6. Pandas AI Agent 설정

Pandas AI Agent를 초기화하여 자연어로 데이터를 분석할 수 있습니다.

In [None]:
if OPENAI_API_KEY:
    # OpenAI LLM 설정
    llm = OpenAI(api_token=OPENAI_API_KEY)
    
    # Pandas AI Agent 생성
    agent = Agent(df, config={"llm": llm, "verbose": True})
    
    print("✓ Pandas AI Agent 초기화 완료!")
    print("이제 자연어로 데이터를 질문할 수 있습니다.")
else:
    print("⚠ OpenAI API 키가 설정되지 않았습니다.")
    print("위의 '3. OpenAI API 키 설정' 섹션을 먼저 실행해주세요.")

## 7. Pandas AI로 데이터 질의하기

자연어로 데이터에 대한 질문을 할 수 있습니다!

### 예제 1: 기본 통계 질문

In [None]:
if OPENAI_API_KEY:
    # 질문 1: 평균 주택 가격
    response = agent.chat("What is the average house price?")
    print(f"답변: {response}")

### 예제 2: 조건부 질문

In [None]:
if OPENAI_API_KEY:
    # 질문 2: 방이 7개 이상인 주택의 평균 가격
    response = agent.chat("What is the average price of houses with more than 7 rooms?")
    print(f"답변: {response}")

### 예제 3: 상관관계 질문

In [None]:
if OPENAI_API_KEY:
    # 질문 3: 가장 강한 상관관계
    response = agent.chat("Which feature has the strongest correlation with house price (MEDV)?")
    print(f"답변: {response}")

### 예제 4: 시각화 요청

In [None]:
if OPENAI_API_KEY:
    # 질문 4: 시각화
    response = agent.chat("Plot a scatter plot of RM (number of rooms) vs MEDV (house price)")
    print(f"답변: {response}")

### 예제 5: 복잡한 분석 질문

In [None]:
if OPENAI_API_KEY:
    # 질문 5: 복잡한 분석
    response = agent.chat(
        "Find the top 5 most expensive neighborhoods and show their average crime rate (CRIM) and average number of rooms (RM)"
    )
    print(f"답변: {response}")

## 8. 자유 질문

아래 셀을 사용하여 데이터에 대한 자유로운 질문을 해보세요!

In [None]:
if OPENAI_API_KEY:
    # 여기에 자신만의 질문을 입력하세요!
    your_question = "What is the distribution of house prices?"
    
    response = agent.chat(your_question)
    print(f"질문: {your_question}")
    print(f"답변: {response}")
else:
    print("⚠ API 키를 먼저 설정해주세요.")

## 9. 전통적인 데이터 분석 (참고용)

Pandas AI 없이 전통적인 방법으로도 데이터를 분석할 수 있습니다.

In [None]:
# 주택 가격 분포
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.hist(df['MEDV'], bins=30, edgecolor='black', color='skyblue')
plt.xlabel('Median House Price (MEDV)')
plt.ylabel('Frequency')
plt.title('Distribution of House Prices')

plt.subplot(1, 2, 2)
plt.boxplot(df['MEDV'])
plt.ylabel('Median House Price (MEDV)')
plt.title('Box Plot of House Prices')

plt.tight_layout()
plt.show()

In [None]:
# 상관관계 히트맵
plt.figure(figsize=(12, 10))
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', center=0)
plt.title('Correlation Heatmap')
plt.tight_layout()
plt.show()

In [None]:
# 주요 특성과 주택 가격의 관계
fig, axes = plt.subplots(2, 2, figsize=(14, 10))
axes = axes.ravel()

key_features = ['RM', 'LSTAT', 'PTRATIO', 'DIS']

for idx, feature in enumerate(key_features):
    axes[idx].scatter(df[feature], df['MEDV'], alpha=0.5, color='navy')
    axes[idx].set_xlabel(feature)
    axes[idx].set_ylabel('MEDV (House Price)')
    axes[idx].set_title(f'{feature} vs House Price')
    axes[idx].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 10. 요약

이 노트북에서는:

1. ✅ Pandas AI를 사용하여 Boston 주택 가격 데이터를 로드했습니다
2. ✅ 자연어 질의를 통해 데이터를 분석했습니다
3. ✅ Pandas AI Agent를 사용하여 복잡한 질문에 답했습니다
4. ✅ 전통적인 시각화 방법도 함께 비교했습니다

### 다음 단계

- 다양한 질문을 시도해보세요
- 다른 데이터셋에 Pandas AI를 적용해보세요
- 더 복잡한 분석과 시각화를 요청해보세요

### 참고 자료

- [Pandas AI Documentation](https://docs.pandas-ai.com/)
- [OpenAI API](https://platform.openai.com/docs/)
- [GitHub Repository](https://github.com/yunho0130/claude-code-web-test2)