# Chapter 03: Data Storage
📌 목표: 크롤링한 데이터를 파일(CSV/JSON)로 저장하고 불러온다.


In [4]:
# 보통은 chapter01/02 크롤링 결과물인데,
# 여기서는 샘플 데이터로 준비
headlines = [
    {"title": "기사 제목 1", "link": "https://example.com/1"},
    {"title": "기사 제목 2", "link": "https://example.com/2"},
    {"title": "기사 제목 3", "link": "https://example.com/3"},
]


In [5]:
import pandas as pd

# CSV 저장
df = pd.DataFrame(headlines)
df.to_csv("news_headlines.csv", index=False, encoding="utf-8")
print("✅ news_headlines.csv 저장 완료")

# CSV 불러오기
df_csv = pd.read_csv("news_headlines.csv")
print(df_csv.head())


✅ news_headlines.csv 저장 완료
     title                   link
0  기사 제목 1  https://example.com/1
1  기사 제목 2  https://example.com/2
2  기사 제목 3  https://example.com/3


In [6]:
# JSON 저장
df.to_json("news_headlines.json", orient="records", force_ascii=False, indent=2)
print("✅ news_headlines.json 저장 완료")

# JSON 불러오기
df_json = pd.read_json("news_headlines.json")
print(df_json.head())


✅ news_headlines.json 저장 완료
     title                   link
0  기사 제목 1  https://example.com/1
1  기사 제목 2  https://example.com/2
2  기사 제목 3  https://example.com/3


In [7]:
# Excel 저장
df.to_excel("news_headlines.xlsx", index=False, engine="openpyxl")
print("✅ news_headlines.xlsx 저장 완료")

# Excel 불러오기
df_excel = pd.read_excel("news_headlines.xlsx", engine="openpyxl")
print(df_excel.head())


✅ news_headlines.xlsx 저장 완료
     title                   link
0  기사 제목 1  https://example.com/1
1  기사 제목 2  https://example.com/2
2  기사 제목 3  https://example.com/3


## 🔑 정리
- 크롤링 데이터는 보통 CSV, JSON, Excel 형태로 저장한다.
- `pandas.DataFrame`을 사용하면 변환과 저장이 간단하다.
- 저장 메서드
  - `.to_csv()` : 텍스트 기반, 가장 많이 사용됨
  - `.to_json()` : API/웹 서비스와 호환성 좋음
  - `.to_excel()` : 오피스 환경에서 바로 활용 가능
- 불러오기 메서드
  - `read_csv`, `read_json`, `read_excel`
- 이렇게 저장해두면 이후 데이터 분석/머신러닝/딥러닝 모델 학습에 재사용 가능하다.
