# EDA Step 1: 데이터 구조 파악

**목적**: 데이터의 전체적인 모양을 빠르게 이해
- 변수 타입
- row/column 수
- 데이터 예시(head)
- 기본 통계(describe)

In [1]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# 데이터 로드 (core 폴더 기준 상대경로)
books = pd.read_csv('../data/books.csv')
users = pd.read_csv('../data/users.csv')
train = pd.read_csv('../data/train_ratings.csv')
test = pd.read_csv('../data/test_ratings.csv')

## 1.1 데이터 Shape (행, 열 수)

In [2]:
print("=" * 60)
print("데이터 Shape 요약")
print("=" * 60)
datasets = {
    'books.csv': books,
    'users.csv': users,
    'train_ratings.csv': train,
    'test_ratings.csv': test
}

for name, df in datasets.items():
    print(f"{name:20s}: {df.shape[0]:>10,} rows × {df.shape[1]:>2} cols")

print("\n" + "-" * 60)
print("[대회 설명과 비교]")
print(f"books: 149,570개 예상 → 실제 {books.shape[0]:,}개")
print(f"users: 68,092명 예상 → 실제 {users.shape[0]:,}명")
print(f"train: 306,795건 예상 → 실제 {train.shape[0]:,}건")
print(f"test: 76,699건 예상 → 실제 {test.shape[0]:,}건")

데이터 Shape 요약
books.csv           :    149,570 rows × 10 cols
users.csv           :     68,092 rows ×  3 cols
train_ratings.csv   :    306,795 rows ×  3 cols
test_ratings.csv    :     76,699 rows ×  3 cols

------------------------------------------------------------
[대회 설명과 비교]
books: 149,570개 예상 → 실제 149,570개
users: 68,092명 예상 → 실제 68,092명
train: 306,795건 예상 → 실제 306,795건
test: 76,699건 예상 → 실제 76,699건


## 1.2 컬럼별 데이터 타입

In [3]:
print("=" * 60)
print("[books.csv] 컬럼 및 타입")
print("=" * 60)
print(books.dtypes)
print(f"\n컬럼 목록: {list(books.columns)}")

[books.csv] 컬럼 및 타입
isbn                    object
book_title              object
book_author             object
year_of_publication    float64
publisher               object
img_url                 object
language                object
category                object
summary                 object
img_path                object
dtype: object

컬럼 목록: ['isbn', 'book_title', 'book_author', 'year_of_publication', 'publisher', 'img_url', 'language', 'category', 'summary', 'img_path']


In [4]:
print("=" * 60)
print("[users.csv] 컬럼 및 타입")
print("=" * 60)
print(users.dtypes)
print(f"\n컬럼 목록: {list(users.columns)}")

[users.csv] 컬럼 및 타입
user_id       int64
location     object
age         float64
dtype: object

컬럼 목록: ['user_id', 'location', 'age']


In [5]:
print("=" * 60)
print("[train_ratings.csv] 컬럼 및 타입")
print("=" * 60)
print(train.dtypes)
print(f"\n컬럼 목록: {list(train.columns)}")

[train_ratings.csv] 컬럼 및 타입
user_id     int64
isbn       object
rating      int64
dtype: object

컬럼 목록: ['user_id', 'isbn', 'rating']


In [6]:
print("=" * 60)
print("[test_ratings.csv] 컬럼 및 타입")
print("=" * 60)
print(test.dtypes)
print(f"\n컬럼 목록: {list(test.columns)}")

[test_ratings.csv] 컬럼 및 타입
user_id     int64
isbn       object
rating      int64
dtype: object

컬럼 목록: ['user_id', 'isbn', 'rating']


## 1.3 데이터 샘플 확인 (head/tail)

In [7]:
print("[books.csv] 상위 5개")
display(books.head())

[books.csv] 상위 5개


Unnamed: 0,isbn,book_title,book_author,year_of_publication,publisher,img_url,language,category,summary,img_path
0,2005018,Clara Callan,Richard Bruce Wright,2001.0,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.0...,en,['Actresses'],"In a small town in Canada, Clara Callan reluct...",images/0002005018.01.THUMBZZZ.jpg
1,60973129,Decision in Normandy,Carlo D'Este,1991.0,HarperPerennial,http://images.amazon.com/images/P/0060973129.0...,en,['1940-1949'],"Here, for the first time in paperback, is an o...",images/0060973129.01.THUMBZZZ.jpg
2,374157065,Flu: The Story of the Great Influenza Pandemic...,Gina Bari Kolata,1999.0,Farrar Straus Giroux,http://images.amazon.com/images/P/0374157065.0...,en,['Medical'],"Describes the great flu epidemic of 1918, an o...",images/0374157065.01.THUMBZZZ.jpg
3,399135782,The Kitchen God's Wife,Amy Tan,1991.0,Putnam Pub Group,http://images.amazon.com/images/P/0399135782.0...,en,['Fiction'],A Chinese immigrant who is convinced she is dy...,images/0399135782.01.THUMBZZZ.jpg
4,425176428,What If?: The World's Foremost Military Histor...,Robert Cowley,2000.0,Berkley Publishing Group,http://images.amazon.com/images/P/0425176428.0...,en,['History'],"Essays by respected military historians, inclu...",images/0425176428.01.THUMBZZZ.jpg


In [8]:
print("[users.csv] 상위 5개")
display(users.head())

[users.csv] 상위 5개


Unnamed: 0,user_id,location,age
0,8,"timmins, ontario, canada",
1,11400,"ottawa, ontario, canada",49.0
2,11676,"n/a, n/a, n/a",
3,67544,"toronto, ontario, canada",30.0
4,85526,"victoria, british columbia, canada",36.0


In [9]:
print("[train_ratings.csv] 상위 10개")
display(train.head(10))

[train_ratings.csv] 상위 10개


Unnamed: 0,user_id,isbn,rating
0,8,2005018,4
1,67544,2005018,7
2,123629,2005018,8
3,200273,2005018,8
4,210926,2005018,9
5,219008,2005018,7
6,263325,2005018,5
7,2954,60973129,8
8,35704,374157065,6
9,110912,374157065,10


In [10]:
print("[test_ratings.csv] 상위 5개")
display(test.head())

[test_ratings.csv] 상위 5개


Unnamed: 0,user_id,isbn,rating
0,11676,2005018,0
1,116866,2005018,0
2,152827,60973129,0
3,157969,374157065,0
4,67958,399135782,0


## 1.4 기본 통계량 (describe)

In [11]:
print("[books.csv] 수치형 변수 통계")
display(books.describe())

[books.csv] 수치형 변수 통계


Unnamed: 0,year_of_publication
count,149570.0
mean,1994.590606
std,8.179733
min,1376.0
25%,1991.0
50%,1996.0
75%,2000.0
max,2006.0


In [12]:
print("[users.csv] 수치형 변수 통계")
display(users.describe())

[users.csv] 수치형 변수 통계


Unnamed: 0,user_id,age
count,68092.0,40259.0
mean,139381.329539,36.069873
std,80523.969862,13.842571
min,8.0,5.0
25%,69008.75,25.0
50%,138845.5,34.0
75%,209388.25,45.0
max,278854.0,99.0


In [13]:
print("[train_ratings.csv] 수치형 변수 통계")
display(train.describe())

[train_ratings.csv] 수치형 변수 통계


Unnamed: 0,user_id,rating
count,306795.0,306795.0
mean,136128.416099,7.069714
std,80512.194379,2.433217
min,8.0,1.0
25%,67591.0,6.0
50%,134076.0,8.0
75%,206438.0,9.0
max,278854.0,10.0


In [14]:
# 범주형 변수 통계도 확인
print("[books.csv] 범주형 변수 통계")
display(books.describe(include='object'))

[books.csv] 범주형 변수 통계


Unnamed: 0,isbn,book_title,book_author,publisher,img_url,language,category,summary,img_path
count,149570,149570,149569,149570,149570,82343,80719,82343,149570
unique,149570,135436,62058,11571,149570,26,4292,79872,149570
top,1569661057,The Secret Garden,Stephen King,Harlequin,http://images.amazon.com/images/P/1569661057.0...,en,['Fiction'],No Marketing Blurb,images/1569661057.01.THUMBZZZ.jpg
freq,1,18,446,3005,1,78823,32956,42,1


## 1.5 메모리 사용량

In [15]:
print("=" * 60)
print("메모리 사용량")
print("=" * 60)
total = 0
for name, df in datasets.items():
    mem = df.memory_usage(deep=True).sum() / 1024**2
    total += mem
    print(f"{name:20s}: {mem:>8.2f} MB")
print("-" * 60)
print(f"{'Total':20s}: {total:>8.2f} MB")

메모리 사용량
books.csv           :   109.02 MB
users.csv           :     6.45 MB
train_ratings.csv   :    24.28 MB
test_ratings.csv    :     6.07 MB
------------------------------------------------------------
Total               :   145.82 MB


## 1.6 고유값 수 확인 (추천시스템 핵심 지표)

In [16]:
print("=" * 60)
print("고유값 수 (Unique Counts)")
print("=" * 60)

print(f"\n[Train Set]")
print(f"  - 고유 user 수: {train['user_id'].nunique():,}")
print(f"  - 고유 item(isbn) 수: {train['isbn'].nunique():,}")
print(f"  - 전체 interaction 수: {len(train):,}")

print(f"\n[Test Set]")
print(f"  - 고유 user 수: {test['user_id'].nunique():,}")
print(f"  - 고유 item(isbn) 수: {test['isbn'].nunique():,}")
print(f"  - 전체 interaction 수: {len(test):,}")

print(f"\n[메타데이터]")
print(f"  - books.csv 내 고유 isbn: {books['isbn'].nunique():,}")
print(f"  - users.csv 내 고유 user_id: {users['user_id'].nunique():,}")

고유값 수 (Unique Counts)

[Train Set]
  - 고유 user 수: 59,803
  - 고유 item(isbn) 수: 129,777
  - 전체 interaction 수: 306,795

[Test Set]
  - 고유 user 수: 26,167
  - 고유 item(isbn) 수: 52,000
  - 전체 interaction 수: 76,699

[메타데이터]
  - books.csv 내 고유 isbn: 149,570
  - users.csv 내 고유 user_id: 68,092


## 1.7 Train/Test 간 user, item 겹침 확인

In [17]:
train_users = set(train['user_id'].unique())
test_users = set(test['user_id'].unique())
train_items = set(train['isbn'].unique())
test_items = set(test['isbn'].unique())

print("=" * 60)
print("Train/Test 간 겹침 분석 (Cold Start 문제 파악)")
print("=" * 60)

print(f"\n[User 겹침]")
common_users = train_users & test_users
test_only_users = test_users - train_users
print(f"  - Train에만 있는 user: {len(train_users - test_users):,}")
print(f"  - Test에만 있는 user (Cold Start): {len(test_only_users):,}")
print(f"  - 공통 user: {len(common_users):,}")
print(f"  - Test user 중 Cold Start 비율: {len(test_only_users)/len(test_users)*100:.2f}%")

print(f"\n[Item 겹침]")
common_items = train_items & test_items
test_only_items = test_items - train_items
print(f"  - Train에만 있는 item: {len(train_items - test_items):,}")
print(f"  - Test에만 있는 item (Cold Start): {len(test_only_items):,}")
print(f"  - 공통 item: {len(common_items):,}")
print(f"  - Test item 중 Cold Start 비율: {len(test_only_items)/len(test_items)*100:.2f}%")

Train/Test 간 겹침 분석 (Cold Start 문제 파악)

[User 겹침]
  - Train에만 있는 user: 41,902
  - Test에만 있는 user (Cold Start): 8,266
  - 공통 user: 17,901
  - Test user 중 Cold Start 비율: 31.59%

[Item 겹침]
  - Train에만 있는 item: 97,570
  - Test에만 있는 item (Cold Start): 19,793
  - 공통 item: 32,207
  - Test item 중 Cold Start 비율: 38.06%


## 1.8 Sparsity 계산 (추천시스템 핵심 지표)

In [18]:
n_users = train['user_id'].nunique()
n_items = train['isbn'].nunique()
n_interactions = len(train)

possible_interactions = n_users * n_items
sparsity = 1 - (n_interactions / possible_interactions)
density = n_interactions / possible_interactions

print("=" * 60)
print("User-Item Matrix Sparsity (Train Set)")
print("=" * 60)
print(f"  - 가능한 총 interaction 수: {possible_interactions:,}")
print(f"  - 실제 interaction 수: {n_interactions:,}")
print(f"  - Sparsity: {sparsity*100:.4f}%")
print(f"  - Density: {density*100:.6f}%")
print(f"\n  → 매우 Sparse한 데이터 (일반적인 추천시스템 데이터 특성)")

User-Item Matrix Sparsity (Train Set)
  - 가능한 총 interaction 수: 7,761,053,931
  - 실제 interaction 수: 306,795
  - Sparsity: 99.9960%
  - Density: 0.003953%

  → 매우 Sparse한 데이터 (일반적인 추천시스템 데이터 특성)


---
## Step 1 요약

**이 셀 실행 후 결과를 복사해서 공유해주세요!**

확인해야 할 핵심 사항:
1. 대회 설명과 실제 데이터 수가 일치하는가?
2. 데이터 타입이 예상대로인가? (특히 year_of_publication이 float인 점)
3. Cold Start 문제가 얼마나 심각한가?
4. Sparsity가 얼마나 높은가?