In [None]:
import os
import requests
import zipfile
import gzip
import shutil
import json
import pandas as pd
from tqdm import tqdm
import urllib3

# SSL 경고 메시지를 비활성화합니다.
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

# ==============================================================================
# 1. 데이터셋 다운로드 및 압축 해제
# ==============================================================================
print("Step 1: 데이터셋 다운로드 및 압축 해제를 시작합니다.")

# --- MovieLens 데이터셋 ---
# MovieLens 'latest-small' 데이터셋은 사용자 600명, 영화 9,000개에 대한 100,000개의 평점을 포함합니다.
# 개발 및 테스트 단계에 적합한 크기입니다.
movielens_url = "https://files.grouplens.org/datasets/movielens/ml-latest-small.zip"
movielens_zip_path = "ml-latest-small.zip"
movielens_dir = "ml-latest-small"

if not os.path.exists(movielens_dir):
    print("MovieLens 데이터셋을 다운로드합니다...")
    # SSL 인증서 검증을 비활성화합니다 (verify=False).
    response = requests.get(movielens_url, stream=True, verify=False)
    with open(movielens_zip_path, "wb") as f:
        for chunk in response.iter_content(chunk_size=8192):
            f.write(chunk)

    print("MovieLens 데이터셋 압축을 해제합니다...")
    with zipfile.ZipFile(movielens_zip_path, 'r') as zip_ref:
        zip_ref.extractall(".")
    os.remove(movielens_zip_path)
    print("MovieLens 데이터셋 준비 완료.")
else:
    print("MovieLens 데이터셋이 이미 존재합니다.")

# --- Open Library 데이터셋 ---
# Open Library의 'Works' 데이터 덤프를 사용합니다. 작품의 제목, 저자, 주제 등의 정보를 포함합니다.
# 파일 크기가 크므로(압축 해제 시 수 GB), 스트리밍 방식으로 처리하는 것이 중요합니다.
openlibrary_url = "https://openlibrary.org/data/ol_dump_works_latest.txt.gz"
openlibrary_gz_path = "ol_dump_works_latest.txt.gz"
openlibrary_txt_path = "ol_dump_works_latest.txt"

if not os.path.exists(openlibrary_txt_path):
    print("Open Library 데이터셋을 다운로드합니다... (시간이 다소 소요될 수 있습니다)")
    # SSL 인증서 검증을 비활성화합니다 (verify=False).
    response = requests.get(openlibrary_url, stream=True, verify=False)
    with open(openlibrary_gz_path, "wb") as f:
        total_length = int(response.headers.get('content-length'))
        with tqdm(total=total_length, unit='B', unit_scale=True, desc="OpenLibrary Download") as pbar:
            for chunk in response.iter_content(chunk_size=8192):
                f.write(chunk)
                pbar.update(len(chunk))

    print("Open Library 데이터셋 압축을 해제합니다...")
    with gzip.open(openlibrary_gz_path, 'rb') as f_in:
        with open(openlibrary_txt_path, 'wb') as f_out:
            shutil.copyfileobj(f_in, f_out)
    os.remove(openlibrary_gz_path)
    print("Open Library 데이터셋 준비 완료.")
else:
    print("Open Library 데이터셋이 이미 존재합니다.")

print("\n" + "="*78)


# ==============================================================================
# 2. 데이터 로드 및 전처리
# ==============================================================================
print("Step 2: 데이터 로드 및 전처리를 시작합니다.")

# --- MovieLens 데이터 처리 ---
print("\n--- MovieLens 데이터 처리 중 ---")
movies_df = pd.read_csv(os.path.join(movielens_dir, 'movies.csv'))
ratings_df = pd.read_csv(os.path.join(movielens_dir, 'ratings.csv'))

print("원본 movies 데이터셋 정보:")
movies_df.info()
print("\n원본 ratings 데이터셋 정보:")
ratings_df.info()

# CBF(콘텐츠 기반 필터링)를 위해 장르(genres)를 리스트 형태로 변환합니다.
# 'Action|Adventure|Sci-Fi' -> ['Action', 'Adventure', 'Sci-Fi']
movies_df['genres'] = movies_df['genres'].apply(lambda x: x.split('|'))

# User-Based CF와 CBF 모두에 활용할 수 있도록 ratings와 movies 데이터를 병합합니다.
movie_ratings_df = pd.merge(ratings_df, movies_df, on='movieId')

print("\n[전처리 후] MovieLens 데이터셋 (상위 5개):")
print(movie_ratings_df.head())
print("\nMovieLens 데이터 처리 완료.")


# --- Open Library 데이터 처리 ---
print("\n--- Open Library 데이터 처리 중 ---")
# 파일이 크기 때문에 모든 데이터를 메모리에 올리지 않고, 한 줄씩 읽어서 처리합니다.
# 약 10만 건의 데이터만 샘플로 추출하여 처리 시간을 단축합니다.
max_lines = 100000
books_data = []

with open(openlibrary_txt_path, 'r', encoding='utf-8') as f:
    for i, line in tqdm(enumerate(f), total=max_lines, desc="Parsing OpenLibrary"):
        if i >= max_lines:
            break
        try:
            # 각 라인은 탭으로 구분된 5개의 필드로 구성되어 있습니다.
            # 우리는 마지막 필드인 JSON 데이터만 필요합니다.
            json_str = line.split('\t')[-1]
            book = json.loads(json_str)

            # 필요한 정보(제목, 저자, 주제)만 추출합니다.
            # 데이터가 없는 경우를 대비하여 .get()을 사용합니다.
            title = book.get('title', 'N/A')

            # 저자 정보는 복잡한 구조를 가질 수 있어 안전하게 추출합니다.
            authors = []
            if 'authors' in book:
                for author_entry in book['authors']:
                    # author_entry는 {'author': {'key': '...'}, 'type': ...} 형태일 수 있습니다.
                    author_key = author_entry.get('author', {}).get('key')
                    if author_key:
                        authors.append(author_key.replace('/authors/', '')) # 저자 key만 저장

            # 주제(장르) 정보 추출
            subjects = book.get('subjects', [])

            books_data.append({
                'title': title,
                'authors': authors,
                'genres': subjects # MovieLens와 컬럼명을 'genres'로 통일
            })
        except (json.JSONDecodeError, IndexError):
            # 가끔 잘못된 형식의 라인이 있을 수 있어 예외 처리합니다.
            continue

books_df = pd.DataFrame(books_data)

# 데이터 클리닝: 제목이 없는 책, 장르가 없는 책은 추천에 활용하기 어려우므로 제거합니다.
books_df = books_df[books_df['title'] != 'N/A'].copy()
books_df = books_df[books_df['genres'].apply(lambda x: len(x) > 0)]
books_df.reset_index(drop=True, inplace=True)


print("\n[전처리 후] Open Library 데이터셋 (상위 5개):")
print(books_df.head())
print("\nOpen Library 데이터 처리 완료.")

print("\n" + "="*78)
print("모든 데이터 전처리 작업이 완료되었습니다.")
print(f"처리된 영화 평점 데이터: {len(movie_ratings_df)}건")
print(f"처리된 도서 데이터: {len(books_df)}건")

# 전처리된 데이터프레임 확인
# 예:
# movie_ratings_df -> User-Based CF 모델 학습 데이터로 사용
# books_df -> CBF 모델 학습 데이터로 사용

Step 1: 데이터셋 다운로드 및 압축 해제를 시작합니다.
MovieLens 데이터셋을 다운로드합니다...
MovieLens 데이터셋 압축을 해제합니다...
MovieLens 데이터셋 준비 완료.
Open Library 데이터셋을 다운로드합니다... (시간이 다소 소요될 수 있습니다)


OpenLibrary Download: 100%|██████████| 3.78G/3.78G [45:40<00:00, 1.38MB/s]


Open Library 데이터셋 압축을 해제합니다...
Open Library 데이터셋 준비 완료.

Step 2: 데이터 로드 및 전처리를 시작합니다.

--- MovieLens 데이터 처리 중 ---
원본 movies 데이터셋 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9742 entries, 0 to 9741
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   movieId  9742 non-null   int64 
 1   title    9742 non-null   object
 2   genres   9742 non-null   object
dtypes: int64(1), object(2)
memory usage: 228.5+ KB

원본 ratings 데이터셋 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   userId     100836 non-null  int64  
 1   movieId    100836 non-null  int64  
 2   rating     100836 non-null  float64
 3   timestamp  100836 non-null  int64  
dtypes: float64(1), int64(3)
memory usage: 3.1 MB

[전처리 후] MovieLens 데이터셋 (상위 5개):
   userId  movieId  rating  timestamp                        tit

Parsing OpenLibrary: 100%|██████████| 100000/100000 [00:02<00:00, 49181.77it/s]



[전처리 후] Open Library 데이터셋 (상위 5개):
                             title       authors  \
0             Triomphes du baroque  [OL3967401A]   
1  Le travail avec les toxicomanes  [OL3967521A]   
2         La verdad bajo la tierra  [OL3968678A]   
3    L'invention des syndicalismes  [OL3969753A]   
4             La fugue a bruxelles  [OL3971042A]   

                                              genres  
0  [Architectural models, Exhibitions, Baroque Ar...  
1           [Drug abuse, Prevention, Drug addiction]  
2  [State-sponsored terrorism, Victims of state-s...  
3                            [Labor unions, History]  
4  [Intellectual life, Exiles, History, Political...  

Open Library 데이터 처리 완료.

모든 데이터 전처리 작업이 완료되었습니다.
처리된 영화 평점 데이터: 100836건
처리된 도서 데이터: 50084건


In [None]:
movie_ratings_df.to_csv("movie_init.csv", index=False, encoding='utf-8-sig')

In [None]:
books_df.to_csv("books_init.csv", index=False, encoding='utf-8-sig')

In [None]:
books_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50084 entries, 0 to 50083
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   title    50084 non-null  object
 1   authors  50084 non-null  object
 2   genres   50084 non-null  object
dtypes: object(3)
memory usage: 1.1+ MB


In [None]:
movie_ratings_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 6 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   userId     100836 non-null  int64  
 1   movieId    100836 non-null  int64  
 2   rating     100836 non-null  float64
 3   timestamp  100836 non-null  int64  
 4   title      100836 non-null  object 
 5   genres     100836 non-null  object 
dtypes: float64(1), int64(3), object(2)
memory usage: 4.6+ MB


In [None]:
import pandas as pd
import re
from tqdm import tqdm

# ==============================================================================
# Step 3: 상세 데이터 정제 (Advanced Data Cleaning & Standardization)
# ==============================================================================
print("Step 3: 상세 데이터 정제 및 표준화를 시작합니다.")

# --- 3.1 텍스트 정제 함수 정의 ---
def clean_text(text):
    if not isinstance(text, str):
        return ""
    text = text.lower()  # 소문자 변환
    text = re.sub(r'\s*\([^)]*\)', '', text)  # 괄호와 그 안의 내용 제거
    text = re.sub(r'[^a-z0-9\s]', '', text)  # 알파벳, 숫자, 공백 제외 모든 문자 제거
    text = text.strip()  # 양 끝 공백 제거
    return text

# --- 3.2 MovieLens 데이터 정제 ---
print("\n--- MovieLens 데이터 정제 중 ---")
# 제목에서 연도 정보 분리
movies_df['year'] = movies_df['title'].str.extract(r'\((\d{4})\)', expand=False).fillna(0).astype(int)
# 제목 텍스트 정제
movies_df['cleaned_title'] = movies_df['title'].apply(clean_text)

# [오류 수정] 장르를 리스트 형태로 변환 (문자열일 경우에만 split 실행)
def split_genres(genres_data):
    if isinstance(genres_data, str):
        return [genre.lower() for genre in genres_data.split('|')]
    return genres_data # 이미 리스트이면 그대로 반환

movies_df['genres'] = movies_df['genres'].apply(split_genres)

# (no genres listed) 제거
movies_df = movies_df[movies_df['genres'].apply(lambda x: '(no genres listed)' not in x)]

# 불필요한 컬럼 제거 및 순서 정리
movies_df = movies_df[['movieId', 'cleaned_title', 'year', 'genres']].rename(columns={'cleaned_title': 'title'})

print("MovieLens 정제 완료. 상위 5개:")
print(movies_df.head())


# --- 3.3 Open Library 데이터 정제 및 장르 표준화 ---
print("\n--- Open Library 데이터 정제 및 장르 표준화 중 ---")
# 결측치 및 중복 데이터 제거
books_df.dropna(subset=['title'], inplace=True)
books_df.drop_duplicates(subset=['title'], inplace=True)

# 제목 텍스트 정제
books_df['cleaned_title'] = books_df['title'].apply(clean_text)
books_df = books_df[books_df['cleaned_title'] != ""]
books_df.drop_duplicates(subset=['cleaned_title'], inplace=True)

# 장르 표준화 (CBF의 핵심)
genre_map = {
    'fiction': ['fiction', 'novel', 'stories', 'literature'],
    'science fiction': ['science fiction', 'sci-fi', 'sf'],
    'fantasy': ['fantasy'],
    'mystery': ['mystery', 'detective', 'crime'],
    'thriller': ['thriller', 'suspense'],
    'romance': ['romance', 'love'],
    'history': ['history', 'historical'],
    'biography': ['biography', 'autobiography', 'memoirs'],
    'children': ['children', 'juvenile', 'kids'],
    'young adult': ['young adult', 'ya'],
    'horror': ['horror'],
    'adventure': ['adventure'],
    'non-fiction': ['non-fiction', 'nonfiction'],
    'science': ['science', 'physics', 'biology', 'chemistry', 'astronomy'],
    'philosophy': ['philosophy'],
    'psychology': ['psychology'],
    'poetry': ['poetry', 'poems']
}

def map_genres(subjects):
    if not isinstance(subjects, list):
        return []
    mapped = set()
    lower_subjects = [str(s).lower() for s in subjects]
    for standard_genre, keywords in genre_map.items():
        for keyword in keywords:
            if any(keyword in s for s in lower_subjects):
                mapped.add(standard_genre)
    return list(mapped)

books_df['standard_genres'] = books_df['genres'].apply(map_genres)

# 표준화된 장르가 없는 데이터는 제거
books_df = books_df[books_df['standard_genres'].apply(len) > 0]

# 불필요한 컬럼 제거 및 순서 정리
books_df = books_df[['cleaned_title', 'authors', 'standard_genres']].rename(columns={'cleaned_title': 'title', 'standard_genres': 'genres'})

print("Open Library 정제 및 장르 표준화 완료. 상위 5개:")
print(books_df.head())
print("\n" + "="*78)


# ==============================================================================
# Step 4: 추천 모델링 및 DB 입력을 위한 데이터 재구조화
# ==============================================================================
print("Step 4: 추천 모델링 및 DB 입력을 위한 데이터 재구조화를 시작합니다.")

# --- 4.1 영화와 책 데이터를 'works' 형태로 통합 ---
movies_df.rename(columns={'movieId': 'work_id'}, inplace=True)
movies_df['type'] = 'movie'

max_movie_id = movies_df['work_id'].max()
books_df = books_df.reset_index(drop=True)
books_df['work_id'] = range(max_movie_id + 1, max_movie_id + 1 + len(books_df))
books_df['type'] = 'book'

works_df = pd.concat([
    movies_df[['work_id', 'title', 'type', 'genres']],
    books_df[['work_id', 'title', 'type', 'genres']]
], ignore_index=True)

# --- 4.2 최종 ratings_df 생성 ---
final_ratings_df = ratings_df.rename(columns={'movieId': 'work_id'})[['userId', 'work_id', 'rating']]

print("\n[최종 결과물]")
print("1. 통합 작품 데이터 (works_df) 정보:")
works_df.info()
print("\nworks_df (영화 샘플):")
print(works_df.head())
print("\nworks_df (도서 샘플):")
print(works_df[works_df['type'] == 'book'].head())
print("\n" + "-"*40)
print("\n2. 최종 평점 데이터 (final_ratings_df) 정보:")
final_ratings_df.info()
print("\nfinal_ratings_df (상위 5개):")
print(final_ratings_df.head())

Step 3: 상세 데이터 정제 및 표준화를 시작합니다.

--- MovieLens 데이터 정제 중 ---
MovieLens 정제 완료. 상위 5개:
   movieId                        title  year  \
0        1                    toy story  1995   
1        2                      jumanji  1995   
2        3             grumpier old men  1995   
3        4            waiting to exhale  1995   
4        5  father of the bride part ii  1995   

                                              genres  
0  [Adventure, Animation, Children, Comedy, Fantasy]  
1                     [Adventure, Children, Fantasy]  
2                                  [Comedy, Romance]  
3                           [Comedy, Drama, Romance]  
4                                           [Comedy]  

--- Open Library 데이터 정제 및 장르 표준화 중 ---
Open Library 정제 및 장르 표준화 완료. 상위 5개:
                          title       authors                           genres
2      la verdad bajo la tierra  [OL3968678A]  [young adult, history, mystery]
3  linvention des syndicalismes  [OL3969753A]            

In [None]:
# ==============================================================================
# Step 5: 전처리 완료된 데이터 파일로 저장하기
# ==============================================================================
print("Step 5: 정제된 데이터를 CSV 파일로 저장합니다.")

# 저장할 파일 이름 정의
works_csv_path = "works_processed.csv"
ratings_csv_path = "ratings_processed.csv"

# 데이터프레임을 CSV 파일로 저장
# index=False 옵션은 데이터프레임의 인덱스를 파일에 포함하지 않도록 합니다.
works_df.to_csv(works_csv_path, index=False, encoding='utf-8-sig')
final_ratings_df.to_csv(ratings_csv_path, index=False, encoding='utf-8-sig')

print(f"'{works_csv_path}' 파일 저장 완료!")
print(f"'{ratings_csv_path}' 파일 저장 완료!")
print("\n이제 Colab의 왼쪽 파일 탐색기에서 저장된 CSV 파일들을 확인하고 다운로드할 수 있습니다.")

Step 5: 정제된 데이터를 CSV 파일로 저장합니다.
'works_processed.csv' 파일 저장 완료!
'ratings_processed.csv' 파일 저장 완료!

이제 Colab의 왼쪽 파일 탐색기에서 저장된 CSV 파일들을 확인하고 다운로드할 수 있습니다.


In [None]:
# ==============================================================================
# Step 6: ERD 기반의 DB Seeding용 데이터 파일 생성
# ==============================================================================
print("Step 6: ERD 구조에 맞춰 DB에 입력할 데이터 파일들을 생성합니다.")

# --- 6.1 `db_works.csv` 생성 ---
# 사용자에게 보여줄 상세 정보를 포함하는 works 데이터
# 이전 단계에서 처리된 movies_df와 books_df를 다시 활용합니다.

# 영화 데이터에 'authors' 컬럼 추가 (책 데이터와 형식을 맞추기 위함)
movies_for_db = movies_df.copy()
movies_for_db['authors'] = [[] for _ in range(len(movies_for_db))] # 저자 정보는 없으므로 빈 리스트로 채움

# 책 데이터에 'year' 컬럼 추가 (영화 데이터와 형식을 맞추기 위함)
books_for_db = books_df.copy()
books_for_db['year'] = 0 # 출판 연도 정보는 없으므로 0으로 채움

# ERD의 works 테이블 형식에 맞게 데이터 통합
db_works_df = pd.concat([
    movies_for_db[['work_id', 'type', 'title', 'year', 'authors']],
    books_for_db[['work_id', 'type', 'title', 'year', 'authors']]
], ignore_index=True)

# authors 리스트를 문자열로 변환 (DB에 저장하기 용이한 형태)
# 예: ['OL123A', 'OL456B'] -> 'OL123A,OL456B'
db_works_df['authors'] = db_works_df['authors'].apply(lambda x: ','.join(x) if isinstance(x, list) else '')


print("\n1. `works` 테이블용 데이터 생성 완료.")
print(db_works_df.head())


# --- 6.2 `db_genres.csv` 와 `db_work_genre.csv` 생성 ---
# 장르 정보를 정규화하여 별도 테이블로 관리

# works_df에서 work_id와 genres 정보만 추출
work_genre_exploded = works_df[['work_id', 'genres']].explode('genres')

# 고유한 장르 목록 추출하여 db_genres_df 생성
unique_genres = work_genre_exploded['genres'].unique()
db_genres_df = pd.DataFrame(unique_genres, columns=['name'])
db_genres_df.insert(0, 'genre_id', range(1, len(db_genres_df) + 1))

print("\n2. `genres` 테이블용 데이터 생성 완료.")
print(db_genres_df.head())

# work_id와 genre_id를 매핑하는 db_work_genre_df 생성
# 장르 이름을 genre_id로 변환하기 위해 merge 사용
genre_name_to_id = dict(zip(db_genres_df['name'], db_genres_df['genre_id']))
work_genre_exploded['genre_id'] = work_genre_exploded['genres'].map(genre_name_to_id)
db_work_genre_df = work_genre_exploded[['work_id', 'genre_id']]

print("\n3. `work_genre` 테이블용 데이터 생성 완료.")
print(db_work_genre_df.head())


# --- 6.3 `db_ratings.csv` 생성 ---
# final_ratings_df는 이미 DB 구조와 유사하므로 그대로 사용
db_ratings_df = final_ratings_df.copy()
print("\n4. `ratings` 테이블용 데이터 준비 완료.")


# --- 6.4 모든 DB용 데이터 파일로 저장 ---
db_works_df.to_csv("db_works.csv", index=False, encoding='utf-8-sig')
db_genres_df.to_csv("db_genres.csv", index=False, encoding='utf-8-sig')
db_work_genre_df.to_csv("db_work_genre.csv", index=False, encoding='utf-8-sig')
db_ratings_df.to_csv("db_ratings.csv", index=False, encoding='utf-8-sig')

print("\n" + "="*78)
print("DB Seeding에 필요한 모든 파일 저장이 완료되었습니다.")
print("- db_works.csv: 작품 정보 (works 테이블)")
print("- db_genres.csv: 장르 정보 (genres 테이블)")
print("- db_work_genre.csv: 작품-장르 연결 정보 (work_genre 테이블)")
print("- db_ratings.csv: 평점 정보 (ratings 테이블)")
print("\n이 파일들을 사용하여 PostgreSQL DB를 초기화할 수 있습니다.")


Step 6: ERD 구조에 맞춰 DB에 입력할 데이터 파일들을 생성합니다.

1. `works` 테이블용 데이터 생성 완료.
   work_id   type                        title  year authors
0        1  movie                    toy story  1995        
1        2  movie                      jumanji  1995        
2        3  movie             grumpier old men  1995        
3        4  movie            waiting to exhale  1995        
4        5  movie  father of the bride part ii  1995        

2. `genres` 테이블용 데이터 생성 완료.
   genre_id       name
0         1  Adventure
1         2  Animation
2         3   Children
3         4     Comedy
4         5    Fantasy

3. `work_genre` 테이블용 데이터 생성 완료.
   work_id  genre_id
0        1         1
0        1         2
0        1         3
0        1         4
0        1         5

4. `ratings` 테이블용 데이터 준비 완료.

DB Seeding에 필요한 모든 파일 저장이 완료되었습니다.
- db_works.csv: 작품 정보 (works 테이블)
- db_genres.csv: 장르 정보 (genres 테이블)
- db_work_genre.csv: 작품-장르 연결 정보 (work_genre 테이블)
- db_ratings.csv: 평점 정보 (ratings 테이블)

이 파일들을 사용하여 

In [None]:
# ==============================================================================
# Step 6 (Revised): 상세 ERD 기반의 DB Seeding용 데이터 파일 생성
# ==============================================================================
import pandas as pd

print("Step 6 (Revised): 상세 ERD 구조에 맞춰 DB에 입력할 데이터 파일들을 생성합니다.")

# --- 이전 단계에서 생성된 데이터프레임이 있다고 가정합니다 ---
# works_df, final_ratings_df, movies_df, books_df

# --- 6.1 `db_genres.csv` 와 `db_work_genre.csv` 생성 ---
# 이 부분은 이전과 동일하게 다대다 관계를 표현합니다.

# 고유 장르 목록 추출
work_genre_exploded = works_df[['work_id', 'genres']].explode('genres')
unique_genres = work_genre_exploded['genres'].unique()
db_genres_df = pd.DataFrame(unique_genres, columns=['name'])
db_genres_df.insert(0, 'genre_id', range(1, len(db_genres_df) + 1))

# 작품-장르 연결 테이블 생성
genre_name_to_id = dict(zip(db_genres_df['name'], db_genres_df['genre_id']))
work_genre_exploded['genre_id'] = work_genre_exploded['genres'].map(genre_name_to_id)
db_work_genre_df = work_genre_exploded[['work_id', 'genre_id']].dropna()
db_work_genre_df['genre_id'] = db_work_genre_df['genre_id'].astype(int)

print("1. `genres` 및 `work_genre` 테이블용 데이터 생성 완료.")


# --- 6.2 `db_works.csv` 생성 ---
# 공통 작품 정보를 담는 테이블
# 평균 평점 계산 (영화만 가능)
avg_ratings = final_ratings_df.groupby('work_id')['rating'].mean().reset_index()

db_works_df = works_df[['work_id', 'type']].copy()
db_works_df = pd.merge(db_works_df, avg_ratings, on='work_id', how='left')
db_works_df['rating'] = db_works_df['rating'].round(2).fillna(0) # 평점 없는 책은 0으로

print("\n2. `works` 테이블용 데이터 생성 완료.")
print(db_works_df.head())


# --- 6.3 `db_movies.csv` 와 `db_books.csv` 생성 ---
# 영화와 책의 상세 정보를 분리하여 생성

# 영화 데이터
db_movies_df = movies_df[['work_id', 'title', 'year']].copy()
db_movies_df.rename(columns={'title': 'name', 'year': 'created_at'}, inplace=True)
# 부족한 데이터는 빈 값(placeholder)으로 채웁니다.
db_movies_df['director'] = ''
db_movies_df['publisher'] = ''
db_movies_df['ai_summary'] = ''
db_movies_df['cover_img'] = ''
db_movies_df['reward'] = ''

# [오류 수정] created_at을 YYYY-MM-DD 형식의 날짜로 변환하는 함수
def convert_year_to_date(year):
    if year > 0:
        # 유효한 연도이면 날짜 형식으로 변환
        return f"{year}-01-01"
    else:
        # 유효하지 않은 연도(0)이면 기본 날짜 반환
        return "1900-01-01"

db_movies_df['created_at'] = db_movies_df['created_at'].apply(convert_year_to_date)


# 책 데이터
db_books_df = books_df[['work_id', 'title', 'authors']].copy()
db_books_df.rename(columns={'title': 'name', 'authors': 'author'}, inplace=True)
db_books_df['author'] = db_books_df['author'].apply(lambda x: ','.join(x) if isinstance(x, list) else '')
# 부족한 데이터는 빈 값(placeholder)으로 채웁니다.
db_books_df['ISBN'] = ''
db_books_df['publisher'] = ''
db_books_df['created_at'] = '1900-01-01' # 임의의 기본 날짜
db_books_df['ai_summary'] = ''
db_books_df['cover_img'] = ''
db_books_df['reward'] = ''

print("\n3. `movies` 및 `books` 테이블용 데이터 생성 완료.")
print("Movies DB Data Sample:")
print(db_movies_df.head())
print("\nBooks DB Data Sample:")
print(db_books_df.head())


# --- 6.4 `db_ratings.csv` 생성 ---
db_ratings_df = final_ratings_df.copy()
print("\n4. `ratings` 테이블용 데이터 준비 완료.")


# --- 6.5 모든 DB용 데이터 파일로 저장 ---
db_works_df.to_csv("db_works.csv", index=False, encoding='utf-8-sig')
db_genres_df.to_csv("db_genres.csv", index=False, encoding='utf-8-sig')
db_work_genre_df.to_csv("db_work_genre.csv", index=False, encoding='utf-8-sig')
db_movies_df.to_csv("db_movies.csv", index=False, encoding='utf-8-sig')
db_books_df.to_csv("db_books.csv", index=False, encoding='utf-8-sig')
db_ratings_df.to_csv("db_ratings.csv", index=False, encoding='utf-8-sig')

print("\n" + "="*78)
print("상세 ERD에 맞춘 DB Seeding용 파일 저장이 완료되었습니다.")
print("- db_works.csv, db_genres.csv, db_work_genre.csv, db_movies.csv, db_books.csv, db_ratings.csv")


Step 6 (Revised): 상세 ERD 구조에 맞춰 DB에 입력할 데이터 파일들을 생성합니다.
1. `genres` 및 `work_genre` 테이블용 데이터 생성 완료.

2. `works` 테이블용 데이터 생성 완료.
   work_id   type  rating
0        1  movie    3.92
1        2  movie    3.43
2        3  movie    3.26
3        4  movie    2.36
4        5  movie    3.07

3. `movies` 및 `books` 테이블용 데이터 생성 완료.
Movies DB Data Sample:
   work_id                         name  created_at director publisher  \
0        1                    toy story  1995-01-01                      
1        2                      jumanji  1995-01-01                      
2        3             grumpier old men  1995-01-01                      
3        4            waiting to exhale  1995-01-01                      
4        5  father of the bride part ii  1995-01-01                      

  ai_summary cover_img reward  
0                              
1                              
2                              
3                              
4                              

Books DB Data Sam

In [None]:
# -*- coding: utf-8 -*-
"""
R&R 프로젝트의 DB Seeding용 데이터를 완성하는 스크립트입니다.

[작업 순서]
1. 기존에 생성한 db_movies.csv와 db_books.csv 파일 로드
2. TMDB API를 사용하여 영화 데이터 보강 (감독, 포스터 이미지 등)
3. Open Library API를 사용하여 도서 데이터 보강 (ISBN, 출판사, 커버 이미지 등)
4. 최종적으로 완성된 CSV 파일 저장
"""

import pandas as pd
import requests
import time
from tqdm import tqdm

# ==============================================================================
# Step 1: 데이터 로드 및 API 키 설정
# ==============================================================================
print("Step 1: 기존 데이터 로드 및 API 키 설정을 시작합니다.")

# --- TMDB API 키를 여기에 입력하세요 ---
# 예: "eyJhbGciOiJI..."" 형태의 긴 문자열
TMDB_API_TOKEN = "eyJhbGciOiJIUzI1NiJ9.eyJhdWQiOiIyNTI3M2ZmZDljZGExZmQ1OTUyMjA0NWVmMjBkZjY2OCIsIm5iZiI6MTc1NTg0OTEyOS45OSwic3ViIjoiNjhhODIxYTk0NDE4ZDZhNTRjZjA3N2JkIiwic2NvcGVzIjpbImFwaV9yZWFkIl0sInZlcnNpb24iOjF9.4RPVKa-bkx8TTQlkumdsCnFdE0z8DgoJy2yw6xa-h30"

if TMDB_API_TOKEN == "여기에_TMDB_API_읽기_액세스_토큰을_입력하세요":
    print("⚠️ 경고: TMDB API 토큰을 입력해야 영화 데이터 보강을 진행할 수 있습니다.")

# 기존 데이터 파일 로드
try:
    db_movies_df = pd.read_csv("db_movies.csv")
    db_books_df = pd.read_csv("db_books.csv")
    print("데이터 파일 로드 완료.")
except FileNotFoundError:
    print("❌ 오류: db_movies.csv 또는 db_books.csv 파일이 없습니다. 이전 단계를 먼저 실행해주세요.")
    # 파일이 없으면 이후 코드 실행 중단
    exit()

# ==============================================================================
# Step 2: 영화 데이터 보강 (TMDB API)
# ==============================================================================
print("\nStep 2: TMDB API로 영화 데이터 보강을 시작합니다.")

headers = {
    "accept": "application/json",
    "Authorization": f"Bearer {TMDB_API_TOKEN}"
}

# tqdm을 사용하여 진행 상황 시각화
for index, row in tqdm(db_movies_df.iterrows(), total=db_movies_df.shape[0], desc="영화 정보 업데이트 중"):
    try:
        # 1. 영화 제목으로 검색
        search_url = f"https://api.themoviedb.org/3/search/movie?query={row['name']}&language=ko-KR&year={row['created_at'][:4]}"
        response = requests.get(search_url, headers=headers)
        search_results = response.json().get('results', [])

        if not search_results:
            continue

        movie_id = search_results[0]['id'] # 가장 유사한 첫 번째 결과 사용

        # 2. 영화 ID로 상세 정보 및 제작진 정보 조회
        details_url = f"https://api.themoviedb.org/3/movie/{movie_id}?language=ko-KR"
        credits_url = f"https://api.themoviedb.org/3/movie/{movie_id}/credits?language=ko-KR"

        details_res = requests.get(details_url, headers=headers).json()
        credits_res = requests.get(credits_url, headers=headers).json()

        # 감독 정보 추출
        director = next((person['name'] for person in credits_res.get('crew', []) if person['job'] == 'Director'), '')
        # 배급사 정보 추출 (가장 대표적인 하나)
        publisher = details_res.get('production_companies', [{}])[0].get('name', '') if details_res.get('production_companies') else ''
        # 포스터 이미지 URL 추출
        poster_path = details_res.get('poster_path', '')
        cover_img = f"https://image.tmdb.org/t/p/w500{poster_path}" if poster_path else ''

        # 데이터프레임에 업데이트
        db_movies_df.at[index, 'director'] = director
        db_movies_df.at[index, 'publisher'] = publisher
        db_movies_df.at[index, 'cover_img'] = cover_img

        # API 과부하 방지를 위한 약간의 딜레이
        time.sleep(0.1)

    except Exception as e:
        print(f"Error processing movie '{row['name']}': {e}")
        continue

print("영화 데이터 보강 완료.")


# ==============================================================================
# Step 3: 도서 데이터 보강 (Open Library API)
# ==============================================================================
print("\nStep 3: Open Library API로 도서 데이터 보강을 시작합니다.")

for index, row in tqdm(db_books_df.iterrows(), total=db_books_df.shape[0], desc="도서 정보 업데이트 중"):
    try:
        # Open Library는 저자 ID로 검색하는 것이 더 정확함
        author_id = row['author'].split(',')[0] # 대표 저자 1명의 ID 사용
        if not author_id:
            continue

        # 저자의 작품 목록 API 조회
        author_works_url = f"https://openlibrary.org/authors/{author_id}/works.json?limit=200"
        response = requests.get(author_works_url)
        works_data = response.json().get('entries', [])

        # 책 제목이 일치하는 작품 찾기
        target_work = next((work for work in works_data if work['title'].lower() == row['name'].lower()), None)

        if not target_work:
            continue

        work_key = target_work.get('key')
        if not work_key:
            continue

        # 작품 키로 상세 정보 조회
        work_details_url = f"https://openlibrary.org{work_key}.json"
        details_res = requests.get(work_details_url).json()

        # ISBN, 출판사, 출판일, 커버 이미지 추출
        isbn = details_res.get('isbn_13', [details_res.get('isbn_10', [''])])[0]
        publisher = details_res.get('publishers', [''])[0]
        publish_date = details_res.get('first_publish_date', '1900-01-01')
        cover_id = details_res.get('covers', [None])[0]
        cover_img = f"https://covers.openlibrary.org/b/id/{cover_id}-L.jpg" if cover_id else ''

        # 데이터프레임에 업데이트
        db_books_df.at[index, 'ISBN'] = isbn
        db_books_df.at[index, 'publisher'] = publisher
        db_books_df.at[index, 'created_at'] = publish_date
        db_books_df.at[index, 'cover_img'] = cover_img

        time.sleep(0.1)

    except Exception as e:
        print(f"Error processing book '{row['name']}': {e}")
        continue

print("도서 데이터 보강 완료.")


# ==============================================================================
# Step 4: 최종 파일 저장
# ==============================================================================
print("\nStep 4: 보강 완료된 최종 데이터 파일을 저장합니다.")

# 최종 파일 이름에 '_final' 접미사 추가
db_movies_df.to_csv("db_movies_final.csv", index=False, encoding='utf-8-sig')
db_books_df.to_csv("db_books_final.csv", index=False, encoding='utf-8-sig')

print("\n🎉 모든 데이터 보강 및 저장이 완료되었습니다!")
print("이제 아래 파일들을 동료에게 전달하여 DB 시딩을 진행하세요:")
print("- db_works.csv")
print("- db_genres.csv")
print("- db_work_genre.csv")
print("- db_ratings.csv")
print("- db_movies_final.csv (보강 완료)")
print("- db_books_final.csv (보강 완료)")

Step 1: 기존 데이터 로드 및 API 키 설정을 시작합니다.
⚠️ 경고: TMDB API 토큰을 입력해야 영화 데이터 보강을 진행할 수 있습니다.
데이터 파일 로드 완료.

Step 2: TMDB API로 영화 데이터 보강을 시작합니다.


  db_movies_df.at[index, 'director'] = director
  db_movies_df.at[index, 'publisher'] = publisher
  db_movies_df.at[index, 'cover_img'] = cover_img
영화 정보 업데이트 중: 100%|██████████| 9708/9708 [57:28<00:00,  2.82it/s]


영화 데이터 보강 완료.

Step 3: Open Library API로 도서 데이터 보강을 시작합니다.


  db_books_df.at[index, 'ISBN'] = isbn
  db_books_df.at[index, 'publisher'] = publisher
  db_books_df.at[index, 'cover_img'] = cover_img
도서 정보 업데이트 중:  16%|█▌        | 3233/20092 [32:12<3:04:39,  1.52it/s]

Error processing book 'the fountainhead series': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  16%|█▌        | 3241/20092 [32:17<3:54:39,  1.20it/s]

Error processing book 'one nation under god': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  16%|█▌        | 3254/20092 [32:26<3:10:48,  1.47it/s]

Error processing book 'ngi chi huy nguyen chn': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  16%|█▌        | 3256/20092 [32:26<2:07:40,  2.20it/s]

Error processing book 'the sesame street treasury': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  16%|█▌        | 3258/20092 [32:27<1:40:44,  2.78it/s]

Error processing book 'breakfast with god': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  17%|█▋        | 3516/20092 [35:16<2:32:32,  1.81it/s]

Error processing book 'la mouche du coche': 'float' object has no attribute 'split'
Error processing book 'les abeilles de la seine': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  18%|█▊        | 3629/20092 [36:23<2:23:07,  1.92it/s]

Error processing book '100 figures que fan naci que cal conixer': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  18%|█▊        | 3635/20092 [36:26<2:29:26,  1.84it/s]

Error processing book 'fenians are coming': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  18%|█▊        | 3650/20092 [36:34<2:04:05,  2.21it/s]

Error processing book 'biographie de lhon louis archambault ministre de lagriculture et commissaire des t p pour qubec': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  19%|█▉        | 3816/20092 [38:10<2:13:55,  2.03it/s]

Error processing book 'baa surauliyin siricodun jokiyalud': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  19%|█▉        | 3819/20092 [38:12<2:16:41,  1.98it/s]

Error processing book 'walt disneys the jungle book': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  19%|█▉        | 3837/20092 [38:24<2:59:18,  1.51it/s]

Error processing book 'report of the commissioner of patents for the year 1859': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  19%|█▉        | 3842/20092 [38:28<3:22:12,  1.34it/s]

Error processing book 'famous writers course': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  19%|█▉        | 3862/20092 [38:40<3:00:43,  1.50it/s]

Error processing book 'o carneiro o pato e o gallo fabula em frma de dialogo ou viagem que fizera pelos ares estes animaes na mchina aerostatica de montgolfier c c': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  19%|█▉        | 3865/20092 [38:41<2:27:07,  1.84it/s]

Error processing book 'obrazy wszystkiego': 'title'


도서 정보 업데이트 중:  19%|█▉        | 3888/20092 [38:52<1:55:00,  2.35it/s]

Error processing book 'akita sosho besshu': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  19%|█▉        | 3899/20092 [38:59<2:48:57,  1.60it/s]

Error processing book 'revolution vue de 1800': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  20%|█▉        | 3951/20092 [39:33<3:06:06,  1.45it/s]

Error processing book 'vjesnik staroslavenske akademije u krku': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  20%|██        | 4030/20092 [40:22<3:21:00,  1.33it/s]

Error processing book 'sanghacintana': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  21%|██        | 4137/20092 [41:24<2:10:40,  2.03it/s]

Error processing book 'taming a wilderness': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  21%|██        | 4155/20092 [41:33<2:08:32,  2.07it/s]

Error processing book 'mlanges de philologie et dhistoire offerts  m antoine thomas par ses lves et ses amis': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  21%|██        | 4263/20092 [42:43<4:12:57,  1.04it/s]

Error processing book 'histoire abrg de la vie de ns jsuschrist o sont contenus ses principales actions': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  21%|██        | 4265/20092 [42:44<2:32:59,  1.72it/s]

Error processing book 'gents magazine': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  22%|██▏       | 4440/20092 [44:25<3:38:19,  1.19it/s]

Error processing book 'language policy development in colonial ceylon': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  22%|██▏       | 4457/20092 [44:36<3:18:58,  1.31it/s]

Error processing book 'understanding crime': 'float' object has no attribute 'split'


도서 정보 업데이트 중:  22%|██▏       | 4467/20092 [44:41<2:36:20,  1.67it/s]


KeyboardInterrupt: 

In [None]:
# 현재 Colab 메모리에 있는 보강 완료된 영화 데이터프레임을 파일로 저장합니다.
# 이 셀을 실행하기 전에 이전 코드 실행을 '중지'했는지 확인해주세요.

try:
    db_movies_df.to_csv("db_movies_final.csv", index=False, encoding='utf-8-sig')
    print("🎉 성공: 보강 완료된 영화 데이터가 'db_movies_final.csv' 파일로 저장되었습니다.")
except NameError:
    print("❌ 오류: 'db_movies_df'가 메모리에 없습니다. 이전 데이터 보강 코드 실행이 중단된 것 같습니다.")
    print("이 경우, 아래 '2. 도서 데이터 보강 스크립트 실행' 단계만 진행하셔도 괜찮습니다.")

🎉 성공: 보강 완료된 영화 데이터가 'db_movies_final.csv' 파일로 저장되었습니다.


In [None]:
# -*- coding: utf-8 -*-
"""
R&R 프로젝트의 도서 DB 데이터를 최종 완성하는 스크립트입니다.

[수정 및 개선 사항]
1. 저자 ID를 실제 저자 이름으로 변환하는 기능 추가
2. 'float' object has no attribute 'split' 오류 원천 방지
3. FutureWarning 경고 메시지 제거
4. [오류 수정] API 응답에 'title' 키가 없는 경우를 처리하여 KeyError 방지
"""

import pandas as pd
import requests
import time
from tqdm import tqdm

# ==============================================================================
# Step 1: 도서 데이터 로드
# ==============================================================================
print("Step 1: 기존 도서 데이터를 로드합니다.")

try:
    db_books_df = pd.read_csv("db_books.csv")
    print("db_books.csv 파일 로드 완료.")
except FileNotFoundError:
    print("❌ 오류: db_books.csv 파일이 없습니다. Colab에 파일을 업로드해주세요.")
    exit()

# FutureWarning 방지를 위해 컬럼 타입을 미리 object로 변경
for col in ['author', 'ISBN', 'publisher', 'cover_img']:
    if col in db_books_df.columns:
        db_books_df[col] = db_books_df[col].astype('object')

# ==============================================================================
# Step 2: Open Library API로 도서 데이터 최종 보강
# ==============================================================================
print("\nStep 2: Open Library API로 도서 데이터 보강을 시작합니다.")

for index, row in tqdm(db_books_df.iterrows(), total=db_books_df.shape[0], desc="도서 정보 업데이트 중"):
    try:
        author_ids_str = row['author']
        if not isinstance(author_ids_str, str) or not author_ids_str:
            continue

        author_id = author_ids_str.split(',')[0]

        author_details_url = f"https://openlibrary.org/authors/{author_id}.json"
        author_res = requests.get(author_details_url).json()
        author_name = author_res.get('name', author_res.get('personal_name', 'Unknown'))
        db_books_df.at[index, 'author'] = author_name

        author_works_url = f"https://openlibrary.org/authors/{author_id}/works.json?limit=200"
        works_data = requests.get(author_works_url).json().get('entries', [])

        # [오류 수정] work.get('title', '')을 사용하여 'title' 키가 없는 경우에도 안전하게 처리
        target_work = next((work for work in works_data if work.get('title', '').lower() == row['name'].lower()), None)

        if not target_work or not target_work.get('key'):
            continue

        work_details_url = f"https://openlibrary.org{target_work['key']}.json"
        details_res = requests.get(work_details_url).json()

        isbn = details_res.get('isbn_13', [details_res.get('isbn_10', [''])])[0]
        publisher = details_res.get('publishers', [''])[0]
        publish_date = details_res.get('first_publish_date', '1900-01-01')
        cover_id = details_res.get('covers', [None])[0]
        cover_img = f"https://covers.openlibrary.org/b/id/{cover_id}-L.jpg" if cover_id else ''

        db_books_df.at[index, 'ISBN'] = isbn
        db_books_df.at[index, 'publisher'] = publisher
        db_books_df.at[index, 'created_at'] = publish_date
        db_books_df.at[index, 'cover_img'] = cover_img

        time.sleep(0.1)

    except Exception as e:
        print(f"Error processing book '{row['name']}': {e}")
        continue

print("도서 데이터 보강 완료.")

# ==============================================================================
# Step 3: 최종 파일 저장
# ==============================================================================
print("\nStep 3: 보강 완료된 최종 도서 데이터 파일을 저장합니다.")

db_books_df.to_csv("db_books_final.csv", index=False, encoding='utf-8-sig')

print("\n🎉 모든 도서 데이터 보강 및 저장이 완료되었습니다!")
print("이제 'db_books_final.csv' 파일을 동료에게 전달할 수 있습니다.")


Step 1: 기존 도서 데이터를 로드합니다.
db_books.csv 파일 로드 완료.

Step 2: Open Library API로 도서 데이터 보강을 시작합니다.


도서 정보 업데이트 중:  47%|████▋     | 9413/20092 [2:17:14<10:09:26,  3.42s/it]

Error processing book 'kismet': Expecting value: line 3 column 1 (char 2)


도서 정보 업데이트 중:  53%|█████▎    | 10675/20092 [2:40:58<10:04:20,  3.85s/it]

Error processing book 'english humour for beginners': Expecting value: line 3 column 1 (char 2)


도서 정보 업데이트 중: 100%|██████████| 20092/20092 [5:02:04<00:00,  1.11it/s]


도서 데이터 보강 완료.

Step 3: 보강 완료된 최종 도서 데이터 파일을 저장합니다.

🎉 모든 도서 데이터 보강 및 저장이 완료되었습니다!
이제 'db_books_final.csv' 파일을 동료에게 전달할 수 있습니다.


In [11]:
db_books_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20092 entries, 0 to 20091
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   work_id     20092 non-null  int64  
 1   name        20092 non-null  object 
 2   author      19337 non-null  object 
 3   ISBN        11083 non-null  object 
 4   publisher   11083 non-null  object 
 5   created_at  20092 non-null  object 
 6   ai_summary  0 non-null      float64
 7   cover_img   11083 non-null  object 
 8   reward      0 non-null      float64
dtypes: float64(2), int64(1), object(6)
memory usage: 1.4+ MB


In [10]:
db_books_df.to_csv("db_books_final.csv", index=False, encoding='utf-8-sig')

In [12]:
db_books_df

Unnamed: 0,work_id,name,author,ISBN,publisher,created_at,ai_summary,cover_img,reward
0,193610,la verdad bajo la tierra,Miquel Dewever-Plana,[],,1900-01-01,,https://covers.openlibrary.org/b/id/3335594-L.jpg,
1,193611,linvention des syndicalismes,Boll Plost,,,1900-01-01,,,
2,193612,la fugue a bruxelles,R. Maurice,[],,1900-01-01,,https://covers.openlibrary.org/b/id/3150889-L.jpg,
3,193613,europe de lextrme droite,Duranton Cabrol,,,1900-01-01,,,
4,193614,die softly,Christopher Pike,[],,1900-01-01,,,
...,...,...,...,...,...,...,...,...,...
20087,213697,playing the game of drones,Melissa Aho,[],,1900-01-01,,,
20088,213698,moment youre in,Kaitlynn Mika,,,1900-01-01,,,
20089,213699,hodoiporia elpidas,Seminario Koinōnikou kai Philosophikou Provle...,[],,1992,,,
20090,213700,spate reichspublizistik und fruhkonstitutional...,Wilfried Peters,,,1900-01-01,,,
