# **데이터셋 만들기**

In [None]:
CATEGORY_IDS = [
    "34582", "55890", "170", "987", "4395", "8257", "2551", "798",
    "1", "1383", "1108", "55889", "1196", "74", "517", "1322", "1230",
    "13789", "656", "336", "2913", "112011", "17195", "1237", "2030", "1137",
    "351", "50246", "76000", "76001"

]

In [None]:
import requests
import pandas as pd

# 알라딘 API 설정
API_KEY = "TTB_API_KEY"  # 여기에 알라딘 API 키 입력
BASE_URL = "https://www.aladin.co.kr/ttb/api/ItemList.aspx"

# CATEGORY_IDS 리스트
CATEGORY_IDS = [
    "34582", "55890", "170", "987", "4395", "8257", "2551", "798",
    "1", "1383", "1108", "55889", "1196", "74", "517", "1322", "1230",
    "13789", "656", "336", "2913", "112011", "17195", "1237", "2030", "1137",
    "351", "50246", "76000", "76001"
]

# 각 카테고리 데이터를 저장할 리스트
data = []

# 각 카테고리 ID를 기준으로 API 호출
for category_id in CATEGORY_IDS:
    params = {
        "ttbkey": API_KEY,
        "QueryType": "ItemList",
        "MaxResults": 10,  # 테스트를 위해 최대 결과 수를 10으로 제한
        "start": 1,
        "SearchTarget": "Book",
        "CategoryId": category_id,
        "Output": "js",
        "Version": "20131101",
    }

    try:
        response = requests.get(BASE_URL, params=params)
        response.raise_for_status()
        items = response.json().get("item", [])

        for item in items:
            data.append({
                "CategoryId": category_id,
                "Title": item.get("title"),
                "Author": item.get("author"),
                "Publisher": item.get("publisher"),
                "Price": item.get("priceStandard"),
                "PubDate": item.get("pubDate"),
                "Link": item.get("link"),
            })
    except requests.exceptions.RequestException as e:
        print(f"Error fetching data for CategoryId {category_id}: {e}")

# 데이터를 데이터프레임으로 변환
df = pd.DataFrame(data)

# 데이터프레임 확인
df.head()


In [None]:
df_books.head(3)

In [None]:
CATEGORY_NAMES = {
    "34582": "공무원 수험서",
    "55890": "건강/취미",
    "170": "경제/경영",
    "987": "과학",
    "4395": "달력/기타",
    "8257": "대학교제/전문서적",
    "2551": "만화",
    "798": "사회과학",
    "1": "소설/시/희곡",
    "1383": "수험서/자격증",
    "1108": "어린이",
    "55889": "에세이",
    "1196": "여행",
    "74": "역사",
    "517": "예술/대중문화",
    "1322": "외국어",
    "1230": "요리/살림",
    "13789": "유아",
    "656": "인문학",
    "336": "자기개발",
    "2913": "잡지",
    "112011": "장르소설",
    "17195": "전집/중고전집",
    "1237": "종교/역학",
    "2030": "좋은부모",
    "1137": "청소년",
    "351": "컴퓨터/모바일",
    "50246": "초등참고서",
    "76000": "중학교참고서",
    "76001": "고등학교참고서"
}

In [None]:
# CATEGORY_NAMES 사전을 사용하여 df_books에 'category_name' 열 추가
df_books['category_name'] = df_books['category_id'].map(CATEGORY_NAMES)

# 확인
print(df_books.head())

In [None]:
# book_id 추가: 1부터 시작하는 고유 ID 생성
df_books['book_id'] = range(1, len(df_books) + 1)

# 결과 확인
print(df_books.head())

In [None]:
# 필요한 열만 남기고 나머지 열 제거
df_books = df_books[['title', 'category_name', 'description', 'book_id']]

# 결과 확인
print(df_books.head())

In [None]:
# CSV 파일로 저장
file_name = "books.csv"
df_books.to_csv(file_name, index=False, encoding='utf-8-sig')  # utf-8-sig로 저장하면 Excel에서 한글이 깨지지 않음
print(f"'{file_name}' 파일이 저장되었습니다.")

# **데이터 전처리**

In [None]:
#카테고리 분포 확인
category_counts = df_books['category_name'].value_counts()
category_counts

In [None]:
# description 컬럼의 Null 값 처리
null_description_count = df_books['description'].isnull().sum()
null_description_count

In [None]:
# 중복 확인
duplicate_titles = df_books.duplicated(subset='title').sum()
duplicate_book_ids = df_books.duplicated(subset='book_id').sum()

In [None]:
duplicate_titles

In [None]:
duplicate_book_ids

In [None]:
# title 컬럼 기준으로 중복 제거
df_books_deduplicated = df_books.drop_duplicates(subset='title', keep='first')

# 중복 제거 후 데이터 개수 확인
print(f"중복 제거 전: {len(df_books)}, 중복 제거 후: {len(df_books_deduplicated)}")