# KMDB API
- 호출 제한 횟수: 일일 100회
- [KMDB API 요청인자 및 출력값](https://www.kmdb.or.kr/info/api/apiDetail/6)

<br>

[참고]  
- https://velog.io/@ohy9205/project-Movyes-%EC%98%81%ED%99%94-%EC%BB%A4%EB%AE%A4%EB%8B%88%ED%8B%B0-React-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EC%98%81%ED%99%94-%EC%A0%95%EB%B3%B4
- https://velog.io/@usreon/KMDb-open-api%EB%A5%BC-%EC%82%AC%EC%9A%A9%ED%95%98%EC%97%AC-%EA%B2%80%EC%83%89%EA%B8%B0%EB%8A%A5-%EA%B5%AC%ED%98%84%ED%95%98%EA%B8%B0

In [2]:
import requests
import pandas as pd
import os
from dotenv import load_dotenv


# 경고 메시지 출력 X
import warnings
warnings.filterwarnings("ignore")

In [3]:
# .env 파일에서 KMDB API Key 가져오기
load_dotenv()
KMDB_API_KEY = os.environ.get('API_KEY_KMDB')

url = 'http://api.koreafilm.or.kr/openapi-data2/wisenut/search_api/search_json2.jsp'

In [37]:
# 데이터 가져오기
df = pd.read_csv('../data/상현전처리_1100.csv', encoding='utf8')
df.head()

Unnamed: 0,name2
0,세계에서 제일 강해지고 싶어 10화
1,세계에서 제일 강해지고 싶어 11화
2,세계에서 제일 강해지고 싶어 12화
3,세계에서 제일 강해지고 싶어 1화
4,세계에서 제일 강해지고 싶어 2화


In [38]:
def get_movie_details(title):
    params = {
        'ServiceKey': KMDB_API_KEY,
        "listCount": 10,            # 최대 50개의 결과
        'collection': 'kmdb_new2',
        'detail': 'Y',
        'title': title
    }
    response = requests.get(url, params=params)

    if response.status_code == 200:
        data = response.json()

        if "Data" in data and data["Data"]:
            results = data["Data"][0].get("Result", [])
            movies = []
            for movie_info in results:
                print(movie_info)
                movies.append({
                    "name": movie_info.get("title", ""),
                    "movie_id_kmdb": movie_info.get("movieSeq", ""),
                    "original_title": movie_info.get("titleOrg", ""),
                    "orgnl_cntry": movie_info.get("nation", ""),
                    "release_year": movie_info.get("prodYear", ""),
                    "overview": movie_info.get("plots", {}).get("plot", [{}])[0].get("plotText", ""),
                    "runtime": movie_info.get("runtime", ""),
                    "genre": movie_info.get("genre", ""),
                    "release_date": movie_info.get("releaseDate", ""),
                    "대표개봉일": movie_info.get("repRlsDate", ""),
                    "poster_path": movie_info.get("posters", "").split("|")[0] if "posters" in movie_info else "",
                    "backdrop-path": movie_info.get("stlls", "").split("|")[0] if "stlls" in movie_info else "",
                    "매출액": movie_info.get("salesAcc", "")
                })
            return movies
    return []

In [39]:
# 결과 저장
all_movies = []
for title in df['name2']:
    all_movies.extend(get_movie_details(title))

{'DOCID': 'F03310', 'movieId': 'F', 'movieSeq': '03310', 'title': '  !HS 세뇨라 !HE  로라', 'titleEng': 'LOLA', 'titleOrg': 'LOLA', 'titleEtc': '세뇨라로라^세뇨라 로라^LOLA^세뇨라로라^LOLA^LOLA', 'prodYear': '1986', 'directors': {'director': [{'directorNm': '비가스 루나', 'directorEnNm': 'Bigas Luna', 'directorId': '00058273'}]}, 'actors': {'actor': [{'actorNm': '안젤라 몰리나', 'actorEnNm': 'Angela Molina', 'actorId': '00049057'}, {'actorNm': '파트릭 보쇼', 'actorEnNm': 'Patrick Bauchau', 'actorId': '00107294'}, {'actorNm': '페오도르 아킨', 'actorEnNm': 'Feodor Atkine', 'actorId': '00071216'}, {'actorNm': '아슘타 세나', 'actorEnNm': 'Assumpta Serna', 'actorId': '00056823'}, {'actorNm': '카르멘 산사', 'actorEnNm': 'Carmen Sansa', 'actorId': '00060754'}, {'actorNm': '페파 로페즈', 'actorEnNm': 'Pepa Lopez', 'actorId': '00134254'}, {'actorNm': '칸스턴티노 로메로', 'actorEnNm': 'Constantino Romero', 'actorId': '00063797'}, {'actorNm': '블랑카 구티에레즈', 'actorEnNm': 'Blanca Gutierrez', 'actorId': '00058718'}, {'actorNm': '마르타 알미랄', 'actorEnNm': 'Marta Almira

In [40]:
from_kmdb = pd.DataFrame(all_movies)
from_kmdb

In [43]:
from_kmdb.to_csv("상현kmdb.csv", index=False, encoding='utf8')

<br><hr>

## 분량 나누기

In [3]:
df = pd.read_csv("../data/kmdb_개인/개별전처리_전/나머지_4347.csv", encoding='utf8')
df.shape

(4347, 1)

In [4]:
df1 = df[:1098]
df2 = df[1098:2200]
df3 = df[2200:3300]
df4 = df[3300:]

print(df1.shape)
print(df2.shape)
print(df3.shape)
print(df4.shape)

(1098, 1)
(1102, 1)
(1100, 1)
(1047, 1)


In [None]:
df1.to_csv("../data/kmdb_개인/개별전처리_전/민주전처리_1098.csv", encoding='utf8', index=False)
df2.to_csv("../data/kmdb_개인/개별전처리_전/보리전처리_1102.csv", encoding='utf8', index=False)
df3.to_csv("../data/kmdb_개인/개별전처리_전/상현전처리_1100.csv", encoding='utf8', index=False)
df4.to_csv("../data/kmdb_개인/개별전처리_전/지우전처리_1047.csv", encoding='utf8', index=False)

<br><hr>

## KMDB 제목 전처리

In [2]:
df1 = pd.read_csv('../data/kmdb_개인/개별전처리_전/민주kmdb.csv', encoding='utf8')
df2 = pd.read_csv('../data/kmdb_개인/개별전처리_전/보리kmdb.csv', encoding='utf8')
df3 = pd.read_csv('../data/kmdb_개인/개별전처리_전/상현kmdb.csv', encoding='utf8')
df4 = pd.read_csv('../data/kmdb_개인/개별전처리_전/지우kmdb.csv', encoding='utf8')

In [3]:
def clean_title(title):
    # !HS를 빈 문자열로 대체
    title = title.replace("!HS", "")
    # !HE를 빈 문자열로 대체
    title = title.replace("!HE", "")
    # 앞뒤 공백 제거
    title = title.strip()
    # 여러 개의 공백을 하나의 공백으로 대체
    title = " ".join(title.split())
    return title

In [17]:
df1['name'] = df1['name'].apply(clean_title)
df2['name'] = df2['name'].apply(clean_title)
df3['name'] = df3['name'].apply(clean_title)
df4['name'] = df4['name'].apply(clean_title)

In [18]:
print(df1.shape)
print(df2.shape)
print(df3.shape)
print(df4.shape)

(1323, 13)


name                 0
movie_id_kmdb        0
original_title     587
orgnl_cntry         25
release_year        19
overview           152
runtime            104
genre               72
release_date      1323
대표개봉일              721
poster_path        674
backdrop-path      803
매출액               1263
dtype: int64

In [23]:
df1.to_csv('../data/kmdb_개인/개별전처리_전/민주kmdb_전처리.csv', encoding='utf8', index=False)
df2.to_csv('../data/kmdb_개인/개별전처리_전/보리kmdb_전처리.csv', encoding='utf8', index=False)
df3.to_csv('../data/kmdb_개인/개별전처리_전/상현kmdb_전처리.csv', encoding='utf8', index=False)
df4.to_csv('../data/kmdb_개인/개별전처리_전/지우kmdb_전처리.csv', encoding='utf8', index=False)

<br><hr>

## 전처리 후

In [22]:
movies2_kmdb = pd.read_csv('../data/kmdb_개인/보리kmdb_전처리후.csv', encoding='utf8')
movies2_title = pd.read_csv('../data/kmdb_개인/보리제목_1102_전처리후.csv', encoding='utf8')

print(movies2_kmdb.shape)
print(movies2_title.shape)

(739, 13)
(586, 1)


#### *제목이 다른 영화가 있는지 먼저 확인*

In [23]:
# 'name2'에 있는 제목이 'name'에 없는 경우 필터링
check_titles = movies2_title[~movies2_title["name2"].isin(movies2_kmdb["name"])]
check_titles

Unnamed: 0,name2


#### *제목이 중복되는 데이터 / 중복이 아닌 데이터 분리*

In [24]:
# 텍스트 파일에서 영화 제목을 읽어오는 함수
def read_titles_from_txt(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        titles = [line.strip() for line in f.readlines()]
    return titles

In [28]:
# 이름중복.txt 파일로부터 영화 제목 리스트 읽어오기
txt_file_path = "../data/kmdb_개인/전처리과정txt/보리_이름중복행.txt"  # 파일 경로 설정
titles_from_txt = read_titles_from_txt(txt_file_path)
len(titles_from_txt)

# 중복되는 영화 제목 82개

82

In [29]:
# 전처리된 kmdb 데이터프레임에서 동일한 영화 제목 제외
df_no_overlap = movies2_kmdb[~movies2_kmdb["name"].isin(titles_from_txt)]
df_no_overlap.shape

(531, 13)

*(739, 13) >> (531, 13): 208개의 영화가 중복된 이름을 가짐*

In [31]:
# 전처리된 kmdb 데이터프레임에서 중복이 있는 영화만 저장
df_yes_overlap = movies2_kmdb[movies2_kmdb["name"].isin(titles_from_txt)]
df_yes_overlap.shape

(208, 13)

In [33]:
# csv로 저장
df_no_overlap.to_csv('../data/kmdb_개인/보리kmdb_전처리후_중복없음.csv', encoding='utf8', index=False)
df_yes_overlap.to_csv('../data/kmdb_개인/보리kmdb_전처리후_중복영화만.csv', encoding='utf8', index=False)

<br><hr>

## JW 전처리 후 데이터 확인

In [21]:
jw_title = pd.read_csv('../data/kmdb_개인/지우제목_전처리후.csv', encoding='utf8')
jw_kmdb = pd.read_csv('../data/kmdb_개인/지우kmdb_전처리후.csv', encoding='utf8')

print(jw_title.shape)
print(jw_kmdb.shape)

(475, 1)
(594, 13)


In [22]:
# 제목이 다른 영화 확인
check_titles = jw_title[~jw_title["name2"].isin(jw_kmdb["name"])]
check_titles

Unnamed: 0,name2


#### *제목이 중복되는 데이터 / 중복이 아닌 데이터 분리*

In [24]:
# 이름중복.txt 파일로부터 영화 제목 리스트 읽어오기
txt_file_path = "../data/kmdb_개인/전처리과정txt/지우_이름중복행.txt"  # 파일 경로 설정
titles_from_txt = read_titles_from_txt(txt_file_path)
len(titles_from_txt)

# 중복되는 영화 제목 46개

46

In [25]:
# 전처리된 kmdb 데이터프레임에서 동일한 영화 제목 제외
jw_no_overlap = jw_kmdb[~jw_kmdb["name"].isin(titles_from_txt)]
jw_no_overlap.shape

(476, 13)

In [26]:
# 전처리된 kmdb 데이터프레임에서 중복이 있는 영화만 저장
jw_yes_overlap = jw_kmdb[jw_kmdb["name"].isin(titles_from_txt)]
jw_yes_overlap.shape

(118, 13)

In [27]:
# csv로 저장
jw_no_overlap.to_csv('../data/kmdb_개인/지우kmdb_전처리후_중복없음.csv', encoding='utf8', index=False)
jw_yes_overlap.to_csv('../data/kmdb_개인/지우kmdb_전처리후_중복영화만.csv', encoding='utf8', index=False)

<br><hr>

## MJ 전처리 후 데이터 확인

In [51]:
mj_title = pd.read_csv('../data/kmdb_개인/민주제목_전처리후.csv', encoding='utf8')
mj_kmdb = pd.read_csv('../data/kmdb_개인/민주kmdb_전처리후.csv', encoding='utf8')

print(mj_title.shape)
print(mj_kmdb.shape)

(844, 3)
(532, 13)


In [52]:
mj_title.drop(["col1", 'col2'], axis=1, inplace=True)

In [53]:
# 제목이 다른 영화 확인
check_titles = mj_kmdb[~mj_kmdb["name"].isin(mj_title["name2"])]
check_titles # >> 삭제한 거

Unnamed: 0,name,movie_id_kmdb,original_title,orgnl_cntry,release_year,overview,runtime,genre,release_date,대표개봉일,poster_path,backdrop-path,매출액


In [56]:
# 중복된 행 찾기
value_counts = mj_kmdb['name'].value_counts()
# 개수가 2 이상인 값 필터링
filtered_names = value_counts[value_counts >= 2].index.tolist()

In [58]:
# 전처리된 kmdb 데이터프레임에서 동일한 영화 제목 제외
mj_no_overlap = mj_kmdb[~mj_kmdb["name"].isin(filtered_names)]
mj_no_overlap.shape

(408, 13)

In [59]:
# 전처리된 kmdb 데이터프레임에서 중복이 있는 영화만 저장
mj_yes_overlap = mj_kmdb[mj_kmdb["name"].isin(filtered_names)]
mj_yes_overlap.shape

(124, 13)

In [63]:
# csv로 저장
mj_no_overlap.to_csv('../data/kmdb_개인/민주kmdb_전처리후_중복없음.csv', encoding='utf8', index=False)
mj_yes_overlap.to_csv('../data/kmdb_개인/민주kmdb_전처리후_중복영화만.csv', encoding='utf8', index=False)