In [4]:
import requests
import pandas as pd
from typing import List, Optional
from odmantic import AIOEngine, Model
from motor.motor_asyncio import AsyncIOMotorClient
import asyncio


# Odmantic 모델 정의
class Movie(Model):
    movie_id: int
    title: str
    original_title: Optional[str] = None
    overview: Optional[str] = None
    poster_path: Optional[str] = None
    original_country: List[str] = []
    genres: List[str] = []
    popularity: float 
    release_date: Optional[str] = None
    cast: Optional[List[dict]] = None
    director: Optional[dict] = None
    
# DETAIL 및 CREDIT API 호출 및 MongoDB 저장 함수
async def save_movie_to_db(movie_id: int):
    # MongoDB 연결 설정
    client = AsyncIOMotorClient("mongodb://root:team3@localhost:27017/")
    engine = AIOEngine(client=client, database="movies_db")

    # 기존 데이터 확인
    existing_movie = await engine.find_one(Movie, Movie.movie_id == movie_id)
    if existing_movie:
        print(f"영화 '{existing_movie.title}'는 이미 DB에 존재합니다. (movie_id: {movie_id})")
        return

    # DETAIL API 호출
    detail_url = f"https://api.themoviedb.org/3/movie/{movie_id}?language=ko-KR"
    headers = {
        "accept": "application/json",
        "Authorization": "Bearer eyJhbGciOiJIUzI1NiJ9.eyJhdWQiOiIyNmZlYzEwOGU3M2Y3YmVmNTkzYzM3N2RjMzdjYjcyZCIsIm5iZiI6MTczMjg2MjU3NC43Miwic3ViIjoiNjc0OTYyNmU0OTE5MDljMWI3OWRlY2VkIiwic2NvcGVzIjpbImFwaV9yZWFkIl0sInZlcnNpb24iOjF9.aumSeBsjfSdLck30QaMJjzeLi7ZZ4CMBOZS20p_AVdw"
    }
    detail_response = requests.get(detail_url, headers=headers)
    detail_data = detail_response.json()

    # CREDIT API 호출
    credit_url = f"https://api.themoviedb.org/3/movie/{movie_id}/credits?language=ko-KR"
    credit_response = requests.get(credit_url, headers=headers)
    credit_data = credit_response.json()

    # 데이터 정리
    genres = [genre["name"] for genre in detail_data.get("genres", [])]
    cast = sorted(
        [{"cast_id": c["cast_id"], "name": c["name"]} for c in credit_data.get("cast", [])],
        key=lambda x: x["cast_id"]
    )[:8]
    director = next(
        (
            {"id": crew["id"], "name": crew["name"]}
            for crew in credit_data.get("crew", [])
            if crew.get("job") == "Director"
        ),
        None
    )

    # MongoDB 저장
    movie = Movie(
        movie_id=detail_data["id"],
        title=detail_data.get("title"),
        original_title=detail_data.get("original_title"),
        overview=detail_data.get("overview"),
        poster_path=detail_data.get("poster_path"),
        original_country=detail_data.get("origin_country"),
        genres=genres,
        popularity=detail_data.get("popularity"),
        release_date=detail_data.get("release_date"),
        cast=cast,
        director=director,
    )
    await engine.save(movie)
    print(movie)
    print(f"영화 '{movie.title}'가 MongoDB에 저장되었습니다.")

In [5]:
import asyncio
import pandas as pd
from odmantic import AIOEngine
from motor.motor_asyncio import AsyncIOMotorClient


# MongoDB 연결 설정
client = AsyncIOMotorClient("mongodb://root:team3@localhost:27017/")
engine = AIOEngine(client=client, database="movies_db")


# 데이터 가져오기 함수
async def fetch_movies():
    movies = await engine.find(Movie)

    # 영화 정보를 저장할 리스트
    movie_data = []

    for movie in movies:
        # cast에서 name만 필터링
        filtered_cast_names = [c["name"] for c in movie.cast] if movie.cast else None
        
        # director에서 name만 필터링
        director_name = movie.director["name"] if movie.director else None

        # 영화 정보를 딕셔너리로 저장
        movie_data.append({
            "Title": movie.title,
            "Genres": movie.genres,
            "Cast Names": filtered_cast_names,
            "Director Name": director_name,
            "Country": movie.original_country
        })

    # DataFrame 생성
    df = pd.DataFrame(movie_data)
    return df

In [6]:
# Step 2: 사용자 입력으로 상세 정보 저장
import nest_asyncio
nest_asyncio.apply()

# 비동기 실행
movie = asyncio.run(fetch_movies())

In [11]:
movie

Unnamed: 0,Title,Genres,Cast Names,Director Name,Country
0,위대한 쇼맨,[드라마],"[휴 잭맨, 레베카 퍼거슨, 잭 에프론, 미셸 윌리엄스, 젠데이아, Fredric ...",마이클 그레이시,[US]
1,인생은 아름다워,"[음악, 드라마, 로맨스]","[류승룡, 염정아, 옹성우, 박세완, 염혜란, 박영규, 심달기, 전무송]",최국희,[KR]
2,극한직업,"[액션, 코미디, 범죄]","[류승룡, 이하늬, 진선규, 이동휘, 공명, 김의성, 신하균, 오정세]",이병헌,[KR]
3,어바웃 타임,"[드라마, 로맨스, 판타지]","[레이첼 맥아담스, 빌 나이, 도널 글리슨, 톰 홀랜더, 마고 로비, Lindsay...",리처드 커티스,[GB]
4,"그 시절, 우리가 좋아했던 소녀","[로맨스, 코미디]","[柯震東, 천옌시, 郝劭文, Owodog Chuang, 蔡昌憲, 侯彥西, 彎彎, K...",九把刀,[TW]
5,보헤미안 랩소디,"[음악, 드라마]","[벤 하디, Gwilym Lee, Joseph Mazzello, 루시 보인턴, 마이...",브라이언 싱어,"[US, GB]"
6,라라랜드,"[코미디, 드라마, 로맨스, 음악]","[라이언 고슬링, 엠마 스톤, Sandra Rosko, J.K. 시몬스, Finn ...",데이미언 셔젤,[US]
7,비긴 어게인,"[코미디, 음악, 로맨스, 드라마]","[애덤 리바인, 키이라 나이틀리, 마크 러팔로, 헤일리 스타인펠드, 캐서린 키너, ...",존 카니,[US]
8,인턴,[코미디],"[로버트 드 니로, 앤 해서웨이, Anders Holm, 르네 루소, 냇 울프, 애...",낸시 마이어스,[US]
9,말할 수 없는 비밀,"[판타지, 드라마, 스릴러]","[주걸륜, 계륜미, 황추생, Alice Tzeng, So Ming-Ming, Hua...",주걸륜,[TW]


In [16]:
all_genres = [genre for genres in movie["Genres"] for genre in genres]
genre_counts = pd.Series(all_genres).value_counts().reset_index()
genre_counts.columns = ["Genre", "Count"]

genre_counts = genre_counts[genre_counts['Count'] > 1]
genre_counts

Unnamed: 0,Genre,Count
0,드라마,7
1,로맨스,5
2,코미디,5
3,음악,4
4,판타지,2


In [7]:
import asyncio
import pandas as pd
from odmantic import AIOEngine
from motor.motor_asyncio import AsyncIOMotorClient


# MongoDB 연결 설정
client = AsyncIOMotorClient("mongodb://root:team3@localhost:27017/")
engine = AIOEngine(client=client, database="movies_db2")


# 데이터 가져오기 함수
async def fetch_movies():
    movies = await engine.find(Movie)

    # 영화 정보를 저장할 리스트
    movie_data = []

    for movie in movies:
        # cast에서 name만 필터링
        filtered_cast_names = [c["name"] for c in movie.cast] if movie.cast else None
        
        # director에서 name만 필터링
        director_name = movie.director["name"] if movie.director else None

        # 영화 정보를 딕셔너리로 저장
        movie_data.append({
            "Title": movie.title,
            "Genres": movie.genres,
            "Cast Names": filtered_cast_names,
            "Director Name": director_name,
            "Country": movie.original_country
        })

    # DataFrame 생성
    df = pd.DataFrame(movie_data)
    return df

# 비동기 실행
movie2 = asyncio.run(fetch_movies())

In [12]:
movie2

Unnamed: 0,Title,Genres,Cast Names,Director Name,Country
0,청설,"[로맨스, 드라마]","[Ivy Chen, 천옌시, 펑위옌, 林美秀, 羅北安]",Cheng Fenfen,[TW]
1,나의 소녀시대,"[로맨스, 코미디]","[송운화, 진교은, 왕대륙, Jerry Yan, Dewi Chien, 유덕화, Be...",Frankie Chen,"[TW, CN, HK]"
2,모노노케 히메,"[모험, 판타지, 애니메이션]","[松田洋治, 石田ゆり子, 다나카 유코, 코바야시 카오루, 西村雅彥, 카미죠 츠네히코...",미야자키 하야오,[JP]
3,미 비포 유,"[드라마, 로맨스]","[에밀리아 클라크, 샘 클라플린, 제나 콜먼, 찰스 댄스, Stephen Peaco...",Thea Sharrock,[US]
4,인턴,[코미디],"[로버트 드 니로, 앤 해서웨이, Anders Holm, 르네 루소, 냇 울프, 애...",낸시 마이어스,[US]
5,세 얼간이,"[드라마, 코미디]","[아미르 칸, 카리나 카푸르, R. Madhavan, Sharman Joshi, B...",Rajkumar Hirani,[IN]
6,말할 수 없는 비밀,"[판타지, 드라마, 스릴러]","[주걸륜, 계륜미, 황추생, Alice Tzeng, So Ming-Ming, Hua...",주걸륜,[TW]
7,헝거게임: 판엠의 불꽃,"[SF, 모험, 판타지]","[제니퍼 로렌스, 조쉬 허처슨, 리암 헴스워스, 스탠리 투치, 엘리자베스 뱅크스, ...",게리 로스,[US]
8,해리 포터와 마법사의 돌,"[모험, 판타지]","[리처드 해리스, 매기 스미스, 로비 콜트레인, Saunders Triplets, ...",크리스 콜럼버스,[GB]
9,트랜스포머,"[모험, SF, 액션]","[샤이아 라보프, 조시 더멜, 메간 폭스, 레이첼 테일러, 타이리스 깁슨, 존 보이...",마이클 베이,[US]


In [17]:
all_genres = [genre for genres in movie2["Genres"] for genre in genres]
genre_counts2 = pd.Series(all_genres).value_counts().reset_index()
genre_counts2.columns = ["Genre", "Count"]

genre_counts2 = genre_counts2[genre_counts2['Count'] > 1]
genre_counts2

Unnamed: 0,Genre,Count
0,드라마,4
1,모험,4
2,판타지,4
3,로맨스,3
4,코미디,3
5,SF,2


In [8]:
import asyncio
import pandas as pd
from odmantic import AIOEngine
from motor.motor_asyncio import AsyncIOMotorClient


# MongoDB 연결 설정
client = AsyncIOMotorClient("mongodb://root:team3@localhost:27017/")
engine = AIOEngine(client=client, database="movies_db3")


# 데이터 가져오기 함수
async def fetch_movies():
    movies = await engine.find(Movie)

    # 영화 정보를 저장할 리스트
    movie_data = []

    for movie in movies:
        # cast에서 name만 필터링
        filtered_cast_names = [c["name"] for c in movie.cast] if movie.cast else None
        
        # director에서 name만 필터링
        director_name = movie.director["name"] if movie.director else None

        # 영화 정보를 딕셔너리로 저장
        movie_data.append({
            "Title": movie.title,
            "Genres": movie.genres,
            "Cast Names": filtered_cast_names,
            "Director Name": director_name,
            "Country": movie.original_country
        })

    # DataFrame 생성
    df = pd.DataFrame(movie_data)
    return df

# 비동기 실행
movie3 = asyncio.run(fetch_movies())

In [13]:
movie3

Unnamed: 0,Title,Genres,Cast Names,Director Name,Country
0,화이트 칙스,"[코미디, 범죄]","[숀 웨이언스, 말런 웨이언스, 제이미 킹, Frankie Faison, Maitl...",Keenen Ivory Wayans,[US]
1,코코,"[가족, 애니메이션, 음악, 모험]","[벤저민 브랫, 가엘 가르시아 베르날, Renee Victor, Anthony Go...",리 언크리치,[US]
2,몽상가들,"[드라마, 로맨스]","[Michael Pitt, 에바 그린, 루이 가렐, Anna Chancellor, ...",베르나르도 베르톨루치,"[FR, IT, GB]"
3,사바하,"[공포, 미스터리, 스릴러, 범죄]","[이정재, 박정민, 정진영, 진선규, 이재인, 이다윗, 유지태, 지승현]",장재현,[KR]
4,동주,"[드라마, 역사]","[강하늘, 박정민, 신윤주, 김중팔, Kim Ooh-jin, 민진웅, 최종률, 이선주]",이준익,[KR]
5,매드맥스: 분노의 도로,"[액션, 모험, SF]","[톰 하디, 니콜라스 홀트, Richard Norton, 조이 크래비츠, 애비 리,...",조지 밀러,"[AU, US]"
6,중경삼림,"[드라마, 코미디, 로맨스]","[임청하, 양조위, Faye Wong, 금성무, Valerie Chow, Kwan ...",왕가위,[HK]
7,기적:그 날의 소비토,[드라마],"[마츠자카 토리, 스다 마사키, 쿠츠나 시오리, 코바야시 카오루, 아소 유미, 平祐...",兼重淳,[JP]
8,헤어질 결심,"[스릴러, 미스터리, 로맨스]","[박해일, 탕웨이, 이정현, 고경표, 정이서, 이용녀, 정영숙, 박용우]",박찬욱,[KR]
9,물에 빠진 나이프,"[로맨스, 드라마]","[스다 마사키, 고마츠 나나, 重岡大毅, 카미시라이시 모네, 斉藤陽一郎, 堀内正美,...",山戸結希,[JP]


In [19]:
all_genres = [genre for genres in movie3["Genres"] for genre in genres]
genre_counts3 = pd.Series(all_genres).value_counts().reset_index()
genre_counts3.columns = ["Genre", "Count"]

genre_counts3 = genre_counts3[genre_counts3['Count'] > 1]
genre_counts3

Unnamed: 0,Genre,Count
0,드라마,5
1,로맨스,4
2,코미디,2
3,범죄,2
4,모험,2
5,미스터리,2
6,스릴러,2


In [9]:
import asyncio
import pandas as pd
from odmantic import AIOEngine
from motor.motor_asyncio import AsyncIOMotorClient


# MongoDB 연결 설정
client = AsyncIOMotorClient("mongodb://root:team3@localhost:27017/")
engine = AIOEngine(client=client, database="movies_db4")


# 데이터 가져오기 함수
async def fetch_movies():
    movies = await engine.find(Movie)

    # 영화 정보를 저장할 리스트
    movie_data = []

    for movie in movies:
        # cast에서 name만 필터링
        filtered_cast_names = [c["name"] for c in movie.cast] if movie.cast else None
        
        # director에서 name만 필터링
        director_name = movie.director["name"] if movie.director else None

        # 영화 정보를 딕셔너리로 저장
        movie_data.append({
            "Title": movie.title,
            "Genres": movie.genres,
            "Cast Names": filtered_cast_names,
            "Director Name": director_name,
            "Country": movie.original_country
        })

    # DataFrame 생성
    df = pd.DataFrame(movie_data)
    return df

# 비동기 실행
movie4 = asyncio.run(fetch_movies())

In [14]:
movie4

Unnamed: 0,Title,Genres,Cast Names,Director Name,Country
0,헤이트풀8,"[드라마, 미스터리, 서부]","[사무엘 L. 잭슨, 커트 러셀, 월튼 고긴스, 제니퍼 제이슨 리, 팀 로스, 조이...",쿠엔틴 타란티노,[US]
1,반지의 제왕: 왕의 귀환,"[모험, 판타지, 액션]","[일라이저 우드, 이안 맥켈런, 비고 모텐슨, 리브 타일러, 올랜도 블룸, 존 라이...",피터 잭슨,[US]
2,조커,"[범죄, 스릴러, 드라마]","[재지 비츠, 로버트 드 니로, 프랜시스 콘로이, Josh Pais, 마크 매런, ...",토드 필립스,[US]
3,캐리비안의 해적: 망자의 함,"[모험, 판타지, 액션]","[키이라 나이틀리, 올랜도 블룸, Jack Davenport, 빌 나이, 스텔란 스...",고어 버빈스키,[US]
4,서울의 봄,"[드라마, 역사, 스릴러, 범죄, 전쟁]","[황정민, 정우성, 박해준, 이성민, 김성균, Choe Min, 전진기, Yum D...",김성수,[KR]
5,기생충,"[코미디, 스릴러, 드라마]","[송강호, 이선균, 조여정, 최우식, 박소담, 장혜진, 이정은, 정지소]",봉준호,[KR]
6,보헤미안 랩소디,"[음악, 드라마]","[벤 하디, Gwilym Lee, Joseph Mazzello, 루시 보인턴, 마이...",브라이언 싱어,"[US, GB]"
7,건축학개론,"[코미디, 로맨스]","[한가인, 이제훈, 수지, 고준희, 엄태웅, 유연석, 조정석, 조현철]",이용주,[KR]
8,존 윅 4,"[액션, 스릴러, 범죄]","[키아누 리브스, 견자단, 빌 스카스가드, 이언 맥셰인, 로렌스 피시번, 랜스 레딕...",채드 스타헬스키,[US]
9,쇼생크 탈출,"[드라마, 범죄]","[팀 로빈스, 모건 프리먼, Bob Gunton, William Sadler, 클랜...",프랭크 다라본트,[US]


In [20]:
all_genres = [genre for genres in movie4["Genres"] for genre in genres]
genre_counts4 = pd.Series(all_genres).value_counts().reset_index()
genre_counts4.columns = ["Genre", "Count"]

genre_counts4 = genre_counts4[genre_counts4['Count'] > 1]
genre_counts4

Unnamed: 0,Genre,Count
0,드라마,6
1,범죄,4
2,스릴러,4
3,액션,3
4,모험,2
5,판타지,2
6,코미디,2


In [10]:
import asyncio
import pandas as pd
from odmantic import AIOEngine
from motor.motor_asyncio import AsyncIOMotorClient


# MongoDB 연결 설정
client = AsyncIOMotorClient("mongodb://root:team3@localhost:27017/")
engine = AIOEngine(client=client, database="movies_db5")


# 데이터 가져오기 함수
async def fetch_movies():
    movies = await engine.find(Movie)

    # 영화 정보를 저장할 리스트
    movie_data = []

    for movie in movies:
        # cast에서 name만 필터링
        filtered_cast_names = [c["name"] for c in movie.cast] if movie.cast else None
        
        # director에서 name만 필터링
        director_name = movie.director["name"] if movie.director else None

        # 영화 정보를 딕셔너리로 저장
        movie_data.append({
            "Title": movie.title,
            "Genres": movie.genres,
            "Cast Names": filtered_cast_names,
            "Director Name": director_name,
            "Country": movie.original_country
        })

    # DataFrame 생성
    df = pd.DataFrame(movie_data)
    return df

# 비동기 실행
movie5 = asyncio.run(fetch_movies())

In [15]:
movie5

Unnamed: 0,Title,Genres,Cast Names,Director Name,Country
0,위대한 레보스키,"[코미디, 범죄]","[제프 브리지스, 존 굿맨, 줄리앤 무어, 스티브 부세미, David Huddles...",조엘 코엔,[US]
1,이레이저 헤드,[공포],"[Jack Nance, Charlotte Stewart, Allen Joseph, ...",데이비드 린치,[US]
2,멀홀랜드 드라이브,"[스릴러, 드라마, 미스터리]","[나오미 왓츠, Laura Harring, Ann Miller, Dan Hedaya...",데이비드 린치,[US]
3,블루 벨벳,"[미스터리, 스릴러, 범죄, 로맨스]","[이사벨라 로셀리니, 카일 맥라클란, 데니스 호퍼, 로라 던, 호프 랭, Dean ...",데이비드 린치,[US]
4,토니 타키타니,[드라마],"[Takahumi Shinohara, 니시지마 히데토시, イッセー尾形, 미야자와 리...",이치가와 준,[JP]
5,혐오스런 마츠코의 일생,"[코미디, 드라마, 음악]","[나카타니 미키, 나가야마 에이타, 이세야 유스케, 市川実日子, 黒沢あすか, 武田真...",나카시마 테츠야,[JP]
6,곡성,"[공포, 미스터리]","[곽도원, 황정민, 천우희, 장소연, 조한철, 쿠니무라 준, 김환희, 손강국]",나홍진,[KR]
7,굿타임,"[범죄, 스릴러]","[로버트 패틴슨, 제니퍼 제이슨 리, Barkhad Abdi, 베니 사프디, Mar...",조쉬 사프디,[US]
8,보 이즈 어프레이드,"[코미디, 모험, 판타지]","[호아킨 피닉스, 네이선 레인, 패티 루폰, 에이미 라이언, Kylie Rogers...",아리 애스터,[US]
9,언컷 젬스,"[드라마, 스릴러, 범죄]","[애덤 샌들러, Judd Hirsch, Eric Bogosian, 라키스 스탠필드,...",조쉬 사프디,[US]


In [21]:
all_genres = [genre for genres in movie5["Genres"] for genre in genres]
genre_counts5 = pd.Series(all_genres).value_counts().reset_index()
genre_counts5.columns = ["Genre", "Count"]

genre_counts5 = genre_counts5[genre_counts5['Count'] > 1]
genre_counts5

Unnamed: 0,Genre,Count
0,스릴러,5
1,드라마,5
2,범죄,4
3,코미디,3
4,미스터리,3
5,공포,2
6,판타지,2


In [22]:
import pandas as pd
import numpy as np
from scipy.stats import spearmanr
from sklearn.metrics.pairwise import cosine_similarity

# Store DataFrames in a list
genre_counts_list = [genre_counts, genre_counts2, genre_counts3, genre_counts4, genre_counts5]

# Merge all genres and create a unified DataFrame
all_genres = set()
for df in genre_counts_list:
    all_genres.update(df['Genre'])

all_genres = sorted(all_genres)  # Sort genres for consistency

# Create unified count DataFrame for all users
user_genre_matrix = pd.DataFrame({genre: [0] * len(genre_counts_list) for genre in all_genres})

for i, df in enumerate(genre_counts_list):
    for _, row in df.iterrows():
        user_genre_matrix.loc[i, row['Genre']] = row['Count']

# 1. Weighted Cosine Similarity
weighted_cosine_sim = cosine_similarity(user_genre_matrix)

# 2. Spearman Correlation
spearman_corr = np.zeros((len(genre_counts_list), len(genre_counts_list)))

for i in range(len(genre_counts_list)):
    for j in range(len(genre_counts_list)):
        corr, _ = spearmanr(user_genre_matrix.iloc[i], user_genre_matrix.iloc[j])
        spearman_corr[i, j] = corr

# Convert results to DataFrame for better visualization
weighted_cosine_df = pd.DataFrame(weighted_cosine_sim, columns=["규석", "정은", "수진", "영인", "우현"], index=["규석", "정은", "수진", "영인", "우현"])
spearman_corr_df = pd.DataFrame(spearman_corr, columns=["규석", "정은", "수진", "영인", "우현"], index=["규석", "정은", "수진", "영인", "우현"])

# Display results
print("Weighted Cosine Similarity:")
weighted_cosine_df

  @_axis_nan_policy_factory(


Weighted Cosine Similarity:


Unnamed: 0,규석,정은,수진,영인,우현
규석,1.0,0.723138,0.762913,0.544151,0.516091
정은,0.723138,1.0,0.703953,0.582792,0.461061
수진,0.762913,0.703953,1.0,0.732882,0.734182
영인,0.544151,0.582792,0.732882,1.0,0.839894
우현,0.516091,0.461061,0.734182,0.839894,1.0


In [23]:
print("\nSpearman Correlation:")
spearman_corr_df


Spearman Correlation:


Unnamed: 0,규석,정은,수진,영인,우현
규석,1.0,0.547719,0.433962,0.073627,0.103907
정은,0.547719,1.0,0.357724,0.1697,-0.066835
수진,0.433962,0.357724,1.0,0.386757,0.487502
영인,0.073627,0.1697,0.386757,1.0,0.62405
우현,0.103907,-0.066835,0.487502,0.62405,1.0
