# 프로젝트
## 개요
영화 시놉시스 코퍼스를 이용해, 영화 장르와 구분 편향성을 측정한다.

## 순서
- STEP 1. 형태소 분석기를 이용하여 품사가 명사인 경우 해당 단어를 추출하기
- STEP 2. 추출된 결과로 embedding model 만들기
- STEP 3. target, attribute 단어 셋 만들기
- STEP 4. WEAT score 계산과 시각화

## 달성 목표
### 1. 주어진 영화 코퍼스를 바탕으로 워드임베딩 모델 구축
- 워드임베딩의 most_similar() 메소드 결과가 의미상 바르게 나와야 한다.

### 2. 영화 구분, 장르별로 target, attribute에 대한 대표성있는 단어 셋을 생성
-	타당한 방법론을 통해 중복이 잘 제거되고 개념축을 의미적으로 잘 대표하는 단어 셋 구축

### 3. WEAT score 계산 및 시각화
- 전체 영화 장르별로 예술/일반 영화에 대한 편향성 WEAT score가 상식에 부합하는 수치로 얻어졌으며 이를 잘 시각화

In [None]:
!pip install konlpy
!pip install gensim

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m72.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m50.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


## WEAT 구현 노드 학습

### targets: 상대적으로 하위의 개념
- X set(꽃) : 장미, 튤립, 백합, 데이지
- Y set(곤충) : 거미, 모기, 파리, 메뚜기

### attributes: 추상화 목표/그룹
- A set(유쾌) : 사랑, 행복, 웃음
- B set(불쾌) : 재난, 고통, 증오

In [None]:
# 임베딩 임의로 설정
target_X = {
    '장미': [4.1, 1.2, -2.4, 0.5, 4.1],
    '튤립': [3.1, 0.5, 3.6, 1.7, 5.8],
    '백합': [2.9, -1.3, 0.4, 1.1, 3.7],
    '데이지': [5.4, 2.5, 4.6, -1.0, 3.6]
}
target_Y = {
    '거미': [-1.5, 0.2, -0.6, -4.6, -5.3],
    '모기': [0.4, 0.7, -1.9, -4.5, -2.9],
    '파리': [0.9, 1.4, -2.3, -3.9, -4.7],
    '메뚜기': [0.7, 0.9, -0.4, -4.1, -3.9]
}
attribute_A = {
    '사랑':[2.8,  4.2, 4.3,  0.3, 5.0],
    '행복':[3.8,  3. , -1.2,  4.4, 4.9],
    '웃음':[3.7, -0.3,  1.2, -2.5, 3.9]
}
attribute_B = {
    '재난': [-0.2, -2.8, -4.7, -4.3, -4.7],
    '고통': [-4.5, -2.1,  -3.8, -3.6, -3.1],
    '증오': [-3.6, -3.3, -3.5,  -3.7, -4.4]
}

In [None]:
import numpy as np

X = np.array([v for v in target_X.values()])
Y = np.array([v for v in target_Y.values()])
A = np.array([v for v in attribute_A.values()])
B = np.array([v for v in attribute_B.values()])
print('targets\nX:', X, '\nY:', Y)
print('\nattributes\nA:',A,'\nB:',  B)

targets
X: [[ 4.1  1.2 -2.4  0.5  4.1]
 [ 3.1  0.5  3.6  1.7  5.8]
 [ 2.9 -1.3  0.4  1.1  3.7]
 [ 5.4  2.5  4.6 -1.   3.6]] 
Y: [[-1.5  0.2 -0.6 -4.6 -5.3]
 [ 0.4  0.7 -1.9 -4.5 -2.9]
 [ 0.9  1.4 -2.3 -3.9 -4.7]
 [ 0.7  0.9 -0.4 -4.1 -3.9]]

attributes
A: [[ 2.8  4.2  4.3  0.3  5. ]
 [ 3.8  3.  -1.2  4.4  4.9]
 [ 3.7 -0.3  1.2 -2.5  3.9]] 
B: [[-0.2 -2.8 -4.7 -4.3 -4.7]
 [-4.5 -2.1 -3.8 -3.6 -3.1]
 [-3.6 -3.3 -3.5 -3.7 -4.4]]


In [None]:
from numpy import dot
from numpy.linalg import norm

def cos_sim(i, j): # 코사인 유사도
    return dot(i, j.T)/(norm(i)*norm(j))

def s(w, A, B): # 특정 단어에 대한 WEAT 점수 계산
    c_a = cos_sim(w, A)
    c_b = cos_sim(w, B)
    mean_A = np.mean(c_a, axis=-1)
    mean_B = np.mean(c_b, axis=-1)
    return mean_A - mean_B # 양수이면 A 쪽에 가깝고, 음수이면 B 쪽에 가깝다

In [None]:
print('장미의 불/유쾌도: {}'.format(s(target_X['장미'], A, B))) # A는 유쾌, B는 불쾌
print('거미의 불/유쾌도: {}'.format(s(target_Y['거미'], A, B)))

장미의 불/유쾌도: 0.6457646122337399
거미의 불/유쾌도: -0.794002342033094


In [None]:
print('꽃 단어 집합 전체에 대한 불/유쾌도: {}'.format(s(X, A, B)))
print('평균: {}\n'.format(round(np.mean(s(X, A, B)), 3))) # 평균값 추출 후 소수점 3자리로 반올림
print('곤충 단어 집합 전체에 대한 불/유쾌도: {}'.format(s(Y, A, B)))
print('평균: {}'.format(round(np.mean(s(Y, A, B)), 3))) # 평균값 추출 후 소수점 3자리로 반올림


꽃 단어 집합 전체에 대한 불/유쾌도: [0.29551989 0.51723181 0.26499096 0.50924109]
평균: 0.397

곤충 단어 집합 전체에 대한 불/유쾌도: [-0.44713039 -0.28310853 -0.33144878 -0.26030641]
평균: -0.33


In [None]:
def weat_score(X, Y, A, B):

    s_X = s(X, A, B)
    s_Y = s(Y, A, B)

    mean_X = np.mean(s_X)
    mean_Y = np.mean(s_Y)

    std_dev = np.std(np.concatenate([s_X, s_Y], axis=0))

    return  (mean_X-mean_Y)/std_dev

print(round(weat_score(X, Y, A, B), 3))

# 사전학습된 Word Embedding에 WEAT 적용

### 구글 뉴스로부터 학습된 단어 벡터 데이터 로드 및 확인

In [None]:
!gunzip -c '/content/drive/MyDrive/Colab Notebooks/going_deeper/07-09_Embedded_bias/GoogleNews-vectors-negative300.bin.gz' > './GoogleNews-vectors-negative300.bin'


In [None]:
import os

model_dir = 'GoogleNews-vectors-negative300.bin'

from gensim.models import KeyedVectors

# 50만개의 단어만 활용합니다. 메모리가 충분하다면 limit 파라미터값을 생략하여 300만개를 모두 활용할 수 있습니다.
w2v = KeyedVectors.load_word2vec_format(model_dir, binary=True, limit=500000)

In [30]:
w2v.vector_size, w2v['I']

(300,
 array([ 0.07910156, -0.0050354 ,  0.11181641,  0.21289062,  0.13085938,
        -0.01470947, -0.03540039, -0.07763672,  0.04077148,  0.11474609,
         0.00147247, -0.29101562,  0.00457764, -0.20019531, -0.19238281,
         0.08007812,  0.10107422,  0.04858398,  0.15722656, -0.09521484,
        -0.05004883,  0.25      ,  0.33007812, -0.09716797, -0.05566406,
        -0.0071106 , -0.16796875, -0.13574219,  0.05102539, -0.00598145,
         0.10791016,  0.16503906, -0.03955078, -0.03955078,  0.04321289,
         0.12060547,  0.13476562,  0.09375   ,  0.00909424,  0.1640625 ,
         0.21289062, -0.05322266,  0.33398438,  0.01586914,  0.10449219,
         0.24121094, -0.0189209 , -0.04199219,  0.05834961,  0.03271484,
         0.09863281,  0.18945312,  0.04125977,  0.01501465, -0.05883789,
         0.10253906,  0.01538086,  0.03198242,  0.02722168, -0.13769531,
         0.12695312,  0.06396484, -0.13574219, -0.012146  ,  0.07617188,
        -0.02319336, -0.21191406,  0.20996094

In [31]:
w2v.vectors.shape

(500000, 300)

In [32]:
w2v.most_similar(positive=['happy'])

[('glad', 0.7408890724182129),
 ('pleased', 0.6632170677185059),
 ('ecstatic', 0.6626912355422974),
 ('overjoyed', 0.6599286794662476),
 ('thrilled', 0.6514049172401428),
 ('satisfied', 0.6437949538230896),
 ('proud', 0.636042058467865),
 ('delighted', 0.627237856388092),
 ('disappointed', 0.6269949674606323),
 ('excited', 0.6247665286064148)]

In [33]:
w2v.most_similar(positive=['family'])

[('relatives', 0.6662653088569641),
 ('familiy', 0.6517067551612854),
 ('families', 0.6252894997596741),
 ('siblings', 0.6140849590301514),
 ('friends', 0.6128394603729248),
 ('mother', 0.6065612435340881),
 ('aunt', 0.5811319947242737),
 ('grandparents', 0.5762072205543518),
 ('father', 0.5717043876647949),
 ('Family', 0.5672314763069153)]

In [34]:
w2v.most_similar(positive=['school'])

[('elementary', 0.7868632078170776),
 ('schools', 0.7411909103393555),
 ('elementary_schools', 0.6597153544425964),
 ('kindergarten', 0.6529811024665833),
 ('eighth_grade', 0.6488089561462402),
 ('School', 0.6477997303009033),
 ('teacher', 0.63824063539505),
 ('students', 0.6301522850990295),
 ('classroom', 0.6281620264053345),
 ('Schools', 0.6172096133232117)]

## 편향성 확인

In [38]:
import numpy as np
from numpy import dot
from numpy.linalg import norm

def cos_sim(i, j): # 코사인 유사도
    return dot(i, j.T)/(norm(i)*norm(j))

def s(w, A, B): # 특정 단어에 대한 WEAT 점수 계산
    c_a = cos_sim(w, A)
    c_b = cos_sim(w, B)
    mean_A = np.mean(c_a, axis=-1)
    mean_B = np.mean(c_b, axis=-1)
    return mean_A - mean_B # 양수이면 A 쪽에 가깝고, 음수이면 B 쪽에 가깝다

def weat_score(X, Y, A, B):

    s_X = s(X, A, B)
    s_Y = s(Y, A, B)

    mean_X = np.mean(s_X)
    mean_Y = np.mean(s_Y)

    std_dev = np.std(np.concatenate([s_X, s_Y], axis=0))

    return  (mean_X-mean_Y)/std_dev

In [41]:
target_STEM = ['science', 'technology', 'physics', 'chemistry', 'Einstein', 'NASA', 'experiment', 'astronomy'] # 과학 및 공학 분야 단어
target_ARTS = ['poetry', 'art', 'Shakespeare', 'dance', 'literature', 'novel', 'symphony', 'drama'] # 문학 및 예술 분야 단어
attribute_MEN = ['brother', 'father', 'uncle', 'grandfather', 'son', 'he', 'his', 'him'] # 남성과 관련된 명사군
attribute_WOMEN = ['sister', 'mother', 'aunt', 'grandmother', 'daughter', 'she', 'hers', 'her'] # 여성과 관련된 명사군

X_STEM = np.array([w2v[word] for word in target_STEM])
Y_ARTS = np.array([w2v[word] for word in target_ARTS])
A_MEN = np.array([w2v[word] for word in attribute_MEN])
B_WOMEN = np.array([w2v[word] for word in attribute_WOMEN])

weat_score(X_STEM, Y_ARTS, A_MEN, B_WOMEN)

1.2624875

In [43]:
target_FASTFOODS = ['pizza', 'coke', 'hamburger', 'ham', 'ramen', 'icecream', 'candy']
target_SLOWFOODS = ['salad', 'fruit', 'vegetable', 'herb', 'root', 'greens', 'wholesome']
attribute_PROCESSED = ['junk', 'canned', 'convenience', 'frozen', 'fast']
attribute_HEALTHY = ['health', 'beneficial', 'good', 'nourishing', 'nutritious']

X_FASTFOODS = np.array([w2v[word] for word in target_FASTFOODS])
Y_SLOWFOODS = np.array([w2v[word] for word in target_SLOWFOODS])
A_PROCESSED = np.array([w2v[word] for word in attribute_PROCESSED])
B_HEALTHY = np.array([w2v[word] for word in attribute_HEALTHY])

weat_score(X_FASTFOODS, Y_SLOWFOODS, A_PROCESSED, B_HEALTHY)

1.6909268

## 직접 만드는 워드 임베딩으로 WEAT 해보기

In [59]:
! pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m63.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m34.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


### TMDB에서 2001. - 2020. 동안 제작된 한국 영화 정보를 받아와서, 이 영화들의 시놉시스로 토큰 목록 생성

In [70]:
import requests
import pandas as pd
from concurrent.futures import ThreadPoolExecutor, as_completed

# TMDB API 엔드포인트 URL
discover_url = 'https://api.themoviedb.org/3/discover/movie'
details_url = 'https://api.themoviedb.org/3/movie/{movie_id}'

# API 키와 토큰
api_key = '54f533815eba6a501d50002b391b61d7'
access_token = 'eyJhbGciOiJIUzI1NiJ9.eyJhdWQiOiI1NGY1MzM4MTVlYmE2YTUwMWQ1MDAwMmIzOTFiNjFkNyIsInN1YiI6IjYyNWY2OThhMzIzZWJhMDA2NmQyOWRmYSIsInNjb3BlcyI6WyJhcGlfcmVhZCJdLCJ2ZXJzaW9uIjoxfQ.TEhEoi70-mJ77qvF-xT__uzRDLqXESp4dEAcUTyLwgA'

# 요청 헤더
headers = {
    'Authorization': f'Bearer {access_token}',
    'Content-Type': 'application/json;charset=utf-8'
}

# 요청 파라미터
params = {
    'api_key': api_key,
    'language': 'ko-KR',
    'region': 'KR',
    'with_original_language': 'ko',
    'release_date.gte': '2001-01-01',
    'release_date.lte': '2023-01-31'
}

# 세션 시작
session = requests.Session()

# 첫 페이지 요청
response = session.get(discover_url, headers=headers, params=params)
data = response.json()

# 총 페이지 수 확인
total_pages = data['total_pages']

# 모든 영화 정보를 저장할 리스트 초기화
all_movies = []

# 영화 상세 정보를 가져오는 함수
def fetch_movie_details(movie_id):
    movie_response = session.get(details_url.format(movie_id=movie_id), headers=headers, params={'api_key': api_key})
    if movie_response.status_code == 200:
        movie_details = movie_response.json()
        return {
            'id': movie_details['id'],
            'production_companies': movie_details.get('production_companies', []),
            'budget': movie_details.get('budget', 0),
            'revenue': movie_details.get('revenue', 0)
        }
    else:
        return None

# 모든 페이지에서 데이터를 가져오는 함수
def fetch_movies(page):
    params['page'] = page
    page_response = session.get(discover_url, headers=headers, params=params)
    if page_response.status_code == 200:
        page_data = page_response.json()
        return page_data['results']
    else:
        return []

# 멀티스레딩을 사용하여 모든 페이지의 데이터 요청
with ThreadPoolExecutor(max_workers=10) as executor:
    future_to_page = {executor.submit(fetch_movies, page): page for page in range(1, total_pages + 1)}
    for future in as_completed(future_to_page):
        all_movies.extend(future.result())

# 멀티스레딩을 사용하여 모든 영화의 상세 정보 요청
with ThreadPoolExecutor(max_workers=10) as executor:
    future_to_movie_details = {executor.submit(fetch_movie_details, movie['id']): movie for movie in all_movies}
    for future in as_completed(future_to_movie_details):
        movie_details = future.result()
        if movie_details:
            for movie in all_movies:
                if movie['id'] == movie_details['id']:
                    movie.update(movie_details)

# 모든 영화 정보를 DataFrame으로 변환
all_movies_df = pd.DataFrame(all_movies)

# 세션 종료
session.close()


In [71]:
all_movies_df.head()

Unnamed: 0,adult,backdrop_path,genre_ids,id,original_language,original_title,overview,popularity,poster_path,release_date,title,video,vote_average,vote_count,production_companies,budget,revenue
0,False,/b6elu2cz2Be9PqgX0MzggMCH4fk.jpg,"[28, 18, 53]",4689,ko,복수는 나의 것,선천성 청각 장애인 류에게 누나는 유일한 가족이다. 신부전증을 앓고 있는 누나는 병...,18.2,/3rD09vQk6CJnTgItfH41waGhCpW.jpg,2002-03-29,복수는 나의 것,False,7.5,1293,"[{'id': 7036, 'logo_path': '/javbyY0ZCvlFJtly3...",4000000,1954937
1,False,/t9T6jKk2TqDqzpWTCMSeMNjYcX7.jpg,"[18, 35, 10749]",18438,ko,김씨 표류기,자살시도가 실패로 끝나 한강의 밤섬에 불시착한 남자. 죽는 것도 쉽지 않자 일단 섬...,17.8,/eccgbNOv2FhfWgQv4Q5iS4haGVQ.jpg,2009-05-14,김씨 표류기,False,8.0,618,"[{'id': 868, 'logo_path': '/pWznyKg90dGoFpWQ5y...",0,0
2,False,/i5xLukHWqHbJaFO1T4yIZb34uOf.jpg,"[18, 10749]",554776,ko,정사 : 처제의 사랑,,17.504,/4roDAaF9Kpvd9ob6XLkoCRoDLkn.jpg,2018-07-26,정사 : 처제의 사랑,False,6.0,5,[],0,0
3,False,/5WWqrUIGrCb1QvZtYVaSfZgUG8n.jpg,"[14, 18, 27, 28, 53, 878]",10253,ko,디 워,"LA 도심 한복판에서 벌어진 의문의 대형 참사. 단서는 단 하나, 현장에서 발견된 ...",14.34,/h252E4ZhETblM76j5KwbSZEv7id.jpg,2007-08-01,디 워,False,4.4,364,"[{'id': 6366, 'logo_path': None, 'name': 'Youn...",32000000,75108998
4,False,/5sSCPzLhX9Ho7Llpj5N3ECjqYai.jpg,"[10749, 18]",570503,ko,유열의 음악앨범,"1994년 가수 유열이 라디오 DJ를 처음 진행하던 날, 엄마가 남겨준 빵집에서 일...",20.849,/rt8yDvXSnk9CMDJeNYh9lv6kPMt.jpg,2019-08-28,유열의 음악앨범,False,7.9,230,"[{'id': 112659, 'logo_path': None, 'name': 'Ju...",0,8631781


In [None]:

# Okt 객체 초기화
okt = Okt()

# 영화 개요에서 명사만 추출하여 tokenized 리스트에 저장
tokenized = []
for overview in all_movies_df['overview']:
    words = okt.pos(overview, stem=True, norm=True)
    res = [w[0] for w in words if w[1] in ["Noun"]]
    tokenized.append(res)

# tokenized 결과를 DataFrame에 추가
all_movies_df['tokenized'] = tokenized


In [66]:
import requests
import json

# TMDB API 엔드포인트 URL
url = 'https://api.themoviedb.org/3/genre/movie/list'

# 요청 헤더
headers = {
    'accept': 'application/json'
}

# 요청 파라미터
params = {
    'language': 'ko',
    'api_key': api_key  # 여기에 실제 TMDB API 키를 입력해야 합니다.
}

# GET 요청 보내기
response = requests.get(url, headers=headers, params=params)

# 응답 상태 코드 확인
if response.status_code == 200:
    # 응답 데이터를 JSON 형태로 변환
    genres_data = response.json()
    # 장르 목록 출력
    print(json.dumps(genres_data, indent=4, ensure_ascii=False))
else:
    print(f'Error: {response.status_code}')


{
    "genres": [
        {
            "id": 28,
            "name": "액션"
        },
        {
            "id": 12,
            "name": "모험"
        },
        {
            "id": 16,
            "name": "애니메이션"
        },
        {
            "id": 35,
            "name": "코미디"
        },
        {
            "id": 80,
            "name": "범죄"
        },
        {
            "id": 99,
            "name": "다큐멘터리"
        },
        {
            "id": 18,
            "name": "드라마"
        },
        {
            "id": 10751,
            "name": "가족"
        },
        {
            "id": 14,
            "name": "판타지"
        },
        {
            "id": 36,
            "name": "역사"
        },
        {
            "id": 27,
            "name": "공포"
        },
        {
            "id": 10402,
            "name": "음악"
        },
        {
            "id": 9648,
            "name": "미스터리"
        },
        {
            "id": 10749,
            "name": "로맨스"
        },
       

In [61]:
from gensim.models import Word2Vec

# tokenized에 담긴 데이터를 가지고 나만의 Word2Vec을 생성합니다. (Gensim 4.0 기준)
model = Word2Vec(tokenized, vector_size=100, window=5, min_count=3, sg=0)
model.wv.most_similar(positive=['영화'])

[('그린', 0.9852745532989502),
 ('감독', 0.9825124740600586),
 ('옴니버스', 0.9825053811073303),
 ('편의', 0.9804288148880005),
 ('통해', 0.9797170758247375),
 ('인물', 0.9790557026863098),
 ('관', 0.9786410927772522),
 ('출연', 0.978326141834259),
 ('소설', 0.9781848192214966),
 ('로맨스', 0.9779890775680542)]

In [62]:
model.wv.most_similar(positive=['사랑'])

[('남자', 0.9816194176673889),
 ('서로', 0.9749914407730103),
 ('기억', 0.9678001403808594),
 ('둘', 0.9673423767089844),
 ('마음', 0.9630704522132874),
 ('여자', 0.9612707495689392),
 ('다른', 0.9610148072242737),
 ('이야기', 0.9543173313140869),
 ('다시', 0.951522171497345),
 ('감정', 0.9493951797485352)]

In [63]:
model.wv.most_similar(positive=['연극'])

[('글', 0.999329686164856),
 ('개인', 0.9993244409561157),
 ('알바', 0.9993025660514832),
 ('성격', 0.9992790818214417),
 ('재', 0.999265730381012),
 ('옥', 0.9992629885673523),
 ('나무', 0.9992561340332031),
 ('금', 0.9992391467094421),
 ('수업', 0.9992340803146362),
 ('정', 0.9992242455482483)]

## 프로젝트 진행

In [None]:
import konlpy
import gensim
import sklearn
import seaborn

In [None]:
genre_txt = ['synopsis_SF.txt', 'synopsis_family.txt', 'synopsis_show.txt', 'synopsis_horror.txt', 'synopsis_etc.txt',
             'synopsis_documentary.txt', 'synopsis_drama.txt', 'synopsis_romance.txt', 'synopsis_musical.txt',
             'synopsis_mystery.txt', 'synopsis_crime.txt', 'synopsis_historical.txt', 'synopsis_western.txt',
             'synopsis_adult.txt', 'synopsis_thriller.txt', 'synopsis_animation.txt', 'synopsis_action.txt',
             'synopsis_adventure.txt', 'synopsis_war.txt', 'synopsis_comedy.txt', 'synopsis_fantasy.txt']
genre_name = ['SF', '가족', '공연', '공포(호러)', '기타', '다큐멘터리', '드라마', '멜로로맨스', '뮤지컬', '미스터리', '범죄', '사극', '서부극(웨스턴)',
         '성인물(에로)', '스릴러', '애니메이션', '액션', '어드벤처', '전쟁', '코미디', '판타지']