In [1]:
# svm알고리즘
# svm알고리즘과 랜덤포레스트는 성능이 좋은 투탑 중 하나이다. 
# 서포트 벡터 머신이라고 하며 데이터 분류를 위하여 마진이 최대가 되는 결정 경계선을 찾아내는 머신러닝 방법이다.
# 데이터를 분류하기 위해서 필요로하는 선을 결정분기라고 이야기한다. 
# 결정경계선을 기준으로 두 데이터를 분리하는 것이다. 초평면모형(hyperplane)이라고도 부른다. 
# 서울 지역의 위치정보를 이용하여 강남과 강북을 나누는 최적의 경계선을 찾아보자.
# svm에서 나오는 용어는 다음과 간다.
# - 결정경계선  - 서포트 벡터   - 마진   - 비용   - 커널 트릭
# 결정 경계선은 무수히 많은 선이 존재할 수 있다. 
# 아무래도 오류를 줄이기 위해 두 클래스 사이에서 선을 그었을 때 선을 기준으로 위아래로 여백이 생긴다. 
# 데이터를 가장 잘 분류할 수 있는 선을 그리는데 여백을 최대로 하는 선을 찾는 것이다. 
# 여백의 최대화의 목적을 가진다.
# 분류를 주로 하지만 회귀분석도 할 수 있다. 연속형 값을 예측할 수 있다. 
# 선형 모델도 있을 수 있겠지만 구부러진 곡선 형태로도 작성될 수 있다. 그것을 비선형모델이라고 한다.

In [2]:
# 결정경계선 
# 2차원일시 선이 필요할 것이다. 3차원일시 면이 필요할 것이다. 4차원은 공간이 필요할 것이다. 
# 특성이 많아질수록 (차원이 증가할수록) 구분하는 기준의 차원도 증가한다. 즉 결정경계는 n-1차원이다. 
# 이 데이터들 전체에 대해서 일부 분류가 잘못되는 경우가 있더라도(어느정도의 애러가 발생하는것은 허용하되) 
# 가장 일반화가 잘 되어있는 모델을 만든다는 것이 목적이다. 
# 예를 들어 100x100 크기의 1만차원의 흑백그림이 있다. 여기서 고양이는 1만차원에 있는 여러 점 중 한개의 점이다. 
# 강아지도 1만차원에 있는 점들 중 한 개의 점이다. 고양이에 해당하는 점과 강아지에 해당되는 점을 찾는 것이 목적이다.

In [3]:
# 서포트벡터
# 아이러니하게도 코드를 만드는 것은 두 줄 밖에 안된다. 
# 서포트벡터는 단어에서 벡터는 2차원 공간상에 나타난 데이터포인트를 의미한다. 
# 아까 말한 강아지점, 고양이점에서 연장된다. 결정경계선에 가장 가깝게 붙어있는 데이터 포인트이다. 
# 한강을 기준으로 강남구, 용산구는 한강이라는 선에 가깝다. 하지만 노원구, 동작구는 멀다. 즉 노원구와 동작구는 서포트벡터가 아니다.
# 선에 가까운 강남구와 용산구가 서포트 벡터에 해당한다.

In [4]:
# 마진 
# 서포트 벡터와 결정경계 사이의 거리를 말한다. 
# svm의 목표는 마진을 최대로 하는 결정경계를 찾는 것이다.
# 2차원 공간에서는 최소 3개가 있어야 한다. 나머지 하나는 2개가 서포트벡터를 정의할 수 있는 최소의 수이다. 
# 하드마진 : 결정경계선을 매우 딱딱하게그린 형식으로 마진이 낮다. 하나라도 틀리지 않기 위해 노력한 결과이다. 과대적합위험이 높다. 
# 소프트마진: 결정경계선이 부드럽게 그린 형식으로 마진이 높다. 틀리는 변수 몇개를 무시한 결과이다. 과소적합 위험이 높다. 

In [5]:
# 비용
# 얼마나 많은 데이터 샘플이 다른 클래스에 놓이는 것을 허용하는지 결정한다.
# 비용이 낮을수록 마진이 높아지고 학습 애러율을 증가시키는 방향으로 경계선을 만든다.
# 비용이 높을수록 마진은 작아지고 학습 애러율은 감소하는 방향으로 결정경계선이 만들어진다. 
# 비용을 적절하게 조정하는 것이 좋다. 이것은 일종의 퍼러미터이다. 우리가 조정해야 한다.

In [6]:
# 커널 트릭
# 만약 1차원 데이터를 분류한다고 해보자. 
# X 0 0 0 X 
# 여기에 0와 X를 구분하는 점을 구분한다고 하자. 
# 그럼 첫번째것과 다섯번째 것이 X가 있기 때문에 두 개의 결정경계가 생겨야 할 것이다. 
# 문제는 점 하나로 결정경계점을 정의할 수 없다. 이 문제를 해결하기 위한 것이 커널 트릭이다. 
# X - - - X 
# - - - - - 여기 있는 선이 결정경계선이 될 것이다. 
# - - 0 - -
# - 0 - 0 - 
# 즉 1차원을 2차원으로 변경해서 결정경계점을 찾는 것이다. 
# 문제는 차원이 증가한다는 뜻은 계산량이 증가한다는 것이다. 
# * * * * * * *
# * 0 0 0 0 0 *
# * 0 1 1 1 0 *
# * 0 1 1 1 0 *
# * 0 1 1 1 0 *
# * 0 0 0 0 0 *
# * * * * * * *
# 위와 같은 2차원 평면이 있다. 이걸 선 하나로 정의하면 그냥 조지는 것이다. 가불기다. 
# 여기서 0이 결정경계선이 되어야 한다. 이것이 커널트릭이다. 0을 기준으로 1과 별이 나눠진다.
# 커널트릭은 선형 svm에서는 사용하지 않는다. 커널을 사용하지 않고 데이터를 분류하는 것이다.
# 커널트릭은 선형 분리가 어려운 경우에 고차원으로 데이터를 옮기는 효과를 통해 결정경계를 찾는다.
# 비용과 감마를 조절해서 마진조절이 가능하다.


In [None]:
# 가우시안 RBF커널은 가우시안 함수의 표준편차를 조정함으로서 결정 경계의 곡률을 조정한다.
# 표준편차 조정 변수를 감마라고 부른다. 결정경계선의 모양이 원일지, 네모일지 결정한다.  
# 두 개의 값을 조절해서 모델을 만들게 된다. 비용과 감마를 적절하게 조절하여 마진에 대한 크기, 곡률(결정경계선이 꺾이는 정도)를 조절한다.
# https://scikit-learn.org/stable/auto_examples/svm/plot_rbf_parameters.html 밑의 그림이 있다.
# 감마값은 작아질수록 경계가 완만해지고 커질수록 경계가 구부러진다. 커질수록 경계가 붙어버린다. 결정경계의 구부림 정도이다.
# 코스트도 존재한다. 코스트값이 커지면 마진의 너비가 좁아진다. 코스트가 작을수록 마진이 넓어지는것을 볼 수 있다. 
# 가운데가 가장 무난하다. 적정한 감마와 적정한 코스트로 만든 값이 가장 일반화가 잘 되어있다.오류를 어느 정도 용인해야 한다.
# 결정경계선을 직선이 아닌 곡선으로 하는 것이다. 
# 그리드 서치는 필수이다. 우리는 일일이 이것을 찾을 수 없다. 

In [None]:
# 장점 : 특성이 다양한 데이터 분류에 강하다.
# 또한 파라미터 조정으로 과대, 과소적합에 대응이 가능하다.
# 단점 : 데이터 전처리 과정이 매우 중요하다. 
# 특성이 많을수록 데이터의 시각화가 매우 어렵다.

In [7]:
# Q 그러면 커널트릭은 원핫 인코딩처럼 차원을 늘리는 거랑 같은 개념인가?
# A 아니다. n차원 데이터를 이용해서 a,c,b를 분류하는데 서로 독립적인 값이라서 얘들이 단순히 숫자로 표현되면 상황이 안좋아진다.
# 그런 경우에 독립적인 경우에 원핫 인코딩(더미즈)로 사용한다. 소프트맥스등을 통해서 확률로 나온다. 
# 학점같은 것도 독립적인 변수이다. 1학점을 2개 더하면 2학점이 아니다. 
# 국민대 자료는 소프트맥스 함수로 작성해야한다. 
# 커널트릭은 이야기가 다르다. 

In [8]:
# 나이브 베이즈 알고리즘
# 잘 안쓰인다. 모델의 성능이 좋지는 않다. 20세기 초반에 많이 썼고 이메일 제목을 읽어서 스팸을 분류할때 사용했었다.
# 배우는 이유는 의사결정 트리와 비슷하기 때문이다. 나이브베이즈는 확률기반 모델을 만드는데 사용하는 기반이다.
# 실습은 따로 하지 않을 것이다.
# 데이터를 단순하게 독립적인 사건으로 가정하고 독립 사건들을 베이즈 이론에 대입시켜 가장 높은 확률의 레이블로 분류를 실행하는 알고리즘이다.
# P(A|B) = P(B|A)*P(A)/P(B)로 계산된다. 
# 비가 많이 내릴수록 우산구매가 증가할 것이다. 이건 종속변수이다.
# 나는 흰색옷을 입고 로또를 샀을 때 로또당첨확률은 독립적이다. 아예 관련이 없다. 
# 이러한 독립사건들을 베이즈 이론에 대입해서 가장 높은 확률의 레이블을 실행하는 것이다.
# P(A|B) : 메일에 바겐세일한다고 하는 경우(B) 이 메일이 스팸일 확률(A)  
# P(B|A) : 메일이 스팸메일일 때(A) 메일에 바겐세일한다고 하는 경우(B)
# P(A)/P(B) : 스펨메일의 확률 / 바겐세일 메일이 올 확률
# 즉 모든 세일 메일중에서  스팸일 확률 X 스팸일때 세일메일일 확률 
# 예를 들어 모든 메일이 100개일 때 세일메일은 20% 스팸확률이 30%라고 하자. 0.6*0.3/0.2이다. 즉 2%확률의 비스팸, 18%의 스팸이다. 
# 보듯이 성능이 안좋다. 과거 데이터를 기반으로 한다. 사실 나이브베이즈는 수학에 가깝다. 
# 사건의 원인이 되는 요인이 상당히 많다. 이 것을 전부 계산해야 하는 것이 매우 어렵다. 

In [9]:
# 선형회귀 알고리즘
# 매우 중요하다. 딥러닝의 시작은 회귀모델이다. 신경망의 이야기도 여기서 시작한다. 
# 부모의 키와 아들의 키의 비례정도를 예측하고 싶다고 하자.
# 좌표평면에 점을 찍어서 우리는 상관분석을 했었다. 부모의 키와 자녀의 키를 평균을 중심으로 한 사분면으로 나눠서 상관계수를 구했다.
# 면적의 합은 공분산이었다. 공분산이 크다는 것은 평균으로부터 데이터가 멀리 퍼져있다는 뜻이다.
# 회귀는 예상치 못한 일이 일어나더라도 그 현상은 결극 특정 예상값으로 돌아간다는 의미이다.
# 두 변수 관계가 어떤 일반화된 선형관계의 평균으로 돌아간다는 의미이다.

In [10]:
# 선형회귀 
# 관찰된 데이터들을 기반으로 하나의 함수(모델)를 구해서 관찰되지 않은 데이터의 값을 예측하는 것이다.
# 과거의 데이터를 이용하여 일정한 규칙을 탐색하고 이로 미래예측을 하는 것이다. 
# 미래예측모델이 직선으로 나타나는 것이 선형회귀이다. 
# 일차함수는 평행이동한 직선이다. 1자로 쭉 그어졌다. y = ax + b로 계산했다. 원점은 y=ax로 계산했다.
# 이걸 중학교때 배웠다. 

In [11]:
# 선형회귀모델 : 회귀계수를 선형적으로 결합할 수 있는 모델을 의미한다. 위의 a,b가 해당된다. 
# 예를 들어 한 축구 선수의 슛 횟수와 획득한 점수표 등이 있다.
# 인과관계는 회귀분석이다. 상관관계는 상관분석이다. 즉 원인과 결과분석이 메인이다. 
# 회귀계수는 독립변수의 변화가 종속변수에 미치는 영향력 크기를 나타내는 계수이다.
# 광고비가 100만원 증가할때 매출이 200만원이 증가한다고 하자. 회귀계수는 y = b0 + b1x이다.
# 단일회귀분석은 광고 - 매출로 연결하는 것이다.
# 다중회귀분석은 광고,교육,유통 - 매출로 다중으로 연결된다. 
# 종속변수가 연속인 경우는(범주형인 경우) 분류라고 이야기한다.
# 선형회귀분석은 독립변수와 종속변수사이에 직선형태의 관계가 있다고 가정하고 분석하는 것이다.
# 독립변수값이 일정하게 증가함에 따라 종속변수도 비례하게 증가하거나 감소하는 형태이다. 

In [12]:
# 회귀함수 구하기
# 선형회귀분석은 독립변수와 종속변수가 모두 정규분포일때 잘 동작한다. 
# 정규분포 그래프로 그려질 수 있다면 이상태로 모델링을 하면 된다. 
# 정규성을 가지는지 확인하려면 왜도, 첨도를 통해서 확인 가능하다. 
# 오차는 데이터포인트에서 함수의 선까지의 거리를 말한다. 애러라고 부른다. 선과 떨어진 수준이다.
# 문제는 애러가 플러스 애러가 있고 마이너스 애러가 나온다. 그래서 오차들을 제곱해서 평균을 내면 평균제곱오차(MSE)라고 한다. 
# 오차들을 제곱해서 평균한 것을 루트로 씌우면 RMSE가 나온다. 이것이 바로 오차율 평균인 것이다. 
# 오차가 적은쪽의 모델이 좋은 모델인 것이다.

In [13]:
# 목적함수 
# 평균제곱오차를 최소화하는 함수를 말한다.
# 모델링의 목적은 평균제곱오차를 최소화하기 위함이다. 
# 역행렬을 구하면 최적의 회귀계수를 찾을 수 있다. 그런데 이것은 어째서 머신러닝인 것인가?
# 우리가 다루는 데이터는 간단하지 않고 변수가 많다. 행렬로 계산할 수 없다. 

In [14]:
# 경사하강법
# 함수의 기울기(경사)를 구하고 경사의 절댓값이 낮은 쪽으로 계속 이동시켜 극 값에 이를 때 까지 반복하는 방법이다.
# 직선을 여러군데로 이동시키고 360도로 돌리는 작업 등으로 코스트가 가장 낮은 직선을 찾는 과정이다. 
# 수학적으로 말하면 미분(기울기)을 구하는 과정이다. 접선의 기울기이다. 기울기가 다시 늘어나면 패널티(코스트 증가)가 주어진다.
# 이미 만들어져 있다. 우리는 가져다 쓰면 된다. 
# 편미분을 해서 기울기를 구해본다. 계속 구한 이후 업데이트 (:=)를 지속한다. 
# 그게 경사하강법이다. 업데이트를 통해서 편미분을 움직여서 코스트를 낮추는 것이다. 
# 그리고 최적의 기울기가 찾아진다. 거기서 중단한다. 
# 그리고 기울기 앞에 숫자를 곱한다. 기울기의 일부만 반영해야 한다. -0.1*(기울기) 라고 표현한다.
# 이것을 하이퍼퍼러미터라고 한다. lr이라고 하기도 한다. 
# 딥러닝할때 망하는 경우는 3가지이다.
# 알파를 너무 작게 해서 답을 찾는데 너무 오래 걸리기도 한다. 
# 알파값을 크게 잡아서 기울기가 개선할때마다 늘어나버리는 상황이 발생한다. 결국 코스트가 inf가 떠버릴 것이다.
# 

In [15]:
# 주성분 분석
# 차원이 많으면 차원을 줄어야 한다. (feature reduction)
# 주성분 분석을 하는 목적은 여러가지이다.
# 차원의 저주라는 말이 있다. 10000차원속 한개의 점은 너무 많은 공간을 잡아먹는다.
# 1만차원에서의 유클리드 거리를 구한다고 해보자. 전부 더하고 제곱하는 과정을 만번 반복해야한다. 매우 번거롭다. 
# 다만 1만차원을 3차원으로 줄인다는 것은 차원압축을 하면서 9997개의 특성이 사라지는것이다. 
# 정의상으로는 고차원의 데이터를 3차원 이하로 줄이는 것이다. 다만 시각화를 하기 위한 목적은 아니다. 
# 차원에 대한 정보들 중 의미없는 정보가 매우 많을 것이다. 1만개의 특성 모두가 이미지에 대한 유용한 정보를 가지고 있는 것은 아니다. 
# 그림 좌표도 사실 의미가 없는 위치도 많다. 축의 정보가 0이면 의미가 크게 없다. 
# 차원선택(feature selection)의 개념도 존재한다. 
# 차원축소는 데이터를 변환하는 것이고 일부 데이터특성열을 빼버리는 것이다. 
# 데이터의 의미를 최대한 살리면서 변환하는 것이 핵심이다. 
# pca는 고차원 정보를 저차원으로 줄이기 위함이다. 

In [16]:
# 주성분 분석의 원리
# 데이터의 분산을 최대한 유지하면서 저차원으로 데이터를 변환하는 것이다.
# 분산을 유지하는 이유는 데이터의 고유한 특성을 최대한 유지하기 위함이다. 
# 2차원 평면에 있는 점들을 1차원으로 보낸다면 정보의 유실이 많이 일어날 것이다. 점들이 중첩되어 있으면 어디에 위치했는지 알 수 없다.
# 그래서 새로운 축을 찾아서 그 축에다가 데이터를 붙여버린다. 정보손실이 상대적으로 적다. 분산이 적은 축을 찾아서 붙이기 때문이다.
# 이 축을 찾는 알고리즘이 PCA이다. 축 이름은 대체로 PCA#1으로 불린다. 
# 그 축에 직각으로 해당되는 (예: PCA#2)선을 사용하면 모든 데이터가 복원된다.
# x,y축과의 차이점은 PCA는 선 하나만으로도 많은 정보를 담는 다는 것이다. 
# 이 선을 찾는 것이 PCA알고리즘이다.

In [17]:
# 즉 1만차원을 3차원으로 축소한다는 것은 특정한 PCA를 찾아서 붙여버려서 정보손실을 최소화한다. 
# 정보의 손실을 피할 수 없다. 다만 차원을 줄이면 연산이 쉬워진다. 
# 물론 3차원으로 줄일때 30%의 정보만 반영하면 안쓰는게 낫다. 적어도 80%가량은 정보가 복원이 되어야 한다. 
# pca를 할때 정보의 손실을 줄이자는 것이 핵심이다. 정보의 손실을 최소로 하면서도 본래의 정보를 최대로 하는 선을 찾는 것이다.
# 요약하면 PCA는 데이터분산을 최대로 하는 축을 찾는 것이다. 
# 하나 찾으면 직교, 직교하면서 늘리면 된다. 

In [18]:
# 내일하는 로지스틱, 소프트맥스, 신경망은 중요하다. 신경망에서 딥러닝으로 이어진다. 
# 중요하니 내일을 기대하라.

In [19]:
# 영화데이터이다. 작은 데이터셋을 이용하여 모델을 만들 예정이다. 
# 컨텐츠 기반 필터링 알고리즘을 바탕으로 모델을 만드는 것을 해보자. 
# 오늘 내일 계속 이어질 것이다. 
# 레이팅 스몰을 열어보자.
# 영화가 많다. 문제는 사람을 기준으로 판단을 하면 영화가 너무 많기 때문에 어느 영화를 추천해야할지 알 수 없는 것이다.
# 추천시스템을 만드는 것은 단순하게 영화만으로 비교할 수 없을 거 같다.
# 많은 특성들을 최대한 고려해야한다. 유사한 사람을 찾기는 쉽지 않다. 
# 유의어들도 파악해야 한다. 워드넷 API를 통해 다양한 작업이 가능하다. https://wordnet.princeton.edu/documentation
# https://github.com/nltk/wordnet 워드넷 깃허브이다. 
# 오버뷰를 보면 줄거리인데 줄거리에 있는 명사들을 추출해서 찾아야 한다. 다른 것은 전처리로 제거해야 할 것이다. 
# 무작정 유사도를 높게 추출해버리면 도널드 트럼프를 키워드로 받으면 도박영화를 추천해줄것이다. 
# 도널드와 트럼프 사이에 언더바를 사용하면 단어를 하나로 인식할 것이다. 
# 이름처리가 필요할 것이다. 달러기호나 특정기호가 있는데 함부러 제거하면 곤란해질 수 있다. 
# 원주율이 3.14인데 점을 제거해버리면 314가 나와버린다. 
# 전체적으로 확인한 다음 어떻게 해야할 것인가? 를 물어봐야한다. 
# 뉴욕은 new york이다. 붙여써야한다. 참고로 한국어는 영어보다 난이도가 매우 높다. 
# 개봉일도 시계열적 특성을 고려해야 할 것이다. 
# 평점도 있다. 평점이 어려운 이유는 악의적인 투표도 있을 수 있다. 또는 사람이 3명인데 10점을 투표했을 수도 있다.
# 투표인원이 적은데 이게 재밌는지 재미없는지 단정할 수 없다.
# 보정을 해 줄 필요가 있다. 공식은 마련되어있다. 

In [159]:
# 데이터가 너무 클거 같으면 상당수는 버리고 해보자. 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [160]:
from sklearn.feature_extraction.text import TfidfVectorizer # 이것의 개념은 상세하게 이야기해야 한다. 나중에 설명할 예정이다.
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [260]:
data = pd.read_csv("archive/movies_metadata.csv")
data

  data = pd.read_csv("archive/movies_metadata.csv")


Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92.0
3,False,,16000000,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",,31357,tt0114885,en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",...,1995-12-22,81452156.0,127.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Friends are the people who let you be yourself...,Waiting to Exhale,False,6.1,34.0
4,False,"{'id': 96871, 'name': 'Father of the Bride Col...",0,"[{'id': 35, 'name': 'Comedy'}]",,11862,tt0113041,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,...,1995-02-10,76578911.0,106.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,False,5.7,173.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45461,False,,0,"[{'id': 18, 'name': 'Drama'}, {'id': 10751, 'n...",http://www.imdb.com/title/tt6209470/,439050,tt6209470,fa,رگ خواب,Rising and falling between a man and woman.,...,,0.0,90.0,"[{'iso_639_1': 'fa', 'name': 'فارسی'}]",Released,Rising and falling between a man and woman,Subdue,False,4.0,1.0
45462,False,,0,"[{'id': 18, 'name': 'Drama'}]",,111109,tt2028550,tl,Siglo ng Pagluluwal,An artist struggles to finish his work while a...,...,2011-11-17,0.0,360.0,"[{'iso_639_1': 'tl', 'name': ''}]",Released,,Century of Birthing,False,9.0,3.0
45463,False,,0,"[{'id': 28, 'name': 'Action'}, {'id': 18, 'nam...",,67758,tt0303758,en,Betrayal,"When one of her hits goes wrong, a professiona...",...,2003-08-01,0.0,90.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,A deadly game of wits.,Betrayal,False,3.8,6.0
45464,False,,0,[],,227506,tt0008536,en,Satana likuyushchiy,"In a small town live two brothers, one a minis...",...,1917-10-21,0.0,87.0,[],Released,,Satan Triumphant,False,0.0,0.0


In [261]:
data = data.head(5000)
data.columns # 모든 열들이 사용되지는 않는다. 일부만 사용할 것이다. 

Index(['adult', 'belongs_to_collection', 'budget', 'genres', 'homepage', 'id',
       'imdb_id', 'original_language', 'original_title', 'overview',
       'popularity', 'poster_path', 'production_companies',
       'production_countries', 'release_date', 'revenue', 'runtime',
       'spoken_languages', 'status', 'tagline', 'title', 'video',
       'vote_average', 'vote_count'],
      dtype='object')

In [262]:
data = data[['id','genres', 'vote_average', 'vote_count','popularity','title', 'overview']]
data # 이번에는 대폭 7개의 열로 줄여보았다. 

Unnamed: 0,id,genres,vote_average,vote_count,popularity,title,overview
0,862,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",7.7,5415.0,21.946943,Toy Story,"Led by Woody, Andy's toys live happily in his ..."
1,8844,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",6.9,2413.0,17.015539,Jumanji,When siblings Judy and Peter discover an encha...
2,15602,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",6.5,92.0,11.7129,Grumpier Old Men,A family wedding reignites the ancient feud be...
3,31357,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",6.1,34.0,3.859495,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom..."
4,11862,"[{'id': 35, 'name': 'Comedy'}]",5.7,173.0,8.387519,Father of the Bride Part II,Just when George Banks has recovered from his ...
...,...,...,...,...,...,...,...
4995,43715,"[{'id': 53, 'name': 'Thriller'}, {'id': 27, 'n...",5.3,16.0,1.738062,The Deadly Mantis,The calving of an Arctic iceberg releases a gi...
4996,10052,"[{'id': 18, 'name': 'Drama'}]",6.2,209.0,4.924078,Dragonfly,A grieving doctor is being contacted by his la...
4997,11979,"[{'id': 18, 'name': 'Drama'}, {'id': 14, 'name...",5.5,247.0,8.436243,Queen of the Damned,Lestat de Lioncourt is awakened from his slumb...
4998,75151,"[{'id': 18, 'name': 'Drama'}, {'id': 35, 'name...",6.5,4.0,0.437438,Big Bad Love,Vietnam veteran Leon Barlow is struggling as a...


In [263]:
# https://www.quora.com/How-does-IMDbs-rating-system-work
# imdb에서 어떻게 점수를 계산하는지 나와있다. 
# Thanks for the A2A
# The formula is given at the bottom of the Top 250 page.
# The formula for calculating the Top Rated 250 Titles gives a true Bayesian estimate:
# weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C where:
# R = average for the movie (mean) = (Rating)
# v = number of votes for the movie = (votes)
# m = minimum votes required to be listed in the Top 250 (currently 25000)
# C = the mean vote across the whole report (currently 7.0)
# for the Top 250, only votes from regular voters are considered.
# Here's the link:http://www.imdb.com/chart/top?ref_=nb_mv_3_chttp

In [264]:
tmp = data['vote_count'].quantile(0.9)# 백분위로 데이터위치를 추출하고자 하는 것이다.
tmp

568.1000000000004

In [265]:
data['vote_count'].describe()
# 0명부터 9678명까지 존재한다.
# 투표수가 적은 경우는 사실상 의미가 없을 것이다.
# 차라리 상위 10퍼센트만 사용하자.

count    5000.000000
mean      246.124400
std       656.685835
min         0.000000
25%        13.000000
50%        49.000000
75%       184.000000
max      9678.000000
Name: vote_count, dtype: float64

In [266]:
data = data[data['vote_count']>=tmp]
data['vote_count'].describe()
# 500개의 데이터에서 최솟값이 569정도다. 괜찮은 수준이다. 
# 추천시스템을 만드는 것이 목적이다. 

count     500.000000
mean     1638.622000
std      1424.593369
min       569.000000
25%       791.500000
50%      1096.000000
75%      1769.500000
max      9678.000000
Name: vote_count, dtype: float64

In [267]:
C = data['vote_average'].mean()
C #평점의 평균은 7점 가량이다. 

7.036200000000001

In [268]:
m=tmp
m

568.1000000000004

In [269]:
def weighted_rating(x, m=m, C=C): # x,m,c가 전달된다. 여기서 m은 최소인원이고 c는 평균평점이다. x로 변수가 전달될것이다. 
    v = x['vote_count']
    R = x['vote_average']
    
    return ( v / (v+m) * R ) + (m / (m + v) * C) #가중치가 부여된 rating 점수이다. 


In [270]:
data['score'] = data.apply(weighted_rating, axis = 1)
data['score']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['score'] = data.apply(weighted_rating, axis = 1)


0       7.636972
1       6.925955
5       7.546337
9       6.740631
15      7.572950
          ...   
4863    7.942122
4865    7.596828
4880    7.161229
4936    7.337865
4977    7.017546
Name: score, Length: 500, dtype: float64

In [271]:
data # 점수가 약간씩 변했다. 보정이 된 수치는 옆에 붙었다. 
# 컨텐츠 기반 필터링을 할 것이다.

Unnamed: 0,id,genres,vote_average,vote_count,popularity,title,overview,score
0,862,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",7.7,5415.0,21.946943,Toy Story,"Led by Woody, Andy's toys live happily in his ...",7.636972
1,8844,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",6.9,2413.0,17.015539,Jumanji,When siblings Judy and Peter discover an encha...,6.925955
5,949,"[{'id': 28, 'name': 'Action'}, {'id': 80, 'nam...",7.7,1886.0,17.924927,Heat,"Obsessive master thief, Neil McCauley leads a ...",7.546337
9,710,"[{'id': 12, 'name': 'Adventure'}, {'id': 28, '...",6.6,1194.0,14.686036,GoldenEye,James Bond must unmask the mysterious head of ...,6.740631
15,524,"[{'id': 18, 'name': 'Drama'}, {'id': 80, 'name...",7.8,1343.0,10.137389,Casino,The life of the gambling paradise – Las Vegas ...,7.572950
...,...,...,...,...,...,...,...,...
4863,120,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",8.0,8892.0,32.070725,The Lord of the Rings: The Fellowship of the Ring,"Young hobbit Frodo Baggins, after inheriting a...",7.942122
4865,453,"[{'id': 18, 'name': 'Drama'}, {'id': 10749, 'n...",7.7,3087.0,11.93646,A Beautiful Mind,"At Princeton University, John Nash struggles t...",7.596828
4880,855,"[{'id': 28, 'name': 'Action'}, {'id': 36, 'nam...",7.2,1832.0,10.064446,Black Hawk Down,When U.S. Rangers and an elite Delta Force tea...,7.161229
4936,10229,"[{'id': 18, 'name': 'Drama'}, {'id': 10749, 'n...",7.5,1057.0,8.054499,A Walk to Remember,"When the popular, restless Landon Carter is fo...",7.337865


In [272]:
# 장르만 가지고 보면 이렇게 나온다.
data['genres'].loc[0]
# 우리는 여기서 장르만 추출되었으면 좋겠다. 코미디, 패밀리 같이 들어가길 바란다. 
# 그런데 문제는 이거 문자열이다. 문자열로 되어져 있는걸 수행해야 한다. 

"[{'id': 16, 'name': 'Animation'}, {'id': 35, 'name': 'Comedy'}, {'id': 10751, 'name': 'Family'}]"

In [273]:
# 문자열로 된 수식을 수행하기 
eval(data['genres'].loc[0])
# 문자열을 수식으로 바꾸었다. 리스트구조로 인식을 하는 것이다. 이제 이것의 타입은 리스트이다. 

[{'id': 16, 'name': 'Animation'},
 {'id': 35, 'name': 'Comedy'},
 {'id': 10751, 'name': 'Family'}]

In [274]:
# 이제 이걸 딕셔너리의 갯수만큼 반복해서 'name'을 추출해야 한다. 그리고 장르 리스트를 만들려고 한다. 
# 반복문을 이용해서 추출하는 것이 좋다.
data['genres'].apply(lambda x: x for i in eval(data['genres'].loc[0]) )

Unnamed: 0,<lambda>,<lambda>.1,<lambda>.2
0,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...","[{'id': 16, 'name': 'Animation'}, {'id': 35, '...","[{'id': 16, 'name': 'Animation'}, {'id': 35, '..."
1,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...","[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...","[{'id': 12, 'name': 'Adventure'}, {'id': 14, '..."
5,"[{'id': 28, 'name': 'Action'}, {'id': 80, 'nam...","[{'id': 28, 'name': 'Action'}, {'id': 80, 'nam...","[{'id': 28, 'name': 'Action'}, {'id': 80, 'nam..."
9,"[{'id': 12, 'name': 'Adventure'}, {'id': 28, '...","[{'id': 12, 'name': 'Adventure'}, {'id': 28, '...","[{'id': 12, 'name': 'Adventure'}, {'id': 28, '..."
15,"[{'id': 18, 'name': 'Drama'}, {'id': 80, 'name...","[{'id': 18, 'name': 'Drama'}, {'id': 80, 'name...","[{'id': 18, 'name': 'Drama'}, {'id': 80, 'name..."
...,...,...,...
4863,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...","[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...","[{'id': 12, 'name': 'Adventure'}, {'id': 14, '..."
4865,"[{'id': 18, 'name': 'Drama'}, {'id': 10749, 'n...","[{'id': 18, 'name': 'Drama'}, {'id': 10749, 'n...","[{'id': 18, 'name': 'Drama'}, {'id': 10749, 'n..."
4880,"[{'id': 28, 'name': 'Action'}, {'id': 36, 'nam...","[{'id': 28, 'name': 'Action'}, {'id': 36, 'nam...","[{'id': 28, 'name': 'Action'}, {'id': 36, 'nam..."
4936,"[{'id': 18, 'name': 'Drama'}, {'id': 10749, 'n...","[{'id': 18, 'name': 'Drama'}, {'id': 10749, 'n...","[{'id': 18, 'name': 'Drama'}, {'id': 10749, 'n..."


In [275]:
data['genres'] = data['genres'].apply(lambda x: ' '.join([i.get('name') for i in eval(x)])) # 다른 답안이다. 나는 이걸 꽤 못했다. 풀지도 못했다.
# lst = []
# for i in range(len(data['genres'])) :
#     st= ''
#     for j in range(len(eval(data['genres'].iloc[i]))) :
#         st += eval(data['genres'].iloc[i])[j]['name'] + ' '
#     lst.append(st)
# ------------------------------------------------------
# data['genres'].apply(lambda x: [d['name'] for d in x]  )
# data['genres'].apply(lambda x: [d['name'] for d in x]).apply(lambda x : " ".join(x))
# 멍청하긴. 복습해야한다. 
data 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['genres'] = data['genres'].apply(lambda x: ' '.join([i.get('name') for i in eval(x)])) # 다른 답안이다. 나는 이걸 꽤 못했다. 풀지도 못했다.


Unnamed: 0,id,genres,vote_average,vote_count,popularity,title,overview,score
0,862,Animation Comedy Family,7.7,5415.0,21.946943,Toy Story,"Led by Woody, Andy's toys live happily in his ...",7.636972
1,8844,Adventure Fantasy Family,6.9,2413.0,17.015539,Jumanji,When siblings Judy and Peter discover an encha...,6.925955
5,949,Action Crime Drama Thriller,7.7,1886.0,17.924927,Heat,"Obsessive master thief, Neil McCauley leads a ...",7.546337
9,710,Adventure Action Thriller,6.6,1194.0,14.686036,GoldenEye,James Bond must unmask the mysterious head of ...,6.740631
15,524,Drama Crime,7.8,1343.0,10.137389,Casino,The life of the gambling paradise – Las Vegas ...,7.572950
...,...,...,...,...,...,...,...,...
4863,120,Adventure Fantasy Action,8.0,8892.0,32.070725,The Lord of the Rings: The Fellowship of the Ring,"Young hobbit Frodo Baggins, after inheriting a...",7.942122
4865,453,Drama Romance,7.7,3087.0,11.93646,A Beautiful Mind,"At Princeton University, John Nash struggles t...",7.596828
4880,855,Action History War,7.2,1832.0,10.064446,Black Hawk Down,When U.S. Rangers and an elite Delta Force tea...,7.161229
4936,10229,Drama Romance,7.5,1057.0,8.054499,A Walk to Remember,"When the popular, restless Landon Carter is fo...",7.337865


In [276]:
# 오버뷰의 단어의 중요도를 수치화 할 수 있다. 수치화하여 행렬로 표현할 수 있다. 
# tfidf행렬이 그런 역할을 한다. 
# 어떤 단어가 있는데 단어가 흔하게 나오면 중요도가 떨어질 것이다. 
# 관사,등은 오버뷰에서 많이 등장할 것이다. 많이 등장했다고 해서 중요한 단어는 아닐것이다. 
# 다른 문서에서도 자주 등장하면 상대적으로 중요하지 않다는 것이다. 
# 반면 하나의 영화에서 많이 나오는 단어가 다른 영화의 오버뷰에서는 흔치 않더라도 중요한 단어일 수 있다. 
# 키워드는 줄거리의 핵심이다. 흔한 단어가 핵심이 되면 안된다.
# 이 영화의 고유의 느낌을 나타내는 단어를 찾는다. 그것이 tfidf이다. 
tfidf = TfidfVectorizer()
tfidf_mat = tfidf.fit_transform(data['genres'])
tfidf_mat # 희소행렬(sparse matrix)는 요소값이 대부분 0인 행렬이다. 밀집행렬과 반대이다. (dense matrix)
# 여기서 18이라는 숫자는 어떻게 나온 것일까? 장르의 종류이다. 

<500x18 sparse matrix of type '<class 'numpy.float64'>'
	with 1480 stored elements in Compressed Sparse Row format>

In [277]:
tfidf_mat.get_shape() # 크기는 500x18이다.

(500, 18)

In [278]:
tfidf_mat.toarray()[0]
# 이게 tfidf행렬이다. 총 500개가 존재할 것이다. 

array([0.        , 0.        , 0.68446074, 0.4370241 , 0.        ,
       0.        , 0.58354386, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        ])

In [279]:
tfidf.vocabulary_ # 가족이 대표값일 것이다. 위를 보면 0.68이 가장 크다. 

{'animation': 2,
 'comedy': 3,
 'family': 6,
 'adventure': 1,
 'fantasy': 7,
 'action': 0,
 'crime': 4,
 'drama': 5,
 'thriller': 15,
 'science': 14,
 'fiction': 8,
 'mystery': 12,
 'romance': 13,
 'horror': 10,
 'history': 9,
 'war': 16,
 'western': 17,
 'music': 11}

In [280]:
tfidf.get_feature_names_out() # 이름만 나온다. 

array(['action', 'adventure', 'animation', 'comedy', 'crime', 'drama',
       'family', 'fantasy', 'fiction', 'history', 'horror', 'music',
       'mystery', 'romance', 'science', 'thriller', 'war', 'western'],
      dtype=object)

In [281]:
tfidf_df = pd.DataFrame(tfidf_mat.toarray(), columns=tfidf.get_feature_names_out())
tfidf_df
# 행렬을 toarray로 바꿔야 하는 번거로움이 존재했다.
# 이런 식으로 확인이 가능해진다. 

Unnamed: 0,action,adventure,animation,comedy,crime,drama,family,fantasy,fiction,history,horror,music,mystery,romance,science,thriller,war,western
0,0.000000,0.000000,0.684461,0.437024,0.000000,0.000000,0.583544,0.000000,0.0,0.000000,0.0,0.0,0.0,0.000000,0.0,0.000000,0.000000,0.0
1,0.000000,0.496438,0.000000,0.000000,0.000000,0.000000,0.606872,0.620689,0.0,0.000000,0.0,0.0,0.0,0.000000,0.0,0.000000,0.000000,0.0
2,0.492218,0.000000,0.000000,0.000000,0.582542,0.419629,0.000000,0.000000,0.0,0.000000,0.0,0.0,0.0,0.000000,0.0,0.492218,0.000000,0.0
3,0.573030,0.585896,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.0,0.000000,0.0,0.0,0.0,0.000000,0.0,0.573030,0.000000,0.0
4,0.000000,0.000000,0.000000,0.000000,0.811403,0.584487,0.000000,0.000000,0.0,0.000000,0.0,0.0,0.0,0.000000,0.0,0.000000,0.000000,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,0.521314,0.533019,0.000000,0.000000,0.000000,0.000000,0.000000,0.666425,0.0,0.000000,0.0,0.0,0.0,0.000000,0.0,0.000000,0.000000,0.0
496,0.000000,0.000000,0.000000,0.000000,0.000000,0.560064,0.000000,0.000000,0.0,0.000000,0.0,0.0,0.0,0.828449,0.0,0.000000,0.000000,0.0
497,0.367192,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.0,0.667979,0.0,0.0,0.0,0.000000,0.0,0.000000,0.647282,0.0
498,0.000000,0.000000,0.000000,0.000000,0.000000,0.560064,0.000000,0.000000,0.0,0.000000,0.0,0.0,0.0,0.828449,0.0,0.000000,0.000000,0.0


In [297]:
# 코사인 유사도는 편하다. 
ans = cosine_similarity(tidf_df).copy()
# 행렬이 나온다. 

In [283]:
cosine_similarity(tfidf_df).shape # 행렬은 500개가 있다. 

(500, 500)

In [258]:
cosine_similarity(tfidf_df)[0] # 0번째 영화가 다른 영화와 얼마나 비슷한지 나타내는 매커니즘이다. 
# 자기 자신과는 같은 코사인유사도가 1이다. 
# 여기서 자기 자신을 뺀 값 중 숫자가 큰 번호를 추천한다.
# 이것이 추천시스템이다.

array([1.        , 0.3541364 , 0.        , 0.        , 0.        ,
       0.22443568, 0.        , 0.51965981, 0.22892439, 0.        ,
       0.73997229, 0.        , 0.        , 0.        , 0.4370241 ,
       0.        , 0.        , 0.19780967, 0.        , 0.        ,
       0.56412632, 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.4370241 , 0.4370241 , 0.18457278, 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.23310648, 0.        ,
       0.22892439, 0.22892439, 0.82251485, 0.17441201, 0.        ,
       0.        , 0.        , 0.        , 0.32310383, 0.        ,
       0.        , 0.        , 0.46026541, 0.63989718, 0.        ,
       0.4370241 , 0.        , 0.22892439, 0.        , 0.7494637 ,
       0.        , 0.        , 0.72904972, 0.        , 0.71968376,
       0.        , 0.        , 0.        , 0.        , 0.7494637 ,
       0.53732606, 0.8994498 , 0.26047833, 0.        , 0.90245

In [223]:
# 핵심은 오버뷰이다. 이름을 묶어야 한다. 명칭은 묶어야 한다. 은근히 할 것이 많다. 
# 주의사항은 문자로 구성된 데이터를 이용한다. 숫자는 따로 변환을 하든지 해야한다.
# 스케일링을 해야할 수도 있다. 

In [285]:
# cosine_similarity(tfidf_df)[0]
# tfidf행렬에서 최대값 10개에 해당되는 영화제목을 출력하시오.
data['title'][0]

'Toy Story'

In [304]:
listyy = []
ans[0][0] = 0
for i in range(1,500):
    if ans[0][i] >= 1:
        print(data['title'].iloc[i])
        listyy.append(data['title'].iloc[i])
        ans[0][i] = 0
        print(listyy)
while len(listyy) < 10:
    listyy.append(data['title'].iloc[np.argmax(ans[0])])
    ans[0][np.argmax(ans[0])] = 0    
print(listyy)
        

['The Little Mermaid', 'Robin Hood', 'Stuart Little', 'The Lion King', 'The Hunchback of Notre Dame', 'Bambi', 'Space Jam', "The Emperor's New Groove", 'Shrek', 'Mulan']


In [293]:
data['title'][0]

'Toy Story'

In [302]:
np.argmax(ans[0])

0