#### 데이터 로드 및 살펴보기

In [46]:
import pandas as pd

In [47]:
# 고객 정보 로드
# 고객 정보 컬럼 ; 아이디, 나이, 성별, 직업, 주소(우편번호)
cols  = ['uid','age','sex','job','zip_code']
users = pd.read_csv( './ml-100k/u.user', sep='|', names=cols )
users.shape

(943, 5)

In [48]:
users.head()

Unnamed: 0,uid,age,sex,job,zip_code
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,4,24,M,technician,43537
4,5,33,F,other,15213


In [49]:
# 영화 정보 로드
# 영화ID, 제목, 개봉일, 비디오개봉일, imdb 주소
m_cols = ['mid','title','relese_date','video_relese_date','imdb_url']
# 실제 데이터에 컬럼이 더 많은데, 앞에서부터 잘라서 적용하고 싶다
movies = pd.read_csv( './ml-100k/u.item', sep='|', names=m_cols, 
                      encoding='latin1', usecols=range(5) )
movies.head()

Unnamed: 0,mid,title,relese_date,video_relese_date,imdb_url
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...
1,2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...
2,3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...
3,4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...
4,5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995)


In [50]:
movies.shape

(1682, 5)

In [51]:
- u.user : 고객 정보
- u.item : 영화 정보
- u.data : 평점 정보

SyntaxError: invalid syntax (<ipython-input-51-8646c1f465c4>, line 1)

In [None]:
# 평점 정보
ratings_cols    = ['uid','mid','rating','unix_timestamp']
ratings = pd.read_csv( './ml-100k/u.data', sep='\t', names=ratings_cols )
ratings.shape

In [None]:
ratings.head()

In [None]:
# unix_timestamp -> 우리가 알수 있는 YYYY-MM-dd hh:mm:ss
# date라는 컬럼에 추가
ratings[ 'date' ] = pd.to_datetime( ratings[ 'unix_timestamp' ], unit='s' )

In [None]:
ratings.head()

#### 데이터 준비/시각화/통찰

In [None]:
# 정보 병합
# movies, ratings, users
# movies, ratings => 병합 movies_ratings
movies_ratings = pd.merge( movies, ratings )
movies_ratings.head()

In [None]:
movies_ratings.shape

In [None]:
movie_lens = pd.merge( movies_ratings, users)
movie_lens.head()

In [None]:
movie_lens.shape

In [None]:
# 평가를 가장 많이 받은 작품 상위 10개 
movie_lens.title.value_counts()[:10]
# 인기가 아주 없는 영화는 빼고(평점 특정 개수 이하는 제외), 
# 보여지는 데이터를 기준으로 살펴보면 영화가 오래 될수록 평가를 많인 받는 경향이
# 보인다. 

In [None]:
movie_lens.title.value_counts()[-10:]

In [None]:
import numpy as np

In [None]:
# 제목기준으로 데이ㅏ터를 나누는데, 평가의 개수, 평점평균을 포함한 데이터 프레임
# 인덱스에 title, 컬럼에 평가의 개수:size, 평점평균:mean
# 피벗없이 수행
# rating : 1차 레벨 컬럼, np.size, np.mean 2차 래벨의 컬럼
movie_state = movie_lens.groupby('title').agg( {'rating':[ np.size, np.mean]} )
movie_state.head()

In [None]:
# 평점을 받는 개수가 1개인 영화, 즉 소수의 평가를 받은 영화가 많다
# 평균의 수가 적으면 노이즈가 개입되기 쉽다
# 일정 횟수 이상인 경우 (여기서는 100건 기준)만 대상으로 처리하겟다

In [None]:
# 평가의 개수가 100개 이상인 데이터만 대상 추출 -> 블리언인덱싱
best_100_over = movie_state['rating']['size'] >= 100

In [None]:
# 오름 차순 정렬하시오 -> 평균기준
# 변수명 tmp
tmp = movie_state[ best_100_over ].sort_values( by=[ ('rating','mean') ], 
                                                ascending=False)
tmp.head()

In [None]:
tmp.tail()

In [None]:
tmp.shape

In [None]:
# 간단한 시각화
# 영화별 평점 개수 : x축
# 사용자별 평가 횟수 : y축 
from matplotlib import pyplot as plt
from korea_font import initKoreaFontLoad
initKoreaFontLoad()

In [None]:
#%matplotlib inline

In [None]:
# 사용자별 평점을 내린 개수
movie_lens.groupby('uid').size()[:10]

In [None]:
# 히스토그램 
plt.style.use('ggplot')
movie_lens.groupby('uid').size().sort_values( ascending=False ).hist()
# 빈도가 낮아지는 그래프 모양 -> 길게 꼬리르 늘어뜨리는 모양이다 => 롱테일분포
# "지프의 법칙"을 따르는 굴곡 모양이다
# 자연어 말뭉치 표현에 나타나는 단어들을 그 사용 빈도가 높은순으로 나열하면,
# 모든 단어의 사용 빈도는 해당 단어의 빈도 순위에 반비례한다
# 영화의 평가가 많으면, 그 사용들중에는 1회성 평가회수도 많다

In [None]:
# 사용자별 평가 회수, 평균 
user_state = movie_lens.groupby('uid').agg( { 'rating' : [ np.size, np.mean ]} )
user_state.head()

In [None]:
user_state.shape

In [None]:
user_state['rating'].describe()
# 평균값 데이터를 보면, 최저 1.49점, 최대 4.87점, 25~75% 지점의 모두다 3.대에\
# 머물러 있어서, 일반적으로 (평균적으로) 3.59정도는 받는다 (3점이상는 받는다)
# 3점이하는 진짜 영화가 아닌것이다.
# 최대 점수와 최저 점수는 편중된것으로 보인다

#### 인수분해 머신을 이용한 추천 시스템 구성

- 행렬 인수 분해라는 기능을 일반화한 알고리즘 -> 차원축소기법
- 회소 행렬을 다룰소 있는 알고리즘
- 특징끼리 영향을 주고 받는 상호 작용 개념을 계산에 적용이 가능
- 범주형 변수를 더미 변수(파생 변수)로 변환하여 범주간 상호 작용성도 계산 가능
- 알고리즘은 회귀, 분류, 학습등도 가능  
- C++로 만들어진 libFM이라는 알고리즘이 가장 유명 -> 파이썬으로 구성된 fastFM 

##### fastFM 제공 알고리즘
- ALS : 교대 최소 제곱법
 > 장점: 예측 시간 빠름, SGD보다 하이퍼파라이터가 작다  
 > 단점: 규제 반드시(필수)
- SGD : 확률적 경사하강법 
 > 장점: 예측 시간 빠름, 대규모 데이터(빅데이터)를 빠르게 학습할수 있다  
 > 단점: 규제 반드시(필수), 하이퍼파라이터가 많다  
- MCMC : 마르코프 연쇄 몬테카를로
 > 장점: 하이퍼파라이터가 작다. 자동 규제(알아서적용)
 > 단점: 학습 시간이 다소 느림

#### 도커 도입

- 사용하고자 하는 오픈소스 알고리즘(모듈)중에는 윈도우에서 수행이 불가능한 경우가 많다. 
- 도커를 이용하여 리눅스 생태계를 만들고, 거기서 fastFM 을 설치후 주피터를 연결하여 개발을 이어가겟다.

In [None]:
# 도커 설치
# 1. 도커 가입
- docker.com

# 2. 도커 다운로드 및 설치 (윈도우용)
- https://www.docker.com/products/docker-desktop
- 다운로드 및 설치 850MB
or 
[ 공식적으로는 window 10 home 에디션 이하 ]
- https://github.com/docker/toolbox/releases
- 다운로드및 설치
  (별도 체크박스 수정없이 다 긍정 및 확인 하면서 설치)

# 3. 도커 콘솔 가동 (docker desktop)
$ docker version

# 4. 컨테이너 이미지 다운로드 (도커 허브에서 다운로드)
$ docker pull ubuntu:latest
-> 네트워크가 않되는 사람( docker version 수행서 서버 접속 에러난 경우)
$ dockerCli.exe -SwitchDaemon
$ docker version
-> 위에 명령 수행후확인
-> 그래도 않되면 도커툴 설치후 도커툴에서 진행

or
$ docker pull ubuntu:18.04

# 5. 다운로드한 이미지 확인
$ docker images

# 6. 다운로드한 이미지 제거
$ docker rmi ubuntu:latest
- 확인
$ docker images

# 7. 컨테이너 이미지를 이용하여 컨테이너 생성 및 로그인
# 단 포트는 컨테이너를 생성할때 단 한번 세팅이 가능
$ docker run -p 8888:8888 -p 8123:8123 --name ml -i -t ubuntu:latest /bin/bash
=> -p  인바운드포트:아웃바운트포트, 1회만 세팅, 필요한 만큼 추가
=> --name 컨테이너 인스턴스의 이름
=> -i(interactive), -t(Pseudo-tty) 이 옵션 추가하면 Bash shell에 
   입력 및 출력을 수행할수 있다
=> ubuntu:latest 설치할 이미지
=> /bin/bash는 커맨드 쉘의 한 종류, 이를 사용하기 위해 명령어 입력

# 8. 리눅스에서 빠져나가기
root@$ exit

# 9. 컨테이너 인스턴스의 목록
$ docker ps -a

# 10. 컨테이너 인스턴스 가동
$ docker start ml
$ docker ps -a

# 11. 재가동
$ docker restart ml

# 12. 접속
$ docker attach ml
root@$ ...

# 13. 리눅스는 나가서, 컨테이너 인스턴스 제거
root@$ exit
$ docker rm ml
$ docker ps -a

In [None]:
# 14. 리눅스상에서 환경 구축
root@$ apt-get update && apt-get -y upgrade

-> https://github.com/ibayer/fastFM

- 패키지 설치
root@$ apt-get -y install python3-dev libopenblas-dev git python3-pip nano wget unzip

- fastFM 소스 다운로드
root@$ cd home
root@$ git clone --recursive https://github.com/ibayer/fastFM.git
root@$ cd fastFM    

- 파이썬 라이브러리 설치
root@$ pip3 install -r ./requirements.txt

- 빌드 -> 중간에이나 끝부분에 error 가 보일수도 있다(무시)
root@$ PYTHON=python3 make

- 패키지 설치
root@$ pip3 install .
root@$ python3
>>> from fastFM import als
>>> 
>>> exit()
root@$ pip3 install pandas matplotlib jupyter

- 주피터 노트북 가동
root@$ jupyter notebook --ip=0.0.0.0 --port=8123 --allow-root --no-browser
or 
root@$ jupyter notebook --ip=0.0.0.0 --allow-root ( 기본 포트 8888 )

- 기본 PC에서 브라우저 접속
[toolbox 사용자]
도커 구동시 IP를 사용
docker is configured to use the default machine with IP 192.168.99.100
http://192.168.99.100:8123/?token=c4a28a0fec6d6eff0d3d28a9a0d62838f5f7a188cdedf686

[일반 사용자]
http://127.0.0.1:8123/?token=c4a28a0fec6d6eff0d3d28a9a0d62838f5f7a188cdedf686
