## 1. mongodb 문법 실습

* cine21 배우 랭킹 사이트 크롤링
  - 사이트 주소: http://www.cine21.com/rank/person/
  - 요청 방식 확인 방법: 크롬 개발자 모드로 들어가서, Network -> content 페이지의 요청 방식 확인
    - Request URL: http://www.cine21.com/rank/person/content
    - Request Method: POST
    - Form data
      - section = 'actor'
      - period_start = '2018-08'
      - gender = 'all'
      - page = 3 

#### 배우 랭킹 및 상세 정보 크롤링 및 mongodb 저장 (full source)

In [None]:
from bs4 import BeautifulSoup
import requests
import pymongo
import re

conn = pymongo.MongoClient()
actor_db = conn.cine21
actor_collection = actor_db.actor_collection

actors_info_list = list()

cine21_url = 'http://www.cine21.com/rank/person/content'
post_data = dict()
post_data['section'] = 'actor'
post_data['period_start'] = '2018-08'
post_data['gender'] = 'all'

for index in range(1, 21):
    post_data['page'] = index

    res = requests.post(cine21_url, data=post_data)
    soup = BeautifulSoup(res.content, 'html.parser')

    actors = soup.select('li.people_li div.name')
    hits = soup.select('ul.num_info > li > strong')
    movies = soup.select('ul.mov_list')
    rankings = soup.select('li.people_li > span.grade')
    
    for index, actor in enumerate(actors):
        actor_name = re.sub('\(\w*\)', '', actor.text)
        actor_hits = int(hits[index].text.replace(',', ''))
        movie_titles = movies[index].select('li a span')
        movie_title_list = list()
        for movie_title in movie_titles:
            movie_title_list.append(movie_title.text)
        actor_info_dict = dict()
        actor_info_dict['배우이름'] = actor_name
        actor_info_dict['흥행지수'] = actor_hits
        actor_info_dict['출연영화'] = movie_title_list
        actor_info_dict['랭킹'] = rankings[index].text

        actor_link = 'http://www.cine21.com' + actor.select_one('a').attrs['href']
        response_actor = requests.get(actor_link)
        soup_actor = BeautifulSoup(response_actor.content, 'html.parser')
        default_info = soup_actor.select_one('ul.default_info')
        actor_details = default_info.select('li')

        for actor_item in actor_details:
            actor_item_field = actor_item.select_one('span.tit').text
            actor_item_value = re.sub('<span.*?>.*?</span>', '', str(actor_item))
            actor_item_value = re.sub('<.*?>', '', actor_item_value)
            actor_info_dict[actor_item_field] = actor_item_value
        actors_info_list.append(actor_info_dict)
        
actor_collection.insert_many(actors_info_list)

#### mongodb 접속 기본 코드

In [None]:
from bs4 import BeautifulSoup
import requests
import pymongo
import re

conn = pymongo.MongoClient()
actor_db = conn.cine21
actor_collection = actor_db.actor_collection

actor_collection.find_one({})
docs = actor_collection.find({}).limit(3)
for doc in docs:
    print (doc)
actor = actor_collection

### 1.1. 컬럼명 변경 
* 저장되 있는 mongodb 데이터의 컬럼명을 변경하는 방법
* update_one()/update_many() 함수 활용

In [None]:
actor_collection.update_many ( {}, { '$rename': {'다른 이름':'다른이름'}} )

In [None]:
docs = actor_collection.find({}).limit(3)
for doc in docs:
    print (doc)

#### 참고: collection 변수명 변경

In [None]:
actor = actor_collection

### 1.2 find의 다양한 문법 - sort

In [None]:
docs = actor_collection.find({}).sort('생년월일', pymongo.DESCENDING).limit(10)
for doc in docs:
    print (doc)

### 1.3 find의 다양한 문법 - exists

In [None]:
docs = actor.find({'특기': {'$exists':True}}).sort('흥행지수').limit(5)
for doc in docs:
    print (doc)

<div class="alert alert-block alert-warning">
<font color="blue" size="4em">실습</font><br>
생년월일이 없는 doc의 actor_name 만 출력하기
</div>

In [None]:
docs = actor.find({'생년월일': {'$exists':False}}, {'배우이름':1, '_id':0})
for doc in docs:
    print (doc)

### 1.4 find의 다양한 문법 - 필드값 범위로 검색

In [None]:
docs = actor.find({'흥행지수': {'$gte': 10000}, '출연영화':'극한직업'}, {'배우이름':1, '출연영화':1, '_id':0}).sort('배우이름').limit(3)
for doc in docs:
    print(doc)

### find의 다양한 문법 - or

In [None]:
docs = actor.find({'$or': [{'출연영화':'극한직업'}, {'출연영화':'더 킹'}] }, {'배우이름':1, '출연영화':1, '_id':0})
for doc in docs:
    print(doc)

In [None]:
docs = actor.find({ '흥행지수': {'$gte': 10000}, '$or': [{'출연영화':'극한직업'}, {'출연영화':'더 킹'}] }, {'배우이름':1, '출연영화':1, '_id':0})
for doc in docs:
    print(doc)

### find의 다양한 문법 - nor
* not or

In [None]:
docs = actor.find({'$nor': [{'흥행지수': { '$gte': 10000}}, {'흥행지수': { '$lte': 2000}}]}, {'배우이름':1, '흥행지수':1, '_id':0}).limit(3)
for doc in docs:
    print (doc)

### find의 다양한 문법 - in, nin
* in: 들어가 있다.
* nin: not in - 들어가 있지 않다.

In [None]:
docs = actor.find({'흥행지수': { '$in': [9182, 8439]}}, {'배우이름':1, '흥행지수':1, '_id':0})
for doc in docs:
    print (doc)

In [None]:
docs = actor.find({'흥행지수': { '$nin': [9182, 8439]}}, {'배우이름':1, '흥행지수':1, '_id':0}).limit(3)
for doc in docs:
    print (doc)

<div class="alert alert-block alert-warning">
<font color="blue" size="4em">실습</font><br>
흥행지수 가 9182, 8439가 아니고, 10000 이하인 데이터를 3개만 검색하세요. (nor, in, gt 활용, 배우이름과 흥행지수만 출력)
</div>

In [None]:
docs = actor.find({'$nor': [{'흥행지수': { '$in': [9182, 8439]}}, {'흥행지수': { '$gt': 10000}}]}, {'배우이름':1, '흥행지수':1, '_id':0}).limit(3)
for doc in docs:
    print (doc)

### find의 다양한 문법 - skip, limit
* skip(n): 검색 결과 n개만큼 건너뜀
* limit(n): 검색 결과 n개만 표시

In [None]:
docs = actor.find({'흥행지수': {'$gte': 10000}}).limit(3)
for doc in docs:
    print (doc)

In [None]:
docs = actor.find({'흥행지수': {'$gte': 10000}}).skip(3)
for doc in docs:
    print (doc)

In [None]:
docs = actor.find({'흥행지수': {'$gte': 10000}}).skip(3).limit(3)
for doc in docs:
    print (doc)

### find의 다양한 문법 - list 검색

In [None]:
docs = actor.find({'출연영화': '극한직업'})
for doc in docs:
    print (doc)

In [None]:
docs = actor.find({'$or': [{'출연영화': '극한직업'}, {'출연영화': '사바하'}]})
for doc in docs:
    print (doc)

### find의 다양한 문법 - list 검색 (all)

In [None]:
docs = actor.find({'출연영화': { '$all': ['변산', '사바하']}})
for doc in docs:
    print (doc)

### find의 다양한 문법 - list 검색 (리스트 index 번호로 검색하기)

In [None]:
docs = actor.find({'출연영화.0': '사바하'})
for doc in docs:
    print (doc)

### find의 다양한 문법 - list 검색 (리스트 사이즈로 검색하기)

In [None]:
docs = actor.find({'출연영화': {'$size': 5}})
for doc in docs:
    print(doc)

### find의 다양한 문법 (elemMatch)
* 적어도 한 개 이상의 리스트 요소가 복수 개의 조건을 동시에 만족하는 경우

In [None]:
from bs4 import BeautifulSoup
import requests
import pymongo
import re

conn = pymongo.MongoClient()
actor_db = conn.cine21
elemmatch_sample = actor_db.sample

In [None]:
elemmatch_sample.insert_many([
    {'results': [82, 85, 88]},
    {'results': [75, 88, 91]}
])

In [None]:
docs = elemmatch_sample.find({'results': {'$gte': 90, '$lt':85}})
for doc in docs:
    print (doc)

In [None]:
docs = elemmatch_sample.find({'results': {'$elemMatch': {'$gte':75, '$lt':80}}})
for doc in docs:
    print (doc)

<div class="alert alert-block alert-warning">
<font color="blue" size="4em">실습</font><br>
직업이 가수인 배우 중, 흥행지수가 가장 높은 배우순으로 10명을 출력하세요
</div>

In [4]:
docs = actor.find({'직업':'가수'}).sort('흥행지수', pymongo.DESCENDING).limit(10)
for doc in docs:
    print (doc)

{'_id': ObjectId('5d4541ccc92b652d52161369'), '배우이름': '김설현', '흥행지수': 2944, '출연영화': ['안시성'], '랭킹': '87', '직업': '가수', '생년월일': '1995-01-03', '성별': '여', '홈페이지': '\nhttps://instagram.com/sh_9513\n', '다른이름': '김설현;AOA;에이오에이'}
{'_id': ObjectId('5d4541ccc92b652d52161377'), '배우이름': '도경수', '흥행지수': 2475, '출연영화': ['스윙키즈', '언더독', '신과 함께-죄와 벌', '형', '순정', '7호실'], '랭킹': '101', '직업': '가수', '성별': '남', '다른이름': '엑소;EXO; 디오'}
{'_id': ObjectId('5d4541ccc92b652d52161378'), '배우이름': '진영', '흥행지수': 2469, '출연영화': ['내안의 그놈', '수상한 그녀'], '랭킹': '102', '직업': '가수', '생년월일': '1991-11-18', '성별': '남', '홈페이지': '\nhttps://twitter.com/_jinyoung911118\nhttps://instagram.com/jinyoung0423/\n', '신장/체중': '178cm, 59kg', '다른이름': '정진영; 비원에이포; B1A4'}
{'_id': ObjectId('5d4541ccc92b652d52161387'), '배우이름': '임윤아', '흥행지수': 2176, '출연영화': ['엑시트', '공조'], '랭킹': '117', '직업': '가수', '생년월일': '1990-05-30', '성별': '여', '홈페이지': '\nhttps://www.instagram.com/yoona__lim/\n', '소속사': 'SM엔터테인먼트', '다른이름': '소녀시대; girlsgeneration; girls generation'}


<div class="alert alert-block alert-warning">
<font color="blue" size="4em">실습</font><br>
국가부도의 날에 출연한 배우를 흥행지수가 높은 순으로 10명 출력하세요 
</div>

In [5]:
docs = actor.find({'출연영화':'국가부도의 날'}).sort('흥행지수', pymongo.DESCENDING).limit(10)
for doc in docs:
    print (doc)

{'_id': ObjectId('5d4541ccc92b652d52161325'), '배우이름': '조한철', '흥행지수': 11833, '출연영화': ['신과 함께-인과 연', '국가부도의 날', '로망', '배심원들'], '랭킹': '19', '직업': '배우', '생년월일': '1973-05-13', '성별': '남'}
{'_id': ObjectId('5d4541ccc92b652d5216132a'), '배우이름': '김홍파', '흥행지수': 10516, '출연영화': ['공작', '국가부도의 날', '마약왕', '말모이', '배심원들', '더 테러 라이브'], '랭킹': '24', '직업': '배우', '생년월일': '1962-01-05', '성별': '남'}
{'_id': ObjectId('5d4541ccc92b652d5216132b'), '배우이름': '조우진', '흥행지수': 10356, '출연영화': ['돈', '창궐', '마약왕', '국가부도의 날', '어쩌다, 결혼', '강철비'], '랭킹': '25', '직업': '배우', '생년월일': '1979-01-16', '성별': '남', '다른이름': '조신제'}
{'_id': ObjectId('5d4541ccc92b652d5216133f'), '배우이름': '염혜란', '흥행지수': 5513, '출연영화': ['국가부도의 날', '미성년', '증인', '걸캅스', '아이 캔 스피크'], '랭킹': '45', '직업': '배우', '성별': '여'}
{'_id': ObjectId('5d4541ccc92b652d52161344'), '배우이름': '송영창', '흥행지수': 5183, '출연영화': ['마약왕', '국가부도의 날', '악질경찰', '말모이', '박쥐', '좋은 놈, 나쁜 놈, 이상한 놈'], '랭킹': '50', '직업': '배우', '생년월일': '1958-04-02', '성별': '남', '학교': '중앙대학교대학원 연극영화학', '취미': '볼링, 비디오감상', '다른이름': '宋永