### RDBMS (관계형 데이터베이스)
- sql언어를 사용
- 규격이 엄격하고, 다양한 규격이 있으면 매번 수정해주어야 한다..
- Mysql, Oracle, Postgresql, SQLIte ...

### NoSQL
- sql을 사용하지 않음.
- 고정된 스키마가 없다..
- 정해진 규격이 엄격하지 않다..
- Mongodb, redis, Hbase, cassandra...

### Mongodb
- json구조로 data(document)를 관리
- sql : database > table > data(row, column)
- mongodb : database > collection > document

In [3]:
!pip install pymongo

Collecting pymongo
  Downloading pymongo-4.0.1-cp39-cp39-win_amd64.whl (354 kB)
Installing collected packages: pymongo
Successfully installed pymongo-4.0.1


In [4]:
import pymongo

In [5]:
conn = pymongo.MongoClient()  # server connection

In [6]:
tdb = conn['testdb']  # db를 새로이 생성과 동시에 연결

In [7]:
col_it = tdb['it']  # collection을 새로 생성과 동시에 연결

In [9]:
post = {'author':'Mike', 'text':' my first blog post', 'tags':['mongodb','python','pymongo']}
col_it.insert_one(post)

<pymongo.results.InsertOneResult at 0x1dce65cb780>

In [11]:
results = col_it.find()
for r in results:
    print(r)

{'_id': ObjectId('62034ea5f6f29a47cb029df9'), 'author': 'Mike', 'text': ' my first blog post', 'tags': ['mongodb', 'python', 'pymongo']}


In [12]:
col_it.insert_one({'author':'Dave Lee', 'age':45})

<pymongo.results.InsertOneResult at 0x1dce60a0ac0>

In [13]:
results = col_it.find()
for r in results:
    print(r)

{'_id': ObjectId('62034ea5f6f29a47cb029df9'), 'author': 'Mike', 'text': ' my first blog post', 'tags': ['mongodb', 'python', 'pymongo']}
{'_id': ObjectId('62034f27f6f29a47cb029dfa'), 'author': 'Dave Lee', 'age': 45}


* insert_many()

In [14]:
col_it.insert_many(
    [
        {'author':'Dave Ahn', 'age':25},
        {'author':'Dave', 'age':35}
    ]
)

<pymongo.results.InsertManyResult at 0x1dce6688e80>

In [15]:
results = col_it.find()
for r in results:
    print(r)

{'_id': ObjectId('62034ea5f6f29a47cb029df9'), 'author': 'Mike', 'text': ' my first blog post', 'tags': ['mongodb', 'python', 'pymongo']}
{'_id': ObjectId('62034f27f6f29a47cb029dfa'), 'author': 'Dave Lee', 'age': 45}
{'_id': ObjectId('62034f94f6f29a47cb029dfb'), 'author': 'Dave Ahn', 'age': 25}
{'_id': ObjectId('62034f94f6f29a47cb029dfc'), 'author': 'Dave', 'age': 35}


* document insert하면서, _id(primary key)를 확인하는 법

In [16]:
post = {'author':'Dave', 'text':'my first blog post'}

post_id = col_it.insert_one(post)
post_id

<pymongo.results.InsertOneResult at 0x1dce6688b00>

In [17]:
post_id.inserted_id

ObjectId('62035018f6f29a47cb029dfd')

* document count

In [18]:
col_it.count_documents({})

5

In [21]:
# col_it.count()

* 입력 : {}, 리스트, 중첩 딕셔너리 

In [22]:
col_it.insert_one({'title':'암살', 'castings':['이정재','전지현','하정우']})

<pymongo.results.InsertOneResult at 0x1dce60f5900>

In [23]:
col_it.insert_one(
    {
        'title':'실미도',
        'castings':['설경구','안성기'],
        'datetime':
        {
            'year':'2003',
            'month': 3,
            'val':
            {
                'a':
                {
                    'b':1
                }
            }
        }
    }
)

<pymongo.results.InsertOneResult at 0x1dce674bfc0>

In [24]:
data = list()
data.append({'name':'aaron', 'age':20})
data.append({'name':'bob', 'age':30})
data.append({'name':'cathy', 'age':25})
data.append({'name':'david', 'age':27})
data.append({'name':'erick', 'age':28})
data.append({'name':'fox', 'age':32})
data.append({'name':'hmm'})

col_it.insert_many(data)

<pymongo.results.InsertManyResult at 0x1dce60ca3c0>

In [25]:
col_it.count_documents({})

14

### document 검색하기

* find_one( {key:value} )

In [26]:
col_it.find_one()

{'_id': ObjectId('62034ea5f6f29a47cb029df9'),
 'author': 'Mike',
 'text': ' my first blog post',
 'tags': ['mongodb', 'python', 'pymongo']}

In [28]:
results = col_it.find()
for r in results:
    print(r)

{'_id': ObjectId('62034ea5f6f29a47cb029df9'), 'author': 'Mike', 'text': ' my first blog post', 'tags': ['mongodb', 'python', 'pymongo']}
{'_id': ObjectId('62034f27f6f29a47cb029dfa'), 'author': 'Dave Lee', 'age': 45}
{'_id': ObjectId('62034f94f6f29a47cb029dfb'), 'author': 'Dave Ahn', 'age': 25}
{'_id': ObjectId('62034f94f6f29a47cb029dfc'), 'author': 'Dave', 'age': 35}
{'_id': ObjectId('62035018f6f29a47cb029dfd'), 'author': 'Dave', 'text': 'my first blog post'}
{'_id': ObjectId('620350fdf6f29a47cb029dfe'), 'title': '암살', 'castings': ['이정재', '전지현', '하정우']}
{'_id': ObjectId('6203518ef6f29a47cb029dff'), 'title': '실미도', 'castings': ['설경구', '안성기'], 'datetime': {'year': '2003', 'month': 3, 'val': {'a': {'b': 1}}}}
{'_id': ObjectId('62035217f6f29a47cb029e00'), 'name': 'aaron', 'age': 20}
{'_id': ObjectId('62035217f6f29a47cb029e01'), 'name': 'bob', 'age': 30}
{'_id': ObjectId('62035217f6f29a47cb029e02'), 'name': 'cathy', 'age': 25}
{'_id': ObjectId('62035217f6f29a47cb029e03'), 'name': 'david', '

In [31]:
col_it.find_one({'author':'Dave'})

{'_id': ObjectId('62034f94f6f29a47cb029dfc'), 'author': 'Dave', 'age': 35}

In [30]:
results = col_it.find({'author':'Dave'})

for r in results:
    print(r)

{'_id': ObjectId('62034f94f6f29a47cb029dfc'), 'author': 'Dave', 'age': 35}
{'_id': ObjectId('62035018f6f29a47cb029dfd'), 'author': 'Dave', 'text': 'my first blog post'}


In [32]:
col_it.count_documents({'author':'Dave'})

2

In [33]:
for r in col_it.find().sort('age'):
    print(r)

{'_id': ObjectId('62034ea5f6f29a47cb029df9'), 'author': 'Mike', 'text': ' my first blog post', 'tags': ['mongodb', 'python', 'pymongo']}
{'_id': ObjectId('62035018f6f29a47cb029dfd'), 'author': 'Dave', 'text': 'my first blog post'}
{'_id': ObjectId('620350fdf6f29a47cb029dfe'), 'title': '암살', 'castings': ['이정재', '전지현', '하정우']}
{'_id': ObjectId('6203518ef6f29a47cb029dff'), 'title': '실미도', 'castings': ['설경구', '안성기'], 'datetime': {'year': '2003', 'month': 3, 'val': {'a': {'b': 1}}}}
{'_id': ObjectId('62035217f6f29a47cb029e06'), 'name': 'hmm'}
{'_id': ObjectId('62035217f6f29a47cb029e00'), 'name': 'aaron', 'age': 20}
{'_id': ObjectId('62034f94f6f29a47cb029dfb'), 'author': 'Dave Ahn', 'age': 25}
{'_id': ObjectId('62035217f6f29a47cb029e02'), 'name': 'cathy', 'age': 25}
{'_id': ObjectId('62035217f6f29a47cb029e03'), 'name': 'david', 'age': 27}
{'_id': ObjectId('62035217f6f29a47cb029e04'), 'name': 'erick', 'age': 28}
{'_id': ObjectId('62035217f6f29a47cb029e01'), 'name': 'bob', 'age': 30}
{'_id': O

##### document update : update_one(), update_many()

In [34]:
col_it.find_one({'author':'Dave'})

{'_id': ObjectId('62034f94f6f29a47cb029dfc'), 'author': 'Dave', 'age': 35}

In [35]:
col_it.update_one({"author":'Dave'}, 
                 {"$set": {'text':'Hi Dave'}})

<pymongo.results.UpdateResult at 0x1dce7722a00>

In [37]:
for d in col_it.find({'author':'Dave'}):
    print(d)

{'_id': ObjectId('62034f94f6f29a47cb029dfc'), 'author': 'Dave', 'age': 35, 'text': 'Hi Dave'}
{'_id': ObjectId('62035018f6f29a47cb029dfd'), 'author': 'Dave', 'text': 'my first blog post'}


In [38]:
col_it.update_one({"author":'Dave'}, 
                 {"$set": {'age':40}})

<pymongo.results.UpdateResult at 0x1dce6683840>

In [39]:
for d in col_it.find({'author':'Dave'}):
    print(d)

{'_id': ObjectId('62034f94f6f29a47cb029dfc'), 'author': 'Dave', 'age': 40, 'text': 'Hi Dave'}
{'_id': ObjectId('62035018f6f29a47cb029dfd'), 'author': 'Dave', 'text': 'my first blog post'}


In [40]:
col_it.update_many({'author':'Dave'},
                  {"$set": {'text':'hi dave'}})

<pymongo.results.UpdateResult at 0x1dce66837c0>

In [41]:
for d in col_it.find({'author':'Dave'}):
    print(d)

{'_id': ObjectId('62034f94f6f29a47cb029dfc'), 'author': 'Dave', 'age': 40, 'text': 'hi dave'}
{'_id': ObjectId('62035018f6f29a47cb029dfd'), 'author': 'Dave', 'text': 'hi dave'}


##### document delete : delete_one(), delete_many()

In [44]:
for d in col_it.find({'author':'Dave Lee'}):
    print(d)

{'_id': ObjectId('62034f27f6f29a47cb029dfa'), 'author': 'Dave Lee', 'age': 45}


In [45]:
col_it.delete_one({'author':'Dave Lee'})

<pymongo.results.DeleteResult at 0x1dce60bf480>

In [46]:
for d in col_it.find({'author':'Dave Lee'}):
    print(d)

In [47]:
for d in col_it.find({'author':'Dave'}):
    print(d)

{'_id': ObjectId('62034f94f6f29a47cb029dfc'), 'author': 'Dave', 'age': 40, 'text': 'hi dave'}
{'_id': ObjectId('62035018f6f29a47cb029dfd'), 'author': 'Dave', 'text': 'hi dave'}


In [48]:
col_it.delete_many({'author':'Dave'})

<pymongo.results.DeleteResult at 0x1dce66ab040>

In [49]:
for d in col_it.find({'author':'Dave'}):
    print(d)

In [51]:
boos = conn.books # 새로운 database

In [52]:
it_book = boos.it_books  # 새로운 collections

In [50]:
data = list()
for index in range(100):
    data.append({'author':'Dave Lee', 'publisher':'bit_company', 'number': index})

In [53]:
data

[{'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 0},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 1},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 2},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 3},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 4},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 5},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 6},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 7},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 8},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 9},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 10},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 11},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 12},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 13},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 14},
 {'au

In [54]:
it_book.insert_many(data)

<pymongo.results.InsertManyResult at 0x1dce7729140>

In [55]:
docs = it_book.find()
for doc in docs:
    print(doc)

{'_id': ObjectId('620356e8f6f29a47cb029e07'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 0}
{'_id': ObjectId('620356e8f6f29a47cb029e08'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 1}
{'_id': ObjectId('620356e8f6f29a47cb029e09'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 2}
{'_id': ObjectId('620356e8f6f29a47cb029e0a'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 3}
{'_id': ObjectId('620356e8f6f29a47cb029e0b'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 4}
{'_id': ObjectId('620356e8f6f29a47cb029e0c'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 5}
{'_id': ObjectId('620356e8f6f29a47cb029e0d'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 6}
{'_id': ObjectId('620356e8f6f29a47cb029e0e'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 7}
{'_id': ObjectId('620356e8f6f29a47cb029e0f'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 8}
{'_id': ObjectId('6

In [56]:
it_book.update_many({}, {'$set': {'publisher':'bit_camp_pub'}})

<pymongo.results.UpdateResult at 0x1dce614dc80>

In [57]:
docs = it_book.find()
for doc in docs:
    print(doc)

{'_id': ObjectId('620356e8f6f29a47cb029e07'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 0}
{'_id': ObjectId('620356e8f6f29a47cb029e08'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 1}
{'_id': ObjectId('620356e8f6f29a47cb029e09'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 2}
{'_id': ObjectId('620356e8f6f29a47cb029e0a'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 3}
{'_id': ObjectId('620356e8f6f29a47cb029e0b'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 4}
{'_id': ObjectId('620356e8f6f29a47cb029e0c'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 5}
{'_id': ObjectId('620356e8f6f29a47cb029e0d'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 6}
{'_id': ObjectId('620356e8f6f29a47cb029e0e'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 7}
{'_id': ObjectId('620356e8f6f29a47cb029e0f'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 8}
{'_id': Ob

In [58]:
it_book.delete_many({'number': {'$gte': 6}})

<pymongo.results.DeleteResult at 0x1dce669f600>

In [59]:
docs = it_book.find()
for doc in docs:
    print(doc)

{'_id': ObjectId('620356e8f6f29a47cb029e07'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 0}
{'_id': ObjectId('620356e8f6f29a47cb029e08'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 1}
{'_id': ObjectId('620356e8f6f29a47cb029e09'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 2}
{'_id': ObjectId('620356e8f6f29a47cb029e0a'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 3}
{'_id': ObjectId('620356e8f6f29a47cb029e0b'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 4}
{'_id': ObjectId('620356e8f6f29a47cb029e0c'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 5}


In [None]:
# crawling - cine21

In [62]:
import requests
from bs4 import BeautifulSoup

In [63]:
url = 'http://www.cine21.com/rank/person'

In [64]:
res = requests.get(url)
soup = BeautifulSoup(res.text, 'html.parser')
soup

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta content="1641311652800771" property="fb:pages"/>
<meta content="vTM0gmeRzJwn1MIM1LMSp3cxP_SaBzch1ziRY255RHw" name="google-site-verification"/>
<meta content="5yOe6b_e_3rr7vNDwgXJw_8wLZQGx4lJ_V48KNPrqkA" name="google-site-verification"/>
<meta content="20defde86fc4464f2693891567a98905bd0a60d1" name="naver-site-verification"/>
<meta content="dmds9ks357rhqvdnk" name="dailymotion-domain-verification"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<title>씨네21</title>
<link href="/inc/www/css/default1.css" media="all" rel="stylesheet" type="text/css"/>
<link href="/inc/www/css/content1.css" media="all" rel="stylesheet" type="text/css"/>
<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.12.0/jquery.min.js"></script>
<meta conten

In [67]:
soup.select('div#rank_holder')

[<div id="rank_holder"></div>]

##### post crawling

In [90]:
import re

In [73]:
url ='http://www.cine21.com/rank/person/content'

In [74]:
month = '2022-01'

data = {'section': 'actor',
'period_start': month,
'gender': 'all',
'page': 1}

In [112]:
res = requests.post(url, data = data)
main_soup = BeautifulSoup(res.text, 'html.parser')
main_soup

 <ul class="people_list">
<li class="people_li">
<a href="/db/person/info/?person_id=78487"><img alt="" class="people_thumb" src="https://image.cine21.com/resize/cine21/still/2017/1207/15_06_46__5a28da76c2e01[X145,145].jpg" target="_blank"/></a>
<div class="name"><a href="/db/person/info/?person_id=78487">강하늘(2편)</a></div>
<ul class="num_info">
<li><span class="tit">흥행지수</span><strong>80,090</strong></li>
<!--
						<li><a href="#" class="btn_graph"><span class="ico"></span><span>흥행성적<br />그래프로 보기</span></a></li>
						-->
</ul>
<!-- 영화포스터는 최대 5개까지만 -->
<ul class="mov_list">
<li>
<a href="/movie/info/?movie_id=56540">
<img alt="" class="thumb" src="https://image.cine21.com/resize/cine21/poster/2022/0127/56540_61f1fcfdd84ce[X85,120].jpg" target="_blank"/>
<span>해적: 도깨비 깃발</span>
</a>
</li>
<li>
<a href="/movie/info/?movie_id=57948">
<img alt="" class="thumb" src="https://image.cine21.com/resize/cine21/poster/2021/1213/11_07_08__61b6aacc130e8[X85,120].jpg" target="_blank"/>
<span>해피 뉴 이어

In [80]:
tags = soup.select('li.people_li > div.name')
len(tags)

7

In [93]:
main_url = 'http://www.cine21.com'

for t in tags:
    print(main_url + t.select('a')[0]['href'])
    print(re.sub("\(\w+\)", "", t.text))

http://www.cine21.com/db/person/info/?person_id=78487
강하늘
http://www.cine21.com/db/person/info/?person_id=56311
한효주
http://www.cine21.com/db/person/info/?person_id=71308
이광수
http://www.cine21.com/db/person/info/?person_id=15225
권상우
http://www.cine21.com/db/person/info/?person_id=60358
조진웅
http://www.cine21.com/db/person/info/?person_id=20772
박희순
http://www.cine21.com/db/person/info/?person_id=95811
채수빈


In [94]:
actor_url = 'http://www.cine21.com/db/person/info/?person_id=78487'

In [96]:
res = requests.get(actor_url)
soup = BeautifulSoup(res.text, 'html.parser')
actor_datas = soup.select('ul.default_info')
actor_datas

[<ul class="default_info">
 <li><span class="tit">다른 이름</span>김하늘</li>
 <li><span class="tit">직업</span>배우</li>
 <li><span class="tit">생년월일</span>1990-02-21</li>
 <li><span class="tit">성별</span>남</li>
 <li><span class="tit">홈페이지</span>
 <a href="http://weibo.com/galpos3?is_hot=1" target="_blank">http://weibo.com/galpos3?is_hot=1</a><br/>
 </li>
 <li><span class="tit">신장/체중</span>181cm, 70kg</li>
 <li><span class="tit">학교</span>중앙대학교 연극학과</li>
 </ul>]

In [98]:
actor_datas[0].select('li')
    

[<li><span class="tit">다른 이름</span>김하늘</li>,
 <li><span class="tit">직업</span>배우</li>,
 <li><span class="tit">생년월일</span>1990-02-21</li>,
 <li><span class="tit">성별</span>남</li>,
 <li><span class="tit">홈페이지</span>
 <a href="http://weibo.com/galpos3?is_hot=1" target="_blank">http://weibo.com/galpos3?is_hot=1</a><br/>
 </li>,
 <li><span class="tit">신장/체중</span>181cm, 70kg</li>,
 <li><span class="tit">학교</span>중앙대학교 연극학과</li>]

In [108]:
actor_info_dict = dict()

for li in actor_datas[0].select('li'):
    
    key = li.select_one('span.tit').text
    
    li = re.sub("<span.*?>.*?</span>", '', str(li))
    value = re.sub("<.+?>", "", li)   
    
    actor_info_dict[key] = value.strip()
    
actor_info_dict

{'다른 이름': '김하늘',
 '직업': '배우',
 '생년월일': '1990-02-21',
 '성별': '남',
 '홈페이지': 'http://weibo.com/galpos3?is_hot=1',
 '신장/체중': '181cm, 70kg',
 '학교': '중앙대학교 연극학과'}

In [110]:
##### 흥행지수 뽑기

In [116]:
for s in main_soup.select('li.people_li ul.num_info strong'):
    print(int(s.text.replace(',','')))

80090
68142
60206
48673
47173
41931
38939


In [None]:
##### 영화 리스트 뽑기

In [123]:
movie_list = []
for s in main_soup.select('li.people_li ul.mov_list'):
    actor_movie = []
    for l in s.select('span'):
        actor_movie.append(l.text.strip())
    movie_list.append(actor_movie)

In [124]:
movie_list

[['해적: 도깨비 깃발', '해피 뉴 이어'],
 ['해적: 도깨비 깃발'],
 ['해적: 도깨비 깃발', '해피 뉴 이어'],
 ['해적: 도깨비 깃발'],
 ['경관의 피', '1984 최동원'],
 ['경관의 피'],
 ['해적: 도깨비 깃발']]

In [1]:
from bs4 import BeautifulSoup
import requests
import pymongo
import re

conn = pymongo.MongoClient()
actor_db = conn.cine21
actor_collection = actor_db.actor_collection

In [2]:
docs = actor_collection.find()
for doc in docs:
    print(doc)

{'_id': ObjectId('62036859a2b361620b295447'), '배우이름': '강하늘', '흥행지수': 80090, '출연영화': ['해적: 도깨비 깃발', '해피 뉴 이어'], '랭킹': '1', '다른 이름': '김하늘', '직업': '배우', '생년월일': '1990-02-21', '성별': '남', '홈페이지': '\nhttp://weibo.com/galpos3?is_hot=1\n', '신장/체중': '181cm, 70kg', '학교': '중앙대학교 연극학과'}
{'_id': ObjectId('62036859a2b361620b295448'), '배우이름': '한효주', '흥행지수': 68142, '출연영화': ['해적: 도깨비 깃발'], '랭킹': '2', '직업': '배우', '생년월일': '1987-02-22', '성별': '여', '홈페이지': '\nhttps://www.facebook.com/hhj.official\n', '신장/체중': '170cm', '학교': '동국대학교 연극영화', '취미': '영화감상'}
{'_id': ObjectId('62036859a2b361620b295449'), '배우이름': '이광수', '흥행지수': 60206, '출연영화': ['해적: 도깨비 깃발', '해피 뉴 이어'], '랭킹': '3', '직업': '배우', '생년월일': '1985-07-14', '성별': '남', '홈페이지': '\nhttps://twitter.com/masijacoke85\nhttps://www.instagram.com/masijacoke850714/\n', '신장/체중': '190cm', '소속사': '킹콩엔터테인먼트'}
{'_id': ObjectId('62036859a2b361620b29544a'), '배우이름': '권상우', '흥행지수': 48673, '출연영화': ['해적: 도깨비 깃발'], '랭킹': '4', '다른 이름': 'Kwon Sang Woo', '직업': '배우', '생년월일': '1976-08-

In [3]:
# actor_collection.delete_many({})

<pymongo.results.DeleteResult at 0x1d2b20a2e00>

In [4]:
actors_info_list = list()

cine21_url = 'http://www.cine21.com/rank/person/content'

post_data = dict()

post_data['section'] = 'actor'
post_data['period_start'] = '2018-08'
post_data['gender'] = 'all'

for index in range(1, 21):
    post_data['page'] = index

    res = requests.post(cine21_url, data=post_data)
    soup = BeautifulSoup(res.content, 'html.parser')

    actors = soup.select('li.people_li div.name')
    hits = soup.select('ul.num_info > li > strong')
    movies = soup.select('ul.mov_list')
    rankings = soup.select('li.people_li > span.grade')
    
    for index, actor in enumerate(actors):
        
        actor_name = re.sub('\(\w*\)', '', actor.text)
        actor_hits = int(hits[index].text.replace(',', ''))
        movie_titles = movies[index].select('li a span')
        movie_title_list = list()
        for movie_title in movie_titles:
            movie_title_list.append(movie_title.text)
            
        actor_info_dict = dict()
        actor_info_dict['배우이름'] = actor_name
        actor_info_dict['흥행지수'] = actor_hits
        actor_info_dict['출연영화'] = movie_title_list
        actor_info_dict['랭킹'] = rankings[index].text

        actor_link = 'http://www.cine21.com' + actor.select_one('a').attrs['href']
        response_actor = requests.get(actor_link)
        soup_actor = BeautifulSoup(response_actor.content, 'html.parser')
        
        default_info = soup_actor.select_one('ul.default_info')
        actor_details = default_info.select('li')

        for actor_item in actor_details:
            actor_item_field = actor_item.select_one('span.tit').text
            actor_item_value = re.sub('<span.*?>.*?</span>', '', str(actor_item))
            actor_item_value = re.sub('<.*?>', '', actor_item_value)
            actor_info_dict[actor_item_field] = actor_item_value
            
        actors_info_list.append(actor_info_dict)

In [5]:
actors_info_list

[{'배우이름': '하정우',
  '흥행지수': 21823,
  '출연영화': ['신과 함께-인과 연', '백두산', 'PMC: 더 벙커', '클로젯', '신과 함께-죄와 벌', '멋진 하루'],
  '랭킹': '1',
  '다른 이름': '김성훈; 河正宇',
  '직업': '배우',
  '생년월일': '1978-03-11',
  '성별': '남',
  '홈페이지': '\nhttps://www.facebook.com/ft.hajungwoo\n',
  '신장/체중': '184cm, 75kg',
  '학교': '중앙대학교 연극학 학사',
  '취미': '피아노, 검도, 수영'},
 {'배우이름': '마동석',
  '흥행지수': 19545,
  '출연영화': ['나쁜 녀석들: 더 무비',
   '신과 함께-인과 연',
   '성난황소',
   '동네사람들',
   '원더풀 고스트',
   '노리개: 그녀의 눈물'],
  '랭킹': '2',
  '다른 이름': 'Ma Dongseok',
  '직업': '배우',
  '생년월일': '1971-03-01',
  '성별': '남',
  '홈페이지': '\nhttps://www.instagram.com/madongseok_/\nhttps://twitter.com/madongseok12\n',
  '신장/체중': '178cm, 100kg'},
 {'배우이름': '이병헌',
  '흥행지수': 16444,
  '출연영화': ['백두산', '남산의 부장들', '내부자들', '그것만이 내 세상', '광해, 왕이 된 남자', '번지점프를 하다'],
  '랭킹': '3',
  '다른 이름': 'Byung-hun Lee;BH Lee',
  '직업': '배우',
  '생년월일': '1970-07-12',
  '성별': '남',
  '홈페이지': '\nhttp://www.leebyunghun.kr/\n',
  '신장/체중': '177cm, 72kg',
  '학교': '한양대학교 불어문학과',
  '취미': '모자수집, 여행',
  '특기': 

In [6]:
actor_collection.insert_many(actors_info_list)

<pymongo.results.InsertManyResult at 0x1d2b2095c40>

In [7]:
results = actor_collection.find()
for r in results:
    print(r)

{'_id': ObjectId('62046c223f4f2e9d0a9b33cb'), '배우이름': '하정우', '흥행지수': 21823, '출연영화': ['신과 함께-인과 연', '백두산', 'PMC: 더 벙커', '클로젯', '신과 함께-죄와 벌', '멋진 하루'], '랭킹': '1', '다른 이름': '김성훈; 河正宇', '직업': '배우', '생년월일': '1978-03-11', '성별': '남', '홈페이지': '\nhttps://www.facebook.com/ft.hajungwoo\n', '신장/체중': '184cm, 75kg', '학교': '중앙대학교 연극학 학사', '취미': '피아노, 검도, 수영'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cc'), '배우이름': '마동석', '흥행지수': 19545, '출연영화': ['나쁜 녀석들: 더 무비', '신과 함께-인과 연', '성난황소', '동네사람들', '원더풀 고스트', '노리개: 그녀의 눈물'], '랭킹': '2', '다른 이름': 'Ma Dongseok', '직업': '배우', '생년월일': '1971-03-01', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/madongseok_/\nhttps://twitter.com/madongseok12\n', '신장/체중': '178cm, 100kg'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cd'), '배우이름': '이병헌', '흥행지수': 16444, '출연영화': ['백두산', '남산의 부장들', '내부자들', '그것만이 내 세상', '광해, 왕이 된 남자', '번지점프를 하다'], '랭킹': '3', '다른 이름': 'Byung-hun Lee;BH Lee', '직업': '배우', '생년월일': '1970-07-12', '성별': '남', '홈페이지': '\nhttp://www.leebyunghun.kr/\n', '신장/체중': '177cm, 7

In [8]:
import pandas as pd
# pd.DataFrame(actors_info_list)

Unnamed: 0,배우이름,흥행지수,출연영화,랭킹,다른 이름,직업,생년월일,성별,홈페이지,신장/체중,학교,취미,_id,특기,소속사,원어명
0,하정우,21823,"[신과 함께-인과 연, 백두산, PMC: 더 벙커, 클로젯, 신과 함께-죄와 벌, ...",1,김성훈; 河正宇,배우,1978-03-11,남,\nhttps://www.facebook.com/ft.hajungwoo\n,"184cm, 75kg",중앙대학교 연극학 학사,"피아노, 검도, 수영",62046c223f4f2e9d0a9b33cb,,,
1,마동석,19545,"[나쁜 녀석들: 더 무비, 신과 함께-인과 연, 성난황소, 동네사람들, 원더풀 고스...",2,Ma Dongseok,배우,1971-03-01,남,\nhttps://www.instagram.com/madongseok_/\nhttp...,"178cm, 100kg",,,62046c223f4f2e9d0a9b33cc,,,
2,이병헌,16444,"[백두산, 남산의 부장들, 내부자들, 그것만이 내 세상, 광해, 왕이 된 남자, 번...",3,Byung-hun Lee;BH Lee,배우,1970-07-12,남,\nhttp://www.leebyunghun.kr/\n,"177cm, 72kg",한양대학교 불어문학과,"모자수집, 여행",62046c223f4f2e9d0a9b33cd,"태권도, 스노우보드, 수영, 팔씨름",,
3,황정민,15897,"[공작, 인질, 다만 악에서 구하소서, 신세계, 와이키키 브라더스, 부당거래]",4,,배우,1970-09-01,남,,"180cm, 75kg",서울예술대학 연극과 졸업,,62046c223f4f2e9d0a9b33ce,"농구, 악기연주",예당엔터테인먼트,
4,이성민,15643,"[남산의 부장들, 목격자, 공작, 기적, 비스트, 마약왕]",5,,배우,1968-10-15,남,,178cm,,,62046c223f4f2e9d0a9b33cf,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
135,김혜수,1953,"[내가 죽던 날, 국가부도의 날, 타짜, 도둑들, 닥터봉]",136,,배우,1970-09-05,여,,"171cm, 49kg",동국대 연극영화 - 성균관대언론정보대학원 석사,"영화 감상, 사진집 모으기, 태권도, 수영, 테니스, 볼링",62046c223f4f2e9d0a9b3452,태권도,,
136,남문철,1950,"[공작, 나랏말싸미, 유열의 음악앨범, 독전, 애비규환, 4등]",137,,배우,1971-03-20,남,,,,,62046c223f4f2e9d0a9b3453,,,
137,손종학,1946,"[돈, 강철비2: 정상회담, 정직한 후보, 도희야, 검은 사제들, 비밀은 없다]",138,,배우,1967-06-20,남,,,,,62046c223f4f2e9d0a9b3454,,,
138,강하늘,1912,"[해적: 도깨비 깃발, 비와 당신의 이야기, 해피 뉴 이어, 동주, 청년경찰, 좋아해줘]",139,김하늘,배우,1990-02-21,남,\nhttp://weibo.com/galpos3?is_hot=1\n,"181cm, 70kg",중앙대학교 연극학과,,62046c223f4f2e9d0a9b3455,,,


In [9]:
actor_collection.find_one()

{'_id': ObjectId('62046c223f4f2e9d0a9b33cb'),
 '배우이름': '하정우',
 '흥행지수': 21823,
 '출연영화': ['신과 함께-인과 연', '백두산', 'PMC: 더 벙커', '클로젯', '신과 함께-죄와 벌', '멋진 하루'],
 '랭킹': '1',
 '다른 이름': '김성훈; 河正宇',
 '직업': '배우',
 '생년월일': '1978-03-11',
 '성별': '남',
 '홈페이지': '\nhttps://www.facebook.com/ft.hajungwoo\n',
 '신장/체중': '184cm, 75kg',
 '학교': '중앙대학교 연극학 학사',
 '취미': '피아노, 검도, 수영'}

In [10]:
results = actor_collection.find().limit(5)
for r in results:
    print(r)

{'_id': ObjectId('62046c223f4f2e9d0a9b33cb'), '배우이름': '하정우', '흥행지수': 21823, '출연영화': ['신과 함께-인과 연', '백두산', 'PMC: 더 벙커', '클로젯', '신과 함께-죄와 벌', '멋진 하루'], '랭킹': '1', '다른 이름': '김성훈; 河正宇', '직업': '배우', '생년월일': '1978-03-11', '성별': '남', '홈페이지': '\nhttps://www.facebook.com/ft.hajungwoo\n', '신장/체중': '184cm, 75kg', '학교': '중앙대학교 연극학 학사', '취미': '피아노, 검도, 수영'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cc'), '배우이름': '마동석', '흥행지수': 19545, '출연영화': ['나쁜 녀석들: 더 무비', '신과 함께-인과 연', '성난황소', '동네사람들', '원더풀 고스트', '노리개: 그녀의 눈물'], '랭킹': '2', '다른 이름': 'Ma Dongseok', '직업': '배우', '생년월일': '1971-03-01', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/madongseok_/\nhttps://twitter.com/madongseok12\n', '신장/체중': '178cm, 100kg'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cd'), '배우이름': '이병헌', '흥행지수': 16444, '출연영화': ['백두산', '남산의 부장들', '내부자들', '그것만이 내 세상', '광해, 왕이 된 남자', '번지점프를 하다'], '랭킹': '3', '다른 이름': 'Byung-hun Lee;BH Lee', '직업': '배우', '생년월일': '1970-07-12', '성별': '남', '홈페이지': '\nhttp://www.leebyunghun.kr/\n', '신장/체중': '177cm, 7

In [None]:
# 키값 수정 => key(필드명)

In [14]:
actor_collection.update_many({},{'$rename':{'다른 이름' : '다른이름'}})

<pymongo.results.UpdateResult at 0x1d2b2f48ac0>

In [18]:
results = actor_collection.find().limit(5)
for r in results:
    print(r)

{'_id': ObjectId('62046c223f4f2e9d0a9b33cb'), '배우이름': '하정우', '흥행지수': 21823, '출연영화': ['신과 함께-인과 연', '백두산', 'PMC: 더 벙커', '클로젯', '신과 함께-죄와 벌', '멋진 하루'], '랭킹': '1', '직업': '배우', '생년월일': '1978-03-11', '성별': '남', '홈페이지': '\nhttps://www.facebook.com/ft.hajungwoo\n', '신장/체중': '184cm, 75kg', '학교': '중앙대학교 연극학 학사', '취미': '피아노, 검도, 수영', '다른이름': '김성훈; 河正宇'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cc'), '배우이름': '마동석', '흥행지수': 19545, '출연영화': ['나쁜 녀석들: 더 무비', '신과 함께-인과 연', '성난황소', '동네사람들', '원더풀 고스트', '노리개: 그녀의 눈물'], '랭킹': '2', '직업': '배우', '생년월일': '1971-03-01', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/madongseok_/\nhttps://twitter.com/madongseok12\n', '신장/체중': '178cm, 100kg', '다른이름': 'Ma Dongseok'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cd'), '배우이름': '이병헌', '흥행지수': 16444, '출연영화': ['백두산', '남산의 부장들', '내부자들', '그것만이 내 세상', '광해, 왕이 된 남자', '번지점프를 하다'], '랭킹': '3', '직업': '배우', '생년월일': '1970-07-12', '성별': '남', '홈페이지': '\nhttp://www.leebyunghun.kr/\n', '신장/체중': '177cm, 72kg', '학교': '한양대학교 불어문학과', '취미': '모

In [22]:
results = actor_collection.find({}).sort('생년월일')
for r in results:
    print(r)                            # 웅 안돼

{'_id': ObjectId('62046c223f4f2e9d0a9b33dd'), '배우이름': '이정재', '흥행지수': 8130, '출연영화': ['사바하', '다만 악에서 구하소서', '신세계', '태양은 없다', '인천상륙작전', '시월애'], '랭킹': '19', '직업': '배우', '성별': '남', '홈페이지': '\nhttp://www.artistcompany.co.kr/portfolio-item/lee-jung-jae/\n', '소속사': '아티스트컴퍼니'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33e0'), '배우이름': '염정아', '흥행지수': 7612, '출연영화': ['시동', '뺑반', '미성년', '강철비2: 정상회담', '완벽한 타인', '어쩌다, 결혼'], '랭킹': '22', '직업': '배우', '성별': '여', '홈페이지': '\nhttp://www.artistcompany.co.kr/portfolio-item/yum-jung-ah/\n', '소속사': '아티스트컴퍼니'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33ec'), '배우이름': '김의성', '흥행지수': 5816, '출연영화': ['극한직업', '창궐', '어쩌다, 결혼', '특송', '돌멩이', '더 킹'], '랭킹': '34', '직업': '배우', '성별': '남', '홈페이지': '\nhttp://www.artistcompany.co.kr/portfolio-item/kim-eui-sung/\n', '소속사': '아티스트컴퍼니'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33ff'), '배우이름': '김소진', '흥행지수': 4485, '출연영화': ['남산의 부장들', '마약왕', '모가디슈', '미성년', '스프링 송', '아이 캔 스피크'], '랭킹': '53', '직업': '배우', '성별': '여'}
{'_id': ObjectId('62046c223f4f2e9

In [None]:
results = actor_collection.find({}).sort('생년월일', pymongo.DESCENDING)
for r in results:
    print(r)  

In [23]:
actor = actor_collection

In [24]:
results = actor.find({'특기':{'$exists':True}}).sort('흥행지수')       # 특기가 있는 배우를 흥행지수정렬
for r in results:
    print(r)   

{'_id': ObjectId('62046c223f4f2e9d0a9b3452'), '배우이름': '김혜수', '흥행지수': 1953, '출연영화': ['내가 죽던 날', '국가부도의 날', '타짜', '도둑들', '닥터봉'], '랭킹': '136', '직업': '배우', '생년월일': '1970-09-05', '성별': '여', '신장/체중': '171cm, 49kg', '학교': '동국대 연극영화 - 성균관대언론정보대학원 석사', '취미': '영화 감상, 사진집 모으기, 태권도, 수영, 테니스, 볼링', '특기': '태권도'}
{'_id': ObjectId('62046c223f4f2e9d0a9b344b'), '배우이름': '현빈', '흥행지수': 2073, '출연영화': ['창궐', '협상', '만추', '공조'], '랭킹': '129', '원어명': '玄彬', '직업': '배우', '생년월일': '1982-09-25', '성별': '남', '홈페이지': '\nhttp://www.hyun-bin.co.kr\n', '신장/체중': '184cm, 74kg', '학교': '중앙대학교 연극영화 졸업, 중앙대학교 예술 대학원 공연영상학과 재학 중', '취미': '수영, 농구, 야구', '특기': '스노우보드, 사진', '소속사': '에이엠엔터테인먼트', '다른이름': '김태평'}
{'_id': ObjectId('62046c223f4f2e9d0a9b3447'), '배우이름': '하지원', '흥행지수': 2180, '출연영화': ['담보', '동감', '폰', '해운대'], '랭킹': '125', '직업': '배우', '생년월일': '1978-06-28', '성별': '여', '홈페이지': '\nhttps://twitter.com/hajiwon1023\nhttps://instagram.com/hajiwon1023\n', '신장/체중': '168cm, 45kg', '학교': '단국대학교 연극영화학 학사', '취미': '만화책보기, 소품만들기, 청소하기', '특기': '검도

In [25]:
results = actor.find({'특기':{'$exists':False}}).sort('흥행지수')
for r in results:
    print(r) 

{'_id': ObjectId('62046c223f4f2e9d0a9b3456'), '배우이름': '최덕문', '흥행지수': 1910, '출연영화': ['나랏말싸미', '마약왕', '블랙머니', '소공녀', '암살', '애비규환'], '랭킹': '140', '직업': '배우', '생년월일': '1970-00-00', '성별': '남'}
{'_id': ObjectId('62046c223f4f2e9d0a9b3455'), '배우이름': '강하늘', '흥행지수': 1912, '출연영화': ['해적: 도깨비 깃발', '비와 당신의 이야기', '해피 뉴 이어', '동주', '청년경찰', '좋아해줘'], '랭킹': '139', '직업': '배우', '생년월일': '1990-02-21', '성별': '남', '홈페이지': '\nhttp://weibo.com/galpos3?is_hot=1\n', '신장/체중': '181cm, 70kg', '학교': '중앙대학교 연극학과', '다른이름': '김하늘'}
{'_id': ObjectId('62046c223f4f2e9d0a9b3454'), '배우이름': '손종학', '흥행지수': 1946, '출연영화': ['돈', '강철비2: 정상회담', '정직한 후보', '도희야', '검은 사제들', '비밀은 없다'], '랭킹': '138', '직업': '배우', '생년월일': '1967-06-20', '성별': '남'}
{'_id': ObjectId('62046c223f4f2e9d0a9b3453'), '배우이름': '남문철', '흥행지수': 1950, '출연영화': ['공작', '나랏말싸미', '유열의 음악앨범', '독전', '애비규환', '4등'], '랭킹': '137', '직업': '배우', '생년월일': '1971-03-20', '성별': '남'}
{'_id': ObjectId('62046c223f4f2e9d0a9b3451'), '배우이름': '정해균', '흥행지수': 1966, '출연영화': ['신과 함께-인과 연', '나랏말싸미', '성난황

In [26]:
results = actor.find({'생년월일':{'$exists':False}}).sort('흥행지수', pymongo.DESCENDING) # 생년월일이 없는
for r in results:
    print(r) 

{'_id': ObjectId('62046c223f4f2e9d0a9b33dd'), '배우이름': '이정재', '흥행지수': 8130, '출연영화': ['사바하', '다만 악에서 구하소서', '신세계', '태양은 없다', '인천상륙작전', '시월애'], '랭킹': '19', '직업': '배우', '성별': '남', '홈페이지': '\nhttp://www.artistcompany.co.kr/portfolio-item/lee-jung-jae/\n', '소속사': '아티스트컴퍼니'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33e0'), '배우이름': '염정아', '흥행지수': 7612, '출연영화': ['시동', '뺑반', '미성년', '강철비2: 정상회담', '완벽한 타인', '어쩌다, 결혼'], '랭킹': '22', '직업': '배우', '성별': '여', '홈페이지': '\nhttp://www.artistcompany.co.kr/portfolio-item/yum-jung-ah/\n', '소속사': '아티스트컴퍼니'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33ec'), '배우이름': '김의성', '흥행지수': 5816, '출연영화': ['극한직업', '창궐', '어쩌다, 결혼', '특송', '돌멩이', '더 킹'], '랭킹': '34', '직업': '배우', '성별': '남', '홈페이지': '\nhttp://www.artistcompany.co.kr/portfolio-item/kim-eui-sung/\n', '소속사': '아티스트컴퍼니'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33ff'), '배우이름': '김소진', '흥행지수': 4485, '출연영화': ['남산의 부장들', '마약왕', '모가디슈', '미성년', '스프링 송', '아이 캔 스피크'], '랭킹': '53', '직업': '배우', '성별': '여'}
{'_id': ObjectId('62046c223f4f2e9

In [28]:
results = actor.find({'흥행지수':{'$gte':15000}}).sort('흥행지수', pymongo.DESCENDING) # 흥행지수가 15000이상
for r in results:
    print(r) 

{'_id': ObjectId('62046c223f4f2e9d0a9b33cb'), '배우이름': '하정우', '흥행지수': 21823, '출연영화': ['신과 함께-인과 연', '백두산', 'PMC: 더 벙커', '클로젯', '신과 함께-죄와 벌', '멋진 하루'], '랭킹': '1', '직업': '배우', '생년월일': '1978-03-11', '성별': '남', '홈페이지': '\nhttps://www.facebook.com/ft.hajungwoo\n', '신장/체중': '184cm, 75kg', '학교': '중앙대학교 연극학 학사', '취미': '피아노, 검도, 수영', '다른이름': '김성훈; 河正宇'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cc'), '배우이름': '마동석', '흥행지수': 19545, '출연영화': ['나쁜 녀석들: 더 무비', '신과 함께-인과 연', '성난황소', '동네사람들', '원더풀 고스트', '노리개: 그녀의 눈물'], '랭킹': '2', '직업': '배우', '생년월일': '1971-03-01', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/madongseok_/\nhttps://twitter.com/madongseok12\n', '신장/체중': '178cm, 100kg', '다른이름': 'Ma Dongseok'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cd'), '배우이름': '이병헌', '흥행지수': 16444, '출연영화': ['백두산', '남산의 부장들', '내부자들', '그것만이 내 세상', '광해, 왕이 된 남자', '번지점프를 하다'], '랭킹': '3', '직업': '배우', '생년월일': '1970-07-12', '성별': '남', '홈페이지': '\nhttp://www.leebyunghun.kr/\n', '신장/체중': '177cm, 72kg', '학교': '한양대학교 불어문학과', '취미': '모

In [32]:
results = actor.find({'흥행지수':{'$gte':15000}},{'배우이름':1, '흥행지수':1, '출연영화':1, '_id':0}).sort('흥행지수', pymongo.DESCENDING)   
for r in results:
    print(r)  # 흥행지수 15000이상 아이디 빼고 출력

{'배우이름': '하정우', '흥행지수': 21823, '출연영화': ['신과 함께-인과 연', '백두산', 'PMC: 더 벙커', '클로젯', '신과 함께-죄와 벌', '멋진 하루']}
{'배우이름': '마동석', '흥행지수': 19545, '출연영화': ['나쁜 녀석들: 더 무비', '신과 함께-인과 연', '성난황소', '동네사람들', '원더풀 고스트', '노리개: 그녀의 눈물']}
{'배우이름': '이병헌', '흥행지수': 16444, '출연영화': ['백두산', '남산의 부장들', '내부자들', '그것만이 내 세상', '광해, 왕이 된 남자', '번지점프를 하다']}
{'배우이름': '황정민', '흥행지수': 15897, '출연영화': ['공작', '인질', '다만 악에서 구하소서', '신세계', '와이키키 브라더스', '부당거래']}
{'배우이름': '이성민', '흥행지수': 15643, '출연영화': ['남산의 부장들', '목격자', '공작', '기적', '비스트', '마약왕']}


In [34]:
results = actor.find({'$or':[{'출연영화':'극한직업'}, {'출연영화':'사바하'}]})   
for r in results:
    print(r)              # or 연산자 

{'_id': ObjectId('62046c223f4f2e9d0a9b33d1'), '배우이름': '진선규', '흥행지수': 14779, '출연영화': ['극한직업', '사바하', '롱 리브 더 킹: 목포 영웅', '돈', '동네사람들', '퍼펙트맨'], '랭킹': '7', '직업': '배우', '생년월일': '1977-09-13', '성별': '남'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d4'), '배우이름': '이하늬', '흥행지수': 12184, '출연영화': ['극한직업', '블랙머니', '연가시', '달빛궁궐', '조작된 도시'], '랭킹': '10', '직업': '배우', '생년월일': '1983-03-02', '성별': '여', '홈페이지': '\nhttps://www.facebook.com/saram.leehoney\nhttps://instagram.com/honey_lee32/\n'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d5'), '배우이름': '박정민', '흥행지수': 11215, '출연영화': ['시동', '사바하', '기적', '다만 악에서 구하소서', '타짜: 원 아이드 잭', '사냥의 시간'], '랭킹': '11', '직업': '배우', '생년월일': '1987-02-25', '성별': '남', '신장/체중': '178cm, 63kg', '학교': '한국예술종합학교 영상원 연극원 연기과'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d6'), '배우이름': '류승룡', '흥행지수': 11206, '출연영화': ['극한직업', '장르만 로맨스', '명량', '표적', '광해, 왕이 된 남자', '7번방의 선물'], '랭킹': '12', '직업': '배우', '생년월일': '1970-11-29', '성별': '남', '신장/체중': '175cm, 72kg', '학교': '서울예술대학 연극', '소속사': '필름있수다', '다른이름': '류승용

In [36]:
results = actor.find({'$and':[{'출연영화':'극한직업'}, {'출연영화':'블랙머니'}]})   
for r in results:
    print(r) 

{'_id': ObjectId('62046c223f4f2e9d0a9b33d4'), '배우이름': '이하늬', '흥행지수': 12184, '출연영화': ['극한직업', '블랙머니', '연가시', '달빛궁궐', '조작된 도시'], '랭킹': '10', '직업': '배우', '생년월일': '1983-03-02', '성별': '여', '홈페이지': '\nhttps://www.facebook.com/saram.leehoney\nhttps://instagram.com/honey_lee32/\n'}


In [37]:
results = actor.find({'흥행지수':{'$gte':10000},'$or':[{'출연영화':'극한직업'}, {'출연영화':'사바하'}]})   
for r in results:
    print(r)  

{'_id': ObjectId('62046c223f4f2e9d0a9b33d1'), '배우이름': '진선규', '흥행지수': 14779, '출연영화': ['극한직업', '사바하', '롱 리브 더 킹: 목포 영웅', '돈', '동네사람들', '퍼펙트맨'], '랭킹': '7', '직업': '배우', '생년월일': '1977-09-13', '성별': '남'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d4'), '배우이름': '이하늬', '흥행지수': 12184, '출연영화': ['극한직업', '블랙머니', '연가시', '달빛궁궐', '조작된 도시'], '랭킹': '10', '직업': '배우', '생년월일': '1983-03-02', '성별': '여', '홈페이지': '\nhttps://www.facebook.com/saram.leehoney\nhttps://instagram.com/honey_lee32/\n'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d5'), '배우이름': '박정민', '흥행지수': 11215, '출연영화': ['시동', '사바하', '기적', '다만 악에서 구하소서', '타짜: 원 아이드 잭', '사냥의 시간'], '랭킹': '11', '직업': '배우', '생년월일': '1987-02-25', '성별': '남', '신장/체중': '178cm, 63kg', '학교': '한국예술종합학교 영상원 연극원 연기과'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d6'), '배우이름': '류승룡', '흥행지수': 11206, '출연영화': ['극한직업', '장르만 로맨스', '명량', '표적', '광해, 왕이 된 남자', '7번방의 선물'], '랭킹': '12', '직업': '배우', '생년월일': '1970-11-29', '성별': '남', '신장/체중': '175cm, 72kg', '학교': '서울예술대학 연극', '소속사': '필름있수다', '다른이름': '류승용

In [39]:
results = actor.find({'$nor':[{'흥행지수':{'$lte':10000}}, {'흥행지수':{'$gte':15000}}]})   
for r in results:
    print(r)  # 10000보다 작지 않고, 15000보다 크지 않은 nor은 둘다 false

{'_id': ObjectId('62046c223f4f2e9d0a9b33d0'), '배우이름': '주지훈', '흥행지수': 14866, '출연영화': ['신과 함께-인과 연', '공작', '암수살인', '신과 함께-죄와 벌', '아수라', '서양골동양과자점 앤티크'], '랭킹': '6', '원어명': '주지훈', '직업': '배우', '생년월일': '1982-05-16', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/_jujihoon/\n', '신장/체중': '187cm, 68kg', '학교': '경기대학교 연기', '취미': '컴퓨터 게임', '특기': '속독, 노래, 춤, 합기도, 피아노', '다른이름': '주영훈'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d1'), '배우이름': '진선규', '흥행지수': 14779, '출연영화': ['극한직업', '사바하', '롱 리브 더 킹: 목포 영웅', '돈', '동네사람들', '퍼펙트맨'], '랭킹': '7', '직업': '배우', '생년월일': '1977-09-13', '성별': '남'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d2'), '배우이름': '조진웅', '흥행지수': 13010, '출연영화': ['공작', '광대들: 풍문조작단', '퍼펙트맨', '완벽한 타인', '1984 최동원', '블랙머니'], '랭킹': '8', '직업': '배우', '생년월일': '1976-03-03', '성별': '남', '홈페이지': '\nhttp://www.facebook.com/saram.chojinwoong\n', '신장/체중': '185cm, 98kg', '학교': '경성대학교 연극영화', '특기': '진도 북춤', '소속사': '㈜사람엔터테인먼트', '다른이름': '조원준'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d3'), '배우이름': '조우진', '흥행지수': 12449, 

In [41]:
results = actor.find({'흥행지수':{'$in':[12184,11206,10489]}})
for r in results:
    print(r)         # 흥행지수가 값에 해당되는 데이터 뽑기

{'_id': ObjectId('62046c223f4f2e9d0a9b33d4'), '배우이름': '이하늬', '흥행지수': 12184, '출연영화': ['극한직업', '블랙머니', '연가시', '달빛궁궐', '조작된 도시'], '랭킹': '10', '직업': '배우', '생년월일': '1983-03-02', '성별': '여', '홈페이지': '\nhttps://www.facebook.com/saram.leehoney\nhttps://instagram.com/honey_lee32/\n'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d6'), '배우이름': '류승룡', '흥행지수': 11206, '출연영화': ['극한직업', '장르만 로맨스', '명량', '표적', '광해, 왕이 된 남자', '7번방의 선물'], '랭킹': '12', '직업': '배우', '생년월일': '1970-11-29', '성별': '남', '신장/체중': '175cm, 72kg', '학교': '서울예술대학 연극', '소속사': '필름있수다', '다른이름': '류승용; 유승룡'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d7'), '배우이름': '유해진', '흥행지수': 10489, '출연영화': ['봉오동 전투', '완벽한 타인', '말모이', '승리호', '부당거래', '타짜'], '랭킹': '13', '직업': '배우', '생년월일': '1969-01-04', '성별': '남', '신장/체중': '174cm, 65kg', '학교': '서울예술대학 연극과', '소속사': '심엔터테인먼트'}


In [42]:
results = actor.find({'흥행지수':{'$nin':[12184,11206,10489]}})
for r in results:
    print(r)     # 반대로 nin => not in

{'_id': ObjectId('62046c223f4f2e9d0a9b33cb'), '배우이름': '하정우', '흥행지수': 21823, '출연영화': ['신과 함께-인과 연', '백두산', 'PMC: 더 벙커', '클로젯', '신과 함께-죄와 벌', '멋진 하루'], '랭킹': '1', '직업': '배우', '생년월일': '1978-03-11', '성별': '남', '홈페이지': '\nhttps://www.facebook.com/ft.hajungwoo\n', '신장/체중': '184cm, 75kg', '학교': '중앙대학교 연극학 학사', '취미': '피아노, 검도, 수영', '다른이름': '김성훈; 河正宇'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cc'), '배우이름': '마동석', '흥행지수': 19545, '출연영화': ['나쁜 녀석들: 더 무비', '신과 함께-인과 연', '성난황소', '동네사람들', '원더풀 고스트', '노리개: 그녀의 눈물'], '랭킹': '2', '직업': '배우', '생년월일': '1971-03-01', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/madongseok_/\nhttps://twitter.com/madongseok12\n', '신장/체중': '178cm, 100kg', '다른이름': 'Ma Dongseok'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cd'), '배우이름': '이병헌', '흥행지수': 16444, '출연영화': ['백두산', '남산의 부장들', '내부자들', '그것만이 내 세상', '광해, 왕이 된 남자', '번지점프를 하다'], '랭킹': '3', '직업': '배우', '생년월일': '1970-07-12', '성별': '남', '홈페이지': '\nhttp://www.leebyunghun.kr/\n', '신장/체중': '177cm, 72kg', '학교': '한양대학교 불어문학과', '취미': '모

In [43]:
results = actor.find({'흥행지수':{'$in':[12184,11206,10489]}}).skip(2)
for r in results:
    print(r)               # skip(2) => 두개 건너 뛰고 가져오기

{'_id': ObjectId('62046c223f4f2e9d0a9b33d7'), '배우이름': '유해진', '흥행지수': 10489, '출연영화': ['봉오동 전투', '완벽한 타인', '말모이', '승리호', '부당거래', '타짜'], '랭킹': '13', '직업': '배우', '생년월일': '1969-01-04', '성별': '남', '신장/체중': '174cm, 65kg', '학교': '서울예술대학 연극과', '소속사': '심엔터테인먼트'}


In [44]:
results = actor.find({'흥행지수':{'$gte':10000}}).skip(2).limit(5)
for r in results:
    print(r)         # 흥행지수 10000이상 두개 건너뛰고 5개만 가져오기

{'_id': ObjectId('62046c223f4f2e9d0a9b33cd'), '배우이름': '이병헌', '흥행지수': 16444, '출연영화': ['백두산', '남산의 부장들', '내부자들', '그것만이 내 세상', '광해, 왕이 된 남자', '번지점프를 하다'], '랭킹': '3', '직업': '배우', '생년월일': '1970-07-12', '성별': '남', '홈페이지': '\nhttp://www.leebyunghun.kr/\n', '신장/체중': '177cm, 72kg', '학교': '한양대학교 불어문학과', '취미': '모자수집, 여행', '특기': '태권도, 스노우보드, 수영, 팔씨름', '다른이름': 'Byung-hun Lee;BH Lee'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33ce'), '배우이름': '황정민', '흥행지수': 15897, '출연영화': ['공작', '인질', '다만 악에서 구하소서', '신세계', '와이키키 브라더스', '부당거래'], '랭킹': '4', '직업': '배우', '생년월일': '1970-09-01', '성별': '남', '신장/체중': '180cm, 75kg', '학교': '서울예술대학 연극과 졸업', '특기': '농구, 악기연주', '소속사': '예당엔터테인먼트'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cf'), '배우이름': '이성민', '흥행지수': 15643, '출연영화': ['남산의 부장들', '목격자', '공작', '기적', '비스트', '마약왕'], '랭킹': '5', '직업': '배우', '생년월일': '1968-10-15', '성별': '남', '신장/체중': '178cm'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33d0'), '배우이름': '주지훈', '흥행지수': 14866, '출연영화': ['신과 함께-인과 연', '공작', '암수살인', '신과 함께-죄와 벌', '아수라', '서양골동양과

In [45]:
results = actor.find({'출연영화':{'$all':['극한직업','사바하']}})
for r in results:
    print(r)           # and 조건과 같은 결과

{'_id': ObjectId('62046c223f4f2e9d0a9b33d1'), '배우이름': '진선규', '흥행지수': 14779, '출연영화': ['극한직업', '사바하', '롱 리브 더 킹: 목포 영웅', '돈', '동네사람들', '퍼펙트맨'], '랭킹': '7', '직업': '배우', '생년월일': '1977-09-13', '성별': '남'}


In [47]:
results = actor.find({'출연영화':{'$size':6}})
for r in results:
    print(r)         # 출연영화가 6개인 데이터 뽑기

{'_id': ObjectId('62046c223f4f2e9d0a9b33cb'), '배우이름': '하정우', '흥행지수': 21823, '출연영화': ['신과 함께-인과 연', '백두산', 'PMC: 더 벙커', '클로젯', '신과 함께-죄와 벌', '멋진 하루'], '랭킹': '1', '직업': '배우', '생년월일': '1978-03-11', '성별': '남', '홈페이지': '\nhttps://www.facebook.com/ft.hajungwoo\n', '신장/체중': '184cm, 75kg', '학교': '중앙대학교 연극학 학사', '취미': '피아노, 검도, 수영', '다른이름': '김성훈; 河正宇'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cc'), '배우이름': '마동석', '흥행지수': 19545, '출연영화': ['나쁜 녀석들: 더 무비', '신과 함께-인과 연', '성난황소', '동네사람들', '원더풀 고스트', '노리개: 그녀의 눈물'], '랭킹': '2', '직업': '배우', '생년월일': '1971-03-01', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/madongseok_/\nhttps://twitter.com/madongseok12\n', '신장/체중': '178cm, 100kg', '다른이름': 'Ma Dongseok'}
{'_id': ObjectId('62046c223f4f2e9d0a9b33cd'), '배우이름': '이병헌', '흥행지수': 16444, '출연영화': ['백두산', '남산의 부장들', '내부자들', '그것만이 내 세상', '광해, 왕이 된 남자', '번지점프를 하다'], '랭킹': '3', '직업': '배우', '생년월일': '1970-07-12', '성별': '남', '홈페이지': '\nhttp://www.leebyunghun.kr/\n', '신장/체중': '177cm, 72kg', '학교': '한양대학교 불어문학과', '취미': '모