## RDBMS (관계형 데이터 베이스)
- sql언어를 사용
- 규격이 엄격하고, 다양한 규격이 있으면 매번 수정해 주어야 한다.
- Mysql, Oracle, Postgresql, SQLlte

## NoSQL
- sql을 사용하지 않음
- 고정된 스키마가 없다.
- 정해진 규격이 엄격하지 않다.
- Mongodb, redis, Hbase, cassandra

# Mongodb
- json구조로 data(document)를 관리
- sql : database > table > data(row, column)
- mongodb : datebase > collection > document

In [1]:
! pip install pymongo

Collecting pymongo
  Downloading pymongo-4.0.1-cp39-cp39-win_amd64.whl (354 kB)
Installing collected packages: pymongo
Successfully installed pymongo-4.0.1


In [3]:
import pymongo

In [4]:
# server connect
conn = pymongo.MongoClient()

In [6]:
# 있으면 연결, 없으면 생성 후 연결
tdb = conn['testdb']

In [8]:
# 있으면 연결, 없으면 생성 후 연결
col_it = tdb['it']

In [9]:
post = {'author' : 'Mike', 'text':'my first blog post', 'tags':['mongdb','python','pymongo']}
col_it.insert_one(post)

<pymongo.results.InsertOneResult at 0x202814b57c0>

In [11]:
result = col_it.find()
for r in result:
    print(r)

{'_id': ObjectId('62034e9b20cad69d144ee935'), 'author': 'Mike', 'text': 'my first blog post', 'tags': ['mongdb', 'python', 'pymongo']}


In [13]:
col_it.insert_one({'author':'Dave Lee', 'age':45})

<pymongo.results.InsertOneResult at 0x202814e5300>

In [14]:
result = col_it.find()
for r in result:
    print(r)

{'_id': ObjectId('62034e9b20cad69d144ee935'), 'author': 'Mike', 'text': 'my first blog post', 'tags': ['mongdb', 'python', 'pymongo']}
{'_id': ObjectId('62034f2a20cad69d144ee936'), 'author': 'Dave Lee', 'age': 45}


* insert_many()

In [16]:
col_it.insert_many(
[
    {'author':'Dave Ahn', 'age':25},
    {'author':'Dave','age':35}
])

<pymongo.results.InsertManyResult at 0x202814d5fc0>

In [17]:
result = col_it.find()
for r in result:
    print(r)

{'_id': ObjectId('62034e9b20cad69d144ee935'), 'author': 'Mike', 'text': 'my first blog post', 'tags': ['mongdb', 'python', 'pymongo']}
{'_id': ObjectId('62034f2a20cad69d144ee936'), 'author': 'Dave Lee', 'age': 45}
{'_id': ObjectId('62034f8b20cad69d144ee937'), 'author': 'Dave Ahn', 'age': 25}
{'_id': ObjectId('62034f8b20cad69d144ee938'), 'author': 'Dave', 'age': 35}


* document insert 하면서, _id(primary key)를 확인하는 법

In [18]:
post = {'author':'Dave', 'text':'my first blog post'}

post_id = col_it.insert_one(post)
post_id

<pymongo.results.InsertOneResult at 0x2028253e680>

In [19]:
post_id.inserted_id

ObjectId('6203501020cad69d144ee939')

* document count

In [20]:
col_it.count_documents({})

5

In [22]:
# col_it.count()

* 입력 : {}, 리스트, 중첩 딕셔너리

In [23]:
col_it.insert_one({'title':'암살', 'casting':['이정재','전지현','하정우']})

<pymongo.results.InsertOneResult at 0x202814db800>

In [26]:
col_it.insert_one({
        'title':'실미도',
        'casting':['설경구','안성기'],
        'datetime':
        {
            'year':'2003',
            'month':3,
            'val':
            {
                'a':
                {
                    'b':1
                }
            }
        }
})

<pymongo.results.InsertOneResult at 0x202827506c0>

In [27]:
data = list()
data.append({'name':'aaron', 'age':20})
data.append({'name':'bob', 'age':30})
data.append({'name':'cathy', 'age':25})
data.append({'name':'david', 'age':27})
data.append({'name':'erick', 'age':28})
data.append({'name':'fox', 'age':32})
data.append({'name':'hmn'})

col_it.insert_many(data)

<pymongo.results.InsertManyResult at 0x20282933fc0>

In [30]:
col_it.count_documents({})

14

### document 검색하기

- find_one({key:value})

In [32]:
col_it.find_one()

{'_id': ObjectId('62034e9b20cad69d144ee935'),
 'author': 'Mike',
 'text': 'my first blog post',
 'tags': ['mongdb', 'python', 'pymongo']}

In [33]:
results = col_it.find()
for r in results:
    print(r)

{'_id': ObjectId('62034e9b20cad69d144ee935'), 'author': 'Mike', 'text': 'my first blog post', 'tags': ['mongdb', 'python', 'pymongo']}
{'_id': ObjectId('62034f2a20cad69d144ee936'), 'author': 'Dave Lee', 'age': 45}
{'_id': ObjectId('62034f8b20cad69d144ee937'), 'author': 'Dave Ahn', 'age': 25}
{'_id': ObjectId('62034f8b20cad69d144ee938'), 'author': 'Dave', 'age': 35}
{'_id': ObjectId('6203501020cad69d144ee939'), 'author': 'Dave', 'text': 'my first blog post'}
{'_id': ObjectId('6203510020cad69d144ee93a'), 'title': '암살', 'casting': ['이정재', '전지현', '하정우']}
{'_id': ObjectId('620351bc20cad69d144ee93b'), 'title': '실미도', 'casting': ['설경구', '안성기'], 'datetime': {'year': '2003', 'month': 3, 'val': {'a': {'b': 1}}}}
{'_id': ObjectId('6203522020cad69d144ee93c'), 'name': 'aaron', 'age': 20}
{'_id': ObjectId('6203522020cad69d144ee93d'), 'name': 'bob', 'age': 30}
{'_id': ObjectId('6203522020cad69d144ee93e'), 'name': 'cathy', 'age': 25}
{'_id': ObjectId('6203522020cad69d144ee93f'), 'name': 'david', 'age'

In [34]:
results = col_it.find({'author':'Dave'})
for r in results:
    print(r)

{'_id': ObjectId('62034f8b20cad69d144ee938'), 'author': 'Dave', 'age': 35}
{'_id': ObjectId('6203501020cad69d144ee939'), 'author': 'Dave', 'text': 'my first blog post'}


In [37]:
col_it.count_documents({'author':'Dave'})

2

In [39]:
for r in col_it.find().sort('age'):
    print(r)

{'_id': ObjectId('62034e9b20cad69d144ee935'), 'author': 'Mike', 'text': 'my first blog post', 'tags': ['mongdb', 'python', 'pymongo']}
{'_id': ObjectId('6203501020cad69d144ee939'), 'author': 'Dave', 'text': 'my first blog post'}
{'_id': ObjectId('6203510020cad69d144ee93a'), 'title': '암살', 'casting': ['이정재', '전지현', '하정우']}
{'_id': ObjectId('620351bc20cad69d144ee93b'), 'title': '실미도', 'casting': ['설경구', '안성기'], 'datetime': {'year': '2003', 'month': 3, 'val': {'a': {'b': 1}}}}
{'_id': ObjectId('6203522020cad69d144ee942'), 'name': 'hmn'}
{'_id': ObjectId('6203522020cad69d144ee93c'), 'name': 'aaron', 'age': 20}
{'_id': ObjectId('62034f8b20cad69d144ee937'), 'author': 'Dave Ahn', 'age': 25}
{'_id': ObjectId('6203522020cad69d144ee93e'), 'name': 'cathy', 'age': 25}
{'_id': ObjectId('6203522020cad69d144ee93f'), 'name': 'david', 'age': 27}
{'_id': ObjectId('6203522020cad69d144ee940'), 'name': 'erick', 'age': 28}
{'_id': ObjectId('6203522020cad69d144ee93d'), 'name': 'bob', 'age': 30}
{'_id': Objec

### document update : update_one(), update_many()

In [43]:
col_it.find_one({'author':'Dave'})

{'_id': ObjectId('62034f8b20cad69d144ee938'), 'author': 'Dave', 'age': 35}

In [44]:
col_it.update_one({'author':'Dave'},
                 {'$set':{'text':'Hi Dave'}})

<pymongo.results.UpdateResult at 0x20282859700>

In [46]:
for d in col_it.find({'author':'Dave'}):
    print(d)

{'_id': ObjectId('62034f8b20cad69d144ee938'), 'author': 'Dave', 'age': 35, 'text': 'Hi Dave'}
{'_id': ObjectId('6203501020cad69d144ee939'), 'author': 'Dave', 'text': 'my first blog post'}


In [47]:
col_it.update_one({'author':'Dave'},
                 {'$set':{'age':40}})

<pymongo.results.UpdateResult at 0x202814e5cc0>

In [48]:
for d in col_it.find({'author':'Dave'}):
    print(d)

{'_id': ObjectId('62034f8b20cad69d144ee938'), 'author': 'Dave', 'age': 40, 'text': 'Hi Dave'}
{'_id': ObjectId('6203501020cad69d144ee939'), 'author': 'Dave', 'text': 'my first blog post'}


In [49]:
col_it.update_many({'author':'Dave'},
                 {'$set':{'text':'hi dave'}})

<pymongo.results.UpdateResult at 0x2028270fd80>

In [50]:
for d in col_it.find({'author':'Dave'}):
    print(d)

{'_id': ObjectId('62034f8b20cad69d144ee938'), 'author': 'Dave', 'age': 40, 'text': 'hi dave'}
{'_id': ObjectId('6203501020cad69d144ee939'), 'author': 'Dave', 'text': 'hi dave'}


In [51]:
for d in col_it.find():
    print(d)

{'_id': ObjectId('62034e9b20cad69d144ee935'), 'author': 'Mike', 'text': 'my first blog post', 'tags': ['mongdb', 'python', 'pymongo']}
{'_id': ObjectId('62034f2a20cad69d144ee936'), 'author': 'Dave Lee', 'age': 45}
{'_id': ObjectId('62034f8b20cad69d144ee937'), 'author': 'Dave Ahn', 'age': 25}
{'_id': ObjectId('62034f8b20cad69d144ee938'), 'author': 'Dave', 'age': 40, 'text': 'hi dave'}
{'_id': ObjectId('6203501020cad69d144ee939'), 'author': 'Dave', 'text': 'hi dave'}
{'_id': ObjectId('6203510020cad69d144ee93a'), 'title': '암살', 'casting': ['이정재', '전지현', '하정우']}
{'_id': ObjectId('620351bc20cad69d144ee93b'), 'title': '실미도', 'casting': ['설경구', '안성기'], 'datetime': {'year': '2003', 'month': 3, 'val': {'a': {'b': 1}}}}
{'_id': ObjectId('6203522020cad69d144ee93c'), 'name': 'aaron', 'age': 20}
{'_id': ObjectId('6203522020cad69d144ee93d'), 'name': 'bob', 'age': 30}
{'_id': ObjectId('6203522020cad69d144ee93e'), 'name': 'cathy', 'age': 25}
{'_id': ObjectId('6203522020cad69d144ee93f'), 'name': 'david

### document delete : delete_one(), delete_many()

In [53]:
for d in col_it.find({'author':'Dave Lee'}):
    print(d)

{'_id': ObjectId('62034f2a20cad69d144ee936'), 'author': 'Dave Lee', 'age': 45}


In [54]:
col_it.delete_one({'author':'Dave Lee'})

<pymongo.results.DeleteResult at 0x2028270d380>

In [55]:
for d in col_it.find({'author':'Dave Lee'}):
    print(d)

In [56]:
for d in col_it.find({'author':'Dave'}):
    print(d)

{'_id': ObjectId('62034f8b20cad69d144ee938'), 'author': 'Dave', 'age': 40, 'text': 'hi dave'}
{'_id': ObjectId('6203501020cad69d144ee939'), 'author': 'Dave', 'text': 'hi dave'}


In [57]:
col_it.delete_many({'author':'Dave'})

<pymongo.results.DeleteResult at 0x2028270d2c0>

In [58]:
for d in col_it.find({'author':'Dave'}):
    print(d)

In [60]:
for d in col_it.find():
    print(d)

{'_id': ObjectId('62034e9b20cad69d144ee935'), 'author': 'Mike', 'text': 'my first blog post', 'tags': ['mongdb', 'python', 'pymongo']}
{'_id': ObjectId('62034f8b20cad69d144ee937'), 'author': 'Dave Ahn', 'age': 25}
{'_id': ObjectId('6203510020cad69d144ee93a'), 'title': '암살', 'casting': ['이정재', '전지현', '하정우']}
{'_id': ObjectId('620351bc20cad69d144ee93b'), 'title': '실미도', 'casting': ['설경구', '안성기'], 'datetime': {'year': '2003', 'month': 3, 'val': {'a': {'b': 1}}}}
{'_id': ObjectId('6203522020cad69d144ee93c'), 'name': 'aaron', 'age': 20}
{'_id': ObjectId('6203522020cad69d144ee93d'), 'name': 'bob', 'age': 30}
{'_id': ObjectId('6203522020cad69d144ee93e'), 'name': 'cathy', 'age': 25}
{'_id': ObjectId('6203522020cad69d144ee93f'), 'name': 'david', 'age': 27}
{'_id': ObjectId('6203522020cad69d144ee940'), 'name': 'erick', 'age': 28}
{'_id': ObjectId('6203522020cad69d144ee941'), 'name': 'fox', 'age': 32}
{'_id': ObjectId('6203522020cad69d144ee942'), 'name': 'hmn'}


In [63]:
# Database 생성
boos = conn.books

In [65]:
# Colletion 생성
it_book = boos.it_books

In [61]:
data = list()
for index in range(100):
    data.append({'author':'Dave Lee', 'publisher':'bit_company', 'number':index})

In [66]:
data

[{'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 0},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 1},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 2},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 3},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 4},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 5},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 6},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 7},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 8},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 9},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 10},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 11},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 12},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 13},
 {'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 14},
 {'au

In [67]:
it_book.insert_many(data)

<pymongo.results.InsertManyResult at 0x202828b9d40>

In [68]:
docs = it_book.find()
for doc in docs:
    print(doc)

{'_id': ObjectId('620356d520cad69d144ee943'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 0}
{'_id': ObjectId('620356d520cad69d144ee944'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 1}
{'_id': ObjectId('620356d520cad69d144ee945'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 2}
{'_id': ObjectId('620356d520cad69d144ee946'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 3}
{'_id': ObjectId('620356d520cad69d144ee947'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 4}
{'_id': ObjectId('620356d520cad69d144ee948'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 5}
{'_id': ObjectId('620356d520cad69d144ee949'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 6}
{'_id': ObjectId('620356d520cad69d144ee94a'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 7}
{'_id': ObjectId('620356d520cad69d144ee94b'), 'author': 'Dave Lee', 'publisher': 'bit_company', 'number': 8}
{'_id': ObjectId('6

In [69]:
it_book.update_many({}, {'$set': {'publisher':'bit_camp_pub'}})

<pymongo.results.UpdateResult at 0x2028285ed00>

In [70]:
docs = it_book.find()
for doc in docs:
    print(doc)

{'_id': ObjectId('620356d520cad69d144ee943'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 0}
{'_id': ObjectId('620356d520cad69d144ee944'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 1}
{'_id': ObjectId('620356d520cad69d144ee945'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 2}
{'_id': ObjectId('620356d520cad69d144ee946'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 3}
{'_id': ObjectId('620356d520cad69d144ee947'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 4}
{'_id': ObjectId('620356d520cad69d144ee948'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 5}
{'_id': ObjectId('620356d520cad69d144ee949'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 6}
{'_id': ObjectId('620356d520cad69d144ee94a'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 7}
{'_id': ObjectId('620356d520cad69d144ee94b'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 8}
{'_id': Ob

In [71]:
it_book.delete_many({'number':{'$gte':6}})

<pymongo.results.DeleteResult at 0x202828ff440>

In [72]:
docs = it_book.find()
for doc in docs:
    print(doc)

{'_id': ObjectId('620356d520cad69d144ee943'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 0}
{'_id': ObjectId('620356d520cad69d144ee944'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 1}
{'_id': ObjectId('620356d520cad69d144ee945'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 2}
{'_id': ObjectId('620356d520cad69d144ee946'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 3}
{'_id': ObjectId('620356d520cad69d144ee947'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 4}
{'_id': ObjectId('620356d520cad69d144ee948'), 'author': 'Dave Lee', 'publisher': 'bit_camp_pub', 'number': 5}


In [75]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [76]:
import MySQLdb
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [77]:
import requests
from bs4 import BeautifulSoup

In [73]:
# crawling cine21

In [74]:
url = 'http://www.cine21.com/rank/person'

In [78]:
res = requests.get(url)
soup = BeautifulSoup(res.text,'html.parser')
soup

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta content="1641311652800771" property="fb:pages"/>
<meta content="vTM0gmeRzJwn1MIM1LMSp3cxP_SaBzch1ziRY255RHw" name="google-site-verification"/>
<meta content="5yOe6b_e_3rr7vNDwgXJw_8wLZQGx4lJ_V48KNPrqkA" name="google-site-verification"/>
<meta content="20defde86fc4464f2693891567a98905bd0a60d1" name="naver-site-verification"/>
<meta content="dmds9ks357rhqvdnk" name="dailymotion-domain-verification"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<title>씨네21</title>
<link href="/inc/www/css/default1.css" media="all" rel="stylesheet" type="text/css"/>
<link href="/inc/www/css/content1.css" media="all" rel="stylesheet" type="text/css"/>
<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.12.0/jquery.min.js"></script>
<meta conten

In [82]:
soup.select('div#rank_holder')

[<div id="rank_holder"></div>]

In [101]:
## 배우 정보 뽑기

In [104]:
# 정규 표현식
import re

In [90]:
# post crawling
# network 탭에 있는 파일까지 경로로 지정해야 한다.
url = 'http://www.cine21.com/rank/person/content'

In [91]:
month = '2022-01'

data = {'section': 'actor',
'period_start': month,
'gender': 'all',
'page': 1}

In [133]:
res = requests.post(url, data = data)
main_soup = BeautifulSoup(res.text,'html.parser')
main_soup

 <ul class="people_list">
<li class="people_li">
<a href="/db/person/info/?person_id=78487"><img alt="" class="people_thumb" src="https://image.cine21.com/resize/cine21/still/2017/1207/15_06_46__5a28da76c2e01[X145,145].jpg" target="_blank"/></a>
<div class="name"><a href="/db/person/info/?person_id=78487">강하늘(2편)</a></div>
<ul class="num_info">
<li><span class="tit">흥행지수</span><strong>80,090</strong></li>
<!--
						<li><a href="#" class="btn_graph"><span class="ico"></span><span>흥행성적<br />그래프로 보기</span></a></li>
						-->
</ul>
<!-- 영화포스터는 최대 5개까지만 -->
<ul class="mov_list">
<li>
<a href="/movie/info/?movie_id=56540">
<img alt="" class="thumb" src="https://image.cine21.com/resize/cine21/poster/2022/0127/56540_61f1fcfdd84ce[X85,120].jpg" target="_blank"/>
<span>해적: 도깨비 깃발</span>
</a>
</li>
<li>
<a href="/movie/info/?movie_id=57948">
<img alt="" class="thumb" src="https://image.cine21.com/resize/cine21/poster/2021/1213/11_07_08__61b6aacc130e8[X85,120].jpg" target="_blank"/>
<span>해피 뉴 이어

In [97]:
tags = soup.select('li.people_li > div.name')
len(tags)

7

In [121]:
main_url = 'http://www.cine21.com/'

for t in tags:
    print(main_url + t.select('a')[0]['href'])
    print(re.sub('\(.*\)', '', t.text))

http://www.cine21.com//db/person/info/?person_id=78487
강하늘
http://www.cine21.com//db/person/info/?person_id=56311
한효주
http://www.cine21.com//db/person/info/?person_id=71308
이광수
http://www.cine21.com//db/person/info/?person_id=15225
권상우
http://www.cine21.com//db/person/info/?person_id=60358
조진웅
http://www.cine21.com//db/person/info/?person_id=20772
박희순
http://www.cine21.com//db/person/info/?person_id=95811
채수빈


In [106]:
actor_url = 'http://www.cine21.com/db/person/info/?person_id=78487'

In [140]:
res = requests.get(actor_url)
sub_soup = BeautifulSoup(res.text,'html.parser')
actor_datas = sub_soup.select('ul.default_info')
actor_datas

[<ul class="default_info">
 <li><span class="tit">다른 이름</span>김하늘</li>
 <li><span class="tit">직업</span>배우</li>
 <li><span class="tit">생년월일</span>1990-02-21</li>
 <li><span class="tit">성별</span>남</li>
 <li><span class="tit">홈페이지</span>
 <a href="http://weibo.com/galpos3?is_hot=1" target="_blank">http://weibo.com/galpos3?is_hot=1</a><br/>
 </li>
 <li><span class="tit">신장/체중</span>181cm, 70kg</li>
 <li><span class="tit">학교</span>중앙대학교 연극학과</li>
 </ul>]

In [110]:
actor_datas[0].select('li')

[<li><span class="tit">다른 이름</span>김하늘</li>,
 <li><span class="tit">직업</span>배우</li>,
 <li><span class="tit">생년월일</span>1990-02-21</li>,
 <li><span class="tit">성별</span>남</li>,
 <li><span class="tit">홈페이지</span>
 <a href="http://weibo.com/galpos3?is_hot=1" target="_blank">http://weibo.com/galpos3?is_hot=1</a><br/>
 </li>,
 <li><span class="tit">신장/체중</span>181cm, 70kg</li>,
 <li><span class="tit">학교</span>중앙대학교 연극학과</li>]

In [132]:
actor_info_dict = dict()

for li in actor_datas[0].select('li'):
    key = li.select_one('span.tit').text
    
    li = re.sub('<span.*?>.*?</span>', '', str(li))
    value = re.sub('<.+?>','',li)
    actor_info_dict[key] = value.strip()
    
actor_info_dict

{'다른 이름': '김하늘',
 '직업': '배우',
 '생년월일': '1990-02-21',
 '성별': '남',
 '홈페이지': 'http://weibo.com/galpos3?is_hot=1',
 '신장/체중': '181cm, 70kg',
 '학교': '중앙대학교 연극학과'}

In [134]:
## 흥행지수 뽑기

In [138]:
for s in main_soup.select('li.people_li ul.num_info strong'):
    print(s.text.replace(',',''))

80090
68142
60206
48673
47173
41931
38939


In [141]:
## 영화 리스트 뽑기

In [148]:
movie_list = []
for s in main_soup.select('li.people_li ul.mov_list'):
    actor_movie = []
    for l in s.select('span'):
        actor_movie.append(l.text.strip())
    movie_list.append(actor_movie)
movie_list

[['해적: 도깨비 깃발', '해피 뉴 이어'],
 ['해적: 도깨비 깃발'],
 ['해적: 도깨비 깃발', '해피 뉴 이어'],
 ['해적: 도깨비 깃발'],
 ['경관의 피', '1984 최동원'],
 ['경관의 피'],
 ['해적: 도깨비 깃발']]

In [171]:
from bs4 import BeautifulSoup
import requests
import pymongo
import re

conn = pymongo.MongoClient()
actor_db = conn.cine21
actor_collection = actor_db.actor_collection

actors_info_list = list()

cine21_url = 'http://www.cine21.com/rank/person/content'
post_data = dict()
post_data['section'] = 'actor'
post_data['period_start'] = '2018-08'
post_data['gender'] = 'all'

for index in range(1, 21):
    post_data['page'] = index

    res = requests.post(cine21_url, data=post_data)
    soup = BeautifulSoup(res.content, 'html.parser')

    actors = soup.select('li.people_li div.name')
    hits = soup.select('ul.num_info > li > strong')
    movies = soup.select('ul.mov_list')
    rankings = soup.select('li.people_li > span.grade')
    
    for index, actor in enumerate(actors):
        actor_name = re.sub('\(\w*\)', '', actor.text)
        actor_hits = int(hits[index].text.replace(',', ''))
        movie_titles = movies[index].select('li a span')
        movie_title_list = list()
        for movie_title in movie_titles:
            movie_title_list.append(movie_title.text)
        actor_info_dict = dict()
        actor_info_dict['배우이름'] = actor_name
        actor_info_dict['흥행지수'] = actor_hits
        actor_info_dict['출연영화'] = movie_title_list
        actor_info_dict['랭킹'] = rankings[index].text

        actor_link = 'http://www.cine21.com' + actor.select_one('a').attrs['href']
        response_actor = requests.get(actor_link)
        soup_actor = BeautifulSoup(response_actor.content, 'html.parser')
        default_info = soup_actor.select_one('ul.default_info')
        actor_details = default_info.select('li')

        for actor_item in actor_details:
            actor_item_field = actor_item.select_one('span.tit').text
            actor_item_value = re.sub('<span.*?>.*?</span>', '', str(actor_item))
            actor_item_value = re.sub('<.*?>', '', actor_item_value)
            actor_info_dict[actor_item_field] = actor_item_value.strip()
        actors_info_list.append(actor_info_dict)
        
actor_collection.insert_many(actors_info_list)

<pymongo.results.InsertManyResult at 0x20288a4f3c0>

In [175]:
actors_info_list

[{'배우이름': '하정우',
  '흥행지수': 21830,
  '출연영화': ['신과 함께-인과 연', '백두산', 'PMC: 더 벙커', '클로젯', '신과 함께-죄와 벌', '멋진 하루'],
  '랭킹': '1',
  '다른 이름': '김성훈; 河正宇',
  '직업': '배우',
  '생년월일': '1978-03-11',
  '성별': '남',
  '홈페이지': 'https://www.facebook.com/ft.hajungwoo',
  '신장/체중': '184cm, 75kg',
  '학교': '중앙대학교 연극학 학사',
  '취미': '피아노, 검도, 수영',
  '_id': ObjectId('62036bd220cad69d144eea37')},
 {'배우이름': '마동석',
  '흥행지수': 19552,
  '출연영화': ['나쁜 녀석들: 더 무비',
   '신과 함께-인과 연',
   '성난황소',
   '동네사람들',
   '원더풀 고스트',
   '노리개: 그녀의 눈물'],
  '랭킹': '2',
  '다른 이름': 'Ma Dongseok',
  '직업': '배우',
  '생년월일': '1971-03-01',
  '성별': '남',
  '홈페이지': 'https://www.instagram.com/madongseok_/\nhttps://twitter.com/madongseok12',
  '신장/체중': '178cm, 100kg',
  '_id': ObjectId('62036bd220cad69d144eea38')},
 {'배우이름': '이병헌',
  '흥행지수': 16450,
  '출연영화': ['백두산', '남산의 부장들', '내부자들', '그것만이 내 세상', '광해, 왕이 된 남자', '번지점프를 하다'],
  '랭킹': '3',
  '다른 이름': 'Byung-hun Lee;BH Lee',
  '직업': '배우',
  '생년월일': '1970-07-12',
  '성별': '남',
  '홈페이지': 'http://www.leebyunghun.k

In [174]:
results = actor_collection.find({},{'_id':0})
for r in results:
    print(r)

{'배우이름': '하정우', '흥행지수': 21830, '출연영화': ['신과 함께-인과 연', '백두산', 'PMC: 더 벙커', '클로젯', '신과 함께-죄와 벌', '멋진 하루'], '랭킹': '1', '다른 이름': '김성훈; 河正宇', '직업': '배우', '생년월일': '1978-03-11', '성별': '남', '홈페이지': '\nhttps://www.facebook.com/ft.hajungwoo\n', '신장/체중': '184cm, 75kg', '학교': '중앙대학교 연극학 학사', '취미': '피아노, 검도, 수영'}
{'배우이름': '마동석', '흥행지수': 19552, '출연영화': ['나쁜 녀석들: 더 무비', '신과 함께-인과 연', '성난황소', '동네사람들', '원더풀 고스트', '노리개: 그녀의 눈물'], '랭킹': '2', '다른 이름': 'Ma Dongseok', '직업': '배우', '생년월일': '1971-03-01', '성별': '남', '홈페이지': '\nhttps://www.instagram.com/madongseok_/\nhttps://twitter.com/madongseok12\n', '신장/체중': '178cm, 100kg'}
{'배우이름': '이병헌', '흥행지수': 16450, '출연영화': ['백두산', '남산의 부장들', '내부자들', '그것만이 내 세상', '광해, 왕이 된 남자', '번지점프를 하다'], '랭킹': '3', '다른 이름': 'Byung-hun Lee;BH Lee', '직업': '배우', '생년월일': '1970-07-12', '성별': '남', '홈페이지': '\nhttp://www.leebyunghun.kr/\n', '신장/체중': '177cm, 72kg', '학교': '한양대학교 불어문학과', '취미': '모자수집, 여행', '특기': '태권도, 스노우보드, 수영, 팔씨름'}
{'배우이름': '황정민', '흥행지수': 15902, '출연영화': ['공작', '인질', '다만 악에서 구

In [173]:
pd.DataFrame(actors_info_list)

Unnamed: 0,배우이름,흥행지수,출연영화,랭킹,다른 이름,직업,생년월일,성별,홈페이지,신장/체중,학교,취미,_id,특기,소속사,원어명
0,하정우,21830,"[신과 함께-인과 연, 백두산, PMC: 더 벙커, 클로젯, 신과 함께-죄와 벌, ...",1,김성훈; 河正宇,배우,1978-03-11,남,https://www.facebook.com/ft.hajungwoo,"184cm, 75kg",중앙대학교 연극학 학사,"피아노, 검도, 수영",62036bd220cad69d144eea37,,,
1,마동석,19552,"[나쁜 녀석들: 더 무비, 신과 함께-인과 연, 성난황소, 동네사람들, 원더풀 고스...",2,Ma Dongseok,배우,1971-03-01,남,https://www.instagram.com/madongseok_/\nhttps:...,"178cm, 100kg",,,62036bd220cad69d144eea38,,,
2,이병헌,16450,"[백두산, 남산의 부장들, 내부자들, 그것만이 내 세상, 광해, 왕이 된 남자, 번...",3,Byung-hun Lee;BH Lee,배우,1970-07-12,남,http://www.leebyunghun.kr/,"177cm, 72kg",한양대학교 불어문학과,"모자수집, 여행",62036bd220cad69d144eea39,"태권도, 스노우보드, 수영, 팔씨름",,
3,황정민,15902,"[공작, 인질, 다만 악에서 구하소서, 신세계, 와이키키 브라더스, 부당거래]",4,,배우,1970-09-01,남,,"180cm, 75kg",서울예술대학 연극과 졸업,,62036bd220cad69d144eea3a,"농구, 악기연주",예당엔터테인먼트,
4,이성민,15648,"[남산의 부장들, 목격자, 공작, 기적, 비스트, 마약왕]",5,,배우,1968-10-15,남,,178cm,,,62036bd220cad69d144eea3b,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
135,김혜수,1953,"[내가 죽던 날, 국가부도의 날, 타짜, 도둑들, 닥터봉]",136,,배우,1970-09-05,여,,"171cm, 49kg",동국대 연극영화 - 성균관대언론정보대학원 석사,"영화 감상, 사진집 모으기, 태권도, 수영, 테니스, 볼링",62036bd220cad69d144eeabe,태권도,,
136,남문철,1950,"[공작, 나랏말싸미, 유열의 음악앨범, 독전, 애비규환, 4등]",137,,배우,1971-03-20,남,,,,,62036bd220cad69d144eeabf,,,
137,손종학,1946,"[돈, 강철비2: 정상회담, 정직한 후보, 도희야, 검은 사제들, 비밀은 없다]",138,,배우,1967-06-20,남,,,,,62036bd220cad69d144eeac0,,,
138,최덕문,1911,"[나랏말싸미, 마약왕, 블랙머니, 소공녀, 암살, 애비규환]",139,,배우,1970-00-00,남,,,,,62036bd220cad69d144eeac1,,,
