### Crawling 해서 MongoDB 에 저장하기
---

- Crawling 에 필요한 정보 : 크롬개발자모드 > Network > content 요청방식확인
> 크롤링 : 웹 상에 있는 contents 를 수집하는 작업  
  사이트 주소 :  http://www.cine21.com/rank/person/content  
  Request Method : POST
---

- Form Data  
> section = 'actor'  
  period_start = '2020-06'  
  gender = 'all'  
  page = 1
![Image Description](coala.jfif)  
![Image Description](URL)

In [None]:
'''
1) library import

BeautifulSoup
html 데이터를 분석할 수 있는 형태로 만들어 주는 클래스
'''
from bs4 import BeautifulSoup
import requests
import pymongo
import warnings
warnings.filterwarnings('ignore')

In [None]:
'''
2) mongodb connection
'''
conn = pymongo.MongoClient()

In [None]:
actor_db = conn.cine21

In [None]:
actor_collection = actor_db.actor_collection

In [None]:
'''
3) crawling 주소 request 하기
'''
cine21_url = 'http://www.cine21.com/rank/person/content'
post_data = dict()
post_data['section'] = 'actor'  
post_data['period_start'] = '2022-11'  
post_data['gender'] = 'all'  
post_data['page'] = 1 

# 전송방식이 post 방식이라서 
# requests 모듈에 있는 post() 함수를 호출함
response = requests.post(cine21_url, data=post_data)

In [None]:
'''
4) parsing(분석 가능한 형태로 변환: BeautifulSoup) 하고
   data 추출도 하기
'''
#       response 객체의 content 속성    parser 이름
soup = BeautifulSoup(response.content, 'html.parser')

In [None]:
actors = soup.select('li.people_li div.name')
for actor in actors:
    print(actor)
print('-' * 90)    
for actor in actors:
    print(actor.text)

In [None]:
'''
정규표현식 (Regular Expression)
  meta 문자
  
  [] 로 감싼 부분의 문자열과 매칭되는 문자를 찾음
  
  [0-9] (\d)          :  모든 숫자와 매칭됨
  [^0-9] (\D)         :  숫자가 아닌 것과 매칭됨
  [\t\n\r\f\v] (\s)   :  whitespace 문자와 매칭됨
  [^\t\n\r\f\v] (\S)  :  whitespace 문자가 아닌 것과 매칭됨
  [a-zA-Z0-9]  (\w)   :  문자 + 숫자와 매칭됨
  [^a-zA-Z0-9] (\W)   :  문자 + 숫자가 아닌 것과 매칭됨
  
'''

# 문자, 숫자가 아닌 data 를 찾아서 
# 빈문자열로 대체하는 code (빈문자열로 개체하면 삭제됨)
import re
str1 = '([Paul]'
print(str1)
print(re.sub('[^a-zA-Z0-9]', '', str1))

In [None]:
str1 = '([Paul]'
print(str1.replace('(','').replace('[','').replace(']',''))

In [None]:
for actor in actors:
    print(actor.text)

In [None]:
actor_name = '황정민(9편)'
print(re.sub('[0-9\(\)]','',actor_name).replace('편',''))
print(re.sub('[^ㄱ-힣]','',actor_name).replace('편',''))

1. 메타 문자 (특수 문자 기호)

  ㅇ 정규표현식 내 특별한 의미를 갖는 문자 기호
     - 비록, 정규표현식이,  
        . 기본 연산 셋(연접,반복,선택) 만으로도 표현 가능하지만,  
        . 특별한 의미를 갖는 문자들로써,   
        . 프로그래머에게 정규표현식을 보다 쉽게 사용토록 한, 문자 기호 표현 방법임

  ㅇ 例) 선택 `|`, 문자 클래스 `[]`, 서브 패턴 `()`, 수량자 `* + ? {}`, 앵커 `^ $ ＼ 등`,
         점 `.`, 수정자 `g i m s` 등


2. 선택 (selection)  :  | 

  ㅇ | (OR, 선택 또는 UNION, 합)
     -  例) the|The|THE  =>  the 또는 The 또는 THE 라는 문자열 패턴을 나타냄

  ㅇ 주요 역할
     - 2 이상의 패턴 중 하나를 선택할 때


3. 문자 클래스 (character class) (한 문자)  :  [ ]

  ※ (문자 클래스는, 특정한 한 문자를 나타냄)
     - `[ ]` 안에 여러 문자를 나열할 수도, `-`를 이용하여 문자열 범위 지정도 가능

  ㅇ 대괄호 [ ] 내에 지정된 모든 문자들에서 한 문자와의 일치를 뜻함
     -  例) 0부터 9까지 숫자 1개를 찾는 문자 클래스는, [0123456789]
     -  例) 영어 소문자 모음 1개를 찾는 문자 클래스는, [aeiou]

  ㅇ 문자 클래스 내 범위 지정  :  -  (ASCII 코드 순서에 따름)
     -  例) [0-9]  =>  0부터 9까지 숫자
     -  例) [a-zA-Z]  =>  영문 알파벳 문자  
        . 참고로, `-` 자체를 포함하려면, [-a-z] 또는 [a-z-] 처럼 맨앞이나 맨뒤에 적으면 됨

  ㅇ 문자 클래스 내 부정  :  선두 위치에 ^를 쓰면 부정
     -  例) [^0-9A-Za-z]  =>  숫자나 영문 알파벳 이외의 모든 문자에 일치함


4. 서브 패턴 (그룹화) (subexpression) :  ( )

  ※ ☞ 메타문자 그룹화 참조
     - 서브 패턴(그룹화)은, 부품 단위로 감싸서 구별짓기 위함  
        . 例) color 또는 colour 둘다 매치하려면, col(o|ou)r


5. 수량자 (quantifier) (반복)  :  *,  +,  ?,  { } 

  ※ ☞ 메타문자 수량자 참조  
     - 수량자는, 1 이상의 문자들의 반복 범위를 지정할 때 쓰여짐)   
        .  *     :  (최소 0회 이상 매치) - 0 이나 그 이상 반복되는 pattern  
        .  +     :  (최소 1회 이상 매치) - 1 이나 그 이상 반복되는 pattern   
        .  ?     :  (0 또는 1회 만 매치) - 없어도 되고 한 번 있어도 되는 pattern    
        .  {n,m} :  (범위 지정 반복, n회부터 m회까지 반복)  
        .  {n}   :  (n회 반복)  
        .  {n,}  :  (n번 이상 반복)  


6. 앵커 (anchor)  :  ^,  $, ＼

  ※ ☞ 메타문자 앵커 참조
     - (문자열이 아니고, `위치` 및 `특정 용도`에 일치시키는 것)  
     - 위치 고정 앵커  :  ^,  $ (정규식 패턴을 특정 위치에 고정하여, 그 위치에 일치시키기 위함)  
     - 특정 용도 앵커  :  ＼ (＼와 순수 문자와의 조합으로 특정 용도에 사용)   
        . ＼A (텍스트 선두 위치)  
        . ＼b (단어 경계 위치)  
        . ＼B (단어 경계를 제외한 모든 위치)  
        . ＼z (텍스트 끝 위치)  
     - 기타 용도 앵커 :   
        . ＼d (1개 숫자에 일치)  
        . ＼D (숫자가 아닌 모든 문자)  
        . ＼w (1개 문자에 일치)   
        . ＼s (공백문자) 등   


7. 점 (임의 한 문자)  :  .

  ㅇ `문자`,`숫자`,`_`,`@`,`쉼표(,)`,`따옴표(')`,`공백 문자` 포함
     - 단, 점(.) 수량자는, 공백문자 중 `줄바꿈 문자` 만은 제외(예외)하고 있음  
        . (공백 문자 : 스페이스 바,백 스페이스,수평탭,수직탬,폼피드,`줄바꿈 문자`)

  ㅇ 例)
     -  .*  =>  아무 문자도 없거나, 임의 문자가 1회 이상 반복될 때 매치됨
     - ^ab.*  =>  ab로 시작(^)하는 모든 문자열(ab,abc,abcd 등)과 매치됨 
     -  .+   =>  모든 문자열이 매치됨
     -  r.*e  =>  re, rare, recognize 등 r로 시작하고 e로 끝나는 임의 문자열들이 매치됨
     -  ab.  =>  ab로 시작하는 모든 3 문자로된 문자열이 매치됨


8. 수정자 (modifier) 또는 옵션  :  g,  i,  m,  s

  ※ (검사 위치,범위를 수정해 줌)

  ㅇ  g (global)      : 전역 검색 
     - 모든 일치를 전부 대상으로 함
     - 그렇지 않으면(즉, g가 아니면/없으면), 최초 일치 만

  ㅇ  i (ignore case) : 대소문자 구분 안함

  ㅇ  m (multi line)  : 일치 대상에 줄바꿈이 있더라도 전체 검색
     - 따라서, 전체 모두를 매 라인별로 검색 가능

  ㅇ  s (single line, dotall) : `임의 한 문자 . `에 줄바꿈 문자까지도 포함
     - 따라서, 전체 라인 모두를 한 라인 처럼 일치할 때까지 모두다 검색 가능

  ※ 例) /img
     - 영문 대소문자 구분 없이(/i), 모든 줄에 걸쳐서(/m), 전역 검사(/g)를 함


9. 이스케이프

  ㅇ 이스케이프  :  \ 또는 ＼                     ☞ 이스케이프 시퀀스 (Escape Sequence) 참조
     -  (표시 불가능한 문자를 표현코자할 때)  
        . 例) https?:＼/＼/  =>  http:// 또는 https://와 일치  
        . 例) ＼( 와 ＼)  =>  괄호 기호 ( ) 는 모두 메타문자 이므로 이스케이프 시켜야 함

In [None]:
import re

actor_name = '황정민(9편)'
# 1)
print(re.sub('[0-9\(\)]','',actor_name).replace('편',''))
# 2)
print(re.sub('[^ㄱ-힣]','',actor_name).replace('편',''))
# print(re.sub('\(\w\)','',actor_name))

# \(\w*\) : 괄호 안에 어떤 문자가 있거나 없거나
'''
. * : (최소 0회 이상 매치) - 0 이나 그 이상 반복되는 (있거나 없거나 모두) pattern
. + : (최소 1회 이상 매치) - 1 이나 그 이상 반복되는 pattern
. ? : (0 또는 1회 만 매치) - 없어도 되고 한 번 있어도 되는 pattern
'''
# 3)
print(re.sub('\(\w*\)','',actor_name))

In [None]:
actors = soup.select('li.people_li div.name')
for actor in actors:
    print(re.sub('\(\w*\)','',actor.text))

In [None]:
'''
5) 배우 상세 정보 가져오기
'''
actors = soup.select('li.people_li div.name')
for actor in actors:
    print(actor)

In [None]:
'''
http://www.cine21.com/db/person/info/?person_id=14268
'http://www.cine21.com' + '/db/person/info/?person_id=14268'
'''
for actor in actors:
    print(actor.select_one('a'))
print('-' * 90)
for actor in actors:
    print(actor.select_one('a').attrs['href'])   
print('-' * 90)
for actor in actors:
    print('http://www.cine21.com' + actor.select_one('a').attrs['href'])      

In [None]:

actors = soup.select('li.people_li div.name')

# 여러 사람들의 상세 정보 : 리스트
actor_info_list = []

for actor in actors:
    actor_url = 'http://www.cine21.com' + actor.select_one('a').attrs['href']
    # actor_url = http://www.cine21.com/db/person/info/?person_id=14268
    actor_response = requests.get(actor_url)
    actor_soup = BeautifulSoup(actor_response.content, 'html.parser')
    # print(actor_soup.select_one('ul.default_info'))
    default_info = actor_soup.select_one('ul.default_info')
    actor_detail = default_info.select('li')
    # print(actor_detail)
    '''
    <li><span class="tit">직업</span>배우</li>
    .  <-- 줄바꿈 문자인 \n 을 제외한 모든 문자 한 개를 의미함
    *  <-- *의 앞에 지정한 문자가 0 번 또는 그 이상 반복(없거나 있거나 모두를 의미함)
    .* <-- 문자가 0 번 또는 그 이상 반복(없거나 있거나 모두를 의미함)
    '''
    
    # 한 사람의 상세 정보 : 딕셔너리
    actor_info_dict = {}
    for actor_item in actor_detail:
        # print(actor_item)
        # print('-' * 90)
        # print(actor_item.text)
        # print('-' * 90)
        print(actor_item.select_one('span.tit').text)
        # print('-' * 90)
        # print(re.sub('<span.*?>.*?</span>','',str(actor_item)))
        # <li><span class="tit">직업</span>배우</li>
        actor_item_value = re.sub('<span.*?>.*?</span>','',str(actor_item))
        # print(actor_item_value)
        actor_item_value = re.sub('<.*?>','',actor_item_value)
        print(actor_item_value)
        

In [None]:
"""
# 정규표현식을 사용하지 않고, 문자열 split, indexing, slicing 사용하기
actors = soup.select('li.people_li div.name')
for actor in actors:
    actor_url = 'http://www.cine21.com' + actor.select_one('a').attrs['href']
    # actor_url = http://www.cine21.com/db/person/info/?person_id=14268
    actor_response = requests.get(actor_url)
    actor_soup = BeautifulSoup(actor_response.content, 'html.parser')
    # print(actor_soup.select_one('ul.default_info'))
    default_info = actor_soup.select_one('ul.default_info')
    actor_detail = default_info.select('li')
    # print(actor_detail)
    for actor_item in actor_detail:
        # print(actor_item)
        actor_item = str(actor_item)
        # print(actor_item.split('<'))
        elem = actor_item.split('<')   
        # print(elem[2])
        # print(elem[3])
        print(elem[2][elem[2].find('>')+1:])
        print(elem[3][elem[3].find('>')+1:])
"""

In [None]:
actors = soup.select('li.people_li div.name')

# 여러 사람들의 상세 정보 : 리스트
actor_info_list = []

for actor in actors:
    actor_url = 'http://www.cine21.com' + actor.select_one('a').attrs['href']    
    actor_response = requests.get(actor_url)
    actor_soup = BeautifulSoup(actor_response.content, 'html.parser')
    default_info = actor_soup.select_one('ul.default_info')
    actor_detail = default_info.select('li')
    
    # 한 사람의 상세 정보 : 딕셔너리
    actor_info_dict = {}
    for actor_item in actor_detail:       
        actor_item_key = actor_item.select_one('span.tit').text
        actor_item_value = re.sub('<span.*?>.*?</span>','',str(actor_item))
        actor_item_value = re.sub('<.*?>','',actor_item_value)
        # 한 사람의 상세정보를 딕셔너리에 추가하기
        actor_info_dict[actor_item_key] = actor_item_value
        
    # 한 사람의 상세정보를 리스트에 추가하기
    #  ㄴ 반복적으로 실행하면 여러 사람들의 상세정보가 리스트에 추가됨
    actor_info_list.append(actor_info_dict)
   

In [None]:
import pprint
pprint.pprint(actor_info_list)

In [None]:
"""
# 정규표현식을 사용하지 않고, 문자열 split, indexing, slicing 사용하기
actors = soup.select('li.people_li div.name')

# 여러 사람들의 상세 정보 : 리스트
actor_info_list = []

for actor in actors:
    actor_url = 'http://www.cine21.com' + actor.select_one('a').attrs['href']    
    actor_response = requests.get(actor_url)
    actor_soup = BeautifulSoup(actor_response.content, 'html.parser')
    default_info = actor_soup.select_one('ul.default_info')
    actor_detail = default_info.select('li')
    
    # 한 사람의 상세 정보 : 딕셔너리
    actor_info_dict = {}
    for actor_item in actor_detail:  
        actor_item = str(actor_item)
        elem = actor_item.split('<')
        actor_item_key = elem[2][elem[2].find('>')+1:]
        actor_item_value = elem[3][elem[3].find('>')+1:]
        #  한 사람의 상세정보를 딕셔너리에 추가하기
        actor_info_dict[actor_item_key] = actor_item_value           
        
    # 한 사람의 상세정보를 리스트에 추가하기
    #  ㄴ 반복적으로 실행하면 여러 사람들의 상세정보가 리스트에 추가됨
    actor_info_list.append(actor_info_dict)
pprint.pprint(actor_info_list)
"""

In [None]:
'''
6) 배우 흥행지수 가져오기
'''
actors = soup.select('li.people_li div.name')
hits = soup.select('ul.num_info > li > strong')
movies = soup.select('ul.mov_list')


'''
print(movies)
# print(hits)
for hit in hits:
    print(hit)
print('-' * 90)    
for hit in hits:
    print(hit.text)
''' 

for idx, actor in enumerate(actors):
    print('배우이름 :',re.sub('\(\w*\)','',actor.text))
    print('흥행지수 :',int(hits[idx].text.replace(',','')))
    movie_titles = movies[idx].select('li a span')
    movie_title_list = []
    for movie_title in movie_titles:
        # print(movie_title.text)
        movie_title_list.append(movie_title.text)
    # 한 사람의 출연영화 목록    
    print('출연영화 :',movie_title_list)    

In [None]:
'''
6) 배우 흥행지수 가져오기
7) 수집한 data 로 dictionary 생성하기 - 1 page 만
'''
actors = soup.select('li.people_li div.name')
hits = soup.select('ul.num_info > li > strong')
movies = soup.select('ul.mov_list')

actor_info_list = []

for idx, actor in enumerate(actors):
    actor_name = re.sub('\(\w*\)','',actor.text)
    actor_hits = int(hits[idx].text.replace(',',''))
    movie_titles = movies[idx].select('li a span')
    movie_title_list = []
    for movie_title in movie_titles:
        # print(movie_title.text)
        movie_title_list.append(movie_title.text)
    # 한 사람의 출연영화 목록    
    # movie_title_list       
    
    # 한 사람의 상세 정보 : 딕셔너리
    actor_info_dict = {}
    actor_info_dict['배우이름'] = actor_name
    actor_info_dict['흥행지수'] = actor_hits 
    actor_info_dict['출연영화'] = movie_title_list
    
    # 상세페이지로 이동해서 정보 가져오기    
    actor_url = 'http://www.cine21.com' + actor.select_one('a').attrs['href']    
    actor_response = requests.get(actor_url)
    actor_soup = BeautifulSoup(actor_response.content, 'html.parser')
    default_info = actor_soup.select_one('ul.default_info')
    actor_detail = default_info.select('li')
    
    for actor_item in actor_detail:       
        actor_item_key   = actor_item.select_one('span.tit').text
        actor_item_value = re.sub('<span.*?>.*?</span>','',str(actor_item))
        actor_item_value = re.sub('<.*?>','',actor_item_value)
        # 한 사람의 상세정보를 딕셔너리에 추가하기
        actor_info_dict[actor_item_key] = actor_item_value
        
    # 한 사람의 상세정보를 리스트에 추가하기
    #  ㄴ 반복적으로 실행하면 여러 사람들의 상세정보가 리스트에 추가됨
    actor_info_list.append(actor_info_dict)
    

In [None]:
actor_info_list   

In [None]:
'''
8) 여러 page 에서 배우 정보 가져오기
'''

from bs4 import BeautifulSoup
import requests
import pymongo
import re
import pprint
import warnings
warnings.filterwarnings('ignore')

cine21_url = 'http://www.cine21.com/rank/person/content'
post_data = dict()
post_data['section'] = 'actor'  
post_data['period_start'] = '2022-11'  
post_data['gender'] = 'all' 

actor_info_list = []

for idx in range(1, 21):
    post_data['page'] = idx 
    
    response = requests.post(cine21_url, data=post_data)
    soup = BeautifulSoup(response.content, 'html.parser')

    actors = soup.select('li.people_li div.name')
    hits = soup.select('ul.num_info > li > strong')
    movies = soup.select('ul.mov_list')    

    for idx, actor in enumerate(actors):
        actor_name = re.sub('\(\w*\)','',actor.text)
        actor_hits = int(hits[idx].text.replace(',',''))
        movie_titles = movies[idx].select('li a span')
        movie_title_list = []
        for movie_title in movie_titles:
            # print(movie_title.text)
            movie_title_list.append(movie_title.text)
        # 한 사람의 출연영화 목록    
        # movie_title_list       

        # 한 사람의 상세 정보 : 딕셔너리
        actor_info_dict = {}
        actor_info_dict['배우이름'] = actor_name
        actor_info_dict['흥행지수'] = actor_hits 
        actor_info_dict['출연영화'] = movie_title_list

        # 상세페이지로 이동해서 정보 가져오기    
        actor_url = 'http://www.cine21.com' + actor.select_one('a').attrs['href']    
        actor_response = requests.get(actor_url)
        actor_soup = BeautifulSoup(actor_response.content, 'html.parser')
        default_info = actor_soup.select_one('ul.default_info')
        actor_detail = default_info.select('li')

        for actor_item in actor_detail:       
            actor_item_key = actor_item.select_one('span.tit').text
            actor_item_value = re.sub('<span.*?>.*?</span>','',str(actor_item))
            actor_item_value = re.sub('<.*?>','',actor_item_value)
            # 한 사람의 상세정보를 딕셔너리에 추가하기
            actor_info_dict[actor_item_key] = actor_item_value

        # 한 사람의 상세정보를 리스트에 추가하기
        #  ㄴ 반복적으로 실행하면 여러 사람들의 상세정보가 리스트에 추가됨
        actor_info_list.append(actor_info_dict)
       

In [None]:
pprint.pprint(actor_info_list)

In [None]:
print('배우인원 :',len(actor_info_list),'명')

In [None]:
'''
8) 여러 page 에서 배우 정보 가져오기
'''
# 정규표현식을 사용하지 않고, 문자열 split, indexing, slicing 사용하기

from bs4 import BeautifulSoup
import requests
import pymongo
import re
import pprint
import warnings
warnings.filterwarnings('ignore')

cine21_url = 'http://www.cine21.com/rank/person/content'
post_data = dict()
post_data['section'] = 'actor'  
post_data['period_start'] = '2022-11'  
post_data['gender'] = 'all' 

actor_info_list = []

for idx in range(1, 21):
    post_data['page'] = idx 
    
    response = requests.post(cine21_url, data=post_data)
    soup = BeautifulSoup(response.content, 'html.parser')

    actors = soup.select('li.people_li div.name')
    hits = soup.select('ul.num_info > li > strong')
    movies = soup.select('ul.mov_list')    

    for idx, actor in enumerate(actors):
        actor_name = re.sub('\(\w*\)','',actor.text)
        actor_hits = int(hits[idx].text.replace(',',''))
        movie_titles = movies[idx].select('li a span')
        movie_title_list = []
        for movie_title in movie_titles:
            # print(movie_title.text)
            movie_title_list.append(movie_title.text)
        # 한 사람의 출연영화 목록    
        # movie_title_list       

        # 한 사람의 상세 정보 : 딕셔너리
        actor_info_dict = {}
        actor_info_dict['배우이름'] = actor_name
        actor_info_dict['흥행지수'] = actor_hits 
        actor_info_dict['출연영화'] = movie_title_list

        # 상세페이지로 이동해서 정보 가져오기    
        actor_url = 'http://www.cine21.com' + actor.select_one('a').attrs['href']    
        actor_response = requests.get(actor_url)
        actor_soup = BeautifulSoup(actor_response.content, 'html.parser')
        default_info = actor_soup.select_one('ul.default_info')
        actor_detail = default_info.select('li')
        for actor_item in actor_detail:  
            actor_item = str(actor_item)
            elem = actor_item.split('<')
            actor_item_key = elem[2][elem[2].find('>')+1:]
            actor_item_value = elem[3][elem[3].find('>')+1:]
            #  한 사람의 상세정보를 딕셔너리에 추가하기
            actor_info_dict[actor_item_key] = actor_item_value     
       
        # 한 사람의 상세정보를 리스트에 추가하기
        #  ㄴ 반복적으로 실행하면 여러 사람들의 상세정보가 리스트에 추가됨
        actor_info_list.append(actor_info_dict)
       

In [None]:
pprint.pprint(actor_info_list)

In [None]:
print('배우인원 :',len(actor_info_list),'명')