### 1. MongoDB에 웹스크래핑 데이터 저장하기
* MongoDB에 연결
* database와 collection 생성
* actors.json 읽어서 insert_many()

In [1]:
import pymongo
import json

con = pymongo.MongoClient(host='localhost',port=27017)
print(con)

db = con.member_db
print(db)

#collection drop 
db.drop_collection('actors')

col = db.actors
print(col)

with open('data/actors2.json','r',encoding='utf8') as file:
    json_data = json.load(file)
    col.insert_many(json_data)

print('document 건수', col.estimated_document_count())    

MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True)
Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'member_db')
Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'member_db'), 'actors')
document 건수 588


In [2]:
#컬렉션의 find()를 사용한 함수 정의
def print_find_document(criteria, projection):
    for idx, member_doc in enumerate(col.find(criteria, projection),1):
        print(idx, member_doc)

In [3]:
#컬렉션의 aggregate()를 사용한 함수 정의
def print_aggregate_document(*args):
    agg_list = []
    for arg in args:
        agg_list.append(arg)
    print(agg_list)
    
    for agg_doc in col.aggregate(agg_list):
        print(agg_doc)

In [4]:
#1. 랭킹 1 ~ 50 인 배우의 배우이름,랭킹,흥행지수,소속사,출연영화
criteria = {
    '랭킹':{'$lte':50}
}
projection = {
    '_id':0,'랭킹':1,'배우이름':1,'흥행지수':1,'소속사':1,'출연영화':1
}

print_find_document(criteria, projection)

1 {'배우이름': '성동일', '랭킹': 1, '흥행지수': 139484, '출연영화': ['방법', '어쩌다 가족', '바퀴 달린 집']}
2 {'배우이름': '하지원', '랭킹': 2, '흥행지수': 104613, '출연영화': ['담보', '초콜릿', '갈릴레오 : 깨어난 우주']}
3 {'배우이름': '김희원', '랭킹': 3, '흥행지수': 81024, '소속사': 'DMS커뮤니케이션즈', '출연영화': ['바퀴 달린 집', '담보', '신의 한 수: 귀수편']}
4 {'배우이름': '유아인', '랭킹': 4, '흥행지수': 42326, '출연영화': ['소리도 없이', '＃살아있다', '도올아인 오방간다']}
5 {'배우이름': '박소이', '랭킹': 5, '흥행지수': 34871, '출연영화': ['호텔 레이크', '담보', '다시, 봄']}
6 {'배우이름': '유재명', '랭킹': 6, '흥행지수': 28202, '출연영화': ['소리도 없이', '소방관', '이태원 클라쓰']}
7 {'배우이름': '나문희', '랭킹': 7, '흥행지수': 26302, '출연영화': ['오! 문희', '영웅', '감쪽같은 그녀']}
8 {'배우이름': '이희준', '랭킹': 8, '흥행지수': 21096, '출연영화': ['오! 문희', '병훈의 하루', '병훈의 하루']}
9 {'배우이름': '김호중', '랭킹': 9, '흥행지수': 20580, '출연영화': ['그대, 고맙소 : 김호중 생애 첫 팬미팅 무비', '김창옥쇼', '위대한 배태랑']}
10 {'배우이름': '고아성', '랭킹': 10, '흥행지수': 18029, '소속사': '아티스트컴퍼니', '출연영화': ['바닷길 선발대', '항거:유관순 이야기', '삼진그룹 영어토익반']}
11 {'배우이름': '이솜', '랭킹': 11, '흥행지수': 16641, '소속사': '아티스트컴퍼니', '출연영화': ['울렁울렁 울렁대는 가슴안고', '삼진그룹 영어토익반', '구해줘 시즌 2']}
12 {'배

In [6]:
#흥행지수가 20000 보다 크거나 같은 배우는?
for actor in col.find({'흥행지수':{'$gte':20000}},{'_id':0,'배우이름':1,'흥행지수':1})\
.sort('배우이름',pymongo.DESCENDING):
    print(actor)

{'배우이름': '하지원', '흥행지수': 104613}
{'배우이름': '이희준', '흥행지수': 21096}
{'배우이름': '유재명', '흥행지수': 28202}
{'배우이름': '유아인', '흥행지수': 42326}
{'배우이름': '성동일', '흥행지수': 139484}
{'배우이름': '박소이', '흥행지수': 34871}
{'배우이름': '나문희', '흥행지수': 26302}
{'배우이름': '김희원', '흥행지수': 81024}
{'배우이름': '김호중', '흥행지수': 20580}


In [11]:
#$exists 연산자를 사용
#특기 필드가 존재하지 않은 경우와 존재하는 경우 count
#print( col.find({'특기':{'$exists':True}}).count() )
print(col.count_documents({'특기':{'$exists':True}}))
print(col.count_documents({'특기':{'$exists':False}}))

55
533


In [17]:
#다른 이름이 필드가 존재하면서 다른 이름이 방탄소년단 인 배우는?
criteria = {'다른 이름':{'$exists':True},'다른 이름':{'$regex':'방탄소년단'}}
#criteria = {'다른 이름':{'$regex':'방탄소년단'}}
    
projection = {
    '_id':0,'랭킹':1,'배우이름':1,'흥행지수':1,'다른 이름':1,'출연영화':1
}
print_find_document(criteria, projection)

1 {'배우이름': 'RM', '랭킹': 35, '흥행지수': 7258, '다른 이름': '김남준; 방탄소년단; RM', '출연영화': ['브레이크 더 사일런스: 더 무비', '브링 더 소울 : 더 무비', '방탄소년단 월드 투어 - 러브 유어셀프 인 서울']}
2 {'배우이름': '진', '랭킹': 40, '흥행지수': 6221, '다른 이름': '김석진; 방탄소년단', '출연영화': ['브레이크 더 사일런스: 더 무비', '브링 더 소울 : 더 무비', '방탄소년단 월드 투어 - 러브 유어셀프 인 서울']}
3 {'배우이름': '슈가', '랭킹': 47, '흥행지수': 5184, '다른 이름': '민윤기; 방탄소년단', '출연영화': ['브레이크 더 사일런스: 더 무비', '브링 더 소울 : 더 무비', '방탄소년단 월드 투어 - 러브 유어셀프 인 서울']}
4 {'배우이름': '제이홉', '랭킹': 51, '흥행지수': 4147, '다른 이름': '정호석; 방탄소년단', '출연영화': ['브레이크 더 사일런스: 더 무비', '브링 더 소울 : 더 무비', '방탄소년단 월드 투어 - 러브 유어셀프 인 서울']}
5 {'배우이름': '지민', '랭킹': 61, '흥행지수': 3110, '다른 이름': '박지민, 방탄소년단', '출연영화': ['브레이크 더 사일런스: 더 무비', '브링 더 소울 : 더 무비', '방탄소년단 월드 투어 - 러브 유어셀프 인 서울']}
6 {'배우이름': '뷔', '랭킹': 68, '흥행지수': 2074, '다른 이름': '방탄소년단', '출연영화': ['브레이크 더 사일런스: 더 무비', '브링 더 소울 : 더 무비', '방탄소년단 월드 투어 - 러브 유어셀프 인 서울']}
7 {'배우이름': '정국', '랭킹': 85, '흥행지수': 1037, '다른 이름': '전정국; 방탄소년단', '출연영화': ['브레이크 더 사일런스: 더 무비', '브링 더 소울 : 더 무비', '추석특집 ALL ABOUT BTS']}


In [20]:
# $nor ( not or )
# 흥행지수 >= 15000 or 성별 = 남
#$or 연산자
print(col.count_documents({'$or':[{'흥행지수':{'$gte':15000}},{'성별':'남'}]}))
#$nor 연산자
print(col.count_documents({'$nor':[{'흥행지수':{'$lte':15000}},{'성별':'여'}]}))

337
7


In [23]:
criteria = {'$or':[{'흥행지수':{'$gte':15000}},{'성별':'남'}]}
#criteria = {'$nor':[{'흥행지수':{'$lte':15000}},{'성별':'여'}]}
print_find_document(criteria, projection)

1 {'배우이름': '성동일', '랭킹': 1, '흥행지수': 139484, '출연영화': ['방법', '어쩌다 가족', '바퀴 달린 집']}
2 {'배우이름': '하지원', '랭킹': 2, '흥행지수': 104613, '출연영화': ['담보', '초콜릿', '갈릴레오 : 깨어난 우주']}
3 {'배우이름': '김희원', '랭킹': 3, '흥행지수': 81024, '출연영화': ['바퀴 달린 집', '담보', '신의 한 수: 귀수편']}
4 {'배우이름': '유아인', '랭킹': 4, '흥행지수': 42326, '다른 이름': '엄홍식', '출연영화': ['소리도 없이', '＃살아있다', '도올아인 오방간다']}
5 {'배우이름': '박소이', '랭킹': 5, '흥행지수': 34871, '출연영화': ['호텔 레이크', '담보', '다시, 봄']}
6 {'배우이름': '유재명', '랭킹': 6, '흥행지수': 28202, '출연영화': ['소리도 없이', '소방관', '이태원 클라쓰']}
7 {'배우이름': '나문희', '랭킹': 7, '흥행지수': 26302, '출연영화': ['오! 문희', '영웅', '감쪽같은 그녀']}
8 {'배우이름': '이희준', '랭킹': 8, '흥행지수': 21096, '출연영화': ['오! 문희', '병훈의 하루', '병훈의 하루']}
9 {'배우이름': '김호중', '랭킹': 9, '흥행지수': 20580, '출연영화': ['그대, 고맙소 : 김호중 생애 첫 팬미팅 무비', '김창옥쇼', '위대한 배태랑']}
10 {'배우이름': '고아성', '랭킹': 10, '흥행지수': 18029, '출연영화': ['바닷길 선발대', '항거:유관순 이야기', '삼진그룹 영어토익반']}
11 {'배우이름': '이솜', '랭킹': 11, '흥행지수': 16641, '출연영화': ['울렁울렁 울렁대는 가슴안고', '삼진그룹 영어토익반', '구해줘 시즌 2']}
12 {'배우이름': '최원영', '랭킹': 12, '흥행지수': 15879, '출연

#### List 에 포함된 문자열 검색
* $all 연산자 사용하면 순서에 상관 없이 값으로 찾을 수 있다.

In [39]:
col.count_documents({'출연영화':'아무도 모른다'})
#criteria = {'출연영화':'아무도 모른다'}
#criteria = {'$or':[{'출연영화':'아무도 모른다'},{'출연영화':'특별근로감독관 조장풍'}]}
#criteria = {'출연영화':['아무도 모른다','특별근로감독관 조장풍']}
criteria = {'출연영화':{'$all':['아무도 모른다','특별근로감독관 조장풍']}}
# projection = {
#     '_id':0,'랭킹':1,'배우이름':1,'흥행지수':1,'다른 이름':1,'출연영화':1
# }
print_find_document(criteria,projection)

1 {'배우이름': '류덕환', '랭킹': 476, '흥행지수': 0, '출연영화': ['아무도 모른다', '난폭한 기록', '특별근로감독관 조장풍']}
2 {'배우이름': '류덕환', '랭킹': 503, '흥행지수': 0, '출연영화': ['아무도 모른다', '난폭한 기록', '특별근로감독관 조장풍']}


In [None]:
#### $sortByCount 연산자
sort = {
    '$sortByCount':'$소속사'
}
print_aggregate_document(sort)