In [1]:
from pymongo import MongoClient

client = MongoClient("mongodb://localhost:27017")

db = client.sample_mflix
movies = db.movies

print(movies)

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'sample_mflix'), 'movies')


In [3]:
# find() => aggregation Framework 문법을 사용하면 pipeline 생성해서 복잡한 데이터처리를 순차적으로

# 1. $match => 특정조건에 해당되는 문서를 찾아오고자 할 때
# 2. $limit => find()limit() 동일한 기능

for movie in movies.aggregate([{"$match": {"genres": "Action"}}, {"$limit": 1}]) :
    print(movie)

{'_id': ObjectId('573a1390f29313caabcd5293'), 'plot': "Young Pauline is left a lot of money when her wealthy uncle dies. However, her uncle's secretary has been named as her guardian until she marries, at which time she will officially take ...", 'genres': ['Action'], 'runtime': 199, 'cast': ['Pearl White', 'Crane Wilbur', 'Paul Panzer', 'Edward Josè'], 'num_mflix_comments': 1, 'poster': 'https://m.media-amazon.com/images/M/MV5BMzgxODk1Mzk2Ml5BMl5BanBnXkFtZTgwMDg0NzkwMjE@._V1_SY1000_SX677_AL_.jpg', 'title': 'The Perils of Pauline', 'fullplot': 'Young Pauline is left a lot of money when her wealthy uncle dies. However, her uncle\'s secretary has been named as her guardian until she marries, at which time she will officially take possession of her inheritance. Meanwhile, her "guardian" and his confederates constantly come up with schemes to get rid of Pauline so that he can get his hands on the money himself.', 'languages': ['English'], 'released': datetime.datetime(1914, 3, 23, 0, 0), '

In [6]:
# $group : SQL에서의 GROUP BY 와 동일한 기능

for movie in movies.aggregate([{"$group": {"_id": "$directors", "count":{"$sum":1}}, }, {"$limit": 1}]) :
    print(movie)

{'_id': ['Ole Gièver'], 'count': 1}


In [8]:
pipeline = [
    {"$sort": {"title": 1}}, {"$limit": 3},
    {"$project": {"_id": 0, "title": 1, "genres"}}
]

for movie in movies.aggregate(pipeline) :
    print(movie)

{'genres': ['Documentary'], 'title': 1}
{'genres': ['Sci-Fi', 'Thriller'], 'title': 1}
{'genres': ['Comedy', 'Drama', 'Romance'], 'title': 3}


In [14]:
# $unwind : 배열 안에 입력된 값을 추출해서 출력하고자 할 때
for movie in movies.aggregate([{"$unwind": "$genres"}, {"$group": {"_id": "genres", "count": {"$sum":1}}}, {"$limit":3}]) :
    print(movie)



{'_id': 'genres', 'count': 49781}


In [43]:
# $group & 집계연산자 응용 패턴
pipeline = [
    {"$group": {"_id": "$directors", "count": {"$sum":1}}},
    {"$limit": 5}
]
for movie in movies.aggregate(pipeline) :
    print(movie)


{'_id': ['Dorothèe Van Den Berghe'], 'count': 2}
{'_id': ['Ash Adams'], 'count': 1}
{'_id': ['Mervyn LeRoy'], 'count': 16}
{'_id': ['R. Balki'], 'count': 2}
{'_id': ['Richard Bell'], 'count': 1}


In [17]:
pipeline = [
    {"$group": {"_id": "$directors", "avg_rating": {"$avg":"$imdb.rating"}}}
]
for movie in movies.aggregate(pipeline) :
    print(movie)

{'_id': ['Ole Gièver'], 'avg_rating': 5.7}
{'_id': ['Dwayne Carey-Hill'], 'avg_rating': 7.5}
{'_id': ['Stefan Prehn', 'Jèrg Wagner'], 'avg_rating': 8.0}
{'_id': ['Toshiaki Toyoda'], 'avg_rating': 7.425000000000001}
{'_id': ['Jan Verheyen', 'Pieter Van Hees'], 'avg_rating': 5.9}
{'_id': ['Brian Percival'], 'avg_rating': 7.6}
{'_id': ['Rob Letterman', 'Conrad Vernon'], 'avg_rating': 6.6}
{'_id': ['Michael Curtiz', 'John Wayne'], 'avg_rating': 6.9}
{'_id': ['R. Kelly', 'Victor Mignatti', 'Jim Swaffield'], 'avg_rating': 6.5}
{'_id': ['Young-Tak Kim'], 'avg_rating': 7.7}
{'_id': ['Diederik Ebbinge'], 'avg_rating': 7.1}
{'_id': ['Josef Kubota Wladyka'], 'avg_rating': 7.1}
{'_id': ['Cem Yilmaz'], 'avg_rating': 8.0}
{'_id': ['Anna Chi'], 'avg_rating': 5.2}
{'_id': ['Julius Sevcèk'], 'avg_rating': 6.15}
{'_id': ['Ann Turner'], 'avg_rating': 5.8}
{'_id': ['Andi Rogenhagen'], 'avg_rating': 6.8}
{'_id': ['Mikael Salomon'], 'avg_rating': 6.0200000000000005}
{'_id': ['Cam Archer'], 'avg_rating': 5.9

In [19]:
# 컬렉션에 있는 영화의 개수를 계산하세요.
db.movies.count_documents({})

23539

In [25]:
# 평균 영화 길이를 찾으세요.
pipeline = [
    {"$group": {"_id": None, "avgTime": {"$avg": "$runtime"}}},
    {"$limit": 3}
]
# for movie in movies.aggregate(pipeline) :
#     print (movie)

result = list(movies.aggregate(pipeline))
result[0]["avgTime"]

103.78932097696172

In [30]:
# 각 장르에 대한 영화 개수를 계산하세요!
# 장르를 기준으로 개수를 출력
pipeline = [
    {"$unwind":"$genres"},
    {"$group": {"_id": "$genres", "movieCount": {"$sum":1}}},
    {"$sort" : {"_id": 1}}
]

# for movie in movies.aggregate(pipeline) :
#     print(movie)

genre_count = movies.aggregate(pipeline)
for genre in genre_count :
    print(f"장르 : {genre["_id"]}, 영화 수 : {genre["movieCount"]}")

장르 : Action, 영화 수 : 2539
장르 : Adventure, 영화 수 : 2045
장르 : Animation, 영화 수 : 971
장르 : Biography, 영화 수 : 1404
장르 : Comedy, 영화 수 : 7024
장르 : Crime, 영화 수 : 2678
장르 : Documentary, 영화 수 : 2129
장르 : Drama, 영화 수 : 13789
장르 : Family, 영화 수 : 1311
장르 : Fantasy, 영화 수 : 1153
장르 : Film-Noir, 영화 수 : 105
장르 : History, 영화 수 : 999
장르 : Horror, 영화 수 : 1703
장르 : Music, 영화 수 : 840
장르 : Musical, 영화 수 : 487
장르 : Mystery, 영화 수 : 1259
장르 : News, 영화 수 : 51
장르 : Romance, 영화 수 : 3665
장르 : Sci-Fi, 영화 수 : 1034
장르 : Short, 영화 수 : 478
장르 : Sport, 영화 수 : 390
장르 : Talk-Show, 영화 수 : 1
장르 : Thriller, 영화 수 : 2658
장르 : War, 영화 수 : 794
장르 : Western, 영화 수 : 274


In [36]:
# 2015년 이후에 개봉한 영화를 제목순으로 정렬하여 나열해주세요.
pipeline = [
    {"$match": {"year": {"$gte": 2015}}},
    {"$project": {"_id": 0, "title": 1, "year": 1}},
    {"$sort": {"title": 1}},
    {"$limit": 5}
]

for movie in movies.aggregate(pipeline) :
    print(movie)

{'title': '(T)ERROR', 'year': 2015}
{'title': '11 Minutes', 'year': 2015}
{'title': '13 Minutes', 'year': 2015}
{'title': '3 1/2 Minutes, Ten Bullets', 'year': 2015}
{'title': '45 Years', 'year': 2015}


In [39]:
# 2015년 이후에 개봉한 영화를 제목순으로 정렬하여 나열해주세요.
for movie in movies.find({"year":{"$gt": 2015}}).sort("title") :
    print(f"영화제목: {movie["title"]}")

영화제목: The Masked Saint


In [41]:
#가장 많은 영화를 제작하는 상위 5개 국가를 찾아주세요.
pipeline=[
    {"$unwind": "$countries"},
    {"$group": {"_id":"$countries", "count":{"$sum":1}}},
    {"$sort": {"count":-1}},
    {"$limit": 5}
]

for movie in movies.aggregate(pipeline) :
    print(movie)

{'_id': 'USA', 'count': 11855}
{'_id': 'France', 'count': 3093}
{'_id': 'UK', 'count': 2904}
{'_id': 'Germany', 'count': 1659}
{'_id': 'Italy', 'count': 1388}


In [42]:
# 2000년 이후 영화의 연도별 평균 IMDB 평점을 찾으세요.
pipeline = [
    {"$match": {"year": {"$gte": 2000}}},
    {"$group": {"_id": "$year", "avgRating": {"$avg": "$imdb.rating"}}}
]

for movie in movies.aggregate(pipeline) :
    print(movie)

{'_id': 2014, 'avgRating': 6.5637478108581435}
{'_id': 2002, 'avgRating': 6.561679389312976}
{'_id': 2003, 'avgRating': 6.577929984779299}
{'_id': 2013, 'avgRating': 6.48876127973749}
{'_id': 2015, 'avgRating': 6.94197247706422}
{'_id': 2005, 'avgRating': 6.591292875989446}
{'_id': 2000, 'avgRating': 6.539805825242718}
{'_id': 2016, 'avgRating': None}
{'_id': 2004, 'avgRating': 6.648852901484481}
{'_id': 2012, 'avgRating': 6.478068592057761}
{'_id': 2011, 'avgRating': 6.491538461538461}
{'_id': 2010, 'avgRating': 6.5279669762641905}
{'_id': 2001, 'avgRating': 6.584031007751937}
{'_id': 2006, 'avgRating': 6.618364928909952}
{'_id': 2009, 'avgRating': 6.517979797979798}
{'_id': 2008, 'avgRating': 6.573243801652892}
{'_id': 2007, 'avgRating': 6.607224770642202}


In [44]:
db.close()

TypeError: 'Collection' object is not callable. If you meant to call the 'close' method on a 'Database' object it is failing because no such method exists.