## **05 MongoDB Python Aggregation**

### 0. 기본 pymongo 템플릿 코드
> sample_mflix 데이터셋을 기반으로, 지금까지 익힌 MongoDB aggregation 문법을 pymongo 에서 어떻게 적용해서 사용할 수 있는지를 알아보기로 함

In [13]:
from pymongo import MongoClient
client = MongoClient("mongodb://localhost:27017")

db = client.sample_mflix
movies = db.movies

In [14]:
movies.find_one().keys()

dict_keys(['_id', 'plot', 'genres', 'runtime', 'cast', 'num_mflix_comments', 'title', 'fullplot', 'countries', 'released', 'directors', 'rated', 'awards', 'lastupdated', 'year', 'imdb', 'type', 'tomatoes'])

### 다양한 aggregate() 문법 적용
- MongoDB aggregation 문법은 find() 가 아닌, aggregate() 메서드를 사용해야 함

**1. $match: 이 스테이지는 쿼리와 유사한 방식으로 문서를 필터링합니다.**

> 결과가 너무 많기 때문에, $limit 문법도 함께 사용하기로 함

In [61]:
pipeline = [
    {"$match": {"genres": "Action"}},
    {"$limit": 1}
]
for movie in movies.aggregate(pipeline):
    print(movie)

{'_id': ObjectId('573a1390f29313caabcd5293'), 'plot': "Young Pauline is left a lot of money when her wealthy uncle dies. However, her uncle's secretary has been named as her guardian until she marries, at which time she will officially take ...", 'genres': ['Action'], 'runtime': 199, 'cast': ['Pearl White', 'Crane Wilbur', 'Paul Panzer', 'Edward Josè'], 'num_mflix_comments': 1, 'poster': 'https://m.media-amazon.com/images/M/MV5BMzgxODk1Mzk2Ml5BMl5BanBnXkFtZTgwMDg0NzkwMjE@._V1_SY1000_SX677_AL_.jpg', 'title': 'The Perils of Pauline', 'fullplot': 'Young Pauline is left a lot of money when her wealthy uncle dies. However, her uncle\'s secretary has been named as her guardian until she marries, at which time she will officially take possession of her inheritance. Meanwhile, her "guardian" and his confederates constantly come up with schemes to get rid of Pauline so that he can get his hands on the money himself.', 'languages': ['English'], 'released': datetime.datetime(1914, 3, 23, 0, 0), '

**2. $group: 이 스테이지는 특정 필드를 기준으로 문서를 그룹화하고, 각 그룹에 대해 다양한 연산을 수행할 수 있습니다.**

In [26]:
pipeline = [
    {"$group": {"_id": "$directors", "count": {"$sum": 1}}},
    {"$limit": 5}
]
list(movies.aggregate(pipeline))

[{'_id': ['Andrew L. Stone'], 'count': 2},
 {'_id': ['Gael Garcèa Bernal'], 'count': 1},
 {'_id': ['Franco Prosperi'], 'count': 2},
 {'_id': ['Nicholas Jasenovec'], 'count': 1},
 {'_id': ['Henry Levin'], 'count': 6}]

**3. $sort: 이 스테이지는 특정 필드를 기준으로 문서를 정렬합니다.**

In [22]:
pipeline = [
    {"$sort": {"title": 1}}, { "$limit": 5 }
]
for movie in movies.aggregate(pipeline): 
    print(movie['title'], movie)
    
# db.movies.aggregate( [ { $sort: { title: 1 } }, 
#                                  { $limit: 3 } ] ) 

[{'_id': ['Irvin Kershner'], 'count': 7},
 {'_id': ['Richard Thorpe'], 'count': 6},
 {'_id': ['Henrique Goldman'], 'count': 2},
 {'_id': ['Murilo Salles'], 'count': 1},
 {'_id': ['Bill L. Norton'], 'count': 1}]

**4. $limit: 이 스테이지는 출력되는 문서의 수를 제한합니다.**

In [23]:
pipeline = [
    {"$limit": 1}
]
for movie in movies.aggregate(pipeline):
    print(movie)
    
# db.movies.aggregate( [ { $limit: 1 } ] ) 

{'_id': ObjectId('573a1390f29313caabcd4135'), 'plot': 'Three men hammer on an anvil and pass a bottle of beer around.', 'genres': ['Short'], 'runtime': 1, 'cast': ['Charles Kayser', 'John Ott'], 'num_mflix_comments': 1, 'title': 'Blacksmith Scene', 'fullplot': 'A stationary camera looks at a large anvil with a blacksmith behind it and one on either side. The smith in the middle draws a heated metal rod from the fire, places it on the anvil, and all three begin a rhythmic hammering. After several blows, the metal goes back in the fire. One smith pulls out a bottle of beer, and they each take a swig. Then, out comes the glowing metal and the hammering resumes.', 'countries': ['USA'], 'released': datetime.datetime(1893, 5, 9, 0, 0), 'directors': ['William K.L. Dickson'], 'rated': 'UNRATED', 'awards': {'wins': 1, 'nominations': 0, 'text': '1 win.'}, 'lastupdated': '2015-08-26 00:03:50.133000000', 'year': 1893, 'imdb': {'rating': 6.2, 'votes': 1189, 'id': 5}, 'type': 'movie', 'tomatoes': {'

**5. $project: 이 스테이지는 출력되는 문서의 필드를 추가, 제거, 또는 새로 생성합니다.**

In [28]:
pipeline = [
    {"$project": {"_id": 0, "title": 1, "genres": 1}},
    {"$limit": 5}
]
list(movies.aggregate(pipeline))

[{'genres': ['Short'], 'title': 'Blacksmith Scene'},
 {'genres': ['Short', 'Western'], 'title': 'The Great Train Robbery'},
 {'genres': ['Short', 'Drama', 'Fantasy'],
  'title': 'The Land Beyond the Sunset'},
 {'genres': ['Short', 'Drama'], 'title': 'A Corner in Wheat'},
 {'genres': ['Animation', 'Short', 'Comedy'],
  'title': 'Winsor McCay, the Famous Cartoonist of the N.Y. Herald and His Moving Comics'}]

**6. $unwind: 이 스테이지는 배열 필드를 풀어서 각 원소를 별도의 문서로 만듭니다.**

In [41]:
pipeline = [
    {"$unwind":"$genres"},
    {"$limit": 5}
]
list(movies.aggregate(pipeline))

[{'_id': ObjectId('573a1390f29313caabcd4135'),
  'plot': 'Three men hammer on an anvil and pass a bottle of beer around.',
  'genres': 'Short',
  'runtime': 1,
  'cast': ['Charles Kayser', 'John Ott'],
  'num_mflix_comments': 1,
  'title': 'Blacksmith Scene',
  'fullplot': 'A stationary camera looks at a large anvil with a blacksmith behind it and one on either side. The smith in the middle draws a heated metal rod from the fire, places it on the anvil, and all three begin a rhythmic hammering. After several blows, the metal goes back in the fire. One smith pulls out a bottle of beer, and they each take a swig. Then, out comes the glowing metal and the hammering resumes.',
  'countries': ['USA'],
  'released': datetime.datetime(1893, 5, 9, 0, 0),
  'directors': ['William K.L. Dickson'],
  'rated': 'UNRATED',
  'awards': {'wins': 1, 'nominations': 0, 'text': '1 win.'},
  'lastupdated': '2015-08-26 00:03:50.133000000',
  'year': 1893,
  'imdb': {'rating': 6.2, 'votes': 1189, 'id': 5},
  

**7. `$group`과 `$sum`: 이 예제에서는 감독별로 영화를 그룹화하고, 각 그룹의 영화 수를 계산합니다.**

In [43]:
pipeline = [
    {"$group": {"_id": "$directors",
                "count": {"$sum": 1}}},
    {"$limit": 5}
]
list(movies.aggregate(pipeline))

[{'_id': ['Robert Schwentke'], 'count': 5},
 {'_id': ['Brian Hecker'], 'count': 1},
 {'_id': ['Andrew Leman'], 'count': 1},
 {'_id': ['Jaime Marques'], 'count': 1},
 {'_id': ['Simeon Halligan'], 'count': 1}]

**8. `$group`과 `$avg`: 이 예제에서는 감독별로 영화를 그룹화하고, 각 그룹의 영화 평점 평균을 계산합니다.**

In [54]:
pipeline = [
    {"$unwind": "$diretors"},
    {"$group":{"_id":"$directors",
              "average_rating":{"$avg": "$imdb.rating"}}},
    {"$sort":{"avg": -1}},
    {"$limit":5}
]
list(movies.aggregate(pipeline))



[]

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 1: 컬렉션에 있는 영화의 수를 계산하세요.</font><br>
</div>

In [73]:
cnt = list(movies.find())
print(len(cnt))
# db.movies.find().count()

23539


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 2: 평균 영화 길이를 찾으세요.</font><br>
</div>

In [83]:
cnt = movies.count_documents({"runtime": {"$exists": True}})
sum_run = sum(doc.get("runtime", 0) for doc in movies.find({}, {"runtime": 1, "_id": 0}))
print(sum_run / cnt)

103.78932097696172


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 3: 각 장르에 대한 영화 수를 계산하세요.</font><br>
</div>

In [91]:
list(movies.aggregate([{"$unwind": "$genres"},
                       {"$group": {"_id": "$genres","conut": {"$sum": 1}},
                       {"$sort": {"count": -1}}}]))

SyntaxError: ':' expected after dictionary key (3517656950.py, line 3)

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 4: 2014년 이후에 개봉한 영화를 제목으로 정렬하여 나열하세요.</font><br>
</div>

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 5: 가장 많은 영화를 제작하는 상위 5개 국가를 찾으세요.</font><br>
</div>

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 6: 2000년 이후 영화의 연도별 평균 IMDB 평점을 찾으세요.</font><br>
</div>

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 7:  'Star'라는 단어가 포함된 영화의 제목을 가져오세요.</font><br>
</div>

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 8:  데이터셋에서 사용 가능한 모든 고유 언어를 나열하세요.</font><br>
</div>

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 9:  각각의 감독이 제작한 영화 수가 25개 이상인 감독들을 찾으세요.</font><br>
</div>

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 10:  관람객 평점을 기준으로 상위 5개의 영화를 찾으세요 (1000표 이상의 영화에 한함).</font><br>
</div>