## **05 MongoDB Python Aggregation**

### 0. 기본 pymongo 템플릿 코드
> sample_mflix 데이터셋을 기반으로, 지금까지 익힌 MongoDB aggregation 문법을 pymongo 에서 어떻게 적용해서 사용할 수 있는지를 알아보기로 함

In [1]:
from pymongo import MongoClient

client = MongoClient("mongodb://localhost:27017")
db = client.sample_mflix  # use sample_mflix
movies = db.movies        # db.movies(collection 선택)

In [2]:
## 필드 이름 추출

list(movies.find().limit(5))

[{'_id': ObjectId('573a1390f29313caabcd4135'),
  'plot': 'Three men hammer on an anvil and pass a bottle of beer around.',
  'genres': ['Short'],
  'runtime': 1,
  'cast': ['Charles Kayser', 'John Ott'],
  'num_mflix_comments': 1,
  'title': 'Blacksmith Scene',
  'fullplot': 'A stationary camera looks at a large anvil with a blacksmith behind it and one on either side. The smith in the middle draws a heated metal rod from the fire, places it on the anvil, and all three begin a rhythmic hammering. After several blows, the metal goes back in the fire. One smith pulls out a bottle of beer, and they each take a swig. Then, out comes the glowing metal and the hammering resumes.',
  'countries': ['USA'],
  'released': datetime.datetime(1893, 5, 9, 0, 0),
  'directors': ['William K.L. Dickson'],
  'rated': 'UNRATED',
  'awards': {'wins': 1, 'nominations': 0, 'text': '1 win.'},
  'lastupdated': '2015-08-26 00:03:50.133000000',
  'year': 1893,
  'imdb': {'rating': 6.2, 'votes': 1189, 'id': 5},


In [3]:
movies.find_one().keys()

dict_keys(['_id', 'plot', 'genres', 'runtime', 'cast', 'num_mflix_comments', 'title', 'fullplot', 'countries', 'released', 'directors', 'rated', 'awards', 'lastupdated', 'year', 'imdb', 'type', 'tomatoes'])

In [11]:
###  (1)'Action' 장르의 영화 (2)한 편 출력
pipeline = [
    {"$match": {"genres" : "Action"}},
    {"$limit": 1}
]
for movie in movies.aggregate(pipeline):
    print(movie)
    

{'_id': ObjectId('573a1390f29313caabcd5293'), 'plot': "Young Pauline is left a lot of money when her wealthy uncle dies. However, her uncle's secretary has been named as her guardian until she marries, at which time she will officially take ...", 'genres': ['Action'], 'runtime': 199, 'cast': ['Pearl White', 'Crane Wilbur', 'Paul Panzer', 'Edward Josè'], 'num_mflix_comments': 1, 'poster': 'https://m.media-amazon.com/images/M/MV5BMzgxODk1Mzk2Ml5BMl5BanBnXkFtZTgwMDg0NzkwMjE@._V1_SY1000_SX677_AL_.jpg', 'title': 'The Perils of Pauline', 'fullplot': 'Young Pauline is left a lot of money when her wealthy uncle dies. However, her uncle\'s secretary has been named as her guardian until she marries, at which time she will officially take possession of her inheritance. Meanwhile, her "guardian" and his confederates constantly come up with schemes to get rid of Pauline so that he can get his hands on the money himself.', 'languages': ['English'], 'released': datetime.datetime(1914, 3, 23, 0, 0), '

### 다양한 aggregate() 문법 적용
- MongoDB aggregation 문법은 find() 가 아닌, aggregate() 메서드를 사용해야 함

**1. $match: 이 스테이지는 쿼리와 유사한 방식으로 문서를 필터링합니다.**

> 결과가 너무 많기 때문에, $limit 문법도 함께 사용하기로 함

**2. $group: 이 스테이지는 특정 필드를 기준으로 문서를 그룹화하고, 각 그룹에 대해 다양한 연산을 수행할 수 있습니다.**

In [64]:
pipeline = [
    {"$group": {"_id":"$directors", "count": {"$sum": 1 }}},
    {"$limit": 2}
]
list(movies.aggregate(pipeline))

[{'_id': ['Albert Maysles',
   'Lynn True',
   'David Usui',
   'Nelson Walker III',
   'Benjamin Wu'],
  'count': 1},
 {'_id': ['John Kafka'], 'count': 1}]

In [20]:
pipeline = [
    {"$unwind" : "$directors"},
    {"$group":{"_id": "$directors", "count":{"$sum":1}}},
    {"$sort":{"count": -1}},
    {"$limit": 4}
]
list(movies.aggregate(pipeline))

[{'_id': 'Woody Allen', 'count': 40},
 {'_id': 'John Ford', 'count': 35},
 {'_id': 'Takashi Miike', 'count': 34},
 {'_id': 'John Huston', 'count': 34}]

**3. $sort: 이 스테이지는 특정 필드를 기준으로 문서를 정렬합니다.**

In [23]:
pipeline = [
    {"$sort": {"title": 1}}, { "$limit": 20 }
]
for movie in movies.aggregate(pipeline): 
    print(movie['title'], )
    
# db.movies.aggregate( [ { $sort: { title: 1 } }, 
#                                  { $limit: 3 } ] )   

1
1
3
4
8
9
9
10
10.5
11.6
12
13
15
21
23
24
24
36
42
54


**4. $limit: 이 스테이지는 출력되는 문서의 수를 제한합니다.**

**5. $project: 이 스테이지는 출력되는 문서의 필드를 추가, 제거, 또는 새로 생성합니다.**

In [30]:
pipeline = [
    {"$project": {"_id": 0, "title": 1,"genres":1}},
    { "$limit": 5 }
]
list(movies.aggregate(pipeline))

[{'genres': ['Short'], 'title': 'Blacksmith Scene'},
 {'genres': ['Short', 'Western'], 'title': 'The Great Train Robbery'},
 {'genres': ['Short', 'Drama', 'Fantasy'],
  'title': 'The Land Beyond the Sunset'},
 {'genres': ['Short', 'Drama'], 'title': 'A Corner in Wheat'},
 {'genres': ['Animation', 'Short', 'Comedy'],
  'title': 'Winsor McCay, the Famous Cartoonist of the N.Y. Herald and His Moving Comics'}]

**6. $unwind: 이 스테이지는 배열 필드를 풀어서 각 원소를 별도의 문서로 만듭니다.**

In [65]:
pipeline = [
    {"$unwind":"$genres"},
    {"$limit": 5}
]
pd.DataFrame(movies.aggregate(pipeline))

Unnamed: 0,_id,plot,genres,runtime,cast,num_mflix_comments,title,fullplot,countries,released,...,rated,awards,lastupdated,year,imdb,type,tomatoes,poster,languages,writers
0,573a1390f29313caabcd4135,Three men hammer on an anvil and pass a bottle...,Short,1,"[Charles Kayser, John Ott]",1.0,Blacksmith Scene,A stationary camera looks at a large anvil wit...,[USA],1893-05-09,...,UNRATED,"{'wins': 1, 'nominations': 0, 'text': '1 win.'}",2015-08-26 00:03:50.133000000,1893,"{'rating': 6.2, 'votes': 1189, 'id': 5}",movie,"{'viewer': {'rating': 3.0, 'numReviews': 184, ...",,,
1,573a1390f29313caabcd42e8,A group of bandits stage a brazen train hold-u...,Short,11,"[A.C. Abadie, Gilbert M. 'Broncho Billy' Ander...",,The Great Train Robbery,Among the earliest existing films in American ...,[USA],1903-12-01,...,TV-G,"{'wins': 1, 'nominations': 0, 'text': '1 win.'}",2015-08-13 00:27:59.177000000,1903,"{'rating': 7.4, 'votes': 9847, 'id': 439}",movie,"{'viewer': {'rating': 3.7, 'numReviews': 2559,...",https://m.media-amazon.com/images/M/MV5BMTU3Nj...,[English],
2,573a1390f29313caabcd42e8,A group of bandits stage a brazen train hold-u...,Western,11,"[A.C. Abadie, Gilbert M. 'Broncho Billy' Ander...",,The Great Train Robbery,Among the earliest existing films in American ...,[USA],1903-12-01,...,TV-G,"{'wins': 1, 'nominations': 0, 'text': '1 win.'}",2015-08-13 00:27:59.177000000,1903,"{'rating': 7.4, 'votes': 9847, 'id': 439}",movie,"{'viewer': {'rating': 3.7, 'numReviews': 2559,...",https://m.media-amazon.com/images/M/MV5BMTU3Nj...,[English],
3,573a1390f29313caabcd4323,"A young boy, opressed by his mother, goes on a...",Short,14,"[Martin Fuller, Mrs. William Bechtel, Walter E...",2.0,The Land Beyond the Sunset,"Thanks to the Fresh Air Fund, a slum child esc...",[USA],1912-10-28,...,UNRATED,"{'wins': 1, 'nominations': 0, 'text': '1 win.'}",2015-08-29 00:27:45.437000000,1912,"{'rating': 7.1, 'votes': 448, 'id': 488}",movie,"{'viewer': {'rating': 3.7, 'numReviews': 53, '...",https://m.media-amazon.com/images/M/MV5BMTMzMD...,[English],[Dorothy G. Shore]
4,573a1390f29313caabcd4323,"A young boy, opressed by his mother, goes on a...",Drama,14,"[Martin Fuller, Mrs. William Bechtel, Walter E...",2.0,The Land Beyond the Sunset,"Thanks to the Fresh Air Fund, a slum child esc...",[USA],1912-10-28,...,UNRATED,"{'wins': 1, 'nominations': 0, 'text': '1 win.'}",2015-08-29 00:27:45.437000000,1912,"{'rating': 7.1, 'votes': 448, 'id': 488}",movie,"{'viewer': {'rating': 3.7, 'numReviews': 53, '...",https://m.media-amazon.com/images/M/MV5BMTMzMD...,[English],[Dorothy G. Shore]


In [35]:
import pandas as pd
pd.DataFrame()

**7. `$group`과 `$sum`: 이 예제에서는 감독별로 영화를 그룹화하고, 각 그룹의 영화 수를 계산합니다.**

In [47]:
pipeline = [
    {"$group":{"_id":"$directors",
              "count":{"$sum": 1}}},
    {"$sort":{"count": -1}}
    # {"$limit":5}
]
pd.DataFrame(movies.aggregate(pipeline))

Unnamed: 0,_id,count
0,,265
1,[Woody Allen],39
2,[Takashi Miike],33
3,[Werner Herzog],31
4,[Alfred Hitchcock],31
...,...,...
10836,[Mark Craig],1
10837,"[Ferran Brooks, Kevin Macdonald, Alejandro Rom...",1
10838,[Borys Lankosz],1
10839,[Janet Grillo],1


**8. `$group`과 `$avg`: 이 예제에서는 감독별로 영화를 그룹화하고, 각 그룹의 영화 평점 평균을 계산합니다.**

In [58]:
pipline = [
    {"$unwind": "$directors"},
    {"$group":{"_id":"$directors",
               "average_rating":{"$avg": "$imdb.rating"}}},
    {"$sort":{"avg": -1}},
    {"$limit":5}
]
pd.DataFrame(movies.aggregate(pipeline))

Unnamed: 0,_id,count
0,,265
1,[Woody Allen],39
2,[Takashi Miike],33
3,[Werner Herzog],31
4,[Alfred Hitchcock],31
...,...,...
10836,[Weijun Chen],1
10837,"[Robert Gardner, John Marshall]",1
10838,[Clenet Verdi-Rose],1
10839,[Rafal Zielinski],1


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 1: 컬렉션에 있는 영화의 수를 계산하세요.</font><br>
</div>

In [130]:
movie_count = movies.count_documents({})
print("총영화수",movie_count)

# pipeline = [
#     {"$unwind" : "$directors"},
#     {"$group":{"_id": "$directors", "count":{"$sum":1}}},
#     {"$sort":{"count": -1}},
#     {"$limit": 4}
# ]
# list(movies.aggregate(pipeline))

총영화수 23539


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 2: 평균 영화 길이를 찾으세요.</font><br>
</div>

In [132]:
pipeline = [
    {
        "$group": {
            "_id": None, 
            "avg_runtime": { "$avg": "$runtime" }
        }
    }
]

pd.DataFrame(movies.aggregate(pipeline))

# round()



Unnamed: 0,_id,avg_runtime
0,,103.789321


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 3: 각 장르에 대한 영화 수를 계산하세요.</font><br>
</div>

In [104]:
pipeline = [
    { "$unwind":"$genres"},
    { "$group":{ "_id": "$genres" ,"count" :{"$sum": 1} }
    }
      
]
pd.DataFrame(movies.aggregate(pipeline))

Unnamed: 0,_id,count
0,History,999
1,Documentary,2129
2,Sport,390
3,Western,274
4,Horror,1703
5,Animation,971
6,Romance,3665
7,Film-Noir,105
8,Family,1311
9,Mystery,1259


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 4: 2014년 이후에 개봉한 영화를 제목으로 정렬하여 나열하세요.</font><br>
</div>

In [134]:
post_2014_movies = movies.find({"year": {"$gt":2014}}).sort("title")
for movie in post_2014_movies:
    print('영화 제목',movie['title'])

영화 제목 (T)ERROR
영화 제목 11 Minutes
영화 제목 13 Minutes
영화 제목 3 1/2 Minutes, Ten Bullets
영화 제목 45 Years
영화 제목 6 Years
영화 제목 600 Millas
영화 제목 7 Chinese Brothers
영화 제목 A Bigger Splash
영화 제목 A Brave Heart: The Lizzie Velasquez Story
영화 제목 A Country Called Home
영화 제목 A Horse for Summer
영화 제목 A Perfect Day
영화 제목 A Sinner in Mecca
영화 제목 A Sunday Kind of Love
영화 제목 A Tale of Love and Darkness
영화 제목 A War
영화 제목 A cambio de nada
영화 제목 Above and Below
영화 제목 Ad Inexplorata
영화 제목 Adam Curtis: Bitter Lake
영화 제목 Adama
영화 제목 Admiral
영화 제목 Advantageous
영화 제목 Aferim!
영화 제목 AfterDeath
영화 제목 Alias Marèa
영화 제목 Alice in Earnestland
영화 제목 All Eyes and Ears
영화 제목 Aloha
영화 제목 American Hostage
영화 제목 Amy
영화 제목 An
영화 제목 An Italian Name
영화 제목 Anomalisa
영화 제목 Another World
영화 제목 Ant-Man
영화 제목 Applesauce
영화 제목 April and the Extraordinary World
영화 제목 Arabian Nights: Volume 1 - The Restless One
영화 제목 Armi elèè!
영화 제목 As We Were Dreaming
영화 제목 Ashby
영화 제목 Assassination Classroom
영화 제목 Autism in Love
영화 제목 Ava's Possessions
영

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 5: 가장 많은 영화를 제작하는 상위 5개 국가를 찾으세요.</font><br>
</div>

In [142]:
top5_countries = movies.aggregate([{"$unwind": "$countries"},   # 국가 array를 unwind
                  {"$group": {"_id":"$countries", "count": {"$sum":1}}}, # 국가별 제작건수
                  {"$sort": {"count": -1}},     # 내림차순 정렬
                  {"$limit": 5}])
top5_countries = list(top5_countries)
pd.DataFrame(top5_countries)

Unnamed: 0,_id,count
0,USA,11855
1,France,3093
2,UK,2904
3,Germany,1659
4,Italy,1388


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 6: 2000년 이후 영화의 연도별 평균 IMDB 평점을 찾으세요.</font><br>
</div>

In [150]:
average_rating = movies.aggregate([
    {"$match" :{"year": {"$gt": 2000}}},
    {"$group" : {"_id":"$year",
                "avgRating":{"$avg": "$imdb.rating"}}}
    {"$sort":{"_id": 1}}
])
pd.DataFrame(average_rating)


SyntaxError: invalid syntax. Perhaps you forgot a comma? (2925741359.py, line 3)

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 7:  'Star'라는 단어가 포함된 영화의 제목을 가져오세요.</font><br>
</div>

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 8:  데이터셋에서 사용 가능한 모든 고유 언어를 나열하세요.</font><br>
</div>

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 9:  각각의 감독이 제작한 영화 수가 25개 이상인 감독들을 찾으세요.</font><br>
</div>

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제 10:  관람객 평점을 기준으로 상위 5개의 영화를 찾으세요 (1000표 이상의 영화에 한함).</font><br>
</div>