### 0. 기본 pymongo 템플릿 코드
> sample_mflix 데이터셋을 기반으로, 지금까지 익힌 MongoDB aggregation 문법을 pymongo 에서 어떻게 적용해서 사용할 수 있는지를 알아보기로 함

In [2]:
from pymongo import MongoClient

# MongoDB에 연결 (인증 미필요시)
client = MongoClient("mongodb://localhost:27017")
# client = MongoClient("mongodb://username:password@localhost:27017")
# 인증이 필요하지 않은 경우 위의 첫 번째 줄 사용, 인증이 필요한 경우 두 번째 줄 사용

db = client.sample_mflix
movies = db.movies

### 다양한 aggregate() 문법 적용
- MongoDB aggregation 문법은 find() 가 아닌, aggregate() 메서드를 사용해야 함
- pipeline을 먼저  조건문 딕셔너리들의 리스트 형태로 저장하고
- 이 파이프 라인을 aggregate함수의 인자로 주는 포맷으로 코드를 작성하면 된다.
--------------------
### 각각의 조건문들을 예시로 aggregation을 파이썬에서 사용하는 예시 코드 작성    



**1. $match: 이 스테이지는 쿼리와 유사한 방식으로 문서를 필터링합니다.**

> 결과가 너무 많기 때문에, $limit 문법도 함께 사용하기로 함

In [3]:
pipeline = [
    {"$match": {"genres": "Action"}}, { "$limit": 1 }
]
print(type(pipeline))
for movie in movies.aggregate(pipeline):
    print(movie)

<class 'list'>
{'_id': ObjectId('573a1390f29313caabcd5293'), 'plot': "Young Pauline is left a lot of money when her wealthy uncle dies. However, her uncle's secretary has been named as her guardian until she marries, at which time she will officially take ...", 'genres': ['Action'], 'runtime': 199, 'cast': ['Pearl White', 'Crane Wilbur', 'Paul Panzer', 'Edward Josè'], 'num_mflix_comments': 1, 'poster': 'https://m.media-amazon.com/images/M/MV5BMzgxODk1Mzk2Ml5BMl5BanBnXkFtZTgwMDg0NzkwMjE@._V1_SY1000_SX677_AL_.jpg', 'title': 'The Perils of Pauline', 'fullplot': 'Young Pauline is left a lot of money when her wealthy uncle dies. However, her uncle\'s secretary has been named as her guardian until she marries, at which time she will officially take possession of her inheritance. Meanwhile, her "guardian" and his confederates constantly come up with schemes to get rid of Pauline so that he can get his hands on the money himself.', 'languages': ['English'], 'released': datetime.datetime(1914, 

**2. $group: 이 스테이지는 특정 필드를 기준으로 문서를 그룹화하고, 각 그룹에 대해 다양한 연산을 수행할 수 있습니다.**

In [18]:
# 영상 후반부에 왜 다음과 같이 수정하였는지도 설명을 드립니다.
pipeline = [
    {"$group": {"_id": "$directors", "count": {"$sum": 1}}}, { "$limit": 5 }
]
# movies.aggregate(pipeline ) 자체는 document들의 리스트 이다.
for group in movies.aggregate(pipeline):
    print(group)

{'_id': ['Vikram Gandhi'], 'count': 1}
{'_id': ['Olivier Coussemacq'], 'count': 1}
{'_id': ['Marcelo Laffitte'], 'count': 1}
{'_id': ['Wan Laiming'], 'count': 1}
{'_id': ['Michael Hoffman'], 'count': 9}


**3. $sort: 이 스테이지는 특정 필드를 기준으로 문서를 정렬합니다.**

In [8]:
pipeline = [
    {"$sort": {"title": 1}}, { "$limit": 3 }
]
for movie in movies.aggregate(pipeline):
    print(movie)

{'_id': ObjectId('573a13def29313caabdb6863'), 'plot': "Set in the golden era of Grand Prix Racing '1' tells the story of a generation of charismatic drivers who raced on the edge, risking their lives during Formula 1's deadliest period, and the men who stood up and changed the sport forever.", 'genres': ['Documentary'], 'runtime': 112, 'cast': ['Michael Fassbender', 'Niki Lauda', 'Lewis Hamilton', 'Michael Schumacher'], 'num_mflix_comments': 1, 'poster': 'https://m.media-amazon.com/images/M/MV5BMjAxNDI5NTMxMF5BMl5BanBnXkFtZTgwMDMzMjg4MTE@._V1_SY1000_SX677_AL_.jpg', 'title': 1, 'fullplot': "Set in the golden era of Grand Prix Racing '1' tells the story of a generation of charismatic drivers who raced on the edge, risking their lives during Formula 1's deadliest period, and the men who stood up and changed the sport forever.", 'languages': ['English'], 'released': datetime.datetime(2013, 10, 1, 0, 0), 'directors': ['Paul Crowder'], 'writers': ['Mark Monroe'], 'awards': {'wins': 0, 'nomin

**4. $limit: 이 스테이지는 출력되는 문서의 수를 제한합니다.**

In [9]:
pipeline = [
    {"$limit": 1}
]
for movie in movies.aggregate(pipeline):
    print(movie)

{'_id': ObjectId('573a1390f29313caabcd4135'), 'plot': 'Three men hammer on an anvil and pass a bottle of beer around.', 'genres': ['Short'], 'runtime': 1, 'cast': ['Charles Kayser', 'John Ott'], 'num_mflix_comments': 1, 'title': 'Blacksmith Scene', 'fullplot': 'A stationary camera looks at a large anvil with a blacksmith behind it and one on either side. The smith in the middle draws a heated metal rod from the fire, places it on the anvil, and all three begin a rhythmic hammering. After several blows, the metal goes back in the fire. One smith pulls out a bottle of beer, and they each take a swig. Then, out comes the glowing metal and the hammering resumes.', 'countries': ['USA'], 'released': datetime.datetime(1893, 5, 9, 0, 0), 'directors': ['William K.L. Dickson'], 'rated': 'UNRATED', 'awards': {'wins': 1, 'nominations': 0, 'text': '1 win.'}, 'lastupdated': '2015-08-26 00:03:50.133000000', 'year': 1893, 'imdb': {'rating': 6.2, 'votes': 1189, 'id': 5}, 'type': 'movie', 'tomatoes': {'

**5. $project: 이 스테이지는 출력되는 문서의 필드를 추가, 제거, 또는 새로 생성합니다.**

In [12]:
pipeline = [
    {"$project": {"_id": 0, "title": 1, "genres": 1}}, {"$limit": 1}
]
for movie in movies.aggregate(pipeline):
    print(movie)

{'genres': ['Short'], 'title': 'Blacksmith Scene'}


**6. $unwind: 이 스테이지는 배열 필드를 풀어서 각 원소를 별도의 문서로 만듭니다.**

In [13]:
pipeline = [
    {"$unwind": "$genres"}, {"$limit": 3}
]
for movie in movies.aggregate(pipeline):
    print(movie)

{'_id': ObjectId('573a1390f29313caabcd4135'), 'plot': 'Three men hammer on an anvil and pass a bottle of beer around.', 'genres': 'Short', 'runtime': 1, 'cast': ['Charles Kayser', 'John Ott'], 'num_mflix_comments': 1, 'title': 'Blacksmith Scene', 'fullplot': 'A stationary camera looks at a large anvil with a blacksmith behind it and one on either side. The smith in the middle draws a heated metal rod from the fire, places it on the anvil, and all three begin a rhythmic hammering. After several blows, the metal goes back in the fire. One smith pulls out a bottle of beer, and they each take a swig. Then, out comes the glowing metal and the hammering resumes.', 'countries': ['USA'], 'released': datetime.datetime(1893, 5, 9, 0, 0), 'directors': ['William K.L. Dickson'], 'rated': 'UNRATED', 'awards': {'wins': 1, 'nominations': 0, 'text': '1 win.'}, 'lastupdated': '2015-08-26 00:03:50.133000000', 'year': 1893, 'imdb': {'rating': 6.2, 'votes': 1189, 'id': 5}, 'type': 'movie', 'tomatoes': {'vi

**7. `$group`과 `$sum`: 이 예제에서는 감독별로 영화를 그룹화하고, 각 그룹의 영화 수를 계산합니다.**

In [17]:
pipeline = [
    {"$group": {"_id": "$directors", "count": {"$sum": 1}}}, { "$limit": 5 }
]
for group in movies.aggregate(pipeline):
    print(group)

{'_id': ['Gavin Millar'], 'count': 1}
{'_id': ['Riccardo Milani'], 'count': 2}
{'_id': ['Anne Bohlen', 'Kevin Rafferty', 'James Ridgeway'], 'count': 1}
{'_id': ['Charles McDougall'], 'count': 2}
{'_id': ['John Maybury'], 'count': 3}


**8. `$group`과 `$avg`: 이 예제에서는 감독별로 영화를 그룹화하고, 각 그룹의 영화 평점 평균을 계산합니다.**

In [19]:
pipeline = [
    {"$group": {"_id": "$directors", "average_rating": {"$avg": "$imdb.rating"}}}, { "$limit": 5 }
]
for group in movies.aggregate(pipeline):
    print(group)

{'_id': ['John Landis'], 'average_rating': 6.625}
{'_id': ['Arthur Vincie'], 'average_rating': 5.5}
{'_id': ['Ian Sharp'], 'average_rating': 6.5}
{'_id': ['Pyotr Buslov'], 'average_rating': 6.866666666666667}
{'_id': ['Billy Corben'], 'average_rating': 7.3}


--------------------------------------------------

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제: 컬렉션에 있는 영화의 수를 계산하세요.</font><br>
</div>

In [6]:
movie_count = movies.count_documents({}) # $count  나  count:{$sum:1} 의 역할 ==> count_documents
print('영화 수:', movie_count)

영화 수: 23540


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제: 평균 영화 길이를 찾으세요.</font><br>
</div>

In [7]:
average_length = list(movies.aggregate([{"$group": {"_id": None, "평균길이": {"$avg": "$runtime"}}}]))[0]
print('평균 영화 길이:', average_length['평균길이'])

평균 영화 길이: 103.79006625384315


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제: 각 장르에 대한 영화 수를 계산하세요.</font><br>
</div>

In [8]:
genre_counts = list(movies.aggregate([{"$unwind": "$genres"}, {"$group": {"_id": "$genres", "count": {"$sum": 1}}}]))
for genre in genre_counts:
    print('장르:', genre['_id'], '영화 수:', genre['count'])

장르: Biography 영화 수: 1404
장르: War 영화 수: 794
장르: Mystery 영화 수: 1259
장르: Documentary 영화 수: 2129
장르: Fantasy 영화 수: 1153
장르: Sport 영화 수: 390
장르: Horror 영화 수: 1703
장르: News 영화 수: 51
장르: Animation 영화 수: 971
장르: Adventure 영화 수: 2045
장르: Western 영화 수: 274
장르: Comedy 영화 수: 7024
장르: Short 영화 수: 478
장르: Crime 영화 수: 2678
장르: Romance 영화 수: 3665
장르: Music 영화 수: 840
장르: Film-Noir 영화 수: 105
장르: Talk-Show 영화 수: 1
장르: Family 영화 수: 1311
장르: Sci-Fi 영화 수: 1034
장르: History 영화 수: 1000
장르: Musical 영화 수: 487
장르: Drama 영화 수: 13790
장르: Action 영화 수: 2539
장르: Thriller 영화 수: 2658


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제: 2015년 이후에 개봉한 영화를 제목으로 정렬하여 나열하세요.</font><br>
</div>

In [12]:
post_2000_movies = movies.find({"year": {"$gt": 2015}}).sort("title")
for movie in post_2000_movies:
    print('영화 제목:', movie['title'])

영화 제목: The Favourite
영화 제목: The Masked Saint


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제: 가장 많은 영화를 제작하는 상위 5개 국가를 찾으세요.</font><br>
</div>

In [13]:
top_countries = list(movies.aggregate([{"$unwind": "$countries"}, {"$group": {"_id": "$countries", "count": {"$sum": 1}}}, {"$sort": {"count": -1}}, {"$limit": 5}]))
for country in top_countries:
    print('국가:', country['_id'], '영화 수:', country['count'])

국가: USA 영화 수: 11855
국가: France 영화 수: 3093
국가: UK 영화 수: 2904
국가: Germany 영화 수: 1659
국가: Italy 영화 수: 1388


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제: 2000년 이후 영화의 연도별 평균 IMDB 평점을 찾으세요.</font><br>
</div>

In [15]:
average_ratings = movies.aggregate([
    { "$match": { "year": { "$gt": 2000 }}},
    { "$group": { "_id": "$year", "avgRating": { "$avg": "$imdb.rating"}}}
])
for rating in average_ratings:
    print ("년도:", str(rating['_id']) + ", 평균 평점:", rating["avgRating"])

년도: 2015 평균 평점: 6.94197247706422
년도: 2011 평균 평점: 6.491538461538461
년도: 2013 평균 평점: 6.48876127973749
년도: 2014 평균 평점: 6.5637478108581435
년도: 2001 평균 평점: 6.584031007751937
년도: 2016 평균 평점: None
년도: 2018 평균 평점: None
년도: 2002 평균 평점: 6.561679389312976
년도: 2012 평균 평점: 6.478068592057761
년도: 2007 평균 평점: 6.607224770642202
년도: 2004 평균 평점: 6.648852901484481
년도: 2009 평균 평점: 6.517979797979798
년도: 2003 평균 평점: 6.577929984779299
년도: 2010 평균 평점: 6.5279669762641905
년도: 2006 평균 평점: 6.618364928909952
년도: 2005 평균 평점: 6.591292875989446
년도: 2008 평균 평점: 6.573243801652892


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제:  'Star'라는 단어가 포함된 영화의 제목을 가져오세요.</font><br>
</div>

In [16]:
star_movies = movies.find({"title": {"$regex": ".*Star.*"}}, {"title": 1, "_id": 0})
for movie in star_movies:
    print('영화 제목:', movie['title'])

영화 제목: A Star Is Born
영화 제목: The Stars Look Down
영화 제목: A Star Is Born
영화 제목: The Tin Star
영화 제목: It Started with a Kiss
영화 제목: Stars
영화 제목: It Started in Naples
영화 제목: It Is Written in the Stars, Inspector Palmu
영화 제목: Dog Star Man: Part IV
영화 제목: Star!
영화 제목: Start the Revolution Without Me
영화 제목: Dark Star
영화 제목: Stardust
영화 제목: The Bingo Long Traveling All-Stars & Motor Kings
영화 제목: A Star Is Born
영화 제목: Star Wars: Episode IV - A New Hope
영화 제목: Starcrash
영화 제목: Starting Over
영화 제목: Star Trek: The Motion Picture
영화 제목: Battle Beyond the Stars
영화 제목: Star Wars: Episode V - The Empire Strikes Back
영화 제목: I'm Starting from Three
영화 제목: Stardust Memories
영화 제목: The Night of the Shooting Stars
영화 제목: Star Trek II: The Wrath of Khan
영화 제목: Starstruck
영화 제목: Star Wars: Episode VI - Return of the Jedi
영화 제목: Star 80
영화 제목: The Last Starfighter
영화 제목: Star Trek III: The Search for Spock
영화 제목: Starman
영화 제목: Hour of the Star
영화 제목: Perry Mason: The Case of the Shooting Star
영화 제목: Star Trek

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제:  데이터셋에서 사용 가능한 모든 고유 언어를 나열하세요.</font><br>
</div>

In [17]:
distinct_languages = movies.distinct("languages")
print('사용 가능한 언어:', ', '.join(distinct_languages))

사용 가능한 언어:  Ancient (to 1453),  Old, Abkhazian, Aboriginal, Acholi, Afrikaans, Aidoukrou, Albanian, Algonquin, American Sign Language, Amharic, Apache languages, Arabic, Aramaic, Arapaho, Armenian, Assamese, Assyrian Neo-Aramaic, Athapascan languages, Awadhi, Aymara, Azerbaijani, Balinese, Bambara, Basque, Belarusian, Bengali, Berber languages, Bhojpuri, Bosnian, Brazilian Sign Language, Breton, British Sign Language, Bulgarian, Burmese, Cantonese, Catalan, Chechen, Cheyenne, Chinese, Cornish, Corsican, Cree, Creole, Creoles and pidgins, Croatian, Crow, Czech, Danish, Dari, Dinka, Dutch, Dyula, Dzongkha, Eastern Frisian, Egyptian (Ancient), English, Esperanto, Estonian, Ewe, Faroese, Filipino, Finnish, Flemish, French, French Sign Language, Frisian, Fulah, Fur, Gallegan, Georgian, German, German Sign Language, Greek, Greenlandic, Guarani, Gujarati, Gumatj, Haitian, Hakka, Haryanvi, Hassanya, Hawaiian, Hebrew, Hindi, Hmong, Hokkien, Hungarian, Ibo, Icelandic, Indian Sign Language, Indon

<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제:  각각의 감독이 제작한 영화 수가 25개 이상인 감독들을 찾으세요.</font><br>
</div>

In [23]:
director_counts = list(movies.aggregate([{"$unwind": "$directors"}, {"$group": {"_id": "$directors", "count": {"$sum": 1}}}, {"$match": {"count": {"$gte": 25}}}]))
for director in director_counts:
    print('감독:', director['_id'], '영화 수:', director['count'])

감독: Takashi Miike 영화 수: 34
감독: Martin Scorsese 영화 수: 32
감독: Michael Winterbottom 영화 수: 26
감독: Steven Soderbergh 영화 수: 28
감독: Werner Herzog 영화 수: 33
감독: Johnnie To 영화 수: 27
감독: Clint Eastwood 영화 수: 27
감독: William Wyler 영화 수: 26
감독: Spike Lee 영화 수: 28
감독: George Cukor 영화 수: 29
감독: Steven Spielberg 영화 수: 29
감독: Ken Loach 영화 수: 27
감독: Robert Altman 영화 수: 28
감독: Woody Allen 영화 수: 40
감독: Mario Monicelli 영화 수: 29
감독: Sidney Lumet 영화 수: 30
감독: Jean-Luc Godard 영화 수: 27
감독: Ridley Scott 영화 수: 25
감독: Michael Apted 영화 수: 29
감독: Ingmar Bergman 영화 수: 25
감독: John Huston 영화 수: 34
감독: Wim Wenders 영화 수: 27
감독: John Ford 영화 수: 35
감독: Alfred Hitchcock 영화 수: 31


<div class="alert alert-block" style="border: 2px solid #1565C0;background-color:#E3F2FD;padding:10px">
<font size="3em" style="color:#0D47A1;">연습문제:  관람객 평점을 기준으로 상위 5개의 영화를 찾으세요 (1000표 이상의 영화에 한함).</font><br>
</div>

In [None]:
vote=movies.find({"imdb.votes":})

In [24]:
top_rated_movies = movies.find( { "imdb.votes": { "$gte": 1000} } ).sort("imdb.rating", -1).limit(5)
for movie in top_rated_movies:
    print ("영화 제목:", movie['title'], "평점:", movie['imdb']['rating'])

영화 제목: Band of Brothers 평점: 9.6
영화 제목: Planet Earth 평점: 9.5
영화 제목: The Civil War 평점: 9.4
영화 제목: The Civil War 평점: 9.4
영화 제목: The Shawshank Redemption 평점: 9.3
