### 0. 기본 pymongo 템플릿 코드
> sample_mflix 데이터셋을 기반으로, 지금까지 익힌 mongodb 문법을 pymongo 에서 어떻게 적용해서 사용할 수 있는지를 알아보기로 함

In [2]:
from pymongo import MongoClient

client = MongoClient("mongodb://localhost:27017")

db = client.sample_mflix
movies = db.movies

### 다양한 find() 문법 적용

**1. 프로젝션(projection) - 결과 문서에 표시할 필드 지정:**

In [7]:
for movie in movies.find({"year": 1923}, {"_id": 0, "title": 1, "year":1}):
    # 조건, 보여질 필드
    print(movie, movie['year'])

{'title': 'The Hunchback of Notre Dame', 'year': 1923} 1923
{'title': 'Our Hospitality', 'year': 1923} 1923
{'title': 'Safety Last!', 'year': 1923} 1923
{'title': 'Three Ages', 'year': 1923} 1923
{'title': 'A Woman of Paris: A Drama of Fate', 'year': 1923} 1923
{'title': 'The Chechahcos', 'year': 1923} 1923


**2. 비교 쿼리 연산자 - MongoDB 비교 쿼리 연산자 사용:**

In [10]:
# 1910년 이전에 출시된 영화 찾기
for movie in movies.find({"year": {"$lt": 1910}}, {"_id": 0, "title": 1, "year": 1}):
    print(movie)

{'title': 'Blacksmith Scene', 'year': 1893}
{'title': 'The Great Train Robbery', 'year': 1903}
{'title': 'A Corner in Wheat', 'year': 1909}
{'title': 'The Kiss', 'year': 1896}
{'title': 'Dickson Experimental Sound Film', 'year': 1894}
{'title': 'The Kiss', 'year': 1896}
{'title': 'Newark Athlete', 'year': 1891}


**3. 논리 쿼리 연산자 - MongoDB 논리 쿼리 연산자 사용:**

In [14]:
# 1900년 이전 또는 2015년 이후에 출시된 영화 찾기
for movie in movies.find(
    {"$or": [{"year": {"$lt": 1900}}, {"year": {"gt": 2015}}]},
    {"_id":0, "title":1, "year": 1}
    ):
    print(movie)

{'title': 'Blacksmith Scene', 'year': 1893}
{'title': 'The Kiss', 'year': 1896}
{'title': 'Dickson Experimental Sound Film', 'year': 1894}
{'title': 'The Kiss', 'year': 1896}
{'title': 'Newark Athlete', 'year': 1891}


**4. 배열 쿼리 연산자 - MongoDB 배열 쿼리 연산자 사용:**

In [None]:
# 'Action'과 'Sci-Fi' 장르의 영화 찾기     $all: 배열 안에서 찾는 기능
for movie in movies.find(
    {"genres": {"$all": ["Action","Sci-Fi"]}},
    {"_id": 0, "title": 1, "year": 1, "genres": 1}
):
    print(movie)

**5. 정렬하기(sort), 앞쪽 일부 건너뛰기(skip), 갯수 제한하기(limit):**
- find() 에 붙여서, 별도 메서드로 사용

In [None]:
# 평점이 4번째로 큰 값부터 3개의 데이터를 가져와라
for movie in movies.find().sort("imdb.rating", -1).skip(3).limit(3):
    print(movie)

**6. 정규표현식과 pymongo**

-  파이썬의 정규표현식 라이브러리인 `re` 모듈의 `compile` 함수를 사용하여 정규 표현식 객체를 생성하고,
- 이를 pymongo 에 적용할 수 있습니다.

- 예: re.I (IGNORECASE): 이 옵션은 대소문자를 구분하지 않는다는 것을 나타냅니다. 따라서 'Star', 'STAR', 'star', 'sTaR' 등을 모두 찾을 수 있습니다.

In [19]:
import re
regex = re.compile('Star', re.I) # re.I: 대소문자를 구분하지 않고 검색하겠다.

for movie in movies.find({"title": regex}).limit(1):
    print(movie)

{'_id': ObjectId('573a1392f29313caabcdb497'), 'plot': 'A young woman comes to Hollywood with dreams of stardom, but achieves them only with the help of an alcoholic leading man whose best days are behind him.', 'genres': ['Drama'], 'runtime': 111, 'rated': 'NOT RATED', 'cast': ['Janet Gaynor', 'Fredric March', 'Adolphe Menjou', 'May Robson'], 'poster': 'https://m.media-amazon.com/images/M/MV5BMmE5ODI0NzMtYjc5Yy00MzMzLTk5OTQtN2Q3MzgwOTllMTY3XkEyXkFqcGdeQXVyNjc0MzMzNjA@._V1_SY1000_SX677_AL_.jpg', 'title': 'A Star Is Born', 'fullplot': 'Esther Blodgett is just another starry-eyed farm kid trying to break into the movies. Waitressing at a Hollywood party, she catches the eye of alcoholic star Norman Maine, is given a test, and is caught up in the Hollywood glamor machine (ruthlessly satirized). She and her idol Norman marry; but his career abruptly dwindles to nothing', 'languages': ['English'], 'released': datetime.datetime(1937, 4, 27, 0, 0), 'directors': ['William A. Wellman', 'Jack Con

- re 모듈 없이, 직접 정규표현식을 pymongo 에 사용할 수도 있음
- `$options`
   - `i`: 대소문자를 구분하지 않습니다. (re 라이브러리에서는 re.I)

In [None]:
for movie in movies.find({"title": {"$regex": "star", "$options": 'i'}}).limit(1):
    print(movie)
#title ctrl+f > search cell outputs 결과값에서 원하는 값을 쉽게 찾을 수 있음

**7. distinct: 이 메소드는 특정 필드의 모든 고유한 값을 반환합니다.**

In [23]:
distinct_genres = movies.distinct('genres')
print(distinct_genres)

['Action', 'Adventure', 'Animation', 'Biography', 'Comedy', 'Crime', 'Documentary', 'Drama', 'Family', 'Fantasy', 'Film-Noir', 'History', 'Horror', 'Music', 'Musical', 'Mystery', 'News', 'Romance', 'Sci-Fi', 'Short', 'Sport', 'Talk-Show', 'Thriller', 'War', 'Western']


**8. $in: 이 연산자는 필드 값이 특정 배열 내의 값 중 하나와 일치하는 문서를 선택합니다.**

In [None]:
for movie in movies.find({"genres": {"$in": ["Action", "Adventure"]}}).limit(3):
    print(movie)

**9. $exists: 이 연산자는 특정 필드가 문서에 존재하는지 여부에 따라 문서를 선택합니다.**

In [None]:
for movie in movies.find({"writers": {"$exists": False}}).limit(3):
    print(movie)

**10. count_documents: 이 메소드는 쿼리에 일치하는 문서의 수를 반환합니다.**
- find() 대신에 count_documents() 메서드로 count 값을 얻을 수 있음

> find().count() 방식도 문서의 수를 세는 방법으로 사용할 수 있지만, 이 방식은 MongoDB 4.0 이후로 공식적으로 deprecated (사용이 권장되지 않는) 되었습니다.

In [27]:
count = movies.count_documents({"genres": {"$in": ["Action", "Adventure"]}})
print(count)

3805
