## **04 MongoDB Python Advance**

### 0. 기본 pymongo 템플릿 코드
> sample_mflix 데이터셋을 기반으로, 지금까지 익힌 mongodb 문법을 pymongo 에서 어떻게 적용해서 사용할 수 있는지를 알아보기로 함

In [3]:
from pymongo import MongoClient

client = MongoClient("mongodb://localhost:27017")
# client = MongoClient("mongodb://username:password@localhost:27017")
# 인증이 필요하지 않은 경우 위의 첫 번째 줄 사용, 인증이 필요한 경우 두 번째 줄 사용
db = client.sample_mflix # use sample mflix 
movies = db.movies       # 
movies

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'sample_mflix'), 'movies')

In [6]:
## 1923년 영화를 title, year 조회
documents = movies.find({"year": 1923}, {"_id": 0, "title": 1, "year": 1})
documents # Cursor 객체

<pymongo.synchronous.cursor.Cursor at 0x1c32a892660>

In [7]:
for movie in documents:
    print(movie)

{'title': 'The Hunchback of Notre Dame', 'year': 1923}
{'title': 'Our Hospitality', 'year': 1923}
{'title': 'Safety Last!', 'year': 1923}
{'title': 'Three Ages', 'year': 1923}
{'title': 'A Woman of Paris: A Drama of Fate', 'year': 1923}
{'title': 'The Chechahcos', 'year': 1923}


### 다양한 find() 문법 적용

**1. 프로젝션(projection) - 결과 문서에 표시할 필드 지정:**

In [8]:
documents = movies.find({"year": 1923}, {"_id": 0, "title": 1, "year": 1})
results = list(documents)
results

[{'title': 'The Hunchback of Notre Dame', 'year': 1923},
 {'title': 'Our Hospitality', 'year': 1923},
 {'title': 'Safety Last!', 'year': 1923},
 {'title': 'Three Ages', 'year': 1923},
 {'title': 'A Woman of Paris: A Drama of Fate', 'year': 1923},
 {'title': 'The Chechahcos', 'year': 1923}]

**2. 비교 쿼리 연산자 - MongoDB 비교 쿼리 연산자 사용:**

In [9]:
# 1910년 이전에 출시된 영화 찾기
for movie in movies.find({"year": {"$lt": 1910}}, {"_id": 0, "title": 1, "year": 1}):
    print(movie)

<pymongo.synchronous.cursor.Cursor at 0x1c32aff5160>

**3. 논리 쿼리 연산자 - MongoDB 논리 쿼리 연산자 사용:**

In [None]:
# 1900년 이전 또는 2015년 이후에 출시된 영화 찾기
for movie in movies.find(
        {"$or": [{"year": {"$lt": 1900}}, {"year": {"$gt": 2015}}]},
        {"_id": 0, "title": 1, "year": 1}
):
    print(movie)

**4. 배열 쿼리 연산자 - MongoDB 배열 쿼리 연산자 사용:**

**5. 정렬하기(sort), 앞쪽 일부 건너뛰기(skip), 갯수 제한하기(limit):**
- find() 에 붙여서, 별도 메서드로 사용

**6. 정규표현식과 pymongo**

-  파이썬의 정규표현식 라이브러리인 `re` 모듈의 `compile` 함수를 사용하여 정규 표현식 객체를 생성하고,
- 이를 pymongo 에 적용할 수 있습니다.

- 예: re.I (IGNORECASE): 이 옵션은 대소문자를 구분하지 않는다는 것을 나타냅니다. 따라서 'Star', 'STAR', 'star', 'sTaR' 등을 모두 찾을 수 있습니다.

In [22]:
result = movies.find({"title": {"$regex": "star", "$options": "i"}} ).limit(2)
result

<pymongo.synchronous.cursor.Cursor at 0x1c32aff5e80>

- re 모듈 없이, 직접 정규표현식을 pymongo 에 사용할 수도 있음
- `$options`
   - `i`: 대소문자를 구분하지 않습니다. (re 라이브러리에서는 re.I)

**7. distinct: 이 메소드는 특정 필드의 모든 고유한 값을 반환합니다.**

In [17]:
result = movies.distinct("genres")
result

['Action',
 'Adventure',
 'Animation',
 'Biography',
 'Comedy',
 'Crime',
 'Documentary',
 'Drama',
 'Family',
 'Fantasy',
 'Film-Noir',
 'History',
 'Horror',
 'Music',
 'Musical',
 'Mystery',
 'News',
 'Romance',
 'Sci-Fi',
 'Short',
 'Sport',
 'Talk-Show',
 'Thriller',
 'War',
 'Western']

**8. $in: 이 연산자는 필드 값이 특정 배열 내의 값 중 하나와 일치하는 문서를 선택합니다.**

In [24]:
## 작가(writer) - 필드가 존재하지 않는 데이텀만 추출
list(movies.find({'writers': {'$exists': False}}).limit(3))

[{'_id': ObjectId('573a1390f29313caabcd4135'),
  'plot': 'Three men hammer on an anvil and pass a bottle of beer around.',
  'genres': ['Short'],
  'runtime': 1,
  'cast': ['Charles Kayser', 'John Ott'],
  'num_mflix_comments': 1,
  'title': 'Blacksmith Scene',
  'fullplot': 'A stationary camera looks at a large anvil with a blacksmith behind it and one on either side. The smith in the middle draws a heated metal rod from the fire, places it on the anvil, and all three begin a rhythmic hammering. After several blows, the metal goes back in the fire. One smith pulls out a bottle of beer, and they each take a swig. Then, out comes the glowing metal and the hammering resumes.',
  'countries': ['USA'],
  'released': datetime.datetime(1893, 5, 9, 0, 0),
  'directors': ['William K.L. Dickson'],
  'rated': 'UNRATED',
  'awards': {'wins': 1, 'nominations': 0, 'text': '1 win.'},
  'lastupdated': '2015-08-26 00:03:50.133000000',
  'year': 1893,
  'imdb': {'rating': 6.2, 'votes': 1189, 'id': 5},


In [26]:

##작가(writers)가 없는것만 추출
for movie in movies.find({'writers': {'$exists': False}}).limit(3):
    print(movie['title'],movie['writers'])

KeyError: 'writers'

**9. $exists: 이 연산자는 특정 필드가 문서에 존재하는지 여부에 따라 문서를 선택합니다.**

**10. count_documents: 이 메소드는 쿼리에 일치하는 문서의 수를 반환합니다.**
- find() 대신에 count_documents() 메서드로 count 값을 얻을 수 있음

> find().count() 방식도 문서의 수를 세는 방법으로 사용할 수 있지만, 이 방식은 MongoDB 4.0 이후로 공식적으로 deprecated (사용이 권장되지 않는) 되었습니다.

In [None]:
# 'Action' 또는 'Adventure' 장르의 영화 개수 세기
count = movies.count_documents({'genres': {'$in': ['Action', 'Adventure']}})  ## count_documents 조건 새주기
# db.movies.countDocuments( { genres: { $in: [ "Action", "Adventure" ] } } )
count

## 연결끊기
client.close()