# Install and start MongoDB Client

Execute the following cell, in order to install MongoDB Client

In [2]:
!pip install -q pymongo

# Download the data

Execute the following cell to obtain the data.

In [3]:
!wget https://gquercini.github.io/courses/plp/tutorials/mongodb-data.zip
!unzip mongodb-data.zip

'wget' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.
'unzip' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.


# Initialization

Database and collection creation, data import.

* We start a new **MongoDB client** that connects to the running MongoDB server.

* We create a new **database** called *cinema*.

* We create a new **collection** called *movies*. The collection is created in the database *cinema*.

* We import some data to the collection.

**IMPORTANT.** Only when we import some data are the database and the collection actually created.


In [4]:
from pymongo import MongoClient
import json
import os
from bson import ObjectId

# Creation of the client.
client = MongoClient("mongodb+srv://augustomiguel:efrI8RQ75yzE8zdu@cluster0.tm4np.mongodb.net/")

try:
  # # Creation of the new database cinema
  # db = client['cinema']

  # # Creation of the new collection cinema
  # movies = db['movies']


  # Open the json file containing the data
  with open('/content/mongodb-data/movies_lang.json') as f:
    movies_data = json.load(f)

  # # Import the data into the collection
  # movies.insert_many(movies_data)

  client.list_database_names()

except Exception as e:
  print(f"Ocorreu um erro: {e}")

Ocorreu um erro: [Errno 2] No such file or directory: '/content/mongodb-data/movies_lang.json'


We define a **utility function** `print_result` that we can use when we want to visualize the result of a query.

In [5]:
def print_result(query_result):
  for res in query_result:
    print(res)

# Atividade


db.collection.aggregate(
    { $project : { "Tags._id" : 1 }},
    { $unwind : "$Tags" },
    { $match: {$or: [{"Tags._id":"tag1"},{"Tags._id":"tag2"}]}},
    {
        $group:
        {
            _id : { id: "$_id"},
            "count": { $sum:1 }
        }
    },
    { $sort: {"count":-1}}
).explain()


1. Inserir um Novo Filme Escreva uma consulta para inserir um novo filme na coleção `movies`.  

O documento deve conter título, ano de lançamento, elenco, gênero, classificação e sinopse.


In [6]:
db = client['cinema']
movies = db['movies']
# Dados do novo filme
movie = {
    "title": "Inception",
    "year": 2010,
    "cast": [
        { "name": "Leonardo DiCaprio", "role": "Dom Cobb" },
        { "name": "Joseph Gordon-Levitt", "role": "Arthur" },
        { "name": "Elliot Page", "role": "Ariadne" }
    ],
    "genre": "Sci-Fi",
    "rating": "PG-13",
    "synopsis": "A thief who steals corporate secrets through the use of dream-sharing technology is given the inverse task of planting an idea into the mind of a C.E.O."
}

# Insere o novo filme na coleção
result = movies.insert_one(movie)

# Exibe o ID do documento inserido
print(f"Filme inserido com o ID: {result.inserted_id}")

Filme inserido com o ID: 67c9ee542c33ee73ca37af5e


2. Inserir uma Nova Avaliação  

Escreva uma consulta para inserir uma nova avaliação de um usuário na coleção `reviews`. O documento deve incluir o ID do filme, ID do usuário, comentário e nota de avaliação.

In [7]:

from bson import ObjectId

db = client['cinema']
reviews = db['reviews']
# Dados da nova avaliação
new_review = {
    "movie_id": ObjectId("573a1390f29313caabcd42e8"),  # ID do filme
    "user_id": ObjectId("59b99db4cfa9a34dcd7885b7"),  # ID do usuário
    "comment": "Um dos melhores filmes que já assisti!",
    "rating": 5
}

# Insere a nova avaliação na coleção
result = reviews.insert_one(new_review)

# Exibe o ID do documento inserido
print(f"Avaliação inserida com o ID: {result.inserted_id}")

Avaliação inserida com o ID: 67c9ee552c33ee73ca37af5f


3. Inserir um Novo Usuário
Escreva uma consulta para inserir um novo usuário na coleção `users`, contendo nome, email e lista
de filmes favoritos.

In [8]:

db = client['cinema']
users = db['users']

# Dados do novo usuário
new_user = {
    "name": "Augusto Miguel",
    "email": "augustomiguel@example.com",
    "favorite_movies": [
        ObjectId("67c9da80bbde04fd1193f44c"),  # ID do filme 1
        ObjectId("573a1390f29313caabcd42e8")   # ID do filme 2
    ]
}

# Insere o novo usuário na coleção

result = users.insert_one(new_user)

# Exibe o ID do documento inserido
print(f"Usuário inserido com o ID: {result.inserted_id}")

Usuário inserido com o ID: 67c9ee552c33ee73ca37af60


In [9]:
# Consulta o usuário pelo ID
user_id = ObjectId("67c9dd7cbbde04fd1193f459")
user = users.find_one({ "_id": user_id })

# Exibe o usuário encontrado
print(user)

None


Leitura de Dados (Read)
4. Buscar um Filme Específico
Escreva uma consulta para buscar os detalhes de um filme específico pelo título

In [10]:
# Busca o filme pelo título
movie_title = "Inception"
movie = movies.find_one({ "title": movie_title })

# Exibe o filme encontrado
print(movie)

{'_id': ObjectId('67c9da80bbde04fd1193f44c'), 'title': 'Inception', 'year': 2010, 'cast': [{'name': 'Leonardo DiCaprio', 'role': 'Dom Cobb'}, {'name': 'Joseph Gordon-Levitt', 'role': 'Arthur'}, {'name': 'Elliot Page', 'role': 'Ariadne'}], 'genre': 'Sci-Fi', 'rating': 'PG-13', 'synopsis': 'A thief who steals corporate secrets through the use of dream-sharing technology is given the inverse task of planting an idea into the mind of a C.E.O.'}


5. Listar Filmes de um Diretor Específico
Escreva uma consulta para listar todos os filmes de um determinado diretor.

In [11]:
# Busca os filmes de um diretor específico
director_first_name = "Alfred"
director_last_name = "Hitchcock"
movies_by_director = movies.find({
    "director.first_name": director_first_name,
    "director.last_name": director_last_name
})

# Exibe os filmes encontrados
for movie in movies_by_director:
    print(movie)

{'_id': 'movie:1', 'title': 'Vertigo', 'year': 1958, 'genre': 'drama', 'country': 'DE', 'director': {'_id': 'artist:3', 'last_name': 'Hitchcock', 'first_name': 'Alfred', 'birth_date': '1899'}, 'actors': [{'_id': 'artist:15', 'first_name': 'James', 'last_name': 'Stewart', 'birth_date': '1908', 'role': 'John Ferguson'}, {'_id': 'artist:16', 'first_name': 'Kim', 'last_name': 'Novak', 'birth_date': '1925', 'role': 'Madeleine Elster'}, {'_id': 'artist:282', 'first_name': 'Arthur', 'last_name': 'Pierre', 'birth_date': None, 'role': None}], 'languages': ['el']}
{'_id': 'movie:33', 'title': 'Psychose', 'year': 1960, 'genre': 'Thriller', 'country': 'USA', 'director': {'_id': 'artist:3', 'last_name': 'Hitchcock', 'first_name': 'Alfred', 'birth_date': '1899'}, 'actors': [{'_id': 'artist:88', 'first_name': 'Anthony', 'last_name': 'Perkins', 'birth_date': '1932', 'role': 'Bates'}, {'_id': 'artist:89', 'first_name': 'Vera', 'last_name': 'Miles', 'birth_date': '1929', 'role': 'Lila Crane'}, {'_id': '

6. Listar Todas as Avaliações de um Filme
Escreva uma consulta para listar todas as avaliações de um filme específico, usando a relação entre
as coleções `movies` e `reviews`.


In [12]:
# Busca o ID do filme pelo título
movie_title = "Inception"
movie = movies.find_one({ "title": movie_title }, { "_id": 1 })

if movie:
    movie_id = movie["_id"]
    print(f"ID do filme '{movie_title}': {movie_id}")

    # Busca as avaliações do filme
    movie_reviews = reviews.find({ "movie_id": movie_id })

    # Exibe as avaliações encontradas
    for review in movie_reviews:
        print(review)
else:
    print(f"Filme '{movie_title}' não encontrado.")

ID do filme 'Inception': 67c9da80bbde04fd1193f44c


7. Listar Todos os Filmes Favoritos de um Usuário
Escreva uma consulta para listar todos os filmes favoritos de um usuário específico, cruzando dados
das coleções `users` e `movies`.


In [13]:
# Passo 1: Obter os IDs dos filmes favoritos do usuário
user_id = ObjectId("67c9dd7cbbde04fd1193f459")
user = users.find_one({ "_id": user_id }, { "favorite_movies": 1 })

if user and "favorite_movies" in user:
    favorite_movie_ids = user["favorite_movies"]

    # Passo 2: Buscar os detalhes dos filmes favoritos
    favorite_movies = movies.find({ "_id": { "$in": favorite_movie_ids } })

    # Exibe os filmes favoritos
    for movie in favorite_movies:
        print(movie)
else:
    print("Usuário não encontrado ou sem filmes favoritos.")

Usuário não encontrado ou sem filmes favoritos.


Atualização de Dados (Update)
8. Atualizar a Classificação de um Filme
Escreva uma consulta para atualizar a classificação de um filme específico.

In [14]:

# Atualiza a classificação do filme
movie_title = "Inception"
new_rating = "PG-13"

result = movies.update_one(
    { "title": movie_title },  # Filtro para encontrar o filme
    { "$set": { "rating": new_rating } }  # Atualização do campo "rating"
)

# Verifica se a atualização foi bem-sucedida
if result.matched_count > 0:
    print(f"Classificação do filme '{movie_title}' atualizada para '{new_rating}'.")
else:
    print(f"Filme '{movie_title}' não encontrado.")

Classificação do filme 'Inception' atualizada para 'PG-13'.


9. Adicionar um Novo Ator ao Elenco
Escreva uma consulta para adicionar um ator a um filme específico.

In [15]:
# Adicionar um novo ator ao elenco de um filme específico
movie_title = "Inception"
new_actor = { "name": "Tom Hardy", "role": "Eames" }

result = movies.update_one(
    { "title": movie_title },
    { "$push": { "cast": new_actor } }
)

# Verifica se a atualização foi bem-sucedida
if result.modified_count > 0:
    print(f"Ator '{new_actor['name']}' adicionado ao elenco do filme '{movie_title}'.")
else:
    print(f"Filme '{movie_title}' não encontrado ou ator já existente no elenco.")


Ator 'Tom Hardy' adicionado ao elenco do filme 'Inception'.


10. Atualizar a Nota de uma Avaliação
Escreva uma consulta para modificar a nota de uma avaliação já existente na coleção `reviews`

In [16]:
# Atualiza a nota de uma avaliação existente
review_id = ObjectId("67c9dc39bbde04fd1193f44d")  # Substitua pelo ID da avaliação para atualiza-la
new_rating = 4

result = reviews.update_one(
    { "_id": review_id },
    { "$set": { "rating": new_rating } }
)

# Verifica se a atualização foi bem-sucedida
if result.modified_count > 0:
    print(f"Nota da avaliação com ID '{review_id}' atualizada para '{new_rating}'.")
else:
    print(f"Avaliação com ID '{review_id}' não encontrada ou a nota já é '{new_rating}'.")


Avaliação com ID '67c9dc39bbde04fd1193f44d' não encontrada ou a nota já é '4'.


11. Adicionar um Filme à Lista de Favoritos de um Usuário
Escreva uma consulta para adicionar um novo filme à lista de favoritos de um usuário na coleção
`users`.


In [17]:
# Adicionar um filme à lista de favoritos de um usuário
user_id = ObjectId("67c9dd7cbbde04fd1193f459")  # ID do usuário
movie_id_to_add = ObjectId("573a1390f29313caabcd41e8")  # ID do filme a ser adicionado

result = users.update_one(
    { "_id": user_id },
    { "$addToSet": { "favorite_movies": movie_id_to_add } }
)

# Verifica se a atualização foi bem-sucedida
if result.modified_count > 0:
    print(f"Filme com ID '{movie_id_to_add}' adicionado aos favoritos do usuário com ID '{user_id}'.")
else:
    print(f"Usuário com ID '{user_id}' não encontrado ou filme já está na lista de favoritos.")


Usuário com ID '67c9dd7cbbde04fd1193f459' não encontrado ou filme já está na lista de favoritos.


Exclusão de Dados (Delete)
12. Excluir um Filme
Escreva uma consulta para excluir um filme específico pelo título

In [18]:

# Excluir um filme específico pelo título
movie_title_to_delete = "Inception"

result = movies.delete_one({"title": movie_title_to_delete})

if result.deleted_count > 0:
    print(f"Filme '{movie_title_to_delete}' excluído com sucesso.")
else:
    print(f"Filme '{movie_title_to_delete}' não encontrado.")


Filme 'Inception' excluído com sucesso.


13. Excluir Todas as Avaliações de um Filme
Escreva uma consulta para excluir todas as avaliações de um filme específico na coleção `reviews`

In [19]:

# Excluir todas as avaliações de um filme específico
movie_id_to_delete_reviews = ObjectId("573a1390f29313caabcd42e8")  # Substitua pelo ID do filme

result = reviews.delete_many({"movie_id": movie_id_to_delete_reviews})

if result.deleted_count > 0:
    print(f"Todas as avaliações do filme com ID '{movie_id_to_delete_reviews}' foram excluídas com sucesso. Total de avaliações excluídas: {result.deleted_count}")
else:
    print(f"Nenhuma avaliação encontrada para o filme com ID '{movie_id_to_delete_reviews}' ou ocorreu um erro.")


Todas as avaliações do filme com ID '573a1390f29313caabcd42e8' foram excluídas com sucesso. Total de avaliações excluídas: 1


14. Excluir Todos os Filmes com Avaliação Inferior a 5.0
Escreva uma consulta para excluir todos os filmes com avaliação abaixo de um determinado valor.

In [20]:
# Excluir todos os filmes com avaliação inferior a 5.0
min_rating = 5.0

result = movies.delete_many({"rating": {"$lt": min_rating}})

if result.deleted_count > 0:
    print(f"Foram excluídos {result.deleted_count} filmes com avaliação inferior a {min_rating}.")
else:
    print(f"Nenhum filme com avaliação inferior a {min_rating} foi encontrado.")
    # Exclui todos os filmes com avaliação inferior a 5.0

# Exibe o número de filmes excluídos
print(f"{result.deleted_count} filmes foram excluídos.")


Nenhum filme com avaliação inferior a 5.0 foi encontrado.
0 filmes foram excluídos.


15. Excluir um Usuário e Suas Avaliações
Escreva uma consulta para remover um usuário da coleção `users` e deletar todas as avaliações
associadas a ele na coleção `reviews`.


In [21]:

# ID do usuário
user_id = ObjectId("59b99db6cfa9a34dcd7885bc")

# Passo 1: Excluir o usuário
user_result = users.delete_one({ "_id": user_id })

# Passo 2: Excluir as avaliações do usuário
reviews_result = reviews.delete_many({ "user_id": user_id })

# Exibe os resultados
print(f"Usuário excluído: {user_result.deleted_count}")
print(f"Avaliações excluídas: {reviews_result.deleted_count}")

Usuário excluído: 0
Avaliações excluídas: 0


Uso Combinado de Operadores de Busca e Comparação
16. Buscar Filmes com Avaliação Acima de um Valor
Escreva uma consulta para encontrar todos os filmes com avaliação superior a 8.0

In [22]:
# Busca os filmes com avaliação superior a 8.0
high_rated_movies = movies.find({ "rating": { "$gt": 8.0 } })

# Exibe os filmes encontrados
if movie:
  for movie in high_rated_movies:
    print(movie)
else:
  print("Nenhum filme encontrado com avaliação superior a 8.0.")

17. Buscar Filmes em um Intervalo de Anos
Escreva uma consulta para encontrar filmes lançados entre dois anos específicos

In [23]:
# Busca filmes lançados entre dois anos específicos
start_year = 2000
end_year = 2010

movies_in_range = movies.find({
    "year": { "$gte": start_year, "$lte": end_year }
})

# Exibe os filmes encontrados
for movie in movies_in_range:
  print(movie)


{'_id': 'movie:9', 'title': 'Gladiator', 'year': 2000, 'genre': 'drama', 'country': 'USA', 'director': {'_id': 'artist:4', 'last_name': 'Scott', 'first_name': 'Ridley', 'birth_date': '1937'}, 'actors': [{'_id': 'artist:23', 'first_name': 'Russell', 'last_name': 'Crowe', 'birth_date': '1964', 'role': 'Maximus'}, {'_id': 'artist:147', 'first_name': 'Adam', 'last_name': 'Baldwin', 'birth_date': '1962', 'role': 'Commode'}, {'_id': 'artist:148', 'first_name': 'Ryan', 'last_name': 'ONeal', 'birth_date': '1941', 'role': 'Lucilla'}, {'_id': 'artist:149', 'first_name': 'Marisa', 'last_name': 'Berenson', 'birth_date': '1946', 'role': 'Marc Aurele'}], 'languages': ['en', 'de']}
{'_id': 'movie:47', 'title': 'Spider-Man', 'year': 2002, 'genre': 'Action', 'country': 'USA', 'director': {'_id': 'artist:187', 'last_name': 'Raimi', 'first_name': 'Sam', 'birth_date': '1959'}, 'actors': [{'_id': 'artist:124', 'first_name': 'Wesley', 'last_name': 'Snipes', 'birth_date': '1962', 'role': 'Spider-Man'}, {'_id

18. Buscar Filmes com Mais de X Avaliações e Nota Acima de um Valor
Escreva uma consulta para encontrar filmes com um número mínimo de avaliações e nota superior a
um determinado valor.



In [24]:

pipeline = [
    {
        "$match": {
            "reviews": { "$exists": True, "$type": "array" }  # Filtra documentos onde "reviews" é um array
        }
    },
    {
        "$project": {
            "title": 1,
            "average_rating": { "$avg": "$reviews.rating" },  # Calcula a média das avaliações
            "num_reviews": { "$size": "$reviews" }  # Conta o número de avaliações
        }
    },
    {
        "$match": {
            "num_reviews": { "$gte": 10 },  # Número mínimo de avaliações
            "average_rating": { "$gt": 8.0 }  # Nota média superior a 8.0
        }
    }
]

# Executa a agregação
result = movies.aggregate(pipeline)

# Exibe os filmes encontrados
for movie in result:
    print(movie)

19. Buscar Usuários que Favoritaram um Determinado Filme
Escreva uma consulta para encontrar todos os usuários que adicionaram um determinado filme à
sua lista de favoritos.


In [25]:
# ID do filme
movie_id = ObjectId("64f8e8b7e4b0d1a2b3c4d5e6")

try:
    # Busca os usuários que favoritaram o filme
    usersFavorited = users.find({ "favorite_movies": { "$in": [movie_id] } })

    # Exibe os usuários encontrados
    for user in usersFavorited:
        print(user)
except Exception as e:
    print(f"Ocorreu um erro: {e}")

Uso do Framework de Agregação
20. Contar o Número Total de Filmes por Gênero
Utilize o framework de agregação para contar quantos filmes existem por gênero na coleção
`movies

In [26]:

pipeline = [
    {"$group": {"_id": "$genre", "count": {"$sum": 1}}},
    {"$sort": {"count": -1}}
]

result = movies.aggregate(pipeline)

for total in result:
  print(total)


{'_id': 'drama', 'count': 22}
{'_id': 'Action', 'count': 13}
{'_id': 'Science-fiction', 'count': 12}
{'_id': 'crime', 'count': 11}
{'_id': 'Thriller', 'count': 7}
{'_id': 'Western', 'count': 5}
{'_id': 'Comédie', 'count': 4}
{'_id': 'Horreur', 'count': 4}
{'_id': 'Guerre', 'count': 4}
{'_id': 'Suspense', 'count': 2}
{'_id': 'Fantastique', 'count': 2}
{'_id': 'romance', 'count': 1}
{'_id': 'Sci-Fi', 'count': 1}


21. Calcular a Média de Avaliação por Ano
Utilize o framework de agregação para calcular a média de avaliações dos filmes agrupados por ano
de lançamento.


In [27]:
pipeline = [
    {
        "$group": {
            "_id": "$year",  # Agrupa os filmes por ano de lançamento
            "media_avaliacao": { "$avg": "$rating" }  # Calcula a média das avaliações
        }
    },
    {
        "$sort": { "_id": 1 }  # Ordena os resultados por ano (crescente)
    }
]

# Executa a agregação
result = movies.aggregate(pipeline)

# Exibe os resultados
for year in result:
    # Verifica se media_avaliacao é numérica antes de formatar
    if isinstance(year['media_avaliacao'], (int, float)):
        print(f"Ano: {year['_id']}, Média de Avaliação: {year['media_avaliacao']:.2f}")
    else:
        print(f"Ano: {year['_id']}, Média de Avaliação: N/A")

Ano: 209, Média de Avaliação: N/A
Ano: 1012, Média de Avaliação: N/A
Ano: 1950, Média de Avaliação: N/A
Ano: 1954, Média de Avaliação: N/A
Ano: 1958, Média de Avaliação: N/A
Ano: 1959, Média de Avaliação: N/A
Ano: 1960, Média de Avaliação: N/A
Ano: 1963, Média de Avaliação: N/A
Ano: 1964, Média de Avaliação: N/A
Ano: 1965, Média de Avaliação: N/A
Ano: 1966, Média de Avaliação: N/A
Ano: 1972, Média de Avaliação: N/A
Ano: 1973, Média de Avaliação: N/A
Ano: 1974, Média de Avaliação: N/A
Ano: 1975, Média de Avaliação: N/A
Ano: 1976, Média de Avaliação: N/A
Ano: 1978, Média de Avaliação: N/A
Ano: 1979, Média de Avaliação: N/A
Ano: 1980, Média de Avaliação: N/A
Ano: 1982, Média de Avaliação: N/A
Ano: 1983, Média de Avaliação: N/A
Ano: 1984, Média de Avaliação: N/A
Ano: 1986, Média de Avaliação: N/A
Ano: 1988, Média de Avaliação: N/A
Ano: 1990, Média de Avaliação: N/A
Ano: 1992, Média de Avaliação: N/A
Ano: 1994, Média de Avaliação: N/A
Ano: 1995, Média de Avaliação: N/A
Ano: 1996, Média de A

22. Encontrar o Filme com a Maior Nota de Avaliação
Utilize o framework de agregação para encontrar o filme com a maior nota de avaliação.


In [28]:
# prompt: Encontrar o Filme com a Maior Nota de Avaliação Utilize o framework de agregação para encontrar o filme com a maior nota de avaliação.

pipeline = [
    {"$sort": {"rating": -1}},
    {"$limit": 1}
]

result = movies.aggregate(pipeline)

for movie in result:
  print(movie)


{'_id': ObjectId('67c9ee542c33ee73ca37af5e'), 'title': 'Inception', 'year': 2010, 'cast': [{'name': 'Leonardo DiCaprio', 'role': 'Dom Cobb'}, {'name': 'Joseph Gordon-Levitt', 'role': 'Arthur'}, {'name': 'Elliot Page', 'role': 'Ariadne'}], 'genre': 'Sci-Fi', 'rating': 'PG-13', 'synopsis': 'A thief who steals corporate secrets through the use of dream-sharing technology is given the inverse task of planting an idea into the mind of a C.E.O.'}


23. Listar os 5 Filmes Mais Bem Avaliados de um Determinado Gênero
Utilize o framework de agregação para listar os cinco filmes com maior avaliação dentro de um
gênero específico

In [29]:
genero = "Sci-Fi"
pipeline = [
    {
        "$match": { "genre": genero }  # Filtra os filmes do gênero "Sci-Fi"
    },
    {
        "$sort": { "rating": -1 }  # Ordena os filmes por avaliação (decrescente)
    },
    {
        "$limit": 5  # Limita o resultado aos 5 filmes mais bem avaliados
    },
    {
        "$project": { "title": 1, "rating": 1, "_id": 0 }  # Seleciona apenas os campos "title" e "rating"
    }
]

# Executa a agregação
result = movies.aggregate(pipeline)

# Exibe os resultados
for movie in result:
    print(f"Título: {movie['title']}, Avaliação: {movie['rating']}")

Título: Inception, Avaliação: PG-13


24. Contar o Número de Avaliações Feitas por Cada Usuário
Escreva uma consulta que utiliza o framework de agregação para contar quantas avaliações cada
usuário fez na coleção `reviews`.


In [30]:
pipeline = [
    {
        "$group": {
            "_id": "$user_id",  # Agrupa as avaliações por ID do usuário
            "total_avaliacoes": { "$sum": 1 }  # Conta o número de avaliações em cada grupo
        }
    },
    {
        "$sort": { "total_avaliacoes": -1 }  # Ordena os resultados pelo número de avaliações (decrescente)
    }
]

# Executa a agregação
result = reviews.aggregate(pipeline)

# Exibe os resultados
for user in result:
    print(f"ID do Usuário: {user['_id']}, Total de Avaliações: {user['total_avaliacoes']}")

25. Listar os Usuários com Mais de 10 Avaliações e Média Acima de 7.5
Escreva uma consulta que combina operadores e agregação para encontrar usuários ativos que
fizeram mais de 10 avaliações e cuja média de notas seja superior a 7.5.

In [59]:
pipeline = [
    {
        "$group": {
            "_id": "$user_id",  # Agrupa as avaliações por ID do usuário
            "total_avaliacoes": { "$sum": 1 },  # Conta o número de avaliações
            "media_notas": { "$avg": "$rating" }  # Calcula a média das notas
        }
    },
    {
        "$match": {
            "total_avaliacoes": { "$gt": 10 },  # Filtra usuários com mais de 10 avaliações
            "media_notas": { "$gt": 7.5 }  # Filtra usuários com média de notas superior a 7.5
        }
    },
    {
        "$sort": { "total_avaliacoes": -1 }  # Ordena os resultados pelo número de avaliações (decrescente)
    }
]

# Executa a agregação
result = reviews.aggregate(pipeline)

# Exibe os resultados
for user in result:
    print(f"ID do Usuário: {user['_id']}, Total de Avaliações: {user['total_avaliacoes']}, Média de Notas: {user['media_notas']:.2f}")

In [32]:
query_result = movies.find_one()
print_result(query_result)

_id
title
year
genre
country
director
actors
languages


If we don't pass ``find`` any arguments, it returns all the documents from the database.

In [33]:
query_result = movies.find_one()
query_result

{'_id': 'movie:1',
 'title': 'Vertigo',
 'year': 1958,
 'genre': 'drama',
 'country': 'DE',
 'director': {'_id': 'artist:3',
  'last_name': 'Hitchcock',
  'first_name': 'Alfred',
  'birth_date': '1899'},
 'actors': [{'_id': 'artist:15',
   'first_name': 'James',
   'last_name': 'Stewart',
   'birth_date': '1908',
   'role': 'John Ferguson'},
  {'_id': 'artist:16',
   'first_name': 'Kim',
   'last_name': 'Novak',
   'birth_date': '1925',
   'role': 'Madeleine Elster'},
  {'_id': 'artist:282',
   'first_name': 'Arthur',
   'last_name': 'Pierre',
   'birth_date': None,
   'role': None}],
 'languages': ['el']}

The following cell gets all the documents from the database (the first argument is empty) and visualizes only the title.

In [34]:
query_result = movies.find({},)
print_result(query_result)

{'_id': 'movie:1', 'title': 'Vertigo', 'year': 1958, 'genre': 'drama', 'country': 'DE', 'director': {'_id': 'artist:3', 'last_name': 'Hitchcock', 'first_name': 'Alfred', 'birth_date': '1899'}, 'actors': [{'_id': 'artist:15', 'first_name': 'James', 'last_name': 'Stewart', 'birth_date': '1908', 'role': 'John Ferguson'}, {'_id': 'artist:16', 'first_name': 'Kim', 'last_name': 'Novak', 'birth_date': '1925', 'role': 'Madeleine Elster'}, {'_id': 'artist:282', 'first_name': 'Arthur', 'last_name': 'Pierre', 'birth_date': None, 'role': None}], 'languages': ['el']}
{'_id': 'movie:2', 'title': 'Alien', 'year': 1979, 'genre': 'Science-fiction', 'country': 'USA', 'director': {'_id': 'artist:4', 'last_name': 'Scott', 'first_name': 'Ridley', 'birth_date': '1937'}, 'actors': [{'_id': 'artist:5', 'first_name': 'Sigourney', 'last_name': 'Weaver', 'birth_date': '1949', 'role': 'Ripley'}], 'languages': ['el', 'en', 'it', 'es']}
{'_id': 'movie:3', 'title': 'Titanic', 'year': 1997, 'genre': 'drama', 'country

In the previous example, the output also contains the field ``_id`` that is value that uniquely identifies a document. If we don't want ``_id`` to be displayed in the output, we need to say it explicitly, as follows:


In [35]:
query_result = movies.find({}, {"title":1, "_id": 0})
print_result(query_result)

{'title': 'Vertigo'}
{'title': 'Alien'}
{'title': 'Titanic'}
{'title': 'Sacrifice'}
{'title': 'Volte/Face'}
{'title': 'Sleepy Hollow'}
{'title': 'American Beauty'}
{'title': 'Impitoyable'}
{'title': 'Gladiator'}
{'title': 'Blade Runner'}
{'title': 'Piège de cristal'}
{'title': '58 minutes pour vivre'}
{'title': 'Van Gogh'}
{'title': 'Seven'}
{'title': 'Twelve Monkeys'}
{'title': 'Le last_name de la rose'}
{'title': 'Pulp fiction'}
{'title': 'Mary à tout prix'}
{'title': 'Terminator'}
{'title': 'Les dents de la mer'}
{'title': 'Le silence des agneaux'}
{'title': 'Godzilla'}
{'title': 'Matrix'}
{'title': 'Mission: Impossible'}
{'title': 'Kagemusha'}
{'title': 'Les pleins pouvoirs'}
{'title': 'Le gendarme et les extra-terrestres'}
{'title': 'Le monde perdu'}
{'title': 'Rain Man'}
{'title': 'Top Gun'}
{'title': 'Les bronzés font du ski'}
{'title': 'Le bon, la brute et le truand'}
{'title': 'Psychose'}
{'title': 'Le retour du Jedi'}
{'title': 'Les oiseaux'}
{'title': 'Reservoir dogs'}
{'tit

## Filtering

The first argument that we pass ``find`` is a **boolean predicate** used to filter the documents that we intend to get from the database.
It is equivalent to the clause ``WHERE`` in SQL.

### Equality conditions

We use expressions of the form ``<field>:<value>``

In [36]:
query_result = movies.find({"genre": "drama"}, {"title": 1, "genre": 1, "_id": 0})
print_result(query_result)

{'title': 'Vertigo', 'genre': 'drama'}
{'title': 'Titanic', 'genre': 'drama'}
{'title': 'Sacrifice', 'genre': 'drama'}
{'title': 'Gladiator', 'genre': 'drama'}
{'title': 'Van Gogh', 'genre': 'drama'}
{'title': 'Rain Man', 'genre': 'drama'}
{'title': 'Le grand bleu', 'genre': 'drama'}
{'title': 'King of New York', 'genre': 'drama'}
{'title': 'De bruit et de fureur', 'genre': 'drama'}
{'title': 'Bad Lieutenant', 'genre': 'drama'}
{'title': 'Le parrain', 'genre': 'drama'}
{'title': 'Le parrain II', 'genre': 'drama'}
{'title': 'Le parrain III', 'genre': 'drama'}
{'title': 'Kill Bill', 'genre': 'drama'}
{'title': 'Stalingrad', 'genre': 'drama'}
{'title': 'Million Dollar Baby', 'genre': 'drama'}
{'title': 'Marie Antoinette', 'genre': 'drama'}
{'title': 'Taxi driver', 'genre': 'drama'}
{'title': 'Les quatre cents coups', 'genre': 'drama'}
{'title': 'Le dernier métro', 'genre': 'drama'}
{'title': 'Un prophète', 'genre': 'drama'}
{'title': 'Nous trois ou rien', 'genre': 'drama'}


### Conditions with query operators

Conditions can be specified with **query operators** with the following syntax: ``{<field>: {<operator>: <value>}}``

In [37]:
query_result = movies.find({"genre": {"$in": ["drama", "crime"]}}, {"title": 1, "genre": 1, "_id": 0})
print_result(query_result)

{'title': 'Vertigo', 'genre': 'drama'}
{'title': 'Titanic', 'genre': 'drama'}
{'title': 'Sacrifice', 'genre': 'drama'}
{'title': 'Gladiator', 'genre': 'drama'}
{'title': 'Van Gogh', 'genre': 'drama'}
{'title': 'Seven', 'genre': 'crime'}
{'title': 'Le last_name de la rose', 'genre': 'crime'}
{'title': 'Le silence des agneaux', 'genre': 'crime'}
{'title': 'Les pleins pouvoirs', 'genre': 'crime'}
{'title': 'Rain Man', 'genre': 'drama'}
{'title': 'Reservoir dogs', 'genre': 'crime'}
{'title': 'Le grand bleu', 'genre': 'drama'}
{'title': 'King of New York', 'genre': 'drama'}
{'title': 'De bruit et de fureur', 'genre': 'drama'}
{'title': 'Bad Lieutenant', 'genre': 'drama'}
{'title': 'Le parrain', 'genre': 'drama'}
{'title': 'Le parrain II', 'genre': 'drama'}
{'title': 'Le parrain III', 'genre': 'drama'}
{'title': 'Jackie Brown', 'genre': 'crime'}
{'title': 'Kill Bill', 'genre': 'drama'}
{'title': 'Stalingrad', 'genre': 'drama'}
{'title': 'Million Dollar Baby', 'genre': 'drama'}
{'title': 'Mar

For a list of **query operators**, [read the documentation](https://docs.mongodb.com/manual/reference/operator/query/#std-label-query-selectors).

### Specify AND conditions

We can specify **more than one condition** in the predicate.

In [38]:
query_result = movies.find({"genre": "drama", "year": 2015}, {"title": 1, "genre": 1, "year": 1, "_id": 0})
print_result(query_result)

{'title': 'Nous trois ou rien', 'year': 2015, 'genre': 'drama'}


In order to specify AND conditions on multiple values on the same field, we can write as follows:

In [39]:
query_result = movies.find({"year": {"$gte": 2010, "$lte": 2015}}, {"title": 1, "genre": 1, "year": 1, "_id": 0})
print_result(query_result)

{'title': 'Django unchained', 'year': 2012, 'genre': 'Western'}
{'title': 'Interstellar', 'year': 2014, 'genre': 'Science-fiction'}
{'title': 'The Dark Knight Rises', 'year': 2012, 'genre': 'Science-fiction'}
{'title': 'Nous trois ou rien', 'year': 2015, 'genre': 'drama'}
{'title': 'Inception', 'year': 2010, 'genre': 'Sci-Fi'}


### Specify OR conditions

If we want to specify OR conditions on **different fields**, we can use the operator ``$or``.

In [40]:
query_result = movies.find({"$or": [{"genre": "crime"}, {"year": 2015}]}, {"title": 1, "genre": 1, "year": 1, "_id": 0})
print_result(query_result)

{'title': 'Seven', 'year': 1995, 'genre': 'crime'}
{'title': 'Le last_name de la rose', 'year': 1986, 'genre': 'crime'}
{'title': 'Le silence des agneaux', 'year': 1990, 'genre': 'crime'}
{'title': 'Les pleins pouvoirs', 'year': 1997, 'genre': 'crime'}
{'title': 'Reservoir dogs', 'year': 1992, 'genre': 'crime'}
{'title': 'Jackie Brown', 'year': 1997, 'genre': 'crime'}
{'title': 'Heat', 'year': 1995, 'genre': 'crime'}
{'title': 'Les affranchis', 'year': 1990, 'genre': 'crime'}
{'title': 'Casino', 'year': 1995, 'genre': 'crime'}
{'title': 'No country for old men', 'year': 2007, 'genre': 'crime'}
{'title': 'Fargo', 'year': 1996, 'genre': 'crime'}
{'title': 'Nous trois ou rien', 'year': 2015, 'genre': 'drama'}


If we want to specify OR conditions on the **values of one field**, we use the operator ``$in``.

In [41]:
query_result = movies.find({"genre": {"$in": ["drama", "crime"]}}, {"title": 1, "genre": 1, "_id": 0})
print_result(query_result)

{'title': 'Vertigo', 'genre': 'drama'}
{'title': 'Titanic', 'genre': 'drama'}
{'title': 'Sacrifice', 'genre': 'drama'}
{'title': 'Gladiator', 'genre': 'drama'}
{'title': 'Van Gogh', 'genre': 'drama'}
{'title': 'Seven', 'genre': 'crime'}
{'title': 'Le last_name de la rose', 'genre': 'crime'}
{'title': 'Le silence des agneaux', 'genre': 'crime'}
{'title': 'Les pleins pouvoirs', 'genre': 'crime'}
{'title': 'Rain Man', 'genre': 'drama'}
{'title': 'Reservoir dogs', 'genre': 'crime'}
{'title': 'Le grand bleu', 'genre': 'drama'}
{'title': 'King of New York', 'genre': 'drama'}
{'title': 'De bruit et de fureur', 'genre': 'drama'}
{'title': 'Bad Lieutenant', 'genre': 'drama'}
{'title': 'Le parrain', 'genre': 'drama'}
{'title': 'Le parrain II', 'genre': 'drama'}
{'title': 'Le parrain III', 'genre': 'drama'}
{'title': 'Jackie Brown', 'genre': 'crime'}
{'title': 'Kill Bill', 'genre': 'drama'}
{'title': 'Stalingrad', 'genre': 'drama'}
{'title': 'Million Dollar Baby', 'genre': 'drama'}
{'title': 'Mar

### Match embedded documents

The value of a field of a document can be a document itself (embedded document). For instance, the value of the key ``director`` in a movie document is a document that contains the information about the director of the movie.

For instance, we might want to find all movies, where the value of the key ``director`` is
``{'_id': 'artist:20', 'last_name': 'Eastwood', 'first_name': 'Clint', 'birth_date': '1930'}``.

**IMPORTANT.** Only the documents that have an **exact match** with the given embedded document will be returned. Two documents $D_1$ and $D_2$ have an exact match if:

* They have the **same keys**.
* The corresponding keys have the **same values**.
* The keys in **both documents** are in the **same order**.

In [42]:
query_result = movies.find({"director": {'_id': 'artist:20', 'last_name': 'Eastwood', 'first_name': 'Clint', 'birth_date': '1930'} },
                           {"title": 1, "director": 1, "_id": 0})
print_result(query_result)

{'title': 'Impitoyable', 'director': {'_id': 'artist:20', 'last_name': 'Eastwood', 'first_name': 'Clint', 'birth_date': '1930'}}
{'title': 'Les pleins pouvoirs', 'director': {'_id': 'artist:20', 'last_name': 'Eastwood', 'first_name': 'Clint', 'birth_date': '1930'}}
{'title': 'Million Dollar Baby', 'director': {'_id': 'artist:20', 'last_name': 'Eastwood', 'first_name': 'Clint', 'birth_date': '1930'}}


We can specify a condition on **individual fields** in an embedded document by using the **dot notation**.

In [43]:
query_result = movies.find({"actors.": '1930'}, {"title": 1, "director": 1, "_id": 0})
print_result(query_result)

### Querying an array

The value of some fields (e.g., ``languages``) might be an **array**.

**Question 01.** What does the following cell? Is it able to get movies where the languages are listed in the following order: ``["en", "fr"]``?

In [44]:
query_result = movies.find({"languages": ["en", "fr"]}, {"languages":1} )
print_result(query_result)

{'_id': 'movie:87', 'languages': ['en', 'fr']}


In order to get all documents where the array field contains **at least one element** with the specified value, we use the following query.

**Question 02.** Which movies does the following query return?

In [45]:
query_result = movies.find({"languages": "fr"}, {"languages":1} )
print_result(query_result)

{'_id': 'movie:3', 'languages': ['el', 'de', 'it', 'en', 'fr', 'es']}
{'_id': 'movie:4', 'languages': ['en', 'it', 'el', 'fr', 'de']}
{'_id': 'movie:5', 'languages': ['es', 'fr', 'en', 'it', 'el', 'de']}
{'_id': 'movie:7', 'languages': ['en', 'de', 'it', 'fr']}
{'_id': 'movie:10', 'languages': ['es', 'el', 'it', 'fr', 'en', 'de']}
{'_id': 'movie:11', 'languages': ['de', 'es', 'fr']}
{'_id': 'movie:13', 'languages': ['fr', 'el', 'en', 'it', 'de']}
{'_id': 'movie:14', 'languages': ['en', 'it', 'fr', 'de', 'es', 'el']}
{'_id': 'movie:17', 'languages': ['en', 'de', 'es', 'fr', 'el']}
{'_id': 'movie:18', 'languages': ['el', 'it', 'es', 'en', 'fr']}
{'_id': 'movie:19', 'languages': ['fr', 'de', 'es']}
{'_id': 'movie:21', 'languages': ['de', 'it', 'en', 'fr', 'el', 'es']}
{'_id': 'movie:23', 'languages': ['fr', 'es', 'de', 'el', 'it']}
{'_id': 'movie:24', 'languages': ['el', 'de', 'fr']}
{'_id': 'movie:29', 'languages': ['el', 'it', 'de', 'en', 'es', 'fr']}
{'_id': 'movie:32', 'languages': ['

**Question 03.** Write a query to get all movies that are **not** dubbed in French. You can have a look at the [query operators](https://docs.mongodb.com/manual/reference/operator/query/) to identify the one that you need here.

In [46]:
query_result = movies.find({"languages": {"$ne":"fr"}}, {"languages":1} )
print_result(query_result)

{'_id': 'movie:1', 'languages': ['el']}
{'_id': 'movie:2', 'languages': ['el', 'en', 'it', 'es']}
{'_id': 'movie:6', 'languages': ['it', 'de']}
{'_id': 'movie:8', 'languages': ['en', 'es', 'it', 'el', 'de']}
{'_id': 'movie:9', 'languages': ['en', 'de']}
{'_id': 'movie:12', 'languages': ['en']}
{'_id': 'movie:15', 'languages': ['de', 'es', 'en']}
{'_id': 'movie:16', 'languages': ['el']}
{'_id': 'movie:20', 'languages': ['en', 'de', 'it', 'es', 'el']}
{'_id': 'movie:22', 'languages': ['de', 'it', 'en']}
{'_id': 'movie:25', 'languages': []}
{'_id': 'movie:26', 'languages': ['it', 'el', 'en', 'es']}
{'_id': 'movie:27', 'languages': ['es']}
{'_id': 'movie:28', 'languages': ['de', 'es', 'it']}
{'_id': 'movie:30', 'languages': ['es', 'el']}
{'_id': 'movie:31', 'languages': []}
{'_id': 'movie:33', 'languages': []}
{'_id': 'movie:41', 'languages': ['en', 'it']}
{'_id': 'movie:42', 'languages': ['el', 'it']}
{'_id': 'movie:43', 'languages': []}
{'_id': 'movie:44', 'languages': []}
{'_id': 'movie

If we need to query for an **array element that matches multiple criteria**, we can use the operator ``$elemMatch``.

**Question 04.** What does the following code?

In [47]:
query_result = movies.find({"languages": {"$elemMatch": {"$gt": "el", "$lt": "it"}}}, {"title": 1, "languages": 1, "_id": 0}).sort("title", -1)
print_result(query_result)

{'title': 'Volte/Face', 'languages': ['es', 'fr', 'en', 'it', 'el', 'de']}
{'title': 'Van Gogh', 'languages': ['fr', 'el', 'en', 'it', 'de']}
{'title': 'Un prophète', 'languages': ['fr']}
{'title': 'Twelve Monkeys', 'languages': ['de', 'es', 'en']}
{'title': 'Top Gun', 'languages': ['es', 'el']}
{'title': 'Titanic', 'languages': ['el', 'de', 'it', 'en', 'fr', 'es']}
{'title': 'The Matrix reloaded', 'languages': ['it', 'fr', 'es', 'de']}
{'title': 'The Matrix Revolutions', 'languages': ['fr', 'en', 'it']}
{'title': 'The Dark Knight Rises', 'languages': ['it', 'es', 'en']}
{'title': 'Terminator', 'languages': ['fr', 'de', 'es']}
{'title': 'Taxi driver', 'languages': ['fr', 'es']}
{'title': 'Stalingrad', 'languages': ['de', 'en', 'fr']}
{'title': 'Spider-Man', 'languages': ['it', 'de', 'fr']}
{'title': 'Skyfall', 'languages': ['fr', 'de', 'es', 'en', 'it', 'el']}
{'title': 'Shining', 'languages': ['de', 'it', 'es', 'en', 'el', 'fr']}
{'title': 'Seven', 'languages': ['en', 'it', 'fr', 'de'

**Question 05.** What does the following code?

In [48]:
query_result = movies.find({"languages": {"$size" : 0}}, {"title": 1, "languages": 1, "_id": 0})
print_result(query_result)

{'title': 'Kagemusha', 'languages': []}
{'title': 'Les bronzés font du ski', 'languages': []}
{'title': 'Psychose', 'languages': []}
{'title': 'Le cinquième élément', 'languages': []}
{'title': 'Léon', 'languages': []}
{'title': 'Bad Lieutenant', 'languages': []}
{'title': 'Le parrain III', 'languages': []}
{'title': 'Une journée en enfer', 'languages': []}
{'title': 'Pour quelques dollars de plus', 'languages': []}
{'title': 'Soleil vert', 'languages': []}
{'title': 'Inglourious Basterds', 'languages': []}
{'title': 'Le dernier métro', 'languages': []}
{'title': 'The Dark Knight', 'languages': []}
{'title': 'Nous trois ou rien', 'languages': []}


The operator ``elemMatch`` is useful when we want to retrieve all movies for which at least one language meets the defined criteria.
Suppose that we want to find all movies that are dubbed in both French **and** English (and, possibly, other languages). In this case, we use the operator ``$all``.

In [49]:
query_result = movies.find({"languages": {"$all": ["en", "fr"]}}, {"title": 1, "languages": 1, "_id": 0})
print_result(query_result)

{'title': 'Titanic', 'languages': ['el', 'de', 'it', 'en', 'fr', 'es']}
{'title': 'Sacrifice', 'languages': ['en', 'it', 'el', 'fr', 'de']}
{'title': 'Volte/Face', 'languages': ['es', 'fr', 'en', 'it', 'el', 'de']}
{'title': 'American Beauty', 'languages': ['en', 'de', 'it', 'fr']}
{'title': 'Blade Runner', 'languages': ['es', 'el', 'it', 'fr', 'en', 'de']}
{'title': 'Van Gogh', 'languages': ['fr', 'el', 'en', 'it', 'de']}
{'title': 'Seven', 'languages': ['en', 'it', 'fr', 'de', 'es', 'el']}
{'title': 'Pulp fiction', 'languages': ['en', 'de', 'es', 'fr', 'el']}
{'title': 'Mary à tout prix', 'languages': ['el', 'it', 'es', 'en', 'fr']}
{'title': 'Le silence des agneaux', 'languages': ['de', 'it', 'en', 'fr', 'el', 'es']}
{'title': 'Rain Man', 'languages': ['el', 'it', 'de', 'en', 'es', 'fr']}
{'title': 'Le retour du Jedi', 'languages': ['en', 'es', 'el', 'it', 'fr']}
{'title': 'Eyes Wide Shut', 'languages': ['fr', 'en', 'de']}
{'title': 'Shining', 'languages': ['de', 'it', 'es', 'en', '

**Question 06.** Write a query to get all movies that are dubbed in French **and** English and no other language.

In [50]:
query_result = movies.find({"languages": {"$size":2, "$all": ["fr", "en"]}}, {"title": 1, "languages": 1, "_id": 1})
print_result(query_result)

{'_id': 'movie:87', 'title': 'Memento', 'languages': ['en', 'fr']}


Another possible solution is the following:

In [51]:
query_result = movies.find({"languages": {"$in": [ ["en", "fr"],["fr", "en"]]}}, {"title": 1, "languages": 1, "_id": 0})
print_result(query_result)

{'title': 'Memento', 'languages': ['en', 'fr']}


### Querying an array of embedded documents

The value of the field ``actors`` is an array, where each element is a document. We can use what we learned above on querying embedded (or nested) documents and arrays to query this field

**Question 07.** Write a query to get all the movies where at least one actor was born in 1949.

In [52]:
query_result = movies.find({"actors.birth_date":"1949"}, {"title": 1, "languages": 1, "_id": 0, "actors":1})
print_result(query_result)

{'title': 'Alien', 'actors': [{'_id': 'artist:5', 'first_name': 'Sigourney', 'last_name': 'Weaver', 'birth_date': '1949', 'role': 'Ripley'}], 'languages': ['el', 'en', 'it', 'es']}
{'title': 'Jackie Brown', 'actors': [{'_id': 'artist:167', 'first_name': 'Robert', 'last_name': 'De Niro', 'birth_date': '1943', 'role': 'Luis Gara'}, {'_id': 'artist:168', 'first_name': 'Pam', 'last_name': 'Grier', 'birth_date': '1949', 'role': 'Jackie Brown'}, {'_id': 'artist:169', 'first_name': 'Bridget', 'last_name': 'Fonda', 'birth_date': '1964', 'role': 'Melanie'}, {'_id': 'artist:170', 'first_name': 'Michael', 'last_name': 'Keaton', 'birth_date': '1951', 'role': 'Ray Nicolette'}, {'_id': 'artist:212', 'first_name': 'Samuel', 'last_name': 'Jackson', 'birth_date': '1948', 'role': 'Ordell Robbie'}], 'languages': ['el', 'de', 'fr', 'en', 'it']}
{'title': 'Un prophète', 'actors': [{'_id': 'artist:279', 'first_name': 'Tahar', 'last_name': 'Rahim', 'birth_date': '1981', 'role': 'Malik El Djebena '}, {'_id': 

The previous solution is good if we need to match arrays with a single condition.
In order to specify a multiple query conditions, we can use the operator ``elemMatch`` as in the case of arrays.

**Question 08.** Write a query to get all the movies that have at least one actor with first name "Robert" and birth date "1931"

In [53]:
query_result = movies.find( {"actors": {"$elemMatch": {"first_name": "Robert", "birth_date": "1931"}}}, {"title": 1, "languages": 1, "_id": 0, "actors":1})
print_result(query_result)

{'title': 'Le parrain', 'actors': [{'_id': 'artist:137', 'first_name': 'James', 'last_name': 'Caan', 'birth_date': '1940', 'role': 'Sonny Corleone'}, {'_id': 'artist:155', 'first_name': 'Sterling', 'last_name': 'Hayden', 'birth_date': '1916', 'role': 'Capt. McCluskey'}, {'_id': 'artist:176', 'first_name': 'Al', 'last_name': 'Pacino', 'birth_date': '1940', 'role': 'Michael Corleone'}, {'_id': 'artist:182', 'first_name': 'Marlon', 'last_name': 'Brando', 'birth_date': '1924', 'role': 'Do Vito Corleone'}, {'_id': 'artist:183', 'first_name': 'Diane', 'last_name': 'Keaton', 'birth_date': '1946', 'role': 'Kay Adams'}, {'_id': 'artist:184', 'first_name': 'Robert', 'last_name': 'Duvall', 'birth_date': '1931', 'role': 'Tom Hagen'}], 'languages': ['es', 'en', 'de', 'el']}
{'title': 'Le parrain II', 'actors': [{'_id': 'artist:167', 'first_name': 'Robert', 'last_name': 'De Niro', 'birth_date': '1943', 'role': 'Don Vito Corleone'}, {'_id': 'artist:176', 'first_name': 'Al', 'last_name': 'Pacino', 'bi

In [54]:
query_result = movies.find({"actors.first_name": "Robert", "actors.birth_date": "1931"}, {"title": 1, "languages": 1, "_id": 0, "actors":1})
print_result(query_result)

{'title': 'Le parrain', 'actors': [{'_id': 'artist:137', 'first_name': 'James', 'last_name': 'Caan', 'birth_date': '1940', 'role': 'Sonny Corleone'}, {'_id': 'artist:155', 'first_name': 'Sterling', 'last_name': 'Hayden', 'birth_date': '1916', 'role': 'Capt. McCluskey'}, {'_id': 'artist:176', 'first_name': 'Al', 'last_name': 'Pacino', 'birth_date': '1940', 'role': 'Michael Corleone'}, {'_id': 'artist:182', 'first_name': 'Marlon', 'last_name': 'Brando', 'birth_date': '1924', 'role': 'Do Vito Corleone'}, {'_id': 'artist:183', 'first_name': 'Diane', 'last_name': 'Keaton', 'birth_date': '1946', 'role': 'Kay Adams'}, {'_id': 'artist:184', 'first_name': 'Robert', 'last_name': 'Duvall', 'birth_date': '1931', 'role': 'Tom Hagen'}], 'languages': ['es', 'en', 'de', 'el']}
{'title': 'Le parrain II', 'actors': [{'_id': 'artist:167', 'first_name': 'Robert', 'last_name': 'De Niro', 'birth_date': '1943', 'role': 'Don Vito Corleone'}, {'_id': 'artist:176', 'first_name': 'Al', 'last_name': 'Pacino', 'bi

# Aggregation framework

This **aggregation framework** is another way to express queries in MongoDB, way more powerful than the function ``find`` that can be used for simple queries.


A query is expressed as a **pipeline** of operations. The first operation in the pipeline is called on all the documents in the collection; the documents output by the first operation are taken in by the second operator in the pipeline as so on.
Each operator in the pipeline is referred to as a **stage**.

## The operator ``$match``

The operator ``$match`` is used to filter the input documents based on a boolean condition. It is equivalent to WHERE in a SQL query. Usually, ``$match$`` is used as the **first stage**: we should, in fact, reduce the number of the documents on which the subsequent stages in the pipeline will work.

The following query selects all the movies produced in 2015.

In [55]:
result = movies.aggregate([{"$match": {"year": 2015}}])
print_result(result)

{'_id': 'movie:92', 'title': 'Nous trois ou rien', 'year': 2015, 'genre': 'drama', 'country': 'FR', 'director': {'_id': 'artist:281', 'last_name': ' Kheiron', 'first_name': 'Tabib', 'birth_date': None}, 'actors': [], 'languages': []}


## The operator ``$project``

The operator ``$project`` is used to:

* select the fields that appear in the result of the query (lime SELECT in SQL);
* adding new fields to the documents in the result of the query.
* resetting the values of existing fields.

It is therefore way more powerful than the projection of the function ``find()``.

In the following code, we use the operator ``$project`` to select some fields to appear in the result of the query.

**Question 09.** What is the input to the operator ``$project``?

In [56]:
result = movies.aggregate([{"$match": {"year": 2015}},
                           {"$project": {"title":1, "year":1, "_id":0}}])
print_result(result)

{'title': 'Nous trois ou rien', 'year': 2015}


In the following, we use ``$project`` to create a **new field** named ``nb_actors`` whose value is the number of actors in the movie.

The operator ``$size`` returns the number of elements of an array.
The aggregation framework operators are detailed [in the documentation](https://docs.mongodb.com/manual/reference/operator/aggregation/).

**Question 10.** What is the input of the operator ``$project``?

In [57]:
result = movies.aggregate([{"$project": {"title":1,"_id":0}}])
print_result(result)

{'title': 'Vertigo'}
{'title': 'Alien'}
{'title': 'Titanic'}
{'title': 'Sacrifice'}
{'title': 'Volte/Face'}
{'title': 'Sleepy Hollow'}
{'title': 'American Beauty'}
{'title': 'Impitoyable'}
{'title': 'Gladiator'}
{'title': 'Blade Runner'}
{'title': 'Piège de cristal'}
{'title': '58 minutes pour vivre'}
{'title': 'Van Gogh'}
{'title': 'Seven'}
{'title': 'Twelve Monkeys'}
{'title': 'Le last_name de la rose'}
{'title': 'Pulp fiction'}
{'title': 'Mary à tout prix'}
{'title': 'Terminator'}
{'title': 'Les dents de la mer'}
{'title': 'Le silence des agneaux'}
{'title': 'Godzilla'}
{'title': 'Matrix'}
{'title': 'Mission: Impossible'}
{'title': 'Kagemusha'}
{'title': 'Les pleins pouvoirs'}
{'title': 'Le gendarme et les extra-terrestres'}
{'title': 'Le monde perdu'}
{'title': 'Rain Man'}
{'title': 'Top Gun'}
{'title': 'Les bronzés font du ski'}
{'title': 'Le bon, la brute et le truand'}
{'title': 'Psychose'}
{'title': 'Le retour du Jedi'}
{'title': 'Les oiseaux'}
{'title': 'Reservoir dogs'}
{'tit

**Question 11.** Does the creation of the new field ``nb_actors`` modify the documents stored in the database?

In [58]:
result = movies.aggregate([{"$project": {"title":1,"num_actors": {"$size": "$actors"},"_id":0}}])
print_result(result)

OperationFailure: PlanExecutor error during aggregation :: caused by :: The argument to $size must be an array, but was of type: missing, full error: {'ok': 0.0, 'errmsg': 'PlanExecutor error during aggregation :: caused by :: The argument to $size must be an array, but was of type: missing', 'code': 17124, 'codeName': 'Location17124', '$clusterTime': {'clusterTime': Timestamp(1741287003, 4), 'signature': {'hash': b'\x9d\x922\xd7W\xa4\xfe\x88\xc5>\x18\xc5t7\x96\xbd\x8f\xf6m\xc0', 'keyId': 7431213296700620803}}, 'operationTime': Timestamp(1741287003, 4)}

## The operator ``$unwind``

The operator ``$unwind`` is used to explode an array from the input documents to output a document for each element.

Let's look at the result of a query where we look at the actors of the movie titled Skyfall. The movie has 3 actors.

In [None]:
result = movies.aggregate([{"$match": {"title": "Skyfall"}},
                           {"$project": {"title":1, "actors":1}}])
print_result(result)

{'_id': 'movie:74', 'title': 'Skyfall', 'actors': [{'_id': 'artist:247', 'first_name': 'Daniel', 'last_name': 'Craig', 'birth_date': '1968', 'role': 'James Bond'}, {'_id': 'artist:249', 'first_name': 'Judi', 'last_name': 'Bench', 'birth_date': '1934', 'role': 'M'}, {'_id': 'artist:250', 'first_name': 'Javier', 'last_name': 'Bardem', 'birth_date': '1969', 'role': 'Silva'}]}


Now, let's look at the result of the same query, where the array is deconstructed with the operator ``$unwind``.

**Question 12.** What is the difference?

In [None]:
result = movies.aggregate([{"$match": {"title": "Skyfall"}},
                           {"$project": {"title":1, "actors":1}},
                           {"$unwind": "$actors"}])
print_result(result)

{'_id': 'movie:74', 'title': 'Skyfall', 'actors': {'_id': 'artist:247', 'first_name': 'Daniel', 'last_name': 'Craig', 'birth_date': '1968', 'role': 'James Bond'}}
{'_id': 'movie:74', 'title': 'Skyfall', 'actors': {'_id': 'artist:249', 'first_name': 'Judi', 'last_name': 'Bench', 'birth_date': '1934', 'role': 'M'}}
{'_id': 'movie:74', 'title': 'Skyfall', 'actors': {'_id': 'artist:250', 'first_name': 'Javier', 'last_name': 'Bardem', 'birth_date': '1969', 'role': 'Silva'}}


Consider what happens when a movie does not have any actors. This means that the corresponding document doesn't have a field ``actors``, or the field is an empty array. After applying ``$unwind``, no document is returned.

In [None]:
result = movies.aggregate([{"$match": {"title": "Sacrifice"}},
                           {"$project": {"title": 1, "actors": 1}},
                           {"$unwind": "$actors"}])
print_result(result)

In order to output a document even if the movie has no actors, we must specify ``$aggregate`` with arguments, as follows:

In [None]:
result = movies.aggregate([{"$match": {"title": "Sacrifice"}},
                           {"$project": {"title": 1, "actors": 1}},
                           {"$unwind":
                                {
                                    "path": "$actors",
                                    "preserveNullAndEmptyArrays": True
                                }
                           }
                          ])
print_result(result)

{'_id': 'movie:4', 'title': 'Sacrifice'}


## The operator ``$group``

The operator ``$group`` is used to group documents based on (a) specific field(s) and apply an aggregating function on it (such as, ``$sum``, ``$max`` and ``$min``).


The following query counts the number of movies in the collection.

In [None]:
result = movies.aggregate([{"$group": {"_id": "null", "count": {"$sum": 1}}}])
print_result(result)

{'_id': 'null', 'count': 88}


The following query returns all the distinct genres of the movies in the collection.

In [None]:
result = movies.aggregate([{"$group": {"_id": "$genre"}}])
print_result(result)

{'_id': 'Comédie'}
{'_id': 'drama'}
{'_id': 'Science-fiction'}
{'_id': 'Horreur'}
{'_id': 'Thriller'}
{'_id': 'romance'}
{'_id': 'crime'}
{'_id': 'Fantastique'}
{'_id': 'Guerre'}
{'_id': 'Action'}
{'_id': 'Suspense'}
{'_id': 'Western'}


The following query returns the number of movies for each genre.

In [None]:
result = movies.aggregate([{"$group": {"_id": "$genre", "qtdy": {"$sum": 1}}}])
print_result(result)

{'_id': 'crime', 'qtdy': 11}
{'_id': 'Comédie', 'qtdy': 4}
{'_id': 'drama', 'qtdy': 22}
{'_id': 'Science-fiction', 'qtdy': 13}
{'_id': 'Horreur', 'qtdy': 4}
{'_id': 'Action', 'qtdy': 13}
{'_id': 'Thriller', 'qtdy': 7}
{'_id': 'Western', 'qtdy': 5}
{'_id': 'Suspense', 'qtdy': 2}
{'_id': 'Fantastique', 'qtdy': 2}
{'_id': 'romance', 'qtdy': 1}
{'_id': 'Guerre', 'qtdy': 4}


We can also group on multiple fields. Te next query counts the number of movies by genre and year.

In [None]:
result = movies.aggregate([{"$group": {"_id": {"genre": "$genre", "year": "$year"}, "count": {"$sum": 1}}}])
print_result(result)

{'_id': {'genre': 'Science-fiction', 'year': 1973}, 'count': 1}
{'_id': {'genre': 'Suspense', 'year': 1959}, 'count': 1}
{'_id': {'genre': 'Western', 'year': 1966}, 'count': 1}
{'_id': {'genre': 'drama', 'year': 2005}, 'count': 1}
{'_id': {'genre': 'Western', 'year': 1992}, 'count': 1}
{'_id': {'genre': 'drama', 'year': 2006}, 'count': 1}
{'_id': {'genre': 'drama', 'year': 1959}, 'count': 1}
{'_id': {'genre': 'Science-fiction', 'year': 1997}, 'count': 1}
{'_id': {'genre': 'crime', 'year': 1990}, 'count': 2}
{'_id': {'genre': 'Action', 'year': 1982}, 'count': 1}
{'_id': {'genre': 'crime', 'year': 2007}, 'count': 1}
{'_id': {'genre': 'drama', 'year': 1990}, 'count': 3}
{'_id': {'genre': 'Comédie', 'year': 1978}, 'count': 1}
{'_id': {'genre': 'Western', 'year': 2012}, 'count': 1}
{'_id': {'genre': 'Action', 'year': 1990}, 'count': 1}
{'_id': {'genre': 'Thriller', 'year': 1960}, 'count': 1}
{'_id': {'genre': 'Guerre', 'year': 1999}, 'count': 1}
{'_id': {'genre': 'Guerre', 'year': 2009}, 'c

## The operator ``$sort``

The operator ``$sort`` is used to sort the documents based on some criteria.

**Question 13.** What does the following code?

In [None]:
result = movies.aggregate([ {"$project": {"title": 1, "nb_actors": {"$size": "$actors"}, "_id": 0}},
                           {"$sort": {"rsnb_acto": -1}}
                           ])
print_result(result)

{'title': 'Le parrain III', 'nb_actors': 4}
{'title': 'Soleil vert', 'nb_actors': 1}
{'title': 'Marie Antoinette', 'nb_actors': 1}
{'title': 'Pour quelques dollars de plus', 'nb_actors': 0}
{'title': 'Million Dollar Baby', 'nb_actors': 3}
{'title': 'Stalingrad', 'nb_actors': 2}
{'title': 'Kill Bill', 'nb_actors': 5}
{'title': 'Lost in Translation', 'nb_actors': 5}
{'title': 'Sixième sens', 'nb_actors': 2}
{'title': 'Une journée en enfer', 'nb_actors': 3}
{'title': 'Jackie Brown', 'nb_actors': 5}
{'title': 'Heat', 'nb_actors': 1}
{'title': 'Le parrain II', 'nb_actors': 4}
{'title': 'Le parrain', 'nb_actors': 6}
{'title': 'Bad Lieutenant', 'nb_actors': 1}
{'title': 'Usual suspects', 'nb_actors': 5}
{'title': 'De bruit et de fureur', 'nb_actors': 3}
{'title': 'The Matrix Revolutions', 'nb_actors': 5}
{'title': 'The Matrix reloaded', 'nb_actors': 4}
{'title': 'King of New York', 'nb_actors': 6}
{'title': 'Spider-Man', 'nb_actors': 5}
{'title': 'Le grand bleu', 'nb_actors': 3}
{'title': 'Le

**Question 14.** What would the query be if we wanted to sort by incresing order?

In [None]:
result = movies.aggregate([ {"$project": {"title": 1, "nb_actors": {"$size": "$actors"}, "_id": 0}},
                           {"$sort": {"nb_actors": 1}}
                           ])
print_result(result)

{'title': 'Nous trois ou rien', 'nb_actors': 0}
{'title': 'Sacrifice', 'nb_actors': 0}
{'title': 'Inglourious Basterds', 'nb_actors': 0}
{'title': 'Pour quelques dollars de plus', 'nb_actors': 0}
{'title': 'Fenêtre sur cour', 'nb_actors': 0}
{'title': 'Kagemusha', 'nb_actors': 0}
{'title': 'Alien', 'nb_actors': 1}
{'title': 'Les quatre cents coups', 'nb_actors': 1}
{'title': 'Heat', 'nb_actors': 1}
{'title': 'Soleil vert', 'nb_actors': 1}
{'title': 'Marie Antoinette', 'nb_actors': 1}
{'title': 'Bad Lieutenant', 'nb_actors': 1}
{'title': 'Shining', 'nb_actors': 1}
{'title': 'Le bon, la brute et le truand', 'nb_actors': 1}
{'title': 'Le monde perdu', 'nb_actors': 1}
{'title': 'Terminator', 'nb_actors': 1}
{'title': '58 minutes pour vivre', 'nb_actors': 1}
{'title': 'Van Gogh', 'nb_actors': 1}
{'title': 'Piège de cristal', 'nb_actors': 1}
{'title': 'Twelve Monkeys', 'nb_actors': 1}
{'title': 'Taxi driver', 'nb_actors': 2}
{'title': 'Eyes Wide Shut', 'nb_actors': 2}
{'title': 'Pas de print