Este comando instala o pacote pymongo no ambiente Python para permitir a interação com o banco de dados MongoDB.

In [1]:
!python -m pip install pymongo

Collecting pymongo
  Downloading pymongo-4.10.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (22 kB)
Collecting dnspython<3.0.0,>=1.16.0 (from pymongo)
  Downloading dnspython-2.7.0-py3-none-any.whl.metadata (5.8 kB)
Downloading pymongo-4.10.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dnspython-2.7.0-py3-none-any.whl (313 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m313.6/313.6 kB[0m [31m12.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: dnspython, pymongo
Successfully installed dnspython-2.7.0 pymongo-4.10.1


Importando as bibliotecas que serão usadas

In [48]:
# Importando o módulo numpy para trabalhar com arrays e funções matemáticas avançadas
import numpy as np  # Biblioteca usada para manipulação de arrays multidimensionais e cálculos matemáticos

# Importando o módulo json para trabalhar com dados no formato JSON
import json  # Biblioteca usada para parsing e manipulação de arquivos e dados JSON

# Importando o módulo objectid do bson para manipulação de ObjectId no MongoDB
from bson import objectid  # Usado para trabalhar com ObjectIds do MongoDB, que são identificadores exclusivos de documentos

# Importando o módulo csv para leitura e escrita de arquivos CSV
import csv  # Biblioteca usada para ler e escrever arquivos no formato CSV (Comma-Separated Values)

# Importando a classe MongoClient do pymongo para conectar e interagir com o MongoDB
from pymongo import MongoClient  # Usado para conectar o Python ao banco de dados MongoDB


Conectando com MongoDB

In [49]:
# Definindo a URI de conexão com o MongoDB Atlas (baseado em nuvem)
uri = "mongodb+srv://thalesplalbino:1234@jorge.awo89.mongodb.net/?retryWrites=true&w=majority&appName=jorge"
# Conectando ao MongoDB usando a URI fornecida
client = MongoClient(uri)


Selecionando qual banco de dados e coleção que serão usadas

In [50]:
# Acessando o banco de dados 'catalogo' no MongoDB através da conexão estabelecida
db = client['catalogo']  # 'client' é o objeto de conexão com o MongoDB, 'catalogo' é o nome do banco de dados

# Acessando a coleção 'filmes' dentro do banco de dados 'catalogo'
collection = db['filmes']  # 'filmes' é o nome da coleção onde os dados dos filmes estão armazenados


Definindo o caminho para o arquivo csv

In [53]:
# Definindo o caminho do arquivo CSV contendo os dados dos filmes
dataset = '/content/drive/MyDrive/fatec/moviedataset/archive/movies_metadata.csv'

Corrigindo o campo "_id' para o MongoDB

In [54]:
# Inicializando uma lista vazia para armazenar os dados processados
data = []

# Abrindo o arquivo CSV para leitura no modo 'r' (leitura) com a codificação 'utf-8'
with open(dataset, "r", encoding="utf-8") as file:
    # Usando csv.DictReader para ler o arquivo CSV como dicionários
    csv_reader = csv.DictReader(file)  # O csv.DictReader cria um dicionário onde as chaves são os cabeçalhos das colunas

    # Iterando sobre cada linha do arquivo CSV
    for row in csv_reader:
        # Verificando se a chave '_id' está presente na linha e se o valor de '_id' começa com '$oid'
        if '_id' in row and row['_id'].startswith('$oid'):
            # Removendo a string '$oid' e convertendo o valor para um ObjectId válido do MongoDB
            row['_id'] = ObjectId(row['_id'][5:])  # Remove a parte '$oid' e converte o restante para ObjectId

        # Adicionando o dicionário da linha à lista 'data'
        data.append(row)



Inseerindo os dados do arquivo csv na collection definida anteriormente

In [55]:
# Inserindo os dados na coleção 'filmes' no MongoDB
collection.insert_many(data)  # A função 'insert_many' insere múltiplos documentos (linhas) na coleção MongoDB

# Imprimindo uma mensagem de sucesso após a inserção
print("Dados inseridos com sucesso!")  # Exibe uma mensagem no console para indicar que os dados foram inseridos


Dados inseridos com sucesso!


Inserindo um novo filme no catalogo

In [56]:
# Criando um novo dicionário com os dados do filme para ser inserido no MongoDB
novo_filme = {
    "title": "Whatsapp 2, o retorno",  # Título do filme
    "release_year": 2023,  # Ano de lançamento do filme
    "genre": ["Ação", "Aventura"],  # Gêneros do filme, armazenados em uma lista
    "director": "Blue pen",  # Nome do diretor do filme
    "actors": ["Ana", "Carlão"],  # Lista de atores que participam do filme
    "plot": "Mais uma vez o nosso herói se encontra em apuros e tem que salvar a Terra.",  # Sinopse do filme
    "duration": 120  # Duração do filme em minutos
}

# Inserindo o novo filme na coleção do MongoDB
inserido = collection.insert_one(novo_filme)  # O método 'insert_one' insere o documento na coleção

# Verificando o ID do documento inserido
print("Filme inserido com o ID:", inserido.inserted_id)  # Exibe o ID único do filme inserido no MongoDB

# Recuperando o filme recém-inserido a partir do seu ID
filme = collection.find_one({"_id": inserido.inserted_id})  # Utilizando o '_id' para buscar o filme específico no MongoDB

# Exibindo os dados do filme recuperado
filme  # Retorna o dicionário com os dados do filme recém-inserido


Filme inserido com o ID: 672b956e3e56bd47208597e0


{'_id': ObjectId('672b956e3e56bd47208597e0'),
 'title': 'Whatsapp 2, o retorno',
 'release_year': 2023,
 'genre': ['Ação', 'Aventura'],
 'director': 'Blue pen',
 'actors': ['Ana', 'Carlão'],
 'plot': 'Mais uma vez o nosso herói se encontra em apuros e tem que salvar a Terra.',
 'duration': 120}

Query para listar todos os filmes de comedia do catalogo, ordena_los por nota (ordem decrescente) e mostrar seu titulo, nota e overview

In [57]:
# Query para listar todos os filmes que têm "Comedy" no gênero
resultado = collection.find({"genres": {"$regex": "Comedy", "$options": "i"}}).sort("vote_average", -1)
#"$regex": "Comedy" vai buscar o termo "Comedy" dentro do campo destacado
#"$options": "i" vai tornar a busca casa insensitive
#.sort("vote_average", -1) vai ordenar a busca por nota e o -1 indica a ordem decresente

# Exibir os resultados
for filme in resultado:
    titulo = filme.get("title", "Título desconhecido")
    nota = filme.get("vote_average", "Nota desconhecida")
    descricao = filme.get("overview", "Sem descrição")
    #Salva as informações desejadas dos filmes em variaveis e apresenta uma opção caso o campo não seja achado ou esteja vazio

    #Imprime as informações salvas já formatadas
    print(f"Título: {titulo} | Nota: {nota} | Descrição: {descricao}")

[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
Título: Big Momma's House | Nota: 5.6 | Descrição: When a street-smart FBI agent is sent to Georgia to protect a beautiful single mother and her son from an escaped convict, he is forced to impersonate a crass Southern granny known as Big Momma in order to remain incognito.
Título: Greaser's Palace | Nota: 5.6 | Descrição: A parable based on the life of Christ. This ain't your father's Bible story, full of references about the destruction of the world through massive constipation and a New Mexican setting.
Título: A Couch in New York | Nota: 5.6 | Descrição: Dr. Henry Harriston is a successful psychoanalyst in New York City. When he is near a nervous breakdown, he arranges to change his flat with Beatrice Saulnier from France for a while. Both don't know each other and both find themselves deeply involved into the social settings of the other, because the decision to change their flats is made overnight. Could be 

Query para listar todos os filmes da coleção Toy Story e ordenalos por data de lançamento

In [58]:
#Query para listar todos os filmes da coleção Toy Story e ordenalos por data de lançamento
resultado = collection.find({"belongs_to_collection": {"$regex": "toy story", "$options": "i"}}).sort("release_date", 1)

#Exibir os resultados
for filme in resultado:
    titulo = filme.get("title", "Título desconhecido")
    data_lancamento = filme.get("release_date", "Data de lançamento desconhecida")

    print(f"Título: {titulo} | Data de Lançamento: {data_lancamento}")


Título: Toy Story | Data de Lançamento: 1995-10-30
Título: Toy Story 2 | Data de Lançamento: 1999-10-30
Título: Toy Story 3 | Data de Lançamento: 2010-06-16


Atualizando as notas de todos os filmes da coleção "How to train your dragon" para a sua nota merecida (10)

In [59]:
# Buscando filmes que pertencem à coleção 'How to train your dragon', ignorando maiúsculas/minúsculas
resultado = collection.find({"belongs_to_collection": {"$regex": "How to train your dragon", "$options": "i"}}).sort("release_date", 1)
# O método 'find' busca documentos que correspondem ao padrão fornecido, neste caso, filmes da coleção 'How to train your dragon'
# O parâmetro '$regex' faz uma busca por expressão regular e '$options: "i"' faz a busca sem considerar maiúsculas e minúsculas
# A função 'sort("release_date", 1)' ordena os filmes por data de lançamento em ordem crescente (1 para crescente)

# Iterando sobre os resultados da busca
for filme in resultado:
    # Obtendo o título do filme, caso não exista, exibe 'Título desconhecido'
    titulo = filme.get("title", "Título desconhecido")
    # Obtendo a nota do filme, caso não exista, exibe 'Filme sem nota'
    nota = filme.get("vote_average", "Filme sem nota")
    # Exibindo o título, nota e data de lançamento do filme
    print(f"Título: {titulo} | Nota: {nota}, | Data de Lançamento: {data_lancamento}")

# Atualizando todos os filmes encontrados na coleção 'How to Train Your Dragon' para uma nova nota 10.0
resultado_att = collection.update_many(
    {"belongs_to_collection": {"$regex": "How to Train Your Dragon", "$options": "i"}},  # Busca por título (case-insensitive)
    {"$set": {"vote_average": 10.0}}  # Define a nova nota como 10.0
)

# Exibindo quantos filmes foram atualizados
print(f"Total de filmes atualizados: {resultado_att.modified_count}")

# Resultado após a atualização, buscando novamente os filmes da coleção 'How to Train Your Dragon'
resultado = collection.find({"belongs_to_collection": {"$regex": "How to train your dragon", "$options": "i"}}).sort("release_date", 1)
# Iterando sobre os filmes atualizados
for filme in resultado:
    # Obtendo título e nota, como na busca anterior
    titulo = filme.get("title", "Título desconhecido")
    nota = filme.get("vote_average", "Filme sem nota")
    # Exibindo título, nova nota (10.0) e data de lançamento
    print(f"Título: {titulo} | Nota: {nota}, | Data de Lançamento: {data_lancamento}")


Título: How to Train Your Dragon | Nota: 7.5, | Data de Lançamento: 2010-06-16
Título: How to Train Your Dragon 2 | Nota: 7.6, | Data de Lançamento: 2010-06-16
Total de filmes atualizados: 2
Título: How to Train Your Dragon | Nota: 10.0, | Data de Lançamento: 2010-06-16
Título: How to Train Your Dragon 2 | Nota: 10.0, | Data de Lançamento: 2010-06-16


Atualizando as notas de todos os filmes da coleção "Barbie" para 2.0

In [60]:
# Buscando filmes que pertencem à coleção 'barbie', ignorando maiúsculas/minúsculas
resultado = collection.find({"belongs_to_collection": {"$regex": "barbie", "$options": "i"}}).sort("release_date", 1)
# O método 'find' busca documentos que correspondem ao padrão fornecido, neste caso, filmes da coleção 'barbie'
# A função 'sort("release_date", 1)' ordena os filmes por data de lançamento em ordem crescente (1 para crescente)

# Iterando sobre os resultados da busca
for filme in resultado:
    # Obtendo o título do filme, caso não exista, exibe 'Título desconhecido'
    titulo = filme.get("title", "Título desconhecido")
    # Obtendo a nota do filme, caso não exista, exibe 'Filme sem nota'
    nota = filme.get("vote_average", "Filme sem nota")
    # Exibindo o título, nota e data de lançamento do filme
    print(f"Título: {titulo} | Nota: {nota}, | Data de Lançamento: {data_lancamento}")

# Atualizando todos os filmes encontrados na coleção 'barbie' para uma nova nota 2.0
resultado_att = collection.update_many(
    {"belongs_to_collection": {"$regex": "barbie", "$options": "i"}},  # Busca por título (case-insensitive)
    {"$set": {"vote_average": "2.0"}}  # Define a nova nota como 2.0
)

# Exibindo quantos filmes foram atualizados
print(f"Total de filmes atualizados: {resultado_att.modified_count}")
print("Filmes com notas atualizadas:")

# Resultado após a atualização, buscando novamente os filmes da coleção 'barbie'
resultado = collection.find({"belongs_to_collection": {"$regex": "barbie", "$options": "i"}}).sort("release_date", 1)
# Iterando sobre os filmes atualizados
for filme in resultado:
    # Obtendo título e nota, como na busca anterior
    titulo = filme.get("title", "Título desconhecido")
    nota = filme.get("vote_average", "Filme sem nota")
    # Exibindo título, nova nota (2.0) e data de lançamento
    print(f"Título: {titulo} | Nota: {nota}, | Data de Lançamento: {data_lancamento}")


Título: Barbie: Fairytopia | Nota: 5.7, | Data de Lançamento: 2010-06-16
Título: Barbie Fairytopia: Mermaidia | Nota: 6.2, | Data de Lançamento: 2010-06-16
Título: Barbie Fairytopia: Magic of the Rainbow | Nota: 6.2, | Data de Lançamento: 2010-06-16
Título: Barbie Mariposa and Her Butterfly Fairy Friends | Nota: 5.6, | Data de Lançamento: 2010-06-16
Título: Barbie in A Mermaid Tale | Nota: 6.2, | Data de Lançamento: 2010-06-16
Título: Barbie in A Mermaid Tale 2 | Nota: 6.0, | Data de Lançamento: 2010-06-16
Título: Barbie: Mariposa and The Fairy Princess | Nota: 6.3, | Data de Lançamento: 2010-06-16
Total de filmes atualizados: 7
Filmes com notas atualizadas:
Título: Barbie: Fairytopia | Nota: 2.0, | Data de Lançamento: 2010-06-16
Título: Barbie Fairytopia: Mermaidia | Nota: 2.0, | Data de Lançamento: 2010-06-16
Título: Barbie Fairytopia: Magic of the Rainbow | Nota: 2.0, | Data de Lançamento: 2010-06-16
Título: Barbie Mariposa and Her Butterfly Fairy Friends | Nota: 2.0, | Data de Lanç

Deleta todos os filmes da coleção Matrix

In [61]:
# Busca os filmes da coleção 'Matrix'
filmes_matrix = list(collection.find({"belongs_to_collection": {"$regex": "Matrix", "$options": "i"}}))

# Verifica se encontrou filmes
if filmes_matrix:
    # Exibe os filmes encontrados
    print("Filmes encontrados na coleção Matrix:")
    for filme in filmes_matrix:
        print(f"Título: {filme.get('title', 'Título desconhecido')} | Nota: {filme.get('vote_average', 'Nota desconhecida')}")

    # Deleta os filmes encontrados
    resultado = collection.delete_many({"belongs_to_collection": {"$regex": "Matrix", "$options": "i"}})

    # Exibe o total de filmes deletados
    print(f"Total de filmes deletados: {resultado.deleted_count}")

    # Verifica novamente para garantir que foram deletados
    confirmacao = collection.find_one({"belongs_to_collection": {"$regex": "Matrix", "$options": "i"}})
    if confirmacao:
        print("Erro: Ainda existem filmes da coleção Matrix.")
    else:
        print("Confirmação: Todos os filmes da coleção Matrix foram deletados.")
else:
    # Caso não encontre nenhum filme
    print("Filme não encontrado")


Filmes encontrados na coleção Matrix:
Título: The Matrix | Nota: 7.9
Título: The Matrix Reloaded | Nota: 6.7
Título: The Matrix Revolutions | Nota: 6.4
Total de filmes deletados: 3
Confirmação: Todos os filmes da coleção Matrix foram deletados.


Deleta todos os filmes com nota igual a 0

In [62]:
# Contando a quantidade de filmes com nota igual a 0 antes de deletar
# A função count_documents conta o número de documentos que atendem à condição fornecida
# A expressão '$expr' permite usar expressões dentro da consulta, '$toDouble' converte o valor de 'vote_average' para um tipo numérico (double) e '$eq' verifica se é igual a 0
antes_de_deletar = collection.count_documents({
    "$expr": {
        "$eq": [{"$toDouble": "$vote_average"}, 0]  # Verifica se a nota é igual a 0
    }
})

# Apagando todos os filmes com nota igual a 0
# O método delete_many apaga todos os documentos que atendem à condição fornecida
resultados = collection.delete_many({
    "$expr": {
        "$eq": [{"$toDouble": "$vote_average"}, 0]  # Filtra os filmes com nota igual a 0
    }
})

# Contando a quantidade de filmes com nota igual a 0 depois de deletar
# A contagem é feita novamente para verificar quantos filmes restantes têm nota igual a 0
depois_de_deletar = collection.count_documents({
    "$expr": {
        "$eq": [{"$toDouble": "$vote_average"}, 0]  # Novamente verifica filmes com nota igual a 0
    }
})

# Exibindo a quantidade de filmes antes e depois da exclusão
# O código imprime no console a quantidade de filmes com nota igual a 0 antes e depois da exclusão
print(f"Quantidade de filmes com nota igual a 0 antes de deletar: {antes_de_deletar}")
print(f"Quantidade de filmes com nota igual a 0 depois de deletar: {depois_de_deletar}")


Quantidade de filmes com nota igual a 0 antes de deletar: 2998
Quantidade de filmes com nota igual a 0 depois de deletar: 0
