# TP FINAL

In [1]:
# !pip install pymongo python-dotenv

In [2]:
# Conexión a MongoDB
from dotenv import load_dotenv
import os
from pymongo import MongoClient

load_dotenv()
user = os.environ["MONGO_USER"]
password = os.environ["MONGO_PASS"]
client = MongoClient(f"mongodb+srv://{user}:{password}@cluster0.xet1xsa.mongodb.net/")
db = client["sample_mflix"]

## 1. Encuentra el número de películas lanzadas cada año

In [3]:
result = db.movies.aggregate([
    { '$group': { '_id': '$year', 'total': { '$sum': 1 } } },
    { '$sort': { '_id': 1 } }
])
for doc in result:
    print(doc)

{'_id': 1896, 'total': 2}
{'_id': 1903, 'total': 1}
{'_id': 1909, 'total': 1}
{'_id': 1911, 'total': 2}
{'_id': 1913, 'total': 1}
{'_id': 1914, 'total': 3}
{'_id': 1915, 'total': 2}
{'_id': 1916, 'total': 2}
{'_id': 1917, 'total': 2}
{'_id': 1918, 'total': 1}
{'_id': 1919, 'total': 1}
{'_id': 1920, 'total': 4}
{'_id': 1921, 'total': 5}
{'_id': 1922, 'total': 3}
{'_id': 1923, 'total': 2}
{'_id': 1924, 'total': 6}
{'_id': 1925, 'total': 3}
{'_id': 1926, 'total': 6}
{'_id': 1927, 'total': 4}
{'_id': 1928, 'total': 8}
{'_id': 1929, 'total': 7}
{'_id': 1930, 'total': 10}
{'_id': 1931, 'total': 20}
{'_id': 1932, 'total': 18}
{'_id': 1933, 'total': 20}
{'_id': 1934, 'total': 23}
{'_id': 1935, 'total': 31}
{'_id': 1936, 'total': 30}
{'_id': 1937, 'total': 31}
{'_id': 1938, 'total': 38}
{'_id': 1939, 'total': 20}
{'_id': 1940, 'total': 24}
{'_id': 1941, 'total': 24}
{'_id': 1942, 'total': 30}
{'_id': 1943, 'total': 32}
{'_id': 1944, 'total': 23}
{'_id': 1945, 'total': 29}
{'_id': 1946, 'total':

## 2. Encuentra la calificación promedio de IMDb para películas en cada género

In [4]:
result = db.movies.aggregate([
    { '$unwind': '$genres' },
    { '$group': { '_id': '$genres', 'avg_imdb': { '$avg': '$imdb.rating' } } },
    { '$sort': { 'avg_imdb': -1 } }
])
for doc in result:
    print(doc)

{'_id': 'Film-Noir', 'avg_imdb': 7.397402597402598}
{'_id': 'Short', 'avg_imdb': 7.377574370709382}
{'_id': 'Documentary', 'avg_imdb': 7.365679824561403}
{'_id': 'News', 'avg_imdb': 7.252272727272728}
{'_id': 'History', 'avg_imdb': 7.1696100917431185}
{'_id': 'War', 'avg_imdb': 7.128591954022989}
{'_id': 'Biography', 'avg_imdb': 7.087984189723319}
{'_id': 'Talk-Show', 'avg_imdb': 7.0}
{'_id': 'Animation', 'avg_imdb': 6.89669603524229}
{'_id': 'Music', 'avg_imdb': 6.883333333333334}
{'_id': 'Western', 'avg_imdb': 6.823553719008264}
{'_id': 'Drama', 'avg_imdb': 6.803377338624768}
{'_id': 'Sport', 'avg_imdb': 6.749041095890411}
{'_id': 'Crime', 'avg_imdb': 6.688585405625764}
{'_id': 'Musical', 'avg_imdb': 6.665831435079727}
{'_id': 'Romance', 'avg_imdb': 6.6564272782136396}
{'_id': 'Mystery', 'avg_imdb': 6.527425044091711}
{'_id': 'Adventure', 'avg_imdb': 6.493680884676145}
{'_id': 'Comedy', 'avg_imdb': 6.450214658080344}
{'_id': 'Fantasy', 'avg_imdb': 6.3829847908745245}
{'_id': 'Action'

## 3. Lista las 5 películas con la calificación IMDb más alta

In [5]:
result = db.movies.find({ 'imdb.rating': { '$type': 'number' } }, { 'title': 1, 'imdb.rating': 1 }).sort('imdb.rating', -1).limit(5)
for doc in result:
    print(doc)

{'_id': ObjectId('573a139ff29313caabd003c4'), 'title': 'Band of Brothers', 'imdb': {'rating': 9.6}}
{'_id': ObjectId('573a13b8f29313caabd4c241'), 'title': 'Planet Earth', 'imdb': {'rating': 9.5}}
{'_id': ObjectId('573a13f0f29313caabdda542'), 'title': 'A Brave Heart: The Lizzie Velasquez Story', 'imdb': {'rating': 9.4}}
{'_id': ObjectId('573a13a3f29313caabd0e77b'), 'title': 'The Civil War', 'imdb': {'rating': 9.4}}
{'_id': ObjectId('573a1398f29313caabcebc0b'), 'title': 'The Civil War', 'imdb': {'rating': 9.4}}


## 4. Determina el número total de películas y la duración promedio para cada director

In [6]:
result = db.movies.aggregate([
    { '$group': {
        '_id': '$directors',
        'total_peliculas': { '$sum': 1 },
        'duracion_promedio': { '$avg': '$runtime' }
    } },
    { '$sort': { 'total_peliculas': -1 } }
])
for doc in result:
    print(doc)

{'_id': None, 'total_peliculas': 242, 'duracion_promedio': 228.4834123222749}
{'_id': ['Woody Allen'], 'total_peliculas': 39, 'duracion_promedio': 95.35897435897436}
{'_id': ['Takashi Miike'], 'total_peliculas': 30, 'duracion_promedio': 116.7}
{'_id': ['Martin Scorsese'], 'total_peliculas': 29, 'duracion_promedio': 138.17241379310346}
{'_id': ['Sidney Lumet'], 'total_peliculas': 28, 'duracion_promedio': 122.03571428571429}
{'_id': ['Steven Spielberg'], 'total_peliculas': 28, 'duracion_promedio': 134.82142857142858}
{'_id': ['Clint Eastwood'], 'total_peliculas': 27, 'duracion_promedio': 130.77777777777777}
{'_id': ['Michael Apted'], 'total_peliculas': 27, 'duracion_promedio': 109.88461538461539}
{'_id': ['Robert Altman'], 'total_peliculas': 26, 'duracion_promedio': 120.73076923076923}
{'_id': ['Spike Lee'], 'total_peliculas': 25, 'duracion_promedio': 126.96}
{'_id': ['John Ford'], 'total_peliculas': 24, 'duracion_promedio': 107.0}
{'_id': ['Ridley Scott'], 'total_peliculas': 24, 'duraci

{'_id': ['Johnnie To'], 'total_peliculas': 14, 'duracion_promedio': 98.71428571428571}
{'_id': ['Phillip Noyce'], 'total_peliculas': 14, 'duracion_promedio': 106.35714285714286}
{'_id': ['Alan Rudolph'], 'total_peliculas': 13, 'duracion_promedio': 107.76923076923077}
{'_id': ['Robert Mulligan'], 'total_peliculas': 13, 'duracion_promedio': 110.61538461538461}
{'_id': ['Roman Polanski'], 'total_peliculas': 13, 'duracion_promedio': 130.92307692307693}
{'_id': ['Mauro Bolognini'], 'total_peliculas': 13, 'duracion_promedio': 100.07692307692308}
{'_id': ['Simon Wincer'], 'total_peliculas': 13, 'duracion_promedio': 101.6923076923077}
{'_id': ['Joe Dante'], 'total_peliculas': 13, 'duracion_promedio': 100.38461538461539}
{'_id': ['Robert Rodriguez'], 'total_peliculas': 13, 'duracion_promedio': 95.6923076923077}
{'_id': ['Andrzej Wajda'], 'total_peliculas': 13, 'duracion_promedio': 136.30769230769232}
{'_id': ['Roger Spottiswoode'], 'total_peliculas': 13, 'duracion_promedio': 110.07692307692308}

## 5. Encuentra la distribución de películas basadas en su clasificación MPAA

In [7]:
result = db.movies.aggregate([
    { '$group': { '_id': '$rated', 'total': { '$sum': 1 } } },
    { '$sort': { 'total': -1 } }
])
for doc in result:
    print(doc)

{'_id': None, 'total': 9894}
{'_id': 'R', 'total': 5537}
{'_id': 'PG-13', 'total': 2321}
{'_id': 'PG', 'total': 1852}
{'_id': 'APPROVED', 'total': 709}
{'_id': 'G', 'total': 477}
{'_id': 'PASSED', 'total': 181}
{'_id': 'TV-14', 'total': 89}
{'_id': 'TV-PG', 'total': 76}
{'_id': 'TV-MA', 'total': 60}
{'_id': 'TV-G', 'total': 59}
{'_id': 'GP', 'total': 44}
{'_id': 'M', 'total': 37}
{'_id': 'Approved', 'total': 5}
{'_id': 'AO', 'total': 3}
{'_id': 'TV-Y7', 'total': 3}
{'_id': 'Not Rated', 'total': 1}
{'_id': 'OPEN', 'total': 1}


## 6. Encuentra los 3 países que producen el mayor número de películas

In [8]:
result = db.movies.aggregate([
    { '$unwind': '$countries' },
    { '$group': { '_id': '$countries', 'total': { '$sum': 1 } } },
    { '$sort': { 'total': -1 } },
    { '$limit': 3 }
])
for doc in result:
    print(doc)

{'_id': 'USA', 'total': 10921}
{'_id': 'UK', 'total': 2652}
{'_id': 'France', 'total': 2647}


## 7. Para películas lanzadas después del 2000, calcula el número promedio de miembros del reparto

In [9]:
result = db.movies.aggregate([
    { '$match': { 'year': { '$gt': 2000 } } },
    { '$project': { 'cast_count': { '$size': { '$ifNull': ['$cast', []] } } } },
    { '$group': { '_id': None, 'promedio_reparto': { '$avg': '$cast_count' } } }
])
for doc in result:
    print(doc)

{'_id': None, 'promedio_reparto': 3.8223223223223224}


## 8. Determina la calificación promedio de IMDb para las películas y su respectivo número de comentarios
Limité la cantidad de películas porque $lookup es costoso ya que las colecciones de películas y comentarios son grandes.

In [14]:
result = db.movies.aggregate([
    { '$match': { 'imdb.rating': { '$type': 'number', '$ne': None } } },
    { '$sort': { 'imdb.rating': -1 } },
    { '$limit': 20 },
    { '$lookup': {
        'from': 'comments',
        'localField': '_id',
        'foreignField': 'movie_id',
        'as': 'comentarios'
    }},
    { '$project': { 'title': 1, 'imdb': 1, 'num_comentarios': { '$size': '$comentarios' } } }
])
for doc in result:
    print(doc)

{'_id': ObjectId('573a139ff29313caabd003c4'), 'title': 'Band of Brothers', 'imdb': {'rating': 9.6, 'votes': 183802, 'id': 185906}, 'num_comentarios': 0}
{'_id': ObjectId('573a13b8f29313caabd4c241'), 'title': 'Planet Earth', 'imdb': {'rating': 9.5, 'votes': 82896, 'id': 795176}, 'num_comentarios': 0}
{'_id': ObjectId('573a1398f29313caabcebc0b'), 'title': 'The Civil War', 'imdb': {'rating': 9.4, 'votes': 4625, 'id': 98769}, 'num_comentarios': 1}
{'_id': ObjectId('573a13a3f29313caabd0e77b'), 'title': 'The Civil War', 'imdb': {'rating': 9.4, 'votes': 4624, 'id': 98769}, 'num_comentarios': 0}
{'_id': ObjectId('573a13f0f29313caabdda542'), 'title': 'A Brave Heart: The Lizzie Velasquez Story', 'imdb': {'rating': 9.4, 'votes': 45, 'id': 3735302}, 'num_comentarios': 0}
{'_id': ObjectId('573a139ff29313caabd015b9'), 'imdb': {'rating': 9.3, 'votes': 1513145, 'id': 111161}, 'title': 'The Shawshank Redemption', 'num_comentarios': 131}
{'_id': ObjectId('573a1399f29313caabceeb20'), 'imdb': {'rating': 9

## 9. Encuentra el número total de películas en las que cada usuario ha comentado

In [11]:
result = db.comments.aggregate([
    { '$group': { '_id': '$email', 'total_peliculas': { '$addToSet': '$movie_id' } } },
    { '$project': { 'usuario': '$_id', 'total_peliculas': { '$size': '$total_peliculas' }, '_id': 0 } },
    { '$sort': { 'total_peliculas': -1 } }
])
for doc in result:
    print(doc)

{'usuario': 'roger_ashton-griffiths@gameofthron.es', 'total_peliculas': 219}
{'usuario': 'nathalie_emmanuel@gameofthron.es', 'total_peliculas': 197}
{'usuario': 'paul_kaye@gameofthron.es', 'total_peliculas': 197}
{'usuario': 'sophie_turner@gameofthron.es', 'total_peliculas': 197}
{'usuario': 'denise_bryant@fakegmail.com', 'total_peliculas': 196}
{'usuario': 'jonathan_pryce@gameofthron.es', 'total_peliculas': 194}
{'usuario': 'robert_jordan@fakegmail.com', 'total_peliculas': 194}
{'usuario': 'ron_donachie@gameofthron.es', 'total_peliculas': 193}
{'usuario': 'dean-charles_chapman@gameofthron.es', 'total_peliculas': 193}
{'usuario': 'nicholas_johnson@fakegmail.com', 'total_peliculas': 193}
{'usuario': 'richard_dormer@gameofthron.es', 'total_peliculas': 192}
{'usuario': 'liam_cunningham@gameofthron.es', 'total_peliculas': 192}
{'usuario': 'luke_barnes@gameofthron.es', 'total_peliculas': 188}
{'usuario': 'andrea_le@fakegmail.com', 'total_peliculas': 187}
{'usuario': 'edward_barrett@fakegmai

## 10. Encuentra películas del género 'Western' y sus respectivos comentarios antes del '2020-01-01'

In [12]:
from datetime import datetime
fecha_limite = datetime(2020, 1, 1)
result = db.movies.aggregate([
    { '$match': { 'genres': 'Western' } },
    { '$lookup': {
        'from': 'comments',
        'localField': '_id',
        'foreignField': 'movie_id',
        'as': 'comentarios'
    } },
    { '$project': { 'title': 1, 'comentarios': { '$filter': { 'input': '$comentarios', 'as': 'comentario', 'cond': { '$lt': ['$$comentario.date', fecha_limite] } } } } }
])
for doc in result:
    print(doc)

{'_id': ObjectId('573a1390f29313caabcd42e8'), 'title': 'The Great Train Robbery', 'comentarios': []}
{'_id': ObjectId('573a1390f29313caabcd6377'), 'title': 'Wild and Woolly', 'comentarios': []}
{'_id': ObjectId('573a1391f29313caabcd7bc3'), 'title': 'The Iron Horse', 'comentarios': []}
{'_id': ObjectId('573a1391f29313caabcd7e6e'), 'title': 'Clash of the Wolves', 'comentarios': []}
{'_id': ObjectId('573a1391f29313caabcd8f66'), 'title': 'In Old Arizona', 'comentarios': []}
{'_id': ObjectId('573a1391f29313caabcd91dc'), 'title': 'The Big Trail', 'comentarios': []}
{'_id': ObjectId('573a1391f29313caabcd95f6'), 'title': 'Cimarron', 'comentarios': [{'_id': ObjectId('5a9427648b0beebeb6957ce5'), 'name': 'Tommen Baratheon', 'email': 'dean-charles_chapman@gameofthron.es', 'movie_id': ObjectId('573a1391f29313caabcd95f6'), 'text': 'Eaque quia a fuga non. Possimus facere natus omnis. Perspiciatis magnam est illo ipsum ullam at reprehenderit. Quidem distinctio sapiente eos velit mollitia iure qui.', '