# Ejercicio 2 - Adrián José Zapater Reig

### Inicialización

In [1]:
! docker run --name mongo_db -it -p 27017:27017 -d mongo:4.0

8b3edefb2f50cc2d2745fc22c64f2ddcb8e25dd3971e9146d0a4c0ede37c2360


In [5]:
! docker cp src/webs.json mongo_db:/tmp/webs.json

In [6]:
! docker exec -it mongo_db mongoimport --db ejercicio2 --collection webs --file /tmp/webs.json

2020-05-01T11:25:13.532+0000	connected to: localhost
2020-05-01T11:25:13.551+0000	imported 51 documents


In [58]:
import pymongo
from pymongo import MongoClient
import pprint
from datetime import datetime

client = MongoClient("localhost", 27017) 
db = client.ejercicio2

In [7]:
# Comprobamos la conexión:
db.list_collection_names()

['webs']

In [8]:
# Mostramos un documento:
db.webs.find_one()

{'_id': ObjectId('5eac0719566fcc8303864c55'),
 'nombre': 'Bertoldo',
 'navegador': 'firefox',
 'fecha': datetime.datetime(2016, 2, 21, 6, 1, 17, 171000),
 'pags': [{'url': 'http://www.ucm.es', 'segs': 200},
  {'url': 'https://www.todomesobra.com', 'segs': 5},
  {'url': 'https://www.mikokoloko.com', 'segs': 120},
  {'url': 'http://www.mundoroedor.es', 'segs': 85},
  {'url': 'https://www.mikokoloko.com', 'segs': 600}]}

In [79]:
# Función auxiliar para imprimir por pantalla los resultados:
def print_query(query_cursor):
    for doc in query_cursor:
        pprint.pprint(doc)

## Consulta 1
Número de sesiones (documentos) en los que se ha visitado la web “https://www.mikokoloko.com”. Nota: si una sesión incluye dos visitas solo se contará una vez.

In [17]:
url = "https://www.mikokoloko.com"
find_json_statement = {"pags.url": url}

In [20]:
# Nomenglatura como en la shell.
# Deprecado.
db.webs.find(find_json_statement).count()

  db.webs.find(find_json_statement).count()


17

In [21]:
db.webs.count_documents(find_json_statement)

17

## Consulta 2
Mostrar los distintos navegadores que se han utilizado en toda la colección.

In [34]:
key = "navegador"
db.webs.find().distinct(key)

['Chrome', 'Explorer', 'firefox']

## Consulta 3
Mostrar únicamente el campo “navegador” de las sesiones realizadas por el usuario “Bertoldo” entre las fechas “20/02/2016” y “25/02/2016” (a las 00:00:00.000 horas en ambos casos).

In [80]:
fields = ["navegador"]
json_find_statement = { 
    "nombre": "Bertoldo", 
    "fecha" : {'$gte': datetime(2016, 2, 20, 6, 0, 0, 0), '$lte': datetime(2016, 2, 25, 0, 0, 0, 0)}
}

query_cursor = db.webs.find(filter=json_find_statement, projection=fields)
print_query(query_cursor)

{'_id': ObjectId('5eac0719566fcc8303864c55'), 'navegador': 'firefox'}
{'_id': ObjectId('5eac0719566fcc8303864c5b'), 'navegador': 'firefox'}
{'_id': ObjectId('5eac0719566fcc8303864c61'), 'navegador': 'firefox'}
{'_id': ObjectId('5eac0719566fcc8303864c67'), 'navegador': 'firefox'}
{'_id': ObjectId('5eac0719566fcc8303864c71'), 'navegador': 'firefox'}
{'_id': ObjectId('5eac0719566fcc8303864c77'), 'navegador': 'firefox'}
{'_id': ObjectId('5eac0719566fcc8303864c7f'), 'navegador': 'firefox'}


## Agregación 1
Obtener el número de sesiones por cada navegador, ordenadas en orden ascendente. La salida mostrará, para cada navegador, un “_id” que contiene el nombre del navegador, y un campo "total" con el número de sesiones de dicho navegador.

In [81]:
json_aggregate_statement = [
    {
        "$group": {
            "_id" : "$navegador",
            "total": {
                "$sum" : 1
            }
        }
        
    },
    {
        "$sort": {
            "total": 1
        }
    }
]
query_cursor = db.webs.aggregate(json_aggregate_statement)
print_query(query_cursor)

{'_id': 'Chrome', 'total': 14}
{'_id': 'firefox', 'total': 17}
{'_id': 'Explorer', 'total': 20}


## Agregación 2
Obtener la persona con mayor número de sesiones totales en la colección. La salida mostrará para cada persona (sólo 1) un “_id” conteniendo el nombre de la persona y un campo “total” con el número de sesiones totales.

In [98]:
json_aggregate_statement = [
    {
        "$group": {
            "_id" : "$nombre",
            "total": {
                "$sum" : 1
            }
        }
        
    },
    {
        "$sort": {
            "total": -1
        }
    },
    {
        "$limit" : 1
    }
]
query_cursor = db.webs.aggregate(json_aggregate_statement)
print_query(query_cursor)

{'_id': 'Herminia', 'total': 20}


## Agregación 3
Para cada persona indicar el número de URLs visitadas durante más de 100 segundos (se cuentan las repeticiones). La salida mostrará para cada persona un “_id” conteniendo el nombre de la persona y un campo “num” con el número de URLs. Pista: utilizar la opción \\$unwind de aggregate.

In [104]:
json_aggregate_statement = [
    {
        "$unwind": "$pags"
    },
    {
        "$match": { "pags.segs" : { "$gt" : 100}}
    }, 
    {
        "$group": {
            "_id" : "$nombre",
            "num" : { "$sum": 1}
        }
    }
]
query_cursor = db.webs.aggregate(json_aggregate_statement)
print_query(query_cursor)

{'_id': 'Aniceto', 'num': 35}
{'_id': 'Herminia', 'num': 40}
{'_id': 'Bertoldo', 'num': 51}


## Agregación 4
Nombre de la persona que visita más páginas de media por sesión. La salida mostrará un “_id” conteniendo el nombre de la persona y un campo “media” con el valor de la media de páginas visitadas. Pistas: calcular el número de URLs para cada sesión y luego calcular la media de ese dato para cada persona / No hace falta utilizar \\$unwind.

In [112]:
json_aggregate_statement = [
    {
        "$group": {
            "_id" : "$nombre",
            "media" : { "$avg": {"$size": "$pags" }}
        }
    },
    {
        "$sort": { "media" : -1 }
    },
    {
        "$limit": 1
    }
]
query_cursor = db.webs.aggregate(json_aggregate_statement)
print_query(query_cursor)

{'_id': 'Bertoldo', 'media': 4.411764705882353}


## Agregación 5
Calcular el total de sesiones con el navegador “Explorer” en 2016. La salida mostrará el “_id” conteniendo el año (2016) y un campo “total” con el número total de sesiones. Pista: para obtener el año de una fecha se puede utilizar \{\\$year:”\\$fecha”}.

In [128]:
json_aggregate_statement = [
    {
        "$project": {
            "navegador" : 1,
            "year" : {"$year":"$fecha"}
        }
    },
    {
        "$match" : { 
            "navegador" : "Explorer" , 
             "year" : 2016
        }
    },
    {
        "$group" : {
            "_id" : "2016",
            "total" : {"$sum" : 1}
        }
    }
]
query_cursor = db.webs.aggregate(json_aggregate_statement)
print_query(query_cursor)

{'_id': '2016', 'total': 10}


## Agregación 6
Para cada persona calcular el tiempo acumulado de todas las URLs visitadas, en minutos. La salida mostrará un campo “nombre” con el nombre de la persona, y un campo “tiempomin” con el tiempo acumulado. La salida estará ordenada alfabéticamente por los nombres de los usuarios. Pista: utilizar la opción \\$unwind de aggregate.


In [149]:
json_aggregate_statement = [
    {
        "$unwind": "$pags"
    },
    {
        "$group" : {
            "_id" : "$nombre",
            "tiempomin" : { "$sum": {"$multiply" : ["$pags.segs", 60]}}
        }
    },
    {
        "$project": {
            "nombre" : "$_id",
            "_id" : 0,
            "tiempomin" : 1
        }
    },
    {
        "$sort": { "nombre" : 1}
    }
]
query_cursor = db.webs.aggregate(json_aggregate_statement)
print_query(query_cursor)

{'nombre': 'Aniceto', 'tiempomin': 1185660}
{'nombre': 'Bertoldo', 'tiempomin': 948000}
{'nombre': 'Herminia', 'tiempomin': 1986000}


## Agregación 7
Obtener el nombre de las personas que han visitado alguna página que comience por “https”. La salida mostrará para cada persona únicamente el campo “nombre” que contendrá su nombre. Pista: utilizar el operador de proyección \\$substr

In [154]:
json_aggregate_statement = [
    {
        "$unwind": "$pags"
    },
    {
        "$match" : {
            "pags.url" : { "$regex": '^https'}
        }
    },
    {
        "$group" : {
            "_id" : "$nombre"
        }
    },
    {
        "$project": {
            "nombre" : "$_id",
            "_id" : 0
        }
    }
]
query_cursor = db.webs.aggregate(json_aggregate_statement)
print_query(query_cursor)

{'nombre': 'Aniceto'}
{'nombre': 'Bertoldo'}
