# Optimización de consultas con índices

En esta práctica vamos a aprender como se crean y funcionan los índices en mongodb y como poder optimizar las consutlas con su uso.

El uso de índices en Mongodb es clave para poder tener una base de datos rápida para nuestras aplicaciones. Mongodb con volúmenes grandes de datos y sin índices es lenta, por lo que es un aspecto importante tenerlo en cuenta a la hora de realizar el modelo de datos para nuestras aplicaciones y casos de uso.

Primero preparemos el entorno para realizar los ejercicios de la practica.

In [1]:
import json
import pymongo
from pymongo import MongoClient

client = MongoClient('mongodb://nosql:nosql@mongo:27017/')

In [2]:
db = client["admin"]
db.drop_collection("customers")

{'nIndexesWas': 6, 'ns': 'admin.customers', 'ok': 1.0}

## 1. Ingestar los datos para el ejercicio

Con el fin de poder experimentar con la optimización de las consultas a través de la generación de índices vamos a cargar un conjunto de datos más grande. 

Este conjunto de datos lo puedes encontrar aquí: http://127.0.0.1:8889/edit/work/data/mongoDB/customers.json 

Los datos representan clientes de una empresa, donde por cada cliente se recoge la siguiente información:

`
{
  '_id': '630ce69bf6c81cfa744bbc80', 
  'Full Name': 'Mr Carole Stephan Johnston III', 
  'Name': {
    'Title': 'Mr', 
    'First Name': 'Carole', 
    'Middle Name': 'Stephan', 
    'Last Name': 'Johnston', 
    'Suffix': 'III'
  }, 
  'Addresses': [
    {'type': 'Work', 
     'Full Address': '57b East Old Drive  Cradley Heath , Birmingham, Caithness SE62 7LH', 
     'County': 'Caithness', 
     'Dates': {'Moved In': '2002-11-04T18:04:22.530'}
    }], 
  'Notes': [{'Text': 'our in much are you customers! Thank inspiration of management professional customer services stay choosing', 'Date': '2012-07-22T03:58:07.060'}], 
  'Phones': [
    {'TypeOfPhone': 'Home', 'DiallingNumber': '34737', 'Dates': {'From': '2015-11-30T05:23:16.980'}}
  ], 
  'EmailAddresses': [
    {'EmailAddress': 'Callum54@Livilook.co.xs', 'StartDate': '2014-02-11', 'EndDate': '2016-07-22'}
  ], 
  'Cards': [
    {'CardNumber': '5150757309281980', 'ValidFrom': '2015-03-25', 'ValidTo': '2025-01-31', 'CVC': '609'},       
    {'CardNumber': '5450085596627096', 'ValidFrom': '2016-08-17', 'ValidTo': '2024-06-06', 'CVC': '885'}, 
    {'CardNumber': '370159008945723', 'ValidFrom': '2016-05-29', 'ValidTo': '2028-02-28', 'CVC': '650'}
  ]
}
`

Cada línea del fichero corresponde al documento JSON de un cliente.

Para hacer la ingesta de los datos vamos a utilizar la herramienta mongoimport que ya tenemos instalada dentro del docker del jupyther:

In [3]:
!mongoimport --verbose --uri 'mongodb://nosql:nosql@mongo:27017/admin' \
             --collection 'customers' \
             --type 'json' \
             --jsonArray \
             --file '../data/mongoDB/customers.json'

2024-02-29T16:01:03.936+0000	using write concern: &{majority false 0}
2024-02-29T16:01:03.969+0000	filesize: 89855768 bytes
2024-02-29T16:01:03.969+0000	using fields: 
2024-02-29T16:01:03.969+0000	connected to: mongodb://[**REDACTED**]@mongo:27017/admin
2024-02-29T16:01:03.969+0000	ns: admin.customers
2024-02-29T16:01:03.970+0000	connected to node type: standalone
2024-02-29T16:01:06.970+0000	[########................] admin.customers	29.1MB/85.7MB (34.0%)
2024-02-29T16:01:09.971+0000	[###############.........] admin.customers	56.5MB/85.7MB (65.9%)
2024-02-29T16:01:12.970+0000	[#######################.] admin.customers	82.7MB/85.7MB (96.5%)
2024-02-29T16:01:13.362+0000	[########################] admin.customers	85.7MB/85.7MB (100.0%)
2024-02-29T16:01:13.363+0000	70000 document(s) imported successfully. 0 document(s) failed to import.


## 2. Análisis y optimización de consultas

Vamos a realizar una consulta sencilla sobre la colección que acabamos de crear. Queremos consultar el "First Name" y el "Last Name" de los clientes cuyo "Last Name" es "Johnston" y además ordenar el resultado por el valor del campo "Last Name":

In [4]:
db = client["admin"]

customers_found = db.customers.find(
    {"Name.Last Name":"Johnston"},  
    {"_id" : 0, "Name.First Name" : 1, "Name.Last Name" : 1}).sort("Name.Last Name", 1)

for customer in customers_found:
    print(customer)

{'Name': {'First Name': 'Carole', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Audrey', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Shayne', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Wilson', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Ty', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Rosalinda', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Darin', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Chastity', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Alison', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Gerardo', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Jonathon', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Renae', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Gus', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Jasen', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Anissa', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Mayra', 'Last Name': 'Johnston'}}
{'Name': {'First Name': 'Kasey', 'Last Name

Vamos a ver cuanto tarda en ejecutarse esta consulta y como podemos mejorar su rendimiento. Para ello ejecutamos el comando explain, que nos de toda la información sobre el plan de ejecución de la consulta:

In [5]:
explain_json = db.customers.find(
    {"Name.Last Name":"Johnston"},  
    {"_id" : 0, "Name.First Name" : 1, "Name.Last Name" : 1}).sort("Name.Last Name", 1).explain()

explain = json.dumps(explain_json, indent=4)
 
print(explain)


{
    "explainVersion": "1",
    "queryPlanner": {
        "namespace": "admin.customers",
        "indexFilterSet": false,
        "parsedQuery": {
            "Name.Last Name": {
                "$eq": "Johnston"
            }
        },
        "maxIndexedOrSolutionsReached": false,
        "maxIndexedAndSolutionsReached": false,
        "maxScansToExplodeReached": false,
        "winningPlan": {
            "stage": "SORT",
            "sortPattern": {
                "Name.Last Name": 1
            },
            "memLimit": 104857600,
            "type": "simple",
            "inputStage": {
                "stage": "PROJECTION_DEFAULT",
                "transformBy": {
                    "_id": 0,
                    "Name.First Name": 1,
                    "Name.Last Name": 1
                },
                "inputStage": {
                    "stage": "COLLSCAN",
                    "filter": {
                        "Name.Last Name": {
                            "$eq": 

Según las estadísticas la ejecución realiza un COLLSCAN para encontar los documentos que se ajustan a las condiciones de la búsqueda, lo que significa que Mongo tiene que recorrer la coleción entera para poder filtrar los documentos que cumplen la consulta.

Para colecciones pequeñas no es un problema, pero cuando el tamaño de una colección aumenta es menos probable que la colección quepa en la memoria paginada y la actividad del disco aumentará. 

La base de datos no escala bien si se ve forzada a aumentar el porcentaje de COLLSCANs que tiene que realizar, por lo que es buena idea minimizar los recursos que utilizan las sentencias más comunes.

La forma más sencilla y obvia de conseguir esto es utilizar índices para reducir el tiempo de consulta y los recursos empleados en ellas.

Puesto que nuestra consulta busca usuarios por su "Last Name" y además ordena los resultados ascendentemente crearemos un índice sobre el campo "Name.Last Name" y lo crearemos ascendente para que coincida con el criterio de ordenación de la búsqieda. 

In [6]:
db.customers.create_index([('Name.Last Name', pymongo.ASCENDING)], name='LastNameIndex')


'LastNameIndex'

Vamos a ver si mejoran las estadísticas de la consulta:

In [7]:
explain_json = db.customers.find(
    {"Name.Last Name":"Johnston"},  
    {"_id" : 0, "Name.First Name" : 1, "Name.Last Name" : 1}).sort("Name.Last Name", 1).explain()

explain = json.dumps(explain_json, indent=4)
 
print(explain)

{
    "explainVersion": "1",
    "queryPlanner": {
        "namespace": "admin.customers",
        "indexFilterSet": false,
        "parsedQuery": {
            "Name.Last Name": {
                "$eq": "Johnston"
            }
        },
        "maxIndexedOrSolutionsReached": false,
        "maxIndexedAndSolutionsReached": false,
        "maxScansToExplodeReached": false,
        "winningPlan": {
            "stage": "PROJECTION_DEFAULT",
            "transformBy": {
                "_id": 0,
                "Name.First Name": 1,
                "Name.Last Name": 1
            },
            "inputStage": {
                "stage": "FETCH",
                "inputStage": {
                    "stage": "IXSCAN",
                    "keyPattern": {
                        "Name.Last Name": 1
                    },
                    "indexName": "LastNameIndex",
                    "isMultiKey": false,
                    "multiKeyPaths": {
                        "Name.Last Name": []

In [8]:
db.customers.index_information()

{'_id_': {'v': 2, 'key': [('_id', 1)]},
 'LastNameIndex': {'v': 2, 'key': [('Name.Last Name', 1)]}}

Ahora podemos ver que en vez de un COLLSCAN realiza un IXSCAN, esto es, una búsqueda en el índice que acabamos de crear, seguido de un FETCH para recuperar de disco los documentos que encuentra indexados. 

Podemos optimizar más la consulta ya que la sentencia sólo recupera el "First Name" y el "Last Name", por lo que si añadimos al índice el campo "Name.First Name" evitaremos que tenga que realizar el FETCH de los documentos ya que el índice contiene toda la información que requiere la consulta.

In [9]:
db.customers.drop_index("LastNameIndex")
db.customers.create_index([("Name.Last Name", pymongo.ASCENDING),("Name.First Name", pymongo.ASCENDING)], name="LastNameCompoundIndex")

'LastNameCompoundIndex'

In [10]:
explain_json = db.customers.find(
    {"Name.Last Name":"Johnston"},  
    {"_id" : 0, "Name.First Name" : 1, "Name.Last Name" : 1}).sort("Name.Last Name", 1).explain()

explain = json.dumps(explain_json, indent=4)
 
print(explain)

{
    "explainVersion": "1",
    "queryPlanner": {
        "namespace": "admin.customers",
        "indexFilterSet": false,
        "parsedQuery": {
            "Name.Last Name": {
                "$eq": "Johnston"
            }
        },
        "maxIndexedOrSolutionsReached": false,
        "maxIndexedAndSolutionsReached": false,
        "maxScansToExplodeReached": false,
        "winningPlan": {
            "stage": "PROJECTION_DEFAULT",
            "transformBy": {
                "_id": 0,
                "Name.First Name": 1,
                "Name.Last Name": 1
            },
            "inputStage": {
                "stage": "IXSCAN",
                "keyPattern": {
                    "Name.Last Name": 1,
                    "Name.First Name": 1
                },
                "indexName": "LastNameCompoundIndex",
                "isMultiKey": false,
                "multiKeyPaths": {
                    "Name.Last Name": [],
                    "Name.First Name": []
    

Ahora podemos decir que el índice "cubre" la consulta, es decir, que Mongo es capaz de devolver los resultados utilizando únicamente el índice, sin tener que examinar los documentos de la colección. Si nos fijamos la etapa OXSCAN no tiene ninguna etapa hijo de tipo FETCH como si tenía antes.

**IMPORTANTE**: El órden de los campos a la hora de crear el índice es importante. En nuestro caso como primero buscamos por "Last Name" ponemos este campo como el primero por el que indexar y a continuación añadimos el campo "First Name" ya que es el segundo campo que queremos recuperar en la proyección. Si lo hiciéramos al revés, probablemente Mongo no utilizaría este índice y la consulta no se vería afectada en la mejora.

## 3. Consultas sobre un embedded array

Para este ejecicio vamos a querer buscar la última dirección de email almacenada para un cliente. En la colección que estamos consultando, cada cliente tiene una o más direcciones de email que están embebidas en un array, por lo que tendremos que hacer una búsqueda sobre esta lista de emails.

Como ejemplo, vamos a buscar a un cliente el particular, el que tiene por "last name" "Barker" y una dirección de  email en concreto: "Ibrahim10@Gmuul.com".

Por cada resultado, sólo queremos devolver el "Full Name" y la información asociada a la dirección de email encontrada, cuando fue registrada y hasta cuando es válida. 

La consulta quedaría de la siguiente forma:

In [11]:
customers = db.customers.find(
    {"Name.Last Name" : "Barker", "EmailAddresses.EmailAddress" : "Ibrahim10@Gmuul.com"},  
    {"_id" : 0, "Full Name" : 1,  "EmailAddresses.$" :1})

for customer in customers:
    print(customer)

{'Full Name': 'Mr Cassie Gena Barker J.D.', 'EmailAddresses': [{'EmailAddress': 'Ibrahim10@Gmuul.com', 'StartDate': '2016-05-02', 'EndDate': '2020-03-25'}]}


Vamos a ejecutar el explain de la consulta para ver si quiery plan y sus estadísticas:

In [12]:
explain_json = db.customers.find(
    {"Name.Last Name" : "Barker", "EmailAddresses.EmailAddress" : "Ibrahim10@Gmuul.com"},  
    {"_id" : 0, "Full Name" : 1,  "EmailAddresses.$" :1}).explain()

explain = json.dumps(explain_json, indent=4)
 
print(explain)

{
    "explainVersion": "1",
    "queryPlanner": {
        "namespace": "admin.customers",
        "indexFilterSet": false,
        "parsedQuery": {
            "$and": [
                {
                    "EmailAddresses.EmailAddress": {
                        "$eq": "Ibrahim10@Gmuul.com"
                    }
                },
                {
                    "Name.Last Name": {
                        "$eq": "Barker"
                    }
                }
            ]
        },
        "maxIndexedOrSolutionsReached": false,
        "maxIndexedAndSolutionsReached": false,
        "maxScansToExplodeReached": false,
        "winningPlan": {
            "stage": "PROJECTION_DEFAULT",
            "transformBy": {
                "_id": 0,
                "Full Name": 1,
                "EmailAddresses.$": 1
            },
            "inputStage": {
                "stage": "FETCH",
                "filter": {
                    "EmailAddresses.EmailAddress": {
            

Como no encuentra ningún índice sobre el que realizar la consulta, la base de datos tiene que consultar todos los documentos (COLLSCAN) para encontrar los resultados.

Vamos a crear un índice para mejorar el rendimiento de esta consulta:

In [13]:
db.customers.create_index( 
    [("Name.Last Name", pymongo.ASCENDING), ("EmailAddresses.EmailAddress", pymongo.ASCENDING)], name = "Nad")

'Nad'

In [14]:
explain_json = db.customers.find(
    {"Name.Last Name" : "Barker", "EmailAddresses.EmailAddress" : "Ibrahim10@Gmuul.com"},  
    {"_id" : 0, "Full Name" : 1,  "EmailAddresses.$" :1}).explain()

explain = json.dumps(explain_json, indent=4)
 
print(explain)

{
    "explainVersion": "1",
    "queryPlanner": {
        "namespace": "admin.customers",
        "indexFilterSet": false,
        "parsedQuery": {
            "$and": [
                {
                    "EmailAddresses.EmailAddress": {
                        "$eq": "Ibrahim10@Gmuul.com"
                    }
                },
                {
                    "Name.Last Name": {
                        "$eq": "Barker"
                    }
                }
            ]
        },
        "maxIndexedOrSolutionsReached": false,
        "maxIndexedAndSolutionsReached": false,
        "maxScansToExplodeReached": false,
        "winningPlan": {
            "stage": "PROJECTION_DEFAULT",
            "transformBy": {
                "_id": 0,
                "Full Name": 1,
                "EmailAddresses.$": 1
            },
            "inputStage": {
                "stage": "FETCH",
                "inputStage": {
                    "stage": "IXSCAN",
                    "k

El íncide "Nad" que hemos creado reduce el tiempo de ejcución: Este índice es el único de los que hemos creado disponible para esta colección que se haya creado sobre el campo "Name.Last Name" por lo que es utilizado en la etapa "Input" de tal forma que mongo ha utilizado un estrategia IXSCAN para encontrar y devolver los resultados.

A continuación ha filtrado los documentos encontrados en el índice para recuperar el array de emails que contenga el email buscado.

Añadir más campos a este índice no tendría un efecto perceptible ya que el primer campo del índice es el que realmente determian el éxito de su uso.

¿Qué pasaría si sólo quisiéramos saber quién está usando un email en particular?

Veamos como sería la consulta y su resultado:

In [15]:
customers = db.customers.find(
    {"EmailAddresses.EmailAddress" : "Ibrahim10@Gmuul.com"},  
    {"_id" : 0, "Full Name" : 1,  "EmailAddresses.$" :1})

for customer in customers:
    print(customer)


{'Full Name': 'Mr Cassie Gena Barker J.D.', 'EmailAddresses': [{'EmailAddress': 'Ibrahim10@Gmuul.com', 'StartDate': '2016-05-02', 'EndDate': '2020-03-25'}]}


Y consultemos sus estadísticas:

In [16]:
explain_json = db.customers.find(
    {"EmailAddresses.EmailAddress" : "Ibrahim10@Gmuul.com"},  
    {"_id" : 0, "Full Name" : 1,  "EmailAddresses.$" :1}).explain()

explain = json.dumps(explain_json, indent=4)
 
print(explain)

{
    "explainVersion": "1",
    "queryPlanner": {
        "namespace": "admin.customers",
        "indexFilterSet": false,
        "parsedQuery": {
            "EmailAddresses.EmailAddress": {
                "$eq": "Ibrahim10@Gmuul.com"
            }
        },
        "maxIndexedOrSolutionsReached": false,
        "maxIndexedAndSolutionsReached": false,
        "maxScansToExplodeReached": false,
        "winningPlan": {
            "stage": "PROJECTION_DEFAULT",
            "transformBy": {
                "_id": 0,
                "Full Name": 1,
                "EmailAddresses.$": 1
            },
            "inputStage": {
                "stage": "COLLSCAN",
                "filter": {
                    "EmailAddresses.EmailAddress": {
                        "$eq": "Ibrahim10@Gmuul.com"
                    }
                },
                "direction": "forward"
            }
        },
        "rejectedPlans": []
    },
    "executionStats": {
        "executionSuccess":

No hay ningún índice sobre cuyo primer campo sea el email, por lo que mongo realiza un COLLSCAN de la colección.

Creemos un índice sobre el campo "EmailAddresses.EmailAddress" y consultemos de nuevo las estadísticas de la consulta:

In [17]:
db.customers.create_index( 
    [("EmailAddresses.EmailAddress", pymongo.ASCENDING)], name = "AddressIndex")

'AddressIndex'

In [18]:
explain_json = db.customers.find(
    {"EmailAddresses.EmailAddress" : "Ibrahim10@Gmuul.com"},  
    {"_id" : 0, "Full Name" : 1,  "EmailAddresses.$" :1}).explain()

explain = json.dumps(explain_json, indent=4)
 
print(explain)

{
    "explainVersion": "1",
    "queryPlanner": {
        "namespace": "admin.customers",
        "indexFilterSet": false,
        "parsedQuery": {
            "EmailAddresses.EmailAddress": {
                "$eq": "Ibrahim10@Gmuul.com"
            }
        },
        "maxIndexedOrSolutionsReached": false,
        "maxIndexedAndSolutionsReached": false,
        "maxScansToExplodeReached": false,
        "winningPlan": {
            "stage": "PROJECTION_DEFAULT",
            "transformBy": {
                "_id": 0,
                "Full Name": 1,
                "EmailAddresses.$": 1
            },
            "inputStage": {
                "stage": "FETCH",
                "inputStage": {
                    "stage": "IXSCAN",
                    "keyPattern": {
                        "EmailAddresses.EmailAddress": 1
                    },
                    "indexName": "AddressIndex",
                    "isMultiKey": true,
                    "multiKeyPaths": {
             


En este caso el índice se ha realizado sobre un array, lo que hace mongo en estos casos es crear una clave en el índice por cada elemento contenido en el array.

Para mejorar el rendimiento de esta consulta, podríamos hacer como en consultas anteriores, añadir el campo "Full Name" al índice para que mongo no tenga que ir a buscarlo a los documentos de la colección. Si conseguimos poner todos los campos que devuelve una consuta en el índice, el tiempo de respuesta de la consulta se acercará mucho al tiempo de escanéo y búsqueda en el índice que actúa como caché de la consulta.

## Consutas con el framework de agregación

La consulta que quermos optimizar quiere devolver los nombres más populares de los clientes almacenados en la colección: 

In [19]:
customers = db.customers.aggregate([ 
    {"$project": {"Name.Last Name": 1}}, 
    {"$group": {
        "_id": "$Name.Last Name", 
        "count": {"$sum": 1}
    }},
    {"$sort": {"count": -1}},
    {"$limit": 10}
])

for customer in customers:
    print(customer)

{'_id': 'Snyder', 'count': 83}
{'_id': 'Baird', 'count': 81}
{'_id': 'Evans', 'count': 81}
{'_id': 'Andrade', 'count': 81}
{'_id': 'Woods', 'count': 80}
{'_id': 'Burton', 'count': 79}
{'_id': 'Ellis', 'count': 77}
{'_id': 'Wolfe', 'count': 77}
{'_id': 'Lutz', 'count': 77}
{'_id': 'Knox', 'count': 77}


Vemos cuales son sus estadísticas de ejcecución:

In [20]:
agg_pipeline = [
   {"$project": {"Name.Last Name": 1}}, 
    {"$group": {
        "_id": "$Name.Last Name", 
        "count": {"$sum": 1}
    }},
    {"$sort": {"count": -1}},
    {"$limit": 10}
]

explain_output = db.command('aggregate', 'customers', pipeline=agg_pipeline, explain=True)

#explain = json.dumps(explain_output, indent=4)
 
print(explain_output)

{'explainVersion': '1', 'stages': [{'$cursor': {'queryPlanner': {'namespace': 'admin.customers', 'indexFilterSet': False, 'parsedQuery': {}, 'queryHash': '79AB8081', 'planCacheKey': 'CEF52938', 'maxIndexedOrSolutionsReached': False, 'maxIndexedAndSolutionsReached': False, 'maxScansToExplodeReached': False, 'winningPlan': {'stage': 'PROJECTION_DEFAULT', 'transformBy': {'_id': True, 'Name': {'Last Name': True}}, 'inputStage': {'stage': 'COLLSCAN', 'direction': 'forward'}}, 'rejectedPlans': []}}}, {'$group': {'_id': '$Name.Last Name', 'count': {'$sum': {'$const': 1}}}}, {'$sort': {'sortKey': {'count': -1}, 'limit': 10}}], 'serverInfo': {'host': '46984543cef6', 'port': 27017, 'version': '5.0.9', 'gitVersion': '6f7dae919422dcd7f4892c10ff20cdc721ad00e6'}, 'serverParameters': {'internalQueryFacetBufferSizeBytes': 104857600, 'internalQueryFacetMaxOutputDocSizeBytes': 104857600, 'internalLookupStageIntermediateDocumentMaxSizeBytes': 104857600, 'internalDocumentSourceGroupMaxMemoryBytes': 104857

Mongodb ha realizado un COLLSCAN para poder devolver los resultados. Veamos que ocurre si creamos un índice sobre el campo que estamos agrupando:

In [21]:
db.customers.create_index( 
    [("Name.Last Name", pymongo.ASCENDING)], name = "LastNameIdx")

'LastNameIdx'

In [22]:
agg_pipeline = [
   {"$project": {"Name.Last Name": 1}}, 
    {"$group": {
        "_id": "$Name.Last Name", 
        "count": {"$sum": 1}
    }},
    {"$sort": {"count": -1}},
    {"$limit": 10}
]

explain_output = db.command('aggregate', 'customers', pipeline=agg_pipeline, explain=True)

#explain = json.dumps(explain_output, indent=4)
 
print(explain_output)

{'explainVersion': '1', 'stages': [{'$cursor': {'queryPlanner': {'namespace': 'admin.customers', 'indexFilterSet': False, 'parsedQuery': {}, 'queryHash': '79AB8081', 'planCacheKey': 'CEF52938', 'maxIndexedOrSolutionsReached': False, 'maxIndexedAndSolutionsReached': False, 'maxScansToExplodeReached': False, 'winningPlan': {'stage': 'PROJECTION_DEFAULT', 'transformBy': {'_id': True, 'Name': {'Last Name': True}}, 'inputStage': {'stage': 'COLLSCAN', 'direction': 'forward'}}, 'rejectedPlans': []}}}, {'$group': {'_id': '$Name.Last Name', 'count': {'$sum': {'$const': 1}}}}, {'$sort': {'sortKey': {'count': -1}, 'limit': 10}}], 'serverInfo': {'host': '46984543cef6', 'port': 27017, 'version': '5.0.9', 'gitVersion': '6f7dae919422dcd7f4892c10ff20cdc721ad00e6'}, 'serverParameters': {'internalQueryFacetBufferSizeBytes': 104857600, 'internalQueryFacetMaxOutputDocSizeBytes': 104857600, 'internalLookupStageIntermediateDocumentMaxSizeBytes': 104857600, 'internalDocumentSourceGroupMaxMemoryBytes': 104857

El plan de ejecución sigue siendo el mismo, no hace uso del índice. Esto es debido a que realmente no estamos haciendo un filtrado de campos por un valor, sino que estamos agrupando por el para hacer posteriormente una operación de agregación.

Por otro lado cada etapa del pipeline de ejecución da como resultado una nueva colección con los documentos resultantes de ejecutar las operaciones de esta etapa, por lo que mongo tendría que permitir generar índices sobre los campos de estas coleciones creadas y calcularlos en tiempo de ejecución.

Por lo que en las operaciones de agregación la única forma que tenemos de beneficiarnos del uso de índices es para las operaciones $match que se ejecuten justo en la primera etapa de un pipeline, ya que al ser la primera etapa se ejecuta sobre la colección de entrada que si puede tener índices calculados.

Vamos a realizar la misma consulta de antes, pero filtrando primero aquellos documentos cuyo titulo sea Mr, asumiendo que son de sexo hombre:


In [23]:
customers = db.customers.aggregate([ 
    {"$match": {"Name.Title": "Mr"}},
    {"$project": {"Name.Last Name": 1}}, 
    {"$group": {
        "_id": "$Name.Last Name", 
        "count": {"$sum": 1}
    }},
    {"$sort": {"count": -1}},
    {"$limit": 10}
])

for customer in customers:
    print(customer)

{'_id': 'Andrade', 'count': 52}
{'_id': 'Evans', 'count': 46}
{'_id': 'Booker', 'count': 45}
{'_id': 'Mullins', 'count': 45}
{'_id': 'Hurst', 'count': 44}
{'_id': 'Byrd', 'count': 44}
{'_id': 'Ross', 'count': 43}
{'_id': 'Knox', 'count': 43}
{'_id': 'Maxwell', 'count': 43}
{'_id': 'Wolfe', 'count': 42}


In [24]:
agg_pipeline = [
   {"$match": {"Name.Title": "Mr"}},
    {"$project": {"Name.Last Name": 1}}, 
    {"$group": {
        "_id": "$Name.Last Name", 
        "count": {"$sum": 1}
    }},
    {"$sort": {"count": -1}},
    {"$limit": 10}
]

explain_output = db.command('aggregate', 'customers', pipeline=agg_pipeline, explain=True)

#explain = json.dumps(explain_output, indent=4)
 
print(explain_output)

{'explainVersion': '1', 'stages': [{'$cursor': {'queryPlanner': {'namespace': 'admin.customers', 'indexFilterSet': False, 'parsedQuery': {'Name.Title': {'$eq': 'Mr'}}, 'queryHash': '565C84BB', 'planCacheKey': '1134A1D6', 'maxIndexedOrSolutionsReached': False, 'maxIndexedAndSolutionsReached': False, 'maxScansToExplodeReached': False, 'winningPlan': {'stage': 'PROJECTION_DEFAULT', 'transformBy': {'_id': True, 'Name': {'Last Name': True}}, 'inputStage': {'stage': 'COLLSCAN', 'filter': {'Name.Title': {'$eq': 'Mr'}}, 'direction': 'forward'}}, 'rejectedPlans': []}}}, {'$group': {'_id': '$Name.Last Name', 'count': {'$sum': {'$const': 1}}}}, {'$sort': {'sortKey': {'count': -1}, 'limit': 10}}], 'serverInfo': {'host': '46984543cef6', 'port': 27017, 'version': '5.0.9', 'gitVersion': '6f7dae919422dcd7f4892c10ff20cdc721ad00e6'}, 'serverParameters': {'internalQueryFacetBufferSizeBytes': 104857600, 'internalQueryFacetMaxOutputDocSizeBytes': 104857600, 'internalLookupStageIntermediateDocumentMaxSizeBy

Como esperábamos realiza un COLLSCAN. Creemos el índice sobre el campo "Name.Title" por el que filtramos en la primera etapa "$match" y veamos de nuevo las estadísticas del plan de ejecución.

In [25]:
db.customers.create_index( 
    [("Name.Title", pymongo.ASCENDING)], name = "TitleIdx")

'TitleIdx'

In [26]:
agg_pipeline = [
   {"$match": {"Name.Title": "Mr"}},
    {"$project": {"Name.Last Name": 1}}, 
    {"$group": {
        "_id": "$Name.Last Name", 
        "count": {"$sum": 1}
    }},
    {"$sort": {"count": -1}},
    {"$limit": 10}
]

explain_output = db.command('aggregate', 'customers', pipeline=agg_pipeline, explain=True)

#explain = json.dumps(explain_output, indent=4)
 
print(explain_output)

{'explainVersion': '1', 'stages': [{'$cursor': {'queryPlanner': {'namespace': 'admin.customers', 'indexFilterSet': False, 'parsedQuery': {'Name.Title': {'$eq': 'Mr'}}, 'queryHash': '565C84BB', 'planCacheKey': '90BE2D81', 'maxIndexedOrSolutionsReached': False, 'maxIndexedAndSolutionsReached': False, 'maxScansToExplodeReached': False, 'winningPlan': {'stage': 'PROJECTION_DEFAULT', 'transformBy': {'_id': True, 'Name': {'Last Name': True}}, 'inputStage': {'stage': 'FETCH', 'inputStage': {'stage': 'IXSCAN', 'keyPattern': {'Name.Title': 1}, 'indexName': 'TitleIdx', 'isMultiKey': False, 'multiKeyPaths': {'Name.Title': []}, 'isUnique': False, 'isSparse': False, 'isPartial': False, 'indexVersion': 2, 'direction': 'forward', 'indexBounds': {'Name.Title': ['["Mr", "Mr"]']}}}}, 'rejectedPlans': []}}}, {'$group': {'_id': '$Name.Last Name', 'count': {'$sum': {'$const': 1}}}}, {'$sort': {'sortKey': {'count': -1}, 'limit': 10}}], 'serverInfo': {'host': '46984543cef6', 'port': 27017, 'version': '5.0.9'

Ahora si que vemos que realiza un IXCAN sobre el índice creado.

Por tanto, siempre que una opreración tenga que realizar una operación de $match la intentaremos hacer al principio del pipeline para poder generar índices sobre los campos implicados y poder así optimizar nuestra consulta.

Esta es la única ventaja que podemos sacar del uso de índices sobre las operaciones de agregación.