<a href="https://colab.research.google.com/github/AlanAmaro13/Introduction_MongoDB/blob/main/MongoDB_Intro_Notebook_ES_Conda.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MongoDB

<img src="https://drive.google.com/uc?id=1t_2epdyFmR4EOMc_QrnJbpEGMp4mm4eY" width=820 height=340 align = "center">

# ¿Qué es MongoDB?

Intuitivamente buscamos almacenar información para ciertos programas, en algunos solemos dar listas, diccionarios, arrays, etc. Cuando tenemos una gran cantidad de información para ser almacenada buscamos una mejor manera de almacenarlos, y esto implica el uso de Bases de Datos.

Una base de datos es un conjunto organizado de datos, que se almacenan electronicamente en algún sistema informático. Estos datos puede ser de casi cualquier tipo, y la función de la base es permitir el almacenamiento, la recuperación, la modificación y la gestión eficiente de datos.  

Una _database_ particular es mongoDB, este sistema permite la gestión de bases de datos (DBMS) de forma NoSQL, donde esto significa que la información no se almacena en tablas como tal, sino que tiene un modelo de mayor flexibilidad.

Esta almacena documentos JSON (JavaScript Object Notation) que en realidad es muy similar a un diccionario en Python:

In [None]:
# { "name" : "Amaro", "age" : 21 }

* Python puede usarse para aplicaciones basadas en bases de datos o databases, donde una de las bases de datos más populares de tipo NoSQL corresponde a MongoDB. La forma en que MongoDB almacena la información es un formato JSON, lo cual le da un carácter muy flexible y escalable.


* Para tener acceso a una base de datos de este tipo, puede descargarse una en la siguiente dirección: https://www.mongodb.com/ o para acceder a un servicio en la nube: https://www.mongodb.com/cloud/atlas




Para hacer uso de MongoDB es necesario descargar el _software_ correspondiente en: https://www.mongodb.com/try/download/community. En este caso yo realicé la instalación incluyendo su interfaz gráfica Compass, aunque no es indispensable.

Para utilizar el resto de la notebook se necesitará de tener instalado el _software de MongoDB_ y haber iniciado el servidor

# ¿Qué es PyMongo?


Python necesita una manera de comunicarse con la base datos, es decir, necesita de un driver. En este caso usaremos PyMongo para comunicarnos con la base, para instalarlo en PIP únicamente se requiere ejecutar el comando "pip install pymongo" desde la terminal de Anaconda.

In [None]:
# Podemos comprobar si nuestra instalación fue exitosa si al correr el siguiente comando
# NO obtenemos algún error
import pymongo

# Creando un *DataBase*


Para crear una base de datos en MongoDB es necesario crear un objeto MongoClient, y especificar una conexión URL con la dirección IP y el nombre de la base; En caso de que no se tenga una base creada se creará una y se establecerá una conexión con la misma

In [None]:
import pymongo

# Declaramos el objeto y establecemos conexión
myclient = pymongo.MongoClient("mongodb://localhost:27017/")

# Declaramos su nombre:
mydb = myclient["mydatabase"]

# NOTA: En MongoDB una database no se crea hasta que tenga contenido, es decir, hasta
# que se le de una tabla con al menos un documento.



In [None]:
# Para checar si ya existe una db:
print(myclient.list_database_names())

['admin', 'config', 'local']


In [None]:
# O con:
dblist = myclient.list_database_names()
if "mydatabase" in dblist:
    print("The database exists.")

# Creando una Colección

Para crear una nueva coleccion únicamente es necesario usar el objeto database y especificar el nombre de la nueva colección. Una colección es lo mismo que una tabla en SQL.

In [None]:
mycol = mydb["customers"]
# NOTA: Una colección no es creada hasta que tiene contenido

In [None]:
# Para revisar una coleccion existe se utiliza:
collist = mydb.list_collection_names()
if "customers" in collist:
  print("The collection exists.")

# en este caso no retorna nada, dado que no le hemos agregado nada a la columna

# Insertar un Documento

Un documento en MongoDB es lo mismo que un _record_ en SQL. Los documentos se adjuntan en las colecciones, de forma que solo vamos agregando información a las _tablas_. Para hacer esto utilizando un método, cuyo parametro debe ser un diccionario que contenga el nombre y el valor en cada campo que buscamos ingresar, de la siguiente forma:

In [None]:
mycol = mydb["customers"] #columna
mydict = { "name": "Alan", "address": "Mexico"} # Lista a agregar

x = mycol.insert_one(mydict) # método de insertado

De esta forma, podemos ingresar información a la base de datos. Es importante notar que el método anterior ingresa la información a la database con un Id automáticamente, si queremos obtenerlo de regreso utilizamos el comando:

In [None]:
print(x.inserted_id) # Obtenemos el id del documento ingresado

65fb8747188ad79beb98162a


Para insertar multiples documentos utilizamos el comando insert_many() donde el parámetro de la función debe ser una _lista_ conteniendo todos los diccionarios a ingresar, de la siguiente manera:

In [None]:
mylist = [
  { "name": "Amy", "address": "Apple st 652"},
  { "name": "Hannah", "address": "Mountain 21"},
  { "name": "Michael", "address": "Valley 345"},
  { "name": "Sandy", "address": "Ocean blvd 2"},
  { "name": "Betty", "address": "Green Grass 1"},
  { "name": "Richard", "address": "Sky st 331"},
  { "name": "Susan", "address": "One way 98"},
  { "name": "Vicky", "address": "Yellow Garden 2"},
  { "name": "Ben", "address": "Park Lane 38"},
  { "name": "William", "address": "Central st 954"},
  { "name": "Chuck", "address": "Main Road 989"},
  { "name": "Viola", "address": "Sideway 1633"}
]

x = mycol.insert_many(mylist)

#print list of the _id values of the inserted documents:
#print(x.inserted_ids)

Si ahora buscamos específicar los id, es necesario utilizar el siguiente formato:

In [None]:
import pymongo

myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["mydatabase"]
mycol = mydb["customers"]

mylist = [
  { "_id": 1, "name": "John", "address": "Highway 37"},
  { "_id": 2, "name": "Peter", "address": "Lowstreet 27"},
  { "_id": 3, "name": "Amy", "address": "Apple st 652"},
  { "_id": 4, "name": "Hannah", "address": "Mountain 21"},
  { "_id": 5, "name": "Michael", "address": "Valley 345"},
  { "_id": 6, "name": "Sandy", "address": "Ocean blvd 2"},
  { "_id": 7, "name": "Betty", "address": "Green Grass 1"},
  { "_id": 8, "name": "Richard", "address": "Sky st 331"},
  { "_id": 9, "name": "Susan", "address": "One way 98"},
  { "_id": 10, "name": "Vicky", "address": "Yellow Garden 2"},
  { "_id": 11, "name": "Ben", "address": "Park Lane 38"},
  { "_id": 12, "name": "William", "address": "Central st 954"},
  { "_id": 13, "name": "Chuck", "address": "Main Road 989"},
  { "_id": 14, "name": "Viola", "address": "Sideway 1633"}
]

x = mycol.insert_many(mylist)

#print list of the _id values of the inserted documents:
print(x.inserted_ids)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]


# Encontrar un elemento

Para encontrar un elemento suele utilizarse el método find() o el método find_one() dentro de una _colección_. Es el símil a SELECT en MySQL.

In [None]:
x = mycol.find_one()
# Esto devolverá el primer elemento de la columna dada

Para obtener todos los elementos de una columna usamos el método find(), el parametro que debe incluir es un objeto tipo Query, si se deja vacío el paramétro retorna todos los elementos de la columna.

Este apartado es análogo al SELECT* en MySQL

In [1]:
for x in mycol.find():
    print(x)

# Este método retorna todos y cada uno de los elementos
# de la columna.

Si queremos obtener solo algunos apartados del documento almacenado en la columan, utilizamos el _segundo paramétro_ de la función find(), de la siguiente forma:

In [None]:
for x in mycol.find({},{ "_id": 0, "name": 1, "address": 1 }):
  print(x)

# Este método únicamente retorna los nombres y direcciones
# NOTA: no podemos específicar 0 y 1 para el mismo objeto
# (excepto para el id).

# I.e, si colocamos 0 todos los demás poseen 1, y viceversa

# ¿Qué es un Query?

Cuando encontremos elementos con find(), podemos filtar los resultados que nos regresa, _query_ corresponde al primer paramétro que le damos, de manera que actúa como un filtro.

Query es un diccionario, que debe contener el siguiente formato:

In [None]:
myquery = { "address": "Park Lane 38" } # Formato

mydoc = mycol.find(myquery) # Uso

for x in mydoc: # Aplicacion
  print(x)

Podemos usar _advance query_ para realizar mejores busquedas, por ejemplo, si quisieramos obtener las direcciones que comiencen con letras S o alfabéticamente superior utilizamos un fórmato propio de MongoBD.


De la misma forma, puede utilizarse RegEx. Todo esto es conocido como _modifiers_.

In [None]:
'''
# Standar
myquery = { "address": { "$gt": "S" } }
mydoc = mycol.find(myquery)

# Using RegEx:
myquery = { "address": { "$regex": "^S" } }

mydoc = mycol.find(myquery)

'''

# Ordenar

Para ordenar los datos en forma ascendente o descente usamos el método sort(). Este método recibe dos paramétros, el primer corresponde al nombre de la colección a ordenar, y el segundo es la _dirección_ de orden (ascendente o descendente).

Ascending es la orden por defecto.

In [None]:
mydoc = mycol.find().sort("name")

for x in mydoc:
  print(x)

En el caso de usar nombres, los ordena alfabéticamente. Para ordenarlos en orden ascendente o descente usamos $1$ y $-1$ respectivamente en el segundo paramétro.

# Eliminar un Documento o una Colección

Para eliminar documentos usamos el método delete_one(), este método recibe un query con del documento que buscamos eliminar, de esta forma si dos documentos poseen el mismo query solo elimina su primera aparición.

In [None]:
myquery = { "address": "Mountain 21" }

mycol.delete_one(myquery)

Para eliminar muchos documentos usamos el método delete_many(), donde el parámetro corresponde a un query definiendo los objetos a eliminar

In [None]:
myquery = { "address": {"$regex": "^S"} } # Query para documentos son S o superiores

x = mycol.delete_many(myquery) # Eliminamos la información

print(x.deleted_count, " documents deleted.")  # Mostramos la cantidad de documentos eliminados

Para eliminar todos los documentos en una colección únicamente utilizamos delete_many() con el query nulo:

In [None]:
x = mycol.delete_many({})

print(x.deleted_count, " documents deleted.")

Podemos eliminar una colección utilizando el método drop(), de la siguiente forma:

In [None]:
mycol.drop()

Este método retorna _true_ si la colección se eliminó, y _false_ si la colección no existe.

# Actualizar documentos

Es posible actualizar documentos mediante el comando update_one(), este recibe como paramétros dos query, el primero con el nombre del documento, y la segunda con la información a actualizar. Si hay dos documenos con el mismo nombre actualizará el primero, de la siguiente forma:

In [None]:
myquery = { "address": "Valley 345" }
newvalues = { "$set": { "address": "Canyon 123" } }

mycol.update_one(myquery, newvalues)

#print "customers" after the update:
for x in mycol.find():
  print(x)

Para actualizar todos los documentos se necesita que el primer paramétro contenga un criterio, de la misma forma que en los casos anteriores, usamos el método update_many().

In [None]:
myquery = { "address": { "$regex": "^S" } }
newvalues = { "$set": { "name": "Minnie" } }

x = mycol.update_many(myquery, newvalues)

print(x.modified_count, "documents updated.")

# Cómo limitar los documentos

En caso de tener una colección muy amplia, podemos limitar el número de documentos que nos muestra por medio del método limit()

In [None]:
myresult = mycol.find().limit(5)

#print the result:
for x in myresult:
  print(x)