## Base de datos NoSql  MongoDB | Python

### ¿Qué es una base de datos NoSQL?

NoSQL se refiere a una gran variedad de tecnologías de bases de datos que se han desarrollado en respuesta a las necesidades de desarrollo de las aplicaciones modernas:

* Los desarrolladores trabajan con aplicaciones que generan enormes volúmenes de datos nuevos y en constante evolución (estructurados, semiestructurados, no estructurados y polimórficos).


* Aquellos ciclos de desarrollo en cascada que duraban entre 12 y 18 meses hace tiempo que pasaron a la historia. Ahora se trabaja en equipos pequeños, que realizan sprints de desarrollo ágiles con iteraciones rápidas, y que generan código cada semana o cada quince días, algunos incluso varias veces al día.


* Las aplicaciones que antes servían a un conjunto finito de usuarios ahora se proporcionan como servicios, que no solo deben funcionar sin interrupción, sino que además tienen que ser accesibles desde muchos dispositivos distintos y deben poder escalarse a millones de usuarios de todo el mundo.


* Organizations are now turning to scale-out architectures using open software technologies, commodity servers and cloud computing instead of large monolithic servers and storage infrastructure.


Las bases de datos relacionales no se diseñaron para poder hacer frente a la escalabilidad y agilidad que necesitan las aplicaciones modernas, ni para beneficiarse de los sistemas de almacenamiento básicos y de la potencia de proceso que existen hoy en día.

### Tipos de bases de datos NoSQL

* <b>Bases de datos de documentos:</b> en estas bases de datos se empareja cada clave con una estructura de datos compleja que se denomina 'documento'. Los documentos pueden contener muchos pares de clave-valor distintos, o pares de clave-matriz, o incluso documentos anidados.


* <b>Almacenes de grafos:</b> se utilizan para almacenar información sobre redes de datos, como las conexiones sociales. Ejemplos de almacenes de grafos son Neo4J y Giraph.


* <b>Almacenes de clave-valor:</b> son las bases de datos NoSQL más simples. Cada elemento de la base de datos se almacena como un nombre de atributo (o «clave»), junto con su valor. Ejemplos de almacenes de clave-valor son Riak y Berkeley DB. En algunos almacenes de clave-valor, como Redis, cada valor puede tener un tipo, como «entero», lo que le añade funcionalidad.


* <b>Bases de datos orientadas a columnas:</b> estas bases de datos, como Cassandra o HBase, permiten realizar consultas en grandes conjuntos de datos y almacenan los datos en columnas, en lugar de filas.

### Esquemas dinámicos.

En las bases de datos relacionales es necesario definir los esquemas antes de añadir los datos. Por ejemplo, si desea almacenar datos de clientes, como el número de teléfono, nombre y apellidos, dirección, ciudad y provincia, la base de datos SQL debe conocer de antemano el tipo de datos que va a almacenar.

Esto dificulta la agilidad en el desarrollo, porque cada vez que se añaden características, con frecuencia se debe modificar el esquema de la base de datos. Así, si tras varias iteraciones de desarrollo, decide que desea almacenar los artículos favoritos de los clientes además de su dirección y teléfono, deberá añadir esa columna a la base de datos y luego migrar la base de datos entera al nuevo esquema.

Si la base de datos es grande, el proceso será muy lento y la actividad quedará interrumpida de forma prolongada. Si cambia a menudo los datos que almacena la aplicación —porque realiza iteraciones rápidamente— también se interrumpirá la actividad de forma frecuente. En las bases relacionales tampoco se pueden incluir datos sin ningún tipo de estructura o desconocidos de antemano.

Las bases de datos NoSQL están diseñadas para que se puedan insertar datos sin un esquema predefinido. Por ello resulta fácil realizar modificaciones importantes en las aplicaciones en tiempo real sin interrupciones del servicio, de modo que el desarrollo es más rápido, la integración del código es más fiable y los administradores de las bases de datos tienen menos trabajo. Tradicionalmente, los desarrolladores han tenido que añadir código a la aplicación para realizar controles de calidad de los datos, como, por ejemplo, forzar la presencia de campos, tipos de datos o valores permisibles específicos. Las bases de datos NoSQL, al ser más sofisticadas, permiten la aplicación de las regla de validación en la base de datos, de modo que los usuarios pueden aplicar la gobernanza a los datos, aprovechando la agilidad que ofrece un esquema dinámico.

## Resumen sobre la comparativa entre NoSQL y SQL


link para crear tablas en markdown https://www.tablesgenerator.com/markdown_tables

|                                                   |                                                                                                                                                                                                                                                                                                             Bases de datos SQL                                                                                                                                                                                                                                                                                                            |                                                                                                                                                                                                                                                           Bases de datos NoSql                                                                                                                                                                                                                                                           |
|:-------------------------------------------------:|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|
|                       Tipos                       |                                                                                                                                                                                                                                                                                           Un tipo (base de datos SQL) con pequeñas variaciones.                                                                                                                                                                                                                                                                                           |                                                                                                                                                                                                                      Bases de datos de documentos: bases de datos orientadas a columnas y bases de datos de grafos. https://www.mongodb.com/es/document-databases                                                                                                                                                                                                                      |
|            Historia sobre el desarrollo           |                                                                                                                                                                                                                                                          Se desarrollan a finales de la década de 1970 para respaldar la primera ola de aplicaciones de almacenamiento de datos.                                                                                                                                                                                                                                                          |                                                                                                                                                    Se desarrollan a finales de la década de 2000 para superar las limitaciones de las bases de datos SQL, sobre todo en lo relativo a escalabilidad, datos multiestructurados, distribución geográfica y sprints de desarrollo ágiles.                                                                                                                                                   |
|                      Ejemplos                     |                                                                                                                                                                                                                                                                                          MySQL, Postgres, Microsoft SQL Server, Oracle Database.                                                                                                                                                                                                                                                                                          |                                                                                                                                                                                                                                                     MongoDB, Cassandra, HBase, Neo4j.                                                                                                                                                                                                                                                    |
|         Modelo de almacenamiento de datos         | Los registros individuales (p. ej., «empleados») se almacenan en filas de tablas, y cada columna almacena un dato específico sobre ese registro (p. ej., «director», «fecha de contratación», etc.) al estilo de las hojas de cálculo. Los datos relacionados se almacenan en tablas separadas, y luego se combinan cuando se ejecutan consultas más complejas. Por ejemplo, «oficinas» se puede almacenar en una tabla y «empleados», en otra. Cuando un usuario quiere encontrar la dirección de trabajo de un empleado, el motor de la base de datos une las tablas «empleado» y «oficina» para obtener toda la información necesaria. | Varía en función del tipo de base de datos. Por ejemplo, los almacenes de clave-valor funcionan de forma parecida a las bases de datos SQL, pero solo tienen dos columnas («clave» y «valor»), con información más compleja, que a veces se almacena como objetos BLOB en las columnas «valor». Las bases de datos de documentos evitan por completo el modelo de tablas y filas, almacenando todos los datos relevantes juntos en un único documento en formato JSON, XML u otro formato, que puede anidar valores de forma jerárquica. |
|                      Esquemas                     |                                                                                                                                                                                                                      La estructura y los tipos de datos se establecen de entrada. Para almacenar información sobre un nuevo dato, se debe modificar toda la base de datos, que deja de funcionar durante este tiempo.                                                                                                                                                                                                                     |                                           Suelen ser dinámicos, y en ocasiones es necesario aplicar algunas reglas de validación de datos. Las aplicaciones pueden ir añadiendo nuevos campos según convenga y, a diferencia de lo que ocurre con las filas de las tablas SQL, en caso necesario se pueden almacenar juntos datos de naturaleza diferente. Para algunas bases de datos (como las orientadas a columnas), resulta un poco más complicado añadir nuevos campos de forma dinámica.                                          |
|                   Escalabilidad                   |                                                                                                          scalado vertical, es decir, es necesario añadir más potencia a un único servidor en caso de que aumente la demanda. Es posible repartir las bases de datos SQL por diferentes servidores, pero es una tarea que requiere una participación importante del equipo de ingeniería, y suelen perderse funcionalidades relacionales básicas como las operaciones JOIN, la integridad de las referencias y las transacciones.                                                                                                          |                                                                                                                                           Escalado horizontal, es decir, para aumentar la capacidad, el administrador de la base de datos solo tiene que añadir servidores básicos o instancias de la nube. La base de los datos distribuye los datos en los servidores según las necesidades.                                                                                                                                           |
|                Modelo de desarrollo               |                                                                                                                                                                                                                                                                         Mix of open technologies (e.g., Postgres, MySQL) and closed source (e.g., Oracle Database)                                                                                                                                                                                                                                                                        |                                                                                                                                                                                                                                                             Open technologies                                                                                                                                                                                                                                                            |
| Soporta transacciones ACID de registros múltiples |                                                                                                                                                                                                                                                                                                                     Si                                                                                                                                                                                                                                                                                                                    |                                                                                                                                                                                                                      Generalmente no. MongoDB 4.0 y posteriores admiten transacciones ACID de múltiples documentos.                                                                                                                                                                                                                      |
|               Manipulación de datos               |                                                                                                                                                                                                                                                              Lenguaje específico que utiliza instrucciones Select, Insert y Update, p. ej., SELECT fields FROM table WHERE...                                                                                                                                                                                                                                                             |                                                                                                                                                                                                                                                   A través de APIs orientadas a objetos                                                                                                                                                                                                                                                  |
|                     Coherencia                    |                                                                                                                                                                                                                                                                                            Se puede configurar un nivel de consistencia elevado                                                                                                                                                                                                                                                                                           |                                                                                                                                                                   Depende del producto. Algunos ofrecen una consistencia elevada (p. ej., MongoDB, con consistencia ajustable para las lecturas), mientras que otros ofrecen consistencia eventual (p. ej., Cassandra).                                                                                                                                                                  |

### Transacciones ACID y Bases de Datos
https://www.arquitecturajava.com/transacciones-acid-y-sus-propiedades/


A nivel de base de datos que es lo que nos interesa a los desarrolladores una Transacción debe cumplir con el acrónimo ACID  (Atomic,Consistent, Isolated, Durable) . Vamos a explicar estos términos uno a uno para entenderlos mejor.

### Ejemplo de transacción:
Por ejemplo la compra de un producto. Cuando nosotros compramos un producto realizamos un pago de un importe (100 euros) y a cambio recibimos el producto . Se trata de una operación que incluye dos pasos y estos no se pueden dividir o se ejecutan ambos o no se ejecuta ninguno. Ese es el concepto de transacción a grosso modo.

<b>Atomic:</b> Una transacción debe ser atómica y por lo tanto indivisible. Esto hace referencia a la compra que hemos comentado anteriormente. Pero también implica que no necesariamente tienen que ser solo 2 pasos sino que pueden ser 10 tranquilamente. Lo que aquí implica es que no se pueden dividir es decir si yo compro 10 cosas o las compro todas y pago o no compro ninguna y no pago nada. Ese es el concepto de Atómico o indivisible.

<b>Consistent:</b> Una transacción debe ser consistente en cuanto a la gestión de la información es decir si yo compro 3 productos que cuestan en total 100 eruros. No puede ser que me lleguen 2 productos o no puede ser que me lleguen 3 pero que pague 200 euros. La información que se ejecuta dentro de una transacción debe guardar consistencia.

<b>Isolated:</b> Una transacción aparte de ser atómica esta aislada del resto y se ejecuta de forma independiente es decir no le afectan otros cambios que se produzcan en la base de datos.

<b>Durable:</b> Los cambios persisten con el tiempo es decir no son cambios “temporales” sino que cuando la transacción termina han sido persistidos en la base de datos y se se produce en ese momento un fallo , los datos ya han sido salvados a disco.



### Ventajas de NoSQL

Si se comparan con las bases de datos relacionales, las bases de datos NoSQL son más escalables y ofrecen un mayor rendimiento; además, su modelo de datos aborda varias cuestiones que el modelo relacional pasa por alto:

* Grandes volúmenes de datos estructurados, semiestructurados y no estructurados en constante cambio


* Sprints de desarrollo ágiles, iteración rápida de los esquemas y generación frecuente de código


* Programación orientada a objetos flexible y fácil de usar


* Arquitectura de escalado horizontal distribuida geográficamente, en lugar de una arquitectura monolítica

### Desventajas de una base de datos NoSQL

* No todas las bases de datos NoSQL contemplan la atomicidad de las instrucciones y la integridad de los datos. Soportan lo que se llama consistencia eventual.


* Problemas de compatibilidad entre instrucciones SQL. Las nuevas bases de datos utilizan sus propias características en el lenguaje de consulta y no son 100% compatibles con el SQL de las bases de datos relacionales. El soporte a problemas con las queries de trabajo en una base de datos NoSQL es más complicado.


* Falta de estandarización. Hay muchas bases de datos NoSQL y aún no hay un estándar como sí lo hay en las bases de datos relacionales. Se presume un futuro incierto en estas bases de datos.


* Soporte multiplataforma. Aún quedan muchas mejoras en algunos sistemas para que soporten sistemas operativos que no sean Linux.


* Suelen tener herramientas de administración no muy usables o se accede por consola.


## Basic CRUD operations with MongoDB using Python

C = create
R = read
U = update
D = delete

https://nbviewer.jupyter.org/github/sinju-pau/Machine-Learning-BigData-and-Databases/blob/master/MongoDBinPython.ipynb


## Ejercicio

Determinar como obtener los datos, y porque no inserta en MongoDB

Completar el código desde el link propuesto

In [None]:
#Imports
import pymongo
import pandas as pd

In [None]:
#Conexión a MongoDB
uri = 'localhost'
client = pymongo.MongoClient(uri,27017)
db = client['beltqgh7fx6sbpu']

In [None]:
#Colección
collection = db['income']

In [None]:
#Lee un archivo, 
#Para que? Rta: Para obtener los nombres del encabezado
#Donde está este archivo? Rta: en el directorio raiz
#Como proceder para continuar con el programa??
#Rta: creamos un df sin encabezado
#luego con el metodo columns de df agregamos encabezado la lista que creamos a partir del archivo 'income_header'
#Seguido, convertimos a formato dict y se agregó a la coleccion usando el metodo de agregar por lotes

with open('income_header.txt') as finput:
    column_names = finput.readline()
column_names.replace("'", "")

'age, workclass, fnlwgt, education, education-num, marital-status, occupation, relationship, race, sex, capital-gain, capital-loss, hours-per-week, native-country,label'

In [None]:
column_names_list = column_names.split(',')
column_names_list

["'age'",
 " 'workclass'",
 " 'fnlwgt'",
 " 'education'",
 " 'education-num'",
 " 'marital-status'",
 " 'occupation'",
 " 'relationship'",
 " 'race'",
 " 'sex'",
 " 'capital-gain'",
 " 'capital-loss'",
 " 'hours-per-week'",
 " 'native-country'",
 "'label'"]

In [None]:
#with open('income.txt')as finput:
with open('adult.data')as finput:
    for line in finput:
        row_list =line.rstrip('\n').split(',')
        row_dict = dict(zip(column_names_list,row_list))
        try:
            row_dict['age']= int(row_dict['age'])
            collection.insert_one(row_dict)
        except:
            pass
finput.close()

In [None]:
df = pd.read_table('adult.data', header = None, sep = ',')
df.columns=column_names_list
df

Unnamed: 0,'age','workclass','fnlwgt','education','education-num','marital-status','occupation','relationship','race','sex','capital-gain','capital-loss','hours-per-week','native-country','label'
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


In [None]:
data = df.to_dict(orient = "records") 
collection.insert_many(data)

<pymongo.results.InsertManyResult at 0x7fecbf11ce60>

In [None]:
collection.count_documents({})

32561

## Read operation using find ( ) in MongoDB

In [None]:
ageover39 = collection.find({"'age'":{"$gt" : 50}}) #alternatively, {'age': 39} can be used
busqueda = collection.find_one()
ageover39.count()

  


6460

In [None]:
age_updated = collection.find({"'age'": 38})
age_updated.count()

  


827

## Update operation

In [None]:
collection.update_one({"'age'": 38},
        {
        "$set": {
            "'capital-gain'":999,
            "'capital-loss'":999,
                }
        })

<pymongo.results.UpdateResult at 0x7fecbeb2f690>

In [None]:
collection.find_one({
            "'capital-gain'":999,
            "'capital-loss'":999,
                })

{" 'capital-gain'": 0,
 " 'capital-loss'": 0,
 " 'education'": ' HS-grad',
 " 'education-num'": 9,
 " 'fnlwgt'": 215646,
 " 'hours-per-week'": 40,
 " 'marital-status'": ' Divorced',
 " 'native-country'": ' United-States',
 " 'occupation'": ' Handlers-cleaners',
 " 'race'": ' White',
 " 'relationship'": ' Not-in-family',
 " 'sex'": ' Male',
 " 'workclass'": ' Private',
 "'age'": 38,
 "'capital-gain'": 999,
 "'capital-loss'": 999,
 "'label'": ' <=50K',
 '_id': ObjectId('618434a27e9758933430fa8d')}

## Indexing in MongoDB

In [None]:
index_result = db.profiles.create_index([("'age'",pymongo.ASCENDING)],unique = False)

In [None]:
import time
start = time.time()
velocidad = collection.find({"'age'":{'$gt':45}})
end = time.time()
print(end-start)
velocidad.count()

0.00015044212341308594


  


9627

## Read data from MongoDB into dataframes

In [None]:
df2mongo = pd.DataFrame(list(collection.find()))

In [None]:
df2mongo.head()

Unnamed: 0,_id,'age','workclass','fnlwgt','education','education-num','marital-status','occupation','relationship','race','sex','capital-gain','capital-loss','hours-per-week','native-country','label','capital-gain'.1,'capital-loss'.1
0,618434a27e9758933430fa8b,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K,,
1,618434a27e9758933430fa8c,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,,
2,618434a27e9758933430fa8d,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,999.0,999.0
3,618434a27e9758933430fa8e,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K,,
4,618434a27e9758933430fa8f,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K,,


## Delete ( ) in MongoDB

In [None]:
collection.delete_many({})

<pymongo.results.DeleteResult at 0x7fecb9fd3f00>

In [None]:
collection.count_documents({})

0