# Módulo 39: Introducción a Bases de Datos no Relacionales (No SQL)
- Conceptos básicos de BD no SQL
- Diferencias con las BD SQL
- Recomendaciones de cuándo usar SQL y cuándo no SQL
- Ejemplo con una base de datos pública de Tweets 
    - Script te python para importar los tweets
- Filtros para búsqueda de información dentro de la BD no SQL

---

## BD no SQL
- Necesidad de escalabilidad y preformance. Nace en 2008-2009 con Web 2.0
- Se hace el release de varios productos como BigTable, DynamoDB
- Todos ellos enfocados en mejoras de la búsqueda, así como su performance
- Al inicio surgieron soluciones propietarias para luego abrirse a open source como MongoDB, Hypertable, Cassandra, etc.

### Principales diferencias contra una BD SQL
- Bases de datos NoSQL Data no son estructuradas, sino dinámicas
- Esto quiere decir uqe no tienen una estructura fija de tablas como en un RDBMS (Relational DataBase Management System)
- No tienen un esquema de tablas, sino una colección de documentos basados en pares tipo **key-value**. Esto quiere decir que internamente todos los valores de una base de datos NoSQL tienen una llave única

### Ventajas
- Mayor flexibilidad. Los tipos de storage de NoSQL son: documentos, key-value, gráficos, objetos, json, xml, entre otros
- Mayor simpleza. No se tienen esquemas de tablas, sino documentos
- Escalabilidad. Es más natural y fácil de conseeguir, siendo que añadir nodos y crecer horizontalmente (más procesamiento) es más fácil que escalar un RDBMS, que usualmente requiere mayores servidores

### Desventajas
- No soporta ACID (Atomicidad, Consistencia, Independencia y Durabilidad). Aquí está el principal trade-off
- Si se quiere garantizar consistencia y durabilidad, se debería generar código adicional. Esto limita el número de aplicaciones que utilizan una base NoSQL
- Se debe aprender un nuevo lenguaje

### Summary
- No SQL
    - High performance
    - Poor reliabilidy
    - Good availability
    - Poor consistency
    - Optimized Data storage for huge data
    - High scalability
- SQL
    - Low performance
    - Good reliability
    - Good availability
    - Good consistency
    - Optimized Data Storage for medium to large data
    - High scalability (but expensive)


MongoDB Password
delvalle-carlos
F836zVaPPra78qUp


In [10]:
# Generar conexión con MongoDB Client
from pymongo import MongoClient

# Requires the PyMongo package.
# https://api.mongodb.com/python/current

client = MongoClient('mongodb+srv://delvalle-carlos:F836zVaPPra78qUp@ebac-test.pg6qpnt.mongodb.net/')


## Query básico - obtener resultados con base a un registro determinado

In [11]:
filter = {
    'username': 'andrewhamilton'
}

result = client['sample_analytics']['customers'].find(
    filter
)

In [12]:
import pprint
pp = pprint.PrettyPrinter(indent=4)

for doc in result:
    pp.pprint(doc)

{   '_id': ObjectId('5ca4bbcea2dd94ee58162a6f'),
    'accounts': [385397, 337979, 325377, 440243, 586395, 86702],
    'address': '633 Miller Turnpike\nJonathanland, OR 62874',
    'birthdate': datetime.datetime(1993, 2, 25, 17, 37, 29),
    'email': 'laura34@yahoo.com',
    'name': 'Gary Nichols',
    'tier_and_details': {},
    'username': 'andrewhamilton'}


In [13]:
# Buscar una cuenta determinada
filter = {
    'account_id': 716662
}

result = client['sample_analytics']['transactions'].find(
    filter=filter
)

for doc in result:
    pp.pprint(doc)

{   '_id': ObjectId('5ca4bbc1a2dd94ee58161cb2'),
    'account_id': 716662,
    'bucket_end_date': datetime.datetime(2016, 12, 27, 0, 0),
    'bucket_start_date': datetime.datetime(1962, 5, 13, 0, 0),
    'transaction_count': 48,
    'transactions': [   {   'amount': 8592,
                            'date': datetime.datetime(2008, 3, 19, 0, 0),
                            'price': '6.25868566899633460565155473886989057064056396484375',
                            'symbol': 'amd',
                            'total': '53774.62726801650693175815832',
                            'transaction_code': 'buy'},
                        {   'amount': 5360,
                            'date': datetime.datetime(2008, 5, 27, 0, 0),
                            'price': '6.8846943545406844577883020974695682525634765625',
                            'symbol': 'amd',
                            'total': '36901.96174033806869374529924',
                            'transaction_code': 'sell'},
          

In [14]:
# OR - busca dos cuentas
filter = {
    "$or": [{"account_id": 716662}, {"account_id": 557378}]
}

result = client['sample_analytics']['transactions'].find(
    filter=filter
)

for doc in result:
    pp.pprint(doc)

{   '_id': ObjectId('5ca4bbc1a2dd94ee58161cb2'),
    'account_id': 716662,
    'bucket_end_date': datetime.datetime(2016, 12, 27, 0, 0),
    'bucket_start_date': datetime.datetime(1962, 5, 13, 0, 0),
    'transaction_count': 48,
    'transactions': [   {   'amount': 8592,
                            'date': datetime.datetime(2008, 3, 19, 0, 0),
                            'price': '6.25868566899633460565155473886989057064056396484375',
                            'symbol': 'amd',
                            'total': '53774.62726801650693175815832',
                            'transaction_code': 'buy'},
                        {   'amount': 5360,
                            'date': datetime.datetime(2008, 5, 27, 0, 0),
                            'price': '6.8846943545406844577883020974695682525634765625',
                            'symbol': 'amd',
                            'total': '36901.96174033806869374529924',
                            'transaction_code': 'sell'},
          

In [15]:
# Fechas 
# Usar la libreria datetime
from datetime import datetime

start = datetime(2003,1,1,1,1,1)
end = datetime(2004,1,1,1,1,1)

filter = {
    "bucket_start_date": {"$gte":start, "$lt": end}
}

result = client['sample_analytics']['transactions'].find(
    filter=filter
)

for doc in result:
    pp.pprint(doc)

{   '_id': ObjectId('5ca4bbc1a2dd94ee58161d59'),
    'account_id': 165279,
    'bucket_end_date': datetime.datetime(2016, 12, 11, 0, 0),
    'bucket_start_date': datetime.datetime(2003, 4, 8, 0, 0),
    'transaction_count': 5,
    'transactions': [   {   'amount': 3756,
                            'date': datetime.datetime(2016, 7, 22, 0, 0),
                            'price': '746.69134704911766675650142133235931396484375',
                            'symbol': 'amzn',
                            'total': '2804572.699516485956337419339',
                            'transaction_code': 'buy'},
                        {   'amount': 1706,
                            'date': datetime.datetime(2014, 7, 17, 0, 0),
                            'price': '571.31523495895135056343860924243927001953125',
                            'symbol': 'goog',
                            'total': '974663.7908399710040612262674',
                            'transaction_code': 'buy'},
                     

In [16]:
# AND - Busca la misma cuenta y filtra además por la fecha de transacción
# Nested query

filter = {
    "$and": [{"account_id": 716662}, {"transactions":{"$elemMatch":{'symbol':'amd', 'transaction_code':'buy'}}}]        # Este query busca transacciones que sean de la cuenta 716662 o que sean de cualquier cuenta pero sean compra de AMD
}

result = client['sample_analytics']['transactions'].find(filter=filter)

for doc in result:
    pp.pprint(doc)

{   '_id': ObjectId('5ca4bbc1a2dd94ee58161cb2'),
    'account_id': 716662,
    'bucket_end_date': datetime.datetime(2016, 12, 27, 0, 0),
    'bucket_start_date': datetime.datetime(1962, 5, 13, 0, 0),
    'transaction_count': 48,
    'transactions': [   {   'amount': 8592,
                            'date': datetime.datetime(2008, 3, 19, 0, 0),
                            'price': '6.25868566899633460565155473886989057064056396484375',
                            'symbol': 'amd',
                            'total': '53774.62726801650693175815832',
                            'transaction_code': 'buy'},
                        {   'amount': 5360,
                            'date': datetime.datetime(2008, 5, 27, 0, 0),
                            'price': '6.8846943545406844577883020974695682525634765625',
                            'symbol': 'amd',
                            'total': '36901.96174033806869374529924',
                            'transaction_code': 'sell'},
          

In [17]:
# Añadir información
db = client['sample_analytics']
mycollection = db['transactions']

result = mycollection.insert_one(
    {
        'account_id' : "010101"
    }
)

# Se puede ver en la interfaz 

In [21]:
# Se puede añadir un documento más complejo a la base de datos 
result = mycollection.insert_one(
    {
        "account_id": '0101044',
        'bucket_start_date': start,
        'bucket_end_date': end,
        'transaction_count': 1,
        'transactions': [
            {
                'amount': 1000,
                'symbol': 'ibm',
                'transaction_code': 'buy',
                'date': start
            },
            {
                'amount': 2000,
                'symbol': 'ibm',
                'transaction_code': 'sell',
                'date': end
            }
        ]
    }
)

### Actualización de datos

In [23]:
# Actualización update_one() y update_many()
start = datetime(2022,11,5,1,1,1)

mycollection.update_one(
    {'account_id': '010101'},
    {'$set': {'bucket_start_date': start}}
)

UpdateResult({'n': 1, 'electionId': ObjectId('7fffffff0000000000000052'), 'opTime': {'ts': Timestamp(1699331691, 8), 't': 82}, 'nModified': 0, 'ok': 1.0, '$clusterTime': {'clusterTime': Timestamp(1699331691, 8), 'signature': {'hash': b'\x056}\xf4\xa1\xe7\xdd\xfas\x8c\xf1\xe4k\xbf-\xbd\xce\xc08\xb7', 'keyId': 7256046250988929031}}, 'operationTime': Timestamp(1699331691, 8), 'updatedExisting': True}, acknowledged=True)

### Eliminar datos

In [24]:
mycollection.delete_one(
    {'account_id': '010101'}
)

DeleteResult({'n': 1, 'electionId': ObjectId('7fffffff0000000000000052'), 'opTime': {'ts': Timestamp(1699331750, 2), 't': 82}, 'ok': 1.0, '$clusterTime': {'clusterTime': Timestamp(1699331750, 2), 'signature': {'hash': b'z\x84;\xd3\x0c\x03\x1d}\x89O\xa0\xc0a\xcc\x03wd\xea\xcb\xb3', 'keyId': 7256046250988929031}}, 'operationTime': Timestamp(1699331750, 2)}, acknowledged=True)