# 3.1 - MongoDB

https://docs.mongodb.com/manual/administration/install-community/

https://docs.mongodb.com/compass/current/install/

MongoDB es una base de datos orientada a documentos. Esto quiere decir que en lugar de guardar los datos en registros, guarda los datos en documentos. Estos documentos son almacenados en BSON, que es una representación binaria de JSON.

Una de las diferencias más importantes con respecto a las bases de datos relacionales, es que no es necesario seguir un esquema. Los documentos de una misma colección, concepto similar a una tabla de una base de datos relacional, pueden tener esquemas diferentes.


In [1]:
%pip install pymongo

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pymongo # importa toda la libreria

In [3]:
cliente=pymongo.MongoClient()   # llamar al servidor

db=cliente.nueva_db    # crea una nueva base de datos

In [4]:
cliente.list_database_names()

['admin',
 'arbbot',
 'companies',
 'complete_exchange_matches',
 'config',
 'local',
 'telegram_messages']

In [5]:
colec=db.n_coleccion    # crea una nueva coleccion de documentos

In [6]:
db.list_collection_names()

[]

In [7]:
dictio={'nombre': 'Pepe', 'edad':50000}

colec.insert_one(dictio) # inserta un elemento en la coleccion

<pymongo.results.InsertOneResult at 0x7f9b51477e00>

In [8]:
cliente.list_database_names()

['admin',
 'arbbot',
 'companies',
 'complete_exchange_matches',
 'config',
 'local',
 'nueva_db',
 'telegram_messages']

In [9]:
db.list_collection_names()

['n_coleccion']

In [10]:
dictio={'saludo': 'hola que tal', 'insulto': 'eres un carapijo'}

colec.insert_one(dictio)

<pymongo.results.InsertOneResult at 0x7f9b5145f1c0>

In [11]:
# insertar varios

colec.insert_many([
    {'codigo': 'python', 'hora': '943', 'juego para niños': 'Java', 'edad': 30},
    {'hola': 'adios','edad': 20}
])

<pymongo.results.InsertManyResult at 0x7f9b51477c00>

In [12]:
dictio={'id': 0, 'saludo': 'hola que tal', 'insulto': 'eres un carapijo'} # puesto asi, es otra key

colec.insert_one(dictio)

<pymongo.results.InsertOneResult at 0x7f9b51477240>

In [13]:
dictio={'_id': 0, 'saludo': 'hola que tal', 'insulto': 'eres un carapijo'} # asi si

colec.insert_one(dictio)

<pymongo.results.InsertOneResult at 0x7f9b5148cb40>

In [14]:
dictio={'_id': 'h', 'saludo': 'hola que tal', 'insulto': 'eres un carapijo'} # asi si

colec.insert_one(dictio)

<pymongo.results.InsertOneResult at 0x7f9b5148c680>

In [15]:
list(colec.find())  # encuentra todo

[{'_id': ObjectId('61fbc53e4472301b1edc3d53'),
  'nombre': 'Pepe',
  'edad': 50000},
 {'_id': ObjectId('61fbc53e4472301b1edc3d54'),
  'saludo': 'hola que tal',
  'insulto': 'eres un carapijo'},
 {'_id': ObjectId('61fbc53e4472301b1edc3d55'),
  'codigo': 'python',
  'hora': '943',
  'juego para niños': 'Java',
  'edad': 30},
 {'_id': ObjectId('61fbc53e4472301b1edc3d56'), 'hola': 'adios', 'edad': 20},
 {'_id': ObjectId('61fbc53e4472301b1edc3d57'),
  'id': 0,
  'saludo': 'hola que tal',
  'insulto': 'eres un carapijo'},
 {'_id': 0, 'saludo': 'hola que tal', 'insulto': 'eres un carapijo'},
 {'_id': 'h', 'saludo': 'hola que tal', 'insulto': 'eres un carapijo'}]

In [16]:
list(colec.find({'saludo': 'hola que tal'}))  # es una query

[{'_id': ObjectId('61fbc53e4472301b1edc3d54'),
  'saludo': 'hola que tal',
  'insulto': 'eres un carapijo'},
 {'_id': ObjectId('61fbc53e4472301b1edc3d57'),
  'id': 0,
  'saludo': 'hola que tal',
  'insulto': 'eres un carapijo'},
 {'_id': 0, 'saludo': 'hola que tal', 'insulto': 'eres un carapijo'},
 {'_id': 'h', 'saludo': 'hola que tal', 'insulto': 'eres un carapijo'}]

In [17]:
list(colec.find({'saludo': 'hola que tal'}).limit(2))

[{'_id': ObjectId('61fbc53e4472301b1edc3d54'),
  'saludo': 'hola que tal',
  'insulto': 'eres un carapijo'},
 {'_id': ObjectId('61fbc53e4472301b1edc3d57'),
  'id': 0,
  'saludo': 'hola que tal',
  'insulto': 'eres un carapijo'}]

In [18]:
list(colec.find({'edad': {'$gte': 25}})) # dame aquellos doc cuya key edad sea mayor o igual que 25

[{'_id': ObjectId('61fbc53e4472301b1edc3d53'),
  'nombre': 'Pepe',
  'edad': 50000},
 {'_id': ObjectId('61fbc53e4472301b1edc3d55'),
  'codigo': 'python',
  'hora': '943',
  'juego para niños': 'Java',
  'edad': 30}]

In [19]:
list(colec.find({'edad': {'$gt': 25}})) # dame aquellos doc cuya key edad sea mayor que

[{'_id': ObjectId('61fbc53e4472301b1edc3d53'),
  'nombre': 'Pepe',
  'edad': 50000},
 {'_id': ObjectId('61fbc53e4472301b1edc3d55'),
  'codigo': 'python',
  'hora': '943',
  'juego para niños': 'Java',
  'edad': 30}]

In [20]:
list(colec.find({'edad': {'$lte': 25}})) # dame aquellos doc cuya key edad sea menor que o igual

[{'_id': ObjectId('61fbc53e4472301b1edc3d56'), 'hola': 'adios', 'edad': 20}]

In [21]:
list(colec.find({'edad': {'$lt': 25}})) # estrictamente menor

[{'_id': ObjectId('61fbc53e4472301b1edc3d56'), 'hola': 'adios', 'edad': 20}]

In [22]:
dictio={'saludo': 'hola que tal', 'insulto': {'1': 'tonto', '2': 'alegre'}} # asi si

colec.insert_one(dictio)

<pymongo.results.InsertOneResult at 0x7f9b5149d540>

In [23]:
list(colec.find({'insulto': {'1': 'tonto', '2': 'alegre'}})) 

[{'_id': ObjectId('61fbc53e4472301b1edc3d58'),
  'saludo': 'hola que tal',
  'insulto': {'1': 'tonto', '2': 'alegre'}}]

In [24]:
colec.delete_one({'_id': 'hola'})   # borrar uno, el primero si hay varios

<pymongo.results.DeleteResult at 0x7f9b5149b640>

In [25]:
list(colec.find())  

[{'_id': ObjectId('61fbc53e4472301b1edc3d53'),
  'nombre': 'Pepe',
  'edad': 50000},
 {'_id': ObjectId('61fbc53e4472301b1edc3d54'),
  'saludo': 'hola que tal',
  'insulto': 'eres un carapijo'},
 {'_id': ObjectId('61fbc53e4472301b1edc3d55'),
  'codigo': 'python',
  'hora': '943',
  'juego para niños': 'Java',
  'edad': 30},
 {'_id': ObjectId('61fbc53e4472301b1edc3d56'), 'hola': 'adios', 'edad': 20},
 {'_id': ObjectId('61fbc53e4472301b1edc3d57'),
  'id': 0,
  'saludo': 'hola que tal',
  'insulto': 'eres un carapijo'},
 {'_id': 0, 'saludo': 'hola que tal', 'insulto': 'eres un carapijo'},
 {'_id': 'h', 'saludo': 'hola que tal', 'insulto': 'eres un carapijo'},
 {'_id': ObjectId('61fbc53e4472301b1edc3d58'),
  'saludo': 'hola que tal',
  'insulto': {'1': 'tonto', '2': 'alegre'}}]

In [26]:
colec.delete_many({'edad': {'$lt': 25}})  # borrar muchos segun condicion

<pymongo.results.DeleteResult at 0x7f9b51496700>

In [27]:
list(colec.find({'edad': {'$lt': 25}})) 

[]

In [28]:
colec.update_one({'nombre': 'Pepe'}, {'$set': {'nombre': 'Mamut de las cavernas'}})

<pymongo.results.UpdateResult at 0x7f9b510f9400>

In [29]:
list(colec.find())  

[{'_id': ObjectId('61fbc53e4472301b1edc3d53'),
  'nombre': 'Mamut de las cavernas',
  'edad': 50000},
 {'_id': ObjectId('61fbc53e4472301b1edc3d54'),
  'saludo': 'hola que tal',
  'insulto': 'eres un carapijo'},
 {'_id': ObjectId('61fbc53e4472301b1edc3d55'),
  'codigo': 'python',
  'hora': '943',
  'juego para niños': 'Java',
  'edad': 30},
 {'_id': ObjectId('61fbc53e4472301b1edc3d57'),
  'id': 0,
  'saludo': 'hola que tal',
  'insulto': 'eres un carapijo'},
 {'_id': 0, 'saludo': 'hola que tal', 'insulto': 'eres un carapijo'},
 {'_id': 'h', 'saludo': 'hola que tal', 'insulto': 'eres un carapijo'},
 {'_id': ObjectId('61fbc53e4472301b1edc3d58'),
  'saludo': 'hola que tal',
  'insulto': {'1': 'tonto', '2': 'alegre'}}]

In [30]:
colec.update_many({'saludo': 'hola'}, {'$set': {'saludo': ' hola chato, como vas?'}})

<pymongo.results.UpdateResult at 0x7f9b51472980>

In [31]:
list(colec.find({'hora': {'$regex': '\d'}}))  # con regex

[{'_id': ObjectId('61fbc53e4472301b1edc3d55'),
  'codigo': 'python',
  'hora': '943',
  'juego para niños': 'Java',
  'edad': 30}]

In [32]:
colec.drop()  # elimina la coleccion

In [33]:
db.list_collection_names()

[]

### Geoqueries

In [34]:
from pymongo import MongoClient

In [35]:
cliente=MongoClient('mongodb://localhost:27017')

In [36]:
db=cliente.companies  # es la base de datos

In [37]:
colec=db.companies # es la coleccion

In [38]:
al_menos_1_ofi=colec.find({'offices': {'$not': {'$size': 0}}},
                          {'_id': 0, 'name': 1, 'offices': 1})


# devuelve aquellos elementos con oficinas distinto de cero(en longitud)
# solo el nombre y las oficinas sin id

In [39]:
import pandas as pd

df=pd.DataFrame(al_menos_1_ofi)

df.head()

Unnamed: 0,name,offices
0,Wetpaint,"[{'description': '', 'address1': '710 - 2nd Av..."
1,AdventNet,"[{'description': 'Headquarters', 'address1': '..."
2,Zoho,"[{'description': 'Headquarters', 'address1': '..."
3,Digg,"[{'description': None, 'address1': '135 Missis..."
4,Facebook,"[{'description': 'Headquarters', 'address1': '..."


In [40]:
df=df.dropna()

In [41]:
jsnn=df.offices.apply(lambda x: pd.json_normalize(x))

In [42]:
type(jsnn[0])

pandas.core.frame.DataFrame

In [43]:
df_n=pd.DataFrame()  # df vacio


for i in range(1000):
    df_n=df_n.append(pd.json_normalize(df.offices[i]), ignore_index=True)

df_n.head()

Unnamed: 0,description,address1,address2,zip_code,city,state_code,country_code,latitude,longitude
0,,710 - 2nd Avenue,Suite 1100,98104,Seattle,WA,USA,47.603122,-122.333253
1,,270 Lafayette Street,Suite 505,10012,New York,NY,USA,40.723731,-73.996431
2,Headquarters,4900 Hopyard Rd.,Suite 310,94588,Pleasanton,CA,USA,37.692934,-121.904945
3,Headquarters,4900 Hopyard Rd,Suite 310,94588,Pleasanton,CA,USA,37.692934,-121.904945
4,,135 Mississippi St,,94107,San Francisco,CA,USA,37.764726,-122.394523


In [44]:
df_n.shape

(1272, 9)

In [45]:
def get_first(data):
    
    #data=data['offices']
    
    principal=None
    
    
    if data[0]['latitude'] and data[0]['longitude']:
        # esto es una geoquery (geopoint)
        
        principal={
            'type': 'Point',
            'coordinates': [data[0]['latitude'], data[0]['longitude']]
        }
        
    return {'totalOffices': len(data),
            'lat': data[0]['latitude'],
            'lng': data[0]['longitude'],
            'principal':principal}

In [46]:
first_ofi=pd.DataFrame(df.offices.apply(get_first).dropna())

first_ofi.columns=['principal']

In [47]:
first_ofi.head()

Unnamed: 0,principal
0,"{'totalOffices': 2, 'lat': 47.603122, 'lng': -..."
1,"{'totalOffices': 1, 'lat': 37.692934, 'lng': -..."
2,"{'totalOffices': 1, 'lat': 37.692934, 'lng': -..."
3,"{'totalOffices': 1, 'lat': 37.764726, 'lng': -..."
4,"{'totalOffices': 3, 'lat': 37.41605, 'lng': -1..."


In [48]:
df=pd.concat([df, first_ofi], axis=1).drop(columns=['offices']).dropna()

df.head()

Unnamed: 0,name,principal
0,Wetpaint,"{'totalOffices': 2, 'lat': 47.603122, 'lng': -..."
1,AdventNet,"{'totalOffices': 1, 'lat': 37.692934, 'lng': -..."
2,Zoho,"{'totalOffices': 1, 'lat': 37.692934, 'lng': -..."
3,Digg,"{'totalOffices': 1, 'lat': 37.764726, 'lng': -..."
4,Facebook,"{'totalOffices': 3, 'lat': 37.41605, 'lng': -1..."


In [49]:
df.to_json('data/oficinas.json')  # guarda a json

In [50]:
db.first_office.insert_many(df.to_dict('records')) # inserta en mongo todo el df

<pymongo.results.InsertManyResult at 0x7f9b30ff3580>

In [51]:
db.first_office.delete_many({'principal.lat': None})  # key1.key2 : value
db.first_office.delete_many({'principal.lng': None})

<pymongo.results.DeleteResult at 0x7f9b52c6e680>

In [52]:
# crear index 2d

db.first_office.create_index([('principal', '2dsphere')])

'principal_2dsphere'

In [53]:
# encuentra los elementos dentro de cierto radio, geoquery

def find_near(geopunto, radio=1000):
    
    return db.first_ofi.find({'principal': {'$near': {'$geometry': geopunto, '$maxDistance': radio}}})

In [54]:
# ejemplo

park_avenue={'type': 'Point',
            'coordinates': [-73.987308, 40.738935]}  # geopunto

radio=10000000 # radio de busqueda en metros

n_ofi=find_near(park_avenue)

list(n_ofi)

[]