# 4.1 - MongoDB

![mongo](images/mongodb.jpeg)

https://docs.mongodb.com/manual/administration/install-community/

https://docs.mongodb.com/compass/current/install/

MongoDB es una base de datos orientada a documentos. Esto quiere decir que en lugar de guardar los datos en registros, guarda los datos en documentos. Estos documentos son almacenados en BSON, que es una representación binaria de JSON.

Una de las diferencias más importantes con respecto a las bases de datos relacionales, es que no es necesario seguir un esquema. Los documentos de una misma colección, concepto similar a una tabla de una base de datos relacional, pueden tener esquemas diferentes.


In [1]:
%pip install pymongo

Note: you may need to restart the kernel to use updated packages.


In [2]:
from pymongo import MongoClient

import warnings
warnings.filterwarnings('ignore')

In [3]:
cliente=MongoClient()    # esto es el cursor/motor

cliente

MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True)

In [4]:
cliente.list_database_names()  # lista de las bases de datos

['admin',
 'arbbot',
 'companies',
 'complete_exchange_matches',
 'config',
 'ironcomes',
 'linkedin',
 'local',
 'telegram_messages']

In [5]:
db=cliente.nueva_db

In [6]:
cliente.list_database_names()

['admin',
 'arbbot',
 'companies',
 'complete_exchange_matches',
 'config',
 'ironcomes',
 'linkedin',
 'local',
 'telegram_messages']

In [7]:
colec=db.n_coleccion

In [8]:
db.list_collection_names()   # lista de colecciones

[]

In [9]:
dictio={'nombre': 'pepoe', 'edad': 32}

colec.insert_one(dictio)   # inserta un elemento

<pymongo.results.InsertOneResult at 0x108b30a60>

In [10]:
cliente.list_database_names()

['admin',
 'arbbot',
 'companies',
 'complete_exchange_matches',
 'config',
 'ironcomes',
 'linkedin',
 'local',
 'nueva_db',
 'telegram_messages']

In [11]:
db.list_collection_names()

['n_coleccion']

In [12]:
# insertar varios

colec.insert_many([
    {'nombre': 'Ana', 'edad': 12},
    {'_id': 2, 'actividad': 'natacion', 'hora': '13:00', 'lugar': 'jultayu'}
])

<pymongo.results.InsertManyResult at 0x10819b520>

In [13]:
# insertar varios

colec.insert_many([
    {'nombre': 'Maria', 'edad': 42},
    {'_id': 20, 'actividad': 'natacion', 'edad': 24, 'lugar': 'jultayu'}
])

<pymongo.results.InsertManyResult at 0x108b30cd0>

In [14]:
# llamar a la base de datos, como el select

colec.find()

<pymongo.cursor.Cursor at 0x108b45a60>

In [15]:
list(colec.find())

[{'_id': ObjectId('624ea867fd27fdc504655fd9'), 'nombre': 'pepoe', 'edad': 32},
 {'_id': ObjectId('624ea867fd27fdc504655fda'), 'nombre': 'Ana', 'edad': 12},
 {'_id': 2, 'actividad': 'natacion', 'hora': '13:00', 'lugar': 'jultayu'},
 {'_id': ObjectId('624ea867fd27fdc504655fdb'), 'nombre': 'Maria', 'edad': 42},
 {'_id': 20, 'actividad': 'natacion', 'edad': 24, 'lugar': 'jultayu'}]

In [16]:
a=colec.find()

In [17]:
list(a)

[{'_id': ObjectId('624ea867fd27fdc504655fd9'), 'nombre': 'pepoe', 'edad': 32},
 {'_id': ObjectId('624ea867fd27fdc504655fda'), 'nombre': 'Ana', 'edad': 12},
 {'_id': 2, 'actividad': 'natacion', 'hora': '13:00', 'lugar': 'jultayu'},
 {'_id': ObjectId('624ea867fd27fdc504655fdb'), 'nombre': 'Maria', 'edad': 42},
 {'_id': 20, 'actividad': 'natacion', 'edad': 24, 'lugar': 'jultayu'}]

In [18]:
list(colec.find({'edad': 12}))

[{'_id': ObjectId('624ea867fd27fdc504655fda'), 'nombre': 'Ana', 'edad': 12}]

In [19]:
list(colec.find({'nombre': 'pepoe'}))

[{'_id': ObjectId('624ea867fd27fdc504655fd9'), 'nombre': 'pepoe', 'edad': 32}]

In [20]:
list(colec.find({'edad': {'$gte': 24}}))   # edad igual o mayor que 24

[{'_id': ObjectId('624ea867fd27fdc504655fd9'), 'nombre': 'pepoe', 'edad': 32},
 {'_id': ObjectId('624ea867fd27fdc504655fdb'), 'nombre': 'Maria', 'edad': 42},
 {'_id': 20, 'actividad': 'natacion', 'edad': 24, 'lugar': 'jultayu'}]

In [21]:
list(colec.find({'edad': {'$lte': 24}}))  # edad igual o menor que 24

[{'_id': ObjectId('624ea867fd27fdc504655fda'), 'nombre': 'Ana', 'edad': 12},
 {'_id': 20, 'actividad': 'natacion', 'edad': 24, 'lugar': 'jultayu'}]

In [22]:
list(colec.find({'edad': {'$lte': 24}}).limit(2))    # limite, igual que SQL

[{'_id': ObjectId('624ea867fd27fdc504655fda'), 'nombre': 'Ana', 'edad': 12},
 {'_id': 20, 'actividad': 'natacion', 'edad': 24, 'lugar': 'jultayu'}]

In [23]:
list(colec.find({'edad': {'$lte': 24}}).sort('edad', -1))  # ordenado por edad -1==>descendente

[{'_id': 20, 'actividad': 'natacion', 'edad': 24, 'lugar': 'jultayu'},
 {'_id': ObjectId('624ea867fd27fdc504655fda'), 'nombre': 'Ana', 'edad': 12}]

In [24]:
colec.delete_one({'_id':0})

<pymongo.results.DeleteResult at 0x108b4be80>

In [25]:
list(colec.find())

[{'_id': ObjectId('624ea867fd27fdc504655fd9'), 'nombre': 'pepoe', 'edad': 32},
 {'_id': ObjectId('624ea867fd27fdc504655fda'), 'nombre': 'Ana', 'edad': 12},
 {'_id': 2, 'actividad': 'natacion', 'hora': '13:00', 'lugar': 'jultayu'},
 {'_id': ObjectId('624ea867fd27fdc504655fdb'), 'nombre': 'Maria', 'edad': 42},
 {'_id': 20, 'actividad': 'natacion', 'edad': 24, 'lugar': 'jultayu'}]

In [26]:
colec.delete_many({'nombre':'Ana'})

<pymongo.results.DeleteResult at 0x108b53e50>

In [27]:
list(colec.find())

[{'_id': ObjectId('624ea867fd27fdc504655fd9'), 'nombre': 'pepoe', 'edad': 32},
 {'_id': 2, 'actividad': 'natacion', 'hora': '13:00', 'lugar': 'jultayu'},
 {'_id': ObjectId('624ea867fd27fdc504655fdb'), 'nombre': 'Maria', 'edad': 42},
 {'_id': 20, 'actividad': 'natacion', 'edad': 24, 'lugar': 'jultayu'}]

In [28]:
colec.update_one({'_id': 2}, {'$set': {'lugar': 'piscina', 'hora': '23:90'}})

<pymongo.results.UpdateResult at 0x108b307c0>

In [29]:
list(colec.find())

[{'_id': ObjectId('624ea867fd27fdc504655fd9'), 'nombre': 'pepoe', 'edad': 32},
 {'_id': 2, 'actividad': 'natacion', 'hora': '23:90', 'lugar': 'piscina'},
 {'_id': ObjectId('624ea867fd27fdc504655fdb'), 'nombre': 'Maria', 'edad': 42},
 {'_id': 20, 'actividad': 'natacion', 'edad': 24, 'lugar': 'jultayu'}]

In [30]:
colec.drop()  # elimina coleccion

In [31]:
db.list_collection_names()

[]

In [32]:
# base de datos companies

db=cliente.companies

In [33]:
colec=db.companies

In [34]:
#list(colec.find().limit(1))

In [35]:
list(colec.find({'$or': [{'category_code': 'web'},
                         {'category_code': 'ecommerce'}]},
               
               {'_id': 0, 'name': 1, 'category_code': 1}   # para filtrar lo que viene
                
               ))[:10] # esto es de la lista

[{'name': 'Wetpaint', 'category_code': 'web'},
 {'name': 'Postini', 'category_code': 'web'},
 {'name': 'Geni', 'category_code': 'web'},
 {'name': 'Fox Interactive Media', 'category_code': 'web'},
 {'name': 'StumbleUpon', 'category_code': 'web'},
 {'name': 'Gizmoz', 'category_code': 'web'},
 {'name': 'eBay', 'category_code': 'web'},
 {'name': 'Viacom', 'category_code': 'web'},
 {'name': 'Plaxo', 'category_code': 'web'},
 {'name': 'Yahoo!', 'category_code': 'web'}]

In [36]:
list(colec.find({'$and': [{'category_code': 'web'},
                          {'founded_year': {'$lte': 2002}}]},
               
               {'_id': 0, 'name': 1, 'category_code': 1, 'founded_year': 1}   # para filtrar lo que viene
                
               ).limit(10))

[{'name': 'Postini', 'category_code': 'web', 'founded_year': 1999},
 {'name': 'Fox Interactive Media',
  'category_code': 'web',
  'founded_year': 1979},
 {'name': 'StumbleUpon', 'category_code': 'web', 'founded_year': 2002},
 {'name': 'eBay', 'category_code': 'web', 'founded_year': 1995},
 {'name': 'Viacom', 'category_code': 'web', 'founded_year': 1971},
 {'name': 'Plaxo', 'category_code': 'web', 'founded_year': 2002},
 {'name': 'Yahoo!', 'category_code': 'web', 'founded_year': 1994},
 {'name': 'Meetup', 'category_code': 'web', 'founded_year': 2002},
 {'name': 'Topix', 'category_code': 'web', 'founded_year': 2002},
 {'name': 'Steorn', 'category_code': 'web', 'founded_year': 2000}]

In [37]:
import pandas as pd

df=pd.DataFrame(list(colec.find({'$and': [{'category_code': 'web'},
                          {'founded_year': {'$lte': 2002}}]},
               
                                   {'_id': 0, 
                                    'name': 1, 
                                    'category_code': 1, 
                                    'founded_year': 1}   # para filtrar lo que viene
                
               )))


df.head()

Unnamed: 0,name,category_code,founded_year
0,Postini,web,1999
1,Fox Interactive Media,web,1979
2,StumbleUpon,web,2002
3,eBay,web,1995
4,Viacom,web,1971


### Geoqueries

In [38]:
al_menos_1_ofi=colec.find({'offices': {'$not': {'$size': 0}}},
                         
                          {'_id': 0, 'name': 1, 'offices': 1}
                          )

# devuelve aqulleos documentos con oficinas, solo el nombre y el array de oficinas

In [39]:
df=pd.DataFrame(al_menos_1_ofi)

df.head()

Unnamed: 0,name,offices
0,Wetpaint,"[{'description': '', 'address1': '710 - 2nd Av..."
1,AdventNet,"[{'description': 'Headquarters', 'address1': '..."
2,Zoho,"[{'description': 'Headquarters', 'address1': '..."
3,Digg,"[{'description': None, 'address1': '135 Missis..."
4,Facebook,"[{'description': 'Headquarters', 'address1': '..."


In [40]:
df=df.dropna()

In [46]:
# extraer la primera oficina

def get_first(data):
    
    data=data.offices
    
    principal=None
    
    if data[0]['latitude'] and data[0]['longitude']:
        
        # esto ya es una geoquery (geopoint)
        
        principal={
            'type': 'Point',
            'coordinates': [data[0]['longitude'], data[0]['latitude']]
        }
        
    return {'total_offices': len(data),
            'lat': data[0]['latitude'],
            'lng': data[0]['longitude'],
            'principal': principal}

In [47]:
first_office=df[['offices']].apply(get_first, result_type='expand', axis=1)

first_office.head()

Unnamed: 0,total_offices,lat,lng,principal
0,2.0,47.603122,-122.333253,"{'type': 'Point', 'coordinates': [-122.333253,..."
1,1.0,37.692934,-121.904945,"{'type': 'Point', 'coordinates': [-121.904945,..."
2,1.0,37.692934,-121.904945,"{'type': 'Point', 'coordinates': [-121.904945,..."
3,1.0,37.764726,-122.394523,"{'type': 'Point', 'coordinates': [-122.394523,..."
4,3.0,37.41605,-122.151801,"{'type': 'Point', 'coordinates': [-122.151801,..."


In [48]:
first_office=first_office.dropna()

df=pd.concat([df, first_office], axis=1).drop('offices', axis=1)

df=df.dropna()

df.head()

Unnamed: 0,name,total_offices,lat,lng,principal
0,Wetpaint,2.0,47.603122,-122.333253,"{'type': 'Point', 'coordinates': [-122.333253,..."
1,AdventNet,1.0,37.692934,-121.904945,"{'type': 'Point', 'coordinates': [-121.904945,..."
2,Zoho,1.0,37.692934,-121.904945,"{'type': 'Point', 'coordinates': [-121.904945,..."
3,Digg,1.0,37.764726,-122.394523,"{'type': 'Point', 'coordinates': [-122.394523,..."
4,Facebook,3.0,37.41605,-122.151801,"{'type': 'Point', 'coordinates': [-122.151801,..."


In [49]:
# df.to_json('../data/oficinas.json')

In [50]:
db.first_office.insert_many(df.to_dict('records'))  # todo el dataframe pa mongo

<pymongo.results.InsertManyResult at 0x134593b80>

In [51]:
db.first_office.create_index([('principal', '2dsphere')])

'principal_2dsphere'

In [53]:
# encuentra los elementos dentro de cierto radio, geoquery


def find_near(geopoint, radio=1000):
    
    return db.first_office.find({'principal': {
                                               '$near': {'$geometry': geopoint,
                                                         '$maxDistance': radio}
                                                }})

In [54]:
# ejemplo

park_avenue={'type': 'Point', 'coordinates': [-73.987308, 40.738935]}   # geopunto

radio=10000  # radio de busqueda


n_ofi=find_near(park_avenue, radio)

pd.DataFrame(n_ofi).head()

Unnamed: 0,_id,name,total_offices,lat,lng,principal
0,624ea86cfd27fdc504657d92,SpaBooker,1.0,40.738567,-73.987199,"{'type': 'Point', 'coordinates': [-73.987199, ..."
1,624ea86cfd27fdc504656b6a,HealthiNation,1.0,40.739341,-73.988357,"{'type': 'Point', 'coordinates': [-73.988357, ..."
2,624ea86cfd27fdc504656752,Special Ops Media,1.0,40.737721,-73.987725,"{'type': 'Point', 'coordinates': [-73.987725, ..."
3,624ea86cfd27fdc5046583e4,Mashable,1.0,40.740154,-73.986742,"{'type': 'Point', 'coordinates': [-73.9867417,..."
4,624ea86cfd27fdc5046574e9,Return Path,1.0,40.740207,-73.987002,"{'type': 'Point', 'coordinates': [-73.987002, ..."
