In [None]:
"""
MongoDB es una base de datos open source NoSql (Not only Sql) enfocada a manejar enormes cantidades de datos que se generan 
demasiado rápido (big data), por ejemplo los datos que vienen de aplicaciones de redes sociales, *juegos online o análisis de datos de múltiples sitios. 
Es flexible, escalable (podemos añadir mas recursos a nuestra base de datos añadiendo mas servidores - cluster-) y de propósito general (puede ser utilizada en cualquier tipo de aplicación).
Está orientada a DOCUMENTOS, que refiere a los datos que vamos a guardar en MongoDB (objetos de javascript).Utiliza JSON como formato de datos.
Las datos se organizan en COLECCIONES (por ej., una colección de usuarios, otra de productos, etc; en SQL serían las tablas). 
"""

In [2]:
#Imports
import pymongo
import pandas as pd

In [3]:
#Conexión a MongoDB
client = pymongo.MongoClient('localhost',27017)
db = client['mongo']

In [4]:
#Llamamos a la colección 'income'
collection = db['income']

In [5]:

#Una manera de crear el encabezado es a partir de un archivo que contenga el nombre de las variables  
#Lee el archivo 'income_header.txt' y crea el nombre las variables

#with open('income_header.txt') as finput:
#    variables_names = finput.readline()
#variables_names

In [6]:
#mostramos en una lista los nombres de las variables cargadas

#variables_names_list = variables_names.split(',')
#variables_names_list

In [7]:
"""
Dado que no tenemos el archivo 'income_header.txt', creamos una lista con el nombre de las variables que lo integran eñ encabezado
"""
variables_names_list = ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'label', '_id']

In [8]:
#cargamos los datos del archivo adult.data en la colección 'income' creada
with open('adult.data')as finput:
    for line in finput:
        row_list =line.rstrip('\n').split(',')
        row_dict = dict(zip(variables_names_list,row_list))
        try:
            row_dict['age']= int(row_dict['age'])
            collection.insert_one(row_dict)
        except:
            pass

In [9]:
#Contamos la cantidad de documentos cargados en la colección 
collection.estimated_document_count()

32561

In [None]:
"""
CONSULTAS 
Para encontrar todos los documentos donde el valor de "age"es 39, podemos agregar ese par clave / valor al documento de consulta:

Condicionales de consulta
"$eq", "$lt", "$lte", "$gt", y "$gte"son todos los operadores de comparación, que corresponde a =, <, <=,> y> =, respectivamente
"""

In [10]:
#buscamos un objeto o documento cuya edad sea igual a 39 años
age39 = collection.find_one({'age':39}) 
age39

{'_id': ObjectId('617febf53adfe782ef20f5c4'),
 'age': 39,
 'workclass': ' State-gov',
 'fnlwgt': ' 77516',
 'education': ' Bachelors',
 'education-num': ' 13',
 'marital-status': ' Never-married',
 'occupation': ' Adm-clerical',
 'relationship': ' Not-in-family',
 'race': ' White',
 'sex': ' Male',
 'capital-gain': ' 2174',
 'capital-loss': ' 0',
 'hours-per-week': ' 40',
 'native-country': ' United-States',
 'label': ' <=50K'}

In [11]:
age39 = collection.find_one({'age':{'$eq' : 39}}) 
print(age39)

{'_id': ObjectId('617febf53adfe782ef20f5c4'), 'age': 39, 'workclass': ' State-gov', 'fnlwgt': ' 77516', 'education': ' Bachelors', 'education-num': ' 13', 'marital-status': ' Never-married', 'occupation': ' Adm-clerical', 'relationship': ' Not-in-family', 'race': ' White', 'sex': ' Male', 'capital-gain': ' 2174', 'capital-loss': ' 0', 'hours-per-week': ' 40', 'native-country': ' United-States', 'label': ' <=50K'}


In [12]:
#buscamos un objeto entre 18 a 24 años
age_18a24 = collection.find_one({"age":{"$gte" : 18, "$lte" : 24}})
age_18a24

{'_id': ObjectId('617febf53adfe782ef20f5d0'),
 'age': 23,
 'workclass': ' Private',
 'fnlwgt': ' 122272',
 'education': ' Bachelors',
 'education-num': ' 13',
 'marital-status': ' Never-married',
 'occupation': ' Adm-clerical',
 'relationship': ' Own-child',
 'race': ' White',
 'sex': ' Female',
 'capital-gain': ' 0',
 'capital-loss': ' 0',
 'hours-per-week': ' 30',
 'native-country': ' United-States',
 'label': ' <=50K'}

In [14]:
#buscamos los objetos o documentos cuya edad sea > = a 45 años
#contamos la cantidad de datos
#ageover_45 = collection.find({'age':{"$gt" : 45}})
ageover_45.collection.count_documents({'age':{"$gt" : 45}})

9627

In [17]:
type(ageover_45)

pymongo.cursor.Cursor

In [18]:
#mostramos el objeto que sigue después de 45 años 
ageover_45.next()

{'_id': ObjectId('617c781eadbeb9dc2c50de58'),
 'age': 50,
 ' workclass': ' Self-emp-not-inc',
 ' fnlwgt': ' 83311',
 ' education': ' Bachelors',
 ' education-num': ' 13',
 ' marital-status': ' Married-civ-spouse',
 ' occupation': ' Exec-managerial',
 ' relationship': ' Husband',
 ' race': ' White',
 ' sex': ' Male',
 ' capital-gain': ' 0',
 ' capital-loss': ' 0',
 ' hours-per-week': ' 13',
 ' native-country': ' United-States',
 ' label': ' <=50K'}

In [None]:
"""
UPDATE
"""

In [15]:
#consultamos los datos del objeto cuya edad es 38 años
age38 = collection.find_one({'age': 38}) 
print(age38)

{'_id': ObjectId('617febf53adfe782ef20f5c6'), 'age': 38, 'workclass': ' Private', 'fnlwgt': ' 215646', 'education': ' HS-grad', 'education-num': ' 9', 'marital-status': ' Divorced', 'occupation': ' Handlers-cleaners', 'relationship': ' Not-in-family', 'race': ' White', 'sex': ' Male', 'capital-gain': ' 0', 'capital-loss': ' 0', 'hours-per-week': ' 40', 'native-country': ' United-States', 'label': ' <=50K'}


In [16]:
#agregamos valores a ' capital-gain' y ' capital-loss'
collection.update_one(
        {"age": 38},
        {
        "$set": {
            "capital-gain":999,
            "capital-loss":999,
                }
        })

<pymongo.results.UpdateResult at 0x23e23c481c0>

In [17]:
#chequeamos los datos cargados
updated = collection.find_one({'age':38})
updated

{'_id': ObjectId('617febf53adfe782ef20f5c6'),
 'age': 38,
 'workclass': ' Private',
 'fnlwgt': ' 215646',
 'education': ' HS-grad',
 'education-num': ' 9',
 'marital-status': ' Divorced',
 'occupation': ' Handlers-cleaners',
 'relationship': ' Not-in-family',
 'race': ' White',
 'sex': ' Male',
 'capital-gain': 999,
 'capital-loss': 999,
 'hours-per-week': ' 40',
 'native-country': ' United-States',
 'label': ' <=50K'}

In [None]:
"""
Indexing in MongoDB

Esta función es importante ya que, como emncionamos previamente, MongoDB está orientada a manejar enormes cantidad de datos 
que se generan demasiado rápido.

Primero busquemos cuánto tiempo lleva consultar algo usando find () sin un índice, 
Creamos la variable start para realizar un seguimiento del tiempo 
(llamamos a la función time en el paquete time en python)
"""

In [21]:
import time
start = time.time()
ageover50 = collection.find({'age':{'$gt':50}})
end = time.time()
print(end-start)

0.0009996891021728516


In [22]:
#Creemos ahora un índice usando profiles.create_index ()
index_result = db.profiles.create_index([('age',pymongo.ASCENDING)],unique = False)

In [26]:
#Realizamos nuevamente la consulta
#La reducción de tiempo, incluso en una cantidad pequeña, es muy significativa. Por eso es importante la indexación.
import time
start = time.time()
ageover45 = collection.find({'age':{'$gt':45}})
end = time.time()
print(end-start)

0.0


In [None]:
"""
Read data from MongoDB into dataframes

Convertimos el cursor, collection.find (), en una lista y luego en un dataframe de Pandas usando .DataFrame ()
"""

In [27]:
#creamos un DF para toda la colección
income_df = pd.DataFrame(list(collection.find()))

In [28]:
#mostramos el enbezado del DF
income_df.head()

Unnamed: 0,_id,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,label,capital-gain.1,capital-loss.1
0,617c781eadbeb9dc2c50de57,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K,,
1,617c781eadbeb9dc2c50de58,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,,
2,617c781eadbeb9dc2c50de59,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,999.0,999.0
3,617c781eadbeb9dc2c50de5a,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K,,
4,617c781eadbeb9dc2c50de5b,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K,,


In [29]:
#mostramos los datos descriptivos de la variable NUMÉRICA edad (age)
income_df['age'].describe()

count    32561.000000
mean        38.581647
std         13.640433
min         17.000000
25%         28.000000
50%         37.000000
75%         48.000000
max         90.000000
Name: age, dtype: float64

In [18]:
#creamos un DF para el rango de edad entre 18 a 25 años
#(muchos programas son orientados a este segmento etario, por ejemplo PPP)
age18_25_df = pd.DataFrame(list(collection.find({"age":{"$gte" : 18, "$lte" : 25}})))

In [19]:
age18_25_df.head()

Unnamed: 0,_id,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,label
0,617febf53adfe782ef20f5d0,23,Private,122272,Bachelors,13,Never-married,Adm-clerical,Own-child,White,Female,0,0,30,United-States,<=50K
1,617febf53adfe782ef20f5d4,25,Self-emp-not-inc,176756,HS-grad,9,Never-married,Farming-fishing,Own-child,White,Male,0,0,35,United-States,<=50K
2,617febf53adfe782ef20f5de,19,Private,168294,HS-grad,9,Never-married,Craft-repair,Own-child,White,Male,0,0,40,United-States,<=50K
3,617febf53adfe782ef20f5e2,23,Local-gov,190709,Assoc-acdm,12,Never-married,Protective-serv,Not-in-family,White,Male,0,0,52,United-States,<=50K
4,617febf53adfe782ef20f5e3,20,Private,266015,Some-college,10,Never-married,Sales,Own-child,Black,Male,0,0,44,United-States,<=50K


In [20]:
#mostramos los datos descriptivos de la variable NUMÉRICA edad (age) para el rango 18 a 25 años
age18_25_df['age'].describe()

count    6016.000000
mean       21.739694
std         2.239610
min        18.000000
25%        20.000000
50%        22.000000
75%        24.000000
max        25.000000
Name: age, dtype: float64

In [None]:
"""
DELETE ( ) in MongoDB

La colección creada anteriormente se puede eliminar usando delete_many () o selectivamente usando delete_one ()
"""

In [21]:
age23 = collection.find_one({'age':23})
print(age23)

{'_id': ObjectId('617febf53adfe782ef20f5d0'), 'age': 23, 'workclass': ' Private', 'fnlwgt': ' 122272', 'education': ' Bachelors', 'education-num': ' 13', 'marital-status': ' Never-married', 'occupation': ' Adm-clerical', 'relationship': ' Own-child', 'race': ' White', 'sex': ' Female', 'capital-gain': ' 0', 'capital-loss': ' 0', 'hours-per-week': ' 30', 'native-country': ' United-States', 'label': ' <=50K'}


In [22]:
#borramos un documento que tiene 23 años
collection.delete_one({'age':23})

<pymongo.results.DeleteResult at 0x23e23c70f80>

In [23]:
#consultamos y sigue habiendo un con 23 años
age23 = collection.find_one({'age':23})
print(age23)

{'_id': ObjectId('617febf53adfe782ef20f5e2'), 'age': 23, 'workclass': ' Local-gov', 'fnlwgt': ' 190709', 'education': ' Assoc-acdm', 'education-num': ' 12', 'marital-status': ' Never-married', 'occupation': ' Protective-serv', 'relationship': ' Not-in-family', 'race': ' White', 'sex': ' Male', 'capital-gain': ' 0', 'capital-loss': ' 0', 'hours-per-week': ' 52', 'native-country': ' United-States', 'label': ' <=50K'}


In [24]:
#borramos todos los documentos que tengan como edad 23 años
collection.delete_many({'age':23})

<pymongo.results.DeleteResult at 0x23e23c7b400>

In [25]:
#consultamos nuevamente y chequeamos que se borraron todos los registros
age23 = collection.find_one({'age':23})
print(age23)

None


In [26]:
#borramos todos los documentos de la colección
collection.delete_many({})

<pymongo.results.DeleteResult at 0x23e23c7be80>