In [2]:
from pymongo import MongoClient, ASCENDING
from neo4j import GraphDatabase

RETO 1 – CARGA Y EXPLORACIÓN 
1. Revisa los ficheros adjuntos de la actividad y la documentación 
correspondiente de cada fichero. 
2. Realiza una exploración de los ficheros utilizando MongoDB como motor de 
base de datos. Para ello: 
a. Carga los datos en la BD (utiliza los ficheros CSV o JSON) 
b. Revisa los campos y comprueba la calidad de los datos en cada uno de 
los ficheros. 
c. Encuentra un campo que permita relacionar los ficheros entre sí. 

Apartado A

Insertar los ficheros en cada uno de las colecciones

In [14]:
myclient = MongoClient("mongodb://localhost:27017/")
mydb = myclient["tarea_nosql"]
mycol_economica = mydb["actividad_economica"]
mycol_licencias = mydb["licencias"]
mycol_locales = mydb["locales"]
mycol_terrazas = mydb["terrazas"]

Apartado B

compruebo la calidad de la coleccion actividad economica

In [3]:
x = mycol_economica.find_one({"id_local" : 20})
e = mycol_licencias.find_one({"id_local" : 7})
y = mycol_locales.find_one({"id_local" : 2})
o = mycol_terrazas.find_one({"id_local" : 270403150})

Validar los datos de las colecciones

In [4]:
mydb.command("validate", "actividad_economica")
mydb.command("validate", "licencias")
mydb.command("validate", "locales")
mydb.command("validate", "terrazas")

{'ns': 'tarea_nosql.terrazas',
 'uuid': Binary(b'D\x91h@\x0e\xf4@\xd2\x84F\x0f\xb5\xcfat\x07', 4),
 'nInvalidDocuments': 0,
 'nNonCompliantDocuments': 0,
 'nrecords': 6788,
 'nIndexes': 2,
 'keysPerIndex': {'_id_': 6788, 'id_local_1': 6788},
 'indexDetails': {'_id_': {'valid': True}, 'id_local_1': {'valid': True}},
 'valid': True,
 'repaired': False,
 'errors': [],
 'extraIndexEntries': [],
 'missingIndexEntries': [],
 'corruptRecords': [],
 'ok': 1.0}

Apartado C
El campo que permite relcionar entre colecciones es el id_local

RETO 2 – MODELADO DE DATOS 
Después de explorar todos los ficheros y tener clara su estructura, resuelve los 
siguientes tareas. 
Modelo de datos (versión 1) 
1. Propón un modelo de datos basado en documentos que permita almacenar la 
información de los ficheros y consultarla posteriormente. Este modelo 
propuesto puede seguir un patrón de datos visto en este curso (embebidos, 
referenciados o jerárquicos). 
a. Crea una base de datos en MongoDB y almacena los ficheros siguiendo 
tu modelo de datos. 
2. Para mostrar la eficiencia de tu modelo de datos, construye y ejecuta las 
siguientes consultas. 
a. El total de Locales y Terrazas por Distrito y Barrio. 
b. Tipos de licencias y cantidad de licencias por cada tipo.  
c. Listado de locales y terrazas con licencias “En trámite”. 
d. Consulta por sección, división y epígrafe de la actividad comercial de 
locales y terrazas. 
e. Consultar la actividad económica más frecuente por barrio y distrito. 
f. Actualiza los horarios de apertura y cierra de “ciertos” locales 
siguiendo un criterio que tú elijas (explica bien dicho criterio en el 
informe final). 

Modelo de datos (Versión 1)


Crear el indice

In [None]:
mycol_locales.create_index([('id_local')])

In [5]:
pipeline = [
  {"$lookup": {
    "from": "actividad_economica",
    "localField": "id_local",
    "foreignField": "id_local",
    "as": "actividad_economica"
  }},
  {"$lookup": {
    "from": "licencias",
    "localField": "id_local",
    "foreignField": "id_local",
    "as": "licencias"
  }},
  {"$lookup": {
    "from": "terrazas",
    "localField": "id_local",
    "foreignField": "id_local",
    "as": "terrazas"
  }},
  {"$out": "locales_embebidos"}
]
mycol_locales.aggregate(pipeline)

a. El total de Locales y Terrazas por Distrito y Barrio.

In [5]:
mycol_locales_embebido = mydb["locales_embebidos"]

In [6]:
resultado = mycol_locales_embebido.aggregate([
    {"$group": {
        "_id": {
            "distrito": "$desc_distrito_local", "barrio": "$desc_barrio_local"
            },
        "total_locales": {
            "$sum": 1
            },
        "total_terrazas": 
        {"$sum": 
         {"$size": "$terrazas"}
        }
    }}
])


for grupo in resultado:
    print(grupo)

b. Tipos de licencias y cantidad de licencias por cada tipo.

In [None]:
resultado = mycol_locales_embebido.aggregate([{"$unwind": "$licencias"},{"$group":
                                               {"_id": "$licencias.desc_tipo_licencia", "total": {"$sum" : 1}
                                                }}])
for grupo in resultado:
    print(grupo)

['ARGANZUELA          ',
 'BARAJAS             ',
 'CARABANCHEL         ',
 'CENTRO              ',
 'CHAMARTIN           ',
 'CHAMBERI            ',
 'CIUDAD LINEAL       ',
 'FUENCARRAL-EL PARDO ',
 'HORTALEZA           ',
 'LATINA              ',
 'MONCLOA-ARAVACA     ',
 'MORATALAZ           ',
 'PUENTE DE VALLECAS  ',
 'RETIRO              ',
 'SALAMANCA           ',
 'SAN BLAS-CANILLEJAS ',
 'TETUAN              ',
 'USERA               ',
 'VICALVARO           ',
 'VILLA DE VALLECAS   ',
 'VILLAVERDE          ']

c. Listado de locales y terrazas con licencias “En trámite”. 

In [None]:
resultado = mycol_locales_embebido.find({"licencias": {"$elemMatch": {"desc_tipo_situacion_licencia": "En tramitación"}}})

for grupo in resultado:
    print(grupo)

d. Consulta por sección, división y epígrafe de la actividad comercial de 
locales y terrazas. 

In [None]:
resultado = mycol_locales_embebido.aggregate([
    {"$unwind": "$actividad_economica"},
    {"$group": {
        "_id": {
            "seccion": "$actividad_economica.desc_seccion",
            "division": "$actividad_economica.desc_division",
            "epigrafe": "$actividad_economica.desc_epigrafe"
        },
        "total_locales": {"$sum": 1},
        "total_terrazas": {"$sum": {"$size": "$terrazas"}}
    }}
])

for grupo in resultado:
    print(grupo)

e. Consultar la actividad económica más frecuente por barrio y distrito. 

In [None]:
resultado = mycol_locales_embebido.aggregate([
    {"$unwind": "$actividad_economica"},
    {"$group": {
        "_id": {
            "distrito": "$desc_distrito_local",
            "barrio": "$desc_barrio_local",
            "actividad": "$actividad_economica.desc_epigrafe"
        },
        "count": {"$sum": 1}
    }},
    {"$sort": {"count": -1}},
    {"$group": {
        "_id": {
            "distrito": "$_id.distrito",
            "barrio": "$_id.barrio"
        },
        "actividad_mas_frecuente": {"$first": "$_id.actividad"},
        "count": {"$first": "$count"}
    }}
])

for grupo in resultado:
    print(grupo)

f. Actualiza los horarios de apertura y cierra de “ciertos” locales 
siguiendo un criterio que tú elijas (explica bien dicho criterio en el 
informe final). 

In [None]:
mycol_locales_embebido.update_many(
    {"hora_apertura1": {"$lt": "08:00"}},
    {"$set": {"hora_apertura1": "08:00"}}
)

Modelo de datos (versión 2) 

3. Ahora que ya cuentas con un modelo de datos sobre la actividad económica de 
Locales y Terrazas en la ciudad de Madrid, vamos a necesitar conocer la 
actividad relacionada con los alojamientos de los distintos barrios de esta 
misma ciudad. Para incluir esta información, debes realizar lo siguiente: 
a. Revisa la siguiente URL y localiza información sobre los alojamientos 
de Airbnb http://insideairbnb.com/new-york-city/ de la ciudad de 
Madrid. 
b. Debes encontrar un dataset y cargar dicha información en la base de 
datos donde alojas tu modelo de datos. 
c. Asocia la información de alojamientos con la actividad comercial, 
propón algún tipo de mejora de tu modelo de datos para contemplar la 
nueva información.

A: Dataset Localizado

B: Dataset Listening

b. Debes encontrar un dataset y cargar dicha información en la base de 
datos donde alojas tu modelo de datos.

In [16]:
coleccion_alojamientos = mydb['airbnb']

In [10]:
res = coleccion_alojamientos.find_one()
print(res)

{'_id': ObjectId('65c8fbf5ff639b3d17edf29e'), 'id': 6369, 'name': 'Rental unit in Madrid · ★4.88 · 1 bedroom · 1 bed · 1 private bath', 'host_id': 13660, 'host_name': 'Simon', 'neighbourhood_group': 'Chamartín', 'neighbourhood': 'Hispanoamérica', 'latitude': 40.45724, 'longitude': -3.67688, 'room_type': 'Private room', 'price': 85, 'minimum_nights': 5, 'number_of_reviews': 106, 'last_review': datetime.datetime(2023, 10, 16, 0, 0), 'reviews_per_month': 0.63, 'calculated_host_listings_count': 1, 'availability_365': 22, 'number_of_reviews_ltm': 4}


In [11]:
pipeline = [
    {
        '$lookup': {
            'from': 'locales_embebidos',  # nombre de la colección con la que quieres hacer el JOIN
            'localField': 'neighbourhood',  # campo de la colección de alojamientos
            'foreignField': 'desc_barrio_local',  # campo de la colección de locales
            'as': 'locales_en_mismo_barrio'  # nombre del nuevo campo que contendrá los documentos relacionados
        }
    }
]

resultados = coleccion_alojamientos.aggregate(pipeline)

In [12]:
for resultado in resultados:
    print(resultado)

{'_id': ObjectId('65c8fbf5ff639b3d17edf29e'), 'id': 6369, 'name': 'Rental unit in Madrid · ★4.88 · 1 bedroom · 1 bed · 1 private bath', 'host_id': 13660, 'host_name': 'Simon', 'neighbourhood_group': 'Chamartín', 'neighbourhood': 'Hispanoamérica', 'latitude': 40.45724, 'longitude': -3.67688, 'room_type': 'Private room', 'price': 85, 'minimum_nights': 5, 'number_of_reviews': 106, 'last_review': datetime.datetime(2023, 10, 16, 0, 0), 'reviews_per_month': 0.63, 'calculated_host_listings_count': 1, 'availability_365': 22, 'number_of_reviews_ltm': 4, 'locales_en_mismo_barrio': []}
{'_id': ObjectId('65c8fbf5ff639b3d17edf29f'), 'id': 30320, 'name': 'Rental unit in Madrid · ★4.63 · 1 bedroom · 2 beds · 1 bath', 'host_id': 130907, 'host_name': 'Dana', 'neighbourhood_group': 'Centro', 'neighbourhood': 'Sol', 'latitude': 40.41476, 'longitude': -3.70418, 'room_type': 'Entire home/apt', 'price': 65, 'minimum_nights': 5, 'number_of_reviews': 172, 'last_review': datetime.datetime(2022, 9, 26, 0, 0), '

In [10]:
# Crear un índice en el campo 'desc_barrio_local' en las otras colecciones
mycol_economica.create_index([('desc_barrio_local', ASCENDING)])
mycol_locales.create_index([('desc_barrio_local', ASCENDING)])
mycol_licencias.create_index([('desc_barrio_local', ASCENDING)])
mycol_terrazas.create_index([('desc_barrio_local', ASCENDING)])

'desc_barrio_local_1'

4. Para mostrar la eficiencia de tu nuevo modelo de datos, construye y ejecuta 
las siguientes consultas: 
a. El total de alojamientos, locales y terrazas por Distrito y Barrio. 
b. Los barrios con mayor número de alojamientos y terrazas con licencias 
concedidas en los últimos dos años (se quiere analizar la posibilidad de 
ampliar el número de alojamientos). 
c. Los alojamientos con más reseñas por barrio y el número de locales 
con actividad comercial cercanos a dichos alojamientos (establece tú 
el umbral para definir “más reseñas”). 
d. Diferenciar los tipos de alojamientos por barrio, teniendo en cuenta el 
precio, reseñas, el número de habitaciones y los servicios de cada 
alojamiento.

a. El total de alojamientos, locales y terrazas por Distrito y Barrio. 

In [17]:
pipeline_a = [
    {
        '$group': {
            '_id': {'distrito': '$desc_distrito_local', 'barrio': '$desc_barrio_local'},
            'total_alojamientos': {'$sum': 1}
        }
    }
]
resultados_a = coleccion_alojamientos.aggregate(pipeline_a)
for res in resultados_a:
    print(res)

b. Los barrios con mayor número de alojamientos y terrazas con licencias 
concedidas en los últimos dos años (se quiere analizar la posibilidad de 
ampliar el número de alojamientos). 

In [18]:
pipeline_b = [
    {
        '$match': {
            'desc_situacion_terraza': 'Concedida',
            'Fecha_confir_ult_decreto_resol': {'$gte': '2022-01-01'}
        }
    },
    {
        '$group': {
            '_id': '$desc_barrio_local',
            'total_terrazas': {'$sum': 1}
        }
    },
    {
        '$sort': {'total_terrazas': -1}
    }
]
resultados_b = mycol_terrazas.aggregate(pipeline_b)

for res in resultados_b:
    print(res)

c. Los alojamientos con más reseñas por barrio y el número de locales 
con actividad comercial cercanos a dichos alojamientos (establece tú 
el umbral para definir “más reseñas”). 

In [19]:
pipeline_c = [
    {
        '$match': {
            'number_of_reviews': {'$gte': 100}  # Establece aquí tu umbral para "más reseñas"
        }
    },
    {
        '$lookup': {
            'from': 'locales',
            'localField': 'neighbourhood',
            'foreignField': 'desc_barrio_local',
            'as': 'locales_cercanos'
        }
    },
    {
        '$project': {
            'neighbourhood': 1,
            'number_of_reviews': 1,
            'num_locales_cercanos': {'$size': '$locales_cercanos'}
        }
    }
]
resultados_c = coleccion_alojamientos.aggregate(pipeline_c)


for res in resultados_c:
    print(res)

{'_id': ObjectId('65c8fbf5ff639b3d17edf29e'), 'neighbourhood': 'Hispanoamérica', 'number_of_reviews': 106, 'num_locales_cercanos': 0}
{'_id': ObjectId('65c8fbf5ff639b3d17edf29f'), 'neighbourhood': 'Sol', 'number_of_reviews': 172, 'num_locales_cercanos': 0}
{'_id': ObjectId('65c8fbf5ff639b3d17edf2a3'), 'neighbourhood': 'Legazpi', 'number_of_reviews': 196, 'num_locales_cercanos': 0}
{'_id': ObjectId('65c8fbf5ff639b3d17edf2a5'), 'neighbourhood': 'Justicia', 'number_of_reviews': 135, 'num_locales_cercanos': 0}
{'_id': ObjectId('65c8fbf5ff639b3d17edf2a7'), 'neighbourhood': 'Universidad', 'number_of_reviews': 142, 'num_locales_cercanos': 0}
{'_id': ObjectId('65c8fbf5ff639b3d17edf2a8'), 'neighbourhood': 'Cortes', 'number_of_reviews': 192, 'num_locales_cercanos': 0}
{'_id': ObjectId('65c8fbf5ff639b3d17edf2a9'), 'neighbourhood': 'Embajadores', 'number_of_reviews': 181, 'num_locales_cercanos': 0}
{'_id': ObjectId('65c8fbf5ff639b3d17edf2aa'), 'neighbourhood': 'Justicia', 'number_of_reviews': 174,

d. Diferenciar los tipos de alojamientos por barrio, teniendo en cuenta el 
precio, reseñas, el número de habitaciones y los servicios de cada 
alojamiento.

In [20]:
pipeline_d = [
    {
        '$group': {
            '_id': {'barrio': '$neighbourhood', 'tipo': '$room_type'},
            'precio_promedio': {'$avg': '$price'},
            'reseñas_promedio': {'$avg': '$number_of_reviews'},
            'habitaciones_promedio': {'$avg': '$bedrooms'},  # Asegúrate de que tienes un campo 'bedrooms' en tu colección
            'servicios_promedio': {'$avg': '$amenities'}  # Asegúrate de que tienes un campo 'amenities' en tu colección
        }
    }
]
resultados_d = coleccion_alojamientos.aggregate(pipeline_d)

for res in resultados_d:
    print(res)

{'_id': {'barrio': 'Pinar del Rey', 'tipo': 'Entire home/apt'}, 'precio_promedio': 129.43636363636364, 'reseñas_promedio': 41.71875, 'habitaciones_promedio': None, 'servicios_promedio': None}
{'_id': {'barrio': 'Castillejos', 'tipo': 'Entire home/apt'}, 'precio_promedio': 345.58490566037733, 'reseñas_promedio': 22.942196531791907, 'habitaciones_promedio': None, 'servicios_promedio': None}
{'_id': {'barrio': 'El Pardo', 'tipo': 'Entire home/apt'}, 'precio_promedio': 237.0, 'reseñas_promedio': 0.0, 'habitaciones_promedio': None, 'servicios_promedio': None}
{'_id': {'barrio': 'Cármenes', 'tipo': 'Shared room'}, 'precio_promedio': 500.0, 'reseñas_promedio': 1.0, 'habitaciones_promedio': None, 'servicios_promedio': None}
{'_id': {'barrio': 'Santa Eugenia', 'tipo': 'Entire home/apt'}, 'precio_promedio': 84.0, 'reseñas_promedio': 61.0, 'habitaciones_promedio': None, 'servicios_promedio': None}
{'_id': {'barrio': 'Bellas Vistas', 'tipo': 'Shared room'}, 'precio_promedio': 45.0, 'reseñas_promed

RETO 3 – VISUALIZA LOS DATOS 


1. Diseña un modelo de grafo que represente los diferentes locales, terrazas y 
alojamientos por cada barrio de Madrid. 
a. Describe los nodos que utilizarías, así como sus atributos. 
b. Propón posibles etiquetas que ayuden a consultar el grafo. 
c. Propón las relaciones que utilizarías, así como sus atributos.

a. Describe los nodos que utilizarías, así como sus atributos.

Nodo Alojamiento: Este nodo representaría cada alojamiento individual en el CSV de ‘Listing’. Los atributos podrían ser "id, name, neighbourhood, room_type"
Nodo Terraza: Este nodo representaría cada terraza individual en el CSV de ‘Terrazas’. Los atributos podrían ser "id_terraza, id_local, desc_barrio_local, rotulo"
Nodo Local: Este nodo representaría cada local individual en el CSV de ‘Locales’. Los atributos podrían ser "id_local, desc_barrio_local, rotulo"

b. Propón posibles etiquetas que ayuden a consultar el grafo. 

Alojamiento: Esta etiqueta se podría aplicar a los nodos que representan alojamientos individuales, se podría usarla para realizar consultas que se centren en los alojamientos.
Terraza: Esta etiqueta se podría aplicar a los nodos que representan terrazas individuales, se podría usar para realizar consultas que se centren en las terrazas.
Local: Esta etiqueta se podría aplicar a los nodos que representan locales individuales, se podría usarla para realizar consultas que se centren en los locales.

Voy a utilizar los nodos de Listing, Terrazas y locales

In [11]:
URI = "bolt://localhost:7687"
AUTH = ("neo4j", "123")

with GraphDatabase.driver(URI, auth=AUTH) as driver:
    driver.verify_connectivity()

Importo el csv de listings

In [9]:
records, summary, keys = driver.execute_query(
    "LOAD CSV WITH HEADERS FROM 'file:///listings.csv' AS csv_line FIELDTERMINATOR ';' CREATE (e:listings { id: toInteger(csv_line.id), name: csv_line.name, neighbourhood: csv_line.neighbourhood, room_type: csv_line.room_type})",
    database_="neo4j",
)

  records, summary, keys = driver.execute_query(
Failed to write data to connection IPv4Address(('localhost', 7687)) (ResolvedIPv4Address(('127.0.0.1', 7687)))


Importo el csv de locales

In [13]:
records, summary, keys = driver.execute_query(
    "LOAD CSV WITH HEADERS FROM 'file:///locales202312.csv' AS row FIELDTERMINATOR ';' CREATE (l:Local {id: row.id_local, neighbourhood: row.desc_barrio_local, rotulo: row.rotulo})",
    database_="neo4j",
)

  records, summary, keys = driver.execute_query(


Importo el csv de terrazas

In [None]:
records, summary, keys = driver.execute_query(
    "LOAD CSV WITH HEADERS FROM 'file:///terrazas202312.csv' AS row FIELDTERMINATOR ';' CREATE (t:Terraza {id: toInteger(row.id_terraza), id_local: toInteger(row.id_local),  neighbourhood: row.desc_barrio_local, rotulo: row.rotulo})",
    database_="neo4j",
)

In [8]:
# Loop through results and do something with them
for local in locales:
    print(local)

# Summary information
print("The query `{query}` returned {records_count} records in {time} ms.".format(
    query=summary.query, records_count=len(records),
    time=summary.result_available_after,
))

The query `LOAD CSV WITH HEADERS FROM 'file:///locales202312.csv' AS csv_line FIELDTERMINATOR ';' CREATE (l:locales { id: toInteger(csv_line.id_local), barrio_local: csv_line.desc_barrio_local, cord_x: csv_line.coordenada_x_local, cod_y: csv_line.coordenada_y_local, tipo_acceso_local: csv_line.desc_tipo_acceso_local, situacion_local: csv_line.desc_situacion_local})` returned 0 records in 1583 ms.
