In [6]:
import pandas as pd
import folium
import xml.etree.ElementTree as ET

### Alojamientos

In [11]:
# Leer xml de hoteles
tree = ET.parse('alojamientos_v1_es.xml')
root = tree.getroot()

data = []

for service in root.findall("service"):
    alojamiento = {}

    alojamiento['id'] = service.attrib.get('id')
    alojamiento['fechaActualizacion'] = service.attrib.get('fechaActualizacion')

    # Datos básicos
    basic_data = service.find("basicData")
    alojamiento["nombre"] = basic_data.find("name").text if basic_data.find("name") is not None else None
    alojamiento["email"] = basic_data.find("email").text if basic_data.find("email") is not None else None
    alojamiento["telefono"] = basic_data.find("phone").text if basic_data.find("phone") is not None else None
    alojamiento["web"] = basic_data.find("web").text if basic_data.find("web") is not None else None

    # Datos geográficos
    geo_data = service.find("geoData")
    alojamiento["direccion"] = geo_data.find("address").text if geo_data.find("address") is not None else None
    alojamiento["codigo_postal"] = geo_data.find("zipcode").text if geo_data.find("zipcode") is not None else None
    alojamiento["localidad"] = geo_data.find("locality").text if geo_data.find("locality") is not None else None
    alojamiento["pais"] = geo_data.find("country").text if geo_data.find("country") is not None else None
    alojamiento["latitud"] = geo_data.find("latitude").text if geo_data.find("latitude") is not None else None
    alojamiento["longitud"] = geo_data.find("longitude").text if geo_data.find("longitude") is not None else None

    # Categorías y subcategorías
    categoria = service.find(".//categoria/item[@name='Categoria']")
    subcategoria = service.find(".//subcategoria/item[@name='SubCategoria']")
    alojamiento["categoria"] = categoria.text if categoria is not None else None
    alojamiento["subcategoria"] = subcategoria.text if subcategoria is not None else None

    # Multimedia (solo guardar el primer enlace como ejemplo)
    multimedia = service.findall(".//media[@type='image']")
    alojamiento["imagen"] = multimedia[0].find("url").text if multimedia else None

    # Añadir los datos del alojamiento a la lista
    data.append(alojamiento)

# Crear un DataFrame con los datos extraídos
df_alojamientos = pd.DataFrame(data)

# Mostrar las primeras filas
df_alojamientos.head()


Unnamed: 0,id,fechaActualizacion,nombre,email,telefono,web,direccion,codigo_postal,localidad,pais,latitud,longitud,categoria,subcategoria,imagen
0,105932,2025-01-07,Brach Madrid,booking@brachmadrid.com,+34 915 463 639,https://www.esmadrid.com/alojamientos/brach-ma...,"Gran Vía, 20",28004,Madrid,Spain,40.4200581,-3.7000627,Hoteles,5 estrellas,https://estaticos.esmadrid.com/cdn/farfuture/8...
1,105834,2025-01-07,"El Autor Hotel Madrid, Autograph Collection",,+34 91-7360105,https://www.esmadrid.com/alojamientos/autor-ho...,"de Zorrilla 19,",28014,Madrid,Spain,40.4169768,-3.6963031,Hoteles,5 estrellas,https://estaticos.esmadrid.com/cdn/farfuture/H...
2,105680,2024-11-14,The Loft Hostel Madrid Lavapi&eacute;s,madridlavapies@thelofthostels.com,+ 34 900264222,https://www.esmadrid.com/alojamientos/loft-hos...,"de la Esperanza, 4,",28012,Madrid,Spain,40.4100651,-3.7005546,Albergues,,https://estaticos.esmadrid.com/cdn/farfuture/w...
3,105300,2024-09-12,INNSiDE by Meli&aacute; Madrid Valdebebas,Innside.valdebebas@melia.com,+34 91 335 82 48,https://www.esmadrid.com/alojamientos/innside-...,"de José Antonio Fernández Ordóñez, 55",28055,,Spain,40.4913941,-3.6082354,Hoteles,4 estrellas,https://estaticos.esmadrid.com/cdn/farfuture/U...
4,105137,2024-09-19,Ibis Madrid Aeropuerto Barajas,H3753@accor.com,(+34) 91 301 09 99,https://www.esmadrid.com/alojamientos/ibis-mad...,"General, 49",28042,,Spain,40.4699429,-3.5806809,Hostales,2 estrellas,https://estaticos.esmadrid.com/cdn/farfuture/u...


In [None]:
# Filtrar valores no válidos
df_alojamientos = df_alojamientos.dropna(subset=['latitud', 'longitud'])
df_alojamientos['latitud'] = pd.to_numeric(df_alojamientos['latitud'], errors='coerce')
df_alojamientos['longitud'] = pd.to_numeric(df_alojamientos['longitud'], errors='coerce')
df_alojamientos = df_alojamientos.dropna(subset=['latitud', 'longitud'])

In [29]:
df_alojamientos.to_csv('alojamientos_madrid_limpio.csv', sep=';', index=False)

### Restaurantes

In [10]:
# Leer xml de restaurantes
tree = ET.parse('restaurantes_v1_es.xml')
root = tree.getroot()

data = []

for service in root.findall("service"):
    restaurante = {}

    restaurante['id'] = service.attrib.get('id')
    restaurante['fechaActualizacion'] = service.attrib.get('fechaActualizacion')

    # Datos básicos
    basic_data = service.find("basicData")
    restaurante["idioma"] = basic_data.find("language").text if basic_data.find("language") is not None else None
    restaurante["nombre"] = basic_data.find("name").text if basic_data.find("name") is not None else None
    restaurante["email"] = basic_data.find("email").text if basic_data.find("email") is not None else None
    restaurante["telefono"] = basic_data.find("phone").text if basic_data.find("phone") is not None else None
    restaurante["web"] = basic_data.find("web").text if basic_data.find("web") is not None else None

    # Datos geográficos
    geo_data = service.find("geoData")
    restaurante["direccion"] = geo_data.find("address").text if geo_data.find("address") is not None else None
    restaurante["codigo_postal"] = geo_data.find("zipcode").text if geo_data.find("zipcode") is not None else None
    restaurante["localidad"] = geo_data.find("locality").text if geo_data.find("locality") is not None else None
    restaurante["pais"] = geo_data.find("country").text if geo_data.find("country") is not None else None
    restaurante["latitud"] = geo_data.find("latitude").text if geo_data.find("latitude") is not None else None
    restaurante["longitud"] = geo_data.find("longitude").text if geo_data.find("longitude") is not None else None

    # Categorías y subcategorías
    categorias = service.findall(".//categoria/item[@name='Categoria']")
    subcategorias = service.findall(".//subcategoria/item[@name='SubCategoria']")
    restaurante["categorias"] = ", ".join([c.text for c in categorias if c is not None])
    restaurante["subcategorias"] = ", ".join([s.text for s in subcategorias if s is not None])

    # Multimedia (solo guardar el primer enlace como ejemplo)
    multimedia = service.findall(".//media[@type='image']")
    restaurante["imagen"] = multimedia[0].find("url").text if multimedia else None

    # Horario
    horario = service.find(".//item[@name='Horario']")
    restaurante["horario"] = horario.text if horario is not None else None

    # Añadir los datos del restaurante a la lista
    data.append(restaurante)

# Crear un DataFrame con los datos extraídos
df_restaurantes = pd.DataFrame(data)

df_restaurantes.head()

Unnamed: 0,id,fechaActualizacion,idioma,nombre,email,telefono,web,direccion,codigo_postal,localidad,pais,latitud,longitud,categorias,subcategorias,imagen,horario
0,105922,2024-12-11,es,Roostiq Bar,,(+34) 91 949 67 10,https://www.esmadrid.com/restaurantes/roostiq-bar,"del Barquillo, 40",,,Spain,40.4239333,-3.6954625,"Bares, Tapas, Española","Gastrobares, Mediterránea",https://estaticos.esmadrid.com/cdn/farfuture/a...,<p>Lun - Dom: 13:15 - 24:00 h (cocina) / hasta...
1,105886,2024-12-26,es,Experiencity Express Train,info@experiencity.es,(+34) 610 42 48 80,https://www.esmadrid.com/restaurantes/experien...,"de Vicente Espinel, 12",28017.0,,Spain,40.4350198,-3.6411227,Internacional,,https://estaticos.esmadrid.com/cdn/farfuture/e...,<p>Según la reserva.</p>
2,105884,2024-12-26,es,Pilar Akaneya,,(+34) 91 330 76 99,https://www.esmadrid.com/restaurantes/pilar-ak...,"de Espronceda, 33",28003.0,,Spain,40.4405867,-3.6949022,Internacional,Japonesa,https://estaticos.esmadrid.com/cdn/farfuture/g...,<p>Horario de reservas:</p><p>Lun - Vier: 19:3...
3,105855,2025-01-07,es,Tramo,tramo@espaciotramo.com,(+34) 620 09 98 81,https://www.esmadrid.com/restaurantes/tramo,"de Eugenio Salazar, 56",28002.0,,Spain,40.4482027,-3.6754054,Española,De temporada,https://estaticos.esmadrid.com/cdn/farfuture/2...,<p>Mar - Sáb: 13:30 - 15:30 h / 20:00 - 22:30 ...
4,105854,2024-12-26,es,Varra,contacto@varrarestaurante.com,(+34) 634 234 745,https://www.esmadrid.com/restaurantes/varra,"de Hermosilla, 7",28001.0,,Spain,40.4266397,-3.688344,"Tabernas, Española","De temporada, Madrileña, Tradicional renovada",https://estaticos.esmadrid.com/cdn/farfuture/K...,<p><strong>Varra Fina (taberna): </strong></p>...


In [19]:
# Filtrar valores no válidos
df_restaurantes = df_restaurantes.dropna(subset=['latitud', 'longitud'])
df_restaurantes['latitud'] = pd.to_numeric(df_restaurantes['latitud'], errors='coerce')
df_restaurantes['longitud'] = pd.to_numeric(df_restaurantes['longitud'], errors='coerce')
df_restaurantes = df_restaurantes.dropna(subset=['latitud', 'longitud'])

In [21]:
from bs4 import BeautifulSoup

# Función para limpiar HTML
def clean_html(html):
    if pd.notnull(html):  # Verificar que no sea NaN
        return BeautifulSoup(html, "html.parser").get_text(strip=True)
    return None  # Manejar valores nulos

# Limpiar la columna de horarios
df_restaurantes['horario'] = df_restaurantes['horario'].apply(clean_html)

# Verificar el resultado
df_restaurantes[['horario']].head()


Unnamed: 0,horario
0,Lun - Dom: 13:15 - 24:00 h (cocina) / hasta la...
1,Según la reserva.
2,Horario de reservas:Lun - Vier: 19:30 - 23:30 ...
3,Mar - Sáb: 13:30 - 15:30 h / 20:00 - 22:30 h
4,Varra Fina (taberna):Lun - Jue: 13:30 - 15:00 ...


In [28]:
df_restaurantes.to_csv('restaurantes_madrid_limpio.csv', sep=';', index=False)

In [25]:
# Crear popups personalizados para cada restaurante
popups_restaurantes = []

for _, row in df_restaurantes.iterrows():
    popup_content = f"""
    <div style="width: 300px;">
        <h4>{row['nombre']}</h4>
        <p><strong>Horario:</strong> {row['horario']}</p>
        <p><strong>Teléfono:</strong> {row['telefono']}</p>
        <p><strong>Tipo:</strong> {row['categorias']}</p>
        <p><a href="{row['web']}" target="_blank">Ver más información</a></p>
    </div>
    """
    popups_restaurantes.append(folium.Popup(popup_content, max_width=300))


### Mapa

In [27]:
import folium.plugins

# Crear el mapa centrado en Madrid
m = folium.Map([40.428, -3.76], zoom_start=12)

# Añadir los alojamientos como una capa GeoJson
alojamientos_layer = folium.FeatureGroup(name='Alojamientos', show=True)

# Añadir markers de alojamientos
locations = list(zip(df_alojamientos.latitud, df_alojamientos.longitud))
cluster = folium.plugins.MarkerCluster(locations=locations,                     
               popups=df_alojamientos["nombre"].tolist())

alojamientos_layer.add_child(cluster)


# Agregar la capa al mapa
alojamientos_layer.add_to(m)


# Añadir los restaurantes como una capa GeoJson
restaurantes_layer = folium.FeatureGroup(name='Restaurantes', show=True)

# Añadir markers de restaurantes
locations = list(zip(df_restaurantes.latitud, df_restaurantes.longitud))
cluster_restaur = folium.plugins.MarkerCluster(locations=locations,                     
               popups=popups_restaurantes)

restaurantes_layer.add_child(cluster_restaur)


# Agregar la capa al mapa
restaurantes_layer.add_to(m)



# Añadir el control de capas para activar/desactivar las capas
folium.LayerControl().add_to(m)

# Guardar y mostrar el mapa
m.save('mapa_restauracion.html')
m