<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio API's 

SetMagic Productions es una empresa especializada en la provisión de servicios integrales para la realización de rodajes cinematográficos y audiovisuales. Nos dedicamos a facilitar tanto el atrezzo necesario para las producciones como los lugares idóneos para llevar a cabo los rodajes, ya sea en entornos al aire libre o en interiores.

**Servicios Ofrecidos:**

- **Atrezzo Creativo:** Contamos con un extenso catálogo de atrezzo que abarca desde accesorios hasta muebles y objetos temáticos para ambientar cualquier tipo de  escena.

- **Locaciones Únicas:** Nuestra empresa ofrece una amplia selección de locaciones, que incluyen desde escenarios naturales como playas, bosques y montañas, hasta espacios interiores como estudios, casas históricas y edificios emblemáticos.

- **Servicios de Producción:** Además de proporcionar atrezzo y locaciones, también ofrecemos servicios de producción audiovisual, incluyendo equipos de filmación, personal técnico y servicios de postproducción.

**Herramientas y Tecnologías:**

Para recopilar información sobre nuevas locaciones y tendencias en atrezzo, utilizamos herramientas de web scraping como Beautiful Soup y Selenium para extraer datos de sitios web relevantes y redes sociales especializadas en cine y producción audiovisual. También integramos APIs de plataformas de alquiler de locaciones y bases de datos de atrezzo para acceder a información actualizada y detallada.

**Almacenamiento de Datos:**

La información recopilada mediante web scraping y APIs se almacena en una base de datos no relacional MongoDB. Esta base de datos nos permite organizar eficientemente la información sobre locaciones, atrezzo, clientes y proyectos en curso, facilitando su acceso y gestión.

**Objetivo:**

Nuestro objetivo principal es proporcionar a nuestros clientes una experiencia fluida y personalizada en la búsqueda y selección de locaciones y atrezzo para sus proyectos audiovisuales. Utilizando tecnologías avanzadas y una amplia red de contactos en la industria, nos esforzamos por ofrecer soluciones creativas y de alta calidad que satisfagan las necesidades específicas de cada producción.


# Lab: APIs y Obtención de Datos de Localizaciones para Rodajes

En este laboratorio aprenderás a utilizar APIs para obtener información sobre localizaciones de rodaje en la Comunidad de Madrid. A lo largo de este ejercicio, implementarás funciones que te permitirán extraer coordenadas, buscar lugares de interés y almacenar la información en un formato que puedas reutilizar.

## Objetivo

Obtener información geográfica y sobre posibles localizaciones para rodajes en diferentes municipios de la Comunidad de Madrid, utilizando APIs como **Geopy** y **Foursquare**.

### Paso 1: Obtener Coordenadas de los Municipios

Primero, necesitas obtener las coordenadas geográficas (latitud y longitud) de cada municipio en la Comunidad de Madrid. Para esto, utilizarás la biblioteca **Geopy** y su funcionalidad para geocodificar. La lista de los municipios de la Comunidad de Madrid es:

```python
lista_municipios = ['acebeda-la', 'ajalvir', 'alameda-del-valle', 'alamo-el', 'alcala-de-henares', 'alcobendas', 'alcorcon', 'aldea-del-fresno', 'algete', 'alpedrete', 'ambite', 'anchuelo', 'aranjuez', 'arganda-del-rey', 'arroyomolinos', 'atazar-el', 'batres', 'becerril-de-la-sierra', 'belmonte-de-tajo', 'berrueco-el', 'berzosa-del-lozoya', 'boadilla-del-monte', 'boalo-el', 'braojos', 'brea-de-tajo', 'brunete', 'buitrago-del-lozoya', 'bustarviejo', 'cabanillas-de-la-sierra', 'cabrera-la', 'cadalso-de-los-vidrios', 'camarma-de-esteruelas', 'campo-real', 'canencia', 'carabana', 'casarrubuelos', 'cenicientos', 'cercedilla', 'cervera-de-buitrago', 'chapineria', 'chinchon', 'ciempozuelos', 'cobena', 'collado-mediano', 'collado-villalba', 'colmenar-del-arroyo', 'colmenar-de-oreja', 'colmenarejo', 'colmenar-viejo', 'corpa', 'coslada', 'cubas-de-la-sagra', 'daganzo-de-arriba', 'escorial-el', 'estremera', 'fresnedillas-de-la-oliva', 'fresno-de-torote', 'fuenlabrada', 'fuente-el-saz-de-jarama', 'fuentiduena-de-tajo', 'galapagar', 'garganta-de-los-montes', 'gargantilla-del-lozoya-y-pinilla-de-buitrago', 'gascones', 'getafe', 'grinon', 'guadalix-de-la-sierra', 'guadarrama', 'hiruela-la', 'horcajo-de-la-sierra-aoslos', 'horcajuelo-de-la-sierra', 'hoyo-de-manzanares', 'humanes-de-madrid', 'leganes', 'loeches', 'lozoya', 'lozoyuela-navas-sieteiglesias', 'madarcos', 'madrid', 'majadahonda', 'manzanares-el-real', 'meco', 'mejorada-del-campo', 'miraflores-de-la-sierra', 'molar-el', 'molinos-los', 'montejo-de-la-sierra', 'moraleja-de-enmedio', 'moralzarzal', 'morata-de-tajuna', 'mostoles', 'navacerrada', 'navalafuente', 'navalagamella', 'navalcarnero', 'navarredonda-y-san-mames', 'navas-del-rey', 'nuevo-baztan', 'olmeda-de-las-fuentes', 'orusco-de-tajuna', 'paracuellos-de-jarama', 'parla', 'patones', 'pedrezuela', 'pelayos-de-la-presa', 'perales-de-tajuna', 'pezuela-de-las-torres', 'pinilla-del-valle', 'pinto', 'pinuecar-gandullas', 'pozuelo-de-alarcon', 'pozuelo-del-rey', 'pradena-del-rincon', 'puebla-de-la-sierra', 'puentes-viejas-manjiron', 'quijorna', 'rascafria', 'reduena', 'ribatejada', 'rivas-vaciamadrid', 'robledillo-de-la-jara', 'robledo-de-chavela', 'robregordo', 'rozas-de-madrid-las', 'rozas-de-puerto-real', 'san-agustin-del-guadalix', 'san-fernando-de-henares', 'san-lorenzo-de-el-escorial', 'san-martin-de-la-vega', 'san-martin-de-valdeiglesias', 'san-sebastian-de-los-reyes', 'santa-maria-de-la-alameda', 'santorcaz', 'santos-de-la-humosa-los', 'serna-del-monte-la', 'serranillos-del-valle', 'sevilla-la-nueva', 'somosierra', 'soto-del-real', 'talamanca-de-jarama', 'tielmes', 'titulcia', 'torrejon-de-ardoz', 'torrejon-de-la-calzada', 'torrejon-de-velasco', 'torrelaguna', 'torrelodones', 'torremocha-de-jarama', 'torres-de-la-alameda', 'tres-cantos', 'valdaracete', 'valdeavero', 'valdelaguna', 'valdemanco', 'valdemaqueda', 'valdemorillo', 'valdemoro', 'valdeolmos-alalpardo', 'valdepielagos', 'valdetorres-de-jarama', 'valdilecha', 'valverde-de-alcala', 'velilla-de-san-antonio', 'vellon-el', 'venturada', 'villaconejos', 'villa-del-prado', 'villalbilla', 'villamanrique-de-tajo', 'villamanta', 'villamantilla', 'villanueva-de-la-canada', 'villanueva-del-pardillo', 'villanueva-de-perales', 'villar-del-olmo', 'villarejo-de-salvanes', 'villaviciosa-de-odon', 'villavieja-del-lozoya', 'zarzalejo']
```

1. Instalar y configurar la biblioteca de Geopy para realizar la geocodificación.

2. Crear una función que reciba una lista de municipios y devuelva un DataFrame con los nombres de los municipios y sus respectivas coordenadas (latitud y longitud).

3. Validar los datos obtenidos para verificar si hay municipios sin coordenadas y resolver posibles problemas, como nombres incorrectos o faltantes.


### Paso 2: Buscar Localizaciones Relevantes con la API de Foursquare

Una vez obtenidas las coordenadas de los municipios, utilizarás la API de Foursquare para buscar servicios que pueden ser importantes en un rodaje (ej: parques, edificios históricos, plazas).

En este punto es importante que reflexiones sobre los servicios o establecimientos clave que considerarías relevantes para establecer una empresa de servicios para rodajes. No hay una única respuesta correcta, ya que depende de la estrategia y visión que tengas. Al menos deberás elegir 5 tipos de servicios que puedan influir en la decisión de ubicación. Ejemplos de estos servicios pueden incluir:

- Parques o áreas verdes para rodajes exteriores.

- Centros comerciales que faciliten acceso a diferentes necesidades logísticas.

- Bares o restaurantes para el catering del equipo.

- Tiendas especializadas en disfraces o vestuario.

- Alquileres de equipos audiovisuales.

Es crucial entender que esta selección depende de la naturaleza y enfoque de la empresa. Tal vez para algunos proyectos sea más importante estar cerca de áreas residenciales o lugares con buena conexión de transporte. Otros proyectos podrían priorizar la proximidad a tiendas especializadas o servicios de entretenimiento. Es vuestra decisión! 

1. Crear una cuenta en [Foursquare](https://location.foursquare.com/developer/) y obtener la API Key necesaria para realizar las solicitudes. Leer la documentación para entender como funciona. 

2. Definir una función para realizar búsquedas de lugares cercanos a las coordenadas de cada municipio. Esta función debe permitir filtrar los resultados por categoría y distancia.

3. Explorar las categorías disponibles en Foursquare y seleccionar aquellas que se ajusten a los servicios clave que decidáis para vuestra estrategia.

4. Aplicar la función de búsqueda a cada municipio, recopilando información sobre los lugares relevantes.

Recuerda que la elección de categorías es un punto de análisis clave en este ejercicio, ya que la información que obtendréis será fundamental para decidir la ubicación ideal para vuestra empresa. Aseguraos de justificar vuestras decisiones y considerar diferentes perspectivas. Para cada una de los municipios deberás sacar la información de todos los servicios elegidos. 

### Paso 3: Limpieza de la Información

La información obtenida de Foursquare puede incluir muchos detalles innecesarios. Tu objetivo es quedarte únicamente con los campos relevantes para tu análisis (nombre, dirección, coordenadas, tipo de lugar, etc.).


1. Explorar la estructura de los datos obtenidos para identificar los campos importantes y limpiar la información.

2. Eliminar duplicados y valores nulos para garantizar la consistencia y calidad de los datos.

### Paso 4: Almacenamiento de los Datos

Una vez que tengas la información limpia y organizada, almacénala en un archivo CSV que puedas reutilizar en futuros análisis.


In [1]:
from geopy.geocoders import Nominatim
import time 
import dotenv
from tqdm import tqdm
import requests
import os
import pandas as pd
import seaborn as sns
import os

import warnings
warnings.filterwarnings('ignore')

from geopy.geocoders import OpenCage

from src.support_func import get_coords, look_for

dotenv.load_dotenv()

True

## Paso 1. Obtención de coordenadas.

In [2]:
token = os.getenv("token")
geolocator = OpenCage(api_key=token)

In [3]:
lista_municipios = ['acebeda-la', 'ajalvir', 'alameda-del-valle', 'alamo-el', 'alcala-de-henares', 'alcobendas', 'alcorcon', 'aldea-del-fresno', 'algete', 'alpedrete', 'ambite', 'anchuelo', 'aranjuez', 'arganda-del-rey', 'arroyomolinos', 'atazar-el', 'batres', 'becerril-de-la-sierra', 'belmonte-de-tajo', 'berrueco-el', 'berzosa-del-lozoya', 'boadilla-del-monte', 'boalo-el', 'braojos', 'brea-de-tajo', 'brunete', 'buitrago-del-lozoya', 'bustarviejo', 'cabanillas-de-la-sierra', 'cabrera-la', 'cadalso-de-los-vidrios', 'camarma-de-esteruelas', 'campo-real', 'canencia', 'carabana', 'casarrubuelos', 'cenicientos', 'cercedilla', 'cervera-de-buitrago', 'chapineria', 'chinchon', 'ciempozuelos', 'cobena', 'collado-mediano', 'collado-villalba', 'colmenar-del-arroyo', 'colmenar-de-oreja', 'colmenarejo', 'colmenar-viejo', 'corpa', 'coslada', 'cubas-de-la-sagra', 'daganzo-de-arriba', 'escorial-el', 'estremera', 'fresnedillas-de-la-oliva', 'fresno-de-torote', 'fuenlabrada', 'fuente-el-saz-de-jarama', 'fuentiduena-de-tajo', 'galapagar', 'garganta-de-los-montes', 'gargantilla-del-lozoya-y-pinilla-de-buitrago', 'gascones', 'getafe', 'grinon', 'guadalix-de-la-sierra', 'guadarrama', 'hiruela-la', 'horcajo-de-la-sierra-aoslos', 'horcajuelo-de-la-sierra', 'hoyo-de-manzanares', 'humanes-de-madrid', 'leganes', 'loeches', 'lozoya', 'lozoyuela-navas-sieteiglesias', 'madarcos', 'madrid', 'majadahonda', 'manzanares-el-real', 'meco', 'mejorada-del-campo', 'miraflores-de-la-sierra', 'molar-el', 'molinos-los', 'montejo-de-la-sierra', 'moraleja-de-enmedio', 'moralzarzal', 'morata-de-tajuna', 'mostoles', 'navacerrada', 'navalafuente', 'navalagamella', 'navalcarnero', 'navarredonda-y-san-mames', 'navas-del-rey', 'nuevo-baztan', 'olmeda-de-las-fuentes', 'orusco-de-tajuna', 'paracuellos-de-jarama', 'parla', 'patones', 'pedrezuela', 'pelayos-de-la-presa', 'perales-de-tajuna', 'pezuela-de-las-torres', 'pinilla-del-valle', 'pinto', 'pinuecar-gandullas', 'pozuelo-de-alarcon', 'pozuelo-del-rey', 'pradena-del-rincon', 'puebla-de-la-sierra', 'puentes-viejas-manjiron', 'quijorna', 'rascafria', 'reduena', 'ribatejada', 'rivas-vaciamadrid', 'robledillo-de-la-jara', 'robledo-de-chavela', 'robregordo', 'rozas-de-madrid-las', 'rozas-de-puerto-real', 'san-agustin-del-guadalix', 'san-fernando-de-henares', 'san-lorenzo-de-el-escorial', 'san-martin-de-la-vega', 'san-martin-de-valdeiglesias', 'san-sebastian-de-los-reyes', 'santa-maria-de-la-alameda', 'santorcaz', 'santos-de-la-humosa-los', 'serna-del-monte-la', 'serranillos-del-valle', 'sevilla-la-nueva', 'somosierra', 'soto-del-real', 'talamanca-de-jarama', 'tielmes', 'titulcia', 'torrejon-de-ardoz', 'torrejon-de-la-calzada', 'torrejon-de-velasco', 'torrelaguna', 'torrelodones', 'torremocha-de-jarama', 'torres-de-la-alameda', 'tres-cantos', 'valdaracete', 'valdeavero', 'valdelaguna', 'valdemanco', 'valdemaqueda', 'valdemorillo', 'valdemoro', 'valdeolmos-alalpardo', 'valdepielagos', 'valdetorres-de-jarama', 'valdilecha', 'valverde-de-alcala', 'velilla-de-san-antonio', 'vellon-el', 'venturada', 'villaconejos', 'villa-del-prado', 'villalbilla', 'villamanrique-de-tajo', 'villamanta', 'villamantilla', 'villanueva-de-la-canada', 'villanueva-del-pardillo', 'villanueva-de-perales', 'villar-del-olmo', 'villarejo-de-salvanes', 'villaviciosa-de-odon', 'villavieja-del-lozoya', 'zarzalejo']

In [4]:
location = geolocator.geocode("acebeda-la")

In [5]:
df_municipios = get_coords(lista_municipios, token = os.getenv("token"))

  0%|          | 0/179 [00:00<?, ?it/s]

100%|██████████| 179/179 [01:03<00:00,  2.80it/s]


Veamos si hay algún valor nulo en nuestras columnas.

In [6]:
df_municipios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 179 entries, 0 to 178
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Nombre    179 non-null    object 
 1   Latitud   179 non-null    float64
 2   Longitud  179 non-null    float64
dtypes: float64(2), object(1)
memory usage: 4.3+ KB


Hay un nombre repetido. Veamos qué ha pasado.

In [7]:
df_municipios["Nombre"].value_counts()

Nombre
San Lorenzo de El Escorial                      2
La Acebeda                                      1
Robregordo                                      1
Puentes Viejas                                  1
Quijorna                                        1
                                               ..
Gargantilla del Lozoya y Pinilla de Buitrago    1
Gascones                                        1
Getafe                                          1
Griñón                                          1
Zarzalejo (estación)                            1
Name: count, Length: 178, dtype: int64

In [8]:
df_municipios[df_municipios["Nombre"] == "San Lorenzo de El Escorial"]

Unnamed: 0,Nombre,Latitud,Longitud
53,San Lorenzo de El Escorial,40.589066,-4.147395
127,San Lorenzo de El Escorial,40.592667,-4.147164


In [9]:
import numpy as np

In [10]:
duplicado_id = df_municipios[df_municipios["Nombre"].duplicated(keep = False)]["Nombre"].index

In [11]:
lista_dup = list(np.array(lista_municipios)[duplicado_id])
escorial1 = geolocator.geocode(lista_dup[0])
escorial2 = geolocator.geocode(lista_dup[1])

In [12]:
escorial1

Location(Real Monasterio de San Lorenzo de El Escorial, Patio de Mascarones, 28200 San Lorenzo de El Escorial, Spain, (40.5890661, -4.1473949, 0.0))

In [13]:
escorial2

Location(San Lorenzo de El Escorial, Madrid, Spain, (40.5926673, -4.1471642, 0.0))

Vemos que uno corresponde al monasterio mientras que el otro al municipio de San Lorenzo de El Escorial. Podemos solucionar esto cambiando el nombre del monasterio.

In [14]:
df_municipios["Nombre"].iloc[duplicado_id[0]] = escorial1.raw["components"]["attraction"]

In [15]:
df_municipios.iloc[duplicado_id]

Unnamed: 0,Nombre,Latitud,Longitud
53,Real Monasterio de San Lorenzo de El Escorial,40.589066,-4.147395
127,San Lorenzo de El Escorial,40.592667,-4.147164


In [16]:
df_municipios[df_municipios["Nombre"].duplicated()]

Unnamed: 0,Nombre,Latitud,Longitud


Ya no hay más duplicados.

## Paso 2. Buscar Localizaciones con Foursquare

In [17]:
lalo = 0
rad = 5000
category_dict = {"Park" : 16032, "Camera Store" : 17024, "Costume Store" : 17031, "Performing Arts Venue" : 10035, "Shopping Mall" : 17114}

In [18]:
dict_info = dict(Nombre_Municipio = list(), Latitud = list(), Longitud = list(), Categoria = list(), Nombre_Lugar = list(), Direccion = list(), Distancia = list())
rad = 2000
for loc in tqdm(df_municipios.values):
    for cat in list(category_dict.values()):
        la = loc[1]
        lo = loc[2]
        lalo = ",".join([str(la), str(lo)])
        result = look_for(lalo, cat, rad, nres = 25, sort = "distance")
        # print(lalo, cat , rad)
        for res in result["results"]:
            dict_info["Nombre_Municipio"].append(loc[0])
            dict_info["Latitud"].append(la)
            dict_info["Longitud"].append(lo)
            
            dict_info["Categoria"].append(list(category_dict.keys())[list(category_dict.values()).index(cat)])

            dict_info["Nombre_Lugar"].append(res["name"])
            dict_info["Distancia"].append(res["distance"])
            try:
                dict_info["Direccion"].append(res["location"]["address"])
            except:
                dict_info["Direccion"].append(res["location"]["formatted_address"])


df_municipio_cat = pd.DataFrame(dict_info)


100%|██████████| 179/179 [05:21<00:00,  1.80s/it]


In [19]:
df_municipio_cat

Unnamed: 0,Nombre_Municipio,Latitud,Longitud,Categoria,Nombre_Lugar,Direccion,Distancia
0,Ajalvir,40.534230,-3.480782,Park,Chiquitin,Ajalvir Madrid,333
1,Ajalvir,40.534230,-3.480782,Park,Diverjungla,"Calle Segovia, 20",563
2,Ajalvir,40.534230,-3.480782,Park,Parque Infantil,,1724
3,Ajalvir,40.534230,-3.480782,Performing Arts Venue,Salón Municipal de Actos Socioculturales de la...,"Calle Fuente, s/n",139
4,El Álamo,40.230730,-3.990589,Park,Isla Perejil,28607 El Alamo Comunidad de Madrid,118
...,...,...,...,...,...,...,...
964,Villaviciosa de Odón,40.357379,-3.900233,Camera Store,Patricia Carrión E. Fotografía,"Calle Fuentecilla, 16",546
965,Villaviciosa de Odón,40.357379,-3.900233,Performing Arts Venue,Auditorio Teresa Berganza,"Avenida Príncipe de Asturias, 163",353
966,Villaviciosa de Odón,40.357379,-3.900233,Performing Arts Venue,Sonorizaciones Sanchi,"Avenida Villaviciosa, 25",1069
967,Zarzalejo (estación),40.539281,-4.162484,Park,Parque Pedro Rodríguez-Ponga,"Avenida de la Estación, 45",95


## 3. Limpieza de datos

Sin considerar las categorías, podemos comprobar la existencia de registros duplicados.

In [20]:
df_municipio_cat.drop(columns="Categoria").duplicated().sum()

0

Buena noticia, no tenemos ninguno. Esto puede deberse a que las categorías escogidas no son muy cercanas, es decir, un lugar no suele compartir categorías del diccionario de categorías. En caso de que hubieran duplicados, simplemente podríamos hacer:

In [21]:
# df_municipio_cat.drop(index = [df_municipio_cat[df_municipio_cat.drop(columns="Categoria").duplicated()].index], axis = 0)

Tampoco vemos nulos.

In [22]:
df_municipio_cat.isna().sum()

Nombre_Municipio    0
Latitud             0
Longitud            0
Categoria           0
Nombre_Lugar        0
Direccion           0
Distancia           0
dtype: int64

Y por último comprobemos los dtypes.

In [23]:
df_municipio_cat.dtypes

Nombre_Municipio     object
Latitud             float64
Longitud            float64
Categoria            object
Nombre_Lugar         object
Direccion            object
Distancia             int64
dtype: object

Todos los tipos son consistentes.

## Paso 4. Guardar datos.

Almacenamos los datos en un csv.

In [24]:
df_municipio_cat.to_csv("datos/df_municipio_cat.csv")