### dev_notebook_

This is your development environment...you may start:
- Exploring your data.
- Testing the ad-hoc methods.
- Designing your pipeline.

# Leemos set de datos
El objetivo de este punto es llegar a leer los datos y transformarlos en un dataframe de pandas

In [245]:
#Import libraries
import pandas as pd
import requests

In [246]:
#Leemos el csv de bicimad estaciones
df_bicimad = pd.read_csv("../data/bicimad_stations.csv", sep='\t')
df_bicimad.head()

Unnamed: 0.1,Unnamed: 0,id,name,light,number,address,activate,no_available,total_bases,dock_bikes,free_bases,reservations_count,geometry.type,geometry.coordinates
0,0,1,1a - Puerta del Sol A,3,1a,Puerta del Sol nº 1,1,1,30,0,0,0,Point,"[-3.7018341, 40.4172137]"
1,1,2,1b - Puerta del Sol B,3,1b,Puerta del Sol nº 1,1,1,30,0,0,0,Point,"[-3.701602938060457, 40.41731271011562]"
2,2,3,2 - Miguel Moya,3,2,Calle Miguel Moya nº 1,1,1,24,0,0,0,Point,"[-3.7058415, 40.4205886]"
3,3,4,3 - Plaza Conde Suchil,2,3,Plaza del Conde del Valle de Súchil nº 3,1,0,18,9,9,0,Point,"[-3.7069171, 40.4302937]"
4,4,5,4 - Malasaña,1,4,Calle Manuela Malasaña nº 5,1,0,24,23,1,0,Point,"[-3.7025875, 40.4285524]"


In [247]:
#Leemos el csv de bicipark estaciones
df_bicipark = pd.read_csv("../data/bicipark_stations.csv", sep=';')
df_bicipark.head()

Unnamed: 0.1,Unnamed: 0,stationId,stationName,address,city,zip_code,total_places,free_places,enabled,reserved_places,geometry.type,geometry.coordinates
0,0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,Madrid,28050,10,9,1,0,Point,"[-3.6630679, 40.4846838]"
1,1,22,Bicipark Orense,"Avenida General Perón, 27",Madrid,28020,15,9,1,1,Point,"[-3.693897, 40.452973]"
2,2,49,Bicipark Montalban,"Calle de Montalbán, 5",Madrid,28014,16,15,1,0,Point,"[-3.690786, 40.418146]"
3,3,12,Bicipark Almagro,"Calle Almagro, 11",Madrid,28010,16,12,1,0,Point,"[-3.692879, 40.430361]"
4,4,9,Bicipark Recoletos,"Paseo de Recoletos, 2",Madrid,28001,10,3,0,0,Point,"[-3.692245, 40.420354]"


In [248]:
#Construimos el url para coger el json de espacios deportivos
base_url = "https://datos.madrid.es/egob"
body = "/catalogo/212808-0-espacio-deporte.json"
response = requests.get(base_url + body)
print(response)

<Response [200]>


In [249]:
#Cogemos el content del json
content = response.content
json_data = response.json()

In [250]:
#Vemos las keys del json porque no construye un df partiendo del json
json_data.keys()

dict_keys(['@context', '@graph'])

In [251]:
#La información que nos interesa es la de la key de graph
df_deporte = pd.DataFrame(json_data['@graph'])

In [252]:
df_deporte.head()

Unnamed: 0,@id,@type,id,title,relation,address,location,organization
0,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,181447,Campo de Golf del Centro Nacional de Golf,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.4855081729451, 'longitude': -3...","{'organization-desc': ' Bus: 67, 82.', 'acces..."
1,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,4670,Campo de Golf del Club de Golf Olivar de la Hi...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.46896569497632, 'longitude': -...","{'organization-desc': ' Bus: 112.', 'accesi..."
2,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,7381184,Centro Comercial Dreams - Palacio Municipal de...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.46287225446314, 'longitude': -...",{'organization-desc': ' Metro: Canillas (líne...
3,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,7081762,Centro de Alto Rendimiento del Consejo Superio...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.43681199436766, 'longitude': -...","{'organization-desc': ' Bus: 46, U, 160, 161...."
4,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,4844,Centro de Natación Mundial 86 (M - 86),http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.41552303421355, 'longitude': -...",{'organization-desc': ' Metro: Sainz de Baran...


# Limpieza de datos
El objetivo de este punto es llegar a tener todos los datos de la forma más limpia posible

## BiciMad

In [253]:
df_bicimad.head()

Unnamed: 0.1,Unnamed: 0,id,name,light,number,address,activate,no_available,total_bases,dock_bikes,free_bases,reservations_count,geometry.type,geometry.coordinates
0,0,1,1a - Puerta del Sol A,3,1a,Puerta del Sol nº 1,1,1,30,0,0,0,Point,"[-3.7018341, 40.4172137]"
1,1,2,1b - Puerta del Sol B,3,1b,Puerta del Sol nº 1,1,1,30,0,0,0,Point,"[-3.701602938060457, 40.41731271011562]"
2,2,3,2 - Miguel Moya,3,2,Calle Miguel Moya nº 1,1,1,24,0,0,0,Point,"[-3.7058415, 40.4205886]"
3,3,4,3 - Plaza Conde Suchil,2,3,Plaza del Conde del Valle de Súchil nº 3,1,0,18,9,9,0,Point,"[-3.7069171, 40.4302937]"
4,4,5,4 - Malasaña,1,4,Calle Manuela Malasaña nº 5,1,0,24,23,1,0,Point,"[-3.7025875, 40.4285524]"


In [254]:
df_bicimad.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 264 entries, 0 to 263
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Unnamed: 0            264 non-null    int64 
 1   id                    264 non-null    int64 
 2   name                  264 non-null    object
 3   light                 264 non-null    int64 
 4   number                264 non-null    object
 5   address               264 non-null    object
 6   activate              264 non-null    int64 
 7   no_available          264 non-null    int64 
 8   total_bases           264 non-null    int64 
 9   dock_bikes            264 non-null    int64 
 10  free_bases            264 non-null    int64 
 11  reservations_count    264 non-null    int64 
 12  geometry.type         264 non-null    object
 13  geometry.coordinates  264 non-null    object
dtypes: int64(9), object(5)
memory usage: 29.0+ KB


In [255]:
# El objetivo es separar latitud y longitud, así que obsrvamos un registro:
df_bicimad["geometry.coordinates"][0]

'[-3.7018341, 40.4172137]'

In [256]:
# La longitud es el primer elemento de la lista y la latitud el segundo:
def separator_longitud(column):
    return float(column.split(',')[0].replace('[',''))
def separator_latitud(column):
    return float(column.split(',')[1].replace(']',''))

In [257]:
# Comprobamos que funciona en un registro concreto
separator_latitud(df_bicimad["geometry.coordinates"][0])

40.4172137

In [258]:
# Aplicamos las funciones a toda la columna del geometry coordinates:
df_bicimad['Longitud'] = df_bicimad.apply(lambda x: separator_longitud(x["geometry.coordinates"]), axis=1)
df_bicimad['Latitud'] = df_bicimad.apply(lambda x: separator_latitud(x["geometry.coordinates"]), axis=1)
df_bicimad.head()

Unnamed: 0.1,Unnamed: 0,id,name,light,number,address,activate,no_available,total_bases,dock_bikes,free_bases,reservations_count,geometry.type,geometry.coordinates,Longitud,Latitud
0,0,1,1a - Puerta del Sol A,3,1a,Puerta del Sol nº 1,1,1,30,0,0,0,Point,"[-3.7018341, 40.4172137]",-3.701834,40.417214
1,1,2,1b - Puerta del Sol B,3,1b,Puerta del Sol nº 1,1,1,30,0,0,0,Point,"[-3.701602938060457, 40.41731271011562]",-3.701603,40.417313
2,2,3,2 - Miguel Moya,3,2,Calle Miguel Moya nº 1,1,1,24,0,0,0,Point,"[-3.7058415, 40.4205886]",-3.705842,40.420589
3,3,4,3 - Plaza Conde Suchil,2,3,Plaza del Conde del Valle de Súchil nº 3,1,0,18,9,9,0,Point,"[-3.7069171, 40.4302937]",-3.706917,40.430294
4,4,5,4 - Malasaña,1,4,Calle Manuela Malasaña nº 5,1,0,24,23,1,0,Point,"[-3.7025875, 40.4285524]",-3.702587,40.428552


In [260]:
# Seleccionamos las columnas que vamos a necesitar:
df_bicimad_res = df_bicimad[['id', 'name', 'address', 'dock_bikes' ,'Longitud', 'Latitud']]
df_bicimad_res

Unnamed: 0,id,name,address,dock_bikes,Longitud,Latitud
0,1,1a - Puerta del Sol A,Puerta del Sol nº 1,0,-3.701834,40.417214
1,2,1b - Puerta del Sol B,Puerta del Sol nº 1,0,-3.701603,40.417313
2,3,2 - Miguel Moya,Calle Miguel Moya nº 1,0,-3.705842,40.420589
3,4,3 - Plaza Conde Suchil,Plaza del Conde del Valle de Súchil nº 3,9,-3.706917,40.430294
4,5,4 - Malasaña,Calle Manuela Malasaña nº 5,23,-3.702587,40.428552
...,...,...,...,...,...,...
259,265,257 - INEF,Avenida Juan de Herrera frente a la calle Paul...,3,-3.729970,40.438960
260,266,258 - Ciudad Universitaria 1,Avenida de la Complutense (Metro Ciudad Univer...,9,-3.726990,40.443750
261,267,259 - Ciudad Universitaria 2,Avenida de la Complutense (Metro Ciudad Univer...,12,-3.726930,40.443420
262,268,260 - Facultad Biología,Calle José Antonio Novais frente al nº 12,12,-3.727295,40.448332


## BiciPark

In [261]:
df_bicipark.head()

Unnamed: 0.1,Unnamed: 0,stationId,stationName,address,city,zip_code,total_places,free_places,enabled,reserved_places,geometry.type,geometry.coordinates
0,0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,Madrid,28050,10,9,1,0,Point,"[-3.6630679, 40.4846838]"
1,1,22,Bicipark Orense,"Avenida General Perón, 27",Madrid,28020,15,9,1,1,Point,"[-3.693897, 40.452973]"
2,2,49,Bicipark Montalban,"Calle de Montalbán, 5",Madrid,28014,16,15,1,0,Point,"[-3.690786, 40.418146]"
3,3,12,Bicipark Almagro,"Calle Almagro, 11",Madrid,28010,16,12,1,0,Point,"[-3.692879, 40.430361]"
4,4,9,Bicipark Recoletos,"Paseo de Recoletos, 2",Madrid,28001,10,3,0,0,Point,"[-3.692245, 40.420354]"


In [262]:
df_bicipark.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Unnamed: 0            11 non-null     int64 
 1   stationId             11 non-null     int64 
 2   stationName           11 non-null     object
 3   address               11 non-null     object
 4   city                  11 non-null     object
 5   zip_code              11 non-null     object
 6   total_places          11 non-null     int64 
 7   free_places           11 non-null     int64 
 8   enabled               11 non-null     int64 
 9   reserved_places       11 non-null     int64 
 10  geometry.type         11 non-null     object
 11  geometry.coordinates  11 non-null     object
dtypes: int64(6), object(6)
memory usage: 1.2+ KB


In [263]:
# Añadimos el campo de las bicis disponibles
df_bicipark['dock_bikes'] = df_bicipark['total_places'] - df_bicipark['free_places']
df_bicipark

Unnamed: 0.1,Unnamed: 0,stationId,stationName,address,city,zip_code,total_places,free_places,enabled,reserved_places,geometry.type,geometry.coordinates,dock_bikes
0,0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,Madrid,28050,10,9,1,0,Point,"[-3.6630679, 40.4846838]",1
1,1,22,Bicipark Orense,"Avenida General Perón, 27",Madrid,28020,15,9,1,1,Point,"[-3.693897, 40.452973]",6
2,2,49,Bicipark Montalban,"Calle de Montalbán, 5",Madrid,28014,16,15,1,0,Point,"[-3.690786, 40.418146]",1
3,3,12,Bicipark Almagro,"Calle Almagro, 11",Madrid,28010,16,12,1,0,Point,"[-3.692879, 40.430361]",4
4,4,9,Bicipark Recoletos,"Paseo de Recoletos, 2",Madrid,28001,10,3,0,0,Point,"[-3.692245, 40.420354]",7
5,5,5,Bicipark Recuerdo,"Calle Hiedra, 26",Madrid,28036,13,13,1,0,Point,"[-3.678921, 40.472419]",0
6,6,25,Bicipark Salamanca,Pl. del Marqués de Salamanca,Madrid,28006,5,-1,1,0,Point,"[-3.679172, 40.430315]",6
7,7,67,Bicipark Villa de Paris,"Calle de Orellana, 23, 21",Madrid,28004,10,8,1,1,Point,"[-3.693698, 40.425608]",2
8,8,1154,Bicipark Pitis,"Calle Pau Arroyo del Fresno, 181",Madrid,28049,10,7,1,0,Point,"[-3.7249142, 40.4959425]",3
9,9,1169,Bicipark Aviación,Parking Aviación Española,Madrid,28024,10,10,1,0,Point,"[-3.78369522, 40.383491516]",0


In [264]:
# Aplicamos las funciones que separan las columnas de latitud y longitud:
df_bicipark['Longitud'] = df_bicipark.apply(lambda x: separator_longitud(x["geometry.coordinates"]), axis=1)
df_bicipark['Latitud'] = df_bicipark.apply(lambda x: separator_latitud(x["geometry.coordinates"]), axis=1)
df_bicipark

Unnamed: 0.1,Unnamed: 0,stationId,stationName,address,city,zip_code,total_places,free_places,enabled,reserved_places,geometry.type,geometry.coordinates,dock_bikes,Longitud,Latitud
0,0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,Madrid,28050,10,9,1,0,Point,"[-3.6630679, 40.4846838]",1,-3.663068,40.484684
1,1,22,Bicipark Orense,"Avenida General Perón, 27",Madrid,28020,15,9,1,1,Point,"[-3.693897, 40.452973]",6,-3.693897,40.452973
2,2,49,Bicipark Montalban,"Calle de Montalbán, 5",Madrid,28014,16,15,1,0,Point,"[-3.690786, 40.418146]",1,-3.690786,40.418146
3,3,12,Bicipark Almagro,"Calle Almagro, 11",Madrid,28010,16,12,1,0,Point,"[-3.692879, 40.430361]",4,-3.692879,40.430361
4,4,9,Bicipark Recoletos,"Paseo de Recoletos, 2",Madrid,28001,10,3,0,0,Point,"[-3.692245, 40.420354]",7,-3.692245,40.420354
5,5,5,Bicipark Recuerdo,"Calle Hiedra, 26",Madrid,28036,13,13,1,0,Point,"[-3.678921, 40.472419]",0,-3.678921,40.472419
6,6,25,Bicipark Salamanca,Pl. del Marqués de Salamanca,Madrid,28006,5,-1,1,0,Point,"[-3.679172, 40.430315]",6,-3.679172,40.430315
7,7,67,Bicipark Villa de Paris,"Calle de Orellana, 23, 21",Madrid,28004,10,8,1,1,Point,"[-3.693698, 40.425608]",2,-3.693698,40.425608
8,8,1154,Bicipark Pitis,"Calle Pau Arroyo del Fresno, 181",Madrid,28049,10,7,1,0,Point,"[-3.7249142, 40.4959425]",3,-3.724914,40.495942
9,9,1169,Bicipark Aviación,Parking Aviación Española,Madrid,28024,10,10,1,0,Point,"[-3.78369522, 40.383491516]",0,-3.783695,40.383492


In [266]:
# Seleccionamos las columnas que vamos a necesitar:
df_bicipark_res = df_bicipark[['stationId', 'stationName', 'address', 'dock_bikes', 'Longitud', 'Latitud']]
df_bicipark_res

Unnamed: 0,stationId,stationName,address,dock_bikes,Longitud,Latitud
0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,-3.663068,40.484684
1,22,Bicipark Orense,"Avenida General Perón, 27",6,-3.693897,40.452973
2,49,Bicipark Montalban,"Calle de Montalbán, 5",1,-3.690786,40.418146
3,12,Bicipark Almagro,"Calle Almagro, 11",4,-3.692879,40.430361
4,9,Bicipark Recoletos,"Paseo de Recoletos, 2",7,-3.692245,40.420354
5,5,Bicipark Recuerdo,"Calle Hiedra, 26",0,-3.678921,40.472419
6,25,Bicipark Salamanca,Pl. del Marqués de Salamanca,6,-3.679172,40.430315
7,67,Bicipark Villa de Paris,"Calle de Orellana, 23, 21",2,-3.693698,40.425608
8,1154,Bicipark Pitis,"Calle Pau Arroyo del Fresno, 181",3,-3.724914,40.495942
9,1169,Bicipark Aviación,Parking Aviación Española,0,-3.783695,40.383492


## Espacio deporte

In [267]:
#Exploramos los datos
df_deporte.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 626 entries, 0 to 625
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   @id           626 non-null    object
 1   @type         626 non-null    object
 2   id            626 non-null    object
 3   title         626 non-null    object
 4   relation      626 non-null    object
 5   address       626 non-null    object
 6   location      626 non-null    object
 7   organization  626 non-null    object
dtypes: object(8)
memory usage: 39.2+ KB


In [268]:
#Exploramos los datos
df_deporte.head()

Unnamed: 0,@id,@type,id,title,relation,address,location,organization
0,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,181447,Campo de Golf del Centro Nacional de Golf,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.4855081729451, 'longitude': -3...","{'organization-desc': ' Bus: 67, 82.', 'acces..."
1,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,4670,Campo de Golf del Club de Golf Olivar de la Hi...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.46896569497632, 'longitude': -...","{'organization-desc': ' Bus: 112.', 'accesi..."
2,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,7381184,Centro Comercial Dreams - Palacio Municipal de...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.46287225446314, 'longitude': -...",{'organization-desc': ' Metro: Canillas (líne...
3,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,7081762,Centro de Alto Rendimiento del Consejo Superio...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.43681199436766, 'longitude': -...","{'organization-desc': ' Bus: 46, U, 160, 161...."
4,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,4844,Centro de Natación Mundial 86 (M - 86),http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.41552303421355, 'longitude': -...",{'organization-desc': ' Metro: Sainz de Baran...


In [269]:
#Exploramos los datos de lat y long
df_deporte["location"][0]['longitude']

-3.735278975476509

In [270]:
# El objetivo es obtener la latitud y longitud para poder meterla en dos campos
# Al estar en un diccionario, hacemos una función que extraiga el valor de lat y lon
def separator_longitud_json(column):
    for i in column:
        return column["longitude"]
def separator_latitud_json(column):
    for i in column:
        return column["latitude"]

In [271]:
# Comprobamos que funcione correctamente
separator_longitud_json(df_deporte["location"][0])

-3.735278975476509

In [272]:
# Aplicamos a todo el dataframe
df_deporte['Longitud'] = df_deporte.apply(lambda x: separator_longitud_json(x["location"]), axis=1)
df_deporte['Latitud'] = df_deporte.apply(lambda x: separator_latitud_json(x["location"]), axis=1)
df_deporte

Unnamed: 0,@id,@type,id,title,relation,address,location,organization,Longitud,Latitud
0,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,181447,Campo de Golf del Centro Nacional de Golf,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.4855081729451, 'longitude': -3...","{'organization-desc': ' Bus: 67, 82.', 'acces...",-3.735279,40.485508
1,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,4670,Campo de Golf del Club de Golf Olivar de la Hi...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.46896569497632, 'longitude': -...","{'organization-desc': ' Bus: 112.', 'accesi...",-3.609367,40.468966
2,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,7381184,Centro Comercial Dreams - Palacio Municipal de...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.46287225446314, 'longitude': -...",{'organization-desc': ' Metro: Canillas (líne...,-3.635776,40.462872
3,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,7081762,Centro de Alto Rendimiento del Consejo Superio...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.43681199436766, 'longitude': -...","{'organization-desc': ' Bus: 46, U, 160, 161....",-3.731957,40.436812
4,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,4844,Centro de Natación Mundial 86 (M - 86),http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.41552303421355, 'longitude': -...",{'organization-desc': ' Metro: Sainz de Baran...,-3.667197,40.415523
...,...,...,...,...,...,...,...,...,...,...
621,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,8192515,Parque Deportivo Puerta de Hierro,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.463352206633466, 'longitude': ...","{'organization-desc': ' Bus: 83, 133.', 'acce...",-3.749646,40.463352
622,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,10967962,Parque Lineal UZI 0.06 Arroyofresno,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.487146568534655, 'longitude': ...",{'organization-desc': ' Metro: Antonio Machad...,-3.732863,40.487147
623,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,10967954,Pista de Patinaje Paco de Lucía,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.38527831238433, 'longitude': -...",{'organization-desc': ' Metro: Antonio Machad...,-3.764155,40.385278
624,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,10967959,Pista de petanca Centro de Mayores La Vaguada,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.47903297218874, 'longitude': -...",{'organization-desc': ' Metro: Antonio Machad...,-3.708264,40.479033


In [273]:
# Observamos el que el valor de address está en un diccionario dentro de la key street-address
df_deporte['address'][0]['street-address']

'CALLE ARROYO DEL MONTE 5'

In [274]:
# Diseñamos una función que extraiga el valor de address de un diccionario
def address_extractor (column):
    for i in column:
        return column["street-address"]

In [275]:
# Comprobamos que funcione
address_extractor (df_deporte['address'][0])

'CALLE ARROYO DEL MONTE 5'

In [276]:
# Aplicamos a todo el dataframe para añadir un campo con el address
df_deporte['address_final'] = df_deporte.apply(lambda row: address_extractor(row["address"]), axis=1)
df_deporte

Unnamed: 0,@id,@type,id,title,relation,address,location,organization,Longitud,Latitud,address_final
0,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,181447,Campo de Golf del Centro Nacional de Golf,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.4855081729451, 'longitude': -3...","{'organization-desc': ' Bus: 67, 82.', 'acces...",-3.735279,40.485508,CALLE ARROYO DEL MONTE 5
1,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,4670,Campo de Golf del Club de Golf Olivar de la Hi...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.46896569497632, 'longitude': -...","{'organization-desc': ' Bus: 112.', 'accesi...",-3.609367,40.468966,CALLE VIA DE DUBLIN SIN NÚMERO
2,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,7381184,Centro Comercial Dreams - Palacio Municipal de...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.46287225446314, 'longitude': -...",{'organization-desc': ' Metro: Canillas (líne...,-3.635776,40.462872,CALLE SILVANO 77
3,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,7081762,Centro de Alto Rendimiento del Consejo Superio...,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.43681199436766, 'longitude': -...","{'organization-desc': ' Bus: 46, U, 160, 161....",-3.731957,40.436812,CALLE MARTIN FIERRO 5
4,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,4844,Centro de Natación Mundial 86 (M - 86),http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.41552303421355, 'longitude': -...",{'organization-desc': ' Metro: Sainz de Baran...,-3.667197,40.415523,CALLE JOSE MARTINEZ DE VELASCO 3
...,...,...,...,...,...,...,...,...,...,...,...
621,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,8192515,Parque Deportivo Puerta de Hierro,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.463352206633466, 'longitude': ...","{'organization-desc': ' Bus: 83, 133.', 'acce...",-3.749646,40.463352,CARRETERA DE LA CORUÑA kilómetro 7
622,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,10967962,Parque Lineal UZI 0.06 Arroyofresno,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.487146568534655, 'longitude': ...",{'organization-desc': ' Metro: Antonio Machad...,-3.732863,40.487147,CALLE MARIA DE MAEZTU 1
623,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,10967954,Pista de Patinaje Paco de Lucía,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.38527831238433, 'longitude': -...",{'organization-desc': ' Metro: Antonio Machad...,-3.764155,40.385278,AUDITORIO PACO DE LUCIA
624,https://datos.madrid.es/egob/catalogo/tipo/ent...,https://datos.madrid.es/egob/kos/entidadesYorg...,10967959,Pista de petanca Centro de Mayores La Vaguada,http://www.madrid.es/sites/v/index.jsp?vgnextc...,{'district': {'@id': 'https://datos.madrid.es/...,"{'latitude': 40.47903297218874, 'longitude': -...",{'organization-desc': ' Metro: Antonio Machad...,-3.708264,40.479033,AVENIDA MONFORTE DE LEMOS 36


In [278]:
# Seleccionamos únicamente los campos que nos interesan para poder hacer los cálculos
df_deporte_res = df_deporte[["id","title", "address_final", "Longitud","Latitud"]]
df_deporte_res

Unnamed: 0,id,title,address_final,Longitud,Latitud
0,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508
1,4670,Campo de Golf del Club de Golf Olivar de la Hi...,CALLE VIA DE DUBLIN SIN NÚMERO,-3.609367,40.468966
2,7381184,Centro Comercial Dreams - Palacio Municipal de...,CALLE SILVANO 77,-3.635776,40.462872
3,7081762,Centro de Alto Rendimiento del Consejo Superio...,CALLE MARTIN FIERRO 5,-3.731957,40.436812
4,4844,Centro de Natación Mundial 86 (M - 86),CALLE JOSE MARTINEZ DE VELASCO 3,-3.667197,40.415523
...,...,...,...,...,...
621,8192515,Parque Deportivo Puerta de Hierro,CARRETERA DE LA CORUÑA kilómetro 7,-3.749646,40.463352
622,10967962,Parque Lineal UZI 0.06 Arroyofresno,CALLE MARIA DE MAEZTU 1,-3.732863,40.487147
623,10967954,Pista de Patinaje Paco de Lucía,AUDITORIO PACO DE LUCIA,-3.764155,40.385278
624,10967959,Pista de petanca Centro de Mayores La Vaguada,AVENIDA MONFORTE DE LEMOS 36,-3.708264,40.479033


# Analizamos datos 

## BiciMAD

In [279]:
# conda install -c conda-forge geopandas 
# (shapely is a geopandas dependance)

from shapely.geometry import Point
import geopandas as gpd

# Methods

def to_mercator(lat, long):
    # transform latitude/longitude data in degrees to pseudo-mercator coordinates in metres
    c = gpd.GeoSeries([Point(lat, long)], crs=4326)
    c = c.to_crs(3857)
    return c

def distance_meters(lat_start, long_start, lat_finish, long_finish):
    # return the distance in metres between to latitude/longitude pair points in degrees 
    # (e.g.: Start Point -> 40.4400607 / -3.6425358 End Point -> 40.4234825 / -3.6292625)
    start = to_mercator(lat_start, long_start)
    finish = to_mercator(lat_finish, long_finish)
    return start.distance(finish)

In [280]:
# Comprobación del funcionamiento de la función para un valor
distance_meters(40.4400607, -3.6425358, 40.4234825, -3.6292625)

0    2365.97418
dtype: float64

In [281]:
# Comprobación del funcionamiento de la función para cada valor de una columna
df_deporte['Mercator point'] = df_deporte.apply(lambda x: to_mercator(x['Latitud'], x['Longitud']), axis=1)
df_deporte['Mercator point']

0      POINT (4506826.154 -416104.207)
1      POINT (4504984.654 -402058.917)
2      POINT (4504306.335 -405004.659)
3      POINT (4501405.321 -415733.665)
4      POINT (4499035.444 -408509.495)
                    ...               
621    POINT (4504359.763 -417706.957)
622    POINT (4507008.540 -415834.652)
623    POINT (4495668.617 -419325.592)
624    POINT (4506105.338 -413090.579)
625    POINT (4499898.151 -409056.505)
Name: Mercator point, Length: 626, dtype: geometry

In [282]:
# El objetivo ahora es conseguir un df en el que cada punto de interés esté asociado con un punto de bicimad
# De esta forma conseguiremos calcular las distancias entre cada punto
# Posteriormente seleccionaremos la distancia mínima
# Añadimos una key a cada valor para que luego haga el merge por cada una de las keys
df_deporte_res["key"] = 0
df_deporte_res

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_deporte_res["key"] = 0


Unnamed: 0,id,title,address_final,Longitud,Latitud,key
0,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0
1,4670,Campo de Golf del Club de Golf Olivar de la Hi...,CALLE VIA DE DUBLIN SIN NÚMERO,-3.609367,40.468966,0
2,7381184,Centro Comercial Dreams - Palacio Municipal de...,CALLE SILVANO 77,-3.635776,40.462872,0
3,7081762,Centro de Alto Rendimiento del Consejo Superio...,CALLE MARTIN FIERRO 5,-3.731957,40.436812,0
4,4844,Centro de Natación Mundial 86 (M - 86),CALLE JOSE MARTINEZ DE VELASCO 3,-3.667197,40.415523,0
...,...,...,...,...,...,...
621,8192515,Parque Deportivo Puerta de Hierro,CARRETERA DE LA CORUÑA kilómetro 7,-3.749646,40.463352,0
622,10967962,Parque Lineal UZI 0.06 Arroyofresno,CALLE MARIA DE MAEZTU 1,-3.732863,40.487147,0
623,10967954,Pista de Patinaje Paco de Lucía,AUDITORIO PACO DE LUCIA,-3.764155,40.385278,0
624,10967959,Pista de petanca Centro de Mayores La Vaguada,AVENIDA MONFORTE DE LEMOS 36,-3.708264,40.479033,0


In [283]:
df_bicimad_res["key"] = 0
df_bicimad_res

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_bicimad_res["key"] = 0


Unnamed: 0,id,name,address,dock_bikes,Longitud,Latitud,key
0,1,1a - Puerta del Sol A,Puerta del Sol nº 1,0,-3.701834,40.417214,0
1,2,1b - Puerta del Sol B,Puerta del Sol nº 1,0,-3.701603,40.417313,0
2,3,2 - Miguel Moya,Calle Miguel Moya nº 1,0,-3.705842,40.420589,0
3,4,3 - Plaza Conde Suchil,Plaza del Conde del Valle de Súchil nº 3,9,-3.706917,40.430294,0
4,5,4 - Malasaña,Calle Manuela Malasaña nº 5,23,-3.702587,40.428552,0
...,...,...,...,...,...,...,...
259,265,257 - INEF,Avenida Juan de Herrera frente a la calle Paul...,3,-3.729970,40.438960,0
260,266,258 - Ciudad Universitaria 1,Avenida de la Complutense (Metro Ciudad Univer...,9,-3.726990,40.443750,0
261,267,259 - Ciudad Universitaria 2,Avenida de la Complutense (Metro Ciudad Univer...,12,-3.726930,40.443420,0
262,268,260 - Facultad Biología,Calle José Antonio Novais frente al nº 12,12,-3.727295,40.448332,0


In [284]:
# Hacemos un merge para tener la relación de cada punto de interés con los bicimad
df_distancia_bicimad = pd.merge(df_deporte_res, df_bicimad_res, on = 'key')
df_distancia_bicimad

Unnamed: 0,id_x,title,address_final,Longitud_x,Latitud_x,key,id_y,name,address,dock_bikes,Longitud_y,Latitud_y
0,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,1,1a - Puerta del Sol A,Puerta del Sol nº 1,0,-3.701834,40.417214
1,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,2,1b - Puerta del Sol B,Puerta del Sol nº 1,0,-3.701603,40.417313
2,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,3,2 - Miguel Moya,Calle Miguel Moya nº 1,0,-3.705842,40.420589
3,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,4,3 - Plaza Conde Suchil,Plaza del Conde del Valle de Súchil nº 3,9,-3.706917,40.430294
4,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,5,4 - Malasaña,Calle Manuela Malasaña nº 5,23,-3.702587,40.428552
...,...,...,...,...,...,...,...,...,...,...,...,...
165259,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,265,257 - INEF,Avenida Juan de Herrera frente a la calle Paul...,3,-3.729970,40.438960
165260,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,266,258 - Ciudad Universitaria 1,Avenida de la Complutense (Metro Ciudad Univer...,9,-3.726990,40.443750
165261,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,267,259 - Ciudad Universitaria 2,Avenida de la Complutense (Metro Ciudad Univer...,12,-3.726930,40.443420
165262,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,268,260 - Facultad Biología,Calle José Antonio Novais frente al nº 12,12,-3.727295,40.448332


In [285]:
# Apply lambda al dataframe y así recorre toda la fila aplicando la función distance meters
df_distancia_bicimad['Distancia en m'] = df_distancia_bicimad.apply(lambda x: distance_meters(x['Latitud_x'], x['Longitud_x'], x['Latitud_y'], x['Longitud_x']), axis=1)
df_distancia_bicimad

Unnamed: 0,id_x,title,address_final,Longitud_x,Latitud_x,key,id_y,name,address,dock_bikes,Longitud_y,Latitud_y,Distancia en m
0,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,1,1a - Puerta del Sol A,Puerta del Sol nº 1,0,-3.701834,40.417214,7602.505952
1,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,2,1b - Puerta del Sol B,Puerta del Sol nº 1,0,-3.701603,40.417313,7591.484197
2,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,3,2 - Miguel Moya,Calle Miguel Moya nº 1,0,-3.705842,40.420589,7226.813803
3,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,4,3 - Plaza Conde Suchil,Plaza del Conde del Valle de Súchil nº 3,9,-3.706917,40.430294,6146.447013
4,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,5,4 - Malasaña,Calle Manuela Malasaña nº 5,23,-3.702587,40.428552,6340.287642
...,...,...,...,...,...,...,...,...,...,...,...,...,...
165259,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,265,257 - INEF,Avenida Juan de Herrera frente a la calle Paul...,3,-3.729970,40.438960,1746.284020
165260,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,266,258 - Ciudad Universitaria 1,Avenida de la Complutense (Metro Ciudad Univer...,9,-3.726990,40.443750,2279.504381
165261,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,267,259 - Ciudad Universitaria 2,Avenida de la Complutense (Metro Ciudad Univer...,12,-3.726930,40.443420,2242.768949
165262,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,268,260 - Facultad Biología,Calle José Antonio Novais frente al nº 12,12,-3.727295,40.448332,2789.592552


In [286]:
# Encontrar el índice del mínimo valor en la columna distance meters
dist_min_idx_bicimad = df_distancia_bicimad.groupby(["title"])['Distancia en m'].idxmin()
dist_min_idx_bicimad

title
Campo de Golf del Centro Nacional de Golf                       219
Campo de Golf del Club de Golf Olivar de la Hinojosa            474
Centro Comercial Dreams - Palacio Municipal de Hielo            737
Centro Deportivo Municipal  María Jesús Rosa (La Vaguada)      1571
Centro Deportivo Municipal Alcántara                           1592
                                                              ...  
Parque Deportivo Puerta de Hierro                            164201
Parque Lineal UZI 0.06 Arroyofresno                          164427
Pista de Patinaje Paco de Lucía                              164687
Pista de petanca Centro de Mayores La Vaguada                164987
WiZink Center                                                165017
Name: Distancia en m, Length: 626, dtype: int64

In [287]:
# Seleccionar el mínimo valor y el resto de los registros
df_distancia_bicimad_min = df_distancia_bicimad.loc[dist_min_idx_bicimad].reset_index()
df_distancia_bicimad_min

Unnamed: 0,index,id_x,title,address_final,Longitud_x,Latitud_x,key,id_y,name,address,dock_bikes,Longitud_y,Latitud_y,Distancia en m
0,219,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,225,217 - Pedro Rico,Calle Pedro Rico nº 4,0,-3.688463,40.481086,492.274040
1,474,4670,Campo de Golf del Club de Golf Olivar de la Hi...,CALLE VIA DE DUBLIN SIN NÚMERO,-3.609367,40.468966,0,216,208 - Plaza de Castilla,Paseo de la Castellana nº 216,4,-3.688639,40.466361,289.942186
2,737,7381184,Centro Comercial Dreams - Palacio Municipal de...,CALLE SILVANO 77,-3.635776,40.462872,0,215,207 - Remonta,Calle Azucenas nº 1,12,-3.697333,40.463028,17.304118
3,1571,4707,Centro Deportivo Municipal María Jesús Rosa (...,AVENIDA MONFORTE DE LEMOS 38,-3.708699,40.478768,0,257,249 - Manuel Caldeiro,Paseo de la Castellana nº 298,11,-3.685320,40.479380,68.173885
4,1592,10183549,Centro Deportivo Municipal Alcántara,CALLE ALCANTARA 26,-3.673732,40.428103,0,9,8 - Alonso Martínez,Plaza de Alonso Martínez nº 5,22,-3.695440,40.427868,26.128397
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
621,164201,8192515,Parque Deportivo Puerta de Hierro,CARRETERA DE LA CORUÑA kilómetro 7,-3.749646,40.463352,0,263,255 - López Pozas,Calle General López Pozas nº 2,5,-3.685140,40.463610,28.697426
622,164427,10967962,Parque Lineal UZI 0.06 Arroyofresno,CALLE MARIA DE MAEZTU 1,-3.732863,40.487147,0,225,217 - Pedro Rico,Calle Pedro Rico nº 4,0,-3.688463,40.481086,674.659403
623,164687,10967954,Pista de Patinaje Paco de Lucía,AUDITORIO PACO DE LUCIA,-3.764155,40.385278,0,221,213 - Glorieta de Cádiz,Calle Antonio López nº 129,18,-3.700170,40.388950,408.730396
624,164987,10967959,Pista de petanca Centro de Mayores La Vaguada,AVENIDA MONFORTE DE LEMOS 36,-3.708264,40.479033,0,257,249 - Manuel Caldeiro,Paseo de la Castellana nº 298,11,-3.685320,40.479380,38.630959


## BiciPark

In [288]:
df_bicipark_res["key"] = 0
df_bicipark_res

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_bicipark_res["key"] = 0


Unnamed: 0,stationId,stationName,address,dock_bikes,Longitud,Latitud,key
0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,-3.663068,40.484684,0
1,22,Bicipark Orense,"Avenida General Perón, 27",6,-3.693897,40.452973,0
2,49,Bicipark Montalban,"Calle de Montalbán, 5",1,-3.690786,40.418146,0
3,12,Bicipark Almagro,"Calle Almagro, 11",4,-3.692879,40.430361,0
4,9,Bicipark Recoletos,"Paseo de Recoletos, 2",7,-3.692245,40.420354,0
5,5,Bicipark Recuerdo,"Calle Hiedra, 26",0,-3.678921,40.472419,0
6,25,Bicipark Salamanca,Pl. del Marqués de Salamanca,6,-3.679172,40.430315,0
7,67,Bicipark Villa de Paris,"Calle de Orellana, 23, 21",2,-3.693698,40.425608,0
8,1154,Bicipark Pitis,"Calle Pau Arroyo del Fresno, 181",3,-3.724914,40.495942,0
9,1169,Bicipark Aviación,Parking Aviación Española,0,-3.783695,40.383492,0


In [289]:
# Hacemos un merge para tener la relación de cada punto de interés con los bicipark
df_distancia_bicipark = pd.merge(df_deporte_res, df_bicipark_res, on = 'key')
df_distancia_bicipark

Unnamed: 0,id,title,address_final,Longitud_x,Latitud_x,key,stationId,stationName,address,dock_bikes,Longitud_y,Latitud_y
0,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,-3.663068,40.484684
1,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,22,Bicipark Orense,"Avenida General Perón, 27",6,-3.693897,40.452973
2,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,49,Bicipark Montalban,"Calle de Montalbán, 5",1,-3.690786,40.418146
3,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,12,Bicipark Almagro,"Calle Almagro, 11",4,-3.692879,40.430361
4,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,9,Bicipark Recoletos,"Paseo de Recoletos, 2",7,-3.692245,40.420354
...,...,...,...,...,...,...,...,...,...,...,...,...
6881,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,25,Bicipark Salamanca,Pl. del Marqués de Salamanca,6,-3.679172,40.430315
6882,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,67,Bicipark Villa de Paris,"Calle de Orellana, 23, 21",2,-3.693698,40.425608
6883,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,1154,Bicipark Pitis,"Calle Pau Arroyo del Fresno, 181",3,-3.724914,40.495942
6884,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,1169,Bicipark Aviación,Parking Aviación Española,0,-3.783695,40.383492


In [290]:
# Apply lambda al dataframe y así recorre toda la fila aplicando la función distance meters
df_distancia_bicipark['Distancia en m'] = df_distancia_bicipark.apply(lambda x: distance_meters(x['Latitud_x'], x['Longitud_x'], x['Latitud_y'], x['Longitud_x']), axis=1)
df_distancia_bicipark

Unnamed: 0,id,title,address_final,Longitud_x,Latitud_x,key,stationId,stationName,address,dock_bikes,Longitud_y,Latitud_y,Distancia en m
0,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,-3.663068,40.484684,91.768776
1,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,22,Bicipark Orense,"Avenida General Perón, 27",6,-3.693897,40.452973,3621.798885
2,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,49,Bicipark Montalban,"Calle de Montalbán, 5",1,-3.690786,40.418146,7498.722791
3,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,12,Bicipark Almagro,"Calle Almagro, 11",4,-3.692879,40.430361,6138.955211
4,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,9,Bicipark Recoletos,"Paseo de Recoletos, 2",7,-3.692245,40.420354,7252.929355
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6881,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,25,Bicipark Salamanca,Pl. del Marqués de Salamanca,6,-3.679172,40.430315,783.927022
6882,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,67,Bicipark Villa de Paris,"Calle de Orellana, 23, 21",2,-3.693698,40.425608,259.946179
6883,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,1154,Bicipark Pitis,"Calle Pau Arroyo del Fresno, 181",3,-3.724914,40.495942,8089.546904
6884,165847,WiZink Center,CALLE JORGE JUAN 99,-3.672101,40.423273,0,1169,Bicipark Aviación,Parking Aviación Española,0,-3.783695,40.383492,4428.439374


In [291]:
# Encontrar el índice del mínimo valor en la columna distance meters
dist_min_idx_bicipark = df_distancia_bicipark.groupby(["title"])['Distancia en m'].idxmin()
dist_min_idx_bicipark

title
Campo de Golf del Centro Nacional de Golf                       0
Campo de Golf del Club de Golf Olivar de la Hinojosa           16
Centro Comercial Dreams - Palacio Municipal de Hielo           27
Centro Deportivo Municipal  María Jesús Rosa (La Vaguada)      55
Centro Deportivo Municipal Alcántara                           72
                                                             ... 
Parque Deportivo Puerta de Hierro                            6836
Parque Lineal UZI 0.06 Arroyofresno                          6842
Pista de Patinaje Paco de Lucía                              6862
Pista de petanca Centro de Mayores La Vaguada                6864
WiZink Center                                                6882
Name: Distancia en m, Length: 626, dtype: int64

In [292]:
# Seleccionar el mínimo valor y el resto de los registros
df_distancia_bicipark_min = df_distancia_bicipark.loc[dist_min_idx_bicipark].reset_index()
df_distancia_bicipark_min

Unnamed: 0,index,id,title,address_final,Longitud_x,Latitud_x,key,stationId,stationName,address,dock_bikes,Longitud_y,Latitud_y,Distancia en m
0,0,181447,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,-3.735279,40.485508,0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,-3.663068,40.484684,91.768776
1,16,4670,Campo de Golf del Club de Golf Olivar de la Hi...,CALLE VIA DE DUBLIN SIN NÚMERO,-3.609367,40.468966,0,5,Bicipark Recuerdo,"Calle Hiedra, 26",0,-3.678921,40.472419,384.420157
2,27,7381184,Centro Comercial Dreams - Palacio Municipal de...,CALLE SILVANO 77,-3.635776,40.462872,0,5,Bicipark Recuerdo,"Calle Hiedra, 26",0,-3.678921,40.472419,1062.738852
3,55,4707,Centro Deportivo Municipal María Jesús Rosa (...,AVENIDA MONFORTE DE LEMOS 38,-3.708699,40.478768,0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,-3.663068,40.484684,658.590200
4,72,10183549,Centro Deportivo Municipal Alcántara,CALLE ALCANTARA 26,-3.673732,40.428103,0,25,Bicipark Salamanca,Pl. del Marqués de Salamanca,6,-3.679172,40.430315,246.248133
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
621,6836,8192515,Parque Deportivo Puerta de Hierro,CARRETERA DE LA CORUÑA kilómetro 7,-3.749646,40.463352,0,5,Bicipark Recuerdo,"Calle Hiedra, 26",0,-3.678921,40.472419,1009.310821
622,6842,10967962,Parque Lineal UZI 0.06 Arroyofresno,CALLE MARIA DE MAEZTU 1,-3.732863,40.487147,0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,-3.663068,40.484684,274.154139
623,6862,10967954,Pista de Patinaje Paco de Lucía,AUDITORIO PACO DE LUCIA,-3.764155,40.385278,0,1169,Bicipark Aviación,Parking Aviación Española,0,-3.783695,40.383492,198.905264
624,6864,10967959,Pista de petanca Centro de Mayores La Vaguada,AVENIDA MONFORTE DE LEMOS 36,-3.708264,40.479033,0,74,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,-3.663068,40.484684,629.047275


# Limpieza de datos finales

## Bicimad

In [293]:
#Seleccionamos las collumnas relevantes para el ejercicio
df_distancia_bicimad_min[["title", "address_final", "name", "address", "dock_bikes", "Distancia en m"]]

Unnamed: 0,title,address_final,name,address,dock_bikes,Distancia en m
0,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,217 - Pedro Rico,Calle Pedro Rico nº 4,0,492.274040
1,Campo de Golf del Club de Golf Olivar de la Hi...,CALLE VIA DE DUBLIN SIN NÚMERO,208 - Plaza de Castilla,Paseo de la Castellana nº 216,4,289.942186
2,Centro Comercial Dreams - Palacio Municipal de...,CALLE SILVANO 77,207 - Remonta,Calle Azucenas nº 1,12,17.304118
3,Centro Deportivo Municipal María Jesús Rosa (...,AVENIDA MONFORTE DE LEMOS 38,249 - Manuel Caldeiro,Paseo de la Castellana nº 298,11,68.173885
4,Centro Deportivo Municipal Alcántara,CALLE ALCANTARA 26,8 - Alonso Martínez,Plaza de Alonso Martínez nº 5,22,26.128397
...,...,...,...,...,...,...
621,Parque Deportivo Puerta de Hierro,CARRETERA DE LA CORUÑA kilómetro 7,255 - López Pozas,Calle General López Pozas nº 2,5,28.697426
622,Parque Lineal UZI 0.06 Arroyofresno,CALLE MARIA DE MAEZTU 1,217 - Pedro Rico,Calle Pedro Rico nº 4,0,674.659403
623,Pista de Patinaje Paco de Lucía,AUDITORIO PACO DE LUCIA,213 - Glorieta de Cádiz,Calle Antonio López nº 129,18,408.730396
624,Pista de petanca Centro de Mayores La Vaguada,AVENIDA MONFORTE DE LEMOS 36,249 - Manuel Caldeiro,Paseo de la Castellana nº 298,11,38.630959


In [313]:
def column_cleaning (df, column_list, column_rename):
    df.rename(columns = column_rename)
    df1 = df[column_list]
    return df1

In [315]:
column_rename1 = {'title': 'Sports spot', 'address_final': 'Sports Address', 'name': 'BiciMAD spot', 'address': 'Address BiciMAD', 'dock_bikes':'Available bikes', 'Distancia en m': 'Distance in m'}
column_list1 = ["Sports spot", "Sports Address", "BiciMAD spot", "Address BiciMAD", "Available bikes", "Distance in m"]
bicimad_clean = column_cleaning (df_distancia_bicimad_min, column_list1, column_rename1)
bicimad_clean

Unnamed: 0,Sports spot,Sports Address,BiciMAD spot,Address BiciMAD,Available bikes,Distance in m
0,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,217 - Pedro Rico,Calle Pedro Rico nº 4,0,492.274040
1,Campo de Golf del Club de Golf Olivar de la Hi...,CALLE VIA DE DUBLIN SIN NÚMERO,208 - Plaza de Castilla,Paseo de la Castellana nº 216,4,289.942186
2,Centro Comercial Dreams - Palacio Municipal de...,CALLE SILVANO 77,207 - Remonta,Calle Azucenas nº 1,12,17.304118
3,Centro Deportivo Municipal María Jesús Rosa (...,AVENIDA MONFORTE DE LEMOS 38,249 - Manuel Caldeiro,Paseo de la Castellana nº 298,11,68.173885
4,Centro Deportivo Municipal Alcántara,CALLE ALCANTARA 26,8 - Alonso Martínez,Plaza de Alonso Martínez nº 5,22,26.128397
...,...,...,...,...,...,...
621,Parque Deportivo Puerta de Hierro,CARRETERA DE LA CORUÑA kilómetro 7,255 - López Pozas,Calle General López Pozas nº 2,5,28.697426
622,Parque Lineal UZI 0.06 Arroyofresno,CALLE MARIA DE MAEZTU 1,217 - Pedro Rico,Calle Pedro Rico nº 4,0,674.659403
623,Pista de Patinaje Paco de Lucía,AUDITORIO PACO DE LUCIA,213 - Glorieta de Cádiz,Calle Antonio López nº 129,18,408.730396
624,Pista de petanca Centro de Mayores La Vaguada,AVENIDA MONFORTE DE LEMOS 36,249 - Manuel Caldeiro,Paseo de la Castellana nº 298,11,38.630959


In [294]:
#Renombrado de columnas
df_distancia_bicimad_min = df_distancia_bicimad_min.rename(columns = {'title': 'Sports spot', 'address_final': 'Sports Address', 'name': 'BiciMAD spot', 'address': 'Address BiciMAD', 'dock_bikes': 'Available bikes', 'Distancia en m': 'Distance in m'})
df_distancia_bicimad_min_res = df_distancia_bicimad_min[["Sports spot", "Sports Address", "BiciMAD spot", "Address BiciMAD", "Available bikes", "Distance in m"]]
df_distancia_bicimad_min_res

Unnamed: 0,Sports spot,Sports Address,BiciMAD spot,Address BiciMAD,Available bikes,Distance in m
0,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,217 - Pedro Rico,Calle Pedro Rico nº 4,0,492.274040
1,Campo de Golf del Club de Golf Olivar de la Hi...,CALLE VIA DE DUBLIN SIN NÚMERO,208 - Plaza de Castilla,Paseo de la Castellana nº 216,4,289.942186
2,Centro Comercial Dreams - Palacio Municipal de...,CALLE SILVANO 77,207 - Remonta,Calle Azucenas nº 1,12,17.304118
3,Centro Deportivo Municipal María Jesús Rosa (...,AVENIDA MONFORTE DE LEMOS 38,249 - Manuel Caldeiro,Paseo de la Castellana nº 298,11,68.173885
4,Centro Deportivo Municipal Alcántara,CALLE ALCANTARA 26,8 - Alonso Martínez,Plaza de Alonso Martínez nº 5,22,26.128397
...,...,...,...,...,...,...
621,Parque Deportivo Puerta de Hierro,CARRETERA DE LA CORUÑA kilómetro 7,255 - López Pozas,Calle General López Pozas nº 2,5,28.697426
622,Parque Lineal UZI 0.06 Arroyofresno,CALLE MARIA DE MAEZTU 1,217 - Pedro Rico,Calle Pedro Rico nº 4,0,674.659403
623,Pista de Patinaje Paco de Lucía,AUDITORIO PACO DE LUCIA,213 - Glorieta de Cádiz,Calle Antonio López nº 129,18,408.730396
624,Pista de petanca Centro de Mayores La Vaguada,AVENIDA MONFORTE DE LEMOS 36,249 - Manuel Caldeiro,Paseo de la Castellana nº 298,11,38.630959


## BiciPark

In [295]:
#Seleccionamos las collumnas relevantes para el ejercicio
df_distancia_bicipark_min[["title", "address_final", "stationName", "address", "dock_bikes", "Distancia en m"]]

Unnamed: 0,title,address_final,stationName,address,dock_bikes,Distancia en m
0,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,91.768776
1,Campo de Golf del Club de Golf Olivar de la Hi...,CALLE VIA DE DUBLIN SIN NÚMERO,Bicipark Recuerdo,"Calle Hiedra, 26",0,384.420157
2,Centro Comercial Dreams - Palacio Municipal de...,CALLE SILVANO 77,Bicipark Recuerdo,"Calle Hiedra, 26",0,1062.738852
3,Centro Deportivo Municipal María Jesús Rosa (...,AVENIDA MONFORTE DE LEMOS 38,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,658.590200
4,Centro Deportivo Municipal Alcántara,CALLE ALCANTARA 26,Bicipark Salamanca,Pl. del Marqués de Salamanca,6,246.248133
...,...,...,...,...,...,...
621,Parque Deportivo Puerta de Hierro,CARRETERA DE LA CORUÑA kilómetro 7,Bicipark Recuerdo,"Calle Hiedra, 26",0,1009.310821
622,Parque Lineal UZI 0.06 Arroyofresno,CALLE MARIA DE MAEZTU 1,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,274.154139
623,Pista de Patinaje Paco de Lucía,AUDITORIO PACO DE LUCIA,Bicipark Aviación,Parking Aviación Española,0,198.905264
624,Pista de petanca Centro de Mayores La Vaguada,AVENIDA MONFORTE DE LEMOS 36,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,629.047275


In [296]:
#Renombrado de columnas
df_distancia_bicipark_min = df_distancia_bicipark_min.rename(columns = {'title': 'Sports spot', 'address_final': 'Sports Address', 'stationName': 'BiciPark spot',  'address': 'Address BiciPark', 'dock_bikes': 'Available bikes', 'Distancia en m': 'Distance in m'})
df_distancia_bicipark_min_res = df_distancia_bicipark_min[["Sports spot", "Sports Address", "BiciPark spot", "Address BiciPark", "Available bikes", "Distance in m"]]
df_distancia_bicipark_min_res

Unnamed: 0,Sports spot,Sports Address,BiciPark spot,Address BiciPark,Available bikes,Distance in m
0,Campo de Golf del Centro Nacional de Golf,CALLE ARROYO DEL MONTE 5,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,91.768776
1,Campo de Golf del Club de Golf Olivar de la Hi...,CALLE VIA DE DUBLIN SIN NÚMERO,Bicipark Recuerdo,"Calle Hiedra, 26",0,384.420157
2,Centro Comercial Dreams - Palacio Municipal de...,CALLE SILVANO 77,Bicipark Recuerdo,"Calle Hiedra, 26",0,1062.738852
3,Centro Deportivo Municipal María Jesús Rosa (...,AVENIDA MONFORTE DE LEMOS 38,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,658.590200
4,Centro Deportivo Municipal Alcántara,CALLE ALCANTARA 26,Bicipark Salamanca,Pl. del Marqués de Salamanca,6,246.248133
...,...,...,...,...,...,...
621,Parque Deportivo Puerta de Hierro,CARRETERA DE LA CORUÑA kilómetro 7,Bicipark Recuerdo,"Calle Hiedra, 26",0,1009.310821
622,Parque Lineal UZI 0.06 Arroyofresno,CALLE MARIA DE MAEZTU 1,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,274.154139
623,Pista de Patinaje Paco de Lucía,AUDITORIO PACO DE LUCIA,Bicipark Aviación,Parking Aviación Española,0,198.905264
624,Pista de petanca Centro de Mayores La Vaguada,AVENIDA MONFORTE DE LEMOS 36,Bicipark Fuente de la Mora,Estación de Fuente de la Mora,1,629.047275


In [297]:
# Guardamos en un CSV en la ruta correspondiente
df_distancia_bicimad_min_res.to_csv("../output/bicimad_distance.csv")
df_distancia_bicipark_min_res.to_csv("../output/bicipark_distance.csv")

In [298]:
def full_table (message):
    if message == "Bicimad":
        return df_distancia_bicimad_min_res
    elif message == "Bicipark":
        return df_distancia_bicipark_min_res

def specific_location(message):
    if message == "Bicimad WiZink Center":
        idx_bicimad = df_distancia_bicimad_min_res.index[df_distancia_bicimad_min_res["Sports spot"] == "WiZink Center"]
        return df_distancia_bicimad_min_res.loc[idx_bicimad]
    elif message == "Bicipark Wizink Center":
        idx_bicipark = df_distancia_bicipark_min_res.index[df_distancia_bicipark_min_res["Sports spot"] == "WiZink Center"]
        return df_distancia_bicipark_min_res.loc[idx_bicipark]

In [299]:
specific_location('Bicimad WiZink Center')

Unnamed: 0,Sports spot,Sports Address,BiciMAD spot,Address BiciMAD,Available bikes,Distance in m
625,WiZink Center,CALLE JORGE JUAN 99,17 - Carlos Cambronero,Plaza de Carlos Cambronero nº 2,22,0.88652


In [300]:
idx_bicimad = df_distancia_bicimad_min_res.index[df_distancia_bicimad_min_res["Sports spot"] == "WiZink Center"]
idx_bicimad

Index([625], dtype='int64')

In [301]:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process



In [302]:
choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]
process.extract("new york jets", choices, limit=2)
#[('New York Jets', 100), ('New York Giants', 78)]
process.extractOne("cowboys", choices)
#("Dallas Cowboys", 90)

('Dallas Cowboys', 90)

In [305]:
process.extract("new york", choices, limit=1)
#[('New York Jets', 100), ('New York Giants', 78)]

[('New York Jets', 90)]

In [309]:
process.extractOne("ys", choices)
#("Dallas Cowboys", 90)

('Dallas Cowboys', 90)

usage: ipykernel_launcher.py [-h] [-t TYPE] [-l LOCATION]
ipykernel_launcher.py: error: unrecognized arguments: -f /Users/tomasmorin/Library/Jupyter/runtime/kernel-428a009c-b555-4bba-969e-418e438f4c08.json


SystemExit: 2

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


In [None]:
df_distancia_bicimad_min_res = pd.read_csv("./output/bicimad_distance.csv")
df_distancia_bicipark_min_res = pd.read_csv("./output/bicipark_distance.csv")