### 3. dev_notebook_API REST

This is your development environment...you may start:
- Exploring your data.
- Testing the ad-hoc methods.
- Designing your pipeline.

#### Descripción del datasource:

API REST. We will use the API REST from the Portal de datos abiertos del Ayuntamiento de Madrid, where you can find the Catálogo de datos with more than 70 datasets. The API endpoint is https://datos.madrid.es/egob.

In [1]:
ayunt_mad_ep = 'https://datos.madrid.es/egob'

**En mi caso, me correspondió el json de Instalaciones Accesibles NO municipales:**

**Andrew:** `/catalogo/202180-0-instalaciones-accesibles-no-muni.json`

In [2]:
andrew_json = '/catalogo/202180-0-instalaciones-accesibles-no-muni.json'

#### Unimos el endpoint del Ayuntamiento de Madrid con el dataset (json) correspondiente:

In [3]:
# Url datos Instalaciones accesibles no municipales
inst_no_munic_url = ayunt_mad_ep + andrew_json
print(inst_no_munic_url)

https://datos.madrid.es/egob/catalogo/202180-0-instalaciones-accesibles-no-muni.json


#### Como trabajaremos con una API, importaremos Pandas y Requests:

In [4]:
import pandas as pd
import requests #https://requests.readthedocs.io/en/latest/user/quickstart/

In [5]:
# Usaremos requests.get() para obtener la informacion que nececitamos de la URL
response = requests.get(inst_no_munic_url)
print(type(response))

# Luego usamos response.status_code para revisar si la petición fué exitosa, retornando '200'

response_status = response.status_code
print(response_status)

<class 'requests.models.Response'>
200


#### Le pasamos el método [json](https://www.w3schools.com/js/js_json.asp) para leer datos de un servidor Web y mostrarlos en una página Web

In [6]:
response_json = response.json()
print(type(response_json)) # <class 'dict'>
response_json

<class 'dict'>


{'@context': {'c': 'http://www.w3.org/2002/12/cal#',
  'dcterms': 'http://purl.org/dc/terms/',
  'geo': 'http://www.w3.org/2003/01/geo/wgs84_pos#',
  'loc': 'http://purl.org/ctic/infraestructuras/localizacion#',
  'org': 'http://purl.org/ctic/infraestructuras/organizacion#',
  'vcard': 'http://www.w3.org/2006/vcard/ns#',
  'schema': 'https://schema.org/',
  'title': 'vcard:fn',
  'id': 'dcterms:identifier',
  'relation': 'dcterms:relation',
  'references': 'dcterms:references',
  'address': 'vcard:adr',
  'area': 'loc:barrio',
  'district': 'loc:distrito',
  'locality': 'vcard:locality',
  'postal-code': 'vcard:postal-code',
  'street-address': 'vcard:street-address',
  'location': 'vcard:geo',
  'latitude': 'geo:lat',
  'longitude': 'geo:long',
  'organization': 'vcard:org',
  'organization-desc': 'dcterms:description',
  'accesibility': 'org:accesibilidad',
  'services': 'org:servicios',
  'schedule': 'org:horario',
  'organization-name': 'vcard:organization-name',
  'description': '

#### Como el json es de clase 'Diccionario', extraemos las llaves:

In [7]:
response_json.keys()

dict_keys(['@context', '@graph'])

In [8]:
# Revisamos la información que contiene la llave '@context'
response_json['@context']

{'c': 'http://www.w3.org/2002/12/cal#',
 'dcterms': 'http://purl.org/dc/terms/',
 'geo': 'http://www.w3.org/2003/01/geo/wgs84_pos#',
 'loc': 'http://purl.org/ctic/infraestructuras/localizacion#',
 'org': 'http://purl.org/ctic/infraestructuras/organizacion#',
 'vcard': 'http://www.w3.org/2006/vcard/ns#',
 'schema': 'https://schema.org/',
 'title': 'vcard:fn',
 'id': 'dcterms:identifier',
 'relation': 'dcterms:relation',
 'references': 'dcterms:references',
 'address': 'vcard:adr',
 'area': 'loc:barrio',
 'district': 'loc:distrito',
 'locality': 'vcard:locality',
 'postal-code': 'vcard:postal-code',
 'street-address': 'vcard:street-address',
 'location': 'vcard:geo',
 'latitude': 'geo:lat',
 'longitude': 'geo:long',
 'organization': 'vcard:org',
 'organization-desc': 'dcterms:description',
 'accesibility': 'org:accesibilidad',
 'services': 'org:servicios',
 'schedule': 'org:horario',
 'organization-name': 'vcard:organization-name',
 'description': 'c:summary',
 'link': 'c:url',
 'uid': '

In [9]:
# Luego la información que contiene la llave '@graph'
response_json['@graph']

[{'@id': 'https://datos.madrid.es/egob/catalogo/tipo/entidadesyorganismos/10974068-sede-quedat-com-chamartin.json',
  'id': '10974068',
  'title': 'Sede QuedaT.com Chamartín',
  'relation': 'http://www.madrid.es/sites/v/index.jsp?vgnextchannel=bfa48ab43d6bb410VgnVCM100000171f5a0aRCRD&vgnextoid=151238ff14a6b610VgnVCM2000001f4a900aRCRD',
  'address': {'district': {'@id': 'https://datos.madrid.es/egob/kos/Provincia/Madrid/Municipio/Madrid/Distrito/Chamartin'},
   'area': {'@id': 'https://datos.madrid.es/egob/kos/Provincia/Madrid/Municipio/Madrid/Distrito/Chamartin/Barrio/Prosperidad'},
   'locality': 'MADRID',
   'postal-code': '28002',
   'street-address': 'PASAJE DOÑA CARLOTA 13'},
  'location': {'latitude': 40.447906726663575,
   'longitude': -3.6631712286014215},
  'organization': {'organization-desc': 'Programa de intervención socioeducativa a través del Ocio y Tiempo Libre para jóvenes de 14 a 20, donde encontrarás actividades: artísticas, culturales, deportivas, intersedes, excursi

In [10]:
# Encontramos información relevante con la llave '@graph' y la guardamos en la variable graph_keys
graph_keys = response_json['@graph']
print(type(graph_keys)) # Revisamos el tipo de objeto que es graph_keys

# graph_keys es una lista y ahora revisamos que tipo de elementos contiene:

print(type(graph_keys[0])) # Revisamos el primer elemento [0]
print(type(graph_keys[3])) # Revisamos un elemento de posisión != [0]

<class 'list'>
<class 'dict'>
<class 'dict'>


graph_keys **es una lista** de diccionarios, por lo que según la documentación de [Pandas](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html), usaremos la función pd.json_normalize(). **Esto nos permitirá** obtener el DataFrame de un `diccionario` o `lista de diccionarios`:

In [11]:
inst_no_munic_df = pd.json_normalize(graph_keys)
inst_no_munic_df.head(3)

Unnamed: 0,@id,id,title,relation,address.district.@id,address.area.@id,address.locality,address.postal-code,address.street-address,location.latitude,location.longitude,organization.organization-desc,organization.accesibility,organization.schedule,organization.services,organization.organization-name,@type
0,https://datos.madrid.es/egob/catalogo/tipo/ent...,10974068,Sede QuedaT.com Chamartín,http://www.madrid.es/sites/v/index.jsp?vgnextc...,https://datos.madrid.es/egob/kos/Provincia/Mad...,https://datos.madrid.es/egob/kos/Provincia/Mad...,MADRID,28002,PASAJE DOÑA CARLOTA 13,40.447907,-3.663171,Programa de intervención socioeducativa a trav...,1,De martes a jueves de 17 a 20:30 horas Vierne...,,Sede QuedaT.com Chamartín,
1,https://datos.madrid.es/egob/catalogo/tipo/ent...,5893495,"A (mas) ECU control urbanístico, S.L. Entidad ...",http://www.madrid.es/sites/v/index.jsp?vgnextc...,https://datos.madrid.es/egob/kos/Provincia/Mad...,https://datos.madrid.es/egob/kos/Provincia/Mad...,MADRID,28033,CALLE A&amp;Ntilde;ASTRO 11 PLANTA Baja puerta 10,40.468046,-3.663242,"Entidad Colaboradora Urbanística (ECU), inscri...",1,De lunes a jueves: de 9:00 a 14:00 y de 15:00 ...,,"A (mas) ECU control urbanístico, S.L. Entidad ...",https://datos.madrid.es/egob/kos/entidadesYorg...
2,https://datos.madrid.es/egob/catalogo/tipo/ent...,10613790,"APFMPS, Residencia, centro de día y centro ocu...",http://www.madrid.es/sites/v/index.jsp?vgnextc...,https://datos.madrid.es/egob/kos/Provincia/Mad...,,MADRID,28049,CARRETERA COLMENAR VIEJO 13.6,40.562993,-3.714052,"Bus: 712, 713, 714, 716",1,,"Residencia, centro de día y centro ocupacional...","APFMPS, Residencia, centro de día y centro ocu...",https://datos.madrid.es/egob/kos/entidadesYorg...


1. Tenemos **17 columnas.** Solo necesitamos **5** de ellas:

    - **title:** Nombre del sitio de interés
    - **address.postal-code:** Código postal del sitio de interés
    - **address.street-address:** Dirección del sitio de interés
    - **location.latitude:** Latitud
    - **location.longitude:** Longitud

### Modificando el dataframe con las 5 columnas relevantes y simplificar el análisis

In [12]:
inst_no_munic_df = inst_no_munic_df[['title','address.postal-code','address.street-address',
                                     'location.latitude','location.longitude']]

In [13]:
inst_no_munic_df.tail()

Unnamed: 0,title,address.postal-code,address.street-address,location.latitude,location.longitude
404,Tanatorio Sur de Madrid,28054,CALLE ILDEFONSO GONZALEZ VALENCIA 1,40.373252,-3.72159
405,Teatro Municipal de Títeres. Parque de El Retiro,28009,AVENIDA MÉXICO 4 Parque de El Retiro. Entrada ...,40.418784,-3.686652
406,Teatros del Canal,28003,CALLE CEA BERMUDEZ 1,40.438548,-3.705057
407,WiZink Center,28009,CALLE JORGE JUAN 99,40.423273,-3.672101
408,Yacimiento paleontológico. Estación de Metro C...,28047,CALLE VIA CARPETANA 141,40.392541,-3.741303


In [14]:
# Renombramos las columnas
inst_no_munic_df = inst_no_munic_df.rename(columns={"title": "Place of interest",
                                                    "address.postal-code" : "Postal code",
                                                    "address.street-address": "Place address",
                                                    "location.latitude": "place_lat",
                                                    "location.longitude": "place_long",})

In [15]:
inst_no_munic_df

Unnamed: 0,Place of interest,Postal code,Place address,place_lat,place_long
0,Sede QuedaT.com Chamartín,28002,PASAJE DOÑA CARLOTA 13,40.447907,-3.663171
1,"A (mas) ECU control urbanístico, S.L. Entidad ...",28033,CALLE A&amp;Ntilde;ASTRO 11 PLANTA Baja puerta 10,40.468046,-3.663242
2,"APFMPS, Residencia, centro de día y centro ocu...",28049,CARRETERA COLMENAR VIEJO 13.6,40.562993,-3.714052
3,ASPAYM Madrid (Asociación de Parapléjicos y Pe...,28038,CAMINO VALDERRIBAS 115,40.394474,-3.656134
4,Administración Ciudad Lineal. AEAT,28016,CALLE URUGUAY 16,40.454894,-3.672454
...,...,...,...,...,...
404,Tanatorio Sur de Madrid,28054,CALLE ILDEFONSO GONZALEZ VALENCIA 1,40.373252,-3.721590
405,Teatro Municipal de Títeres. Parque de El Retiro,28009,AVENIDA MÉXICO 4 Parque de El Retiro. Entrada ...,40.418784,-3.686652
406,Teatros del Canal,28003,CALLE CEA BERMUDEZ 1,40.438548,-3.705057
407,WiZink Center,28009,CALLE JORGE JUAN 99,40.423273,-3.672101


In [16]:
inst_no_munic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 409 entries, 0 to 408
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Place of interest  409 non-null    object 
 1   Postal code        409 non-null    object 
 2   Place address      409 non-null    object 
 3   place_lat          409 non-null    float64
 4   place_long         409 non-null    float64
dtypes: float64(2), object(3)
memory usage: 16.1+ KB


2. Tenemos **408 registros** de los cuales debemos revisar en las 5 columnas:

    - Si hay **valores nulos**
    - Si hay **valores únicos** para **Place of interest** y coincide con 408
    - Si hay un **máximo** de 408 registros no nulos en la columna `Postal code`
    - Si hay un **máximo** de 408 registros no nulos en la columna `Place address`
    - Si hay un **máximo** de 408 registros no nulos en la **combinación** `place_lat,place_long` (hacer un df extra)

### Revisando los 408 registros (rows) del dataframe

**1. Instalaciones o lugares de interés ['Place of interest']**

In [17]:
# Revisión de valores únicos
inst_no_munic_df['Place of interest'].value_counts()

Place of interest
Sede QuedaT.com Chamartín                                   1
Oficina de Correos. Sucursal 03. Calle Maudes               1
Oficina de Correos. Sucursal 18. Calle Pizarro              1
Oficina de Correos. Sucursal 15. Calle Jacinto Verdaguer    1
Oficina de Correos. Sucursal 13. Avenida América            1
                                                           ..
Colegio Público Méjico (México)                             1
Colegio Público Martínez Montañés                           1
Colegio Público Marqués de Suanzes                          1
Colegio Público Luis Bello                                  1
Yacimiento paleontológico. Estación de Metro Carpetana      1
Name: count, Length: 409, dtype: int64

In [18]:
# Revisión de valores nulos
inst_no_munic_df['Place of interest'].notnull().value_counts()

Place of interest
True    409
Name: count, dtype: int64

In [19]:
# Revisión de nombres bien escritos
inst_no_munic_df['Place of interest'].unique()

array(['Sede QuedaT.com Chamartín',
       'A (mas) ECU control urbanístico, S.L. Entidad Colaboradora',
       'APFMPS, Residencia, centro de día y centro ocupacional Instituto Doctor Quintero Lumbreras',
       'ASPAYM Madrid (Asociación de Parapléjicos y Personas con Gran Discapacidad Física de la Comunidad de Madrid)',
       'Administración Ciudad Lineal. AEAT',
       'Administración Fermín Caballero. AEAT',
       'Administración Guzmán el Bueno. AEAT',
       'Administración María de Molina. AEAT',
       'Administración Montalbán. AEAT', 'Administración Sudeste. AEAT',
       'Administración Suroeste. AEAT',
       'Aeropuerto Adolfo Suarez Madrid -  Barajas',
       'Alicia Koplowitz Centro de día y centro residencial de Esclerosis Múltiple de la Comunidad de Madrid',
       'Aparcamiento público Saba Estación Ferroviaria Madrid Chamartín',
       'Aparcamiento público Saba Estación Madrid Atocha P2 y P3',
       'Aparcamiento público de Metro de Madrid. Miguel Hernández',
  

- Tenemos 408 lugares de interés (sin repetir) y era lo que estabamos esperando (del Ayuntamiento de Madrid)
- NO hay valores nulos, puesto que hay **408 True**

**2. Códigos postales ['Postal code']**

In [20]:
inst_no_munic_df['Postal code'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 409 entries, 0 to 408
Series name: Postal code
Non-Null Count  Dtype 
--------------  ----- 
409 non-null    object
dtypes: object(1)
memory usage: 3.3+ KB


In [21]:
# Revisión de valores únicos
inst_no_munic_df['Postal code'].value_counts()

Postal code
28040    21
28014    17
28003    16
28029    14
28005    13
28010    13
28030    11
28027    11
28032    11
28004    11
28006    10
28038    10
28034     9
28045     9
28049     9
28026     8
28021     8
28015     8
28035     8
28042     8
28019     7
28037     7
28012     7
28017     7
28020     7
28041     7
28002     7
28009     7
28016     7
28007     6
28047     6
28054     6
28044     6
28025     6
28033     6
28024     6
28031     6
28013     6
28036     5
28050     5
28018     5
28023     5
28008     5
28053     4
28046     4
          4
28001     4
28043     4
28051     4
28011     4
28022     4
28028     4
28048     3
28039     3
Name: count, dtype: int64

En la columna 'Postal code' hay un **espacio vacío,** que debemos detectar a que fila o filas corresponde:

In [22]:
inst_no_munic_df['Postal code'].unique()

array(['28002', '28033', '28049', '28038', '28016', '28034', '28003',
       '28006', '28014', '28030', '28044', '28042', '28032', '28036',
       '28018', '28040', '28010', '28001', '28007', '28026', '28031',
       '28021', '28005', '28028', '28013', '28004', '28012', '28015',
       '28011', '28053', '28020', '28045', '28024', '28037', '28019',
       '28035', '28025', '28050', '28029', '28022', '28041', '28039',
       '28017', '28051', '28027', '28054', '28043', '28047', '28048', '',
       '28008', '28046', '28023', '28009'], dtype=object)

En el array aparece un espacio vacío **' '** (sin código postal). 

Filtraré con **[.loc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)** por los valores vacíos en la columna ['Postal code'] y lo guardo en `vacios_df`.

In [23]:
vacios_df = inst_no_munic_df.loc[inst_no_munic_df['Postal code'] == '']
vacios_df

Unnamed: 0,Place of interest,Postal code,Place address,place_lat,place_long
223,Intercambiador de transporte. Avenida de América,,INTERCAMBIADOR AVENIDA DE AMERICA,40.437941,-3.676795
231,Intercambiador de transporte. Puerta del Sol,,INTERCAMBIADOR PUERTA DEL SOL,40.41677,-3.702882
315,Oficina de Correos. Sucursal 64. Aeropuerto T1...,,AEROPUERTO T1 T2 T3 SALA 1 (LLEGADAS),40.463855,-3.570391
371,Residencia de Estudiantes Ciudad Escolar. Comu...,,"CARRETERA COLMENAR VIEJO Km. 12,800",40.525146,-3.685391


In [24]:
# Con la función .unique() reviso los nómbres completos de los sitios de interés sin cód.postal
vacios_df['Place of interest'].unique()

array(['Intercambiador de transporte. Avenida de América',
       'Intercambiador de transporte. Puerta del Sol',
       'Oficina de Correos. Sucursal 64. Aeropuerto T1. Llegadas Sala 1',
       'Residencia de Estudiantes Ciudad Escolar. Comunidad de Madrid.'],
      dtype=object)

In [25]:
# Reviso las direcciones completas
vacios_df['Place address'].unique()

array(['INTERCAMBIADOR AVENIDA DE AMERICA ',
       'INTERCAMBIADOR PUERTA DEL SOL ',
       ' AEROPUERTO T1 T2 T3  SALA 1 (LLEGADAS)',
       'CARRETERA COLMENAR VIEJO  Km. 12,800'], dtype=object)

In [26]:
# Relleno los valores vacíos para las filas específicas (con ayuda de Google)
inst_no_munic_df.loc[inst_no_munic_df['Place of interest'] == 'Intercambiador de transporte. Avenida de América', 'Postal code'] = '28002'
inst_no_munic_df.loc[inst_no_munic_df['Place of interest'] == 'Intercambiador de transporte. Puerta del Sol', 'Postal code'] = '28013'
inst_no_munic_df.loc[inst_no_munic_df['Place of interest'] == 'Oficina de Correos. Sucursal 64. Aeropuerto T1. Llegadas Sala 1', 'Postal code'] = '28042'
inst_no_munic_df.loc[inst_no_munic_df['Place of interest'] == 'Residencia de Estudiantes Ciudad Escolar. Comunidad de Madrid.', 'Postal code'] = '28049'


In [27]:
# Reviso que no hayan espacios vacíos de nuevo
inst_no_munic_df['Postal code'].unique()

array(['28002', '28033', '28049', '28038', '28016', '28034', '28003',
       '28006', '28014', '28030', '28044', '28042', '28032', '28036',
       '28018', '28040', '28010', '28001', '28007', '28026', '28031',
       '28021', '28005', '28028', '28013', '28004', '28012', '28015',
       '28011', '28053', '28020', '28045', '28024', '28037', '28019',
       '28035', '28025', '28050', '28029', '28022', '28041', '28039',
       '28017', '28051', '28027', '28054', '28043', '28047', '28048',
       '28008', '28046', '28023', '28009'], dtype=object)

In [28]:
# Quiero contar cuantos códigos postales distintos tengo (https://pandas.pydata.org/docs/reference/api/pandas.Series.nunique.html)
inst_no_munic_df['Postal code'].nunique()

53

- Tenemos 53 códigos postales registrados que agrupan varios lugares de interés en Madrid
- NO hay valores nulos **ni** espacios vacíos

**3. Direcciones ['Place address']**

In [29]:
inst_no_munic_df['Place address'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 409 entries, 0 to 408
Series name: Place address
Non-Null Count  Dtype 
--------------  ----- 
409 non-null    object
dtypes: object(1)
memory usage: 3.3+ KB


In [30]:
# Revisamos los valores únicos
inst_no_munic_df['Place address'].unique()

array(['PASAJE DOÑA CARLOTA 13',
       'CALLE A&amp;Ntilde;ASTRO 11 PLANTA Baja puerta 10',
       'CARRETERA COLMENAR VIEJO 13.6', 'CAMINO VALDERRIBAS 115',
       'CALLE URUGUAY 16', 'CALLE FERMIN CABALLERO 66',
       'CALLE GUZMAN EL BUENO 139', 'CALLE NUÑEZ DE BALBOA 116',
       'CALLE MONTALBAN 6', 'CALLE CAMINO DE LOS VINATEROS 51',
       'CALLE AGUACATE 27', 'AVENIDA HISPANIDAD', 'BULEVAR JOSE PRAT 40',
       'CALLE AGUSTIN DE FOXA 34', 'PASEO INFANTA ISABEL  sin número',
       'AVENIDA ALBUFERA 270', 'PLAZA RAMON Y CAJAL 1',
       'CALLE SANGENJO 36 PLANTA 1º', 'CALLE PRINCIPE DE VERGARA 146',
       'CALLE AMADOR DE LOS RIOS 7', 'PASEO RECOLETOS 20',
       'CALLE RAFAEL FINAT 51', 'CALLE DOCTOR ESQUERDO 189',
       'CALLE ABERTURA 2', 'CALLE CORREGIDOR ALONSO DE TOBAR 5',
       'AVENIDA RAFAELA YBARRA 43', 'CALLE FELIPE EL HERMOSO 4',
       'PLAZA ANTONIO MARIA SEGOVIA 2',
       'CALLE ANTONIA RODRIGUEZ SACRISTAN 7 y 9', 'CALLE VILLALONSO 16',
       'AVENIDA RAFAE

Observaciones:
- Hay caractéres extraños (ej: CALLE LA CORU&amp;Ntilde;A 18'), porque no reconoce la "Ñ"
- Hay direcciones en mayusculas y minúsculas
- Hay que eliminar espacios

In [31]:
# Limpiando caractéres
import re
inst_no_munic_df['Place address'] = inst_no_munic_df['Place address'].apply(lambda row: row.replace('&amp;Ntilde;','Ñ'))

In [32]:
# Con .strip() elimino espacios en blanco del principio y del final (sin tocar los espacios en el medio del string)

# También convierto la primera letra de cada palabra en mayúsculas con .title()

inst_no_munic_df['Place address'] = inst_no_munic_df['Place address'].apply(lambda row: row.title().strip())

In [33]:
inst_no_munic_df['Place address'].unique()

array(['Pasaje Doña Carlota 13', 'Calle Añastro 11 Planta Baja Puerta 10',
       'Carretera Colmenar Viejo 13.6', 'Camino Valderribas 115',
       'Calle Uruguay 16', 'Calle Fermin Caballero 66',
       'Calle Guzman El Bueno 139', 'Calle Nuñez De Balboa 116',
       'Calle Montalban 6', 'Calle Camino De Los Vinateros 51',
       'Calle Aguacate 27', 'Avenida Hispanidad', 'Bulevar Jose Prat 40',
       'Calle Agustin De Foxa 34', 'Paseo Infanta Isabel  Sin Número',
       'Avenida Albufera 270', 'Plaza Ramon Y Cajal 1',
       'Calle Sangenjo 36 Planta 1º', 'Calle Principe De Vergara 146',
       'Calle Amador De Los Rios 7', 'Paseo Recoletos 20',
       'Calle Rafael Finat 51', 'Calle Doctor Esquerdo 189',
       'Calle Abertura 2', 'Calle Corregidor Alonso De Tobar 5',
       'Avenida Rafaela Ybarra 43', 'Calle Felipe El Hermoso 4',
       'Plaza Antonio Maria Segovia 2',
       'Calle Antonia Rodriguez Sacristan 7 Y 9', 'Calle Villalonso 16',
       'Avenida Rafael Alberti 36', 'Gl

In [34]:
inst_no_munic_df['Place address'].value_counts()

Place address
Avenida Monforte De Lemos 36           2
Calle Mendez Alvaro 83                 2
Calle Guzman El Bueno 139              2
Calle Adonis 1                         2
Calle General Ricardos 177             2
                                      ..
Calle Tabernillas 2                    1
Avenida Badajoz 74                     1
Calle Hacienda De Pavones 223          1
Avenida Veinticinco De Septiembre 1    1
Calle Via Carpetana 141                1
Name: count, Length: 403, dtype: int64

Necesito crear un **df** que contengan las **direcciones repetidas**, revisando si tienen el mismo **código postal** y **coordenadas (latitud y longitud)**. A este lo llamaré `repeated_address_df`.

1. Aplico la función [pandas.DataFrame.loc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html), accediendo a la columna **'Place address'** para filtrar por las direcciones repetidas y luego:
2. Con la función [pandas.DataFrame.duplicated](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html) y usando el parámetro **(keep=False),** me regresa una serie booleana con **True** a los valores duplicados

In [35]:
repeated_address_df = inst_no_munic_df.loc[inst_no_munic_df['Place address'].duplicated(keep=False)]
repeated_address_df

Unnamed: 0,Place of interest,Postal code,Place address,place_lat,place_long
6,Administración Guzmán el Bueno. AEAT,28003,Calle Guzman El Bueno 139,40.445472,-3.712485
19,Biblioteca Central y Servicio de Documentación...,28010,Calle Amador De Los Rios 7,40.42744,-3.691349
61,Centro de Educación Especial El Despertar,28024,Calle Adonis 1,40.38662,-3.77391
85,Centro ocupacional y residencia Carabanchel,28025,Calle General Ricardos 177,40.385207,-3.736489
91,Cine La Vaguada,28029,Avenida Monforte De Lemos 36,40.479033,-3.708264
165,Delegación Especial de Madrid. AEAT,28003,Calle Guzman El Bueno 139,40.445472,-3.712485
173,Estación Sur de Autobuses de Madrid,28045,Calle Mendez Alvaro 83,40.39484,-3.679069
219,Instituto de Educación Secundaria (IES) Vista ...,28025,Calle General Ricardos 177,40.385197,-3.7365
226,Intercambiador de transporte. Méndez Álvaro - ...,28045,Calle Mendez Alvaro 83,40.395037,-3.67874
240,Ministerio del Interior. Oficina de asistencia...,28010,Calle Amador De Los Rios 7,40.42744,-3.691349


El siguiente paso **es** obtener las coordenadas, combinando en una columna la latitud y la longitud...

**4. Coordenadas (combinación place_lat,place_long)['coordinates']**

In [36]:
# Creamos una nueva columna 'coordinates', donde concatenemos latitud y longitud

inst_no_munic_df['coordinates'] = '[' + round(inst_no_munic_df['place_lat'],6).astype(str) + ',' + round(inst_no_munic_df['place_long'],6).astype(str) + ']'
print(type(inst_no_munic_df['coordinates'][0]))
inst_no_munic_df

<class 'str'>


Unnamed: 0,Place of interest,Postal code,Place address,place_lat,place_long,coordinates
0,Sede QuedaT.com Chamartín,28002,Pasaje Doña Carlota 13,40.447907,-3.663171,"[40.447907,-3.663171]"
1,"A (mas) ECU control urbanístico, S.L. Entidad ...",28033,Calle Añastro 11 Planta Baja Puerta 10,40.468046,-3.663242,"[40.468046,-3.663242]"
2,"APFMPS, Residencia, centro de día y centro ocu...",28049,Carretera Colmenar Viejo 13.6,40.562993,-3.714052,"[40.562993,-3.714052]"
3,ASPAYM Madrid (Asociación de Parapléjicos y Pe...,28038,Camino Valderribas 115,40.394474,-3.656134,"[40.394474,-3.656134]"
4,Administración Ciudad Lineal. AEAT,28016,Calle Uruguay 16,40.454894,-3.672454,"[40.454894,-3.672454]"
...,...,...,...,...,...,...
404,Tanatorio Sur de Madrid,28054,Calle Ildefonso Gonzalez Valencia 1,40.373252,-3.721590,"[40.373252,-3.72159]"
405,Teatro Municipal de Títeres. Parque de El Retiro,28009,Avenida México 4 Parque De El Retiro. Entrada ...,40.418784,-3.686652,"[40.418784,-3.686652]"
406,Teatros del Canal,28003,Calle Cea Bermudez 1,40.438548,-3.705057,"[40.438548,-3.705057]"
407,WiZink Center,28009,Calle Jorge Juan 99,40.423273,-3.672101,"[40.423273,-3.672101]"


In [37]:
# Volvemos a llamar el dataframe de las direcciones repetidas
repeated_address_df = inst_no_munic_df.loc[inst_no_munic_df['Place address'].duplicated(keep=False)]

# Ordenamos alfabéticamente 'Place addresss' (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)
repeated_address_df.sort_values(by='Place address')

Unnamed: 0,Place of interest,Postal code,Place address,place_lat,place_long,coordinates
91,Cine La Vaguada,28029,Avenida Monforte De Lemos 36,40.479033,-3.708264,"[40.479033,-3.708264]"
297,Oficina de Correos. Sucursal 42. Centro Comerc...,28029,Avenida Monforte De Lemos 36,40.479033,-3.708264,"[40.479033,-3.708264]"
61,Centro de Educación Especial El Despertar,28024,Calle Adonis 1,40.38662,-3.77391,"[40.38662,-3.77391]"
377,Residencia y centro de rehabilitación Duques d...,28024,Calle Adonis 1,40.38662,-3.77391,"[40.38662,-3.77391]"
19,Biblioteca Central y Servicio de Documentación...,28010,Calle Amador De Los Rios 7,40.42744,-3.691349,"[40.42744,-3.691349]"
240,Ministerio del Interior. Oficina de asistencia...,28010,Calle Amador De Los Rios 7,40.42744,-3.691349,"[40.42744,-3.691349]"
85,Centro ocupacional y residencia Carabanchel,28025,Calle General Ricardos 177,40.385207,-3.736489,"[40.385207,-3.736489]"
219,Instituto de Educación Secundaria (IES) Vista ...,28025,Calle General Ricardos 177,40.385197,-3.7365,"[40.385197,-3.7365]"
6,Administración Guzmán el Bueno. AEAT,28003,Calle Guzman El Bueno 139,40.445472,-3.712485,"[40.445472,-3.712485]"
165,Delegación Especial de Madrid. AEAT,28003,Calle Guzman El Bueno 139,40.445472,-3.712485,"[40.445472,-3.712485]"


### Observaciones

1. **Diferentes** sitios de interés con **igual** código postal, dirección y coordenadas, pertenecen a un mismo edificio. Por ejemplo, tanto el Cine La Vaguada como la Oficina de Correos (Sucursal 42), quedan en el **Centro Comercial La Vaguada.**

2. **Diferentes** sitios de interés con **igual** código postal, dirección pero **diferentes** coordenadas, se debe a que la dirección solo indica el portal o entrada hacia más de un sitio. a un mismo edificio. Por ejemplo:
    - Hay 3 minutos caminando, desde Centro ocupacional y residencia Carabanchel y el IES Vista Alegre (la misma dirección Calle General Ricardos 177)
    - En Calle Mendez Alvaro 83, está el Intercambiador de transporte y Estación Sur

### Dataframe final de inst_no_munic_df

In [38]:
inst_no_munic_df = inst_no_munic_df.drop(columns=['coordinates'])
inst_no_munic_df

Unnamed: 0,Place of interest,Postal code,Place address,place_lat,place_long
0,Sede QuedaT.com Chamartín,28002,Pasaje Doña Carlota 13,40.447907,-3.663171
1,"A (mas) ECU control urbanístico, S.L. Entidad ...",28033,Calle Añastro 11 Planta Baja Puerta 10,40.468046,-3.663242
2,"APFMPS, Residencia, centro de día y centro ocu...",28049,Carretera Colmenar Viejo 13.6,40.562993,-3.714052
3,ASPAYM Madrid (Asociación de Parapléjicos y Pe...,28038,Camino Valderribas 115,40.394474,-3.656134
4,Administración Ciudad Lineal. AEAT,28016,Calle Uruguay 16,40.454894,-3.672454
...,...,...,...,...,...
404,Tanatorio Sur de Madrid,28054,Calle Ildefonso Gonzalez Valencia 1,40.373252,-3.721590
405,Teatro Municipal de Títeres. Parque de El Retiro,28009,Avenida México 4 Parque De El Retiro. Entrada ...,40.418784,-3.686652
406,Teatros del Canal,28003,Calle Cea Bermudez 1,40.438548,-3.705057
407,WiZink Center,28009,Calle Jorge Juan 99,40.423273,-3.672101


In [39]:
inst_no_munic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 409 entries, 0 to 408
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Place of interest  409 non-null    object 
 1   Postal code        409 non-null    object 
 2   Place address      409 non-null    object 
 3   place_lat          409 non-null    float64
 4   place_long         409 non-null    float64
dtypes: float64(2), object(3)
memory usage: 16.1+ KB


### Exportamos el .csv final de inst_no_munic_df_v2

In [40]:
from pathlib import Path
filepath = Path('../data/processed/inst_no_munic_df.csv')  
filepath.parent.mkdir(parents=True, exist_ok=True) 
inst_no_munic_df.to_csv(filepath)