# ETL 1.- MUNICIPIOS Y ESTACIONES METEOROLÓGICAS

It is highly recommended to use a powerful **GPU**, you can use it for free uploading this notebook to [Google Colab](https://colab.research.google.com/notebooks/intro.ipynb).
<table align="center">
 <td align="center"><a target="_blank" href="https://colab.research.google.com/github/andreadgalis/TFM/blob/main/TFM_Andrea_Delgado_Galisteo.ipynb">
        <img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Run in Google Colab</a></td>
  <td align="center"><a target="_blank" href="https://github.com/andreadgalis/TFM/blob/main/TFM_Andrea_Delgado_Galisteo.ipynb">
        <img src="https://i.ibb.co/xfJbPmL/github.png"  height="70px" style="padding-bottom:5px;"  />View Source on GitHub</a></td>
</table>

Antes de comenzar con el tratamiento de datos climatológicos, es de vital importancia trabajarlos sobre un marco geográfico ordenado. Esto puede parecer sencillo y una idea muy básica pero este tipo de datos, suelen presentar muchos problemas.

Esto es así dado que este tipo de datos pueden ser recogidos de muchas formas distinas y su homogeniciación es fundamental. 

Lo primero es saber que las observaciones climatológicas de la AEMET se producen en una red de estaciones meterelógicas presentes en toda la red nacional. Por ello, en su web presentan un inventario con todas las estaciones climatológicas disponibles y sus coordenadas.

Otra de las fuentes de datos que vamos a emplear en esta primera ETL es el listado de todos los municipios de España disponible en el INE. Este no será el único tipo de datos que extraeremos de la web del INE.

Primero los imports e instalación de aquetes necesarios.

In [1]:
! pip install unidecode
! pip install dms2dec

import requests
import json
import pandas as pd
import zipfile
import io
import unidecode
import geopy.distance
from dms2dec.dms_convert import dms2dec

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Primero obtenemos el fichero maestro de municipios disponible en la web de aemet OpenData.

In [2]:
#ctes necesarias para las APIs en la web de AEMET

querystring = {"api_key":"eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJhbmRyZWFkZ2FsaXNAZ21haWwuY29tIiwianRpIjoiZGFjZDgwNmYtNTk2Ny00MTkyLWE2YzYtM2I3M2VlYTQ5ZWY0IiwiaXNzIjoiQUVNRVQiLCJpYXQiOjE2NjA4NDExMjIsInVzZXJJZCI6ImRhY2Q4MDZmLTU5NjctNDE5Mi1hNmM2LTNiNzNlZWE0OWVmNCIsInJvbGUiOiIifQ.faXcsh-CbHKYIkI0nO0vJp5eE4uEbq5B-n9v7LwMw3w"}
headers = {'cache-control': "no-cache"}

#URL

aemet_municipios_url = "https://opendata.aemet.es/opendata/api/maestro/municipios/"

#GET

municipios_aemet_json = requests.request("GET", aemet_municipios_url, headers=headers, params=querystring).json()
#Tabla de municipios de la AEMET
municipios_aemet = pd.json_normalize(municipios_aemet_json)


Descargarmos ahora el fichero disponible en la web del INE con el listado completo  de municipios con los códigos correspondientes 
de provincias y comunidades y ciudades autonómicas.

In [3]:
#URL, esta vez es directa a un xml
ine_municipios_url = 'https://www.ine.es/daco/daco42/codmun/codmun20/20codmun.xlsx'
ine_municipios_file = pd.ExcelFile(ine_municipios_url)
#Tabla de municipios del INE
municipios_ine = pd.read_excel(ine_municipios_file, 'dic19', skiprows=1, converters={'CODAUTO':str,'CPRO':str, 'CMUN':str, 'DC':str}) 
#Se castean a texto los códigos porque si no se interpretan como números enteros
#Eliminamos los espacios previos y posteriores de los nombres de las columnas
municipios_ine = municipios_ine.rename(columns=lambda x: x.strip())


También será necesaria la siguiente tabla que contiene el nombre de las provincias y comunidades autónomas junto  con los códigos.
En esta ocasión leemos los datos directamente de la web:

In [4]:
#URL, esta vez directa a la página web del INE
ine_ccaa_prov_url = 'https://www.ine.es/daco/daco42/codmun/cod_ccaa_provincia.htm'

table_MN = pd.read_html(ine_ccaa_prov_url, skiprows=[51], converters={'CODAUTO':str,'CPRO':str}) 
#La razón del skip de la línea 51 es que era otro cabecero donde especificaba que empezaba las secciones de ciudades autonómicas

prov_com_codigos_ine = table_MN[0]
#Se eliminan los espacios en blanco, que al emplear este método de leer desde la web son muy frecuentes
prov_com_codigos_ine = prov_com_codigos_ine.rename(columns=lambda x: x.strip())

La primera unión lógica entre estos dataframes descargados, es unir la tabla de municipios del INE con la tabla que tiene el nombre de las provincias y comunidades autónomas. Ello es posible ya que ambas tablas incluyen los códigos de comunidad autónoma y provincia.

Un nuevo campo que voy a introducir y que jugará un papel muy importante es el ID de municipio del INE. Este se consigue uniendo el CPRO con el CMUN, lo que resulta en un identificador único de largo para todos los municipios. 

In [5]:
#MERGE

total_ine_municipios = pd.merge(municipios_ine, prov_com_codigos_ine, on=['CODAUTO', 'CPRO'])

#Nuevo campo identificador

total_ine_municipios["INE_MUN_ID"] = total_ine_municipios["CPRO"]+total_ine_municipios["CMUN"]


Esto nos deja todos los datos proporcionados por el INE de la siguiente forma:

In [6]:
total_ine_municipios

Unnamed: 0,CODAUTO,CPRO,CMUN,DC,NOMBRE,Comunidad Autónoma,Provincia,INE_MUN_ID
0,16,01,051,3,Agurain/Salvatierra,País Vasco,Araba/Álava,01051
1,16,01,001,4,Alegría-Dulantzi,País Vasco,Araba/Álava,01001
2,16,01,002,9,Amurrio,País Vasco,Araba/Álava,01002
3,16,01,049,3,Añana,País Vasco,Araba/Álava,01049
4,16,01,003,5,Aramaio,País Vasco,Araba/Álava,01003
...,...,...,...,...,...,...,...,...
8126,02,50,296,7,"Zaida, La",Aragón,Zaragoza,50296
8127,02,50,297,3,Zaragoza,Aragón,Zaragoza,50297
8128,02,50,298,9,Zuera,Aragón,Zaragoza,50298
8129,18,51,001,3,Ceuta,Ceuta,Ceuta,51001


La siguiente unión que puede realizarse es pues la unión de esta tabla contenedora del nuevo identificador por municipio con la tabla de municipios del INE que añade otros datos como coordenadas geográficas, número de habitantes y la altitud.

Para ello, tuve que interpretar uno de los campos que presentaba este dataframe desde el principio, el campo "id". Tras fijarme en su estructura y comparar un par de casos, es claro que eliminando de este código la cadena de strings "id", el código resultante encaja a la perfección con el ID que se ha conformado reviamente para cada municipio haciendo uso de los códigos de provincia y municipio del INE.

In [7]:
#Eliminando la cadena de texto 'id'
municipios_aemet['id'] = municipios_aemet['id'].str.replace('id','')
#MERGE
total_municipios = pd.merge(total_ine_municipios, municipios_aemet, left_on ='INE_MUN_ID', right_on='id')

Quedando así la tabla con todas las uniones:

In [8]:
total_municipios.head()

Unnamed: 0,CODAUTO,CPRO,CMUN,DC,NOMBRE,Comunidad Autónoma,Provincia,INE_MUN_ID,latitud,id_old,...,latitud_dec,altitud,capital,num_hab,zona_comarcal,destacada,nombre,longitud_dec,id,longitud
0,16,1,51,3,Agurain/Salvatierra,País Vasco,Araba/Álava,1051,"42º51'0.08154""",1470,...,42.85002265,605,Agurain/Salvatierra,4952,750102,1,Salvatierra/Agurain,-2.38874391,1051,"-2º23'19.478076"""
1,16,1,1,4,Alegría-Dulantzi,País Vasco,Araba/Álava,1001,"42º50'23.321688""",1010,...,42.83981158,568,Alegría-Dulantzi,2925,750102,1,Alegría-Dulantzi,-2.51243731,1001,"-2º30'44.774316"""
2,16,1,2,9,Amurrio,País Vasco,Araba/Álava,1002,"43º3'15.399936""",1020,...,43.05427776,219,Amurrio,10239,750101,1,Amurrio,-3.00007326,1002,"-3º0'0.263736"""
3,16,1,49,3,Añana,País Vasco,Araba/Álava,1049,"42º48'4.43448""",1460,...,42.8012318,574,Salinas de Añana/Gesaltza Añana,165,750102,0,Añana,-2.98601634,1049,"-2º59'9.658824"""
4,16,1,3,5,Aramaio,País Vasco,Araba/Álava,1003,"43º3'4.307508""",1030,...,43.05119653,333,Ibarra,1478,750101,1,Aramaio,-2.56540037,1003,"-2º33'55.441332"""


Otra de las informaciones relativas a los municipios que suelen ser muy necesarias es la de los códigos postales. En España un mismo municipio puede tener diferentes códigos postales pero además, un mismo código postal puede emplearse por más de un municipio.

En un principio, esta información la proporciona Correos pero es una información de pago. Sin embargo, hay otras formas de obtener esta información, a través del callejero del censo electoral que prepara el INE también. 
En este enlace, se presentan varias tablas en formato de ancho fijo se supone para ser procesadas por programas especializados en los datos geográficos. He hecho un tratamiento sobre una de las tablas, la que se supone contiene todas las direcciones postales del territorio español. En esta tabla, y tras hacer una serie de recortes dentro de diversos códigos de los que no he conseguido interpretación alguna. Dentro de estos recortes, pude obtener el código ZIP así como el código INE de cada municipio.

Ha sido necesario emplear el encoding ISO-8859-1 en lugar del habitual UTF-8 porque se incluían algunos caracteres del diccionario español colo la letra Ñ.

In [9]:
#Descargamos la carpeta comprimida zip contenedora de todos los ficheros de tablas de ancho fijo
!wget -nc 'http://www.ine.es/prodyser/callejero/caj_esp/caj_esp_072022.zip' #nc para que no vuelva a descargarla en caso de que ya se haya descargado
zip = zipfile.ZipFile('caj_esp_072022.zip')

fichero_direcciones = io.StringIO(zip.read('TRAM.P01-52.D220630.G220704').decode('ISO-8859-1'))
#Para separar todos los campos, especifico los anchos de cada columna
df = pd.read_fwf(fichero_direcciones, widths = [13, 29, 11, 8, 9, 8, 32, 50, 5, 25, 67, 11, 5], header=None)
df.columns = ['ine_codigo_string', 'string_2', 'zip_string', 'string_4', 'string_5', 'string_6', 'string_7', 'nombre_ciudad', 'string_9', 'string_10', 'string_11', 'string_12', 'string_13']


File ‘caj_esp_072022.zip’ already there; not retrieving.



Sobre toda la tabla anterior, hacemos pues el subset de las columnas que nos interesan y aplicamos las transformaciones necesarias:

In [10]:
subset = df[['ine_codigo_string', 'zip_string']]
subset['ine_codigo_string'] = subset['ine_codigo_string'].str[:5]
subset['zip_string'] = subset['zip_string'].str[:5]
subset = subset.drop_duplicates()
subset = subset.groupby('ine_codigo_string').zip_string.apply(list).reset_index()
subset.columns = ['ine_codigo_string', 'ZIPs_array']
subset.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,ine_codigo_string,ZIPs_array
0,1001,"[01240, 01193]"
1,1002,"[01470, 01450, 01468]"
2,1003,"[01169, 01160, 01165]"
3,1004,"[01474, 01478]"
4,1006,"[01220, 01211]"


Con ello, hacemos un merge más y ya tenemos toda la información de los municipios unificada, incluyendo un array de los códigos zips disponibles en cada municipio.

In [11]:
total_municipios_zips = pd.merge(total_municipios, subset, left_on ='INE_MUN_ID', right_on='ine_codigo_string')
total_municipios_zips.head()

Unnamed: 0,CODAUTO,CPRO,CMUN,DC,NOMBRE,Comunidad Autónoma,Provincia,INE_MUN_ID,latitud,id_old,...,capital,num_hab,zona_comarcal,destacada,nombre,longitud_dec,id,longitud,ine_codigo_string,ZIPs_array
0,16,1,51,3,Agurain/Salvatierra,País Vasco,Araba/Álava,1051,"42º51'0.08154""",1470,...,Agurain/Salvatierra,4952,750102,1,Salvatierra/Agurain,-2.38874391,1051,"-2º23'19.478076""",1051,"[01207, 01200]"
1,16,1,1,4,Alegría-Dulantzi,País Vasco,Araba/Álava,1001,"42º50'23.321688""",1010,...,Alegría-Dulantzi,2925,750102,1,Alegría-Dulantzi,-2.51243731,1001,"-2º30'44.774316""",1001,"[01240, 01193]"
2,16,1,2,9,Amurrio,País Vasco,Araba/Álava,1002,"43º3'15.399936""",1020,...,Amurrio,10239,750101,1,Amurrio,-3.00007326,1002,"-3º0'0.263736""",1002,"[01470, 01450, 01468]"
3,16,1,49,3,Añana,País Vasco,Araba/Álava,1049,"42º48'4.43448""",1460,...,Salinas de Añana/Gesaltza Añana,165,750102,0,Añana,-2.98601634,1049,"-2º59'9.658824""",1049,"[01423, 01426]"
4,16,1,3,5,Aramaio,País Vasco,Araba/Álava,1003,"43º3'4.307508""",1030,...,Ibarra,1478,750101,1,Aramaio,-2.56540037,1003,"-2º33'55.441332""",1003,"[01169, 01160, 01165]"


Dado que en esta tabla resultante alguna de las informaciones se han duplicado durante los joins y de cara a tener la información ordenada de una manera más lógica, la entidad resultante sería:

In [12]:
MUNICIPIOS = total_municipios_zips[['CODAUTO', 'Comunidad Autónoma', 'CPRO', 'Provincia', 'INE_MUN_ID', 'NOMBRE', 'ZIPs_array', 'destacada', 'num_hab', 'altitud', 'latitud', 'longitud', 'latitud_dec', 'longitud_dec']]

Descargamos ahora nueva información, la relativa al inventario de estaciones del que dispone la AEMET:

In [13]:
#URL
inventario_estaciones_url = "https://opendata.aemet.es/opendata/api/valores/climatologicos/inventarioestaciones/todasestaciones/"
inventario_estaciones_req = requests.request("GET", inventario_estaciones_url, headers=headers, params=querystring)
estaciones_data =  inventario_estaciones_req.json()['datos']
#GET
estaciones_data_json = requests.get(estaciones_data).json()
inventario_estaciones = pd.json_normalize(estaciones_data_json)
inventario_estaciones.head()

Unnamed: 0,latitud,provincia,altitud,indicativo,nombre,indsinop,longitud
0,413515N,BARCELONA,74,0252D,ARENYS DE MAR,8186.0,023224E
1,411734N,BARCELONA,4,0076,BARCELONA AEROPUERTO,8181.0,020412E
2,412506N,BARCELONA,408,0200E,"BARCELONA, FABRA",,020727E
3,412326N,BARCELONA,6,0201D,BARCELONA,8180.0,021200E
4,414312N,BARCELONA,291,0149X,MANRESA,8174.0,015025E


Dado que las coordenadas no presentan el formato adecuado, se aplica transformación en estas columnas para poder transformarlas después a coordenadas en formato decimal.

In [14]:
inventario_estaciones['latitud'] = inventario_estaciones['latitud'].str[:2]+"º"+inventario_estaciones['latitud'].str[2:4]+str("'")+inventario_estaciones['latitud'].str[4:6]+str("''")+inventario_estaciones['latitud'].str[6:8]
inventario_estaciones['longitud'] = inventario_estaciones['longitud'].str[:2]+"º"+inventario_estaciones['longitud'].str[2:4]+str("'")+inventario_estaciones['longitud'].str[4:6]+str("''")+inventario_estaciones['longitud'].str[6:8]

In [15]:
inventario_estaciones['latitud_dec'] = inventario_estaciones['latitud'].apply(lambda x: dms2dec(x))
inventario_estaciones['longitud_dec'] = inventario_estaciones['longitud'].apply(lambda x: dms2dec(x))

A pesar de ser una tabla descargada del mismo enlace que el primer inventario de municipios, las estaciones no vinen referenciadas a ninguno de ellos, tan solo encontramos la provincia, una descripción textual de su ubicación y unas coordenadas.

En un primer momento lo único que podemos unir es entonces el código de provincia. Para conseguirlo, también necesité hacer una serie de transformaciones sobre la forma en la que estas están escritas en ambas tablas (la de MUNICIPIOS y esta que nos ocupa ahora). Lo conseguí aplicando algunas de las técnicas de normalización de textos aprendidas en el módulo de text mining (eliminar artículos, quitar acentos, eliminar traducciones y expresar todo en minúscula).

Primero sobre el dataframe de MUNICIPIOS:

In [17]:
prov_cod = MUNICIPIOS[['CPRO', 'Provincia']]
prov_cod = prov_cod.drop_duplicates()

#elimino acentos
prov_cod['provincia_clean'] = prov_cod['Provincia'].apply(lambda x: unidecode.unidecode(x))
#Paso todo a minúsculas
prov_cod['provincia_clean'] = prov_cod['provincia_clean'].str.lower()
#se homogeniza la forma de exresar Santa
prov_cod['provincia_clean'] = prov_cod['provincia_clean'].str.replace('santa','sta.')

Sobre el dataframe de inventario de estaciones:

In [18]:
#Se quitan las tildes
inventario_estaciones['provincia_clean'] = inventario_estaciones['provincia'].apply(lambda x: unidecode.unidecode(x))
#Se pasa todo a minísculas
inventario_estaciones['provincia_clean'] = inventario_estaciones['provincia_clean'].str.lower()

Algunas funciones más para terminar de tener la equivalencia entre los nombres de las provincias:

In [19]:
def delete_translation(name):
  position = name.find('/')
  if position>0:
    name = name[:position]
  else:
    name = name
  return name


def delete_article(name):
  position = name.find(',')
  if position>0:
    name = name[:position]
  else:
    name = name
  return name


def delete_article_2(name):
  name = (((name.replace('la ', '')).replace('a ', '')).replace('illes ', '')).replace('las ', '')
  return name  


prov_cod['provincia_clean'] = prov_cod['provincia_clean'].apply(lambda x: delete_translation(x))
inventario_estaciones['provincia_clean'] = inventario_estaciones['provincia_clean'].apply(lambda x: delete_translation(x))
prov_cod['provincia_clean'] = prov_cod['provincia_clean'].apply(lambda x: delete_article(x))
inventario_estaciones['provincia_clean'] = inventario_estaciones['provincia_clean'].apply(lambda x: delete_article_2(x))


Quedando el inventario de estaciones con los códigos de las provincias:

In [20]:
inventario_estaciones = pd.merge(inventario_estaciones, prov_cod, on=['provincia_clean'], how='left')
inventario_estaciones.head()

Unnamed: 0,latitud,provincia,altitud,indicativo,nombre,indsinop,longitud,latitud_dec,longitud_dec,provincia_clean,CPRO,Provincia
0,41º35'15''N,BARCELONA,74,0252D,ARENYS DE MAR,8186.0,02º32'24''E,41.5875,2.54,barcelona,8,Barcelona
1,41º17'34''N,BARCELONA,4,0076,BARCELONA AEROPUERTO,8181.0,02º04'12''E,41.292778,2.07,barcelona,8,Barcelona
2,41º25'06''N,BARCELONA,408,0200E,"BARCELONA, FABRA",,02º07'27''E,41.418333,2.124167,barcelona,8,Barcelona
3,41º23'26''N,BARCELONA,6,0201D,BARCELONA,8180.0,02º12'00''E,41.390556,2.2,barcelona,8,Barcelona
4,41º43'12''N,BARCELONA,291,0149X,MANRESA,8174.0,01º50'25''E,41.72,1.840278,barcelona,8,Barcelona


A pesar de conocer ya las provincias donde se encuentra cada estación, no podemos conocer en qué municipio se encuentran y es que, aunque a veces la descripción verbal de la localización de la estación sea el nombre de un municipio, muchas otras no. 

Con la intención entonces de localizar cada estación en una localidad, decidí aplicar un mismmo criterio para todos los casos y este, no es más que hacer uso de las coordenadas.

Dado que en la tabla de MUNICIPIOS tenemos las coordenadas de lo que se supone sería el centro de cada municipio, y también conocemos las coordenadas de cada estación, decidí crear una función que calculase la distancia de la estación con todos los municipios de su provincia (haciendo uso de todos los dos pares de coordenadas) y esocger como municipio contenedor de la estación con el que guardase menos distancia.

Esto no quiere decir, que todas las localizaciones sean las acertadas, ya que a veces una estación que se encuentre muy alejada del centro de su municipio, puede estar más cerca del centro de la localidad vecina, pero al menos se trata de un criterio unificador.

La función para calcular la distancia a todas las ciudades de su provincia

In [21]:
def localizar_municipio (lat_estacion:float, long_estacion:float, cod_prov:str):
  id_mun_0 = '00000'
  distancia_0 = 1000000
  coord_est = (lat_estacion, long_estacion)
  mun_list = (MUNICIPIOS.loc[MUNICIPIOS["CPRO"] == cod_prov, 'INE_MUN_ID'])
  for municipio in mun_list:
    lat_mun =   float((MUNICIPIOS.loc[MUNICIPIOS["INE_MUN_ID"] == str(municipio), 'latitud_dec']).to_list()[0])
    long_mun =  float((MUNICIPIOS.loc[MUNICIPIOS["INE_MUN_ID"] == str(municipio), 'longitud_dec']).to_list()[0])
    coord_mun = (lat_mun, long_mun)
    d = (geopy.distance.geodesic(coord_mun, coord_est).km)
    if d<distancia_0:
      distancia_0 = d
      id_mun_0 = municipio
    else:
      distancia_0= distancia_0
      id_mun_0 = id_mun_0

  return id_mun_0


Aplicando la fución al dataframe:

In [22]:
inventario_estaciones['INE_ID_MUN'] =  inventario_estaciones.apply(lambda x: localizar_municipio(x['latitud_dec'], x['longitud_dec'], x['CPRO']), axis=1)
inventario_estaciones.head()

Unnamed: 0,latitud,provincia,altitud,indicativo,nombre,indsinop,longitud,latitud_dec,longitud_dec,provincia_clean,CPRO,Provincia,INE_ID_MUN
0,41º35'15''N,BARCELONA,74,0252D,ARENYS DE MAR,8186.0,02º32'24''E,41.5875,2.54,barcelona,8,Barcelona,8006
1,41º17'34''N,BARCELONA,4,0076,BARCELONA AEROPUERTO,8181.0,02º04'12''E,41.292778,2.07,barcelona,8,Barcelona,8169
2,41º25'06''N,BARCELONA,408,0200E,"BARCELONA, FABRA",,02º07'27''E,41.418333,2.124167,barcelona,8,Barcelona,8221
3,41º23'26''N,BARCELONA,6,0201D,BARCELONA,8180.0,02º12'00''E,41.390556,2.2,barcelona,8,Barcelona,8019
4,41º43'12''N,BARCELONA,291,0149X,MANRESA,8174.0,01º50'25''E,41.72,1.840278,barcelona,8,Barcelona,8113
