### Práctica de Formatos de datos: CSV y JSON

#### Ejercicio 1[5 puntos]
Considerar el archivo __Contaminación.csv__. El archivo contiene la información recogida por las estaciones de control de calidad del aire durante el año 2019.

Una descripción detallada de la estructura de los datos se puede encontrar en el siguiente enlace: https://datos.madrid.es/FWProjects/egob/Catalogo/MedioAmbiente/Aire/Ficheros/Interprete_ficheros_%20calidad_%20del_%20aire_global.pdf

La información contenida por columnas es la siguiente:
* __PROVINCIA__: Código numérico que representa la provincia. 
* __MUNICIPIO__: Código numérico que representa el municipio. 
* __ESTACIÓN__: Código numérico de hasta dos dígitos que representa la estación. Consultar ANEXO I de la documentación
* __MAGNITUD__: Código numérico de hasta dos dígitos que representa la magnitud.Consultar ANEXO II de la documentación
* __PUNTO MUESTREO__: Código numérico formado por 3 subcódigos. El primer código representa la estación, el segundo código representa la magnitud, y el tercer código representa la técnica de medida.
* __MES__: Mes de la toma de datos. Valor entre 1 y 12.
* __D01-D31__: Medidas tomadas desde el día D01 hasta el día D31 del mes correspondiente.
* __V01-V31__: Validez de las medidas tomadas desde el día D01 hasta el día D31 del mes correspondiente. Puede valer V(Válido), N(No válido), no se conoce(vacío) o bien otra cadena(se considera incorrecto).


Se pide crear un programa que realice las siguientes operaciones:
* Leer los datos del archivo __Contaminación.csv__
* Transformar los datos leidos de manera que aquellos valores que no sean válidos ("N") su valor sea sustituido por 0.
* Obtener y  mostrar por pantalla para cada tipo de contaminante (columna Magnitud) y para cada estación (columna ESTACIÓN), la suma total de la contaminación que se ha producido durante el año 2019, es decir:

|Estación|Contaminante1| Contaminante2| Contaminante3| ....Contaminanten|
|----|-------------|-------------|-------------|-------------|
|Estación1|Subtotal11 |--- |--- |Subtotal1n|  
|Estación2|--- |--- |--- |--- | 
|   ...|--- |--- |--- |--- |     
|Estaciónn|Subtotal1n |--- |--- |Subtotalnn| 
     
* Generar un documento __Salida.csv__ donde cada línea del documento contiene la siguiente información:
    Estación1, Contaminante1,Subtotal1, Contaminante2,Subtotal2,......................,Contaminanten,Subtotaln
    
    Estaciónm, Contaminante1,Subtotal1, Contaminante2,Subtotal2,......................,Contaminanten,Subtotaln
    
Tanto en lo que mostréis por pantalla como lo que escribáis en el archivo usad los nombres de los contaminantes y de las estaciones que aparecen en los anexos de la documentación indicada más arriba.
    

Para leer los archivos usa un código como el siguiente:

In [4]:
import csv
from tabulate import tabulate

tablaContaminantes = {
    "1" : "Dióxido de Azufre",
    "6" : "Monóxido de Carbono",
    "7" : "Monóxido de Nitrógeno",
    "8" : "Dióxido de Nitrógeno",
    "9" : "Partículas < 2.5 µm",
    "10" : "Partículas < 10 µm",
    "12" : "Óxidos de Nitrógeno ",
    "14" : "Ozono",
    "20" : "Tolueno",
    "30" : "Benceno",
    "35" : "Etilbenceno",
    "37" : "Metaxileno",
    "38" : "Paraxileno",
    "39" : "Ortoxileno",
    "42" : "Hidrocarburos totales",
    "43" : "Metano",
    "44" : "Hidrocarburos no metánicos",
}

tablaEstaciones = {
    "28079001" : "Pº. Recoletos",
    "28079002" : "Glta. de Carlos V",
    "28079003" : "Pza. del Carmen",
    "28079035" : "Pza. del Carmen",
    "28079004" : "Pza. de España",
    "28079005" : "Barrio del Pilar",
    "28079039" : "Barrio del Pilar",
    "28079006" : "Pza. Dr. Marañón",
    "28079007" : "Pza. M. de Salamanca",
    "28079008" : "Escuelas Aguirre",
    "28079009" : "Pza. Luca de Tena",
    "28079010" : "Cuatro Caminos",
    "28079038" : "Cuatro Caminos",
    "28079011" : "Av. Ramón y Cajal",
    "28079012" : "Pza. Manuel Becerra ",
    "28079013" : "Vallecas",
    "28079040" : "Vallecas",
    "28079014" : "Pza. Fdez. Ladreda",
    "28079015" : "Pza. Castilla",
    "28079016" : "Arturo Soria",
    "28079017" : "Villaverde Alto",
    "28079018" : "C/ Farolillo",
    "28079019" : "Huerta Castañeda",
    "28079020" : "Moratalaz",
    "28079036" : "Moratalaz",
    "28079021" : "Pza. Cristo Rey",
    "28079022" : "Pº. Pontones",
    "28079023" : "Final C/ Alcalá",
    "28079024" : "Casa de Campo",
    "28079025" : "Santa Eugenia",
    "28079026" : "Urb. Embajada (Barajas)",
    "28079027" : "Barajas",
    "28079047" : "Méndez Álvaro",
    "28079048" : "Pº. Castellana",
    "28079049" : "Retiro",
    "28079050" : "Pza. Castilla",
    "28079054" : "Ensanche Vallecas",
    "28079055" : "Urb. Embajada (Barajas)",
    "28079056" : "Plaza Elíptica",
    "28079057" : "Sanchinarro",
    "28079058" : "El Pardo",
    "28079059" : "Parque Juan Carlos I",
    "28079086" : "Tres Olivos",
    "28079060" : "Tres Olivos"
}

def totalMediciones(entrada):
    total = 0
    pares = [(entrada[i], entrada[i + 1]) for i in range(7,len(entrada)-1,2)] 
    for valor,validez in pares:
        total += float(valor) if validez != "N" else 0
    return total

def mapToContaminante(entrada):
    return {
            "id" : entrada[3],
            "nombre" : tablaContaminantes[entrada[3]],
            "total": totalMediciones(entrada)
        }

def mapToMedicion(entrada):
    return {
        "estacion" : {
            "id" : entrada[4].split("_")[0],
            "nombre" : tablaEstaciones[entrada[4].split("_")[0]]
        },
        "contaminante" : mapToContaminante(entrada)
    }

def datosAgregados(estaciones,contaminantes):
    filasEstaciones = []
    for estacion in estaciones.values():
        fila = [estacion["nombre"]]
        for id,nombre in contaminantes.items():
            if id in estacion["contaminantes"]:
                fila.append(estacion["contaminantes"][id])
            else:
                fila.append({"id": id,"subtotal": 0,"nombre": nombre})
        filasEstaciones.append(fila)
    return filasEstaciones

def generarCSV(datos,nombre = "Salida.csv"):
    filasCSV = map(filaCSV,datos)
    with open(nombre, mode='w',newline='',encoding='utf-8') as salida:
        writerSalida = csv.writer(salida, delimiter=',', quotechar='"')
        for fila in filasCSV: writerSalida.writerow(fila)

def filaTabla(fila):
    simplificada = [fila[0]]
    for i in range(1,len(fila)):
        simplificada.append(round(fila[i]["subtotal"],2))
    return simplificada

def filaCSV(fila):
    simplificada = [fila[0]]
    for i in range(1,len(fila)):
        simplificada.append(fila[i]["nombre"])
        simplificada.append(round(fila[i]["subtotal"],2))
    return simplificada

def imprimirTabla(datos,contaminantes):
    headers = ["Estación"] + list(contaminantes.values())
    filasTabla = map(filaTabla,datos)
    print(tabulate(filasTabla, headers=headers, tablefmt='orgtbl'))

def datosPorEstacion(entradas):
    estaciones = {}
    for entrada in entradas:
        medicion = mapToMedicion(entrada)
        idEstacion = medicion["estacion"]["id"]
        idContaminante = medicion["contaminante"]["id"]
        nombreContaminante = medicion["contaminante"]["nombre"]
        
        if idEstacion not in estaciones:
            estaciones[idEstacion] = {}
            estaciones[idEstacion]["contaminantes"] = {}
            estaciones[idEstacion]["nombre"] = medicion["estacion"]["nombre"]
        
        if idContaminante not in estaciones[idEstacion]["contaminantes"]:
            estaciones[idEstacion]["contaminantes"][idContaminante] = {
                "nombre" : nombreContaminante,
                "subtotal" : 0
            }
        estaciones[idEstacion]["contaminantes"][idContaminante]["subtotal"] += medicion["contaminante"]["total"]
    return estaciones

def listarContaminantes(entradas):
    contaminantes = {}
    for entrada in entradas:
        medicion = mapToMedicion(entrada)
        idContaminante = medicion["contaminante"]["id"]
        nombreContaminante = medicion["contaminante"]["nombre"]
        if idContaminante not in contaminantes:
            contaminantes[idContaminante] = nombreContaminante
    return contaminantes

def leerEntradasCSV(nombre = 'Contaminación.csv'):
    csvarchivo = open(nombre,encoding="utf8",errors='ignore')
    reader = csv.reader(csvarchivo, delimiter=";")
    next(reader, None)  # skip the headers
    entradas = list(reader)
    return entradas

entradas = leerEntradasCSV()
datosPorEstacion = datosPorEstacion(entradas)
contaminantes = listarContaminantes(entradas)
datosTotales = datosAgregados(datosPorEstacion,contaminantes)
generarCSV(datosTotales)
imprimirTabla(datosTotales,contaminantes)

| Estación                |   Dióxido de Azufre |   Monóxido de Carbono |   Monóxido de Nitrógeno |   Dióxido de Nitrógeno |   Óxidos de Nitrógeno  |   Partículas < 2.5 µm |   Partículas < 10 µm |   Ozono |   Tolueno |   Benceno |   Etilbenceno |   Hidrocarburos totales |   Metano |   Hidrocarburos no metánicos |
|-------------------------+---------------------+-----------------------+-------------------------+------------------------+------------------------+-----------------------+----------------------+---------+-----------+-----------+---------------+-------------------------+----------+------------------------------|
| Pza. de España          |                2016 |                 105   |                    6373 |                  10392 |                  20147 |                     0 |                    0 |       0 |       0   |       0   |           0   |                    0    |     0    |                         0    |
| Escuelas Aguirre        |                2098 |      

#### Ejercicio 2[5 puntos]
Considerar los archivos  __Estaciones.csv__ y __Museos.json__ que incluye información sobre las estaciones de control de la calidad del aire y sobre los museos de Madrid respectivamente.

El objetivo de este ejercicio es utilizar la información obtenida en el ejercicio 1 de forma que para cada uno de los museos que aparece en el archivo dado realice las siguientes operaciones:
* Obtener las 3 estaciones más cercanas a cada museo.
* Obtener y mostrar por pantalla para cada museo la siguiente información donde ValorX es el subtotal del nivel de contaminación más alto de todos los contaminantes medidos en la estaciónX, y TipoContaminanteX es el tipo del contaminante cuyo valor es mostrado en la celda anterior.

|Museo|Estación1|TipoContaminante1| Estación2|TipoContaminante2| Estación3|TipoContaminante3|
|----|-------------|-------------|-------------|----|----|----|
|Museo1|Valor1 |Tipo1 |Valor2|Tipo2|Valor3|  Tipo3 |
|Museo2|--- |--- |--- |--- | --- | --- | 
|   ...|--- |--- |--- |--- | --- | --- |     
|Museon|Valor1 |Tipo1 |Valor2|Tipo2|Valor3|  Tipo3 |

* Generar un documento __Salida.json__ con la siguiente estructura:

Tanto en lo que mostréis por pantalla como lo que escribáis en el archivo usad los nombres de los contaminantes y de las estaciones que aparecen en los anexos de la documentación indicada más arriba.

Para leer los archivos usa un código como el siguiente:

In [None]:
import json
leer = json.loads(open('Museos.json',encoding="utf8").read())
print(leer)

En los documentos __Estación.csv__ y __Museos.json__ aparece la información de geolocalización en forma de longitud y latitud tanto de las estaciones como de los museos. En este sentido, para calcular la distancia entre dos puntos dadas sus coordenadas se utilizará la siguiente función en Python:

In [5]:
import math
import json
import csv
from tabulate import tabulate

def haversine(lat1, lon1, lat2, lon2):
    rad=math.pi/180
    dlat=lat2-lat1
    dlon=lon2-lon1
    R=6372.795477598
    a=(math.sin(rad*dlat/2))**2 + math.cos(rad*lat1)*math.cos(rad*lat2)*(math.sin(rad*dlon/2))**2
    distancia=2*R*math.asin(math.sqrt(a))
    return distancia

def leerMuseos(nombre='Museos.json'):
    entradas = json.loads(open(nombre,encoding="utf8").read())["@graph"]
    museos = []
    for entrada in entradas:
        if "location" in entrada:
            museos.append({
                "id" : entrada["id"],
                "nombre" : entrada["title"],
                "lat" : float(entrada["location"]["latitude"]),
                "lon" : float(entrada["location"]["longitude"])
            })
    return museos

def leerEstaciones(nombre='Estaciones.csv'):
    csvarchivo = open(nombre,encoding="utf8",errors='ignore')
    reader = csv.reader(csvarchivo, delimiter=",")
    next(reader, None)  # skip the headers
    entradas = list(reader)
    estacionesLocalizacion = {}
    for entrada in entradas:
        if len(entrada) == 29:
            estacionesLocalizacion[entrada[2]] = {
                "id" : entrada[0],
                "nombre" : entrada[2],
                "lat" : float(entrada[26]),
                "lon" : float(entrada[27])
            }
    csvarchivo = open("Salida.csv",encoding="utf8",errors='ignore')
    reader = csv.reader(csvarchivo, delimiter=",")
    next(reader, None)  # skip the headers
    entradas = list(reader)
    estacionesCompletas =[]
    for entrada in entradas:
        if entrada[0] in estacionesLocalizacion:
            paresContaminantes = [(entrada[i], entrada[i + 1]) for i in range(1,len(entrada)-1,2)]
            estacionesLocalizacion[entrada[0]]["contaminantes"] = paresContaminantes
            estacionesCompletas.append(estacionesLocalizacion[entrada[0]])
    return estacionesCompletas

def buscarEstacionesCercanas(museo,estaciones,cantidad):
    distancias = []
    for estacion in estaciones:
        distancia = haversine(museo["lat"],
                              museo["lon"],
                              estacion["lat"],
                              estacion["lon"])
        distancias.append((distancia,estacion))
    distancias.sort(key = lambda item : item[0])
    return [item[1] for item in distancias[0:cantidad]]
    
def contaminanteMasAlto(estacion):
    contaminantes = estacion["contaminantes"]
    contaminantes.sort(key = lambda item : item[1],reverse=True)
    return contaminantes[0]

museos = leerMuseos()
estaciones = leerEstaciones()
datosAgregados = {"año" : 2019, "fuente": "Ayuntamiento de Madrid", "museos" : []}
for museo in museos:
    datosMuseo = {"museo" : museo["nombre"]}
    estacionesCercanas = buscarEstacionesCercanas(museo,estaciones,3)
    for estacion in estacionesCercanas:
        contaminanteMayor = contaminanteMasAlto(estacion)
        datosEstacion = {"nombre" : estacion["nombre"],"Valor": contaminanteMayor[1],"Tipo": contaminanteMayor[0]}
        datosMuseo[estacion["nombre"]] = datosEstacion
    datosAgregados["museos"].append(datosMuseo)
    
print(datosAgregados)

with open('Salida.json', 'w', encoding='utf8') as f:
  json.dump(datosAgregados, f,ensure_ascii=False)


{'año': 2019, 'fuente': 'Ayuntamiento de Madrid', 'museos': [{'museo': 'Casa Museo Lope de Vega', 'Ensanche Vallecas': {'nombre': 'Ensanche Vallecas', 'Valor': '8548.0', 'Tipo': 'Dióxido de Nitrógeno'}, 'Urb. Embajada (Barajas)': {'nombre': 'Urb. Embajada (Barajas)', 'Valor': '9275.0', 'Tipo': 'Dióxido de Nitrógeno'}, 'Vallecas': {'nombre': 'Vallecas', 'Valor': '8459.0', 'Tipo': 'Dióxido de Nitrógeno'}}, {'museo': 'Casita - Museo del Ratón Pérez', 'Ensanche Vallecas': {'nombre': 'Ensanche Vallecas', 'Valor': '8548.0', 'Tipo': 'Dióxido de Nitrógeno'}, 'Urb. Embajada (Barajas)': {'nombre': 'Urb. Embajada (Barajas)', 'Valor': '9275.0', 'Tipo': 'Dióxido de Nitrógeno'}, 'Vallecas': {'nombre': 'Vallecas', 'Valor': '8459.0', 'Tipo': 'Dióxido de Nitrógeno'}}, {'museo': 'Castillo de la Alameda', 'Ensanche Vallecas': {'nombre': 'Ensanche Vallecas', 'Valor': '8548.0', 'Tipo': 'Dióxido de Nitrógeno'}, 'Urb. Embajada (Barajas)': {'nombre': 'Urb. Embajada (Barajas)', 'Valor': '9275.0', 'Tipo': 'Dióx

#### Normas de entrega

* Fecha tope de entrega: 03/10/2019
* La entrega se realizará subiendo al campus virtual un notebook de Jupyter con la solución. El archivo tendrá como nombre FormatosI_GrupoX donde X será el número de grupo correspondiente.