### Práctica de Formatos de datos: CSV y JSON

#### Ejercicio 1[5 puntos]
Considerar el archivo __Contaminación.csv__. El archivo contiene la información recogida por las estaciones de control de calidad del aire durante el año 2019.

Una descripción detallada de la estructura de los datos se puede encontrar en el siguiente enlace: https://datos.madrid.es/FWProjects/egob/Catalogo/MedioAmbiente/Aire/Ficheros/Interprete_ficheros_%20calidad_%20del_%20aire_global.pdf

La información contenida por columnas es la siguiente:
* __PROVINCIA__: Código numérico que representa la provincia. 
* __MUNICIPIO__: Código numérico que representa el municipio. 
* __ESTACIÓN__: Código numérico de hasta dos dígitos que representa la estación. Consultar ANEXO I de la documentación
* __MAGNITUD__: Código numérico de hasta dos dígitos que representa la magnitud.Consultar ANEXO II de la documentación
* __PUNTO MUESTREO__: Código numérico formado por 3 subcódigos. El primer código representa la estación, el segundo código representa la magnitud, y el tercer código representa la técnica de medida.
* __MES__: Mes de la toma de datos. Valor entre 1 y 12.
* __D01-D31__: Medidas tomadas desde el día D01 hasta el día D31 del mes correspondiente.
* __V01-V31__: Validez de las medidas tomadas desde el día D01 hasta el día D31 del mes correspondiente. Puede valer V(Válido), N(No válido), no se conoce(vacío) o bien otra cadena(se considera incorrecto).


Se pide crear un programa que realice las siguientes operaciones:
* Leer los datos del archivo __Contaminación.csv__
* Transformar los datos leidos de manera que aquellos valores que no sean válidos ("N") su valor sea sustituido por 0.
* Obtener y  mostrar por pantalla para cada tipo de contaminante (columna Magnitud) y para cada estación (columna ESTACIÓN), la suma total de la contaminación que se ha producido durante el año 2019, es decir:

|Estación|Contaminante1| Contaminante2| Contaminante3| ....Contaminanten|
|----|-------------|-------------|-------------|-------------|
|Estación1|Subtotal11 |--- |--- |Subtotal1n|  
|Estación2|--- |--- |--- |--- | 
|   ...|--- |--- |--- |--- |     
|Estaciónn|Subtotal1n |--- |--- |Subtotalnn| 
     
* Generar un documento __Salida.csv__ donde cada línea del documento contiene la siguiente información:
    Estación1, Contaminante1,Subtotal1, Contaminante2,Subtotal2,......................,Contaminanten,Subtotaln
    
    Estaciónm, Contaminante1,Subtotal1, Contaminante2,Subtotal2,......................,Contaminanten,Subtotaln
    
Tanto en lo que mostréis por pantalla como lo que escribáis en el archivo usad los nombres de los contaminantes y de las estaciones que aparecen en los anexos de la documentación indicada más arriba.
    

In [164]:
def prepararFichero (nombreFichero):
    import csv
    csvarchivo = open(nombreFichero, encoding="utf8",errors='ignore')
    entrada = csv.reader(csvarchivo, delimiter=";")
    listaTemporal = []
    for fila in entrada:
        if entrada.line_num == 1:
            continue
        listaTemporal.append(fila)
    csvarchivo.close()
    return listaTemporal

def transformar_invalidos (listaDatos):
    for fila in listaDatos:
        i = 0
        for dato in fila:
            if dato == 'N':
                fila[i - 1] = '00000'
            i += 1

def obtener_y_mostrar (listaDatos):
    estaciones = {}
    nombre_contaminantes, nombre_estaciones = obtener_diccionario_estaciones()
    
    for fila in listaDatos:
        if not fila[2] in estaciones:
            contaminantes = {}
            estaciones[fila[2]] = contaminantes
        if not fila[3] in estaciones[fila[2]]:
            estaciones[fila[2]][fila[3]] = 0
        i = 7
        while i < len(fila):
            estaciones[fila[2]][fila[3]] += float(fila[i])
            i += 2
    for estacion, contaminantes in estaciones.items():
        print("Estacion: " + nombre_estaciones[estacion])
        print("\tContaminantes: ")
        for contaminante, valor in contaminantes.items():
            print('\t\t\t' + nombre_contaminantes[int(contaminante)] + ": " + str(valor))
    return estaciones

def obtener_diccionario_estaciones():
    dic_contaminantes = {1:"Dioxido de Azufre", 6:"Monoxido de Carbono", 7:"Monoxido de Nitrogeno", 8:"Dioxido de Nitrogeno", 
                        9:"Particulas < 2.5 µm", 10:"Particulas < 10 µm", 12:"Oxidos de Nitrogeno", 14:"Ozono", 20:"Tolueno",
                        30:"Benceno", 35:"Etilbenceno", 37:"Metaxileno", 38:"Paraxileno", 39:"Ortoxileno", 42:"Hidrocarburos totales (hexano)",
                        43:"Metano", 44:"Hidrocarburos no metanicos (hexano)"}
    nombre_estaciones = {}
    lista_estaciones = prepararFichero('Estaciones.csv')
    for fila in lista_estaciones:
        nombre_estaciones[fila[1]] = fila[2]
    return dic_contaminantes, nombre_estaciones
    

def salida(dic_estaciones):
    import csv
    nombre_contaminantes, nombre_estaciones = obtener_diccionario_estaciones()
    archivoSalida=open("Salida.csv","w")
    salidaEscritor=csv.writer(archivoSalida)
    for estacion, contaminantes in dic_estaciones.items():
        lista_aux = []
        lista_aux.append(nombre_estaciones[estacion])
        for contaminante, valor in contaminantes.items():
            lista_aux.append(nombre_contaminantes[int(contaminante)])
            lista_aux.append(str(valor))
        salidaEscritor.writerow(lista_aux)
    archivoSalida.close()

def ejercicio_1():
    listaDatos = prepararFichero('Contaminación.csv')
    transformar_invalidos(listaDatos)
    estaciones = obtener_y_mostrar(listaDatos)
    print("Preparando fichero Salida.csv")
    salida(estaciones)

In [165]:
ejercicio_1()

Estacion: Pza. de Espaa
	Contaminantes: 
			Dioxido de Azufre: 2016.0
			Monoxido de Carbono: 104.99999999999984
			Monoxido de Nitrogeno: 6373.0
			Dioxido de Nitrogeno: 10392.0
			Oxidos de Nitrogeno: 20147.0
Estacion: Escuelas Aguirre
	Contaminantes: 
			Dioxido de Azufre: 2098.0
			Monoxido de Carbono: 46.700000000000145
			Monoxido de Nitrogeno: 4819.0
			Dioxido de Nitrogeno: 12109.0
			Particulas < 2.5 µm: 2595.0
			Particulas < 10 µm: 5230.0
			Oxidos de Nitrogeno: 19486.0
			Ozono: 12049.0
			Tolueno: 632.9000000000001
			Benceno: 146.8000000000002
			Etilbenceno: 113.50000000000009
			Hidrocarburos totales (hexano): 375.07000000000016
			Metano: 352.2100000000001
			Hidrocarburos no metanicos (hexano): 23.12
Estacion: Avda. Ramn y Cajal
	Contaminantes: 
			Monoxido de Nitrogeno: 3417.0
			Dioxido de Nitrogeno: 9288.0
			Oxidos de Nitrogeno: 14549.0
			Tolueno: 396.3999999999997
			Benceno: 92.00000000000001
			Etilbenceno: 69.30000000000014
Estacion: Arturo Soria
	Contaminant

#### Ejercicio 2[5 puntos]
Considerar los archivos  __Estaciones.csv__ y __Museos.json__ que incluye información sobre las estaciones de control de la calidad del aire y sobre los museos de Madrid respectivamente.

El objetivo de este ejercicio es utilizar la información obtenida en el ejercicio 1 de forma que para cada uno de los museos que aparece en el archivo dado realice las siguientes operaciones:
* Obtener las 3 estaciones más cercanas a cada museo.
* Obtener y mostrar por pantalla para cada museo la siguiente información donde ValorX es el subtotal del nivel de contaminación más alto de todos los contaminantes medidos en la estaciónX, y TipoContaminanteX es el tipo del contaminante cuyo valor es mostrado en la celda anterior.

|Museo|Estación1|TipoContaminante1| Estación2|TipoContaminante2| Estación3|TipoContaminante3|
|----|-------------|-------------|-------------|----|----|----|
|Museo1|Valor1 |Tipo1 |Valor2|Tipo2|Valor3|  Tipo3 |
|Museo2|--- |--- |--- |--- | --- | --- | 
|   ...|--- |--- |--- |--- | --- | --- |     
|Museon|Valor1 |Tipo1 |Valor2|Tipo2|Valor3|  Tipo3 |

* Generar un documento __Salida.json__ con la siguiente estructura:

Tanto en lo que mostréis por pantalla como lo que escribáis en el archivo usad los nombres de los contaminantes y de las estaciones que aparecen en los anexos de la documentación indicada más arriba.

Para leer los archivos usa un código como el siguiente:

In [None]:
import json
leer = json.loads(open('Museos.json',encoding="utf8").read())
print(leer)

In [223]:
import operator
def prepararFichero (nombreFichero):
    import csv
    csvarchivo = open(nombreFichero, encoding="utf8",errors='ignore')
    entrada = csv.reader(csvarchivo, delimiter=";")
    listaTemporal = []
    for fila in entrada:
        if entrada.line_num == 1:
            continue
        listaTemporal.append(fila)
    csvarchivo.close()
    return listaTemporal

def transformar_invalidos (listaDatos):
    for fila in listaDatos:
        i = 0
        for dato in fila:
            if dato == 'N':
                fila[i - 1] = '00000'
            i += 1

def obtener_estaciones (listaDatos):
    estaciones = {}
    nombre_contaminantes, nombre_estaciones = obtener_diccionario_estaciones()
    estaciones_cont = {}
    for fila in listaDatos:
        if not fila[2] in estaciones:
            contaminantes = {}
            lista_valor= []
            lista_valor.append(contaminantes)
            lista_valor.append(nombre_estaciones[fila[2]][1])
            lista_valor.append(nombre_estaciones[fila[2]][2])
            estaciones[fila[2]] = lista_valor
        if not fila[3] in estaciones[fila[2]][0]:
            estaciones[fila[2]][0][fila[3]] = 0.0
        i = 7
        while i < len(fila):
            estaciones[fila[2]][0][fila[3]] += float(fila[i])
            i += 2
    for nombre_estacion, contaminante in estaciones.items():
        resultado = sorted(contaminante[0].items(), key=operator.itemgetter(1), reverse = True)
        estaciones_cont[nombre_estacion] = [(resultado[0][0], contaminante[0][resultado[0][0]]), estaciones[nombre_estacion][1], estaciones[nombre_estacion][2]]
    return estaciones_cont

def obtener_diccionario_estaciones():
    dic_contaminantes = {1:"Dioxido de Azufre", 6:"Monoxido de Carbono", 7:"Monoxido de Nitrogeno", 8:"Dioxido de Nitrogeno", 
                        9:"Particulas < 2.5 µm", 10:"Particulas < 10 µm", 12:"Oxidos de Nitrogeno", 14:"Ozono", 20:"Tolueno",
                        30:"Benceno", 35:"Etilbenceno", 37:"Metaxileno", 38:"Paraxileno", 39:"Ortoxileno", 42:"Hidrocarburos totales (hexano)",
                        43:"Metano", 44:"Hidrocarburos no metanicos (hexano)"}
    nombre_estaciones = {}
    lista_estaciones = prepararFichero('Estaciones.csv')
    for fila in lista_estaciones:
        nombre_estaciones[fila[1]] = [fila[2], fila[24], fila[25]]
    return dic_contaminantes, nombre_estaciones
    

def abrir_y_preparar(nombreFichero):
    import json
    leer = json.loads(open(nombreFichero,encoding="utf8").read())
    listaDatos = prepararFichero('Contaminación.csv')
    transformar_invalidos(listaDatos)
    dic_museos = {}
    dic_estaciones = obtener_estaciones(listaDatos)
    for elemento in leer['@graph']:
        if 'location' in elemento:
            dic_estaciones_museo = {}
            lat_museo = elemento['location']['latitude']
            long_museo = elemento['location']['longitude']
            estacion1, estacion2, estacion3 = estaciones_mas_cercanas(lat_museo, long_museo, dic_estaciones)
            dic_museos[elemento['title']] = dic_estaciones_museo;
            dic_museos[elemento['title']][estacion1[0]] = dic_estaciones[estacion1[0]][0]
            dic_museos[elemento['title']][estacion2[0]] = dic_estaciones[estacion2[0]][0]
            dic_museos[elemento['title']][estacion3[0]] = dic_estaciones[estacion3[0]][0]
    return dic_museos
    
import math

def haversine(lat1, lon1, lat2, lon2):
    rad=math.pi/180
    dlat=lat2-lat1
    dlon=lon2-lon1
    R=6372.795477598
    a=(math.sin(rad*dlat/2))**2 + math.cos(rad*lat1)*math.cos(rad*lat2)*(math.sin(rad*dlon/2))**2
    distancia=2*R*math.asin(math.sqrt(a))
    return distancia

def estaciones_mas_cercanas(lat_museo, long_museo, dic_estaciones):
    lista_estaciones = []
    for estacion, lista in dic_estaciones.items():
        distancia = haversine(float(lat_museo), float(long_museo), float(lista[2].replace(',', '.')), float(lista[1].replace(',', '.')))
        estacion_distancia = (estacion, distancia)
        lista_estaciones.append(estacion_distancia)
    lista_estaciones.sort(key = lambda estacion:estacion[1])
    return lista_estaciones[0], lista_estaciones[1], lista_estaciones[2]

def mostrar(dic_museos):
    nombre_contaminantes, nombre_estaciones = obtener_diccionario_estaciones()  
    for nombre, estaciones in dic_museos.items():
        print("Nombre museo: " + nombre)
        for nombre_estacion, contaminante in estaciones.items():
            print("\t" + nombre_estaciones[nombre_estacion][0] + ": " + str(contaminante[1]) + ", " + nombre_contaminantes[int(contaminante[0])])
            
def salida(dic_museos):
    import json
    nombre_contaminantes, nombre_estaciones = obtener_diccionario_estaciones()
    archivo=open("Salida.json","w")
    dic_salida = {}
    dic_salida["año"] = 2019
    dic_salida["fuente"] = "Ayuntamiento de Madrid"
    dic_salida["museos"] = []
    for nombre_museo, estaciones in dic_museos.items():
        dic_estaciones = {}
        dic_estaciones["museo"] = "Museo " + nombre_museo
        i = 1
        for nombre_estacion, contaminante in estaciones.items():
            dic_contaminante = {}
            dic_contaminante["Nombre"] = nombre_estaciones[nombre_estacion][0]
            dic_contaminante["Valor"] = str(contaminante[1])
            dic_contaminante["Tipo"] = nombre_contaminantes[int(contaminante[0])]
            dic_estaciones["Estacion " + str(i)] = dic_contaminante
            i += 1
        dic_salida["museos"].append(dic_estaciones)
    json.dump(dic_salida, archivo, indent = 4, ensure_ascii = False)
    archivo.close()
    
def ejercicio2():
    dic_museos = abrir_y_preparar('Museos.json')
    mostrar(dic_museos)
    salida(dic_museos)

In [224]:
ejercicio2()

Nombre museo: Casa Museo Lope de Vega
	Pza. del Carmen: 14542.0, Oxidos de Nitrogeno
	Parque del Retiro: 14941.0, Ozono
	Escuelas Aguirre: 19486.0, Oxidos de Nitrogeno
Nombre museo: Casita - Museo del Ratón Pérez
	Pza. del Carmen: 14542.0, Oxidos de Nitrogeno
	Pza. de Espaa: 20147.0, Oxidos de Nitrogeno
	Parque del Retiro: 14941.0, Ozono
Nombre museo: Castillo de la Alameda
	Urb. Embajada: 15638.0, Oxidos de Nitrogeno
	Juan Carlos I: 14401.0, Ozono
	Barajas Pueblo: 14392.0, Ozono
Nombre museo: Casón del Buen Retiro
	Parque del Retiro: 14941.0, Ozono
	Escuelas Aguirre: 19486.0, Oxidos de Nitrogeno
	Pza. del Carmen: 14542.0, Oxidos de Nitrogeno
Nombre museo: Centro Social y Cultural La Casa Encendida
	Mendez Alvaro: 12838.0, Oxidos de Nitrogeno
	Pza. del Carmen: 14542.0, Oxidos de Nitrogeno
	Parque del Retiro: 14941.0, Ozono
Nombre museo: Ermita de San Antonio de la Florida (Museo)
	Pza. de Espaa: 20147.0, Oxidos de Nitrogeno
	Casa de Campo: 16209.0, Ozono
	Pza. del Carmen: 14542.0, Oxid

En los documentos __Estación.csv__ y __Museos.json__ aparece la información de geolocalización en forma de longitud y latitud tanto de las estaciones como de los museos. En este sentido, para calcular la distancia entre dos puntos dadas sus coordenadas se utilizará la siguiente función en Python:

#### Normas de entrega

* Fecha tope de entrega: 03/10/2019
* La entrega se realizará subiendo al campus virtual un notebook de Jupyter con la solución. El archivo tendrá como nombre FormatosI_GrupoX donde X será el número de grupo correspondiente.