# Práctica: Calidad del aire de Madrid

El objetivo de la práctica es afianzar y demostrar los conocimientos adquiridos en el modelado y gestión de datos en Cassandra.

Para ello habra que realizar los siguientes ejercicios:
* Pensar un caso de uso acorde al conjunto de datos proporcionado.
* Crear el modelo de datos acorde al caso de uso que se ha pensado.
* Crear las tablas necesarias en Cassandra.
* Tratar e insertar los datos en las tablas creadas.
* Realizar las consultas necesarias para el caso de uso pensado.

Qué hay que entregar:
* Descripción del caso de uso y justificación de por qué es adecuado para ralizaro con Cassandra.
* Diagrama del modelo de datos.
* Un notebook de Jupyter que contenga:
    * * Todas las sentencias para crear las tablas
    * * El código necesario para tratar los datos e insertarlos en Cassandra.
    * * Las sentencias de consulta
* Conclusiones:
    * * Qué te parece Cassandra como data store.
    * * Qué te ha parecido el ejercicio.
    * * Qué has aprendido.
    * * Qué has hechado de menos.
    * * Cómo mejorarías la prática.
    
## El conjunto de datos

El conjunto de datos hace referencia a la calidad del aire de la ciudad de Madrid.
Es el conjunto de mediciones horarias de distintas métricas sobre la calidad del aire de Madrid durante el año 2017

De dónde se han sacado los datos: 
* Portal de datos abiertos del Ayuntamiento de Madrid
* https://datos.madrid.es/sites/v/index.jsp?vgnextoid=f3c0f7d512273410VgnVCM2000000c205a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD
* https://datos.madrid.es/sites/v/index.jsp?vgnextoid=9e42c176313eb410VgnVCM1000000b205a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD

Qué contienen los ficheros:
* 12 ficheros con las mediciones horarias, uno por cada mes.
    * * Formato CSV
* 1 Fichero con la información de las estaciones de medición.
    * * Formato CSV
* 1 Fichero con la descripción de los datos y el procedimiento de medición.
    * * Formato PDF
    
### Ficheros con mediciones

Listado de campos:
* PROVINCIA = Código numérico de la provincia (28).
* MUNICIPIO = Código numérico del municipio (079).
* ESTACION = Número de estación.
* MAGNITUD = Magnitud que se está midiendo. Ver Anexo II "Magnitudes, unidades y técnicas de medida".
* PUNTO_MUESTREO = Tiene el siguiente formato XXYYYZZZ_M_TT. XXYYYZZZ representa la estación de medida.
    * * XX = Códido de provincia
    * * YYY = Código de municipio
    * * ZZZ = Número de estación
    * * M = Magnitud
    * * TT = Técnica de medida
* ANO = Año en el que se tomó la medición.
* MES = Mes del año en el que se tomó la medición
* DIA = Día del mes en el que se tomó la medición.
* H01 - H24 = Hora del día en el que se tomó la medición.
* V01 - V24 = Indica si la medición es válida. ÚNICAMENTE SON VÁLIDOS LOS DATOS QUE LLEVAN EL CÓDIGO "V"


In [None]:
import pandas as pd

df_data = pd.read_csv("data/abr_mo17.csv", header = 0, sep = ';')
print(df_data.info())
print(df_data.head(10))

### Fichero de estaciones

Listado de campos:
* NUMERO = Código de estación.
* ESTACION = Nombre de la estación. 
* DIRECCION = Dirección de la estación.
* LONGITUD = Logitud geográfica de la ubicación de la estación. En grados, minutos y segundos.
* LATITUD = Latitud geográfica de la ubicación de la estación. En grados, minutos y segundos.
* ALTITUD = Altitud sobre el nivel del mar en metros.
* TIPO ESTACION:
    * * UT = Urbana de tráfico
    * * UF = Urbana de fondo
    * * S = Suburbanam
* CONTAMINANTE MEDIDO = Magnitud que se está midiendo. Ver Anexo II "Magnitudes, unidades y técnicas de medida".
    * * NO2;SO2;CO;PM10;PM2,5;O3;BTX;HC = Sólo mide las magnitudes que esténa 1.
* SENSORES METEOROLÓGICOS
    * * UV;VV;DV;TMP;HR;PRB;RS;LL = Sólo mide las magnitudes que esténa 1.


In [None]:
df_estaciones = pd.read_csv("data/estaciones.csv", header = 0, sep = ';')
print(df_estaciones.info())
print(df_estaciones.head(10))

# Puedes continuar aquí con tu ejercicio