# Ejercicio 18

## Enunciado
Crea un programa que:

1. Lea los datos referentes a la contaminación de Madrid de Marzo 2020 en un DataFrame de pandas.
2. Indique el número de mediciones tomadas a las 03:00 **no válidas**.
3. Muestre las estadísticas a nivel horario de los registros correspondientes a N02.

## Datos

- Listado de las estaciones de control: [enlace](https://datos.madrid.es/egob/catalogo/212629-1-estaciones-control-aire.csv)
- Datos 2020: [enlace](https://datos.madrid.es/egob/catalogo/201200-10306316-calidad-aire-horario.zip)
- Datos 2019: [enlace](https://datos.madrid.es/egob/catalogo/201200-42-calidad-aire-horario.zip)
- Interpretación de los datos: [enlace](https://datos.madrid.es/FWProjects/egob/Catalogo/MedioAmbiente/Aire/Ficheros/Interprete_ficheros_%20calidad_%20del_%20aire_global.pdf)

### ¿Qué cosas nuevas necesitamos saber?
- DataFrames. La librería **pandas**.

### DataFrames. La librería **pandas**.

Antes de poder utilizar la librería **pandas** debemos instalarla. Para ello, el comando es el siguiente:
```console
pip install -U pandas
```

**NOTA**: Recuerda ejecutar la consola como administrador en el caso de Windows o preceder el comando de **sudo** en el caso de Linux/MacOS.

In [47]:
# una vez instalada, realizaremos el siguiente import
import pandas as pd

Pero, antes de empezar... qué es pandas?

Pues entre otras cosas, pandas es una librería que nos brinda estructuras de datos denominados DataFrames. Para aquellos que tengáis conocimientos en bases de datos, sería el equivalente (a grosso modo) a una tabla.

#### Importando datos

Para importar datos, existen numerosas opciones en función del origen de los datos.

Todas ellas están disponibles en [este enlace](https://pandas.pydata.org/pandas-docs/stable/reference/io.html).

Veamos un ejemplo de como leer un csv. Para ello utilizaremos los datos del COVID-19 proporcionados por el Ministerio de Sanidad disponibles en [este enlace](https://covid19.isciii.es/resources/serie_historica_acumulados.csv), los cuales debemos descargar.

In [48]:
# en mi caso los he descargado en el directorio dónde tengo los ejercicios, por lo que lo haré de la siguiente manera:
covid_df = pd.read_csv("serie_historica_acumulados.csv", encoding="ISO-8859-1")

In [49]:
# observemos que pinta tienen los datos
covid_df

Unnamed: 0,CCAA,FECHA,CASOS,Hospitalizados,UCI,Fallecidos,Recuperados
0,AN,20/2/2020,,,,,
1,AR,20/2/2020,,,,,
2,AS,20/2/2020,,,,,
3,IB,20/2/2020,1.0,,,,
4,CN,20/2/2020,1.0,,,,
...,...,...,...,...,...,...,...
1024,PV,13/4/2020,11226.0,5679.0,470.0,859.0,5193.0
1025,RI,13/4/2020,3420.0,1152.0,74.0,234.0,1519.0
1026,NOTA: El objetivo de los datos que se publican...,,,,,,
1027,Los datos de estas comunidades son datos de pr...,,,,,,


Como podemos comprobar, por defecto nos ha tomado la primera fila como las cabeceras y, dado que lo ha separado correctamente en columnas, ha tomado la coma (,) como separador.

Además, hemos tenido que indicarle el encoding en este caso ya que en la fila 1026 tenemos la palabra n**ú**mero y de no indicarle que el encodig es el correspondiente al alfabeto latino hubiera fallado (podéis comprobarlo quitano el parámetro en cuestión).

Podéis consultar el resto de información (os hará falta) del método [aquí](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv).

Veamos algunas funciones de utilidad:

In [50]:
covid_df.count() # conteo de registros no nulos (NaN) por columna

CCAA              1029
FECHA             1026
CASOS              885
Hospitalizados     684
UCI                720
Fallecidos         703
Recuperados        682
dtype: int64

In [51]:
covid_df.describe() # estadísticas de registros no nulos (NaN) por columna numérica

Unnamed: 0,CASOS,Hospitalizados,UCI,Fallecidos,Recuperados
count,885.0,684.0,720.0,703.0,682.0
mean,3062.829379,1927.461988,201.606944,352.075391,1098.347507
std,6821.1532,3803.877437,421.640415,911.881158,3319.249128
min,0.0,0.0,0.0,0.0,0.0
25%,25.0,58.0,4.75,2.0,4.0
50%,545.0,480.0,57.0,47.0,53.5
75%,2580.0,1765.5,162.75,223.5,554.25
max,48048.0,23126.0,2775.0,6568.0,26247.0


**NOTA**: Las estadíticas anteriores se han calculado sobre la suma total de todos los registros.

Veamos como obtener las estadísticas en base a los últimos datos conocidos

In [52]:
recent_covid_19 = covid_df[covid_df['FECHA'] == '13/4/2020'] # así obtenemos aquellos registros cuya fecha
# coincide con la máxima observada

In [53]:
recent_covid_19

Unnamed: 0,CCAA,FECHA,CASOS,Hospitalizados,UCI,Fallecidos,Recuperados
1007,AN,13/4/2020,10192.0,5054.0,631.0,836.0,2032.0
1008,AR,13/4/2020,4245.0,1966.0,280.0,492.0,963.0
1009,AS,13/4/2020,2051.0,1330.0,111.0,156.0,458.0
1010,IB,13/4/2020,1571.0,826.0,145.0,118.0,871.0
1011,CN,13/4/2020,1958.0,771.0,147.0,102.0,589.0
1012,CB,13/4/2020,1796.0,853.0,76.0,120.0,323.0
1013,CM,13/4/2020,14329.0,7830.0,486.0,1714.0,2943.0
1014,CL,13/4/2020,13180.0,6175.0,308.0,1299.0,4266.0
1015,CT,13/4/2020,35197.0,23126.0,2775.0,3666.0,15967.0
1016,CE,13/4/2020,96.0,9.0,4.0,4.0,22.0


Ahora si, obtengamos estadísticas de interes:

In [55]:
recent_covid_19.describe()

Unnamed: 0,CASOS,Hospitalizados,UCI,Fallecidos,Recuperados
count,19.0,19.0,19.0,19.0,19.0
mean,9081.105263,3986.947368,413.210526,950.315789,3552.842105
std,12477.112108,5498.469186,651.074717,1614.735928,6577.235305
min,96.0,9.0,3.0,2.0,18.0
25%,1877.0,839.5,102.0,119.0,527.0
50%,4150.0,1705.0,145.0,290.0,963.0
75%,10709.0,5366.5,478.0,883.0,3006.0
max,48048.0,23126.0,2775.0,6568.0,26247.0


Como podemos comprobar, por ejemplo, la media (mean) de casos por CCAA a 13 de abril está en torno a los 9000, mientras que la CCAA con mas casos (max) es Madrid con 48048 y la que menos (min) es Ceuta con 96.

Eso es todo, a por el ejercicio!

## Solución