In [None]:
import pandas as pd
import numpy as np


registers = pd.read_csv("frankfurt_weather.csv", parse_dates=["time"], index_col="time", sep=",", na_values="")
registers

### Operaciones

Además de sus muchas opciones de selección, la clase DataFrame proporciona muchas funciones para calcular medidas estadísticas, por ejemplo, el promedio de cada columna:

In [None]:
registers.mean()

In [None]:
registers.min()

In [None]:
registers.visibility.min()

In [None]:
# Puede hacer lo mismo para columnas individuales ( Series):
registers.visibility.mean()

In [None]:
# Y, por supuesto, puede combinar todo lo anterior:
registers[registers.visibility < 1000].wind_speed.median()

Si desea aplicar operaciones específicas a sus datos que no están cubiertas por las funciones estándar de pandas, puede hacerlo mediante el método `apply()`. Esto funciona para series individuales o a lo largo de un eje de un objeto DataFrame:

In [None]:
print(registers.air_temperature)

In [None]:
# Primero definimos la función
def do_sth(x):
    return (x + 5) ** 2

In [None]:
# Luego lo aplicamos a la serie de temperatura.:
registers.air_temperature.apply(do_sth)

Pero, ¿qué pasa si queremos hacer una operación en varias columnas al mismo tiempo y guardar el resultado en una nueva columna?

Digamos que queremos calcular la diferencia entre la temperatura del aire y los valores del punto de rocío y guardar los resultados en una nueva columna llamada “temp_dewpt_diff”.

In [None]:
registers["temp_dewpt_diff"] = registers.air_temperature - registers.dewpoint
registers.head()

### Tratamiento de valores faltantes

Todos los métodos que se muestran arriba excluyen los valores perdidos en sus cálculos de forma predeterminada. Si no desea excluir los NaN, puede hacerlo con las palabras clave skipnao dropna(en la mayoría de los métodos).

In [None]:
import numpy as np
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f', 'h'],columns=['one', 'two', 'three'])
df

In [None]:
df['four'] = 'bar'
df

In [None]:
df['five'] = df['one'] > 0
df

In [None]:
df2 = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
df2

Para facilitar la detección de valores perdidos (y en diferentes tipos de matriz), pandas proporciona las funciones isna()y notna(), que también son métodos en objetos Series y DataFrame:

In [None]:
df2['one']

In [None]:
pd.isna(df2['one'])

In [None]:
df2['four'].notna()

In [None]:
df2.isna()

#### Llenando los valores faltantes: fillna
fillna() puede "completar" valores NA con datos que no son NA de un par de formas, que ilustramos:

Reemplazar NA con un valor escalar

In [None]:
df2

In [None]:
df2.fillna(0)

In [None]:
df2['one'].fillna('missing')

In [None]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})
df

<img src="https://www.w3resource.com/w3r_images/pandas-dataframe-dropna-1.png" width="400">

In [None]:
df.dropna()

<img src="https://www.w3resource.com/w3r_images/pandas-dataframe-dropna-2.png" width="400">

In [None]:
df.dropna(axis=1)


<img src="https://www.w3resource.com/w3r_images/pandas-dataframe-dropna-4.png" width="400">

In [None]:
# Mantenga solo las filas con al menos 2 valores que no sean NA:
df.dropna(thresh=2)

In [None]:
df.fillna(value='FILL VALUE')

In [None]:
df['A'].fillna(value=df['A'].mean())

### Remuestreo

El método resample() proporciona otra funcionalidad que a menudo se necesita cuando se trabaja con datos de series de tiempo . Puede usarlo para volver a muestrear sus datos a diferentes resoluciones temporales.

La función resample() devuelve un objeto Resampler que a su vez proporciona muchas funciones para el método de remuestreo específico.

Por ejemplo, podemos promediar los datos del aeropuerto de Frankfurt en un intervalo de 3 horas:

In [None]:
registers.head(10)

In [None]:
registers.resample("3H").mean()

Pero no nos limitamos a calcular la media de estos intervalos. También podemos calcular la suma o cualquier otra función que nos guste:

In [None]:
registers.resample("3H").sum().head(8)

.sum()y .mean() son convenientes para calcular la misma estadística para todas las columnas del marco de datos. Digamos que queremos calcular la media de la temperatura pero el máximo de la altura de las nubes. En lugar de seleccionar cada columna en una nueva variable y aplicar la función correspondiente a cada una, podemos usar el método .agg() del marco de datos.

In [None]:
registers.loc[:, ["air_temperature", "cloud_height"]].resample("3H").agg({"air_temperature": "mean", "cloud_height": "max"}).head()

- Para calcular más de una estadística para todas las columnas, simplemente proporcione .agg() una lista de las estadísticas para calcular.
- esto también se puede hacer con el método de diccionario para calcular múltiples estadísticas para diferentes columnas
```p.ej: .agg({"air_temperature": ["mean", "min", "max"], "cloud_height": ["min", "max"]}```

In [None]:
registers.loc[:, ["air_temperature", "cloud_height"]].resample("3H").agg({"air_temperature": ["mean", "min", 'std'], "cloud_height": ["max", 'min', 'sum']}).head()

In [None]:
# remuestrear cada 24 horas, buscar 2 formas de solucionar el problema

También podemos volver a muestrear a una resolución temporal más alta que el conjunto de datos original y proporcionar una técnica de interpolación para los pasos de tiempo entre puntos de medición conocidos:

In [None]:
registers.resample("10Min").interpolate("linear")

### Escribir resultados

Si desea guardar sus datos, puede usar uno de los muchos escritores de pandas. Aquí (https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) se proporciona una lista completa de escritores disponibles.

In [None]:
from pathlib import Path

x = registers[(registers.visibility < 1000) & (registers.air_temperature < 5)]


outdir = Path("out")
if not outdir.exists():
    outdir.mkdir(parents = True, exist_ok = True)
    
x.to_csv("./out/output.csv")

## Problemas

1. Vuelva a muestrear la tabla a intervalos de 1 hora (promedios)
2. Seleccione todas las filas de la tabla remuestreada donde la altura de la nube fue inferior a 1000 my la presión del aire fue superior a 1000 hPa.
3. Escribe el resultado en el archivo "mi_data.html"

In [None]:
# ítem 1


In [None]:
# ítem 2

In [None]:
# ítem 3