# Limpieza de datos

Objetivo: unir todos los csv de polen en uno solo. Después filtrar para tener datos solo del barrio de Salamanca del tipo de polen "Gramíneas". El resultado se guarda en *./polen/gramineas*.

In [None]:
inPath = "../0 data/polen/"
outPath = "./polen/"

## Unión de datasets

In [None]:
import pandas as pd

In [None]:
dataframes = []
for i in range(2010, 2023):
    dataframes.append(pd.read_csv(f"{inPath}{str(i)}.csv", sep=";", encoding="latin1"))

df = pd.concat(dataframes)

In [None]:
df.dtypes

In [None]:
# Rename columns
df.columns = ['captador', 'fecha', 'tipo_polinico', 'granos_de_polen']

In [None]:
df.describe()

## Filtrado a estación del barrio de Salamanca

El id de la estación es "ALER"

In [None]:
# Filter by "captador" to "ALER"
df = df[df["captador"].str.contains("GETA")]
df

## Filtrado a tipo de polen "gramíneas"

In [None]:
# Show distinct values of "tipo_polinico"
df["tipo_polinico"].unique()

In [None]:
# Filter by "tipo_polinico" to "Gramíneas" or "Gram?neas"
df = df[df["tipo_polinico"].str.contains("Gram")]
df.describe()

## Limpieza y adaptación de los datos

 - Reemplazo de valores nulos por 0 (tras inspeccionar las fechas que contienen los nulos y ver que no son muy relevantes)

In [None]:
# Show null dates
df[df["granos_de_polen"].isnull()]["fecha"]

In [None]:
# Change "granos_de_polen" to 0
df["granos_de_polen"] = df["granos_de_polen"].fillna(0)

 - Adaptación de los tipos de datos (fecha y granos de polen)

In [None]:
# Change "granos_de_polen" to int
df["granos_de_polen"] = df["granos_de_polen"].astype(int)

In [None]:
df

In [None]:
# Change "fecha" to datetime
df["fecha"] = pd.to_datetime(df["fecha"], format="%Y/%m/%d %H:%M:%S.%f")

 - Eliminación de columnas innecesarias (captador y tipo_polen)

In [None]:
df.drop(columns=["captador", "tipo_polinico"], inplace=True)

## Guardado de los resultados

In [None]:
# Create out directory if not exists
import os
if not os.path.exists(outPath):
    os.makedirs(outPath)

In [None]:
# Save to CSV
df.to_csv(f"{outPath}gramineasGETA.csv", index=False, encoding="UTF-8")