# Sistemas de Big Data - Tarea 7

## Apartado 1: detección de valores ausentes o no fiables

En los apuntes hemos hablado de los datos de calidad del aire de la estación de Foners, en Palma. Ahora nos centraremos en la estación de Sant Antoni de Portmany, en la isla de Ibiza, concretamente en los datos entre los años 2007 y 2019. Podemos descargar los datos desde el portal de datos abiertos o desde el repositorio del curso. Recuerda que en los apuntes hemos comentado que cada columna con datos de una partícula contaminante está acompañada de otra llamada flag, que indica la validez del dato. Esta es una técnica que nos permite trabajar con valores ausentes o no fiables.

### 1.1. Sustituye los valores de las mediciones de dióxido de azufre (SO₂), monóxido de nitrógeno (NO) y dióxido de nitrógeno (NO₂) que tengan un flag diferente de ‘V’ por np.nan.

### Las mediciones de SO₂ están en la columna SO2_HI y su flag en FL_SO2, las de NO en NO_HI y su flag en FL_NO, y las de NO₂ en NO2_HI y su flag en FL_NO2.

### Por último, calcula la media de las 3 variables (sin tener en cuenta los valores np.nan).

In [3]:
import numpy as np
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/tnavarrete-iedib/bigdata-24-25/refs/heads/main/mesuraments-estacio-control-qualitat-aire-illes-balears-estacio-sant-antoni-de-portmany-eivissa.csv', sep=';')
df.head()

Unnamed: 0,DATA_HI,PERÍODE_HI,SO2_HI,FL_SO2,NO_HI,FL_NO,NO2_HI,FL_NO2,O3_HI,FL_O3,...,TMP_HI,FL_TMP,HR_HI,FL_HR,PRB_HI,FL_PRB,LL_HI,FL_LL,RS_HI,FL_RS
0,01/22/2007 12:00:00 AM,4,,N,1.38,V,1.58,V,44.3,V,...,,,,,,,,,,
1,01/22/2007 12:00:00 AM,6,,N,1.35,V,0.7,V,25.4,V,...,,,,,,,,,,
2,01/22/2007 12:00:00 AM,7,,N,1.02,V,0.5,V,26.4,V,...,,,,,,,,,,
3,01/24/2007 12:00:00 AM,14,,N,0.33,V,5.3,V,59.6,V,...,,,,,,,,,,
4,01/24/2007 12:00:00 AM,18,,N,0.38,V,5.55,V,61.1,V,...,,,,,,,,,,


In [5]:
clean_df = df.copy()

# Reemplazamos los valores con flag diferentes de "V" por np.nan
clean_df.loc[clean_df['FL_SO2'] != 'V', 'SO2_HI'] = np.nan
clean_df.loc[clean_df['FL_NO'] != 'V', 'NO_HI'] = np.nan
clean_df.loc[clean_df['FL_NO2'] != 'V', 'NO2_HI'] = np.nan

clean_df.head()

Unnamed: 0,DATA_HI,PERÍODE_HI,SO2_HI,FL_SO2,NO_HI,FL_NO,NO2_HI,FL_NO2,O3_HI,FL_O3,...,TMP_HI,FL_TMP,HR_HI,FL_HR,PRB_HI,FL_PRB,LL_HI,FL_LL,RS_HI,FL_RS
0,01/22/2007 12:00:00 AM,4,,N,1.38,V,1.58,V,44.3,V,...,,,,,,,,,,
1,01/22/2007 12:00:00 AM,6,,N,1.35,V,0.7,V,25.4,V,...,,,,,,,,,,
2,01/22/2007 12:00:00 AM,7,,N,1.02,V,0.5,V,26.4,V,...,,,,,,,,,,
3,01/24/2007 12:00:00 AM,14,,N,0.33,V,5.3,V,59.6,V,...,,,,,,,,,,
4,01/24/2007 12:00:00 AM,18,,N,0.38,V,5.55,V,61.1,V,...,,,,,,,,,,


In [14]:
# Calculamos las medias sin tener encuenta los valores NaN
average_so2 = clean_df['SO2_HI'].mean(skipna=True)
average_no = clean_df['NO_HI'].mean(skipna=True)
average_no2 = clean_df['NO2_HI'].mean(skipna=True)

print('APARTADO 1.1:')
print()
print(f'Media SO2: {average_so2:.4f}')
print(f'Media NO: {average_no:.4f}')
print(f'Media NO2: {average_no2:.4f}')

APARTADO 1.1:

Media SO2: 1.8540
Media NO: 1.9540
Media NO2: 4.6365


### 1.2. Sustituye todos los valores np.nan de la siguiente forma:
	•	Para SO₂, sustitúyelo por el valor anterior (predecesor)
	•	Para NO, sustitúyelo por el valor siguiente (sucesor)
	•	Para NO₂, sustitúyelo por la media de los valores no nulos

### A continuación, vuelve a calcular la media y compárala con la que has obtenido en el apartado anterior.

In [16]:
# Sustituimos los valores NaN

# Por el valor predecesor (ffill)
clean_df['SO2_HI'] = clean_df['SO2_HI'].fillna(method='ffill')

# Por el valor sucesor (bfill)
clean_df['NO_HI'] = clean_df['NO_HI'].fillna(method='bfill')

# Por la media de los valores no nulos
clean_df['NO2_HI'] = clean_df['NO2_HI'].fillna(average_no2)


# Calculamos las nuevas medias
new_average_so2 = clean_df['SO2_HI'].mean(skipna=True)
new_average_no = clean_df['NO_HI'].mean(skipna=True)
new_average_no2 = clean_df['NO2_HI'].mean(skipna=True)

print("Apartado 1.2:")
print()
print(f'Nueva media SO2: {new_average_so2:.4f}')
print(f'Nueva media NO: {new_average_no:.4f}')
print(f'Nueva media NO2: {new_average_no2:.4f}')

Apartado 1.2:

Nueva media SO2: 2.5128
Nueva media NO: 2.3081
Nueva media NO2: 4.6365


  clean_df['SO2_HI'] = clean_df['SO2_HI'].fillna(method='ffill')
  clean_df['NO_HI'] = clean_df['NO_HI'].fillna(method='bfill')


In [35]:
print('---- Comparación completa -----')
print()
print(f"SO2: {average_so2:.4f}  --->  {new_average_so2:.4f}, Diferencia: {new_average_so2 - average_so2:.4f}")
print(f"NO: {average_no:.4f}   --->  {new_average_no:.4f}, Diferencia: {new_average_no - average_no:.4f}")
print(f"NO2: {average_no2:.4f}  --->  {new_average_no2:.4f}, Diferencia: {new_average_no2 - average_no2:.4f}")

---- Comparación completa -----

SO2: 1.8540  --->  2.5128, Diferencia: 0.6588
NO: 1.9540   --->  2.3081, Diferencia: 0.3541
NO2: 4.6365  --->  4.6365, Diferencia: -0.0000
