# **Datos faltantes**

## Importamos la base de datos

In [26]:
def import_csv(file):
    # Read the file into a DataFrame: df
    import pandas as pd
    return pd.read_csv(file)

In [27]:
# Path to the file to be imported
path = "../Datos/Terminos_lagoon_TA_DIC_2023_RawData.csv"

# Import the file
CO2Data = import_csv(path)

## Exploramos la base de datos

In [28]:
# Imprime el número de caldas y columnas del DataFrame
print(CO2Data.shape)

(106, 21)


In [29]:
# Imprime los encabezados del DataFrame
print(CO2Data.head())

   sample      date     estuary   area station layer_depth season  \
0  CDL01S  5/3/2020  Candelaria  River   CDL01     Surface    Dry   
1  CDL01F  5/3/2020  Candelaria  River   CDL01      Bottom    Dry   
2  CDL02S  5/3/2020  Candelaria  River   CDL02     Surface    Dry   
3  CDL02F  5/3/2020  Candelaria  River   CDL02      Bottom    Dry   
4  CDL03S  5/3/2020  Candelaria  River   CDL03     Surface    Dry   

   chlorophy_microg_l  cond_microsiemens_cm  depth_m  ...  do_mg_l  sal_psu  \
0                0.36                7015.4    0.464  ...     7.12     3.56   
1                4.19               29886.1    7.792  ...     4.90    16.97   
2                0.92               16691.1    0.453  ...     6.99     8.94   
3                2.23               24847.4    1.261  ...     6.52    13.87   
4                0.58               46341.6    0.465  ...     6.24    28.06   

   sp_cond_microsiemens_cm  turbidity_fnu  temp_c  latitude  longitude  \
0                   6547.7          

- Imprime información sobre el DataFrame incluido el índice dtype y las columnas, los valores no nulos y el uso de la memoria

In [30]:
# Imprime información sobre el DataFrame
print(CO2Data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106 entries, 0 to 105
Data columns (total 21 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   sample                   106 non-null    object 
 1   date                     106 non-null    object 
 2   estuary                  106 non-null    object 
 3   area                     106 non-null    object 
 4   station                  106 non-null    object 
 5   layer_depth              106 non-null    object 
 6   season                   106 non-null    object 
 7   chlorophy_microg_l       106 non-null    float64
 8   cond_microsiemens_cm     106 non-null    float64
 9   depth_m                  106 non-null    float64
 10  do_percent_sat           106 non-null    float64
 11  do_mg_l                  106 non-null    float64
 12  sal_psu                  106 non-null    float64
 13  sp_cond_microsiemens_cm  106 non-null    float64
 14  turbidity_fnu            1

- Imprime la estadistica descriptiva del DataFrame

In [31]:
# Print descriptive statistics
print(CO2Data.describe())

       chlorophy_microg_l  cond_microsiemens_cm     depth_m  do_percent_sat  \
count          106.000000            106.000000  106.000000      106.000000   
mean             6.545472          27895.183962    1.830160       89.515094   
std             14.941262          20931.232513    2.038739       29.772291   
min              0.360000             13.800000    0.105000        1.700000   
25%              2.555000           1778.025000    0.428750       84.575000   
50%              3.705000          33202.600000    0.638500       97.100000   
75%              5.925000          47046.650000    2.883250      105.300000   
max            150.900000          59988.600000    8.558000      174.100000   

          do_mg_l     sal_psu  sp_cond_microsiemens_cm  turbidity_fnu  \
count  106.000000  106.000000               106.000000     106.000000   
mean     6.474340   17.331981             27126.980189     100.429623   
std      2.104254   13.578980             20527.530804     290.290113

## Valores faltantes en cada columna

In [32]:
# Usando la función insull() de Pandas para identificar el número de valores faltantes en cada columna
print(CO2Data.isnull().sum())

sample                     0
date                       0
estuary                    0
area                       0
station                    0
layer_depth                0
season                     0
chlorophy_microg_l         0
cond_microsiemens_cm       0
depth_m                    0
do_percent_sat             0
do_mg_l                    0
sal_psu                    0
sp_cond_microsiemens_cm    0
turbidity_fnu              0
temp_c                     0
latitude                   0
longitude                  0
dic_micromol_kg            0
ta_micromol_kg             0
dummy_data                 7
dtype: int64


### Método para rellenar huecos en las series reindexadas

- ffill: propaga la última observación válida a la sigueinte

- bfill: utiliza la siguiente observación válida para rellenar huecos

In [33]:
# Creamos una nueva base de datos (copia)
CO2Data_fill = CO2Data.copy()

# Usamos el método ffill
CO2Data_fill = CO2Data_fill.fillna(method="ffill")

print(CO2Data_fill.isnull().sum())

sample                     0
date                       0
estuary                    0
area                       0
station                    0
layer_depth                0
season                     0
chlorophy_microg_l         0
cond_microsiemens_cm       0
depth_m                    0
do_percent_sat             0
do_mg_l                    0
sal_psu                    0
sp_cond_microsiemens_cm    0
turbidity_fnu              0
temp_c                     0
latitude                   0
longitude                  0
dic_micromol_kg            0
ta_micromol_kg             0
dummy_data                 0
dtype: int64


  CO2Data_fill = CO2Data_fill.fillna(method="ffill")


Se creo una copia de la base de datos para rellenar los huecos con el método ffill llamada CO2Data_fill 

### Interpolación para rellenar datos faltantes

- Copiamos el DataFrame original para no tocarlo
- Que rellene los datos faltantes por interpolación lineal
- Imprime cuantos valores faltantes quedarón

In [34]:
CO2Data_fill_linear = CO2Data.copy()

CO2Data_fill_linear = CO2Data_fill_linear.interpolate(method='linear')

print(CO2Data_fill_linear.isnull().sum())

sample                     0
date                       0
estuary                    0
area                       0
station                    0
layer_depth                0
season                     0
chlorophy_microg_l         0
cond_microsiemens_cm       0
depth_m                    0
do_percent_sat             0
do_mg_l                    0
sal_psu                    0
sp_cond_microsiemens_cm    0
turbidity_fnu              0
temp_c                     0
latitude                   0
longitude                  0
dic_micromol_kg            0
ta_micromol_kg             0
dummy_data                 0
dtype: int64


  CO2Data_fill_linear = CO2Data_fill_linear.interpolate(method='linear')


#### ¿Cómo funciona la interpolación lineal?

- Mira los valores que faltan en las columnas
- Para cada valor faltante calcula su valor como una linea recta entre el valor anterior y el siguiente disponible
- Este método es **ideal** cuando los **datos** son **continuos** y se quiere ***mantener la tendencia*** 
- Pandas tiene otro métodos de interpolación como el *polynomial*, *spline*, *time*, etc según como se quieran estimar los valores faltnates

### Ejercicios:  
    - Crear una nueva columna llamada "TA_DIC_ratio" que represente la razón entre TA y DIC
    - Calcular la media y la desviación estándar de "TA_DIC_ratio" para cada estación
    - Calcular la media y la desviación estandar de "TA_DIC_ratio" para cada estación y área
    - Guarda los resultdos en un archivo de excel llamado "TA_DIC_Season_Areas.xlsx"

## **"ta_dic_ratio"**

### Obtenemos las dos variables del DataFrame

> Realmente esto no es necesario

In [35]:
ta_dic_data = CO2Data[['ta_micromol_kg', 'dic_micromol_kg']]

In [36]:
ta_dic_data

Unnamed: 0,ta_micromol_kg,dic_micromol_kg
0,3863,3915
1,3685,3698
2,3708,3724
3,3992,3667
4,3023,2928
...,...,...
101,2851,2715
102,2837,2638
103,2857,2608
104,2804,2605


### Creamos la nueva columna con operaciones entre columnas

Se crea una columna fija en el DataFrame con la sintaxis: *NombreDelDataFrame["Nombre_De_La_Nueva_Columna]"*

In [37]:
CO2Data["ta_dic_ratio"] = CO2Data["ta_micromol_kg"] / CO2Data["dic_micromol_kg"]

In [38]:
CO2Data["ta_dic_ratio"]

0      0.986718
1      0.996485
2      0.995704
3      1.088628
4      1.032445
         ...   
101    1.050092
102    1.075436
103    1.095475
104    1.076392
105    1.093627
Name: ta_dic_ratio, Length: 106, dtype: float64

### Colocamos las 3 columnas en una sola tabla

In [39]:
ta_dic_tadicratio = CO2Data[["ta_micromol_kg", "dic_micromol_kg", "ta_dic_ratio"]]

In [40]:
ta_dic_tadicratio

Unnamed: 0,ta_micromol_kg,dic_micromol_kg,ta_dic_ratio
0,3863,3915,0.986718
1,3685,3698,0.996485
2,3708,3724,0.995704
3,3992,3667,1.088628
4,3023,2928,1.032445
...,...,...,...
101,2851,2715,1.050092
102,2837,2638,1.075436
103,2857,2608,1.095475
104,2804,2605,1.076392


## **Media y desviación estándar de "ta_dic_ratio" para cada estación** 

- Se generan las variables 

In [41]:
variables = ["ta_dic_ratio"]
result = CO2Data.groupby(['season'])[variables].agg(['mean', 'std']).reset_index()

In [42]:
result.columns = ['season'] + [f"{var}_{stat}" for var in variables for stat in ['mean', 'std']]

In [43]:
from tabulate import tabulate
for var in variables:
    mean_col = f"{var}_mean"
    std_col = f"{var}_std"
    result[f"{var}_formatted"] = result.apply(lambda row: f"{row[mean_col]:.2f} ± {row[std_col]:.2f}", axis=1)

In [44]:
formatted_result = result[['season'] + [f"{var}_formatted" for var in variables]]

In [45]:
table = tabulate(formatted_result, headers='keys', tablefmt='pretty', showindex=False)
print(table)

+--------+------------------------+
| season | ta_dic_ratio_formatted |
+--------+------------------------+
|  Dry   |      1.06 ± 0.09       |
| Rainy  |      1.02 ± 0.10       |
+--------+------------------------+


## **Media y desviación estándar de "ta_dic_ratio" para cada estación y área** 

Arriba ya se tiene definida la variable de la columna de la razón

In [46]:
result2 = CO2Data.groupby(['season', 'area'])[variables].agg(['mean', 'std']).reset_index()

In [47]:
result2.columns = ['season', 'area'] + [f"{var}_{stat}" for var in variables for stat in ['mean', 'std']]

In [48]:
from tabulate import tabulate
for var in variables:
    mean_col = f"{var}_mean"
    std_col = f"{var}_std"
    result2[f"{var}_formatted"] = result2.apply(lambda row: f"{row[mean_col]:.2f} ± {row[std_col]:.2f}", axis=1)

In [49]:
formatted_result2 = result2[['season', 'area'] + [f"{var}_formatted" for var in variables]]

In [50]:
table2 = tabulate(formatted_result2, headers='keys', tablefmt='pretty', showindex=False)
print(table2)

+--------+-------+------------------------+
| season | area  | ta_dic_ratio_formatted |
+--------+-------+------------------------+
|  Dry   | Coast |      1.12 ± 0.12       |
|  Dry   | Plume |      1.06 ± 0.04       |
|  Dry   | River |      1.00 ± 0.04       |
| Rainy  | Coast |      1.09 ± 0.13       |
| Rainy  | Plume |      1.03 ± 0.05       |
| Rainy  | River |      0.95 ± 0.03       |
+--------+-------+------------------------+



## **Guardar en un archivo de excel**

In [51]:
formatted_result.to_excel("../Datos/MeanAndStdToSeason.xlsx", index=False)

formatted_result2.to_excel("../Datos/MeanAndStdToAreaAndSeason.xlsx", index=False)
