# 1. Libraries

In [62]:
import numpy as np
import pandas as pd
import os

# 2. Load data

In [3]:
df_nivel = pd.read_csv('/home/nivelrios/documentos/Mburicao Project/data/raw/nivel.csv')
df_sil = pd.read_csv('/home/nivelrios/documentos/Mburicao Project/data/raw/sil.csv')
df_snd = pd.read_csv('/home/nivelrios/documentos/Mburicao Project/data/raw/snd.csv')
df_aisp = pd.read_csv('/home/nivelrios/documentos/Mburicao Project/data/raw/aisp.csv')
datasets = { 
            "nivel" : df_nivel,
            "sil" : df_sil,
            "snd" : df_snd,
            "aisp" : df_aisp
           }

# 3. Data info

In [4]:
for nombre, df in datasets.items():
    print(f"\n{'='*40}")
    print(f"Información del dataset: {nombre}")
    print(f"{'='*40}\n")
    df.info() 


Información del dataset: nivel

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 69612 entries, 0 to 69611
Data columns (total 2 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Fecha                            69611 non-null  object 
 1   Nivel del agua  Arroyo Mburicao  69611 non-null  float64
dtypes: float64(1), object(1)
memory usage: 1.1+ MB

Información del dataset: sil

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47816 entries, 0 to 47815
Data columns (total 2 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Fecha                    47816 non-null  object 
 1   Precipitacion_Sil_bahia  47816 non-null  float64
dtypes: float64(1), object(1)
memory usage: 747.2+ KB

Información del dataset: snd

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 376257 entries, 0 to 376256
Data columns (total 2 columns):
 #   Colu

# 4. Columns rename

In [5]:
columnas = {
            "nivel" : {"Fecha" : "fecha", "Nivel del agua  Arroyo Mburicao" : "nivel"},
            "sil" : {"Fecha" : "fecha", "Precipitacion_Sil_bahia" : "sil"},
            "snd" : {"Fecha y hora UTC" : "fecha", "Lluvia" : "snd"},
            "aisp" : {"Fecha y hora" : "fecha", "Precipitación": "aisp"}
            }
for nombre, df in datasets.items():
    renombre = columnas.get(nombre, {})  
    datasets[nombre] = df.rename(columns=renombre)
    print(f"Columnas de '{nombre}' actualizadas:")
    print(datasets[nombre].columns, "\n")

Columnas de 'nivel' actualizadas:
Index(['fecha', 'nivel'], dtype='object') 

Columnas de 'sil' actualizadas:
Index(['fecha', 'sil'], dtype='object') 

Columnas de 'snd' actualizadas:
Index(['fecha', 'snd'], dtype='object') 

Columnas de 'aisp' actualizadas:
Index(['fecha', 'aisp'], dtype='object') 



# 5. Data head

In [6]:
for nombre, df in datasets.items():
    print(f"\n{'='*40}")
    print(f"Encabezados del dataset: {nombre}")
    print(f"{'='*40}\n")
    print(df.head())


Encabezados del dataset: nivel

                     fecha     nivel
0  2021-05-24 17:50:00.000  0.097351
1  2021-05-24 18:00:00.000  0.082633
2  2021-05-24 18:10:00.000  0.058515
3  2021-05-24 18:20:00.000  0.128404
4  2021-05-24 18:30:00.000  0.119611

Encabezados del dataset: sil

                       fecha  sil
0  2021-06-12 12:00:00-04:00  0.0
1  2021-06-12 12:10:00-04:00  0.0
2  2021-06-12 12:20:00-04:00  0.0
3  2021-06-12 12:30:00-04:00  0.0
4  2021-06-12 12:40:00-04:00  0.0

Encabezados del dataset: snd

                 fecha  snd
0  2015-05-06 17:05:00  0.0
1  2015-05-06 17:10:00  0.0
2  2015-05-06 17:15:00  0.0
3  2015-05-06 17:20:00  0.0
4  2015-05-06 17:25:00  0.0

Encabezados del dataset: aisp

                 fecha  aisp
0  2015-01-01 00:00:00   0.0
1  2015-01-01 00:10:00   0.0
2  2015-01-01 00:20:00   0.0
3  2015-01-01 00:30:00   0.0
4  2015-01-01 00:40:00   0.0


# 6. Missing data

In [7]:
for nombre, df in datasets.items():
    print(f"\n{'='*40}")
    print(f"Cantidad de valores faltantes del dataset: {nombre}")
    print(f"{'='*40}\n")
    print(df.isnull().sum())


Cantidad de valores faltantes del dataset: nivel

fecha    1
nivel    1
dtype: int64

Cantidad de valores faltantes del dataset: sil

fecha    0
sil      0
dtype: int64

Cantidad de valores faltantes del dataset: snd

fecha    0
snd      0
dtype: int64

Cantidad de valores faltantes del dataset: aisp

fecha      0
aisp     551
dtype: int64


# 7. Save datasets

In [61]:
ruta = "/home/nivelrios/documentos/Mburicao Project/data/interim"
os.makedirs(ruta, exist_ok=True)
for nombre, df in datasets.items():
    archivo = os.path.join(ruta, f"{nombre}.csv")
    df.to_csv(archivo, index=False)

# **Notebook report**