# Consolidación de los años [2020-2024]

In [12]:
import pandas as pd
import os

# Base de la ruta donde están los archivos por año
base_ruta = os.path.join("..", "data", "processed", "{YEAR}")
output_ruta = os.path.join("..", "data", "processed", "data2020-2024.csv")
# Lista de años a procesar
anios = [2020, 2021, 2022, 2023, 2024]

# Lista para almacenar los dataframes
dataframes = []

# Iterar por cada año
for anio in anios:
    # Crear la ruta del archivo para el año actual
    ruta_archivo = os.path.join(base_ruta.format(YEAR=anio), f"pluviometros-eda-{anio}.csv")
    try:
        # Leer el archivo CSV
        print(f"Procesando archivo: {ruta_archivo}")
        df = pd.read_csv(ruta_archivo)
        # Agregar una columna "Año" al dataframe
        df['Año'] = anio
        # Añadir el dataframe a la lista
        dataframes.append(df)
    except FileNotFoundError:
        print(f"Archivo no encontrado para el año {anio}: {ruta_archivo}")
    except Exception as e:
        print(f"Error procesando el archivo {ruta_archivo}: {e}")

# Verificar si hay dataframes para consolidar
if dataframes:
    # Concatenar todos los dataframes
    df_consolidado = pd.concat(dataframes, ignore_index=True)

    # Guardar el archivo consolidado en un nuevo CSV
    ruta_salida = os.path.join("..","data", "processed", "data2020-2024.csv")
    df_consolidado.to_csv(ruta_salida, index=False)

    print(f"Archivo consolidado guardado en: {ruta_salida}")
else:
    print("No se encontraron archivos para consolidar.")


Procesando archivo: ..\data\processed\2020\pluviometros-eda-2020.csv
Procesando archivo: ..\data\processed\2021\pluviometros-eda-2021.csv
Procesando archivo: ..\data\processed\2022\pluviometros-eda-2022.csv
Procesando archivo: ..\data\processed\2023\pluviometros-eda-2023.csv
Procesando archivo: ..\data\processed\2024\pluviometros-eda-2024.csv
Archivo consolidado guardado en: ..\data\processed\data2020-2024.csv


In [10]:
# Leer el archivo consolidado
df_consolidado = pd.read_csv(output_ruta)
df_consolidado.info()
df_consolidado.head()
# Verificar si hay valores faltantes
print(df_consolidado.isnull().sum())
# Verificar si hay duplicados
print(df_consolidado.duplicated().sum())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1502 entries, 0 to 1501
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Fecha   1502 non-null   object 
 1   Kiteni  1502 non-null   float64
 2   PS#1    1502 non-null   float64
 3   PS#2    1502 non-null   float64
 4   PS#3    1502 non-null   float64
 5   PS#4    1502 non-null   float64
 6   Mes     1502 non-null   int64  
 7   Año     1502 non-null   int64  
dtypes: float64(5), int64(2), object(1)
memory usage: 94.0+ KB
Fecha     0
Kiteni    0
PS#1      0
PS#2      0
PS#3      0
PS#4      0
Mes       0
Año       0
dtype: int64
1


In [11]:
# Mostrar resumen general de NaN por columna
# Mostrar cantidad total de NaN por columna
print("Cantidad total de valores NaN por columna:")
total_nan = df_consolidado.isnull().sum()
print(total_nan)

# Identificar columnas con valores NaN y su tipo de dato
print("\nColumnas con valores NaN y sus tipos:")
nan_columns = total_nan[total_nan > 0].index  # Columnas con al menos un NaN
for col in nan_columns:
    print(f"Columna: {col}, Tipo: {df_consolidado[col].dtype}, Total NaN: {total_nan[col]}")

# Analizar NaN por mes y por columna
# Excluir la columna de agrupamiento ('Mes') y calcular NaN por mes y por columna
print("\nCantidad de NaN por mes y por columna:")
nan_analysis = (
    df_consolidado.drop(columns=['Mes'])  # Excluye la columna 'Mes' si existe
    .groupby(df_consolidado['Mes'])       # Agrupa usando la columna 'Mes'
    .apply(lambda x: x.isnull().sum())        # Calcula NaN por columna
)
print(nan_analysis)


Cantidad total de valores NaN por columna:
Fecha     0
Kiteni    0
PS#1      0
PS#2      0
PS#3      0
PS#4      0
Mes       0
Año       0
dtype: int64

Columnas con valores NaN y sus tipos:

Cantidad de NaN por mes y por columna:
     Fecha  Kiteni  PS#1  PS#2  PS#3  PS#4  Año
Mes                                            
1        0       0     0     0     0     0    0
2        0       0     0     0     0     0    0
3        0       0     0     0     0     0    0
4        0       0     0     0     0     0    0
5        0       0     0     0     0     0    0
6        0       0     0     0     0     0    0
7        0       0     0     0     0     0    0
8        0       0     0     0     0     0    0
9        0       0     0     0     0     0    0
10       0       0     0     0     0     0    0
11       0       0     0     0     0     0    0
12       0       0     0     0     0     0    0
