### Notebook de Limpieza de Datos
En este notebook, se realiza la limpieza de los datos, por ejemplo, verificando valores faltantes, eliminando duplicados o realizando otras transformaciones.

In [20]:
import pandas as pd

# Cargar el dataset procesado
df = pd.read_csv('../data/processed/datos_procesados.csv')

# Verificar las primeras filas del dataset y los tipos de datos
df.head(), df.dtypes

(    Año Mes Día Temp Media Temp Máxima Hora Temp Max Minuto Temp Max  \
 0  2016   1   1       10.3        11.2            20              40   
 1  2016   1   2       11.8        18.1            19              30   
 2  2016   1   3       11.3        16.4            15               0   
 3  2016   1   4       12.5        18.6            15              20   
 4  2016   1   5       12.0        18.8            15              15   
 
   Temp Mínima Hora Temp Min Minuto Temp Min  ... Hora Viento Minuto Viento  \
 0         9.2             1              30  ...           6            55   
 1         8.6             0              55  ...          15            20   
 2         5.6             5              40  ...          10            35   
 3         6.1             2              50  ...          17            30   
 4         6.1            23              55  ...          16            15   
 
   Presión Media Lluvia Diaria Radiación Máxima Hora Radiación Máxima  \
 0        1

In [21]:
# Verificar si hay valores faltantes
df.isnull().sum()

Año                          0
Mes                         56
Día                         57
Temp Media                  57
Temp Máxima                 63
Hora Temp Max              231
Minuto Temp Max            231
Temp Mínima                231
Hora Temp Min              343
Minuto Temp Min            658
Viento Medio               658
Dirección Viento           868
Ráfaga de Viento           868
Dirección de Ráfaga        868
Hora Viento                926
Minuto Viento              926
Presión Media              982
Lluvia Diaria              982
Radiación Máxima           982
Hora Radiación Máxima      986
Minuto Radiación Mínima    986
UV Máximo                  986
Hora UV Máximo             986
Minuto UV Máximo           986
dtype: int64

In [11]:
# Convertir las columnas Año, Mes, Día a tipo entero, manejando NaN correctamente
df['Año'] = df['Año'].apply(lambda x: int(x) if pd.notna(x) else 0)
df['Mes'] = df['Mes'].apply(lambda x: int(x) if pd.notna(x) else 0)
df['Día'] = df['Día'].apply(lambda x: int(x) if pd.notna(x) else 0)

# Para las columnas de hora y minuto, primero convertimos a float y luego a Int64
hora_cols = ['Hora Temp Max', 'Hora Temp Min', 'Hora Viento', 'Hora Radiación Máxima', 'Hora UV Máximo']
minuto_cols = ['Minuto Temp Max', 'Minuto Temp Min', 'Minuto Viento', 'Minuto Radiación Mínima', 'Minuto UV Máximo']

for col in hora_cols + minuto_cols:
    df[col] = df[col].apply(lambda x: int(x) if pd.notna(x) else 0)

# Verificar los tipos de datos después de las conversiones
print(df.dtypes)



Año                           int64
Mes                           int64
Día                           int64
Temp Media                  float64
Temp Máxima                 float64
Hora Temp Max                 int64
Minuto Temp Max               int64
Temp Mínima                 float64
Hora Temp Min                 int64
Minuto Temp Min               int64
Viento Medio                float64
Dirección Viento           category
Ráfaga de Viento            float64
Dirección de Ráfaga        category
Hora Viento                   int64
Minuto Viento                 int64
Presión Media               float64
Lluvia Diaria               float64
Radiación Máxima            float64
Hora Radiación Máxima         int64
Minuto Radiación Mínima       int64
UV Máximo                   float64
Hora UV Máximo                int64
Minuto UV Máximo              int64
dtype: object


In [12]:
print(df.describe())

               Año          Mes          Día   Temp Media  Temp Máxima  \
count  4229.000000  4229.000000  4229.000000  3399.000000  3185.000000   
mean   1524.221565     3.578387    12.984157     6.473610    10.797049   
std     869.106579    11.404609    11.545680     5.067641     5.482157   
min      -3.000000   -67.000000   -14.000000   -11.900000    -8.800000   
25%    2016.000000     1.000000     2.000000     3.100000     6.500000   
50%    2018.000000     5.000000    12.000000     6.400000    11.000000   
75%    2021.000000     9.000000    22.000000     9.700000    15.100000   
max    2024.000000    30.000000    47.000000    31.300000    30.700000   

       Hora Temp Max  Minuto Temp Max  Temp Mínima  Hora Temp Min  \
count    4229.000000      4229.000000  3290.000000    4229.000000   
mean       12.849373        21.475053    33.376960      34.496808   
std        13.549107        18.909138   175.783662     230.413196   
min         0.000000         0.000000   -14.900000       