In [40]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [41]:
df = pd.read_csv("weather_forecast.csv")
df.head()

Unnamed: 0,date,hour,temperature,humidity,sky_condition,wind_direction,wind_speed,timestamp
0,18/02/2025,8,7,87,Nubes altas,NE,12,18/02/2025 17:16
1,18/02/2025,9,8,80,Nubes altas,NE,11,18/02/2025 17:16
2,18/02/2025,10,9,73,Nubes altas,NE,11,18/02/2025 17:16
3,18/02/2025,11,10,65,Nubes altas,E,8,18/02/2025 17:16
4,18/02/2025,12,12,58,Nubes altas,E,6,18/02/2025 17:16


In [42]:
# Queremos transformar la dirección del viento y la condicion del cielo en inglés
# 1.- vemos si hay valores unicos

print(df["sky_condition"].unique())
print(df["wind_direction"].unique())

['Nubes altas' 'Cubierto' 'Poco nuboso' 'Nuboso' 'Muy nuboso' 'Despejado'
 'Cubierto con lluvia escasa' 'Cubierto con lluvia'
 'Cubierto con tormenta y lluvia escasa']
['NE' 'E' 'S' 'O' 'NO' 'N' 'SO' 'SE' 'C']


In [43]:
# 2.- Hacemos los diccionarios para cambiar los valores en español y fijar datos polares en la dirección del viento para mejorar el analisis
#Creamos los diccionarios

#Diccionario para los valores de la direccion del viento en inglés
wind_direction_completo = {
    "N":"north", "NE":"northeast", "E":"east", "SE":"southeast", "S":"south", "SO":"southwest", "O":"west", "NO":"northwest", "C":"calm"
    }

#Diccionario para la direccion del viento en grados polares
#Los valores 'Calmados' en wind_direction_grados se han convertido en NaN intencionalmente, ya que representan la ausencia de viento y no deben confundirse con una dirección específica.
wind_direction_grados = {
    "N":0, "NE":45, "E":90, "SE":135, "S":180, "SO":225, "O":270, "NO":315, "C": np.nan
    }

#Diccionario para los valores de la condicion del cielo en inglés
sky_condition_ingles = {
    'Nubes altas': 'high clouds',
    'Cubierto': 'overcast',
    'Poco nuboso': 'few clouds',
    'Nuboso': 'cloudy',
    'Muy nuboso': 'very cloudy',
    'Despejado': 'clear',
    'Cubierto con lluvia escasa': 'overcast with light rain',
    'Cubierto con lluvia': 'overcast with rain',
    'Cubierto con tormenta y lluvia escasa': 'overcast with thunderstorm and light rain'
}

#Creamos las nuevas columnas

df["wind_direction_completo"] = df["wind_direction"].map(wind_direction_completo)
df["wind_direction_grados"] = df["wind_direction"].map(wind_direction_grados)
df["sky_condition_ingles"] = df["sky_condition"].map(sky_condition_ingles)
df.head()

Unnamed: 0,date,hour,temperature,humidity,sky_condition,wind_direction,wind_speed,timestamp,wind_direction_completo,wind_direction_grados,sky_condition_ingles
0,18/02/2025,8,7,87,Nubes altas,NE,12,18/02/2025 17:16,northeast,45.0,high clouds
1,18/02/2025,9,8,80,Nubes altas,NE,11,18/02/2025 17:16,northeast,45.0,high clouds
2,18/02/2025,10,9,73,Nubes altas,NE,11,18/02/2025 17:16,northeast,45.0,high clouds
3,18/02/2025,11,10,65,Nubes altas,E,8,18/02/2025 17:16,east,90.0,high clouds
4,18/02/2025,12,12,58,Nubes altas,E,6,18/02/2025 17:16,east,90.0,high clouds


In [44]:
#Ahora que tenemos columnas traducidas eliminaremos las columnas que no son necesarias

# Eliminaremos timestamp porque se trata de la hora en la que el script de Python recolectó la información del clima a través de la API.

df.drop(["wind_direction", "sky_condition","timestamp"], axis=1, inplace=True)
df.head()

Unnamed: 0,date,hour,temperature,humidity,wind_speed,wind_direction_completo,wind_direction_grados,sky_condition_ingles
0,18/02/2025,8,7,87,12,northeast,45.0,high clouds
1,18/02/2025,9,8,80,11,northeast,45.0,high clouds
2,18/02/2025,10,9,73,11,northeast,45.0,high clouds
3,18/02/2025,11,10,65,8,east,90.0,high clouds
4,18/02/2025,12,12,58,6,east,90.0,high clouds


In [45]:
#También unificaremos la columna date y la columna hour para crear la columna datetime
#1.- vemos el formato de las columnas
df.dtypes

date                        object
hour                         int64
temperature                  int64
humidity                     int64
wind_speed                   int64
wind_direction_completo     object
wind_direction_grados      float64
sky_condition_ingles        object
dtype: object

In [46]:
#2.- Hacemos las transformaciones necesarias.
df['date'] = pd.to_datetime(df['date'], dayfirst=True)
df['hour'] = df['hour'].astype(str).str.zfill(2) + ':00'
df["temperature"] = df["temperature"].astype(float)
df["humidity"] = df["humidity"].astype(float)
df["wind_speed"] = df["wind_speed"].astype(float)
df["wind_direction_grados"] = df["wind_direction_grados"].astype(float)
df.dtypes

date                       datetime64[ns]
hour                               object
temperature                       float64
humidity                          float64
wind_speed                        float64
wind_direction_completo            object
wind_direction_grados             float64
sky_condition_ingles               object
dtype: object

In [47]:
df.head()

Unnamed: 0,date,hour,temperature,humidity,wind_speed,wind_direction_completo,wind_direction_grados,sky_condition_ingles
0,2025-02-18,08:00,7.0,87.0,12.0,northeast,45.0,high clouds
1,2025-02-18,09:00,8.0,80.0,11.0,northeast,45.0,high clouds
2,2025-02-18,10:00,9.0,73.0,11.0,northeast,45.0,high clouds
3,2025-02-18,11:00,10.0,65.0,8.0,east,90.0,high clouds
4,2025-02-18,12:00,12.0,58.0,6.0,east,90.0,high clouds


In [48]:
#3.- Unificamos las columnas date y hour
df['datetime'] = pd.to_datetime(df['date'].astype(str) + ' ' + df['hour'].astype(str))
df.head()

# 4. Verifica el resultado
print(df['datetime'].head())
print(df['datetime'].dtypes)

0   2025-02-18 08:00:00
1   2025-02-18 09:00:00
2   2025-02-18 10:00:00
3   2025-02-18 11:00:00
4   2025-02-18 12:00:00
Name: datetime, dtype: datetime64[ns]
datetime64[ns]


In [49]:
#4.- Eliminamos las columnas date y hour ya que no son utiles
df.drop(columns=["date", "hour"], inplace=True)
df.head()

Unnamed: 0,temperature,humidity,wind_speed,wind_direction_completo,wind_direction_grados,sky_condition_ingles,datetime
0,7.0,87.0,12.0,northeast,45.0,high clouds,2025-02-18 08:00:00
1,8.0,80.0,11.0,northeast,45.0,high clouds,2025-02-18 09:00:00
2,9.0,73.0,11.0,northeast,45.0,high clouds,2025-02-18 10:00:00
3,10.0,65.0,8.0,east,90.0,high clouds,2025-02-18 11:00:00
4,12.0,58.0,6.0,east,90.0,high clouds,2025-02-18 12:00:00


In [50]:
#5.- Movemos la columna datetime hasta el extremo izquierdo
new_datetime = df.pop("datetime")
df.insert(0, "datetime", new_datetime)
df.head()

Unnamed: 0,datetime,temperature,humidity,wind_speed,wind_direction_completo,wind_direction_grados,sky_condition_ingles
0,2025-02-18 08:00:00,7.0,87.0,12.0,northeast,45.0,high clouds
1,2025-02-18 09:00:00,8.0,80.0,11.0,northeast,45.0,high clouds
2,2025-02-18 10:00:00,9.0,73.0,11.0,northeast,45.0,high clouds
3,2025-02-18 11:00:00,10.0,65.0,8.0,east,90.0,high clouds
4,2025-02-18 12:00:00,12.0,58.0,6.0,east,90.0,high clouds


In [51]:
#Normalizamos el nombre de las columnas
df.columns = df.columns.str.lower()
df.rename(columns={'sky_condition_ingles': 'sky_condition'}, inplace=True)
df.rename(columns={'wind_direction_grados': 'wind_direction_degrees'}, inplace=True)
df.rename(columns={'wind_direction_completo': 'wind_direction'}, inplace=True)
df.head()

Unnamed: 0,datetime,temperature,humidity,wind_speed,wind_direction,wind_direction_degrees,sky_condition
0,2025-02-18 08:00:00,7.0,87.0,12.0,northeast,45.0,high clouds
1,2025-02-18 09:00:00,8.0,80.0,11.0,northeast,45.0,high clouds
2,2025-02-18 10:00:00,9.0,73.0,11.0,northeast,45.0,high clouds
3,2025-02-18 11:00:00,10.0,65.0,8.0,east,90.0,high clouds
4,2025-02-18 12:00:00,12.0,58.0,6.0,east,90.0,high clouds


LIMPIEZA DE DATOS

In [52]:
#Vemos las columnas
print(df.columns)

Index(['datetime', 'temperature', 'humidity', 'wind_speed', 'wind_direction',
       'wind_direction_degrees', 'sky_condition'],
      dtype='object')


In [53]:
#Vemos los tipos de datos
print(df.dtypes)

datetime                  datetime64[ns]
temperature                      float64
humidity                         float64
wind_speed                       float64
wind_direction                    object
wind_direction_degrees           float64
sky_condition                     object
dtype: object


In [54]:
#Detectar si hay valores que no tienen sentido y pueden afectar al analisis
#1 DESCRIBE
print(df.describe())

                  datetime  temperature    humidity  wind_speed  \
count                  413   413.000000  413.000000  413.000000   
mean   2025-02-26 22:00:00     9.905569   71.387409   11.193705   
min    2025-02-18 08:00:00     3.000000   34.000000    0.000000   
25%    2025-02-22 15:00:00     8.000000   59.000000    7.000000   
50%    2025-02-26 22:00:00    10.000000   75.000000   11.000000   
75%    2025-03-03 05:00:00    12.000000   85.000000   15.000000   
max    2025-03-07 12:00:00    17.000000   99.000000   28.000000   
std                    NaN     3.039113   16.137306    5.348193   

       wind_direction_degrees  
count              411.000000  
mean               119.343066  
min                  0.000000  
25%                 45.000000  
50%                 90.000000  
75%                225.000000  
max                315.000000  
std                 91.718985  


In [55]:
#Verifico si quedaron valores nulos
#Deberían quedar valores nulos en wind_direction_degrees ya que "calm" en grados polares puede ser 0 grados o 360 grados, por lo que he decidido manejarlo como nulo
'''En sistemas meteorológicos y en datos de estaciones meteorológicas, el valor 0° (o a veces 360°) se utiliza convencionalmente para representar la condición de "calmado".
Esto no indica una dirección real, sino que es una convención para señalar que no hay viento o que la dirección no es aplicable.'''
df.isnull().sum()

datetime                  0
temperature               0
humidity                  0
wind_speed                0
wind_direction            0
wind_direction_degrees    2
sky_condition             0
dtype: int64

In [56]:
#Como solución puedo crear una nueva columna que fije la condición del viento a "with_wind"(con viento) y "calm"(calmado) y proceder a hacer la verificación
df["wind_status"] = df["wind_direction_degrees"].apply(lambda x: "calm" if pd.isna(x) else "with wind")
print(df["wind_status"].unique())

['with wind' 'calm']


In [57]:
#Hacemos la verificación del wind_status, anclandolo con las demas columnas que tienen información del viento
print(df[df['wind_status'] == 'calm'])
#Claramente se ven los dos valores nulos que se presentan en el DF, verificando que tienen un estado del viento calmado.

               datetime  temperature  humidity  wind_speed wind_direction  \
208 2025-02-27 00:00:00          8.0      52.0         0.0           calm   
221 2025-02-27 13:00:00         10.0      67.0         0.0           calm   

     wind_direction_degrees sky_condition wind_status  
208                     NaN   high clouds        calm  
221                     NaN         clear        calm  


In [58]:
#Verificar si hay valores outliers
df_outliers = df[
    (df["temperature"] < -10) | (df["temperature"] > 50) |  # Valores poco comunes en Madrid
    (df["humidity"] < 0) | (df["humidity"] > 100) |
    (df["wind_speed"] < 0)  # Velocidades negativas no son válidas
]

if df_outliers.empty:
    print("No se encontraron valores atípicos.")
else:
    print("Valores atípicos encontrados:")
    print(df_outliers)

No se encontraron valores atípicos.


In [59]:
#Verificar la continuidad de los datos
# Contar los registros por día
print(df["datetime"].value_counts().sort_index())

datetime
2025-02-18 08:00:00    1
2025-02-18 09:00:00    1
2025-02-18 10:00:00    1
2025-02-18 11:00:00    1
2025-02-18 12:00:00    1
                      ..
2025-03-07 08:00:00    1
2025-03-07 09:00:00    1
2025-03-07 10:00:00    1
2025-03-07 11:00:00    1
2025-03-07 12:00:00    1
Name: count, Length: 413, dtype: int64


Esta falta de continuidad se debe a que la información recolectada data desde el día 18-02-25 a las 08:00 y termina el día 05-03-2025 a las 18:00

In [60]:
# Verificamos si dentro de nuestro rango de días falta una hora en nuestro dataframe.
rango_completo = pd.date_range(start=df["datetime"].min(), end=df["datetime"].max(), freq="h")

# Verificar las diferencias
fechas_faltantes = rango_completo.difference(df["datetime"])

if fechas_faltantes.empty:
    print("No hay fechas faltantes en el rango especificado.")
else:
    print("Faltan las siguientes fechas en el rango:")
    print(fechas_faltantes)

No hay fechas faltantes en el rango especificado.


In [61]:
#Validación de los datos categóricos para saber si hay errores de escritura
print(df["wind_direction"].unique())
print(df["sky_condition"].unique())

['northeast' 'east' 'south' 'west' 'northwest' 'north' 'southwest'
 'southeast' 'calm']
['high clouds' 'overcast' 'few clouds' 'cloudy' 'very cloudy' 'clear'
 'overcast with light rain' 'overcast with rain'
 'overcast with thunderstorm and light rain']


In [62]:
# Verificamos si hay filas duplicadas
duplicados = df.duplicated()

# Verificamos si hay duplicados
if duplicados.any():
    # Imprimir el número de filas duplicadas
    print(f"Número de filas duplicadas encontradas: {duplicados.sum()}")

    # Imprimir las filas duplicadas
    print("Filas duplicadas:")
    print(df[duplicados])

    # Guardar las filas duplicadas en un DataFrame separado // Solo lo guardamos por si debemos regresar a una versión con las filas duplicadas
    df_duplicados = df[duplicados].copy()  # Usamos .copy() para evitar SettingWithCopyWarning

    # Eliminar filas duplicadas (manteniendo la primera aparición)
    df = df.drop_duplicates()

    # Imprimir mensaje de confirmación
    print("Filas duplicadas eliminadas.")

    # Guardar el DataFrame de duplicados en un archivo CSV (opcional)
    df_duplicados.to_csv("filas_duplicadas.csv", index=False)
    print("Filas duplicadas guardadas en 'filas_duplicadas.csv'")
else:
    # Imprimir mensaje si no hay duplicados
    print("No se encontraron filas duplicadas.")


No se encontraron filas duplicadas.


In [63]:
#Una vez todo limpio y verificado procedemos a guardar el archivo con las modificaciones correspondientes:

df_a_guardar = df.copy()
df_a_guardar.to_csv("dataframe_clima_limpio.csv", index= False)
if df_a_guardar.to_csv:
  print("Archivo CSV guardado correctamente.")
  print(df_a_guardar.head())
else:
  print("Error al guardar el archivo CSV.")

Archivo CSV guardado correctamente.
             datetime  temperature  humidity  wind_speed wind_direction  \
0 2025-02-18 08:00:00          7.0      87.0        12.0      northeast   
1 2025-02-18 09:00:00          8.0      80.0        11.0      northeast   
2 2025-02-18 10:00:00          9.0      73.0        11.0      northeast   
3 2025-02-18 11:00:00         10.0      65.0         8.0           east   
4 2025-02-18 12:00:00         12.0      58.0         6.0           east   

   wind_direction_degrees sky_condition wind_status  
0                    45.0   high clouds   with wind  
1                    45.0   high clouds   with wind  
2                    45.0   high clouds   with wind  
3                    90.0   high clouds   with wind  
4                    90.0   high clouds   with wind  
