## 1. Cargar y visualizar los datos

In [None]:
import pandas as pd
# Cargar el archivo CSV
archivo = "valencia_clima_unificado.csv"
df = pd.read_csv(archivo)

# Ver las primeras y √∫ltimas filas
display(df.head())
display(df.tail())







### **1. Estructura y tama√±o del dataset**  
- El dataset tiene **2561 filas** y **33 columnas**, lo que sugiere un conjunto de datos moderadamente grande para an√°lisis clim√°ticos.  
- El tipo de datos es mayoritariamente **num√©rico (float64 e int64)**, con algunas columnas categ√≥ricas **(object)**.  

### **2. Columnas de inter√©s**  
- Variables principales: `tempmax`, `tempmin`, `temp`, `humidity`, `precip`, `windspeed`, etc.  
- Variables categ√≥ricas: `conditions`, `description`, `icon` (pueden ser √∫tiles para an√°lisis de patrones meteorol√≥gicos).  
- `datetime`: Est√° en formato **object**, ser√≠a recomendable convertirla a formato `datetime64` para facilitar an√°lisis temporales.  
- `sunrise` y `sunset` tambi√©n est√°n en formato `object`, podr√≠an convertirse a `datetime` para c√°lculos solares.  

### **3. Datos faltantes**  
- `preciptype` tiene **1857 valores nulos** (~72%), lo que podr√≠a indicar que la mayor√≠a de los d√≠as no hubo precipitaci√≥n o que los datos no est√°n bien registrados.  
- `severerisk` tiene **1829 valores nulos**, podr√≠a significar que la mayor√≠a de los d√≠as no hubo eventos meteorol√≥gicos extremos.  
- `stations` tiene 2 valores nulos, probablemente no es un problema grave.  

### **4. Posibles problemas y limpieza de datos**  
- **Valores faltantes:** Se debe decidir si imputar valores en `preciptype` o eliminar la columna si no es relevante.  
- **Conversi√≥n de datos:** Convertir `datetime`, `sunrise`, `sunset` a formato adecuado.  
- **Verificaci√≥n de valores extremos:**  
  - `tempmax`, `tempmin`, `humidity`, `precip` pueden contener valores fuera de rangos esperados.  
  - `windspeed` y `windgust` pueden ser analizados para detectar posibles errores en la medici√≥n.  


In [None]:
import pandas as pd

# Obtener tipos de variables
variable_types = df.dtypes

# Funci√≥n para clasificar tipo de variable
def classify_type(dtype):
    if pd.api.types.is_numeric_dtype(dtype):
        return "Num√©rica"
    elif pd.api.types.is_bool_dtype(dtype):
        return "Binaria"
    else:
        return "Categ√≥rica"

# Crear DataFrame con la informaci√≥n
variable_info = pd.DataFrame({
    "Variable": df.columns,
    "Tipo": [classify_type(dtype) for dtype in variable_types],
})

# Diccionario con descripciones
descriptions = {
    "name": "Nombre de la ciudad",
    "datetime": "Fecha del registro",
    "tempmax": "Temperatura m√°xima del d√≠a (¬∞C)",
    "tempmin": "Temperatura m√≠nima del d√≠a (¬∞C)",
    "temp": "Temperatura promedio del d√≠a (¬∞C)",
    "feelslikemax": "Sensaci√≥n t√©rmica m√°xima (¬∞C)",
    "feelslikemin": "Sensaci√≥n t√©rmica m√≠nima (¬∞C)",
    "feelslike": "Sensaci√≥n t√©rmica promedio (¬∞C)",
    "dew": "Punto de roc√≠o (¬∞C)",
    "humidity": "Humedad relativa (%)",
    "precip": "Precipitaci√≥n total (mm)",
    "precipprob": "Probabilidad de precipitaci√≥n (%)",
    "precipcover": "Cobertura de precipitaci√≥n (%)",
    "preciptype": "Tipo de precipitaci√≥n (lluvia, nieve, etc.)",
    "snow": "Cantidad de nieve (cm)",
    "snowdepth": "Profundidad de nieve (cm)",
    "windgust": "R√°faga de viento m√°xima (km/h)",
    "windspeed": "Velocidad promedio del viento (km/h)",
    "winddir": "Direcci√≥n del viento (grados)",
    "sealevelpressure": "Presi√≥n atmosf√©rica al nivel del mar (hPa)",
    "cloudcover": "Cobertura de nubes (%)",
    "visibility": "Visibilidad (km)",
    "solarradiation": "Radiaci√≥n solar (W/m¬≤)",
    "solarenergy": "Energ√≠a solar acumulada (MJ/m¬≤)",
    "uvindex": "√çndice UV m√°ximo",
    "severerisk": "Riesgo de condiciones clim√°ticas severas",
    "sunrise": "Hora del amanecer",
    "sunset": "Hora del atardecer",
    "moonphase": "Fase lunar (0: Nueva - 1: Llena)",
    "conditions": "Condiciones clim√°ticas descriptivas",
    "description": "Descripci√≥n detallada del clima",
    "icon": "√çcono representativo del clima",
    "stations": "Estaciones meteorol√≥gicas utilizadas"
}

# Asignar descripciones, dejando "Descripci√≥n pendiente" si no est√° en el diccionario
variable_info["Descripci√≥n"] = variable_info["Variable"].map(descriptions).fillna("Descripci√≥n pendiente")

# Mostrar la tabla
from tabulate import tabulate
print(tabulate(variable_info, headers="keys", tablefmt="fancy_grid"))

## 2. Identificar valores nulos y duplicados

In [None]:

# Identificar valores nulos
valores_nulos = df.isnull().sum()
print("Valores nulos por columna:")
print(valores_nulos)

# Revisar si hay filas o columnas con muchos datos faltantes
# Por ejemplo, si m√°s del 50% de los datos de una columna est√°n faltando:
columnas_faltantes = df.columns[df.isnull().mean() > 0.5]
print(f"\nColumnas con m√°s del 50% de datos faltantes: {list(columnas_faltantes)}")

# Comprobar filas duplicadas
filas_duplicadas = df.duplicated().sum()
print(f"\nN√∫mero de filas duplicadas: {filas_duplicadas}")

In [None]:
# Verificar si hay fechas duplicadas en la columna 'datetime'
fechas_duplicadas = df['datetime'].duplicated().sum()
print(f"\nN√∫mero de fechas duplicadas en la columna 'datetime': {fechas_duplicadas}")


### Tratamiento de datos duplicados

In [None]:
# Eliminar las filas duplicadas en la columna 'datetime'
df_sin_duplicados = df.drop_duplicates(subset='datetime')

# Verificar nuevamente el n√∫mero de fechas duplicadas
fechas_duplicadas_post = df_sin_duplicados['datetime'].duplicated().sum()
print(f"\nN√∫mero de fechas duplicadas despu√©s de eliminar: {fechas_duplicadas_post}")

# Texto explicativo para m√°s adelante
texto_explicativo = """
Se ha identificado que existen 3 fechas duplicadas en la columna 'datetime'. 
Estas filas duplicadas han sido eliminadas del conjunto de datos.
Mas adelante veremos que hacemos con la columna que tiene tantos valores  faltantes, consideraremos si es mejor eliminar la columna o que hacer
"""
print(texto_explicativo)


### Tratamiento de valores nulos

  

#### üìå `preciptype` (Tipo de precipitaci√≥n, 1857 nulos)  
- **Posible causa**: D√≠as sin precipitaci√≥n probablemente tengan `preciptype` nulo porque no hubo lluvia o nieve.  
- **Soluci√≥n recomendada**:  
  - Si `precip == 0`, rellenar con `"Ninguna"` o `"Sin precipitaci√≥n"`.  
  - Si `precip > 0`, revisar si podemos inferir el tipo basado en temperatura (`temp`):  
    - Si `temp < 0¬∞C`, probablemente nieve.  
    - Si `temp > 0¬∞C`, probablemente lluvia.  
  - Si no se puede inferir, imputar con `"Desconocido"` o eliminar si la variable es poco relevante.  

---

#### üìå `severerisk` (Riesgo severo, 1829 nulos)  
- **Posible causa**: Si los d√≠as sin datos son d√≠as sin eventos severos, el nulo puede significar "sin riesgo".  
- **Soluci√≥n recomendada**:  
  - Rellenar con `0` si la variable es categ√≥rica (donde `0 = sin riesgo`).    

---

#### üìå `stations` (Estaciones meteorol√≥gicas, 2 nulos)  
- **Posible causa**: Puede ser un error en la captura de datos.  
- **Soluci√≥n recomendada**:  
  - Revisar si los valores se pueden recuperar de registros cercanos.  
  - Si no es cr√≠tico, eliminar las filas (solo son 2).  

In [None]:
import pandas as pd

# Cargar datos (suponiendo que est√°n en un DataFrame llamado df)

# Imputar preciptype
df.loc[df['precip'] == 0, 'preciptype'] = 'Ninguna'  
df['preciptype'].fillna('Desconocido', inplace=True)

# Imputar severerisk con 0 (asumiendo que 0 significa "sin riesgo")
df['severerisk'].fillna(0, inplace=True)

# Eliminar filas con estaciones nulas (solo 2 registros)
df.dropna(subset=['stations'], inplace=True)


In [None]:

# Identificar valores nulos
valores_nulos = df.isnull().sum()
print("Valores nulos por columna:")
print(valores_nulos)

## 3. An√°lisis de distribuciones y estad√≠sticas descriptivas

In [None]:
# Obtener estad√≠sticas descriptivas
estadisticas = df.describe()
print("Estad√≠sticas descriptivas:")
(estadisticas)



### **1. Informaci√≥n general**  
- **N√∫mero de observaciones:** Todas las variables tienen **2561 datos**, excepto `severerisk` (732 datos), lo que indica una gran cantidad de valores nulos en esta variable.  
- **Media y desviaci√≥n est√°ndar:** La mayor√≠a de las variables tienen un comportamiento normal con valores dentro de un rango esperado, pero algunas presentan valores extremos.  

### **2. Temperaturas** (`tempmax`, `tempmin`, `temp`, `feelslikemax`, `feelslikemin`, `feelslike`)  
- **M√°xima registrada:** 44.9¬∞C  
- **M√≠nima registrada:** -2.2¬∞C  
- **Rango t√≠pico:** Entre 6¬∞C y 28.6¬∞C para temperaturas m√°ximas y -2.2¬∞C a 28.1¬∞C para m√≠nimas.  
- **Sensaci√≥n t√©rmica (`feelslike`)** sigue una distribuci√≥n similar a la temperatura real.  
- **Posibles valores extremos:** Los valores de `feelslikemin` (-4.9¬∞C) y `feelslikemax` (45.9¬∞C) deber√≠an revisarse en contexto con la humedad y el viento.  

### **3. Humedad y punto de roc√≠o (`humidity`, `dew`)**  
- **Humedad promedio:** 63.85%  
- **Rango:** 26.4% (m√≠nimo) a 95% (m√°ximo), lo que sugiere diferencias clim√°ticas significativas.  
- **Punto de roc√≠o (`dew`)** var√≠a de -10.9¬∞C a 23.6¬∞C, con una media de 10.66¬∞C.  

### **4. Precipitaci√≥n (`precip`, `precipprob`, `precipcover`, `snow`, `snowdepth`)**  
- **Precipitaci√≥n media:** 1.61 mm, pero la mediana es **0 mm**, lo que indica que muchos d√≠as no llueve.  
- **M√°xima precipitaci√≥n:** 176.39 mm en un d√≠a, lo que sugiere eventos extremos.  
- **Probabilidad de precipitaci√≥n (`precipprob`)** var√≠a entre 0% y 100%.  
- **Cobertura de precipitaci√≥n (`precipcover`)** tiene una mediana de **0%**, lo que confirma que en la mayor√≠a de los d√≠as no hay lluvia.  
- **Nieve (`snow`, `snowdepth`)** es pr√°cticamente inexistente, con valores m√°ximos de 0.7 mm y 3.1 mm respectivamente, lo que sugiere que el √°rea analizada no suele experimentar nevadas significativas.  

### **5. Viento (`windgust`, `windspeed`, `winddir`)**  
- **Rachas m√°ximas de viento (`windgust`)** alcanzan **179 km/h**, lo que parece ser un valor extremo que podr√≠a requerir revisi√≥n.  
- **Velocidad media del viento (`windspeed`)** es **14.8 km/h**, con un m√°ximo de **58.7 km/h**, lo que indica d√≠as con condiciones ventosas.  
- **Direcci√≥n del viento (`winddir`)** var√≠a entre **0.2¬∞ y 359.6¬∞**, cubriendo todo el espectro direccional.  

### **6. Presi√≥n atmosf√©rica (`sealevelpressure`)**  
- **Media:** 1017.17 hPa  
- **Rango:** 992.9 hPa a 1038.3 hPa  
- **Valores normales:** Se encuentra dentro de los rangos t√≠picos de la presi√≥n atmosf√©rica a nivel del mar, con algunas variaciones que pueden estar asociadas a sistemas meteorol√≥gicos como frentes y tormentas.  

### **7. Cobertura de nubes y visibilidad (`cloudcover`, `visibility`)**  
- **Cobertura nubosa media:** 36.77%  
- **M√°xima:** 96.3%, lo que indica d√≠as muy nublados.  
- **Visibilidad media:** 8.85 km, con un rango de **3.1 km a 23.7 km**, lo que indica que en algunos d√≠as la visibilidad puede estar muy reducida, posiblemente debido a niebla, lluvia intensa o contaminaci√≥n.  

### **8. Radiaci√≥n y energ√≠a solar (`solarradiation`, `solarenergy`, `uvindex`)**  
- **Radiaci√≥n solar media:** 195.51 W/m¬≤, con un m√°ximo de **359.8 W/m¬≤**.  
- **Energ√≠a solar media:** 16.88 MJ/m¬≤.  
- **√çndice UV medio:** 7.05, con un m√°ximo de **10**, lo que indica d√≠as con alta exposici√≥n solar.  

### **9. Riesgo severo y fase lunar (`severerisk`, `moonphase`)**  
- **Riesgo severo (`severerisk`)** tiene muchos valores nulos, lo que sugiere que podr√≠a no estar bien documentado.  
- **Fase lunar (`moonphase`)** tiene un rango de **0 a 0.98**, indicando que se ha registrado en diferentes etapas del ciclo lunar.  

### **Conclusiones generales**  
- **El clima general parece templado**, con temperaturas medias de 18.4¬∞C y una humedad media de 63.85%.  
- **La precipitaci√≥n es poco frecuente**, con muchos d√≠as sin lluvia, aunque hay eventos extremos de m√°s de 100 mm en un solo d√≠a.  
- **El viento tiene algunos valores extremos** en rachas de hasta 179 km/h, lo que puede ser un error o un evento meteorol√≥gico significativo.  
- **Los datos de riesgo severo son incompletos**, lo que limita su an√°lisis.  
- **El √≠ndice UV puede alcanzar niveles peligrosos**, lo que sugiere que en ciertos d√≠as es necesario protecci√≥n solar.


## 4.Distribuci√≥n de los datos y anomal√≠as

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import os
import shutil

# Crear carpeta para guardar los histogramas
os.makedirs("histogramas", exist_ok=True)

# Seleccionar columnas num√©ricas
numericas = df.select_dtypes(include=['float64', 'int64']).columns  

# Graficar histogramas y guardarlos como im√°genes
for col in numericas:
    plt.figure(figsize=(12, 8))
    sns.histplot(df[col], kde=True, bins=30)
    plt.title(f"Histograma de {col}", fontsize=16)
    plt.xlabel(col, fontsize=14)
    plt.ylabel("Frecuencia", fontsize=14)
    plt.xticks(fontsize=12)
    plt.yticks(fontsize=12)
    plt.grid(alpha=0.3)
    
    # Guardar cada gr√°fico como imagen en la carpeta histogramas
    ruta = f"histogramas/histograma_{col}.png"
    plt.savefig(ruta, bbox_inches='tight')
    plt.close()

# Comprimir todos los histogramas en un archivo ZIP
shutil.make_archive("histogramas", 'zip', "histogramas")
print("‚úÖ Archivo 'histogramas.zip' creado correctamente.")



### An√°lisis distribucion variables
#### Cloudcover
 La distribuci√≥n de "Cloudcover" refleja que en esta base de datos predominan condiciones atmosf√©ricas parcialmente nubladas, con una mayor presencia de valores intermedios de cobertura nubosa y menos d√≠as con cielos totalmente despejados o completamente cubiertos.
 #### Dew
 La distribuci√≥n de "Dew" evidencia que las condiciones atmosf√©ricas m√°s comunes son aquellas con puntos de roc√≠o moderados, presentando ocasionalmente condiciones ligeramente m√°s h√∫medas (punto de roc√≠o elevado) y, en menor proporci√≥n, condiciones secas y fr√≠as.
 #### Feelslike
  Muestra claramente dos condiciones t√©rmicas predominantes en esta base de datos, una moderada a fresca y otra m√°s c√°lida, se√±alando una posible influencia estacional notable en la sensaci√≥n t√©rmica promedio.
 #### Feelslikemax
 En resumen, la variable "Feelslikemax" indica claramente que predominan condiciones moderadas a c√°lidas en cuanto a la sensaci√≥n t√©rmica m√°xima diaria, con una presencia ocasional de valores extremos que no constituyen la norma habitual del clima estudiado.
 #### Feelslikemin
 La distribuci√≥n de la variable Feelslikemin refleja claramente dos patrones diferenciados de condiciones t√©rmicas m√≠nimas percibidas, mostrando una marcada influencia estacional o temporal que genera estos dos escenarios predominantes en la sensaci√≥n t√©rmica m√≠nima registrada.

#### Humidity
La distribuci√≥n de la variable Humidity indica que la mayor√≠a de d√≠as registrados tienen valores moderadamente altos de humedad relativa, concentr√°ndose principalmente entre un 65% y 75%. Esta concentraci√≥n revela que las condiciones clim√°ticas de la zona o periodo analizado tienden hacia un ambiente predominantemente h√∫medo, siendo poco frecuentes los d√≠as extremadamente secos o con valores extremos de humedad relativa.
#### Moonphase
La distribuci√≥n uniforme de la variable Moonphase refleja simplemente la regularidad natural del ciclo lunar, indicando que el conjunto de datos no presenta ning√∫n sesgo o irregularidad en cuanto a la fase lunar observada en las fechas registradas. Esto es justamente lo esperable en este tipo de variable y confirma la calidad y representatividad temporal de los datos en lo que respecta al fen√≥meno lunar.
#### Precip
 La variable Precip indica claramente que en la regi√≥n o periodo estudiado predominan los d√≠as sin precipitaci√≥n o con precipitaciones muy leves, siendo relativamente escasos pero importantes los eventos aislados de lluvia fuerte o intensa.
 #### Precipcover
La distribuci√≥n de Precipcover refleja claramente que, aunque las precipitaciones ocurren con cierta frecuencia, tienden a cubrir √°reas limitadas o espec√≠ficas, siendo poco frecuentes los d√≠as con cobertura muy extendida o generalizada. 
#### Precipprob
Precipprob revela que en esta regi√≥n o periodo analizado se distingue claramente entre d√≠as secos sin posibilidad de lluvia y d√≠as h√∫medos con lluvias seguras, siendo poco habitual encontrar probabilidades intermedias o dudosas.
#### Sealevelpressure
La variable Sealevelpressure refleja claramente que las condiciones predominantes en cuanto a presi√≥n atmosf√©rica son moderadas y estables, destacando la baja frecuencia de eventos extremos.
#### Severisk
La variable Severerisk muestra claramente que la mayor√≠a de d√≠as estudiados son seguros y sin riesgo meteorol√≥gico significativo, existiendo solo muy pocos d√≠as en los que se identifica riesgo severo moderado o alto.
#### Snow
La distribuci√≥n de la variable Snow confirma claramente que la ca√≠da de nieve es un fen√≥meno sumamente raro o pr√°cticamente ausente en la regi√≥n o periodo considerado.
#### Snowdepth
La variable Snowdepth evidencia claramente la ausencia casi total de acumulaciones de nieve, indicando que esta condici√≥n clim√°tica es extraordinariamente rara en el conjunto de datos.
#### Solarenergy
La distribuci√≥n de la variable Solarenergy refleja claramente que, aunque predominan d√≠as con niveles moderados de energ√≠a solar, tambi√©n hay una considerable cantidad de d√≠as con alta disponibilidad solar y, en menor proporci√≥n, d√≠as con muy poca disponibilidad solar. Esto probablemente refleja una variabilidad clim√°tica asociada con las condiciones atmosf√©ricas y estacionales del √°rea estudiada.
#### Solarradiation
la variable Solarradiation muestra claramente la existencia de dos condiciones predominantes: d√≠as con radiaci√≥n moderada y d√≠as con radiaci√≥n solar alta, probablemente relacionados con la presencia o ausencia significativa de nubosidad
#### Temp
 La distribuci√≥n de Temp indica claramente la existencia de dos tipos predominantes de temperaturas medias en la regi√≥n o periodo analizado, sugiriendo la marcada presencia de al menos dos temporadas diferentes a lo largo del a√±o.
 #### Tempmax
 La variable Tempmax refleja principalmente condiciones t√©rmicas moderadas y c√°lidas durante el periodo analizado, con una ligera diferenciaci√≥n estacional entre rangos espec√≠ficos de temperaturas m√°ximas diarias.
#### Tempmin
 Tempmin muestra claramente la existencia de dos condiciones predominantes, reflejando la fuerte influencia estacional sobre las temperaturas m√≠nimas diarias observadas.
 #### Uvindex
La distribuci√≥n del Uvindex refleja claramente que en la regi√≥n estudiada predominan d√≠as con exposici√≥n solar intensa, con un √≠ndice UV t√≠picamente alto.
#### Visibility
La variable Visibility refleja la existencia clara de dos condiciones predominantes en cuanto a visibilidad atmosf√©rica: una moderada y otra muy buena.
#### Winddir
Winddir revela claramente dos direcciones predominantes y bien definidas del viento en la regi√≥n analizada.
#### Windgust
Windgust muestra claramente que las r√°fagas de viento moderadas predominan, siendo relativamente poco comunes los eventos de r√°fagas fuertes o muy fuertes.
#### Windspeed
Windspeed refleja claramente la predominancia de condiciones de viento moderado, siendo escasos los d√≠as con vientos muy fuertes.



In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import os

# Crear carpeta para guardar los boxplots
os.makedirs("boxplots", exist_ok=True)

# Graficar boxplot para cada variable num√©rica con mayor tama√±o
for col in numericas:
    plt.figure(figsize=(12, 8))  # Mayor tama√±o para visualizar mejor
    sns.boxplot(x=df[col])
    plt.title(f"Diagrama de caja de {col}", fontsize=16)
    plt.xlabel(col, fontsize=14)
    plt.xticks(fontsize=12)
    plt.grid(alpha=0.3)

    # Guardar gr√°fico como imagen para mejor visualizaci√≥n
    plt.savefig(f"boxplots/boxplot_{col}.png", bbox_inches='tight')
    plt.show()




### 1. **Cloudcover (Cobertura Nubosa)**:
- **Anomal√≠as:** Se observa un valor an√≥malo alto (cercano al 100%), que est√° fuera del rango t√≠pico, pero muy cerca del l√≠mite superior.
- **Evaluaci√≥n:** Este valor podr√≠a corresponder a un d√≠a excepcionalmente nublado, pero es completamente plausible en t√©rminos reales.
- **Recomendaci√≥n:** Mantener esta anomal√≠a, ya que refleja condiciones naturales posibles, aunque poco frecuentes.

---

### 2. **Dew (Punto de roc√≠o)**:
- **Anomal√≠as:** Se observan algunas anomal√≠as en valores muy bajos (negativos cercanos a -10 ¬∞C).
- **Evaluaci√≥n:** Estos valores extremos pueden indicar condiciones muy secas o fr√≠as que pueden ocurrir en d√≠as puntuales, aunque podr√≠an requerir una validaci√≥n adicional para confirmar su autenticidad.
- **Recomendaci√≥n:** Revisar manualmente estos datos para asegurar que no sean errores. Si los valores son reales (algo plausible), mantenerlos, de lo contrario, imputarlos o eliminarlos. 
Vamos a dejar las anomalias ya que revisando los datos manualmente nos hemos dado cuenta que la anomalias son de diass donde las temperaturas son muy bajas por lo que no es tan raro que el punto de rocio fuera bajo

---

### 3. **Feelslike (Sensaci√≥n t√©rmica promedio)**:
- **Anomal√≠as:** No se observan anomal√≠as significativas.
- **Evaluaci√≥n:** Todos los datos est√°n dentro de rangos normales, sin valores an√≥malos destacados.
- **Recomendaci√≥n:** No es necesario realizar ning√∫n tratamiento adicional.

---

### 4. **Feelslikemax (Sensaci√≥n t√©rmica m√°xima)**:
- **Anomal√≠as:** Se observa un √∫nico valor an√≥malo alto alrededor de 43-44 ¬∞C.
- **Evaluaci√≥n:** Este valor podr√≠a corresponder a un d√≠a excepcionalmente caluroso. Aunque elevado, es posible en ciertas condiciones clim√°ticas espec√≠ficas.
- **Recomendaci√≥n:** Mantener esta anomal√≠a si se confirma que es un dato real, ya que refleja eventos clim√°ticos extremos reales y posibles.
No la vamos a quitar ya que observando todas las variables de ese dia vemos que es un dia que hizo mucho calor, la temperatura maxima fue muy alta por lo que ese dia fue un caso extremo pero no es que sea esta variable un caso expecional

---

### 5. **Feelslikemin (Sensaci√≥n t√©rmica m√≠nima)**:
- **Anomal√≠as:** No se observan anomal√≠as en el diagrama de caja.
- **Evaluaci√≥n:** Los valores est√°n bien distribuidos y no presentan observaciones extremas fuera de lo esperado.
- **Recomendaci√≥n:** No requiere acciones especiales.

---


### 6. **Humidity (Humedad)**:
- **Anomal√≠as:** Se observa una anomal√≠a leve hacia la izquierda, con valores muy bajos de humedad (inferior al 30%).
- **Evaluaci√≥n:** Podr√≠a representar condiciones atmosf√©ricas muy secas que, aunque raras, son posibles.
- **Recomendaci√≥n:** Mantener tras validar manualmente que estos valores sean reales. Si hay errores evidentes, corregirlos o imputarlos. 
 Aunque no imposible, el valor es demasiado extremo y parece un error junto con el valor an√≥malo de punto de roc√≠o.Por lo que voy a imputarlo y ya
---

### 7. **Moonphase (Fase Lunar)**:
- **Anomal√≠as:** No se observan anomal√≠as significativas.
- **Evaluaci√≥n:** La variable tiene un comportamiento regular y esperado.
- **Recomendaci√≥n:** No requiere tratamiento especial.

---

### 8. **Precip (Precipitaci√≥n)**:
- **Anomal√≠as:** Se observan numerosas anomal√≠as, especialmente hacia valores altos de precipitaci√≥n (algunos valores por encima de 50 mm e incluso uno extremadamente alto alrededor de 175 mm).
- **Evaluaci√≥n:** Estos valores extremos son posibles, pero muy poco frecuentes. Probablemente corresponden a eventos puntuales de lluvia intensa.
- **Recomendaci√≥n:** 
  - Mantener estos valores, ya que representan eventos clim√°ticos extremos, importantes para ciertos an√°lisis meteorol√≥gicos.
  - Realizar una validaci√≥n adicional solo en el valor extremo (175 mm) para confirmar su autenticidad.
El valor de esta precipitaci√≥n en un d√≠a con estas condiciones (cielo muy cubierto, alta probabilidad de lluvia y baja presi√≥n atmosf√©rica) es absolutamente plausible y coherente.

---

### 9. **Precipcover (Cobertura de Precipitaci√≥n)**:
- **Anomal√≠as:** Se observan muchos valores extremos (por encima del 20%), especialmente hacia el lado derecho hasta alcanzar el 100%.
- **Evaluaci√≥n:** Son valores esperables, ya que pueden existir d√≠as en los que la precipitaci√≥n es muy generalizada.
- **Recomendaci√≥n:** Mantener estas anomal√≠as, pues reflejan condiciones clim√°ticas posibles (lluvias generalizadas). Confirmar solo puntualmente si hay registros claramente err√≥neos (100% cobertura repetidamente podr√≠a requerir revisi√≥n).

---

### 10. **Precipprob (Probabilidad de Precipitaci√≥n)**:
- **Anomal√≠as:** No se observan anomal√≠as.
- **Evaluaci√≥n:** El rango es esperado y sin observaciones fuera de lo normal.
- **Recomendaci√≥n:** No requiere acciones especiales.

---

### 11. **Sealevelpressure (Presi√≥n atmosf√©rica al nivel del mar)**:
- **Anomal√≠as:** Muchas anomal√≠as hacia ambos lados (muy bajas cerca de 1000 hPa y muy altas cerca de 1035 hPa).
- **Evaluaci√≥n:** Son valores extremos reales y posibles, aunque poco frecuentes, asociados normalmente a condiciones meteorol√≥gicas excepcionales (tormentas, anticiclones).
- **Recomendaci√≥n:** Mantener estos valores por representar condiciones atmosf√©ricas reales, pero considerar revisarlos puntualmente solo si existen valores extremadamente at√≠picos o muy frecuentes en los extremos. Lo dejamos igual si tienen sentido

---

### 12. **Severerisk (Riesgo meteorol√≥gico severo)**:
- **Anomal√≠as:** Observaciones dispersas con valores altos (cercanos o iguales a 100%).
- **Evaluaci√≥n:** Estas anomal√≠as representan d√≠as puntuales con condiciones meteorol√≥gicas muy adversas o peligrosas.
- **Recomendaci√≥n:** Mantener claramente estas observaciones porque son muy relevantes para el an√°lisis meteorol√≥gico de eventos extremos.

---

### 13. **Snow (Nieve ca√≠da)**:
- **Anomal√≠as:** Solo se observa un valor extremo relativamente alto (aproximadamente 0.7 mm).
- **Evaluaci√≥n:** Este valor podr√≠a representar un evento excepcional o puntual de nieve.
- **Recomendaci√≥n:** Revisar este valor para confirmar que es real. Si no es plausible (dependiendo del clima local estudiado), imputarlo o eliminarlo. Lo dejamos ya que no es tan alto si que es verdad que en valencia nunca nieva y que se presente un dia de nieve es raro pero no tanto

---

### 14. **Snowdepth (Profundidad de nieve acumulada)**:
- **Anomal√≠as:** Observaciones aisladas, con valores bajos (cercanos a 0.2-0.3 mm) y otras anomal√≠as con valores m√°s altos (alrededor de 3 mm).
- **Evaluaci√≥n:** Son valores posiblemente reales, pero raros. Pueden corresponder a eventos aislados.
- **Recomendaci√≥n:** Realizar revisi√≥n manual de estos registros para decidir si mantenerlos. Si el clima de la zona normalmente no incluye nieve, eliminar o imputar estos valores. Igual que en la de antes

---


### 15. **Solarenergy (Energ√≠a solar)**:
- **Anomal√≠as:** No se observan anomal√≠as destacadas en el diagrama.
- **Evaluaci√≥n:** Valores esperados y dentro del rango normal.
- **Recomendaci√≥n:** No requiere ninguna acci√≥n especial.

---

### 16. **Solarradiation (Radiaci√≥n solar)**:
- **Anomal√≠as:** No presenta anomal√≠as visibles.
- **Evaluaci√≥n:** Distribuci√≥n dentro de rangos normales esperados.
- **Recomendaci√≥n:** No requiere tratamiento especial.

---

### 17. **Temp (Temperatura promedio)**:
- **Anomal√≠as:** No presenta anomal√≠as en el diagrama de caja.
- **Evaluaci√≥n:** Valores completamente normales dentro del rango t√≠pico.
- **Recomendaci√≥n:** No es necesario realizar ninguna acci√≥n adicional.

---

### 18. **Tempmax (Temperatura m√°xima)**:
- **Anomal√≠as:** Se observa una sola anomal√≠a, con un valor alto alrededor de 44-45 ¬∞C.
- **Evaluaci√≥n:** Este valor extremo podr√≠a representar condiciones de calor extremo puntuales pero reales, especialmente en olas de calor.
- **Recomendaci√≥n:** Mantener tras verificar brevemente su autenticidad, pues refleja eventos reales y posibles. Igual que en la de temp

---

### 19. **Tempmin (Temperatura m√≠nima)**:
- **Anomal√≠as:** No presenta anomal√≠as visibles.
- **Evaluaci√≥n:** Valores dentro de lo normal y esperable para esta variable.
- **Recomendaci√≥n:** No requiere tratamiento adicional.

---

### 20. **Uvindex (√çndice UV)**:
- **Anomal√≠as:** No presenta anomal√≠as en el diagrama de caja.
- **Evaluaci√≥n:** Valores esperados y realistas.
- **Recomendaci√≥n:** No requiere tratamiento adicional.

---

### 21. **Visibility (Visibilidad)**:
- **Anomal√≠as:** Presenta dos anomal√≠as hacia valores muy altos (alrededor de 20 km de visibilidad).
- **Evaluaci√≥n:** Podr√≠an corresponder a d√≠as excepcionales con condiciones atmosf√©ricas extremadamente claras.
- **Recomendaci√≥n:** Revisar estos valores puntuales para confirmar su validez, manteni√©ndolos si son reales, o corrigi√©ndolos si se confirma error de medici√≥n. Los mantenemos ya que tras revisar el resto de variables considero que es un valor raro pero si que puede ser real

---

### 22. **Winddir (Direcci√≥n del viento)**:
- **Anomal√≠as:** No presenta anomal√≠as visibles.
- **Evaluaci√≥n:** Direcci√≥n del viento dentro de rangos esperables.
- **Recomendaci√≥n:** No requiere acciones especiales.

---

### 23. **Windgust (R√°fagas de viento)**:
- **Anomal√≠as:** Numerosas anomal√≠as hacia valores altos (superiores a 50 km/h), incluyendo una observaci√≥n extremadamente alta (aproximadamente 175 km/h).
- **Evaluaci√≥n:** Las anomal√≠as reflejan r√°fagas de viento fuertes reales y posibles, aunque la m√°s extrema podr√≠a requerir validaci√≥n adicional.
- **Recomendaci√≥n:** Mantener todas las anomal√≠as, revisando especialmente la m√°s alta para confirmar su autenticidad o corregirla si es un error. La mantenemos

---

### 24. **Windspeed (Velocidad del viento)**:
- **Anomal√≠as:** Varias anomal√≠as hacia valores altos (por encima de 30 km/h, llegando incluso alrededor de 60 km/h).
- **Evaluaci√≥n:** Estas velocidades podr√≠an ocurrir en condiciones ventosas o en tormentas puntuales.
- **Recomendaci√≥n:** Mantener estas observaciones al ser eventos reales, revisando √∫nicamente las m√°s extremas si generan dudas. Las mantenemos

---


In [None]:
#Este trozo de codigo se utiliza para revisar una a una las variables que presentan anomalias, e ha cambiado la variable y se ha ido trasteando
#Calcular l√≠mites usando IQR para anomal√≠as (outliers)
Q1 = df['precip'].quantile(0.25)
Q3 = df['precip'].quantile(0.75)
IQR = Q3 - Q1

limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Filtrar √∫nicamente las anomal√≠as
anomal√≠as_dew = df[(df['precip'] < limite_inferior) | (df['precip'] > limite_superior)]

# Mostrar anomal√≠as claramente
print(anomal√≠as_dew[['precip']])

# Ver todas las variables en la fila 1977
print(df.loc[2559])



### Imputaci√≥n de anomal√≠as que no tienen sentido

In [None]:
mediana_humidity = df['humidity'].median()
df.at[1776, 'humidity'] = mediana_humidity


Finalmente solo hemos imputado un valor ya que es el unico que considero que era un valor muy extra√±o y raro. El resto los he dejado porque considerandolo con el resto de variables simplemente se trata de un dia especial pero que en conjunto ed todas las variables si que es posible que se de 

## 5. Correlaciones entre variables

In [None]:
# Calcular la matriz de correlaci√≥n
correlaciones = df.corr()
print("Matriz de correlaci√≥n:")
(correlaciones)


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Graficar el heatmap de la matriz de correlaci√≥n
plt.figure(figsize=(20, 10))
sns.heatmap(correlaciones, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlaci√≥n")
plt.show()


Este diagrama es una **matriz de correlaci√≥n**, la cual muestra c√≥mo se relacionan entre s√≠ las diferentes variables clim√°ticas de tu base de datos. Aqu√≠ est√°n algunos puntos clave que se pueden extraer de la imagen:

### 1. **Relaciones Fuertes (Alto Grado de Correlaci√≥n Positiva)**
   - **Temperatura**: Las variables relacionadas con la temperatura, como `temp`, `tempmax`, `tempmin`, `feelslikemax`, `feelslikemin`, `feelslike`, muestran correlaciones **muy altas (cercanas a 1)** entre ellas. Esto indica que cuando una de estas aumenta, las dem√°s tambi√©n tienden a aumentar.
   - **Radiaci√≥n Solar y Energ√≠a Solar**: `solarradiation` y `solarenergy` est√°n fuertemente correlacionadas (~0.95), lo cual es l√≥gico, ya que la energ√≠a solar depende de la radiaci√≥n solar recibida.
   - **Viento**: `windgust` y `windspeed` tienen una correlaci√≥n alta (~0.87), lo que sugiere que las r√°fagas de viento y la velocidad media del viento suelen aumentar juntas.

### 2. **Relaciones Negativas Importantes**
   - **Temperatura y Presi√≥n Atmosf√©rica**: `tempmax`, `temp`, `feelslikemax` tienen correlaciones **negativas** con `sealevelpressure` (~-0.27 a -0.39). Esto sugiere que los d√≠as m√°s c√°lidos suelen tener menor presi√≥n atmosf√©rica.
   - **Viento y Direcci√≥n del Viento**: `winddir` tiene correlaciones **negativas** con `temp` y `feelslike` (~-0.5), lo que podr√≠a indicar que ciertas direcciones del viento est√°n asociadas con temperaturas m√°s bajas.

### 3. **Relaciones con la Precipitaci√≥n**
   - `precip`, `precipprob` y `precipcover` tienen correlaciones entre s√≠, pero no parecen estar fuertemente correlacionadas con la temperatura, lo que sugiere que la lluvia no est√° directamente ligada a la temperatura en esta base de datos.
   - `precipcover` y `cloudcover` tienen una **correlaci√≥n positiva moderada (~0.40)**, lo cual es esperado, ya que la nubosidad alta puede aumentar la probabilidad de lluvia.

### 4. **Factores Relevantes para Eventos Meteorol√≥gicos Extremos**
   - `severerisk` tiene correlaciones positivas moderadas con `windspeed` y `precipprob`, lo que indica que eventos severos podr√≠an estar relacionados con d√≠as de alta velocidad de viento y probabilidad de lluvia.

