webscraping from https://www.imhpa.gob.pa/es/datos-diarios?estacion=1&mes=1&ano=2025 Tocumen enero 2024

In [18]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL de los datos
url = "https://www.imhpa.gob.pa/es/datos-diarios?estacion=1&mes=1&ano=2025"
headers = {"User-Agent": "Mozilla/5.0"}

# Descargar y parsear HTML
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')
tabla = soup.find('table', {'class': 'table'})
filas = tabla.find_all('tr')

# Extraer datos crudos
data = []
for fila in filas:
    columnas = fila.find_all(['th', 'td'])
    fila_texto = [col.text.strip() for col in columnas]
    data.append(fila_texto)

# Crear DataFrame crudo
df = pd.DataFrame(data)

# Definir encabezados limpios
columnas_finales = [
    "Día",
    "Temperatura Máxima (°C)",
    "Temperatura Mínima (°C)",
    "Temperatura Promedio (°C)",
    "Lluvia Mes Actual (mm)",
    "Lluvia Acumulada Actual (mm)",
    "Lluvia Promedio Histórico (mm)",
    "Lluvia Acumulada Promedio Histórico (mm)",
    "Viento Velocidad Máxima (Km/h)",
    "Viento Dirección Máxima (°)",
    "Viento Hora Máxima",
    "Dirección del Viento Predominante"
]

# Aplicar encabezados y eliminar encabezados duplicados del HTML
df.columns = columnas_finales
df = df.iloc[2:].reset_index(drop=True)  # elimina las filas de encabezado originales

# Convertir 'Día' a número y filtrar solo días del 1 al 31
df["Día"] = pd.to_numeric(df["Día"], errors='coerce')
df = df[df["Día"].between(1, 31)].reset_index(drop=True)

# Mostrar resultado limpio
print(df)

# (Opcional) Guardar a CSV correctamente para abrir en Excel sin errores de encoding
df.to_csv("tocumen_enero_2025_limpio.csv", index=False, encoding="utf-8-sig")


     Día Temperatura Máxima (°C) Temperatura Mínima (°C)  \
0    1.0                    27.6                    24.2   
1    2.0                    28.1                    22.8   
2    3.0                    29.9                    23.8   
3    4.0                    27.4                    23.8   
4    5.0                    29.6                    23.2   
5    6.0                    29.4                    23.9   
6    7.0                    31.8                    23.3   
7    8.0                      32                    23.9   
8    9.0                    32.2                    22.8   
9   10.0                    30.7                    22.2   
10  11.0                    30.4                      23   
11  12.0                    32.6                    21.5   
12  13.0                    31.9                    21.8   
13  14.0                    32.2                    22.9   
14  15.0                    31.8                    21.9   
15  16.0                    31.7        