In [17]:
n_archivo = 0

# 0. Instalar librerías pertinentes

In [None]:
!pip install selenium
!pip install pandas
!pip install numpy
!pip install geopandas

# 1. Setear librerías, funciones y comandos importantes

In [11]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.support.ui import Select, WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.action_chains import ActionChains
import pandas as pd
import numpy as np
import geopandas as gpd
import pickle
import time
import datetime
import re
import os
from datetime import datetime, date, timedelta
import warnings
warnings.filterwarnings('ignore')

In [13]:
def get_coords_element (e):
    loc = e.location
    size = e.size
    
    x = loc['x'] + size['width']/2
    y = loc['y'] + size['height']/2
    return (x,y)

get_vectorial_movement = lambda p_start, p_end: (p_end[0] - p_start[0], p_end[1] - p_start[1])
center_page = lambda driver: (driver.execute_script("return window.innerWidth;")/2,driver.execute_script("return window.innerHeight;")/2)
move_vector = lambda p_vect: action.move_by_offset(p_vect[0],p_vect[1])

base = 'https://www.ventusky.com/'
años = ['2020','2021','2022','2023','2024']
meses = ['enero','febrero','marzo','abril','mayo','junio','julio','agosto','septiembre','octubre','noviembre','diciembre']

In [14]:
options = Options()
options.set_preference('permissions.default.image', 0)
options.set_preference('dom.ipc.plugins.enabled.libflashplayer.so', True)
options.set_preference("browser.download.folderList", 2)
options.set_preference("browser.download.manager.showWhenStarting", False)
options.set_preference('pdfjs.disabled', True)
options.set_preference('intl.accept_languages', 'es-ES')
options.add_argument("--width=1920");
options.add_argument("--height=1080");
options.add_argument("--headless")

# 2. Recolección de distritos a buscar

In [4]:
distrital = gpd.read_file('anexos/distritos/distritos-peru@bogota-laburbano.geojson')[['nombdep','nombprov','nombdist','geo_point_2d']]
distrital = distrital[(distrital['nombdep']=='LIMA')|(distrital['nombdep']=='CALLAO')].reset_index().iloc[:-1,2:]
geopoints = distrital.pop('geo_point_2d')
distrital['lat'] = None
distrital['lon'] = None

for row in range(geopoints.shape[0]):
    distrital.iloc[row,2] = round(geopoints[row]['lat'],2)
    distrital.iloc[row,3] = round(geopoints[row]['lon'],2)

distrital.columns = ['Provincia','Distrito','Lat','Lon']
distrital.sort_values(by=['Provincia','Distrito'],inplace=True)

# 3. Generar particiones para procesamiento en simultáneo

Solo corro la siguiente celda la primera vez.

In [18]:
# Cantidad de particiones
partir = 4

if os.path.exists(f'partition_{partir}.obj'):
    print('Ya existe la partición.')
    # Recuperar particiones iniciales
    with open(f'partition_{partir}.obj','rb') as filehandler:
        partition = pickle.load(filehandler)
else: 
    # Parámetros de partición
    print('Creando la partición')
    n_rows = distrital.shape[0]//partir
    sampling = distrital.copy()
    partition = []
    
    # Creación de particiones sin reemplazo, mutuamente excluyentes
    for i in range(partir-1):
        partition += [sampling.sample(n=n_rows)]
        sampling.drop(partition[i].index,inplace=True)
    partition += [sampling]
    
    # Guardarlo para reusarlo en otra sesión
    with open(f'partition_{partir}.obj','wb') as filehandler:
        pickle.dump(partition,filehandler)

# 4. Scraping oficial

Insensibles al periodo horario: 'dew', 'clouds-total' y 'pressure'
Sensibles al periodo horario: 'rain-3h', 'temperature-2m','wind-10m'

* Carlos: 'dew', 'rain-3h'
* Bisetti: 'temperature-2m', 'clouds-total'
* Marisol: 'wind-10m', 'pressure'

In [16]:
# Crear instancia del navegador
l = ['rain-3h','temperature-2m','wind-10m','dew','clouds-total','pressure']

# SELECCIÓN POR INPUT (0 al 5 por posición en l)
pos = int(input('Ingrese posición de la lista l (0 al 5): '))
select = l[pos]

# Selección de valor de inicio
if os.path.exists(f'anexos/clima/{select}_{n_archivo}.csv'): # ya hay una tabla de inicio
    # Abre el archivo sin importarlo, recoge la tupla de valores únicos (provincia, distrito) y en función del tamaño del conjunto ajusta el inicio
    with open(f'anexos/clima/{select}_{n_archivo}.csv') as fp:
        start = len({(row.split(',')[1],row.split(',')[2]) for row in fp.readlines()[1:]})
else:
    # Si no hay archivo, el inicio es 0
    start = 0

# Percentiles de avance
percentiles = [round(partition[n_archivo].shape[0] * (i/10)) for i in range(1,11)]

# Inicio de algoritmo    
for row in range(start,partition[n_archivo].shape[0]):
    # Filas que se añadirán al dataframe
    caso = {'Año':[],
            'Provincia':[],
            'Distrito':[],
            'Mes':[],
            'Día':[],
            'Semana':[],
            'Min':[],
            'Max':[]}     

    # Recolección de datos
    prov = partition[n_archivo].iloc[row,0]
    dist = partition[n_archivo].iloc[row,1]
    lat = partition[n_archivo].iloc[row,2]
    lon = partition[n_archivo].iloc[row,3]

    # Crear enlace
    coords = f'?p={lat};{lon};12'
    access = f'&l={select}&m=icon'
    url = base + coords + access
        
    # Crear instancia del navegador
    driver = webdriver.Firefox(options=options)
    action = webdriver.ActionChains(driver)
    driver.implicitly_wait(300)
                
    # Abrir url en el driver
    driver.get(url)
    driver.maximize_window()
    time.sleep(5)

    # Conseguir coordenadas importantes
    hora_min = driver.find_element(By.XPATH, '//a[text()="01:00"]')
    hora_max = driver.find_element(By.XPATH, '//a[text()="13:00"]')
    center = center_page(driver)
    
    # Clickear dropdown
    fecha = driver.find_element(By.XPATH, '//a[@class="q j"]')
    fecha.click()
    
    # Comentarios para establecer percentiles
    if i in percentiles:
        print(f"------ PERCENTIL {((row*100)/partition[n_archivo].shape[0])}% INICIADO: fila {row} ---")
    print(f'------ INICIO {dist}: {datetime.now()} \n')
    
    
    for año in años:
        # Colocar año
        set_año = driver.find_element(By.XPATH, f'//select[@id="l"]/option[text()="{año}"]')
        set_año.click()
        time.sleep(2)
        
        for mes in meses:
            if año=='2024' and mes=='mayo': break
            else: pass
            # Colocar mes
            set_mes = driver.find_element(By.XPATH, f'//select[@id="h"]/option[text()="{mes}"]')
            set_mes.click()
            time.sleep(2)

            # Recolectar el último día del mes
            dias = driver.find_elements(By.XPATH, '//td[@class=" nk"]')
            ult_dia = int(dias[-1].text)

            rango = [1,8,15,22,ult_dia]

            for i in rango:
                fecha = date(int(año), meses.index(mes)+1, i)
                dia = str(i).zfill(2)
                    
                set_dia = driver.find_element(By.XPATH, f'//td/a[text()="{dia}"]')
                set_dia.click()
                time.sleep(2)

                if select in ['dew','clouds-total','pressure']:
                    # Actualización del valor en el centro de la página por cada cambio de fecha
                    action.move_to_element(hora_min).perform()
                    move_vector(get_vectorial_movement(get_coords_element(hora_min),center))
                    action.perform()
                    time.sleep(2)
                    
                    mini = driver.find_element(By.XPATH, '//span[@class="jd"]').text
                    maxi = mini
                else:
                    # Mover cursor entre las horas del día y recopilar información
                    # Mover a hora mínima
                    action.move_to_element(hora_min).click().perform()
                    time.sleep(2)
    
                    # Mover al centro
                    move_vector(get_vectorial_movement(get_coords_element(hora_min),center))
                    action.perform()
                    mini = driver.find_element(By.XPATH, '//span[@class="jd"]').text
                    time.sleep(2)
    
                    # Mover a hora máxima
                    action.move_to_element(hora_max).click().perform()
                    time.sleep(2)
    
                    # Mover al centro
                    move_vector(get_vectorial_movement(get_coords_element(hora_max),center))
                    action.perform()
                    maxi = driver.find_element(By.XPATH, '//span[@class="jd"]').text
                    time.sleep(2)
    
                # Seteo como diccionario
                caso['Año'] += [año]
                caso['Provincia'] += [prov]
                caso['Distrito'] += [dist]
                caso['Mes'] += [mes]
                caso['Día'] += [dia]
                caso['Semana'] += [fecha.isocalendar()[1]]
                caso['Min'] += [mini]
                caso['Max'] += [maxi]
                    
                # Muestra en consola
                print('------')
                print(f'{dia} de {mes}, {año}')
                print('Mínimo: ',mini)
                print('Máximo: ',maxi,'\n')
            
    # Exportar el caso específico
    caso_df = pd.DataFrame(caso)
    caso_df.to_csv(f'anexos/clima/{select}_{n_archivo}.csv',index=False,mode='a',header=not os.path.exists(f'anexos/clima/{select}_{n_archivo}.csv'))
    
    # Cierra el navegador
    driver.close()    

Ingrese posición de la lista l (0 al 5):  1


------ INICIO ANCON: 2024-05-01 16:42:43.945364 

------
01 de enero, 2020
Mínimo:  18 °C
Máximo:  24 °C 

------
08 de enero, 2020
Mínimo:  18 °C
Máximo:  25 °C 



KeyboardInterrupt: 