# Web scraping - Extraccion de la data

Considerar el punto de que:
El web scraping que realizado, se encarga de descargar(link referenciando al archivo parket de la data) los archivos de la pagina web de TCL(Taxis & Limousine Commission), por lo que en realidad podrias decir cumplimos con una premisa del web scraping: la extracción de datos de una fuente externa, pero no realizamos una "disección" o "scraping"(en realidad referie a raspado-raspar) del documento html para luego procesar la data para construir y reorganizar los datos. En este caso, la data ya se obtiene en formato tabular.

In [1]:
import requests
import os
import pandas as pd
import time
from selenium import webdriver # pip install selenium
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException

In [None]:
# Crear una carpeta para las descargas si no existe
download_dir = os.path.join(os.getcwd(), "descargas")
if not os.path.exists(download_dir):
    os.makedirs(download_dir)
print(download_dir)

#### Web driver de Selenium

In [None]:
# Configura el WebDriver (asegúrate de tener el driver correspondiente)
options = webdriver.ChromeOptions()
options.add_argument("--window-size=800,640")
#Directorio predeterminado para descargar los archivos
prefs = {
    "download.default_directory": download_dir,  # Cambiar a tu directorio de descargas
    "download.prompt_for_download": False,       # Desactivar el cuadro de diálogo de descarga
    "download.directory_upgrade": True,          # Permitir actualizar la carpeta de descarga
    "safebrowsing.enabled": True                 # Activar descarga segura
}
options.add_experimental_option("prefs", prefs)
service = Service(executable_path="chromedriver_win64\chromedriver.exe") #Ruta del chromedriver
options.headless = True  # Enable headless mode
#options.add_argument("--window-size=800,640")
driver = webdriver.Chrome(service=service, options=options)
driver.get('https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page') # URL pagina de la data

# Usar WebDriverWait para esperar hasta que la sección con la clase y el id estén visibles
wait = WebDriverWait(driver, 20)
faq_section_2023 = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'div.faq-answers#faq2023')))
faq_section_2024 = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'div.faq-answers#faq2024')))

# Buscar todos los enlaces dentro de la sección con class 'faq-answers' y id 'faq2023'
taxi_links_2023 = faq_section_2023.find_elements(By.CSS_SELECTOR, 'a[title="Yellow Taxi Trip Records"], a[title="Green Taxi Trip Records"]')
taxi_links_2024 = faq_section_2024.find_elements(By.CSS_SELECTOR, 'a[title="Yellow Taxi Trip Records"], a[title="Green Taxi Trip Records"]')

#### Descarga de archivos

In [None]:
# Descargar cada archivo del año 2023
for url in taxi_links_2023:
    # Extraer el nombre del archivo de la URL
    url = url.get_attribute('href')
    file_name = url.split("/")[-1]
    file_path = os.path.join(download_dir, file_name)
    # Descargar el archivo
    print(f"Descargando {file_name} ...")
    #response = requests.get(url)
    try:
        response = requests.get(url, timeout=120)  # Aumentar el timeout a 120 segundos
    except requests.exceptions.Timeout:
        print(f"Error: El archivo {file_name} tardó demasiado en responder.")
        continue  # Salta al siguiente archivo si hay un problema de tiempo de espera
    # Verificar si la descarga fue exitosa
    if response.status_code == 200:
        # Guardar el archivo en la carpeta de descargas
        with open(file_path, 'wb') as f:
            f.write(response.content)
        print(f"Archivo descargado y guardado en: {file_path}")
    else:
        print(f"Error al descargar {file_name}: Código de estado {response.status_code}")
        

# Descargar cada archivo del año 2024
for url in taxi_links_2024:
    # Extraer el nombre del archivo de la URL
    url = url.get_attribute('href')
    file_name = url.split("/")[-1]
    file_path = os.path.join(download_dir, file_name)
    # Descargar el archivo
    print(f"Descargando {file_name} ...")
    #response = requests.get(url)
    try:
        response = requests.get(url, timeout=120)  # Aumentar el timeout a 120 segundos
    except requests.exceptions.Timeout:
        print(f"Error: El archivo {file_name} tardó demasiado en responder.")
        continue  # Salta al siguiente archivo si hay un problema de tiempo de espera
    # Verificar si la descarga fue exitosa
    if response.status_code == 200:
        # Guardar el archivo en la carpeta de descargas
        with open(file_path, 'wb') as f:
            f.write(response.content)
        print(f"Archivo descargado y guardado en: {file_path}")
    else:
        print(f"Error al descargar {file_name}: Código de estado {response.status_code}")

In [None]:
# Cierra el driver
driver.quit()

#### Descarga de los datos acerca del gasto energetico

In [None]:
# Crear una carpeta para las descargas si no existe
download_dir = os.path.join(os.getcwd(), "descargas\Fuel_rate")
if not os.path.exists(download_dir):
    os.makedirs(download_dir)
print(download_dir)
# Configura el WebDriver (asegúrate de tener el driver correspondiente)
options = webdriver.ChromeOptions()
options.add_argument("--window-size=800,640")
#Directorio predeterminado para descargar los archivos
prefs = {
    "download.default_directory": download_dir,
    "download.prompt_for_download": False,       
    "download.directory_upgrade": True,          
    "safebrowsing.enabled": True                 
}
options.add_experimental_option("prefs", prefs)
service = Service(executable_path="chromedriver_win64\chromedriver.exe") #Ruta del chromedriver
options.headless = True  # Enable headless mode
#options.add_argument("--window-size=800,640")
driver = webdriver.Chrome(service=service, options=options)
driver.get('https://open.canada.ca/data/en/dataset/98f1a129-f628-4ce4-b24d-6f16bf24dd64#wb-auto-6') # URL pagina de la data

try:
    wait = WebDriverWait(driver, 40)
    
    # Paso 1: Encontrar el contenedor que tiene los enlaces a las subpáginas
    main_section = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'section#dataset-resources.resources')))
    print("main_section",main_section)
    # Buscar los enlaces a las subpáginas (donde están los datasets)
    links = main_section.find_elements(By.CSS_SELECTOR, 'a.heading.resource-heading')
    print(links)
    # Limitar la iteración a los primeros 8 enlaces
    max_links = 8
    link_count = 0  # Contador para los enlaces procesados

    # Iterar sobre cada enlace a la subpágina
    for link in links:
        if link_count >= max_links:  # Rompe el loop si ya se procesaron los primeros 5 enlaces
            break

        href = link.get_attribute("href")  # Obtener el href de la subpágina
        print(f"Navegando a: {href}")
        driver.get(href)  # Navegar a la subpágina
        
        # Buscar los enlaces de los archivos en la subpágina
        try:
            # Esperar a que carguen los elementos en la nueva página
            subpage_wait = WebDriverWait(driver, 20)
            # Encontrar todos los enlaces a archivos CSV en la nueva página
            csv_links = subpage_wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'a[href*="csv"]')))
            
            # Descargar cada archivo CSV encontrado
            for csv_link in csv_links:
                file_href = csv_link.get_attribute("href")
                file_name = file_href.split('/')[-1]  # Obtener el nombre del archivo
                file_path = os.path.join(download_dir, file_name)

                # Comprobar si el archivo ya existe
                if not os.path.exists(file_path):
                    print(f"Descargando archivo: {file_href}")
                    driver.get(file_href)  # Descargar el archivo automáticamente
                else:
                    print(f"El archivo {file_name} ya existe. Saltando descarga.")

        except TimeoutException:
            print("No se encontraron archivos CSV en la subpágina.")

        # Volver a la página anterior para continuar con los otros enlaces
        driver.back()

        link_count += 1  # Incrementar el contador después de procesar un enlace

except TimeoutException:
    print("No se encontraron los elementos dentro del tiempo de espera.")
    print(driver.page_source)  # Imprime el HTML para inspeccionar qué está cargando

finally:
    driver.quit()  # Cerrar el WebDriver al finalizar


# Cloud Test



In [None]:
# Crear una carpeta para las descargas si no existe
download_dir = os.path.join(os.getcwd(), "descargas")
if not os.path.exists(download_dir):
    os.makedirs(download_dir)
print(download_dir)


options = webdriver.ChromeOptions()
options.add_argument("--window-size=800,640")
#options.add_argument("--headless")
prefs = {
    "download.default_directory": download_dir,
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "safebrowsing.enabled": True
}
options.add_experimental_option("prefs", prefs)
service = Service(executable_path="chromedriver_win64/chromedriver.exe")  # Ruta del chromedriver
#options.headless = True  # Ejecutar en modo headless

driver = webdriver.Chrome(service=service, options=options)
driver.get('https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page')  # URL de la página de datos

# Esperar hasta que la sección de enlaces de 2023 esté visible
wait = WebDriverWait(driver, 20)
faq_section_2023 = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'div.faq-answers#faq2023')))

# Encontrar todos los enlaces dentro de la sección
taxi_links_2023 = faq_section_2023.find_elements(By.CSS_SELECTOR, 'a[title="Green Taxi Trip Records"]')

# Extraer la URL del primer elemento
first_link = taxi_links_2023[0].get_attribute('href')

# Extraer el nombre del archivo de la URL
file_name = first_link.split("/")[-1]
file_path = os.path.join(download_dir, file_name)

# Descargar el archivo
print(f"Descargando {file_name} ...")
try:
    response = requests.get(first_link, timeout=120)  # Aumentar el timeout a 120 segundos
except requests.exceptions.Timeout:
    print(f"Error: El archivo {file_name} tardó demasiado en responder.")
    driver.quit()  # Cierra el navegador si hay un problema de tiempo de espera
    raise  # Lanza la excepción para que el script falle si es necesario

# Verificar si la descarga fue exitosa
if response.status_code == 200:
    with open(file_path, 'wb') as f:
        f.write(response.content)
    print(f"Archivo descargado y guardado en: {file_path}")
else:
    print(f"Error al descargar {file_name}: Código de estado {response.status_code}")

# Cerrar el navegador al final
driver.quit()

c:\Pablo\datasets\TaxisNY\descargas
Descargando green_tripdata_2023-01.parquet ...
Archivo descargado y guardado en: c:\Pablo\datasets\TaxisNY\descargas\green_tripdata_2023-01.parquet


In [None]:
ruta = 'descargas/'

In [12]:
import os

# Definir el directorio donde se encuentran los archivos
directorio = 'descargas/'

# Lista para almacenar los fragmentos de los nombres de archivo
nombres_archivos = []

# Iterar sobre los archivos en el directorio
for archivo in os.listdir(directorio):
    # Verificar si es un archivo y no una carpeta
    if os.path.isfile(os.path.join(directorio, archivo)):
        # Aquí extraemos la parte del nombre que te interesa, por ejemplo, el prefijo antes de un guión
        # Puedes ajustar la lógica de acuerdo a tu necesidad. Ejemplo para extraer antes de un guión:
        fragmento = archivo.split('.')[0]  # Cambiar la lógica según lo necesites
        fragmento = fragmento[-2:]
        #fragmento = archivo[-3:]
        #fragmento = str.
        nombres_archivos.append(int(fragmento))

print(nombres_archivos)


[1]
