# Tarea: Web Scraping con Selenium y Docker
### Objetivo:

Aprender a utilizar Selenium junto con Docker para realizar web scraping y extraer información de una página web. En esta tarea, extraerás los títulos de noticias de una página web de tu elección o la proporcionada.

## Código de Web Scraping

A continuación, te proporciono un script en Python utilizando Selenium para obtener los títulos de noticias de una página web. En este caso, utilizaremos la página de noticias de "https://news.ycombinator.com/" como ejemplo.

Tu debes completar el script.py

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options

# Configura las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--headless")  # Ejecutar Chrome en modo headless (sin interfaz gráfica)
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conéctate al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://selenium-server:4444/wd/hub",
    options=chrome_options
)

try:
    # Abre la página de noticias
    driver.get("https://news.ycombinator.com/")

    # Extrae los títulos de las noticias
    titles = driver.find_elements(By.CLASS_NAME, "titleline")

    # Imprime los títulos
    print("\nTítulos extraídos:")
    for idx, title in enumerate(titles, start=1):
        print(f"{idx}: {title.text}")

finally:
    # Cierra el navegador
    driver.quit()


Descripción del Código:

* Configuración de Selenium: Se configura Selenium con el navegador Chrome utilizando opciones específicas para ejecutarlo dentro de Docker.

* Acceso a la Página Web: El script se conecta a la página de noticias de "YCombinator" y carga el contenido.

* Extracción de Datos: Se utiliza find_elements con la clase storylink para obtener todos los títulos de las noticias en la página.

* Impresión de Resultados: Los títulos extraídos se imprimen en la consola.

### Ejercicio 2:

* Buscar dentro de la página web alguno de los links de arriba (New, Past, etc) y ponerlo en un df

In [None]:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options

# Configura las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--headless")  # Ejecutar Chrome en modo headless (sin interfaz gráfica)
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conéctate al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://selenium-server:4444/wd/hub",
    options=chrome_options
)

try:
    # Abre la página de noticias
    driver.get("https://news.ycombinator.com/")

    # Encuentra los enlaces de navegación (clase `pagetop`)
    nav_links = driver.find_elements(By.CSS_SELECTOR, "td.title a")

    # Extrae los textos y URLs de los enlaces
    links_data = []
    for link in nav_links:
        text = link.text
        href = link.get_attribute("href")
        links_data.append({"Texto": text, "URL": href})

    # Crear un DataFrame con los enlaces
    df_links = pd.DataFrame(links_data)

    # Mostrar el DataFrame
    print("\nEnlaces de navegación extraídos:")
    print(df_links)

finally:
    # Cierra el navegador
    driver.quit()


### Ejercicio 3:

* Buscar algo dentro la pagina en el apartado de "Search" y ponerlo en un df

In [None]:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
import time

# Configura las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--headless")  # Ejecutar Chrome en modo headless (sin interfaz gráfica)
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conéctate al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://selenium-server:4444/wd/hub",
    options=chrome_options
)

try:
    # Abre la página de Hacker News
    driver.get("https://news.ycombinator.com/")

    # Encuentra el enlace de búsqueda (Search) y haz clic
    search_link = driver.find_element(By.LINK_TEXT, "Search")
    search_link.click()

    # Espera un momento para que la página de búsqueda cargue
    time.sleep(2)

    # Encuentra el cuadro de búsqueda e ingresa el término de búsqueda
    search_box = driver.find_element(By.NAME, "q")
    search_term = "data science"
    search_box.send_keys(search_term)
    search_box.send_keys(Keys.RETURN)

    # Espera un momento para que los resultados carguen
    time.sleep(3)

    # Encuentra los títulos de los resultados de la búsqueda
    results = driver.find_elements(By.CSS_SELECTOR, "a.storylink")

    # Extrae el texto y los enlaces de los resultados
    search_results = []
    for result in results:
        title = result.text
        link = result.get_attribute("href")
        search_results.append({"Título": title, "URL": link})

    # Crea un DataFrame con los resultados
    df_results = pd.DataFrame(search_results)

    # Muestra el DataFrame
    print("\nResultados de la búsqueda:")
    print(df_results)

finally:
    # Cierra el navegador
    driver.quit()


Ejecución del Script:
    
Para ejecutar el script, asegúrate de que los contenedores de Docker estén corriendo y luego ejecuta el siguiente comando en la terminal:


In [None]:
docker-compose run --rm python python script.py

### ENTREGABLES:
* script.py: El archivo con el código para realizar el web scraping y extraer los títulos de las noticias.
* README.md: Instrucciones para ejecutar el proyecto.