# Tarea: Web Scraping con Selenium y Docker
### Objetivo:

Aprender a utilizar Selenium junto con Docker para realizar web scraping y extraer información de una página web. En esta tarea, extraerás los títulos de noticias de una página web de tu elección o la proporcionada.

## Código de Web Scraping

A continuación, te proporciono un script en Python utilizando Selenium para obtener los títulos de noticias de una página web. En este caso, utilizaremos la página de noticias de "https://news.ycombinator.com/" como ejemplo.

Tu debes completar el script.py 

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options

# Configura las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conéctate al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://localhost:4444/wd/hub",
    options=chrome_options
)

# Abre la página de noticias (aqui debes poner una pagina web de tu elección o la proporcionada)
driver.get("https://news.ycombinator.com")

# Extrae los títulos de las noticias
titles = driver.find_elements(By.CLASS_NAME, "storylink")

# Imprime los títulos
for title in titles:
    print(title.text)

# Cierra el navegador
driver.quit()


Descripción del Código:

* Configuración de Selenium: Se configura Selenium con el navegador Chrome utilizando opciones específicas para ejecutarlo dentro de Docker.

* Acceso a la Página Web: El script se conecta a la página de noticias de "YCombinator" y carga el contenido.

* Extracción de Datos: Se utiliza find_elements con la clase storylink para obtener todos los títulos de las noticias en la página.

* Impresión de Resultados: Los títulos extraídos se imprimen en la consola.

### Ejercicio 2:

* Buscar dentro de la página web alguno de los links de arriba (New, Past, etc) y ponerlo en un df

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import pandas as pd

# Configura las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conéctate al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://selenium-server:4444/wd/hub",
    options=chrome_options
)

# Abre la página de noticias
driver.get("https://news.ycombinator.com")

# Extrae los enlaces de navegación en la parte superior (New, Past, etc.)
nav_links = driver.find_elements(By.CSS_SELECTOR, "a[href]")  # Selecciona todos los enlaces con el atributo href

# Filtra y organiza los enlaces
links_data = []
for link in nav_links:
    text = link.text
    href = link.get_attribute("href")
    if text:  # Asegúrate de capturar solo los enlaces con texto visible
        links_data.append({"Text": text, "URL": href})

# Crea un DataFrame con los enlaces
df = pd.DataFrame(links_data)

# Imprime el DataFrame
print(df)

# Cierra el navegador
driver.quit()

### Ejercicio 3:

* Buscar algo dentro la pagina en el apartado de "Search" y ponerlo en un df

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
import pandas as pd
import time

# Configura las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conéctate al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://selenium-server:4444/wd/hub",
    options=chrome_options
)

# Abre la página de noticias
driver.get("https://news.ycombinator.com")

# Busca el campo de búsqueda (puedes ajustar el selector dependiendo de la estructura de la página)
search_box = driver.find_element(By.NAME, "q") 

# Escribe el texto que quieres buscar y presiona Enter
search_query = "Search" 
search_box.send_keys(search_query)
search_box.send_keys(Keys.RETURN)

# Espera a que carguen los resultados (ajusta el tiempo según la página)
time.sleep(3)

# Extrae los resultados de la búsqueda
results = driver.find_elements(By.CSS_SELECTOR, "a.storylink") 

# Organiza los resultados en una lista
results_data = []
for result in results:
    title = result.text
    url = result.get_attribute("href")
    results_data.append({"Title": title, "URL": url})

# Crea un DataFrame con los resultados
df = pd.DataFrame(results_data)

# Imprime el DataFrame
print(df)

# Cierra el navegador
driver.quit()


Ejecución del Script:
    
Para ejecutar el script, asegúrate de que los contenedores de Docker estén corriendo y luego ejecuta el siguiente comando en la terminal:


In [None]:
docker-compose run --rm python python script.py 

### ENTREGABLES: 
* script.py: El archivo con el código para realizar el web scraping y extraer los títulos de las noticias.
* README.md: Instrucciones para ejecutar el proyecto.