# Tarea: Web Scraping con Selenium y Docker
### Objetivo:

Aprender a utilizar Selenium junto con Docker para realizar web scraping y extraer información de una página web. En esta tarea, extraerás los títulos de noticias de una página web de tu elección o la proporcionada.

## Código de Web Scraping

A continuación, te proporciono un script en Python utilizando Selenium para obtener los títulos de noticias de una página web. En este caso, utilizaremos la página de noticias de "https://news.ycombinator.com/" como ejemplo.

Tu debes completar el script.py 

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
import pandas as pd

In [None]:
# Configuración de las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conexión al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://selenium-server:4444/wd/hub",
    options=chrome_options
)

try:
    # Abre la página de noticias
    driver.get("https://news.ycombinator.com/")  # Página de ejemplo

    # Extrae los títulos de las noticias
    titles = driver.find_elements(By.CLASS_NAME, "storylink")
    news_titles = [title.text for title in titles]

    # Imprime los títulos
    print("Títulos de noticias:")
    for title in news_titles:
        print(title)

finally:
    driver.quit()

Descripción del Código:

* Configuración de Selenium: Se configura Selenium con el navegador Chrome utilizando opciones específicas para ejecutarlo dentro de Docker.

* Acceso a la Página Web: El script se conecta a la página de noticias de "YCombinator" y carga el contenido.

* Extracción de Datos: Se utiliza find_elements con la clase storylink para obtener todos los títulos de las noticias en la página.

* Impresión de Resultados: Los títulos extraídos se imprimen en la consola.

### Ejercicio 2:

* Buscar dentro de la página web alguno de los links de arriba (New, Past, etc) y ponerlo en un df

In [None]:
# Configuración de las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conexión al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://selenium-server:4444/wd/hub",
    options=chrome_options
)

try:
    # Abre la página de noticias
    driver.get("https://news.ycombinator.com/")

    # Extrae los enlaces del menú de navegación
    navbar_links = driver.find_elements(By.CSS_SELECTOR, "a[href]")
    links_data = [{"Text": link.text, "URL": link.get_attribute("href")} for link in navbar_links]

    # Convierte a un DataFrame y guarda en un archivo CSV
    links_df = pd.DataFrame(links_data)
    print("\nLinks extraídos:")
    print(links_df)

    links_df.to_csv("navbar_links.csv", index=False)

finally:
    driver.quit()


### Ejercicio 3:

* Buscar algo dentro la pagina en el apartado de "Search" y ponerlo en un df

In [None]:
# Configuración de las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conexión al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://selenium-server:4444/wd/hub",
    options=chrome_options
)

try:
    # Abre la página de noticias
    driver.get("https://news.ycombinator.com/")

    # Busca el campo de búsqueda y realiza una consulta
    search_box = driver.find_element(By.NAME, "q")  # Asume que 'q' es el nombre del campo de búsqueda
    search_query = "Python"
    search_box.send_keys(search_query)
    search_box.send_keys(Keys.RETURN)

    # Extrae los resultados de la búsqueda
    search_results = driver.find_elements(By.CLASS_NAME, "storylink")
    search_data = [{"Title": result.text, "URL": result.get_attribute("href")} for result in search_results]

    # Convierte a un DataFrame y guarda en un archivo CSV
    search_df = pd.DataFrame(search_data)
    print("\nResultados de búsqueda:")
    print(search_df)

    search_df.to_csv("search_results.csv", index=False)

finally:
    driver.quit()


*Codigo completo*

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
import pandas as pd

# Configuración de las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conexión al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://selenium-server:4444/wd/hub",
    options=chrome_options
)

try:
    # Ejercicio 1: Extraer títulos de noticias
    driver.get("https://news.ycombinator.com/")  # Página de noticias
    titles = driver.find_elements(By.CLASS_NAME, "storylink")

    news_titles = [title.text for title in titles]
    print("Títulos de noticias:")
    for title in news_titles:
        print(title)

    # Ejercicio 2: Extraer los links (New, Past, etc.)
    navbar_links = driver.find_elements(By.CSS_SELECTOR, "a[href]")
    links_data = [{"Text": link.text, "URL": link.get_attribute("href")} for link in navbar_links]

    links_df = pd.DataFrame(links_data)
    print("\nLinks extraídos:")
    print(links_df)

    # Ejercicio 3: Buscar algo en el apartado "Search"
    search_box = driver.find_element(By.NAME, "q")  # Asumiendo que 'q' es el nombre del input de búsqueda
    search_query = "Python"
    search_box.send_keys(search_query)
    search_box.send_keys(Keys.RETURN)

    # Recopilar resultados de búsqueda
    search_results = driver.find_elements(By.CLASS_NAME, "storylink")
    search_data = [{"Title": result.text, "URL": result.get_attribute("href")} for result in search_results]

    search_df = pd.DataFrame(search_data)
    print("\nResultados de búsqueda:")
    print(search_df)

    # Guardar los datos en CSV
    links_df.to_csv("navbar_links.csv", index=False)
    search_df.to_csv("search_results.csv", index=False)

finally:
    # Cerrar el navegador
    driver.quit()


Ejecución del Script:
    
Para ejecutar el script, asegúrate de que los contenedores de Docker estén corriendo y luego ejecuta el siguiente comando en la terminal:


In [None]:
docker-compose run --rm python python script.py 

### ENTREGABLES: 
* script.py: El archivo con el código para realizar el web scraping y extraer los títulos de las noticias.
* README.md: Instrucciones para ejecutar el proyecto.