# Tarea: Web Scraping con Selenium y Docker
### Objetivo:

Aprender a utilizar Selenium junto con Docker para realizar web scraping y extraer información de una página web. En esta tarea, extraerás los títulos de noticias de una página web de tu elección o la proporcionada.

## Código de Web Scraping

A continuación, te proporciono un script en Python utilizando Selenium para obtener los títulos de noticias de una página web. En este caso, utilizaremos la página de noticias de "https://news.ycombinator.com/" como ejemplo.

Tu debes completar el script.py 

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options

# Configura las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument("--headless")  # Corre en modo headless para mayor eficiencia

# Conéctate al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://selenium-server:4444/wd/hub",
    options=chrome_options
)

# Abre la página de noticias (Hacker News en este caso)
driver.get("https://news.ycombinator.com/")

# Extrae los títulos de las noticias
titles = driver.find_elements(By.CLASS_NAME, "titleline")

# Imprime los títulos
for title in titles:
    print(title.text)

# Cierra el navegador
driver.quit()


Descripción del Código:

* Configuración de Selenium: Se configura Selenium con el navegador Chrome utilizando opciones específicas para ejecutarlo dentro de Docker.

* Acceso a la Página Web: El script se conecta a la página de noticias de "YCombinator" y carga el contenido.

* Extracción de Datos: Se utiliza find_elements con la clase storylink para obtener todos los títulos de las noticias en la página.

* Impresión de Resultados: Los títulos extraídos se imprimen en la consola.

### Ejercicio 2:

* Buscar dentro de la página web alguno de los links de arriba (New, Past, etc) y ponerlo en un df

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import pandas as pd

# Set up Chrome options for headless browsing
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument("--headless")  # Optional: Run in headless mode

# Initialize WebDriver
driver = webdriver.Chrome(options=chrome_options)

try:
    # Open the Hacker News main page
    driver.get("https://news.ycombinator.com/")

    # Find the "Past" link and click it
    past_link = driver.find_element(By.LINK_TEXT, "Past")
    past_link.click()

    # Extract titles and their corresponding URLs from the "Past" section
    titles = driver.find_elements(By.CSS_SELECTOR, ".titleline a")

    # Create a list to hold title and URL data
    data = [{"Title": title.text, "URL": title.get_attribute("href")} for title in titles]

    # Convert the data into a pandas DataFrame
    df = pd.DataFrame(data)

    # Display the DataFrame
    print(df)

    # Save the DataFrame to a CSV file (optional)
    df.to_csv("past_section_titles.csv", index=False)

finally:
    # Close the browser
    driver.quit()


### Ejercicio 3:

* Buscar algo dentro la pagina en el apartado de "Search" y ponerlo en un df

In [None]:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
import pandas as pd
import time

# Set up Chrome options for headless browsing
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument("--headless")  # Optional: Run in headless mode

# Initialize WebDriver
driver = webdriver.Chrome(options=chrome_options)

try:
    # Open the Hacker News main page
    driver.get("https://news.ycombinator.com/")

    # Find the search bar (input with placeholder "Search:")
    search_box = driver.find_element(By.CSS_SELECTOR, 'input[placeholder="Search"]')

    # Type "dune" into the search bar and press Enter
    search_box.send_keys("dune")
    search_box.send_keys(Keys.RETURN)

    # Wait for the results to load
    time.sleep(3)

    # Extract titles and their corresponding URLs from the search results
    results = driver.find_elements(By.CSS_SELECTOR, ".titleline a")

    # Create a list to hold title and URL data
    data = [{"Title": result.text, "URL": result.get_attribute("href")} for result in results]

    # Convert the data into a pandas DataFrame
    df = pd.DataFrame(data)

    # Display the DataFrame
    print(df)

    # Save the DataFrame to a CSV file (optional)
    df.to_csv("dune_search_results.csv", index=False)

finally:
    # Close the browser
    driver.quit()



Ejecución del Script:
    
Para ejecutar el script, asegúrate de que los contenedores de Docker estén corriendo y luego ejecuta el siguiente comando en la terminal:


In [None]:
docker-compose run --rm python python script.py 

### ENTREGABLES: 
* script.py: El archivo con el código para realizar el web scraping y extraer los títulos de las noticias.
* README.md: Instrucciones para ejecutar el proyecto.