# Tarea: Web Scraping con Selenium y Docker
### Objetivo:

Aprender a utilizar Selenium junto con Docker para realizar web scraping y extraer información de una página web. En esta tarea, extraerás los títulos de noticias de una página web de tu elección o la proporcionada.

## Código de Web Scraping

## Ejercico 1:
A continuación, te proporciono un script en Python utilizando Selenium para obtener los títulos de noticias de una página web. En este caso, utilizaremos la página de noticias de "https://news.ycombinator.com/" como ejemplo.

Tu debes completar el script.py 

In [71]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options

# Configura las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conéctate al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://localhost:4444/wd/hub", # Me conecté localmente al grid de selenium
    options=chrome_options
)

# Abre la página de noticias 
driver.get("https://news.ycombinator.com/")

# Extrae los títulos de las noticias
titles = driver.find_elements(By.CLASS_NAME, "titleline")

# Imprime los títulos
for title in titles:
    print(title.text)

# Cierra el navegador
driver.quit()

Bringing K/V context quantisation to Ollama (smcleod.net)
Genie 2: A large-scale foundation world model (deepmind.google)
Message order in Matrix:, we are deliberately inconsistent (artificialworlds.net)
Sitters and Standers (pudding.cool)
They don't make them like that any more: the Yamaha DX7 keyboard (kevinboone.me)
AI helps researchers dig through old maps to find lost oil and gas wells (lbl.gov)
Show HN: Outerbase Studio – Open-Source Database GUI (github.com/outerbase)
C64 Basic Tutorial: Using String Manipulation to Write a Text Adventure (retrogamecoders.com)
Native dual-range input (muffinman.io)
The story of Rogue (spillhistorie.no)
WASM-4: Build retro games using WebAssembly for a fantasy console (wasm4.org)
Show HN: I combined spaced repetition with emails so you can remember anything (ginkgonotes.com)
Deploying Containers on NixOS: A Guide (bkiran.com)
My son (9 yrs old) used plain JavaScript to make a game, and wants your feedback (armaansahni.com)
Why America's economy i

Descripción del Código:

* Configuración de Selenium: Se configura Selenium con el navegador Chrome utilizando opciones específicas para ejecutarlo dentro de Docker.

* Acceso a la Página Web: El script se conecta a la página de noticias de "YCombinator" y carga el contenido.

* Extracción de Datos: Se utiliza find_elements con la clase storylink para obtener todos los títulos de las noticias en la página.

* Impresión de Resultados: Los títulos extraídos se imprimen en la consola.

Me conecté localmente para facilitar, uso el Grid de Selenium en el localhost (con Docker). Igualmente, cambié el `CLASS_NAME` a `"titleline"` para que si obruviera los títulos.

### Ejercicio 2:

* Buscar dentro de la página web alguno de los links de arriba (New, Past, etc) y ponerlo en un df

#### Primero mostramos los subtítulos de los los links de arriba

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import pandas as pd

# Configura las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conéctate al servidor Selenium Grid (como ya estás usando)
driver = webdriver.Remote(
    command_executor="http://localhost:4444/wd/hub",  # Conexión a Selenium Grid
    options=chrome_options
)

# Abre la página de Hacker News
driver.get("https://news.ycombinator.com/")

# Encuentra los enlaces de navegación superiores
nav_links = driver.find_elements(By.CSS_SELECTOR, "span.pagetop a")

# Crea una lista para almacenar los datos
data = []

# Extrae el texto y el enlace de cada elemento
for link in nav_links:
    text = link.text.strip()  # El texto visible del enlace
    href = link.get_attribute("href")  # La URL del enlace
    data.append({"Text": text, "Link": href})  # Guarda en el formato deseado

# Crea un DataFrame con los datos
df = pd.DataFrame(data)

# Cierra el navegador
driver.quit()

# Muestra el DataFrame
print(df)

# Guarda el DataFrame en un archivo CSV
df.to_csv("nav_links.csv", index=False)


          Text                                          Link
0  Hacker News             https://news.ycombinator.com/news
1          new           https://news.ycombinator.com/newest
2         past            https://news.ycombinator.com/front
3     comments      https://news.ycombinator.com/newcomments
4          ask              https://news.ycombinator.com/ask
5         show             https://news.ycombinator.com/show
6         jobs             https://news.ycombinator.com/jobs
7       submit           https://news.ycombinator.com/submit
8        login  https://news.ycombinator.com/login?goto=news


#### Luego, en past, hacemos click para entrar a la página y extraemos los datos en un dataframe.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import pandas as pd
import time

# Configura las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Conéctate al servidor Selenium Grid
driver = webdriver.Remote(
    command_executor="http://localhost:4444/wd/hub",  # Conexión a Selenium Grid
    options=chrome_options
)

# Abre la página de Hacker News
driver.get("https://news.ycombinator.com/")

# Haz clic en el enlace "Past"
past_link = driver.find_element(By.LINK_TEXT, "past")
past_link.click()

# Pausa breve para asegurar que la página cargue completamente
time.sleep(3)

# Encuentra las filas principales con los datos de las noticias
rows = driver.find_elements(By.CSS_SELECTOR, "tr.athing")

# Lista para almacenar los datos
data = []

# Itera sobre cada fila para extraer información
for row in rows:
    try:
        # Encuentra el título y su enlace
        title_element = row.find_element(By.CSS_SELECTOR, "span.titleline a")
        title_text = title_element.text.strip()
        title_link = title_element.get_attribute("href")

        # Intenta encontrar el autor y su enlace (si existe)
        try:
            author_element = row.find_element(By.CSS_SELECTOR, "span.sitestr")
            author_text = author_element.text.strip()
            author_link = author_element.find_element(By.XPATH, "..").get_attribute("href")
        except Exception:
            author_text = "N/A"
            author_link = "N/A"

        # Agrega los datos a la lista
        data.append({
            "Title": title_text,
            "Title Link": title_link,
            "Author": author_text,
            "Author Link": author_link
        })
    except Exception as e:
        print(f"Error procesando una fila: {e}")

# Cierra el navegador
driver.quit()

# Crea un DataFrame con los datos
df = pd.DataFrame(data)

# Muestra el DataFrame
print(df.head())

# Guarda el DataFrame en un archivo CSV
df.to_csv("past_news.csv", index=False)


                                               Title  \
0                                           IMG_0001   
1  A particle physics course for high-school stud...   
2      Genie 2: A large-scale foundation world model   
3  Glojure: Clojure interpreter hosted on Go, wit...   
4             How to grow professional relationships   

                                          Title Link                  Author  \
0                        https://walzr.com/IMG_0001/               walzr.com   
1                           https://ppc.web.cern.ch/                 cern.ch   
2  https://deepmind.google/discover/blog/genie-2-...         deepmind.google   
3             https://github.com/glojurelang/glojure  github.com/glojurelang   
4  https://tej.as/blog/how-to-grow-professional-r...                  tej.as   

                                         Author Link  
0   https://news.ycombinator.com/from?site=walzr.com  
1     https://news.ycombinator.com/from?site=cern.ch  
2  https://news.y

### Ejercicio 3:

* Buscar algo dentro la pagina en el apartado de "Search" y ponerlo en un df

In [68]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import pandas as pd
import time

# Configuración del navegador
chrome_options = Options()
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# Inicializar WebDriver
driver = webdriver.Remote(
    command_executor="http://localhost:4444/wd/hub",
    options=chrome_options
)

# Abrir la página de Hacker News
driver.get("https://news.ycombinator.com/")

# Buscar "cats" usando el cuadro de búsqueda
search_box = driver.find_element(By.XPATH, "//input[@name='q']")
search_box.clear()
search_box.send_keys("cats")
search_box.submit()

# Esperar a que se carguen los resultados
time.sleep(3)

# Inicializar estructura para almacenar los datos
data = {
    "Title": [],
    "Link": [],
    "Points": [],
    "Author": [],
    "Published": [],
    "Comments": []
}

# Extraer las historias basadas en los artículos <article>
articles = driver.find_elements(By.XPATH, "//article[@class='Story']")

for article in articles:
    try:
        # Localizar el elemento del título y el link
        title_element = article.find_element(By.XPATH, ".//div[@class='Story_title']//a")
        title = title_element.text.strip()
        link = title_element.get_attribute("href")
        
        # Metadatos
        meta = article.find_element(By.XPATH, ".//div[@class='Story_meta']")
        meta_links = meta.find_elements(By.TAG_NAME, "a")
        
        # Puntos
        points = meta_links[0].text.split()[0] if len(meta_links) > 0 else "0"
        
        # Autor
        author = meta_links[1].text if len(meta_links) > 1 else "Unknown"
        
        # Hace cuánto se publicó
        published = meta_links[2].text if len(meta_links) > 2 else "Unknown"
        
        # Comentarios
        comments = meta_links[3].text.split()[0] if len(meta_links) > 3 else "0"
        
        # Agregar los datos al diccionario
        data["Title"].append(title)
        data["Link"].append(link)
        data["Points"].append(points)
        data["Author"].append(author)
        data["Published"].append(published)
        data["Comments"].append(comments)
    
    except Exception as e:
        print(f"Error procesando un artículo: {e}")

# Crear el DataFrame
df = pd.DataFrame(data)

# Mostrar las primeras filas del DataFrame
print(df.head())

# Guardar el DataFrame como archivo CSV
df.to_csv("hacker_news_cats_with_metadata.csv", index=False)

# Cerrar el navegador
driver.quit()

                                               Title  \
0  The cats sitting on a fence in early builds of...   
1                               Programming for Cats   
2                                          HTTP Cats   
3                                          HTTP Cats   
4  Cats learn the names of their friend cats in t...   

                                            Link Points           Author  \
0  https://news.ycombinator.com/item?id=30438296    535              luu   
1  https://news.ycombinator.com/item?id=26047238    466  tigerlilythecat   
2  https://news.ycombinator.com/item?id=31438989    427         peterkos   
3  https://news.ycombinator.com/item?id=20283794    408        afshinmeh   
4  https://news.ycombinator.com/item?id=31396198    386        michaelwm   

     Published Comments  
0  3 years ago      157  
1  4 years ago      109  
2  3 years ago       63  
3  5 years ago       74  
4  3 years ago      219  


Ejecución del Script:
    
Para ejecutar el script, asegúrate de que los contenedores de Docker estén corriendo y luego ejecuta el siguiente comando en la terminal:


`docker-compose run --rm python python script.py`

### ENTREGABLES: 
* script.py: El archivo con el código para realizar el web scraping y extraer los títulos de las noticias.
* README.md: Instrucciones para ejecutar el proyecto.

# Mi entrega

Mi entrega se divide en los dos entregables, el script lo hice como un notebook (este notebook) que contiene el código para el web scrapping de los tres ejercicios y el README.md tiene las instrucciones para ejecutar el proyecto y la explicación del proyecto. Ambos documentos están en la carpeta 208450 (mi cu).