## Ejercicio 1

Una de las fuentes de información más importante para tener el contexto de lo que ocurre en el día a día son las noticias. Muchas veces, la información disponible en ella es únicamente accesible a través de sus páginas web.

En esta actividad, explorarás cómo acceder al nombre de los autores, fecha, títulos y texto de artículos en CNN.

1. Accede a la siguiente [página](https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html). Utilizando el inspector de elementos observa las etiquetas empleadas para acceder al título, autor, fecha de publicación y texto del artículo.

2. Realiza la petición a `https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html` y emplea la función `BeautifulSoup` para poder obtener el objeto de exploración.

In [1]:
import requests
from bs4 import BeautifulSoup

url = "https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html"

headers = {
    "User-Agent": "Mozilla/5.0"
}

response = requests.get(url, headers=headers)
response.raise_for_status()

soup = BeautifulSoup(response.text, "html.parser")

3. Accede al título del artículo.

In [2]:
titulo_tag = soup.find("h1", class_="headline__text inline-placeholder vossi-headline-text")
titulo = titulo_tag.get_text(strip=True) if titulo_tag else None
print("Título:", titulo)

Título: Uber says hacker group Lapsus$ behind cybersecurity incident


4. Accede a la fecha de actualización de artículo. Este se encuentra en un elemento `<p>` que pertenece a la clase `update-time`.

In [3]:
fecha_tag = soup.find("div", class_="timestamp vossi-timestamp")
fecha = fecha_tag.get_text(strip=True) if fecha_tag else None
print("Fecha de actualización:", fecha)

Fecha de actualización: Updated
          3:11 PM EDT, Mon September 19, 2022


5. Accede al autor del artículo. Este se encuentra en un elemento `<span>` que pertenece a la clase `metadata__byline__author`. Observa el resultado al emplear `find_all()` para acceder únicamente al nombre del autor.

In [4]:
autor_tag = soup.find("span", class_="byline__name")
autor = autor_tag.get_text(strip=True) if autor_tag else None
print("Autor:", autor)

Autor: Brian Fung


In [5]:
autores = soup.find_all("span", class_="byline__name")
print("Resultado de find_all para autor:", autores)
print("Nombres de autores extraídos:", [a.get_text(strip=True) for a in autores])

Resultado de find_all para autor: [<span class="byline__name">Brian Fung</span>]
Nombres de autores extraídos: ['Brian Fung']


6. Accede al texto del artículo.

In [6]:
cuerpo_tag = soup.find("div", class_="article__content")
if cuerpo_tag:
    parrafos = cuerpo_tag.find_all("p", class_="paragraph inline-placeholder vossi-paragraph")
    texto = "\n".join(p.get_text(strip=True) for p in parrafos)
else:
    texto = None

print("Texto del artículo:\n", texto)

Texto del artículo:
 Uber has linked the cybersecurity incident itdisclosed last weekto hackers affiliated with the Lapsus$ gang, a group accused of numerous high-profile corporate data breaches. The company also said the attackers were able to download or access company Slack messages and invoice-related data from an internal tool.
In ablog poston Monday, Uber(UBER)said the attackers first gained access to the company’s systems when they successfully convinced a contractor to grant a multi-factor authentication challenge. The contractor’s network password had likely been obtained separately on a dark web marketplace, Uber(UBER)said.
“From there, the attacker accessed several other employee accounts which ultimately gave the attacker elevated permissions to a number of tools, including G-Suite and Slack,” the blog post said. “The attacker then posted a message to a company-wide Slack channel, which many of you saw, and reconfigured Uber’s OpenDNS to display a graphic image to employees

## Ejercicio 2
El objetivo de esta ejercicio es poner en práctica lo revisado sobre Web Scrapping con BeautifulSoup, así como el uso de expresiones regulares para procesar la información obtenida.


Complete las siguientes instrucciones de esta revisión:

1. Descargar, mediante la función get de la biblioteca requests, el contenido del siguiente sitio web:
https://archive.org/details/solarsystemcollection?&sort=-week




2. Transformar a formato BeautifulSoup para identificar los elementos HTML.


3. Acceder a la página web a través de su navegador, seleccionar el nombre de una imagen y entrar en modo inspector para poder ver a qué etiqueta y a qué clase pertenece.

4. Encontrar todas las etiquetas "div" de la clase "ttl" usando la función find_all.

5. Mediante un ciclo for que itere sobre dichas etiquetas, extraer únicamente el texto que corresponde al nombre de la imagen, esto con la función .get_text().




6. Ahora obtendremos la cantidad de visualizaciones de cada elemento, para eso, primero hay que encontrar todas las etiquetas "nobr" de la clase "hidden-xs" usando la función find_all. Notar que esto nos regresa tanto la cantidad de visualizaciones como la fecha de archivo (date archived).

7. Mediante un ciclo for que itere sobre dichas etiquetas, extraer únicamente el texto que corresponde, en este caso, a la cantidad de visualizaciones y a la fecha de archivo, de nuevo, esto con la función .get_text().

## Preguntas

Después de haber finalizado la ejecución de las instrucciones, contesta lo siguiente:

1. ¿Cuál es el tipo de estructura que regresa la función BeautifulSoup()?
* BeautifulSoup
* bs4.BeautifulSoup
* bs4.element.ResultSet


2. ¿Cuál es el tipo de estructura que regresa la función .find_all()?
* BeautifulSoup
* bs4.BeautifulSoup
* bs4.element.ResultSet

3. ¿Cuántos elementos obtuviste con el primer find_all?
* 776
* 150
* 75


4. ¿Cuántos elementos obtuviste con el segundo find_all?
* 776
* 150
* 75


5. Respecto a las vistas, ¿cuál es el valor máximo que obtuviste?
* 14,924
* 107,162
* 170,837


6. Respecto a las fechas de archivado, ¿cuál es la fecha más reciente que obtuviste?
* Sep 17, 2009
* Apr 26, 2011
* Jan 26, 2012
