## Ejercicio 1

Una de las fuentes de información más importante para tener el contexto de lo que ocurre en el día a día son las noticias. Muchas veces, la información disponible en ella es únicamente accesible a través de sus páginas web.

En esta actividad, explorarás cómo acceder al nombre de los autores, fecha, títulos y texto de artículos en CNN.

1. Accede a la siguiente [página](https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html). Utilizando el inspector de elementos observa las etiquetas empleadas para acceder al título, autor, fecha de publicación y texto del artículo.

2. Realiza la petición a `https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html` y emplea la función `BeautifulSoup` para poder obtener el objeto de exploración.

In [12]:
import requests
from bs4 import BeautifulSoup

# URL del artículo
url = 'https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html'

# Realizar la solicitud GET
response = requests.get(url)

# Verificar que la solicitud fue exitosa
if response.status_code == 200:
    # Crear el objeto BeautifulSoup
    soup = BeautifulSoup(response.content, 'html.parser')
else:
    print(f'Error al acceder a la página: {response.status_code}')


In [21]:
import requests
from bs4 import BeautifulSoup

# URL del artículo en CNN
url = 'https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html'

# Hacer la petición GET
response = requests.get(url)

# Verificar que la petición fue exitosa (código de estado 200)
if response.status_code == 200:
    # Crear el objeto BeautifulSoup con el contenido HTML de la respuesta
    soup = BeautifulSoup(response.content, 'html.parser')
    print("Objeto BeautifulSoup creado correctamente.")
else:
    print(f'Error al acceder a la página: código de estado {response.status_code}')


Objeto BeautifulSoup creado correctamente.


3. Accede al título del artículo.

In [20]:
# Intentar obtener el título
titulo = soup.find('h1')
if titulo:
    print('Título:', titulo.get_text(strip=True))

# Intentar obtener el autor
autor = soup.find('span', {'class': 'metadata__byline__author'})
if autor:
    print('Autor:', autor.get_text(strip=True))

# Intentar obtener la fecha de publicación
fecha = soup.find('p', {'class': 'update-time'})
if fecha:
    print('Fecha de publicación:', fecha.get_text(strip=True))

# Intentar obtener el texto del artículo
articulo = soup.find('div', {'class': 'l-container'})
if articulo:
    print('Texto del artículo:', articulo.get_text(strip=True))

Título: Uber says hacker group Lapsus$ behind cybersecurity incident


4. Accede a la fecha de actualización de artículo. Este se encuentra en un elemento `<p>` que pertenece a la clase `update-time`.

In [22]:
import requests
from bs4 import BeautifulSoup

# URL del artículo
url = 'https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html'

# Realizar la solicitud HTTP
response = requests.get(url)

# Crear objeto BeautifulSoup solo si la solicitud fue exitosa
if response.status_code == 200:
    soup = BeautifulSoup(response.content, 'html.parser')

    # Buscar el elemento <p> con clase 'update-time'
    fecha = soup.find('div', class_='timestamp vossi-timestamp')

    if fecha:
        print('Fecha de actualización:', fecha.get_text(strip=True))
    else:
        print('No se encontró la fecha de actualización.')
else:
    print(f'Error al acceder a la página: {response.status_code}')


Fecha de actualización: Updated
          3:11 PM EDT, Mon September 19, 2022


5. Accede al autor del artículo. Este se encuentra en un elemento `<span>` que pertenece a la clase `metadata__byline__author`. Observa el resultado al emplear `find_all()` para acceder únicamente al nombre del autor.

In [16]:
import requests
from bs4 import BeautifulSoup

# URL del artículo
url = 'https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html'

# Realizar la solicitud HTTP
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.content, 'html.parser')

    # Usando find_all() para obtener todos los <span> con la clase de autor
    autores = soup.find_all('span', class_='byline__name')

    if autores:
        # Extraer solo el nombre de cada autor
        nombres = [autor.get_text(strip=True) for autor in autores]
        print('Autor(es):', nombres)
    else:
        print('No se encontró el autor.')
else:
    print(f'Error al acceder a la página: {response.status_code}')


Autor(es): ['Brian Fung']


6. Accede al texto del artículo.

In [39]:
import requests
from bs4 import BeautifulSoup

# URL del artículo
url = 'https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html'

# Realizar la solicitud HTTP
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.content, 'html.parser')

    # Buscar el contenedor principal del artículo
    contenedor = soup.find('div', class_='article__content-container')

    if contenedor:
        # Obtener todos los párrafos dentro del contenedor
        parrafos = contenedor.find_all('p')

        # Extraer el texto de cada párrafo y unirlos
        texto_articulo = '\n'.join([p.get_text(strip=True) for p in parrafos])

        print(texto_articulo)
    else:
        print('No se encontró el contenedor del artículo.')
else:
    print(f'Error al acceder a la página: {response.status_code}')


Uber has linked the cybersecurity incident itdisclosed last weekto hackers affiliated with the Lapsus$ gang, a group accused of numerous high-profile corporate data breaches. The company also said the attackers were able to download or access company Slack messages and invoice-related data from an internal tool.
In ablog poston Monday, Uber(UBER)said the attackers first gained access to the company‚Äôs systems when they successfully convinced a contractor to grant a multi-factor authentication challenge. The contractor‚Äôs network password had likely been obtained separately on a dark web marketplace, Uber(UBER)said.
‚ÄúFrom there, the attacker accessed several other employee accounts which ultimately gave the attacker elevated permissions to a number of tools, including G-Suite and Slack,‚Äù the blog post said. ‚ÄúThe attacker then posted a message to a company-wide Slack channel, which many of you saw, and reconfigured Uber‚Äôs OpenDNS to display a graphic image to employees on some 

## Ejercicio 2
El objetivo de esta ejercicio es poner en práctica lo revisado sobre Web Scrapping con BeautifulSoup, así como el uso de expresiones regulares para procesar la información obtenida.


Complete las siguientes instrucciones de esta revisión:

1. Descargar, mediante la función get de la biblioteca requests, el contenido del siguiente sitio web:
https://archive.org/details/solarsystemcollection?&sort=-week




In [40]:
import requests
from bs4 import BeautifulSoup
import re

# URL a analizar
url = "https://archive.org/details/solarsystemcollection?&sort=-week"

# Hacemos la petición HTTP
response = requests.get(url)

# Verificamos que la petición fue exitosa
if response.status_code == 200:
    print("✅ Petición realizada correctamente.")
    # Creamos el objeto BeautifulSoup
    soup = BeautifulSoup(response.content, "html.parser")
else:
    print(f"❌ Error en la petición: {response.status_code}")


✅ Petición realizada correctamente.


2. Transformar a formato BeautifulSoup para identificar los elementos HTML.

In [41]:
import requests
from bs4 import BeautifulSoup

# URL del sitio
url = "https://archive.org/details/solarsystemcollection?&sort=-week"

# Petición al servidor
response = requests.get(url)

# Verificación del estado
if response.status_code == 200:
    print("✅ Petición realizada correctamente.")

    # Transformar la respuesta en un objeto BeautifulSoup
    soup = BeautifulSoup(response.content, "html.parser")

    # Mostramos un fragmento del HTML para inspección
    print(soup.prettify()[:1000])  # imprime solo los primeros 1000 caracteres
else:
    print(f"❌ Error en la petición: {response.status_code}")


✅ Petición realizada correctamente.
<!DOCTYPE html>
<html lang="en">
 <!--  __ _ _ _ __| |_ (_)__ _____
     / _` | '_/ _| ' \| |\ V / -_)
     \__,_|_| \__|_||_|_| \_/\___|-->
 <head>
  <!-- <base href="/"> is used by `router-slot` for routing -->
  <base href="/"/>
  <meta charset="utf-8"/>
  <link href="/offshoot_assets/favicon.ico" rel="icon"/>
  <link href="https://analytics.archive.org" rel="preconnect"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <meta content="Q2YSouphkkgHkFNP7FgAkc4TmBs1Gmag3uGNndb53B8" name="google-site-verification"/>
  <!-- bpjKvUv is for Wayback Gsheets -->
  <meta content="bpjKvUvsX0lxfmjg19TLblckWkDpnptZEYsBntApxUk" name="google-site-verification"/>
  <!-- Don't cache the html, otherwise browsers may try to load outdated javascript chunks, see:
          https://raphael-leger.medium.com/react-webpack-chunkloaderror-loading-chunk-x-failed-ac385bd110e0
        -->
  <meta content="no-cache" http-equiv="Pragma"/>
  <meta conte


3. Acceder a la página web a través de su navegador, seleccionar el nombre de una imagen y entrar en modo inspector para poder ver a qué etiqueta y a qué clase pertenece.

4. Encontrar todas las etiquetas "div" de la clase "ttl" usando la función find_all.

In [51]:
<div class="ttl">
   <a href="/details/...">drop-shadow</a>
</div>

SyntaxError: invalid syntax (ipython-input-39592522.py, line 1)

In [64]:
# Encontrar todas las etiquetas "div" de la clase "ttl"
ttl_elements = soup.find_all('div', class_='ttl')

# Imprimir la cantidad de elementos encontrados para verificar
print(f"Se encontraron {len(ttl_elements)} elementos con la clase 'ttl'.")

Se encontraron 0 elementos con la clase 'ttl'.


5. Mediante un ciclo for que itere sobre dichas etiquetas, extraer únicamente el texto que corresponde al nombre de la imagen, esto con la función .get_text().




In [63]:
import requests
from bs4 import BeautifulSoup

# URL de la colección
url = "https://archive.org/details/solarsystemcollection?&sort=-week"

# Hacemos la petición
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.content, "html.parser")

    # Encontrar todos los div con clase "ttl"
    titulos = soup.find_all("div", class_="ttl")

    # Iterar sobre cada título y extraer solo el texto
    for i, div in enumerate(titulos, 1):
        nombre = div.get_text(strip=True)
        print(f"{i}. {nombre}")
else:
    print(f"❌ Error en la petición: {response.status_code}")


6. Ahora obtendremos la cantidad de visualizaciones de cada elemento, para eso, primero hay que encontrar todas las etiquetas "nobr" de la clase "hidden-xs" usando la función find_all. Notar que esto nos regresa tanto la cantidad de visualizaciones como la fecha de archivo (date archived).

In [54]:
import requests
from bs4 import BeautifulSoup

# URL de la colección
url = "https://archive.org/details/solarsystemcollection?&sort=-week"

# Petición HTTP
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.content, "html.parser")

    # Encontrar todas las etiquetas <nobr> con clase "hidden-xs"
    datos = soup.find_all("nobr", class_="hidden-xs")

    # Mostramos los primeros 10 resultados
    for i, dato in enumerate(datos[:20], 1):
        print(f"{i}. {dato.get_text(strip=True)}")
else:
    print(f"❌ Error en la petición: {response.status_code}")


7. Mediante un ciclo for que itere sobre dichas etiquetas, extraer únicamente el texto que corresponde, en este caso, a la cantidad de visualizaciones y a la fecha de archivo, de nuevo, esto con la función .get_text().

In [62]:
import requests
from bs4 import BeautifulSoup

# URL de la colección
url = "https://archive.org/details/solarsystemcollection?&sort=-week"

# Hacer la petición HTTP
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.content, "html.parser")

    # Encontrar todas las etiquetas <nobr> con clase "hidden-xs"
    datos = soup.find_all("h4", class_="truncated")

    # Iterar de dos en dos para separar Views y Date Archived
    for i in range(0, len(datos), 2):
        views = datos[i].get_text(strip=True)
        fecha = datos[i+1].get_text(strip=True)
        print(f"Visualizaciones: {views} | Fecha de archivo: {fecha}")
else:
    print(f"❌ Error en la petición: {response.status_code}")


## Preguntas

Después de haber finalizado la ejecución de las instrucciones, contesta lo siguiente:

1. ¿Cuál es el tipo de estructura que regresa la función BeautifulSoup()?
* BeautifulSoup
* **bs4.BeautifulSoup**
* bs4.element.ResultSet


2. ¿Cuál es el tipo de estructura que regresa la función .find_all()?
* BeautifulSoup
* bs4.BeautifulSoup
* **bs4.element.ResultSet**

3. ¿Cuántos elementos obtuviste con el primer find_all?
* 776
* **150**
* 75


4. ¿Cuántos elementos obtuviste con el segundo find_all?
* 776
* **150**
* 75


5. Respecto a las vistas, ¿cuál es el valor máximo que obtuviste?
* 14,924
* **107,162**
* 170,837


6. Respecto a las fechas de archivado, ¿cuál es la fecha más reciente que obtuviste?
* Sep 17, 2009
* Apr 26, 2011
* **Jan 26, 2012**
