## Ejercicio 1

Una de las fuentes de información más importante para tener el contexto de lo que ocurre en el día a día son las noticias. Muchas veces, la información disponible en ella es únicamente accesible a través de sus páginas web.

En esta actividad, explorarás cómo acceder al nombre de los autores, fecha, títulos y texto de artículos en CNN.

1. Accede a la siguiente [página](https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html). Utilizando el inspector de elementos observa las etiquetas empleadas para acceder al título, autor, fecha de publicación y texto del artículo.

2. Realiza la petición a `https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html` y emplea la función `BeautifulSoup` para poder obtener el objeto de exploración.

In [38]:
import requests
from bs4 import BeautifulSoup

In [2]:
url = "https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

3. Accede al título del artículo.

In [4]:
title = soup.find('h1', class_='headline__text').text
title

'\n      Uber says hacker group Lapsus$ behind cybersecurity incident\n    '

4. Accede a la fecha de actualización de artículo. Este se encuentra en un elemento `<p>` que pertenece a la clase `update-time`.

In [8]:
last_updated = soup.find('div', class_='timestamp').text.strip()
last_updated

'Updated\n          3:11 PM EDT, Mon September 19, 2022'

5. Accede al autor del artículo. Este se encuentra en un elemento `<span>` que pertenece a la clase `metadata__byline__author`. Observa el resultado al emplear `find_all()` para acceder únicamente al nombre del autor.

In [10]:
authors = soup.find_all('span', class_='byline__name')
authors

[<span class="byline__name">Brian Fung</span>]

6. Accede al texto del artículo.

In [11]:
article_text = soup.find('div', class_='article__content').text.strip()
article_text

'Washington\nCNN Business\n        \xa0—\xa0\n    \n\n\n            Uber has linked the cybersecurity incident it disclosed last week to hackers affiliated with the Lapsus$ gang, a group accused of numerous high-profile corporate data breaches. The company also said the attackers were able to download or access company Slack messages and invoice-related data from an internal tool.\n    \n\n            In a blog post on Monday, Uber\n            \n                (UBER) said the attackers first gained access to the company’s systems when they successfully convinced a contractor to grant a multi-factor authentication challenge. The contractor’s network password had likely been obtained separately on a dark web marketplace, Uber\n            \n                (UBER) said.\n    \n\n            “From there, the attacker accessed several other employee accounts which ultimately gave the attacker elevated permissions to a number of tools, including G-Suite and Slack,” the blog post said. “The

## Ejercicio 2
El objetivo de esta ejercicio es poner en práctica lo revisado sobre Web Scrapping con BeautifulSoup, así como el uso de expresiones regulares para procesar la información obtenida.


Complete las siguientes instrucciones de esta revisión:

1. Descargar, mediante la función get de la biblioteca requests, el contenido del siguiente sitio web:
https://archive.org/details/solarsystemcollection?&sort=-week




In [11]:
import requests
from bs4 import BeautifulSoup

# Se cambia el url por RSS para obtener xml del contenido
url = "https://archive.org/services/collection-rss.php?collection=solarsystemcollection&sort=-week"
response = requests.get(url)
response.raise_for_status()

soup = BeautifulSoup(response.content, 'lxml-xml')

2. Transformar a formato BeautifulSoup para identificar los elementos HTML.

In [12]:
soup

<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:creativeCommons="http://backend.userland.com/creativeCommonsRssModule" xmlns:media="http://search.yahoo.com/mrss/">
<channel>
<link>https://archive.org/details/solarsystemcollection</link>
<title>Internet Archive - Collection: solarsystemcollection</title>
<description>The most recent additions to the Internet Archive collections.  This RSS feed is generated dynamically</description>
<webMaster>info@archive.org (Info Box)</webMaster>
<pubDate>Tue, 30 Sep 2025 04:18:47 GMT</pubDate>
<image>
<url>https://archive.org/images/glogo.png</url>
<title>Internet Archive - Collection: solarsystemcollection</title>
<link>https://archive.org/details/solarsystemcollection</link>
</image>
<item>
<title>01.19.12 M3.2 Solar Flare and CME</title>
<media:title>01.19.12 M3.2 Solar Flare and CME</media:title>
<description>&lt;img width="160" style="padding-right:3px;float:left;" src="https://archive.org/services/get-item-image.php?identifier=6


3. Acceder a la página web a través de su navegador, seleccionar el nombre de una imagen y entrar en modo inspector para poder ver a qué etiqueta y a qué clase pertenece.

4. Encontrar todas las etiquetas "div" de la clase "ttl" usando la función find_all.

In [13]:
# etiquetas <title> dentro de <item> en el xml
items = soup.find_all('item')
items


[<item>
 <title>01.19.12 M3.2 Solar Flare and CME</title>
 <media:title>01.19.12 M3.2 Solar Flare and CME</media:title>
 <description>&lt;img width="160" style="padding-right:3px;float:left;" src="https://archive.org/services/get-item-image.php?identifier=617046main_M3&amp;mediatype=image&amp;collection=solarsystemcollection"/&gt;&lt;p&gt;Still from video of Jan 19, 2012 long duration solar flare and coronal mass ejection (CME) which is expect to reach Earth on Jan 21, 2012. Credit: NASA/SDO &amp;rsaquo; Link to associated news item.&lt;/p&gt;&lt;p&gt;This item belongs to: image/solarsystemcollection.&lt;/p&gt;&lt;p&gt;This item has files of the following types: Archive BitTorrent, Item Tile, JPEG, JPEG Thumb, Metadata&lt;/p&gt;</description>
 <link>https://archive.org/details/617046main_M3</link>
 <guid>https://archive.org/details/617046main_M3</guid>
 <pubDate>Thu, 26 Jan 2012 19:48:31 GMT</pubDate>
 <creativeCommons:license>http://www.nasaimages.org/Terms.html</creativeCommons:licen

5. Mediante un ciclo for que itere sobre dichas etiquetas, extraer únicamente el texto que corresponde al nombre de la imagen, esto con la función .get_text().




In [None]:
for item in items:
    title = item.find('title').get_text()
    print(title)


01.19.12 M3.2 Solar Flare and CME
SDO Sees Comet Lovejoy Survive Close Solar Encounter
SDO's View of Comet Lovejoy Solar Approach
Comet Lovejoy Survived its Rendezvous with the Sun
STEREO's View of Comet Lovejoy Solar Approach
SOHO Pick of the Week -- 500
Comet Lovejoy
Two Different Launches on Nov. 26, 2011
CME Accompanies MSL Launch
Cut-away Diagram of Earth's Interior
Representation of Earth's Invisible Magnetic Field
SDO Captures X1.9 Class Solar Flare
Six CMEs in 24 Hours
SDO Witnesses X1.4 Class Solar Flare
Aurora Image from Arrival of Combine CMEs
Sun Unleases X7 Class Flare
Friday Night M9.3 Light
Last Picture of Atlantis in Space - Zoom
Last Picture of Atlantis in Space
SOHO C2's View of June 7 CME
Sun Grazing Comet
Voyager Spacecraft
Terrestrial Atmosphere ITM Processes
Interface Region Imaging Spectrograph (IRIS)
An Eruptive Solar Prominence
Sunspot Prediction for Solar Cycle 24
Technological Affects of Space Weather Events
Collage of Solar Cycle 23
Kuiper Belt of Many Color

6. Ahora obtendremos la cantidad de visualizaciones de cada elemento, para eso, primero hay que encontrar todas las etiquetas "nobr" de la clase "hidden-xs" usando la función find_all. Notar que esto nos regresa tanto la cantidad de visualizaciones como la fecha de archivo (date archived).

7. Mediante un ciclo for que itere sobre dichas etiquetas, extraer únicamente el texto que corresponde, en este caso, a la cantidad de visualizaciones y a la fecha de archivo, de nuevo, esto con la función .get_text().

In [15]:
for item in items:
    pub_date = item.find('pubDate').get_text()
    print(pub_date)

Thu, 26 Jan 2012 19:48:31 GMT
Thu, 26 Jan 2012 19:47:10 GMT
Thu, 26 Jan 2012 19:47:10 GMT
Thu, 26 Jan 2012 19:47:09 GMT
Thu, 26 Jan 2012 19:47:03 GMT
Thu, 26 Jan 2012 19:47:02 GMT
Thu, 26 Jan 2012 19:46:48 GMT
Thu, 26 Jan 2012 19:45:37 GMT
Thu, 26 Jan 2012 19:45:34 GMT
Thu, 26 Jan 2012 19:44:46 GMT
Thu, 26 Jan 2012 19:44:44 GMT
Thu, 26 Jan 2012 19:41:52 GMT
Thu, 26 Jan 2012 19:38:20 GMT
Thu, 26 Jan 2012 19:37:56 GMT
Thu, 26 Jan 2012 19:33:25 GMT
Thu, 26 Jan 2012 19:33:17 GMT
Thu, 26 Jan 2012 19:32:43 GMT
Thu, 26 Jan 2012 19:32:18 GMT
Thu, 26 Jan 2012 19:32:12 GMT
Thu, 26 Jan 2012 19:32:07 GMT
Thu, 26 Jan 2012 19:32:00 GMT
Thu, 26 Jan 2012 19:30:45 GMT
Thu, 26 Jan 2012 19:24:48 GMT
Thu, 26 Jan 2012 19:23:41 GMT
Thu, 26 Jan 2012 19:22:43 GMT
Thu, 26 Jan 2012 19:22:42 GMT
Thu, 26 Jan 2012 19:22:42 GMT
Thu, 26 Jan 2012 19:22:37 GMT
Thu, 26 Jan 2012 19:22:01 GMT
Thu, 26 Jan 2012 19:21:57 GMT
Thu, 26 Jan 2012 19:21:57 GMT
Thu, 26 Jan 2012 19:21:54 GMT
Thu, 26 Jan 2012 19:21:53 GMT
Thu, 26 Ja

## Preguntas

Después de haber finalizado la ejecución de las instrucciones, contesta lo siguiente:

1. ¿Cuál es el tipo de estructura que regresa la función BeautifulSoup()?
* BeautifulSoup
* bs4.BeautifulSoup
* bs4.element.ResultSet


2. ¿Cuál es el tipo de estructura que regresa la función .find_all()?
* BeautifulSoup
* bs4.BeautifulSoup
* bs4.element.ResultSet

3. ¿Cuántos elementos obtuviste con el primer find_all?
* 776
* 150
* 75


4. ¿Cuántos elementos obtuviste con el segundo find_all?
* 776
* 150
* 75


5. Respecto a las vistas, ¿cuál es el valor máximo que obtuviste?
* 14,924
* 107,162
* 170,837


6. Respecto a las fechas de archivado, ¿cuál es la fecha más reciente que obtuviste?
* Sep 17, 2009
* Apr 26, 2011
* Jan 26, 2012
