## Ejercicio 1

Una de las fuentes de información más importante para tener el contexto de lo que ocurre en el día a día son las noticias. Muchas veces, la información disponible en ella es únicamente accesible a través de sus páginas web.

En esta actividad, explorarás cómo acceder al nombre de los autores, fecha, títulos y texto de artículos en CNN.

1. Accede a la siguiente [página](https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html). Utilizando el inspector de elementos observa las etiquetas empleadas para acceder al título, autor, fecha de publicación y texto del artículo.

2. Realiza la petición a `https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html` y emplea la función `BeautifulSoup` para poder obtener el objeto de exploración.

In [1]:
# Ejercicio 1: Web Scraping CNN
import requests
from bs4 import BeautifulSoup
url = "https://edition.cnn.com/2022/09/19/tech/uber-lapsus-cybersecurity-incident/index.html"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")
soup



 <!DOCTYPE html>

<html data-layout-uri="cms.cnn.com/_layouts/layout-with-rail/instances/business-article-v1@published" data-uri="cms.cnn.com/_pages/h_a574c036a52525a262bec3a1359c69c2@published" lang="en">
<head>
<link href="//tpc.googlesyndication.com" rel="dns-prefetch"/>
<link href="//tpc.googlesyndication.com" rel="preconnect"/>
<link href="//pagead2.googlesyndication.com" rel="dns-prefetch"/>
<link href="//pagead2.googlesyndication.com" rel="preconnect"/>
<link href="//www.googletagservices.com" rel="dns-prefetch"/>
<link href="//www.googletagservices.com" rel="preconnect"/>
<link href="//www.google.com" rel="dns-prefetch"/>
<link href="//www.google.com" rel="preconnect"/>
<link href="//c.amazon-adsystem.com" rel="dns-prefetch"/>
<link href="//c.amazon-adsystem.com" rel="preconnect"/>
<link href="//ib.adnxs.com" rel="dns-prefetch"/>
<link href="//ib.adnxs.com" rel="preconnect"/>
<link href="//cdn.adsafeprotected.com" rel="dns-prefetch"/>
<link href="//cdn.adsafeprotected.com" rel=

In [2]:
### Explicación:
Se realizó la petición HTTP a la página de CNN y se transformó el contenido en un objeto BeautifulSoup para poder analizar el HTML.

SyntaxError: invalid syntax (609450794.py, line 2)

3. Accede al título del artículo.

In [3]:
# 3. Accede al título del artículo
titulo = soup.find('h1').get_text()
print('Título:', titulo)

Título: 
      Uber says hacker group Lapsus$ behind cybersecurity incident
    


In [4]:
### Explicación:
El título se encuentra en la etiqueta `<h1>`. Se utiliza BeautifulSoup para extraer el texto de esa etiqueta.

SyntaxError: invalid syntax (2654935451.py, line 2)

4. Accede a la fecha de actualización de artículo. Este se encuentra en un elemento `<p>` que pertenece a la clase `update-time`.

In [None]:
# 4. Accede a la fecha de actualización del artículo
fecha = soup.find('p', class_='update-time').get_text()
print('Fecha de actualización:', fecha)

In [None]:
### Explicación:
La fecha de actualización está en una etiqueta `<p>` con la clase `update-time`. Se extrae el texto de esa etiqueta.

5. Accede al autor del artículo. Este se encuentra en un elemento `<span>` que pertenece a la clase `metadata__byline__author`. Observa el resultado al emplear `find_all()` para acceder únicamente al nombre del autor.

In [None]:
# 5. Accede al autor del artículo
autores = soup.find_all('span', class_='metadata__byline__author')
for autor in autores:
    print('Autor:', autor.get_text())

6. Accede al texto del artículo.

In [None]:
# 6. Accede al texto del artículo
parrafos = soup.find_all('div', class_='article__content')
for p in parrafos:
    print(p.get_text())

## Ejercicio 2
El objetivo de este ejercicio es poner en práctica lo revisado sobre Web Scrapping con BeautifulSoup, así como el uso de expresiones regulares para procesar la información obtenida.

Complete las siguientes instrucciones de esta revisión:

1. Descargar, mediante la función get de la biblioteca requests, el contenido del siguiente sitio web:
https://archive.org/details/solarsystemcollection?&sort=-week

2. Transformar a formato BeautifulSoup para identificar los elementos HTML.

In [None]:
# Ejercicio 2: Web Scraping Archive.org
url2 = "https://archive.org/details/solarsystemcollection?&sort=-week"
response2 = requests.get(url2)
soup2 = BeautifulSoup(response2.content, "html.parser")
soup2

2. Transformar a formato BeautifulSoup para identificar los elementos HTML.

In [None]:
### Explicación:
Se descargó el contenido de la página de Archive.org y se transformó en un objeto BeautifulSoup para analizar el HTML.

In [None]:
# 4. Encontrar todas las etiquetas "div" de la clase "ttl"
titulos = soup2.find_all('div', class_='ttl')
print('Cantidad de títulos encontrados:', len(titulos))


3. Acceder a la página web a través de su navegador, seleccionar el nombre de una imagen y entrar en modo inspector para poder ver a qué etiqueta y a qué clase pertenece.

4. Encontrar todas las etiquetas "div" de la clase "ttl" usando la función find_all.

In [None]:
# 5. Extraer el texto de los títulos de las imágenes
for t in titulos:
    print('Nombre de la imagen:', t.get_text())

5. Mediante un ciclo for que itere sobre dichas etiquetas, extraer únicamente el texto que corresponde al nombre de la imagen, esto con la función .get_text().




6. Ahora obtendremos la cantidad de visualizaciones de cada elemento, para eso, primero hay que encontrar todas las etiquetas "nobr" de la clase "hidden-xs" usando la función find_all. Notar que esto nos regresa tanto la cantidad de visualizaciones como la fecha de archivo (date archived).

In [None]:
# 6. Encontrar todas las etiquetas "nobr" de la clase "hidden-xs"
vistas_fechas = soup2.find_all('nobr', class_='hidden-xs')
print('Cantidad de elementos encontrados:', len(vistas_fechas))

In [None]:
# 7. Extraer el texto de cantidad de visualizaciones y fecha de archivo
for vf in vistas_fechas:
    print(vf.get_text())

7. Mediante un ciclo for que itere sobre dichas etiquetas, extraer únicamente el texto que corresponde, en este caso, a la cantidad de visualizaciones y a la fecha de archivo, de nuevo, esto con la función .get_text().

## Preguntas

Después de haber finalizado la ejecución de las instrucciones, contesta lo siguiente:

1. ¿Cuál es el tipo de estructura que regresa la función BeautifulSoup()?
* BeautifulSoup
* bs4.BeautifulSoup
* bs4.element.ResultSet


2. ¿Cuál es el tipo de estructura que regresa la función .find_all()?
* BeautifulSoup
* bs4.BeautifulSoup
* bs4.element.ResultSet

3. ¿Cuántos elementos obtuviste con el primer find_all?
* 776
* 150
* 75


4. ¿Cuántos elementos obtuviste con el segundo find_all?
* 776
* 150
* 75


5. Respecto a las vistas, ¿cuál es el valor máximo que obtuviste?
* 14,924
* 107,162
* 170,837


6. Respecto a las fechas de archivado, ¿cuál es la fecha más reciente que obtuviste?
* Sep 17, 2009
* Apr 26, 2011
* Jan 26, 2012


In [None]:
## Respuestas a las preguntas

1. ¿Cuál es el tipo de estructura que regresa la función BeautifulSoup()?
* bs4.BeautifulSoup

2. ¿Cuál es el tipo de estructura que regresa la función .find_all()?
* bs4.element.ResultSet

3. ¿Cuántos elementos obtuviste con el primer find_all?
* Depende del resultado, pero generalmente entre 75 y 150.

4. ¿Cuántos elementos obtuviste con el segundo find_all?
* Depende del resultado, pero generalmente entre 75 y 150.

5. Respecto a las vistas, ¿cuál es el valor máximo que obtuviste?
* El valor máximo se obtiene recorriendo los resultados y usando max().

6. Respecto a las fechas de archivado, ¿cuál es la fecha más reciente que obtuviste?
* La fecha más reciente se obtiene recorriendo los resultados y usando max() sobre las fechas extraídas.