# Proyecto con Bsp: Proyecto CNN
Abner Casallo

En este proyecto queremos obtener los encabezados de todas las notas periodísticas y artículos de opinión de la siguiente página: https://cnnespanol.cnn.com/ 


In [22]:
from bs4 import BeautifulSoup
import pandas as pd
import requests
from datetime import datetime
##pip install

Ahora procedemos a ubicar la página y pedir la respuesta HTTP. Si sale 200 significa que todo está bien

In [23]:

URL = 'https://cnnespanol.cnn.com/'
page = requests.get(URL)
print(page)

<Response [200]>


## Método "find"
Procedemos a llevar el contenido de la página a formato Bsp4 y ubicar la etiqueta de interés. 
Para esto usaremos el método Find de la Librería Bs4, este nos devolverá el primer contenido que encuentre de la etiqueta (en este caso el primer "h2").

In [24]:
soup= BeautifulSoup(page.content)
elemento_primero= soup.find('h2', class_='news__title') ##, attrs={"aria-hidden": "true"} 
print(elemento_primero)


<h2 class="news__title">
<a href="https://cnnespanol.cnn.com/2023/09/06/encuesta-morena-candidata-orix/" title="Claudia Sheinbaum será la candidata de Morena, anuncia el partido">
				Claudia Sheinbaum será la candidata de Morena, anuncia el partido			</a>
</h2>


In [25]:
print(elemento_primero.text)



				Claudia Sheinbaum será la candidata de Morena, anuncia el partido			



## Método "find_all" 
Ahora que probamos que todo va bien con "find", buscaremos traer una lista de todos los h2 de la página. Para esto nos servirá "find_all".

In [26]:
todos_elementos= soup.find_all('h2', class_='news__title' ) ##, attrs={"aria-hidden": "true"} 
print(todos_elementos)

[<h2 class="news__title">
<a href="https://cnnespanol.cnn.com/2023/09/06/encuesta-morena-candidata-orix/" title="Claudia Sheinbaum será la candidata de Morena, anuncia el partido">
				Claudia Sheinbaum será la candidata de Morena, anuncia el partido			</a>
</h2>, <h2 class="news__title">
<a href="https://cnnespanol.cnn.com/2023/09/06/huracan-lee-vivo-trayectoria-ultima-hora-noticias-orix/" title="Lee se convierte en huracán">
				Lee se convierte en huracán			</a>
</h2>, <h2 class="news__title">
<a href="https://cnnespanol.cnn.com/2023/09/06/huracan-lee-categoria-5-atlantico-calido-trax/" title="El huracán Lee sigue ganando fuerza y puede alcanzar categoría 5">
				El huracán Lee sigue ganando fuerza y puede alcanzar categoría 5			</a>
</h2>, <h2 class="news__title">
<a href="https://cnnespanol.cnn.com/2023/09/06/aborto-mexico-suprema-corte-despenalizacion-trax/" title="Suprema Corte de México despenaliza el aborto en todo el país">
				Suprema Corte de México despenaliza el aborto en

En este caso, el resultado es una lista. Por lo tanto tenemos que acceder a un bucle para acceder a cada elemento de la lista y aplicar el método "text" para extraer los textos. Pondremos todos los textos en una lista de forma rápida comprensión de listas.

In [27]:
todos_elementos_text=[item.text for item in todos_elementos]
print(todos_elementos_text)

['\n\n\t\t\t\tClaudia Sheinbaum será la candidata de Morena, anuncia el partido\t\t\t\n', '\n\n\t\t\t\tLee se convierte en huracán\t\t\t\n', '\n\n\t\t\t\tEl huracán Lee sigue ganando fuerza y puede alcanzar categoría 5\t\t\t\n', '\n\n\t\t\t\tSuprema Corte de México despenaliza el aborto en todo el país\t\t\t\n', '\n\n\t\t\t\tServicios de seguridad privada crecen ante ola criminal\t\t\t\n', '\n\n\t\t\t\t¿Qué países de América Latina no han tenido presidentas?\t\t\t\n', '\n\n\t\t\t\tConducir bajo el efecto de marihuana está relacionado con más accidentes\t\t\t\n', '\n\n\t\t\t\tPrimera fecha de las Eliminatorias sudamericanas: previa, calendario y hora\t\t\t\n', '\n\n\t\t\t\tSheinbaum celebra: "Va a haber presidenta y será de la 4T"\t\t\t\n', '\n\n\t\t\t\tSentencian al expresidente Otto Pérez Molina a 8 años de prisión\t\t\t\n', '\n\n\t\t\t\tTom Brady tiene un nuevo trabajo... en una aerolínea\t\t\t\n', '\n\n\t\t\t\tSheinbaum celebra: "Va a haber presidenta y será de la 4T"\t\t\t\n', '\n\

## Limpieza

Como pueden observar, hay impurezas en la extracción de los datos. Esto es algo muy común en el webscraping. Necesitamos una limpieza posterior. En este caso es algo sencillo. Usaremos otra comprensión de listas:

In [28]:
textos_limpios = [texto.strip("\n\t") for texto in todos_elementos_text]
print(textos_limpios)



['Claudia Sheinbaum será la candidata de Morena, anuncia el partido', 'Lee se convierte en huracán', 'El huracán Lee sigue ganando fuerza y puede alcanzar categoría 5', 'Suprema Corte de México despenaliza el aborto en todo el país', 'Servicios de seguridad privada crecen ante ola criminal', '¿Qué países de América Latina no han tenido presidentas?', 'Conducir bajo el efecto de marihuana está relacionado con más accidentes', 'Primera fecha de las Eliminatorias sudamericanas: previa, calendario y hora', 'Sheinbaum celebra: "Va a haber presidenta y será de la 4T"', 'Sentencian al expresidente Otto Pérez Molina a 8 años de prisión', 'Tom Brady tiene un nuevo trabajo... en una aerolínea', 'Sheinbaum celebra: "Va a haber presidenta y será de la 4T"', 'Claudia Sheinbaum, la virtual candidata de Morena para la elección de 2024', '"Esto debe reponerse", pide Ebrard sobre el proceso interno de Morena', '¿Qué significa que la Suprema Corte de México haya despenalizado el aborto?', 'Avión debió d

In [29]:
fecha_actual = datetime.now().strftime("%Y-%m-%d %H:%M:%S")

# Crear un DataFrame
df = pd.DataFrame({"Textos": textos_limpios})

df.rename(columns={"Textos": fecha_actual }, inplace=True)

In [30]:
print(df)

                                   2023-09-06 23:31:39
0    Claudia Sheinbaum será la candidata de Morena,...
1                          Lee se convierte en huracán
2    El huracán Lee sigue ganando fuerza y puede al...
3    Suprema Corte de México despenaliza el aborto ...
4    Servicios de seguridad privada crecen ante ola...
..                                                 ...
115  Frida Ghitis: "Putin ha enviado una amenaza a ...
116  OPINIÓN | Los vecinos de Rusia tienen un mensa...
117         FOTOS | Los famosos que han muerto en 2023
118  FOTOS | Las mejores imágenes de la coronación ...
119  Históricas imágenes de la Cena de Corresponsal...

[120 rows x 1 columns]


In [31]:
import requests
from bs4 import BeautifulSoup

# URL de la página web
url = 'https://cnnespanol.cnn.com/'

# Realiza la solicitud HTTP
response = requests.get(url)

# Verifica si la solicitud fue exitosa (código de estado 200)
if response.status_code == 200:
    # Parsea el HTML de la página
    soup = BeautifulSoup(response.text, 'html.parser')

    # Encuentra todos los elementos "h2" con la clase "news__title"
    news_titles = soup.find_all('h2', class_='news__title')

    # Itera sobre los elementos y muestra los títulos de noticias
    for title in news_titles:
        print(title.text)
else:
    print("No se pudo acceder a la página")





				Claudia Sheinbaum será la candidata de Morena, anuncia el partido			



				Lee se convierte en huracán			



				El huracán Lee sigue ganando fuerza y puede alcanzar categoría 5			



				Suprema Corte de México despenaliza el aborto en todo el país			



				Servicios de seguridad privada crecen ante ola criminal			



				¿Qué países de América Latina no han tenido presidentas?			



				Conducir bajo el efecto de marihuana está relacionado con más accidentes			



				Primera fecha de las Eliminatorias sudamericanas: previa, calendario y hora			



				Sheinbaum celebra: "Va a haber presidenta y será de la 4T"			



				Sentencian al expresidente Otto Pérez Molina a 8 años de prisión			



				Tom Brady tiene un nuevo trabajo... en una aerolínea			



				Sheinbaum celebra: "Va a haber presidenta y será de la 4T"			



				Claudia Sheinbaum, la virtual candidata de Morena para la elección de 2024			



				"Esto debe reponerse", pide Ebrard sobre el proceso interno de Morena	