## Construir un dataset haciendo web scraping de páginas web de su elección.
- Definir 4 categorías de noticias/artículos.
- Para cada categoría, extraer los siguientes datos de 10 noticias diferentes:
 - url (sitio web donde se publicó el artículo)
 - título (título del artículo) ○ texto (contenido del artículo)
#### Recomendaciones: 
Elegir blogs para evitar los límites de lectura para los medios que exigen suscripción. Investigue sobre el archivo robots.txt y téngalo en cuenta. 
#### Considere
también espaciar las consultas para evitar saturar el sitio.
Utilizando los datos obtenidos construya el dataset en formato csv.

Categorias elegidas
- Deporte
- Economia
- Salud
- Inteligencia artificial


In [1]:
import warnings

warnings.filterwarnings("ignore")

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from obtener_noticias import scrap_page

df = pd.read_csv("./noticias.csv", delimiter=",")

def agregar_text_title(url, titulo, texto, categoria):
    global df
    # Crear una nueva fila como un diccionario
    nueva_fila = {'url': url,'titulo': titulo, 'texto': texto, 'categoria': categoria}

    # Usar el método append para agregar la nueva fila al DataFrame
    df = df.append(nueva_fila, ignore_index=True)


def title_text(url, categoria):
    #Acá voy a tener una lista de urls, la recorro y hago esto para cada noticia
    # URL de la página a la que deseas hacer web scraping
    #Aca lo cargo a la fila del csv en df["url"]


    # Realiza una solicitud GET a la página
    response = requests.get(url)

    # Verifica si la solicitud fue exitosa (código 200)
    if response.status_code == 200:
        # Parsea el contenido HTML de la página usando BeautifulSoup
        soup = BeautifulSoup(response.text, 'html.parser')

        # Encuentra el elemento HTML que contiene el título
        # Ajusta el selector CSS según la estructura de la página
        title_element = soup.find('h1', class_='article-headline')

        # Extrae y muestra el texto del título
        title_text = title_element.text.strip()
        #print(f'Título: {title_text}')

        # Encuentra los elementos HTML que son párrafos
        # En este caso, simplemente buscamos todos los elementos <p> en la página
        paragraph_elements = soup.find_all('p', class_='paragraph')

        texto = ""
        # Itera a través de los elementos y muestra el texto de los párrafos
        for paragraph_element in paragraph_elements:
            # Extrae y muestra el texto del párrafo
            paragraph_text = paragraph_element.text.strip()
            texto = texto + paragraph_text

        #print(texto)
        agregar_text_title(url, title_text, texto, categoria)

    else:
        print(f'Error al obtener la página. Código de estado: {response.status_code}')
# lista_url = ['https://www.infobae.com/economia/2023/10/23/por-que-se-mantiene-la-presion-cambiaria-a-pesar-de-que-se-alejo-la-posibilidad-del-plan-de-dolarizacion-de-milei/']

categoria = ["economia", "deportes", "salud", "tecno"]

for categ in categoria:
    noticias = scrap_page(categ)
    for url in noticias:
        title_text(url, categ)

['https://www.infobae.com//salud/2023/10/29/es-bueno-o-malo-ingerir-fruta-con-el-estomago-vacio-que-dice-la-ciencia/', 'https://www.infobae.com//salud/2023/10/28/iluminaran-monumentos-en-todo-el-pais-para-concientizar-sobre-el-acv-y-su-tratamiento-adecuado/', 'https://www.infobae.com//salud/2023/10/27/tres-senales-del-organismo-que-indican-un-consumo-excesivo-de-cafeina/', 'https://www.infobae.com//salud/2023/10/28/cuales-son-los-alimentos-que-no-deben-faltar-en-una-dieta-para-que-el-cabello-crezca-sano-y-fuerte/', 'https://www.infobae.com//salud/2023/10/23/el-secreto-de-una-vida-longeva-por-que-los-buenos-habitos-no-son-suficiente-para-vivir-100-anos/', 'https://www.infobae.com//salud/2023/10/29/mas-del-90-de-casos-de-acv-se-pueden-prevenir-cuales-son-las-claves-para-evitar-la-muerte-o-la-discapacidad/', 'https://www.infobae.com//salud/2023/10/29/por-que-algunas-personas-siempre-llegan-tarde-y-como-ser-mas-puntuales/', 'https://www.infobae.com//salud/2023/10/29/acv-en-menores-de-50-an

In [7]:
df.loc[df['categoria'] == 'salud']

Unnamed: 0,url,categoria,titulo,texto
55,https://www.infobae.com//salud/2023/10/29/es-b...,salud,Es bueno o malo ingerir fruta con el estómago ...,El consumo de frutas ayuda a disminuir el ries...
56,https://www.infobae.com//salud/2023/10/28/ilum...,salud,Iluminarán monumentos en todo el país para con...,"En 17 ciudades del país, más de 25 monumentos ..."
57,https://www.infobae.com//salud/2023/10/27/tres...,salud,Tres señales del organismo que indican un cons...,El placer de tomar café es algo que puede expe...
58,https://www.infobae.com//salud/2023/10/28/cual...,salud,Cuáles son los alimentos que no deben faltar e...,Las dietas restrictivas en las que se reduce l...
59,https://www.infobae.com//salud/2023/10/23/el-s...,salud,El secreto de una vida longeva: por qué los bu...,Los buenos hábitos que debemos hacer todos los...
60,https://www.infobae.com//salud/2023/10/29/mas-...,salud,Más del 90% de casos de ACV se pueden prevenir...,"Todos los 29 de octubre, desde 2006, se conmem..."
61,https://www.infobae.com//salud/2023/10/29/por-...,salud,Por qué algunas personas siempre llegan tarde ...,Mientras que para algunos la puntualidad es ca...
62,https://www.infobae.com//salud/2023/10/29/acv-...,salud,ACV en menores de 50 años: las razones detrás ...,El accidente cerebrovascular o ACV es una emer...
63,https://www.infobae.com//salud/2023/10/29/dia-...,salud,Día Mundial de la Psoriasis: cómo es esta enfe...,La psoriasis es una enfermedad de la piel con ...
64,https://www.infobae.com//salud/2023/10/29/reco...,salud,Reconocer y prevenir el ACV: síntomas y la imp...,El accidente cerebrovascular (ACV) es una afec...


In [12]:
noticias = scrap_page("espana")
noticias

['https://www.infobae.com//espana/agencias/2023/10/29/feijoo-a-esta-izquierda-constitucionalista-ya-no-la-conoce-ni-la-madre-que-la-pario/',
 'https://www.infobae.com//espana/2023/10/29/abascal-duplica-a-feijoo-unas-100000-personas-acuden-a-la-manifestacion-contra-la-amnistia-convocada-por-vox/',
 'https://www.infobae.com//espana/2023/10/29/bellingham-ya-mira-de-tu-a-tu-a-cristiano-ronaldo-y-di-stefano/',
 'https://www.infobae.com//espana/2023/10/29/pedro-sanchez-da-el-paso-definitivo-hacia-su-investidura-ya-estamos-en-la-recta-final/',
 'https://www.infobae.com//espana/2023/10/29/el-congreso-paga-74000-euros-en-taxis-de-diputados-en-dos-meses-de-legislatura-los-350-congresistas-podrian-gastar-mas-de-un-millon-de-euros-al-ano/',
 'https://www.infobae.com//espana/2023/10/29/la-ruta-canaria-se-cobra-la-vida-de-una-veintena-de-personas-este-fin-de-semana-en-el-que-han-llegado-otras-700-personas-a-tenerife/',
 'https://www.infobae.com//espana/2023/10/29/ayuso-le-entregara-la-medalla-de-oro