### üöÄ Noticias Universidad Panamericana

Este ejemplo busca obtener todas las noticias de la Universidad Panamericana. Paso por paso, se crear√° un spider para obtener las noticias y seguir√° los siguientes pasos:

1. Crear un spider
2. Obtener todas las noticias
3. Obtener el enlace de cada noticia
4. Obtener el contenido de cada noticia
5. Guardar el contenido de cada noticia en en memoria
6. Usar pandas para guardar el contenido de cada noticia en un archivo csv.

In [31]:
%pip install pandas requests beautifulsoup4 pydantic openpyxl

Collecting openpyxl
  Obtaining dependency information for openpyxl from https://files.pythonhosted.org/packages/c0/da/977ded879c29cbd04de313843e76868e6e13408a94ed6b987245dc7c8506/openpyxl-3.1.5-py2.py3-none-any.whl.metadata
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Obtaining dependency information for et-xmlfile from https://files.pythonhosted.org/packages/c1/8b/5fe2cc11fee489817272089c4203e679c63b570a5aaeb18d852ae3cbba6a/et_xmlfile-2.0.0-py3-none-any.whl.metadata
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
   ---------------------------------------- 0.0/250.9 kB ? eta -:--:--
   - -------------------------------------- 10.2/250.9 kB ? eta -:--:--
   - -------------------------------------- 10.2/250.9 kB ? eta -:--:--
   ------ -------------------------------- 41.0/250.9 kB 326.8 kB/s eta 0:00:01
   ------ -------------------------------- 41.


[notice] A new release of pip is available: 23.2.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from pydantic import BaseModel
import json
from concurrent.futures import ThreadPoolExecutor, as_completed
from typing import List, Optional

In [None]:
class NewsIndex(BaseModel):
    title: str
    url: str
    category: str
    date: str


class NewsPost(BaseModel):
    title: str
    url: Optional[str]
    category: str
    date: str
    content: str
    image: str

In [None]:
def get_news_page(page=1) -> str:
    url = f"https://www.up.edu.mx/en/tema/noticias/page/{page}"
    response = requests.get(url)

    response.raise_for_status()
    return response.text

def get_total_pages():
    html = get_news_page(page=1)
    soup = BeautifulSoup(html, "html.parser")

    pagination = soup.select_one("nav.wp-block-query-pagination")

    if not pagination:
        return 1

    pages = []
    for a in pagination.select("a.page-numbers"):
        text = a.get_text(strip=True)
        if text.isdigit():
            pages.append(int(text))

    return max(pages) if pages else 1


def parse_news_page(html) -> list[NewsIndex]:
    soup = BeautifulSoup(html, "html.parser")

    blocks = soup.select(".wp-block-group.wp-container-content-9e2f13cb")

    results = []

    for block in blocks:
        category = block.select_one(".taxonomy-category a")
        category = category.get_text(strip=True) if category else None

        date = block.select_one(".wp-block-post-date time")
        date = date.get_text(strip=True) if date else None

        title_link = block.select_one(".wp-block-post-title a")
        if title_link:
            title = title_link.get_text(strip=True)
            url = title_link["href"]

        if not title or not url:
            continue

        results.append(NewsIndex(
            title=title,
            url=url,
            category=category,
            date=date
        ))

    return results


def spider_all_news_index():
    print("‚ú® Scraping all news index")
    total_pages = get_total_pages()
    print("‚ú® Total pages:", total_pages)

    all_news = []

    # TODO: Remove this. Only for testing
    total_pages = 1

    for page in range(1, total_pages + 1):
        print(f"‚¨áÔ∏è Getting page #{page}")
        html = get_news_page(page)
        print(f"üìÑ Parsing page #{page}")
        news = parse_news_page(html)
        print(f"üìÑ Saving {len(news)} news")
        all_news.extend(news)

    return all_news

In [7]:
news_index = spider_all_news_index()
print("üöÄ news_index total:", len(news_index))
print("üöÄ news_index:", news_index)


‚ú® Scraping all news index
‚ú® Total pages: 89
‚¨áÔ∏è Getting page #1
üìÑ Parsing page #1
üìÑ Saving 11 news
üöÄ news_index total: 11
üöÄ news_index: [NewsIndex(title='UP fortalece su oferta internacional con Doble Titulaci√≥n en alianza con CityU', url='https://www.up.edu.mx/noticias/internacionalizacion/up-fortalece-su-oferta-internacional-con-doble-titulacion-en-alianza-con-cityu/', category='Internacionalizaci√≥n', date='Dic 8, 2025'), NewsIndex(title='UP Aguascalientes lanza Ingenier√≠a en Energ√≠a y Sistemas Inteligentes: una apuesta estrat√©gica hacia el futuro energ√©tico', url='https://www.up.edu.mx/noticias/excelencia-academica/up-aguascalientes-lanza-ingenieria-en-energia-y-sistemas-inteligentes-una-apuesta-estrategica-hacia-el-futuro-energetico/', category='Excelencia Acad√©mica', date='Dic 8, 2025'), NewsIndex(title='IA y Educaci√≥n Humanista: la visi√≥n del Sistema UP-IPADE en la FIL Guadalajara', url='https://www.up.edu.mx/noticias/arte-cultura-y-difusion/ia-y-educa

In [9]:
print("üöÄ News index total:", len(news_index))
for news in news_index:
    print("‚¨áÔ∏è Getting news", {
        "title": news.title,
        "category": news.category,
        "date": news.date,
        "url": news.url
    })

üöÄ News index total: 11
‚¨áÔ∏è Getting news {'title': 'UP fortalece su oferta internacional con Doble Titulaci√≥n en alianza con CityU', 'category': 'Internacionalizaci√≥n', 'date': 'Dic 8, 2025', 'url': 'https://www.up.edu.mx/noticias/internacionalizacion/up-fortalece-su-oferta-internacional-con-doble-titulacion-en-alianza-con-cityu/'}
‚¨áÔ∏è Getting news {'title': 'UP Aguascalientes lanza Ingenier√≠a en Energ√≠a y Sistemas Inteligentes: una apuesta estrat√©gica hacia el futuro energ√©tico', 'category': 'Excelencia Acad√©mica', 'date': 'Dic 8, 2025', 'url': 'https://www.up.edu.mx/noticias/excelencia-academica/up-aguascalientes-lanza-ingenieria-en-energia-y-sistemas-inteligentes-una-apuesta-estrategica-hacia-el-futuro-energetico/'}
‚¨áÔ∏è Getting news {'title': 'IA y Educaci√≥n Humanista: la visi√≥n del Sistema UP-IPADE en la FIL Guadalajara', 'category': 'Arte cultura y difusi√≥n', 'date': 'Dic 5, 2025', 'url': 'https://www.up.edu.mx/noticias/arte-cultura-y-difusion/ia-y-educacion-h

In [10]:
def spider_all_news_index_parallel() -> List[NewsIndex]:
    print("‚ú® Scraping all news index")
    total_pages = get_total_pages()
    print("‚ú® Total pages:", total_pages)

    all_news = []

    # TODO: Remove this. Only for testing
    total_pages = 10

    with ThreadPoolExecutor(max_workers=10) as executor:
        futures = []
        for page in range(1, total_pages + 1):
            print(f"‚¨áÔ∏è Getting page #{page}")
            futures.append(executor.submit(get_news_page, page))

        for future in as_completed(futures):
            html = future.result()
            print(f"üìÑ Parsing page #{page}")
            news = parse_news_page(html)
            print(f"üìÑ Saving {len(news)} news")
            all_news.extend(news)

    return all_news


news_index_parallel = spider_all_news_index_parallel()
print("üöÄ news_index total:", len(news_index_parallel))
print("üöÄ news_index:", news_index_parallel)

‚ú® Scraping all news index
‚ú® Total pages: 89
‚¨áÔ∏è Getting page #1
‚¨áÔ∏è Getting page #2
‚¨áÔ∏è Getting page #3
‚¨áÔ∏è Getting page #4
‚¨áÔ∏è Getting page #5
‚¨áÔ∏è Getting page #6
‚¨áÔ∏è Getting page #7
‚¨áÔ∏è Getting page #8
‚¨áÔ∏è Getting page #9
‚¨áÔ∏è Getting page #10
üìÑ Parsing page #10
üìÑ Saving 11 news
üìÑ Parsing page #10
üìÑ Saving 11 news
üìÑ Parsing page #10
üìÑ Saving 11 news
üìÑ Parsing page #10
üìÑ Saving 11 news
üìÑ Parsing page #10
üìÑ Saving 11 news
üìÑ Parsing page #10
üìÑ Saving 11 news
üìÑ Parsing page #10
üìÑ Saving 11 news
üìÑ Parsing page #10
üìÑ Saving 11 news
üìÑ Parsing page #10
üìÑ Saving 11 news
üìÑ Parsing page #10
üìÑ Saving 11 news
üöÄ news_index total: 110
üöÄ news_index: [NewsIndex(title='Halberd Studios: emprendimiento UP que conquista la industria global de videojuegos', url='https://www.up.edu.mx/noticias/innovacion-y-emprendimiento/halberd-studios-emprendimiento-up-que-conquista-la-industria-global-de-videojuegos/', cat

In [None]:
def get_news_post_page(url) -> str:
    response = requests.get(url)

    response.raise_for_status()
    return response.text


def parse_news_post_page(html, news_index: NewsIndex) -> NewsPost:
    soup = BeautifulSoup(html, "html")

    title_el = soup.select_one(".wp-block-post-title")
    title = title_el.get_text(strip=True) if title_el else None

    cat_el = soup.select_one(".taxonomy-category a")
    category = cat_el.get_text(strip=True) if cat_el else None

    date_el = soup.select_one(".wp-block-post-date time")
    date = date_el.get_text(strip=True) if date_el else None

    img_el = soup.select_one(".wp-block-post-featured-image img")
    image = img_el["src"] if img_el and img_el.has_attr("src") else None

    block = soup.select_one(".wp-block-post-content, .entry-content")
    content = block.get_text(strip=True, separator=" ") if block else None

    return NewsPost(
        title=title,
        url=news_index.url,
        content=content,
        image=image,
        category=category,
        date=date
    )


def scrape_news_post(news_index: List[NewsIndex]) -> list[NewsPost]:
    all_news = []

    print("‚ú® Scraping news posts...")

    for index in news_index:
        print(f"‚¨áÔ∏è Getting page for {index.title}")
        html = get_news_post_page(index.url)

        print(f"üìÑ Parsing page for {index.title}")
        post = parse_news_post_page(html, index)

        print(f"üìÑ Saved {index.title}")
        all_news.append(post)

    return all_news

In [13]:
news_posts = scrape_news_post(
    news_index_parallel[0:2]
)
print("üöÄ News posts total: ", len(news_posts))


üöÄ News posts total:  2
üöÄ News posts example:  title='Halberd Studios: emprendimiento UP que conquista la industria global de videojuegos' url='https://www.up.edu.mx/noticias/innovacion-y-emprendimiento/halberd-studios-emprendimiento-up-que-conquista-la-industria-global-de-videojuegos/' category='Innovaci√≥n y emprendimiento' date='septiembre 24, 2025' content='19 de septiembre de 2025.-En el m√°s reciente episodio dePanamericana Emprende,podcast de laUniversidad Panamericanadedicado a las historias de emprendimiento e innovaci√≥n de negocios, se explor√≥ el camino deHalberd Studios, un estudio de desarrollo de videojuegos nacido en las aulas de la Panamericana y que hoy es unreferente de talento mexicano a nivel internacional.Para hablar de √©ste, se cont√≥ con elDr. Jes√∫s G√≥mez Romero B√≥rquez, socio del estudio y director de la Carrera de Ingenier√≠a en Animaci√≥n Digital en campus Guadalajara, y elLic. Ra√∫l Bonillas, director operativo de Halberd Studios, como invitados. Am

In [22]:
e_post = news_posts[0]

print(
    "üöÄ News posts example: ",
    json.dumps({
        "title": e_post.title,
        "image": e_post.image,
        "url": e_post.url,
        "category": e_post.category,
        "date": e_post.date,
        "content": e_post.content,
    }, indent=2, ensure_ascii=False)
)

üöÄ News posts example:  {
  "title": "Halberd Studios: emprendimiento UP que conquista la industria global de videojuegos",
  "image": "https://www.up.edu.mx/wp-content/uploads/2025/09/IMG_0147-scaled.jpg",
  "url": "https://www.up.edu.mx/noticias/innovacion-y-emprendimiento/halberd-studios-emprendimiento-up-que-conquista-la-industria-global-de-videojuegos/",
  "category": "Innovaci√≥n y emprendimiento",
  "date": "septiembre 24, 2025",
  "content": "19 de septiembre de 2025.-En el m√°s reciente episodio dePanamericana Emprende,podcast de laUniversidad Panamericanadedicado a las historias de emprendimiento e innovaci√≥n de negocios, se explor√≥ el camino deHalberd Studios, un estudio de desarrollo de videojuegos nacido en las aulas de la Panamericana y que hoy es unreferente de talento mexicano a nivel internacional.Para hablar de √©ste, se cont√≥ con elDr. Jes√∫s G√≥mez Romero B√≥rquez, socio del estudio y director de la Carrera de Ingenier√≠a en Animaci√≥n Digital en campus Guadala

In [26]:
def scrape_news_post_parallel(news_index: List[NewsIndex]) -> list[NewsPost]:
    all_news = []

    print("‚ú® Scraping news posts...")

    with ThreadPoolExecutor(max_workers=10) as executor:
        futures = []
        futures_map = {}
        for index in news_index:
            print(f"‚¨áÔ∏è Getting page {index.title}")
            future = executor.submit(get_news_post_page, index.url)
            futures.append(future)
            futures_map[future] = index

        for future in as_completed(futures):
            html = future.result()
            print(f"üìÑ Parsing page for {index.title}")
            index = futures_map[future]
            post = parse_news_post_page(html, index)
            print(f"üìÑ Saved {index.title}")
            all_news.append(post)

    return all_news


news_posts_parallel = scrape_news_post_parallel(news_index_parallel[0:50])
print("üöÄ News posts total: ", len(news_posts_parallel))

‚ú® Scraping news posts...
‚¨áÔ∏è Getting page Halberd Studios: emprendimiento UP que conquista la industria global de videojuegos
‚¨áÔ∏è Getting page UP refuerza su compromiso ambiental con s√©ptima reforestaci√≥n
‚¨áÔ∏è Getting page UP Aguascalientes inaugura el Centro Institucional de Innovaci√≥n Educativa
‚¨áÔ∏è Getting page Universidad Panamericana contin√∫a siendo hogar de sus colaboradores jubilados
‚¨áÔ∏è Getting page UP impulsa la justicia clim√°tica con proyecto trinacional sobre sistemas alimentarios ind√≠genas
‚¨áÔ∏è Getting page Universidad Panamericana presente en el 8vo Encuentro con Premios Nobel de Econom√≠a
‚¨áÔ∏è Getting page UP presenta Ejecutar ejecutando. El arte de hacer que las cosas sucedan
‚¨áÔ∏è Getting page La Universidad Panamericana inaugura la era EVOLVE: revoluciona su ecosistema digital para una educaci√≥n del futuro
‚¨áÔ∏è Getting page Reconocen talento universitario con Beca Mtro. Francisco Ben√≠tez
‚¨áÔ∏è Getting page UP genera conciencia sobre la pr

In [32]:
df = pd.DataFrame([
    {
        "title": post.title,
        "url": post.url,
        "date": post.date,
        "content": post.content,
        "image": post.image,
        "category": post.category,
    }
    for post in news_posts_parallel
])
print(df.head())

df.to_excel("news_posts.xlsx", index=False)

                                               title  \
0  UP Aguascalientes inaugura el Centro Instituci...   
1  La Universidad Panamericana inaugura la era EV...   
2  UP impulsa la justicia clim√°tica con proyecto ...   
3  UP genera conciencia sobre la prevenci√≥n del s...   
4  Halberd Studios: emprendimiento UP que conquis...   

                                                 url                 date  \
0  https://www.up.edu.mx/noticias/innovacion-y-em...  septiembre 22, 2025   
1  https://www.up.edu.mx/noticias/innovacion-y-em...  septiembre 17, 2025   
2  https://www.up.edu.mx/noticias/investigacion/u...  septiembre 19, 2025   
3  https://www.up.edu.mx/noticias/enfoque-humano/...  septiembre 10, 2025   
4  https://www.up.edu.mx/noticias/innovacion-y-em...  septiembre 24, 2025   

                                             content  \
0  Aguascalientes., Aguascalientes, 22 de septiem...   
1  Ciudad de M√©xico, 10 de septiembre de 2025.- C...   
2  Ciudad de M√©xico, 3 de se