In [1]:
import pandas as pd 
import os
import requests as rq
from bs4 import BeautifulSoup as bs
import re
from langchain_openai import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from datetime import datetime
from tqdm import tqdm
import warnings
warnings.filterwarnings("ignore")

**Codigo principal PERU 21**

In [2]:
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/114.0.0.0 Safari/537.36"
}

In [3]:
with open("APPI OPENAI.txt") as archivo:
  apikey_openai = archivo.read()
os.environ["OPENAI_API_KEY"] = apikey_openai

In [14]:
distritos_lima = [
    "Ancón",
    "Ate",
    "Barranco",
    "Breña",
    "Carabayllo",
    "Chaclacayo",
    "Chorrillos",
    "Cieneguilla",
    "Comas",
    "El Agustino",
    "Independencia",
    "Jesús María",
    "La Molina",
    "La Victoria",
    "Lince",
    "Los Olivos",
    "Lurigancho",
    "Lurín",
    "Magdalena del Mar",
    "Miraflores",
    "Pachacámac",
    "Pucusana",
    "Pueblo Libre",
    "Puente Piedra",
    "Punta Hermosa",
    "Punta Negra",
    "Rímac",
    "San Bartolo",
    "San Borja",
    "San Isidro",
    "San Juan de Lurigancho",
    "San Juan de Miraflores",
    "San Luis",
    "San Martín de Porres",
    "San Miguel",
    "Santa Anita",
    "Santa María del Mar",
    "Santa Rosa",
    "Santiago de Surco",
    "Surquillo",
    "Villa El Salvador",
    "Villa María del Triunfo"
]


In [15]:
distritos_lima = distritos_lima + [distrito.upper() for distrito in distritos_lima]

In [17]:
departamentos_peru = [
    "Amazonas",
    "Áncash",
    "Apurímac",
    "Arequipa",
    "Ayacucho",
    "Cajamarca",
    "Callao", 
    "Cusco",
    "Huancavelica",
    "Huánuco",
    "Ica",
    "Junín",
    "La Libertad",
    "Lambayeque",
    "Lima",
    "Loreto",
    "Madre de Dios",
    "Moquegua",
    "Pasco",
    "Piura",
    "Puno",
    "San Martín",
    "Tacna",
    "Tumbes",
    "Ucayali"
]


In [18]:
departamentos_peru = departamentos_peru + [departamento.upper() for departamento in departamentos_peru]

In [6]:
prompt_pais = ChatPromptTemplate.from_messages([
    ("system", """Tu tarea es identificar el o los países mencionados en una noticia.
Responde únicamente con una lista de nombres de países:
- Si se menciona un solo país, devuélvelo en una lista con un solo elemento.
- Si se mencionan varios países, devuélvelos todos en una lista.
- Si no se menciona ningún país, devuelve una lista vacía.
No des explicaciones ni añadas texto adicional. Solo responde con la lista de países."""),
    ("human", "{input}")
])


In [None]:
llm = ChatOpenAI(
    temperature=0,
    model="gpt-4")

def pais_detector(texto: str) -> list:
    respuesta = llm.invoke(prompt_pais.format_messages(input=texto)).content.strip().lower()
    return respuesta

def buscar_ordenados(texto, lista):
    encontrados = []

    for lugar in lista:
        patron = r'\b' + re.escape(lugar) + r'\b'
        match = re.search(patron, texto)
        if match:
            encontrados.append((lugar, match.start()))
    
    # Ordenar por posición en el texto
    encontrados.sort(key=lambda x: x[1])
    
    # Aplicar .title() y eliminar duplicados preservando el orden
    vistos = set()
    resultado = []
    for nombre, _ in encontrados:
        nombre_title = nombre.title()
        if nombre_title not in vistos:
            resultado.append(nombre_title)
            vistos.add(nombre_title)
    
    return resultado

In [8]:
lista_url = []
lista_titulo = []
lista_texto = []
lista_fecha = []
lista_distrito = []
lista_departamento = []
lista_pais = []

In [9]:
for pagina in tqdm(range(1, 100)):  # Puedes aumentar el rango si quieres ir más allá
    url = f'https://peru21.pe/noticias/violencia-contra-la-mujer/{pagina}/'
    try:
        html = rq.get(url,headers=headers).content.decode("utf-8")
        soup = bs(html)
        enlaces_raw = soup.find_all('article',{'role':'article','class':'node node--type-article node--view-mode-teaser-2-col'})[0].find_all('div',{'class':'titulo-teaser-2col'})
        links=  ['https://peru21.pe' + raw.find('a').get('href') for raw in enlaces_raw]
        for noticia in tqdm(links):
            try:
                soup2 = bs(rq.get(noticia, headers=headers).content.decode("utf-8"))
                try:
                    titulo = soup2.find_all("h1")[0].text
                    fecha = "/".join(list((re.findall(r"(\d{2})[/-](\d{2})[/-](\d{4})",soup2.find_all('time')[0].text))[0]))
                    if datetime.strptime(fecha, "%d/%m/%Y") > datetime.strptime('24/05/2024', "%d/%m/%Y"):
                        body = "\n".join([p.get_text(strip=True) for p in soup2.find_all("div", {'class': 'content'})[1].find_all(lambda tag: (tag.name == "p"
                                                                                                                                                and tag.get_text(strip=True)  # excluir <p> vacíos
                                                                                                                                                and (
                                                                                                                                                not tag.attrs  # sin atributos
                                                                                                                                                    or set(tag.attrs).issubset({"data-start", "data-end"})  # excepción permitida
                                                                                                                                                )
                                                                                                                                                and not tag.find_parent("div", attrs={"data-entity-type": "node"})  # excluir padres no deseados
                                                                                                                                            )
                                                                                                                                        )])
                    else:
                        divs = soup2.find_all(lambda tag: (
                                            tag.name == 'div'
                                            and 'clearfix' in tag.get('class', [])
                                            and any(
                                                clase in tag.get('class', [])
                                                for clase in [
                                                'field--name-field-texto',
                                                'field--name-field-entradilla'
                                                ]
                                            )
                                            and not tag.find('mark', class_='hl_yellow')
                                            and not tag.find('h2')
                                            and not any(
                                                a for a in tag.find_all('a')
                                                if (not (a.find(['b', 'strong']) or a.find_parent(['b', 'strong']))
                                                and len(tag.get_text(strip=True)) < 200
                                                )
                                            )
                                            and not any(
                                                'mira:' in (el.get_text(strip=True).lower())
                                                for el in tag.find_all(['b', 'i'])
                                            )
                                        )
                                    )
                        body = "".join("".join([p.text for p in divs]).split('\n'))
                    distrito = buscar_ordenados(body, distritos_lima)
                    departamento = buscar_ordenados(body, departamentos_peru)
                    pais = pais_detector(body)
                    lista_pais.append(pais)
                    lista_url.append(noticia)
                    lista_titulo.append(titulo)
                    lista_texto.append(body)
                    lista_fecha.append(fecha)
                    lista_departamento.append(departamento)
                    lista_distrito.append(distrito)
                except:
                    print(f'Error al encontrar metadata de la noticia: No se encontro metadata: {noticia}\n')
            except Exception as e:
                print(f"Error al procesar noticia: {noticia}\n{e}")
    except Exception as e:
        print(f"Error al cargar la página {pagina}:\n{e}")

100%|██████████| 12/12 [00:20<00:00,  1.69s/it]
100%|██████████| 12/12 [00:18<00:00,  1.50s/it]
100%|██████████| 12/12 [00:16<00:00,  1.41s/it]
  3%|▎         | 3/99 [00:56<29:22, 18.36s/it]

Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/peru21tv/lavozdel21/ministra-mimp-nancy-tolentino-campana-tambien-es-mi-problema-no-podemos-ser-indiferentes-con-la-violencia-a-las-mujeres-dina-boluarte-noticia/



100%|██████████| 12/12 [00:29<00:00,  2.43s/it]
100%|██████████| 12/12 [00:28<00:00,  2.39s/it]
100%|██████████| 12/12 [00:29<00:00,  2.43s/it]
100%|██████████| 12/12 [00:34<00:00,  2.89s/it]
100%|██████████| 12/12 [00:27<00:00,  2.33s/it]
100%|██████████| 12/12 [00:27<00:00,  2.27s/it]
100%|██████████| 12/12 [00:26<00:00,  2.24s/it]
100%|██████████| 12/12 [00:26<00:00,  2.22s/it]
100%|██████████| 12/12 [00:26<00:00,  2.25s/it]
100%|██████████| 12/12 [00:27<00:00,  2.26s/it]
100%|██████████| 12/12 [00:27<00:00,  2.29s/it]
100%|██████████| 12/12 [00:30<00:00,  2.57s/it]
100%|██████████| 12/12 [00:28<00:00,  2.40s/it]
 16%|█▌        | 16/99 [07:26<41:30, 30.01s/it]

Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/peru21tv/21noticias/violencia-contra-la-mujer-se-reportaron-tres-casos-de-agresion-en-nueve-dias-video-noticia/



100%|██████████| 12/12 [00:24<00:00,  2.06s/it]
100%|██████████| 12/12 [00:27<00:00,  2.31s/it]
100%|██████████| 12/12 [00:27<00:00,  2.28s/it]
100%|██████████| 12/12 [00:27<00:00,  2.30s/it]
100%|██████████| 12/12 [00:27<00:00,  2.29s/it]
100%|██████████| 12/12 [00:28<00:00,  2.40s/it]
 22%|██▏       | 22/99 [10:20<37:50, 29.48s/it]

Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/peru21tv/especiales21/dia-mujer-erradicar-violencia-mujer-464493-noticia/



100%|██████████| 12/12 [00:25<00:00,  2.10s/it]
100%|██████████| 12/12 [00:24<00:00,  2.07s/it]
100%|██████████| 12/12 [00:28<00:00,  2.39s/it]
100%|██████████| 12/12 [00:29<00:00,  2.42s/it]
100%|██████████| 12/12 [00:27<00:00,  2.29s/it]
100%|██████████| 12/12 [00:27<00:00,  2.26s/it]
100%|██████████| 12/12 [00:29<00:00,  2.42s/it]
100%|██████████| 12/12 [00:26<00:00,  2.18s/it]
100%|██████████| 12/12 [00:31<00:00,  2.64s/it]
100%|██████████| 12/12 [00:29<00:00,  2.49s/it]
100%|██████████| 12/12 [00:28<00:00,  2.36s/it]
100%|██████████| 12/12 [00:28<00:00,  2.34s/it]
100%|██████████| 12/12 [00:27<00:00,  2.30s/it]
100%|██████████| 12/12 [00:25<00:00,  2.11s/it]
100%|██████████| 12/12 [00:27<00:00,  2.28s/it]
100%|██████████| 12/12 [00:30<00:00,  2.55s/it]
100%|██████████| 12/12 [00:29<00:00,  2.50s/it]
100%|██████████| 12/12 [00:27<00:00,  2.30s/it]
100%|██████████| 12/12 [00:29<00:00,  2.42s/it]
 41%|████▏     | 41/99 [19:46<29:19, 30.33s/it]

Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/lima/maria-elena-reyes-salud-mental-181463-noticia/



100%|██████████| 12/12 [00:34<00:00,  2.88s/it]
 42%|████▏     | 42/99 [20:22<30:30, 32.11s/it]

Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/rosa-nunez-denuncio-amenazas-revelar-agresion-fisica-cesar-acuna-180974-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/opositores-cesar-acuna-aseguran-capacidad-gobernar-180820-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/cesar-acuna-evito-hablar-acusacion-rosa-nunez-violencia-domestica-180752-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/acuna-descalificado-moralmente-denuncia-agresion-aseguran-180722-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/mundo/india-video-muestra-indiferencia-social-presunto-caso-violacion-165074-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/piden-detencion-pablo-secada-agresion-mujer-policia-164308-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/lima/arequipa-mujer-denuncia-tocamiento-indebido-golpeada-agresor-163496-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/lima/razon-imagenes-violencia-mujer-reggaeton-163263-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/lima/walter-alban-mujeres-deben-defenderse-tengan-mano-163065-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/carmen-omonte-ana-jara-violencia-genera-violencia-162732-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/lima/chorrillos-mujer-recibe-brutal-golpiza-pedir-manutencion-hijos-162725-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/policia-nacional-respalda-suboficial-maltratada-pablo-secada-148405-noticia/



100%|██████████| 12/12 [00:42<00:00,  3.52s/it]
 43%|████▎     | 43/99 [21:06<33:19, 35.71s/it]

Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/pablo-secada-tildan-patan-regidor-video-agresion-policia-148358-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/lima/peru-5-10-mujeres-son-victimas-violencia-147878-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/raul-castro-secada-sometido-comision-etica-ppc-144524-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/mundo/india-turista-danesa-violada-grupo-hombres-140778-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/lima/aumenta-violencia-mujer-99-asesinadas-133191-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/opinion/aumenta-violencia-mujer-99-asesinadas-133156-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/mundo/india-limitan-venta-acido-evitar-ataques-mujeres-116047-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/opinion/violencia-mujer-112612-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/lima/cumple-plan-violencia-mujer-108532-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/mundo/india-mujer-quemada-viva-resistirse-violacion-105031-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/opinion/gobierno-oficializa-pedido-retiro-embajador-104321-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/nadine-heredia-nadie-derecho-maltratar-peruana-104253-noticia/



100%|██████████| 12/12 [00:41<00:00,  3.47s/it]
 44%|████▍     | 44/99 [21:49<34:48, 37.97s/it]

Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/opinion/servicios-21-1-97049-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/opinion/tres-feminicidios-mes-87820-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/voces/gobierno-caso-villena-58428-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/ollanta-humala-sigue-silencio-agresion-jose-villena-58268-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/voces/humala-pide-castigar-esterilizaciones-56388-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/voces/derecho-mujeres-censurar-medios-48421-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/lima/gobierno-aprobo-proyecto-castigar-cadena-perpetua-feminicidio-47840-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/politica/ana-jara-palabras-isaac-humala-son-maltrato-mujer-42405-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/reportuit/sujeto-agrede-mujer-afuera-comisaria-maranga-42261-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/lima/defensoria-advierte-precaria-atencion-mujeres-victimas-violencia-41745-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/voces/desnudan-39939-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/voces/amos-esclavas-32294-noticia/



100%|██████████| 12/12 [00:41<00:00,  3.45s/it]
 45%|████▌     | 45/99 [22:33<35:34, 39.54s/it]

Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/voces/detienen-empresario-escoces-29093-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/espectaculos/aldo-miyashiro-lanzo-campana-feminicidio-21427-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/voces/aldo-lanzo-campana-vs-feminicidio-21411-noticia/





Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/voces/miguel-pinera-nuevo-escandalo-12697-noticia/



100%|██████████| 4/4 [00:13<00:00,  3.38s/it]
 46%|████▋     | 46/99 [22:47<28:22, 32.13s/it]

Error al encontrar metadata de la noticia: No se encontro metadata: https://peru21.pe/voces/celos-desata-bano-sangre-11849-noticia/



 47%|████▋     | 47/99 [22:48<19:42, 22.74s/it]

Error al cargar la página 47:
list index out of range


 48%|████▊     | 48/99 [22:49<13:44, 16.17s/it]

Error al cargar la página 48:
list index out of range


 49%|████▉     | 49/99 [22:50<09:40, 11.62s/it]

Error al cargar la página 49:
list index out of range


 51%|█████     | 50/99 [22:51<06:50,  8.39s/it]

Error al cargar la página 50:
list index out of range


 52%|█████▏    | 51/99 [22:52<04:54,  6.14s/it]

Error al cargar la página 51:
list index out of range


 53%|█████▎    | 52/99 [22:53<03:33,  4.55s/it]

Error al cargar la página 52:
list index out of range


 54%|█████▎    | 53/99 [22:54<02:40,  3.49s/it]

Error al cargar la página 53:
list index out of range


 55%|█████▍    | 54/99 [22:55<02:06,  2.81s/it]

Error al cargar la página 54:
list index out of range


 56%|█████▌    | 55/99 [22:56<01:38,  2.25s/it]

Error al cargar la página 55:
list index out of range


 57%|█████▋    | 56/99 [22:57<01:21,  1.91s/it]

Error al cargar la página 56:
list index out of range


 58%|█████▊    | 57/99 [22:58<01:10,  1.68s/it]

Error al cargar la página 57:
list index out of range


 59%|█████▊    | 58/99 [22:59<01:03,  1.54s/it]

Error al cargar la página 58:
list index out of range


 60%|█████▉    | 59/99 [23:00<00:54,  1.35s/it]

Error al cargar la página 59:
list index out of range


 61%|██████    | 60/99 [23:01<00:46,  1.20s/it]

Error al cargar la página 60:
list index out of range


 62%|██████▏   | 61/99 [23:02<00:42,  1.11s/it]

Error al cargar la página 61:
list index out of range


 63%|██████▎   | 62/99 [23:03<00:40,  1.09s/it]

Error al cargar la página 62:
list index out of range


 64%|██████▎   | 63/99 [23:04<00:37,  1.04s/it]

Error al cargar la página 63:
list index out of range


 65%|██████▍   | 64/99 [23:05<00:34,  1.00it/s]

Error al cargar la página 64:
list index out of range


 66%|██████▌   | 65/99 [23:06<00:32,  1.06it/s]

Error al cargar la página 65:
list index out of range


 67%|██████▋   | 66/99 [23:07<00:31,  1.06it/s]

Error al cargar la página 66:
list index out of range


 68%|██████▊   | 67/99 [23:07<00:29,  1.07it/s]

Error al cargar la página 67:
list index out of range


 69%|██████▊   | 68/99 [23:09<00:30,  1.01it/s]

Error al cargar la página 68:
list index out of range


 70%|██████▉   | 69/99 [23:10<00:32,  1.07s/it]

Error al cargar la página 69:
list index out of range


 71%|███████   | 70/99 [23:11<00:30,  1.05s/it]

Error al cargar la página 70:
list index out of range


 72%|███████▏  | 71/99 [23:12<00:29,  1.07s/it]

Error al cargar la página 71:
list index out of range


 73%|███████▎  | 72/99 [23:13<00:30,  1.12s/it]

Error al cargar la página 72:
list index out of range


 74%|███████▎  | 73/99 [23:14<00:27,  1.07s/it]

Error al cargar la página 73:
list index out of range


 75%|███████▍  | 74/99 [23:15<00:26,  1.07s/it]

Error al cargar la página 74:
list index out of range


 76%|███████▌  | 75/99 [23:16<00:23,  1.00it/s]

Error al cargar la página 75:
list index out of range


 77%|███████▋  | 76/99 [23:17<00:24,  1.07s/it]

Error al cargar la página 76:
list index out of range


 78%|███████▊  | 77/99 [23:18<00:23,  1.06s/it]

Error al cargar la página 77:
list index out of range


 79%|███████▉  | 78/99 [23:19<00:21,  1.01s/it]

Error al cargar la página 78:
list index out of range


 80%|███████▉  | 79/99 [23:20<00:19,  1.05it/s]

Error al cargar la página 79:
list index out of range


 81%|████████  | 80/99 [23:21<00:17,  1.06it/s]

Error al cargar la página 80:
list index out of range


 82%|████████▏ | 81/99 [23:22<00:17,  1.04it/s]

Error al cargar la página 81:
list index out of range


 83%|████████▎ | 82/99 [23:23<00:15,  1.07it/s]

Error al cargar la página 82:
list index out of range


 84%|████████▍ | 83/99 [23:24<00:14,  1.08it/s]

Error al cargar la página 83:
list index out of range


 85%|████████▍ | 84/99 [23:25<00:14,  1.01it/s]

Error al cargar la página 84:
list index out of range


 86%|████████▌ | 85/99 [23:26<00:13,  1.07it/s]

Error al cargar la página 85:
list index out of range


 87%|████████▋ | 86/99 [23:27<00:11,  1.11it/s]

Error al cargar la página 86:
list index out of range


 88%|████████▊ | 87/99 [23:27<00:10,  1.10it/s]

Error al cargar la página 87:
list index out of range


 89%|████████▉ | 88/99 [23:28<00:10,  1.10it/s]

Error al cargar la página 88:
list index out of range


 90%|████████▉ | 89/99 [23:29<00:08,  1.13it/s]

Error al cargar la página 89:
list index out of range


 91%|█████████ | 90/99 [23:30<00:08,  1.05it/s]

Error al cargar la página 90:
list index out of range


 92%|█████████▏| 91/99 [23:31<00:07,  1.06it/s]

Error al cargar la página 91:
list index out of range


 93%|█████████▎| 92/99 [23:32<00:06,  1.07it/s]

Error al cargar la página 92:
list index out of range


 94%|█████████▍| 93/99 [23:33<00:05,  1.04it/s]

Error al cargar la página 93:
list index out of range


 95%|█████████▍| 94/99 [23:34<00:04,  1.02it/s]

Error al cargar la página 94:
list index out of range


 96%|█████████▌| 95/99 [23:35<00:03,  1.04it/s]

Error al cargar la página 95:
list index out of range


 97%|█████████▋| 96/99 [23:36<00:02,  1.09it/s]

Error al cargar la página 96:
list index out of range


 98%|█████████▊| 97/99 [23:37<00:01,  1.09it/s]

Error al cargar la página 97:
list index out of range


 99%|█████████▉| 98/99 [23:38<00:01,  1.01s/it]

Error al cargar la página 98:
list index out of range


100%|██████████| 99/99 [23:39<00:00, 14.34s/it]

Error al cargar la página 99:
list index out of range





In [10]:
df = pd.DataFrame({
    'url': lista_url,
    'titulo': lista_titulo,
    'texto': lista_texto,
    'fecha': lista_fecha,
    'distrito': lista_distrito,
    'departamento': lista_departamento,
    'pais': lista_pais
})

In [11]:
df

Unnamed: 0,url,titulo,texto,fecha,distrito,departamento,pais
0,https://peru21.pe/peru/medios-deberan-tener-fr...,Medios deberán tener 'franja educativa' para a...,"El Congreso aprobó la Ley N° 32351, que modifi...",27/05/2025,[Independencia],[La Libertad],"[""perú""]"
1,https://peru21.pe/peru/chiclayo-detienen-profe...,Chiclayo: detienen a profesor por acosar sexua...,La madre de la menor reportó mensajes y fotogr...,16/04/2025,[],[],"[""perú""]"
2,https://peru21.pe/lima/miraflores-sujeto-que-h...,Miraflores: Sujeto violento que hirió con fuen...,"Jueza Susana Quispe, del Cuarto Juzgado de Inv...",26/03/2025,"[Lima, Miraflores]",[Lima],"[""perú""]"
3,https://peru21.pe/lima/atacante-de-miraflores-...,Atacante de Miraflores también agredió a su ex...,Julio Diego Aurelio Solari Zapata fue denuncia...,24/03/2025,"[Miraflores, San Isidro]",[],"[""perú""]"
4,https://peru21.pe/mundo/la-senal-de-auxilio-gl...,La señal de auxilio global que puede salvar la...,El sencillo gesto de abrir la palma de la mano...,20/02/2025,[],[],"[""canadá"", ""méxico"", ""estados unidos"", ""perú""]"
...,...,...,...,...,...,...,...
494,https://peru21.pe/lima/peru-ocupa-segundo-luga...,El Perú ocupa el segundo lugar en feminicidios...,Informe de la Comisión Económica para América ...,26/08/2019,[],[],"[""perú"", ""colombia"", ""república dominicana"", ""..."
495,https://peru21.pe/espectaculos/reimond-manco-a...,Reimond Manco es acusado por su expareja de ha...,Fiorella Alzamora respondió al jugador del UTC...,26/08/2019,[],[Cajamarca],[]
496,https://peru21.pe/mundo/india-adolescente-cond...,India: Adolescente condenada a lamer escupitaj...,El cadáver desnudo de la joven de 16 años apar...,26/08/2019,[],[],"[""india""]"
497,https://peru21.pe/mundo/bolivia-sujeto-le-arra...,Bolivia: Sujeto le arrancó de un mordisco el l...,La Policía inició una intensa búsqueda para da...,26/08/2019,[],[],"[""bolivia""]"


In [12]:
df.to_excel('Noticias_Correo21.xlsx')