### 1. Instalación y descarga del modelo

* Instala la librería `spaCy`
* Descarga e instala el paquete de lenguaje `es_core_news_lg` (modelo grande en español) que contiene el componente de reconocimiento de entidades (NER).

In [11]:
!pip install spacy
!python -m spacy download es_core_news_lg

Collecting es-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_lg-3.8.0/es_core_news_lg-3.8.0-py3-none-any.whl (568.0 MB)
     ---------------------------------------- 0.0/568.0 MB ? eta -:--:--
     ---------------------------------------- 0.3/568.0 MB ? eta -:--:--
     --------------------------------------- 3.1/568.0 MB 12.6 MB/s eta 0:00:45
      -------------------------------------- 7.6/568.0 MB 16.4 MB/s eta 0:00:35
      ------------------------------------- 11.8/568.0 MB 17.6 MB/s eta 0:00:32
     - ------------------------------------ 16.3/568.0 MB 18.3 MB/s eta 0:00:31
     - ------------------------------------ 20.7/568.0 MB 18.7 MB/s eta 0:00:30
     - ------------------------------------ 24.9/568.0 MB 18.9 MB/s eta 0:00:29
     - ------------------------------------ 29.4/568.0 MB 19.1 MB/s eta 0:00:29
     -- ----------------------------------- 33.8/568.0 MB 19.3 MB/s eta 0:00:28
     -- --------------------------

### 2. Importamos las librerías
Necesitamos:
* `spacy`: Para procesar el lenguaje natural, analizar el texto de los artículos y extraer entidades nombradas (en este caso las de tipo LOC).
* `csv`: Para leer el archivo CSV que contiene los artículos y recorrer cada fila de manera sencilla sin depender de librerías externas.

In [12]:
import spacy
import csv

### 3. Cargamos el modelo `es_core_news_lg`

* Carga en memoria el pipeline del modelo `es_core_news_lg` y lo asigna a la variable `nlp`.

In [13]:
nlp = spacy.load("es_core_news_lg")

### 4. Leer CSV y extraer entidades LOC

* Abre el CSV.

* Crea un `DictReader` para acceder a columnas por nombre (`ID`, `Título`, `Contenido`, `URL`).

* Para cada fila, toma el campo `Contenido`, lo procesa con `nlp` y obtiene las entidades detectadas.

* Filtra las entidades cuyo `ent.label_` sea `LOC`, elimina duplicados y las imprime si existen.

In [14]:
with open("../Textos de Prueba/noticias.csv", newline="", encoding="utf-8") as f:
    reader = csv.DictReader(f)
    
    for row in reader:
        contenido = row["Contenido"]
        doc = nlp(contenido)

        # Extraer entidades LOC
        locs = [ent.text for ent in doc.ents if ent.label_ == "LOC"]
        locs = list(set(locs))  # eliminar duplicados

        if locs:  # Solo mostrar si hay localizaciones
            print(f"ID: {row['ID']} | Título: {row['Título']}")
            print(f"LOC detectadas: {locs}\n")


ID: 1 | Título: Choque de motos en Motul, una invadió carril con dramático saldo
LOC detectadas: ['Policía Municipal de Motul']

ID: 2 | Título: Marina atiende emergencia médica en embarcación en costas de Yucatán
LOC detectadas: ['Isla Pérez', 'Secretaría de Marina']

ID: 3 | Título: Motociclista es arrastrado por un tráiler en la carretera Umán-Mérida
LOC detectadas: ['Policía Municipal de Umán', 'carretera Umán-Mérida', 'Yucatán.- La mañana de este lunes']

ID: 4 | Título: Prevén lluvias y tormentas eléctricas en la Península de Yucatán y ambiente caluroso
LOC detectadas: ['Golfo de México', 'Península de Yucatán', 'Veracruz', 'Chiapas', 'Oaxaca']

ID: 5 | Título: Clausuran planta de extracción de piedra en Conkal
LOC detectadas: ['Ayuntamiento de Conkal', 'Conkal-Chicxulub Pueblo']

ID: 7 | Título: Accidente en Tizimín deja joven motociclista lesionado cerca del parque principal
LOC detectadas: ['Tizimín']

ID: 8 | Título: Abandonan en Chicxulub Puerto un auto que quedó atorado en 