# 1. Prueba de módulo "webscraping"

**scrap_discursos:** Scrap de discursos desde una web paginada con links individuales por discurso.

Parámetros:
- base_url (str): URL de inicio.
- xpaths (dict): Diccionario con claves: 'link_items', 'boton_siguiente', 'titulo', 'fecha', 'contenido'.
- espera (int): Tiempo de espera entre interacciones.
- paginas (int): Número máximo de páginas a recorrer.
- articulos_maximos (int): Límite de discursos a scrapear.
- headless (bool): Si True, navegador sin interfaz.
- verbose (bool): Si True, muestra estado.
- output_path (str): Ruta opcional para guardar CSV.
- mostrar_tiempo (bool): Si True, muestra tiempo de procesamiento.

Retorna:
- DataFrame con columnas: 'url', 'titulo', 'fecha', 'contenido', 'codigo'

In [2]:
from modulos.webscraping import xpaths_casarosada, scrap_discursos
import modulos.paths as paths

df = scrap_discursos(
    base_url="https://www.casarosada.gob.ar/informacion/discursos",
    xpaths=xpaths_casarosada,
    espera=3,
    paginas=5,
    articulos_maximos=50,
    headless=True,
    verbose=True,
    output_path=paths.discursos,
    mostrar_tiempo=True
)

df.head()

INFO:WDM:Get LATEST chromedriver version for google-chrome
INFO:WDM:Get LATEST chromedriver version for google-chrome
INFO:WDM:There is no [win64] chromedriver "140.0.7339.82" for browser google-chrome "140.0.7339" in cache
INFO:WDM:Get LATEST chromedriver version for google-chrome
INFO:WDM:WebDriver version 140.0.7339.82 selected
INFO:WDM:Modern chrome version https://storage.googleapis.com/chrome-for-testing-public/140.0.7339.82/win32/chromedriver-win32.zip
INFO:WDM:About to download new driver from https://storage.googleapis.com/chrome-for-testing-public/140.0.7339.82/win32/chromedriver-win32.zip
INFO:WDM:Driver downloading response is 200
INFO:WDM:Get LATEST chromedriver version for google-chrome
INFO:WDM:Driver has been saved in cache [C:\Users\Usuario\.wdm\drivers\chromedriver\win64\140.0.7339.82]


🌐 Página 1
➕ 40 nuevos links
➡️ Clic en 'Siguiente'
🌐 Página 2
➕ 40 nuevos links

🔗 Total de links únicos obtenidos: 50

📄 (1/50) Procesando: https://www.casarosada.gob.ar/informacion/discursos/51058-palabras-del-presidente-de-la-nacion-javier-milei-ante-el-consejo-interamericano-de-comercio-y-produccion-cicyp-2025
📝 Palabras del Presidente de la Nación, Javier Milei, ante el Consejo Interamericano de Comercio y Producción (CICyP) 2025 (Jueves 28 de agosto de 2025) - 7908 palabras

📄 (2/50) Procesando: https://www.casarosada.gob.ar/informacion/discursos/51056-palabras-del-presidente-milei-en-la-inauguracion-del-nuevo-edificio-de-corporacion-america
📝 Palabras del Presidente Milei en la inauguración del nuevo edificio de Corporación América (Lunes 25 de agosto de 2025) - 2533 palabras

📄 (3/50) Procesando: https://www.casarosada.gob.ar/informacion/discursos/51053-palabras-del-presidente-javier-milei-en-el-141-aniversario-de-la-bolsa-de-comercio-de-rosario
📝 Palabras del Presidente Javie

Unnamed: 0,url,titulo,fecha,contenido,codigo,INDEX
0,https://www.casarosada.gob.ar/informacion/disc...,"Palabras del Presidente de la Nación, Javier M...",Jueves 28 de agosto de 2025,"Palabras del Presidente de la Nación, Javier M...",DISCURSO_001,0
1,https://www.casarosada.gob.ar/informacion/disc...,Palabras del Presidente Milei en la inauguraci...,Lunes 25 de agosto de 2025,Palabras del Presidente Milei en la inauguraci...,DISCURSO_002,1
2,https://www.casarosada.gob.ar/informacion/disc...,Palabras del Presidente Javier Milei en el 141...,Viernes 22 de agosto de 2025,Palabras del Presidente Javier Milei en el 141...,DISCURSO_003,2
3,https://www.casarosada.gob.ar/informacion/disc...,"Palabras del Presidente de la Nación, Javier M...",Jueves 21 de agosto de 2025,"Palabras del Presidente de la Nación, Javier M...",DISCURSO_004,3
4,https://www.casarosada.gob.ar/informacion/disc...,Palabras del Presidente Javier Milei en el Lib...,Sábado 16 de agosto de 2025,Palabras del Presidente Javier Milei en el Lib...,DISCURSO_005,4


# 2. Prueba de módulo "preprocesamiento"

## 2.1. Segmentación en recortes

**generar_recortes:** Convierte una base de discursos en una base de recortes frase a frase.

Parámetros:
- df_discursos (DataFrame): Debe tener columnas 'titulo' y 'contenido'.
- agregar_codigo (bool): Si True, genera columna 'codigo' con formato DISCURSO_001_FR_001...
- prefijo_codigo (str): Prefijo para los códigos asignados.
- guardar (bool): Si True, guarda la base generada como CSV.
- output_path (str): Ruta del archivo CSV de salida (requerido si guardar=True).
- mostrar_tiempo (bool): Si True, muestra tiempo de procesamiento.

Retorna:
- DataFrame con columnas: 'codigo', 'recorte_id', 'posicion', 'frase'.

In [3]:
import pandas as pd
import modulos.paths as paths
from modulos.preprocesamiento import generar_recortes

# Cargar discursos scrapeados
df_discursos = pd.read_csv(paths.discursos, encoding="utf-8-sig")

# Generar recortes y guardar
df_recortes = generar_recortes(df_discursos, guardar=True, output_path=paths.recortes, mostrar_tiempo=True)

✅ Archivo guardado: C:\PROYECTOS\EmoParse\data\B1. recortes.csv
🧾 La base tiene 9199 observaciones (frases).
⏱ Tiempo de generar_recortes: 0.08 s


## 2.2. Filtrado de discursos por cantidad de frases (mínimo: 24, para series temporales)

**filtrar_discursos:** Filtra los códigos que tienen al menos `umbral` frases en `df_recortes`, y opcionalmente guarda los resultados si se indican los paths.

Parámetros:
- df: DataFrame original con los textos completos.
- df_recortes: DataFrame con las frases (recortes) y la columna 'codigo'.
- umbral: Cantidad mínima de frases necesarias para conservar un código.
- guardar: Si True, guarda los DataFrames filtrados y la lista de códigos eliminados.
- path_discursos: Ruta para guardar el CSV de discursos filtrados.
- path_recortes: Ruta para guardar el CSV de recortes filtrados.
- path_codigos_eliminados: Ruta para guardar el TXT con los códigos eliminados.
- mostrar_tiempo (bool): Si True, muestra tiempo de procesamiento.

Retorna:
- df_filtrado: DataFrame con discursos filtrados.
- df_recortes_filtrado: DataFrame de recortes correspondientes a los discursos filtrados.
- codigos_eliminados: lista de códigos de discursos eliminados.
- codigos_validos : lista de códigos de discursos válidos.
- conteo_frases: DataFrame con el conteo total de frases por código, antes del filtrado.

In [4]:
import pandas as pd
import modulos.paths as paths
from modulos.preprocesamiento import filtrar_discursos

df = pd.read_csv(paths.discursos, encoding="utf-8-sig")
df_recortes = pd.read_csv(paths.recortes, encoding="utf-8-sig")

df_filtrado, df_recortes_filtrado, codigos_eliminados, codigos_validos, conteo_frases = filtrar_discursos(
    df=df,
    df_recortes=df_recortes,
    umbral=24,
    guardar=True,
    path_discursos=paths.discursos_filtrado,
    path_recortes=paths.recortes_filtrado,
    path_codigos_eliminados=paths.codigos_eliminados,
    mostrar_tiempo=True
)

Cantidad de frases por código (primeras filas):
         codigo  cantidad_frases
0  DISCURSO_001              369
1  DISCURSO_002              115
2  DISCURSO_003              276
3  DISCURSO_004              162
4  DISCURSO_005              144

✅ Códigos con al menos 24 frases: 46
❌ Códigos eliminados (menos de 24 frases): 4

📄 Textos originales tras el filtro: 46
🧾 Frases tras el filtro: 9141
✅ Archivo guardado: C:\PROYECTOS\EmoParse\data\A2. discursos_filtrado.csv
✅ Archivo guardado: C:\PROYECTOS\EmoParse\data\B2. recortes_filtrado.csv

💾 Códigos eliminados guardados en: C:\PROYECTOS\EmoParse\logs\codigos_eliminados.txt
⏱ Tiempo de filtrar_discursos: 0.08 s


## 2.3. Limpieza y preprocesamiento

**procesar_textos:** Procesa textos en una columna de un DataFrame aplicando limpieza y análisis lingüístico.

Parámetros:
- df (pd.DataFrame): DataFrame original.
- columna_texto (str): Nombre de la columna con texto.
- texto_limpio (bool): Si se debe incluir columna con texto limpio.
- tokens (bool): Si se deben incluir los tokens.
- lemmas (bool): Si se deben incluir los lemas.
- pos_tags (bool): Si se deben incluir etiquetas POS.
- dependencias (bool): Si se deben incluir dependencias sintácticas.
- entidades (bool): Si se deben incluir entidades nombradas.
- sujetos (bool): Si se debe marcar sujeto omitido por frase.
- guardar (bool): Si se debe guardar el resultado a CSV.
- path_salida (str): Ruta de salida (obligatoria si guardar=True).
- mostrar_tiempo (bool): Si True, muestra tiempo de procesamiento.

Retorna:
- pd.DataFrame: DataFrame con columnas nuevas según los flags seleccionados.

In [2]:
import pandas as pd
import modulos.paths as paths
from modulos.preprocesamiento import procesar_textos

df_filtrado = pd.read_csv(paths.discursos_filtrado, encoding="utf-8-sig")

df_resultado = procesar_textos(
    df=df_filtrado,
    columna_texto="contenido",
    texto_limpio=True,
    tokens=False,
    lemmas=False,
    pos_tags=False,
    dependencias=False,
    entidades=False,
    sujetos=False,
    guardar=True,
    path_salida=paths.discursos_preprocesado,
    mostrar_tiempo=True
)



✅ Archivo guardado: C:\PROYECTOS\EmoParse\data\A3. discursos_preprocesado.csv
⏱ Tiempo de procesar_textos: 28.44 s


In [3]:
df_recortes_filtrado = pd.read_csv(paths.recortes_filtrado, encoding="utf-8-sig")

df_resultado = procesar_textos(
    df=df_recortes_filtrado,
    columna_texto="frase",
    texto_limpio=True,
    tokens=True,
    lemmas=True,
    pos_tags=True,
    dependencias=True,
    entidades=True,
    sujetos=True,
    guardar=True,
    path_salida=paths.recortes_preprocesado,
    mostrar_tiempo=True
)

✅ Archivo guardado: C:\PROYECTOS\EmoParse\data\B3. recortes_preprocesado.csv
⏱ Tiempo de procesar_textos: 108.12 s


In [4]:
df_resultado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9141 entries, 0 to 9140
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   INDEX              9141 non-null   int64 
 1   codigo             9141 non-null   object
 2   recorte_id         9141 non-null   object
 3   posicion           9141 non-null   int64 
 4   frase              9141 non-null   object
 5   texto_limpio       9141 non-null   object
 6   tokens             9141 non-null   object
 7   lemmas             9141 non-null   object
 8   pos_tags           9141 non-null   object
 9   frases_con_sujeto  9141 non-null   object
 10  entidades_json     9141 non-null   object
 11  dependencias_json  9141 non-null   object
dtypes: int64(2), object(10)
memory usage: 857.1+ KB


# 3. Prueba de módulo "resumen"

Este módulo permite generar resúmenes de discursos extensos utilizando un LLM, a través de un enfoque por bloques temáticos. La función principal aplicada es `resumir_dataframe`.

#### Lógica del procedimiento

- **Segmentación semántica:** el texto se divide en fragmentos según cambios temáticos detectados.
- **Resumen parcial:** cada fragmento se resume individualmente mediante un LLM.
- **Redacción global:** se produce un resumen final fluido e integrado a partir de los resúmenes parciales.

#### resumir_dataframe

Genera resúmenes utilizando un LLM para cada fila de un DataFrame que contenga la columna `texto_limpio`. Utiliza dos tipos de prompts: uno para fragmentos y otro para la redacción final del discurso completo.

#### Parámetros

- `df` (`pd.DataFrame`): DataFrame con columnas `'codigo'`, `'titulo'`, `'fecha'`, `'texto_limpio'`.
- `modelo_llm` (`Callable[[str], str]`): Función que toma un prompt (`str`) y devuelve la respuesta generada por el modelo LLM.
- `prompt_fragmento` (`str`): Prompt utilizado para resumir cada fragmento segmentado del discurso.
- `prompt_discurso` (`str`): Prompt utilizado para redactar el resumen global del discurso a partir de los resúmenes parciales.
- `umbral` (`float`): Umbral de sensibilidad para la segmentación temática. Valores más bajos generan más fragmentos.
- `guardar` (`bool`): Si es `True`, guarda el DataFrame resultante en un archivo `.csv`.
- `path_salida` (`str`): Ruta del archivo de salida si `guardar=True`.
- `mostrar_prompts` (`bool`): Si es `True`, imprime los prompts utilizados durante la ejecución (útil para debugging).
- `mostrar_tiempo` (`bool`): Si `True`, muestra tiempo de procesamiento.
- `max_chars_parciales` (`int`, opcional): Número máximo de caracteres que se permitirá en cada fragmento antes de enviarlo al LLM. Evita prompts excesivamente largos.
- `max_chars_final` (`int`, opcional): Número máximo de caracteres que se permitirá en el resumen final antes de enviarlo al LLM. Ayuda a controlar la extensión del texto generado.

#### Retorna

- `pd.DataFrame`: DataFrame con una nueva columna `'resumen'` que contiene el resumen generado por LLM para cada discurso.


In [1]:
import pandas as pd
import modulos.paths as paths
import modulos.prompts as prompts
from modulos.resumen import resumir_dataframe
from modulos.modelo import get_model_ollama_par

# Crear el modelo LLM
modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

# Cargar los discursos preprocesados
df_preprocesado = pd.read_csv(paths.discursos_preprocesado, encoding="utf-8-sig")
print(f"📄 {len(df_preprocesado)} discursos cargados para resumir.")

# Resumir los discursos
df_con_resumenes = resumir_dataframe(
    df=df_preprocesado,
    modelo_llm=modelo_llm,
    prompt_fragmento=prompts.PROMPT_RESUMIR_FRAGMENTO,
    prompt_discurso=prompts.PROMPT_RESUMIR_DISCURSO,
    umbral=0.25,
    guardar=True,
    path_salida=paths.discursos_resumen,
    mostrar_prompts=False,
    mostrar_tiempo=True,
    max_chars_parciales=10000,
    max_chars_final=3000
)

  from tqdm.autonotebook import tqdm, trange
INFO:sentence_transformers.SentenceTransformer:Use pytorch device_name: cuda
INFO:sentence_transformers.SentenceTransformer:Load pretrained SentenceTransformer: distiluse-base-multilingual-cased-v1


📄 46 discursos cargados para resumir.


Generando resúmenes con LLM:   0%|                                                              | 0/46 [00:00<?, ?it/s]

Batches:   0%|          | 0/2 [00:00<?, ?it/s]

INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
Generando resúmenes con LLM:   4%|██▎   


🟩 Resumen generado con éxito para código: DISCURSO_001
Resumen:
**Resumen del discurso de Javier Milei ante el CICyP 2025**

El presidente Milei abre su intervención recordando la violencia que sufrió durante una campaña: un grupo armado arrojó piedras sobre su equipo, lo que él interpreta como parte de una estrategia de difamación y represión de la “casta política” que, según él, ha mantenido sus privilegios durante décadas. Con un tono directo y acusatorio, Milei denuncia que los poderosos utilizan la violencia, la desinformación y la calumnia para frenar el proceso de cambio que el país necesita.

A partir de ahí, el discurso se centra en la defensa de su proyecto de gobierno. Milei afirma que la gente no se dejará amedrentar y que la lucha es por la libertad de todos los argentinos, no solo por él. Reitera su intención de acabar con el “regimen de mentiras, violencia, corrupción y extorsión” del kirchnerismo y hace un llamado a la ciudadanía a seguir el plan de gobierno.

En la pa

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
Generando resúmenes con LLM:   4%|██▎                                                   | 2/46 [00:49<18:01, 24.59s/it]


KeyboardInterrupt: 

# 4. Prueba de módulos "metadatos" y "enunciacion"

Estos módulos permiten la identificación automática de tipo de discurso, enunciador, enunciatarios y lugar de enunciación a partir de un conjunto de discursos.
La tarea se organiza en dos funciones principales, correspondientes a cada módulo (metadatos.py y enunciacion.py) que pueden usarse por separado o en conjunto.

## 4.1. Procesar tipo de discurso y lugar

**procesar_metadatos_llm:** Identifica el tipo de discurso y el lugar de enunciación (ciudad, provincia, país). Utiliza un modelo de lenguaje (LLM) con prompts personalizados.

Parámetros:
- df (pd.DataFrame): DataFrame con columnas 'codigo', 'titulo', 'texto_limpio' y 'resumen'.
- modelo_llm (str): Modelo de lenguaje a utilizar (ej. "gpt-oss:20b").
- diccionario (dict): Diccionario conceptual con categorías y ejemplos, utilizado para orientar la detección de tipo de discurso (ej. diccionario_tipos_discurso).
- prompt_tipo (str): Prompt base para la detección del tipo de discurso. Debe incluir los placeholders "RESUMEN", "FRAGMENTOS" y "DICCIONARIO".
- prompt_lugar (str): Prompt base para la detección del lugar de enunciación. Debe incluir los placeholders "TITULO", "RESUMEN" y "FRAGMENTOS".
- guardar (bool, opcional): Si es True, guarda los resultados en un archivo .csv. Por defecto: True.
- output_path (str, opcional): Ruta al archivo donde se guardará el CSV. Obligatorio si guardar=True.
- mostrar_prompts (bool, opcional): Si es True, imprime los prompts construidos antes de enviarlos al modelo (útil para debugging). Por defecto: False.
- mostrar_tiempo (bool, opcional): Si es True, muestra el tiempo de procesamiento.

Retorna:
- pd.DataFrame: DataFrame original con columnas adicionales:
    - tipo_discurso, tipo_discurso_justificacion
    - lugar_ciudad, lugar_provincia, lugar_pais, lugar_justificacion

Requiere:
- Definición previa de los paths en el módulo modulos.paths.
- Disponibilidad de los prompts base en el módulo modulos.prompts.
- Diccionario conceptual diccionario_tipos_discurso importado desde modulos.tipos_discurso.

## 4.2. Procesar enunciador y enunciatarios

**procesar_enunciacion_llm:** Identifica el enunciador y los enunciatarios de un discurso, utilizando un modelo de lenguaje (LLM) con prompts específicos.

Parámetros:
- df (pd.DataFrame): DataFrame con columnas codigo, titulo, texto_limpio y resumen.
- modelo_llm (str): Modelo de lenguaje a utilizar.
- diccionario (dict): Diccionario conceptual con categorías y ejemplos, utilizado para orientar la identificación de roles enunciativos (ej. diccionario_tipos_discurso).
- prompt_enunciacion (str): Prompt base para la identificación del enunciador y los enunciatarios. Debe incluir los placeholders "RESUMEN", "FRAGMENTOS" y "DICCIONARIO".
- guardar (bool, opcional): Si es True, guarda los resultados en un archivo .csv. Por defecto: True.
- output_path (str, opcional): Ruta al archivo donde se guardará el CSV. Obligatorio si guardar=True.
- mostrar_prompts (bool, opcional): Si es True, imprime los prompts construidos antes de enviarlos al modelo.
- mostrar_tiempo (bool, opcional): Si es True, muestra el tiempo de procesamiento.

Retorna:
- pd.DataFrame: DataFrame original con columnas adicionales:
    - enunciador_actor, enunciador_justificacion
    - enunciatario_0_actor, enunciatario_0_tipo, enunciatario_0_justificacion
    - enunciatario_1_actor, ... (tantos como detecte el modelo).

Requiere:
- Definición previa de los paths en el módulo modulos.paths.
- Disponibilidad de los prompts base en el módulo modulos.prompts.
- Diccionario conceptual diccionario_tipos_discurso importado desde modulos.tipos_discurso.

### Instanciación del modelo LLM
Usamos output_format="text" en lugar de format="json" porque:

1. En la práctica, incluso GPT-OSS no siempre devuelve JSON válido.
2. StructuredOutputParser de LangChain permite parsear y validar la salida de manera confiable.
3. Combinando "text" + parser mantenemos robustez frente a pequeñas inconsistencias en la salida del LLM.
4. Esto simplifica el pipeline y evita errores de parseo que aparecían con format="json".

### Funciones de reprocesamiento
En ambos casos, se diseñaron funciones para reprocesar los errores registrados en la carpeta "errors".

In [2]:
# Cargar dataset con resúmenes
import pandas as pd
import modulos.paths as paths

df_discursos = pd.read_csv(paths.discursos_resumen, encoding="utf-8-sig")

# Procesar discursos con el LLM
import modulos.prompts as prompts
from modulos.metadatos import procesar_metadatos_llm
from modulos.tipos_discurso import diccionario_tipos_discurso
from modulos.modelo import get_model_ollama_par

modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text", )

# Procesar tipo de discurso y lugar
df_tipo_lugar = procesar_metadatos_llm(
    df=df_discursos,
    modelo_llm=modelo_llm,
    diccionario=diccionario_tipos_discurso,
    prompt_tipo=prompts.PROMPT_TIPO_DISCURSO,
    prompt_lugar=prompts.PROMPT_LUGAR,
    guardar=True,
    output_path=paths.discursos_metadatos,
    mostrar_tiempo=True,
    mostrar_prompts=False,
    path_errores_tipo=paths.errores_metadatos,
    path_errores_lugar=paths.errores_metadatos
)

INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127

✅ CSV final guardado en C:\PROYECTOS\EmoParse2\data\A5. discursos_metadatos.csv
⏱ Tiempo de procesar_tipo_lugar_llm: 438.98 s


In [1]:
# Reprocesamiento en caso de errores persistentes o filas vacías, o con valores "sin respuesta" o "sin justificación"

import pandas as pd
import modulos.paths as paths
import modulos.prompts as prompts
from modulos.modelo import get_model_ollama_par
from modulos.reprocesamiento import reprocesar_metadatos_nan
from modulos.tipos_discurso import diccionario_tipos_discurso

# Cargar datos
df_original = pd.read_csv(paths.discursos_metadatos)

# Cargar modelo LLM
modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

# Ejecutar reprocesamiento de filas vacías
df_corregido = reprocesar_metadatos_nan(
    df_original=df_original,
    modelo_llm=modelo_llm,
    diccionario=diccionario_tipos_discurso,
    prompt_tipo=prompts.PROMPT_TIPO_DISCURSO,
    prompt_lugar=prompts.PROMPT_LUGAR,
    guardar=True,
    output_path=paths.discursos_metadatos,
    mostrar_prompts=False
)

  mask_nan = df[cols_tipo + cols_lugar].applymap(is_empty).any(axis=1)


🔁 Reprocesando 1 filas con valores vacíos...


INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"


⏱ Tiempo de procesar_tipo_lugar_llm: 61.86 s
✅ CSV actualizado guardado en C:\PROYECTOS\EmoParse2\data\A5. discursos_metadatos.csv


In [1]:
# Cargar dataset con resúmenes
import pandas as pd
import modulos.paths as paths

df_discursos = pd.read_csv(paths.discursos_metadatos, encoding="utf-8-sig")

# Ordenar por columna 'codigo' si existe
if 'codigo' in df_discursos.columns:
    df_discursos = df_discursos.sort_values('codigo').reset_index(drop=True)

# Procesar discursos con el LLM
import modulos.prompts as prompts
from modulos.tipos_discurso import diccionario_tipos_discurso
from modulos.enunciacion import procesar_enunciacion_llm
from modulos.modelo import get_model_ollama_par

modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

df_resultado = procesar_enunciacion_llm(
    df=df_discursos,
    modelo_llm=modelo_llm,
    diccionario=diccionario_tipos_discurso,
    prompt_enunciacion=prompts.PROMPT_ENUNCIACION,
    guardar=True,
    output_path=paths.discursos_enunc,
    mostrar_prompts=False,
    mostrar_tiempo=True,
    path_errores=paths.errores_enunciacion
)

INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST http://127

✅ Archivo guardado: C:\PROYECTOS\EmoParse2\data\A6. discursos_enunciacion.csv
⏱ Tiempo de procesar_enunciacion_llm: 935.89 s


In [2]:
# Reprocesamiento en caso de errores persistentes o filas vacías, o con valores "sin respuesta" o "sin justificación"

import pandas as pd
import modulos.paths as paths
import modulos.prompts as prompts
from modulos.modelo import get_model_ollama_par
from modulos.reprocesamiento import reprocesar_enunciacion_nan
from modulos.tipos_discurso import diccionario_tipos_discurso

# Cargar datos
df_original = pd.read_csv(paths.discursos_enunc, encoding="utf-8-sig")

# Cargar modelo LLM
modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

# Ejecutar reprocesamiento de enunciación
df_corregido = reprocesar_enunciacion_nan(
    df_original=df_original,
    modelo_llm=modelo_llm,
    diccionario=diccionario_tipos_discurso,
    prompt_enunciacion=prompts.PROMPT_ENUNCIACION,
    guardar=True,
    output_path=paths.discursos_enunc,
    mostrar_prompts=False,
    path_errores=paths.errores_enunciacion
)

✅ No se detectaron filas vacías o 'Sin respuesta/Sin justificación' en enunciación.


  mask_nan = df[cols_enun].applymap(is_empty).any(axis=1)


# 5. Prueba de módulo "identificacion_actores"

## 5.1. Identificación de actores

**Función:** identificar_actores_con_contexto

Esta función procesa una serie de recortes textuales para identificar actores relevantes mencionados en cada frase. Excluye automáticamente al enunciador y a los enunciatarios previamente detectados.  

Para ello, utiliza un modelo de lenguaje (LLM) a través de la API de Ollama y un **prompt estructurado** que combina:

- Información del discurso completo: resumen, fecha, lugar, tipo, enunciador y enunciatarios.  
- La frase objetivo y su contexto (frases anteriores y posteriores).  
- Heurísticas y ontología de actores posibles.

### Parámetros

- df_recortes (pd.DataFrame): DataFrame que contiene los recortes textuales a analizar. Debe incluir al menos las columnas:
  - 'frase'
  - 'recorte_id'
  - 'codigo' (identificador del discurso de inscripción)
- df_enunc (pd.DataFrame): DataFrame con los discursos completos y resultados de identificación enunciativa (enunciador, enunciatarios, tipo de discurso, lugar, etc.), asociados por la columna 'codigo'.
- prompt_actores (str, opcional): Prompt base con placeholders que será completado dinámicamente para cada recorte. Debe incluir:
  - {resumen_global}: Resumen del discurso de inscripción.
  - {fecha}: Fecha del discurso.
  - {lugar_justificacion}: Lugar del discurso (con justificación).
  - {tipo_discurso}: Tipo de discurso identificado.
  - {enunciador}: Enunciador del discurso.
  - {enunciatarios}: Enunciatarios identificados.
  - {frase}: Frase objetivo.
  - {frases_contexto}: Frases inmediatamente anteriores y posteriores a la frase objetivo.
  - {heuristicas}: Lista de reglas de inferencia válidas.
  - {ontologia}: Ontología de actores posibles (categorías permitidas para clasificación).
- path_errores (str, opcional): Ruta del archivo donde se guardarán los errores o casos que no puedan procesarse correctamente.
- output_path (str, opcional): Ruta del archivo donde se guardarán los resultados procesados en formato CSV.
- modelo_llm (callable, opcional): Función o clase del modelo LLM configurado. Debe recibir el prompt como string y devolver una respuesta.
- mostrar_prompts (bool, opcional): Si True, imprime el prompt generado para cada fragmento antes de enviarlo al modelo. Útil para debugging. Por defecto: False.
- guardar (bool, opcional): Si True, guarda el DataFrame resultante como CSV en output_path. Por defecto: True.
- checkpoint_interval (int, opcional): Frecuencia de guardado parcial en número de frases procesadas. Por defecto: 50.
- procesador (callable, opcional): Función encargada de procesar cada frase individual. Por defecto: procesar_una_frase.

### Retorna

- pd.DataFrame: Nuevo DataFrame con los actores identificados, con columnas como 'actor', 'tipo', 'modo', 'justificacion', y metadatos de la frase ('frase_idx', 'recorte_id', 'codigo') que permiten vincular cada actor con la frase correspondiente.

### Requiere

- Definición previa de los paths relevantes en el módulo modulos.paths.
- Prompt base definido en modulos.prompts.PROMPT_IDENTIFICAR_ACTORES.
- Preprocesamiento de enunciadores y enunciatarios mediante la función procesar_discursos_llm (u otra que genere df_enunc compatible).

In [1]:
import pandas as pd
import modulos.paths as paths

# Crear nuevo df de prueba
df_recortes = pd.read_csv(paths.recortes_preprocesado, encoding="utf-8-sig")
df_prueba = df_recortes[df_recortes["codigo"] == "DISCURSO_048"]
df_prueba.to_csv("data/recortes_prueba.csv", index=False, encoding="utf-8-sig")

In [2]:
df_prueba.head()

Unnamed: 0,INDEX,codigo,recorte_id,posicion,frase,texto_limpio,tokens,lemmas,pos_tags,frases_con_sujeto,entidades_json,dependencias_json
8741,8799,DISCURSO_048,DISCURSO_048_FR_001,1,Palabras del Presidente de la Nación en egreso...,palabras del presidente de la nación en egreso...,"['palabras', 'del', 'presidente', 'de', 'la', ...","['palabra', 'del', 'presidente', 'de', 'el', '...","['NOUN', 'ADP', 'NOUN', 'ADP', 'DET', 'NOUN', ...",[{'frase': 'palabras del presidente de la naci...,"[{""texto"": ""javier milei"", ""etiqueta"": ""PER"", ...","[{""token"": ""palabras"", ""dep"": ""ROOT"", ""head"": ..."
8742,8800,DISCURSO_048,DISCURSO_048_FR_002,2,"En primer lugar, y antes de comenzar el discur...","en primer lugar, y antes de comenzar el discur...","['en', 'primer', 'lugar', ',', 'y', 'antes', '...","['en', 'primero', 'lugar', ',', 'y', 'antes', ...","['ADP', 'ADJ', 'NOUN', 'PUNCT', 'CCONJ', 'ADV'...","[{'frase': 'en primer lugar', 'sujeto_explicit...","[{""texto"": ""venezuela"", ""etiqueta"": ""LOC"", ""in...","[{""token"": ""en"", ""dep"": ""case"", ""head"": ""lugar..."
8743,8801,DISCURSO_048,DISCURSO_048_FR_003,3,Fue detenido por las fuerzas de seguridad a ca...,fue detenido por las fuerzas de seguridad a ca...,"['fue', 'detenido', 'por', 'las', 'fuerzas', '...","['ser', 'detener', 'por', 'el', 'fuerza', 'de'...","['AUX', 'VERB', 'ADP', 'DET', 'NOUN', 'ADP', '...",[{'frase': 'fue detenido por las fuerzas de se...,"[{""texto"": ""nicolás maduro"", ""etiqueta"": ""PER""...","[{""token"": ""fue"", ""dep"": ""aux"", ""head"": ""deten..."
8744,8802,DISCURSO_048,DISCURSO_048_FR_004,4,Exigimos su liberación inmediata y agotaremos ...,exigimos su liberación inmediata y agotaremos ...,"['exigimos', 'su', 'liberación', 'inmediata', ...","['exigimos', 'su', 'liberación', 'inmediato', ...","['VERB', 'DET', 'NOUN', 'ADJ', 'CCONJ', 'VERB'...",[{'frase': 'exigimos su liberación inmediata y...,"[{""texto"": ""la argentina"", ""etiqueta"": ""LOC"", ...","[{""token"": ""exigimos"", ""dep"": ""ROOT"", ""head"": ..."
8745,8803,DISCURSO_048,DISCURSO_048_FR_005,5,"Volviendo a lo que nos convoca hoy aquí, quier...","volviendo a lo que nos convoca hoy aquí, quier...","['volviendo', 'a', 'lo', 'que', 'nos', 'convoc...","['volver', 'a', 'él', 'que', 'yo', 'convocar',...","['VERB', 'ADP', 'PRON', 'PRON', 'PRON', 'VERB'...",[{'frase': 'volviendo a lo que nos convoca hoy...,"[{""texto"": ""luis petri"", ""etiqueta"": ""PER"", ""i...","[{""token"": ""volviendo"", ""dep"": ""advcl"", ""head""..."


In [3]:
import pandas as pd
import modulos.paths as paths
import modulos.prompts as prompts
from modulos.identificacion_actores import identificar_actores_con_contexto
from modulos.modelo import get_model_ollama_par

df_recortes = pd.read_csv(paths.recortes_preprocesado, encoding="utf-8-sig")
df_enunc = pd.read_csv(paths.discursos_enunc, encoding="utf-8-sig")

modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

# Ejecutar identificación de actores
df_resultado = identificar_actores_con_contexto(
    df_recortes=df_prueba, # Reemplazar con df_recortes para análisis completo
    df_enunc=df_enunc,
    prompt_actores=prompts.PROMPT_IDENTIFICAR_ACTORES,
    path_errores=paths.errores_identificacion_actores,
    output_path=paths.actores_identificados,
    modelo_llm=modelo_llm,
    mostrar_prompts=False,
    guardar=True,
    mostrar_tiempo=True
)

  0%|                                                                                           | 0/38 [00:00<?, ?it/s]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  3%|██▏                                                                                | 1/38 [00:23<14:32, 23.58s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  5%|████▎                                                                              | 2/38 [00:39<11:18, 18.86s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  8%|██████▌                                                                            | 3/38 [00:52<09:35, 16.44s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 11%|████████▋                                                                          | 4/38 [01:11<09:47, 17.27s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 13%|

✅ Archivo guardado: C:\PROYECTOS\EmoParse2\data\C1. actores_identificados.csv
⏱ Tiempo de identificar_actores_con_contexto: 672.81 s





In [5]:
df_actores = pd.read_csv(paths.actores_identificados, encoding="utf-8-sig")

df_actores.head(50)

Unnamed: 0,actor,tipo,modo,justificacion,frase_idx,recorte_id,codigo
0,oficiales de las tres fuerzas militares,colectivo,explícito,explicitly mentioned in the phrase as the audi...,0,DISCURSO_048_FR_001,DISCURSO_048
1,Nahuel Gallo,humano_individual,explícito,explicit mention in the target phrase,1,DISCURSO_048_FR_002,DISCURSO_048
2,fuerzas de seguridad,colectivo,inferido,inferred from contextual phrase indicating the...,1,DISCURSO_048_FR_002,DISCURSO_048
3,las fuerzas de seguridad,institucional,explícito,Mencionado directamente como agente que detuvo...,2,DISCURSO_048_FR_003,DISCURSO_048
4,el dictador criminal Nicolás Maduro,humano_individual,explícito,Mencionado como responsable de la autoridad de...,2,DISCURSO_048_FR_003,DISCURSO_048
5,el detenido,humano_individual,inferido,El sujeto de la pasiva 'fue detenido' no se no...,2,DISCURSO_048_FR_003,DISCURSO_048
6,su pareja,humano_individual,explícito,Mencionado como objeto del delito de visita.,2,DISCURSO_048_FR_003,DISCURSO_048
7,su hijo,humano_individual,explícito,Mencionado como objeto del delito de visita.,2,DISCURSO_048_FR_003,DISCURSO_048
8,Nahuel Gallo,humano_individual,inferido,El pronombre 'su' en 'su liberación' se refier...,3,DISCURSO_048_FR_004,DISCURSO_048
9,Luis Petri,humano_individual,explícito,nombre propio mencionado directamente en la frase,4,DISCURSO_048_FR_005,DISCURSO_048


## 5.2. Funciones de postprocesamiento de actores

### 5.2.1. Función para propagar actores por pronombres

Dado que no siempre el LLM lo realiza adecuadamente, esta función secundaria permite **propagar actores referidos por pronombres entre frases dentro de un mismo discurso**, asegurando mayor granularidad en la identificación de actores cuando las frases son cortas o abstractas.

```python
import pandas as pd
import modulos.paths as paths
from modulos.postprocesamiento_actores import propagar_actores_por_pronombres

# Cargar CSV con actores identificados previamente
df_actores = pd.read_csv(paths.actores_identificados)

# Aplicar propagación de pronombres
df_actores_con_pronombres = propagar_actores_por_pronombres(df_actores)

# Nota: esta operación no guarda el resultado automáticamente

### 5.2.2. Función para reprocesar errores de identificación de actores

En caso de que algunas frases no hayan sido procesadas correctamente por el LLM, esta función permite **reprocesar los errores registrados**, recuperando resultados potencialmente perdidos y guardando aquellos errores que persistan tras un nuevo intento.

In [1]:
import pandas as pd
import modulos.paths as paths
import modulos.prompts as prompts
from modulos.modelo import get_model_ollama_par
from modulos.reprocesamiento import reprocesar_errores_identificacion

# Cargar data
df_recortes = pd.read_csv(paths.recortes_preprocesado, encoding="utf-8-sig")
df_enunc = pd.read_csv(paths.discursos_enunc, encoding="utf-8-sig")

df_prueba = pd.read_csv("data/recortes_prueba.csv", encoding="utf-8-sig")

# Instanciar modelo
modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

# Reprocesar errores con el mismo prompt utilizado originalmente
reprocesar_errores_identificacion(
    path_errores=paths.errores_identificacion_actores,
    df_enunc=df_enunc,
    df_recortes=df_prueba,
    path_salida=paths.actores_identificados,
    prompt_actores=prompts.PROMPT_IDENTIFICAR_ACTORES,
    modelo_llm=modelo_llm,
    mostrar_prompts=False,
    max_context=500,
)

INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"


[✔] Guardados 3 reprocesos en C:\PROYECTOS\EmoParse2\data\C1. actores_identificados.csv
[ℹ] Todos los errores fueron reprocesados; C:\PROYECTOS\EmoParse2\errors\errores_identificar_actores.jsonl quedó vacío.


### 5.2.3. Función para validar actores según ontología

Esta función permite **validar actores previamente identificados usando un LLM**, comparando cada actor con los tipos definidos en la ontología. Los actores que cumplen los criterios se guardan en un archivo de válidos, mientras que los que no cumplen o generan respuestas ambiguas se guardan en un archivo de excluidos.

In [1]:
import pandas as pd
import modulos.paths as paths
from modulos.modelo import get_model_ollama_par
from modulos.postprocesamiento_actores import validacion_actores

path_df_actores = paths.actores_identificados
path_df_recortes = pd.read_csv("data/recortes_prueba.csv", encoding="utf-8-sig") # Para análisis completo, reemplazar el path con paths.recortes_preprocesado)
path_salida_validos = paths.actores_validos
path_salida_excluidos = paths.actores_excluidos

# Instanciar modelo
modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

validacion_actores(
    path_df_actores=path_df_actores,
    path_df_recortes=path_df_recortes,
    path_salida_validos=path_salida_validos,
    path_salida_excluidos=path_salida_excluidos,
    modelo_llm=modelo_llm,
    mostrar_prompts=False
)

# Nota: la función recorre cada actor por recorte, llama al LLM con el prompt definido en `PROMPT_VALIDAR_ACTORES`,
# clasifica la respuesta como "Válido" o "Excluido" y guarda automáticamente los resultados en los archivos indicados.

Procesando recortes:   0%|                                                                      | 0/35 [00:00<?, ?it/s]
Validando actores recorte DISCURSO_048_FR_001:   0%|                                             | 0/1 [00:00<?, ?it/s][AINFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"

Validando actores recorte DISCURSO_048_FR_001: 100%|█████████████████████████████████████| 1/1 [00:01<00:00,  1.40s/it][A
Procesando recortes:   3%|█▊                                                            | 1/35 [00:01<00:47,  1.40s/it][A
Validando actores recorte DISCURSO_048_FR_002:   0%|                                             | 0/3 [00:00<?, ?it/s][AINFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"

Validando actores recorte DISCURSO_048_FR_002:  33%|████████████▎                        | 1/3 [00:01<00:03,  1.64s/it][AINFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"

Validando actores recorte

✅ Guardados 73 actores validados en 'C:\PROYECTOS\EmoParse2\data\C2. actores_validos.csv'
📄 Guardados 4 actores excluidos en 'C:\PROYECTOS\EmoParse2\data\C3. actores_excluidos.csv'





# 6. Prueba de módulo "deteccion_emociones"



#### Prueba de función general: detecta emociones de enunciador, enunciatarios y actores en un solo prompt

import pandas as pd
import modulos.paths as paths
import modulos.prompts as prompts
from modulos.deteccion_emociones import identificar_emociones_con_contexto
from modulos.modelo import get_model_ollama_par
from modulos.schemas import ListaEmocionesSchema

#### Cargar datos
df_recortes = pd.read_csv(paths.recortes_preprocesado, encoding="utf-8-sig")
df_discursos = pd.read_csv(paths.discursos_enunc, encoding="utf-8-sig")
df_actores = pd.read_csv(paths.actores_validos, encoding="utf-8-sig")  # Actores previamente identificados

#### Crear nuevo df de prueba
df_prueba = df_recortes[df_recortes["codigo"] == "DISCURSO_048"]
df_prueba.to_csv("data/recortes_prueba.csv", index=False, encoding="utf-8-sig")

#### Inicializar modelo
modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

#### Ejecutar identificación de emociones
df_emociones = identificar_emociones_con_contexto(
    df_recortes=df_prueba,
    df_discursos=df_discursos,
    df_actores=df_actores,
    schema=ListaEmocionesSchema,
    prompt_emociones=prompts.PROMPT_DETECCION_EMOCIONES,
    path_errores=paths.errores_identificacion_emociones,
    output_path=paths.emociones_identificadas,
    modelo_llm=modelo_llm,
    mostrar_prompts=False,
    guardar=True,
    mostrar_tiempo=True,
    checkpoint_interval=50,
    max_context=2
)

print(df_emociones)

In [1]:
# Prueba de función separada: detecta emociones de enunciador, enunciatarios y actores con prompts separados, aportando mayor granularidad y efectividad en la detección

import pandas as pd
import modulos.paths as paths
import modulos.prompts as prompts
from modulos.deteccion_emociones import identificar_emociones_todas
from modulos.modelo import get_model_ollama_par
from modulos.schemas import ListaEmocionesSchema
from modulos.tipos_discurso import diccionario_tipos_discurso

# Cargar datos
df_recortes = pd.read_csv(paths.recortes_preprocesado, encoding="utf-8-sig")
df_discursos = pd.read_csv(paths.discursos_enunc, encoding="utf-8-sig")
df_actores = pd.read_csv(paths.actores_validos, encoding="utf-8-sig")  # Actores previamente identificados

# Crear nuevo df de prueba
df_prueba = df_recortes[df_recortes["codigo"] == "DISCURSO_048"]
df_prueba.to_csv("data/recortes_prueba.csv", index=False, encoding="utf-8-sig")

# Inicializar modelo
modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

# Ejecutar identificación de emociones en tres niveles
resultados = identificar_emociones_todas(
    df_recortes=df_prueba,
    df_discursos=df_discursos,
    df_actores=df_actores,
    schema=ListaEmocionesSchema,
    modelo_llm=modelo_llm,
    prompt_enunciador=prompts.PROMPT_EMOCIONES_ENUNCIADOR,
    prompt_enunciatarios=prompts.PROMPT_EMOCIONES_ENUNCIATARIOS,
    prompt_actores=prompts.PROMPT_EMOCIONES_ACTORES,
    diccionario=diccionario_tipos_discurso,
    output_path=paths.emociones_identificadas,
    path_errores=paths.errores_identificacion_emociones,
    mostrar_prompts=False,
    guardar=True,
    mostrar_tiempo=True,
    checkpoint_interval=50,
    max_context=2
)

print(resultados)

  0%|                                                                                           | 0/38 [00:00<?, ?it/s]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  3%|██▏                                                                                | 1/38 [00:12<07:50, 12.72s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  5%|████▎                                                                              | 2/38 [00:30<09:22, 15.63s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  8%|██████▌                                                                            | 3/38 [00:47<09:26, 16.18s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 11%|████████▋                                                                          | 4/38 [01:02<09:00, 15.90s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 13%|

✅ Archivo guardado: C:\PROYECTOS\EmoParse2\data\D1. emociones_identificadas_enunciador.csv
⏱ Tiempo de identificar_emociones_con_contexto: 664.57 s


  0%|                                                                                           | 0/38 [00:00<?, ?it/s]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  3%|██▏                                                                                | 1/38 [00:34<21:24, 34.72s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  5%|████▎                                                                              | 2/38 [01:18<23:58, 39.96s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  8%|██████▌                                                                            | 3/38 [01:50<21:10, 36.31s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 11%|████████▋                                                                          | 4/38 [02:05<15:48, 27.88s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 13%|

✅ Archivo guardado: C:\PROYECTOS\EmoParse2\data\D1. emociones_identificadas_enunciatarios.csv
⏱ Tiempo de identificar_emociones_con_contexto: 885.67 s


  0%|                                                                                           | 0/38 [00:00<?, ?it/s]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  3%|██▏                                                                                | 1/38 [00:06<03:54,  6.33s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  5%|████▎                                                                              | 2/38 [00:17<05:31,  9.20s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  8%|██████▌                                                                            | 3/38 [00:29<06:07, 10.50s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 11%|████████▋                                                                          | 4/38 [00:39<05:44, 10.12s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 13%|

✅ Archivo guardado: C:\PROYECTOS\EmoParse2\data\D1. emociones_identificadas_actores.csv
⏱ Tiempo de identificar_emociones_con_contexto: 467.36 s
{'enunciador':              experienciador   tipo_emocion modo_existencia  \
0   Presidente Javier Milei    indignación       realizada   
1   Presidente Javier Milei    indignación       realizada   
2   Presidente Javier Milei      contempto       realizada   
3   Presidente Javier Milei    indignación       realizada   
4   Presidente Javier Milei  determinación       realizada   
..                      ...            ...             ...   
79  Presidente Javier Milei      esperanza       potencial   
80  Presidente Javier Milei      confianza       potencial   
81  Presidente Javier Milei       gratitud       Realizada   
82  Presidente Javier Milei      felicidad       Realizada   
83  Presidente Javier Milei        orgullo       Realizada   

                                        justificacion           recorte_id  \
0   El enunciador




In [3]:
# Función de reprocesamiento de frases para detección de emociones por tipo de experienciador

import pandas as pd
import modulos.paths as paths
import modulos.prompts as prompts
from modulos.modelo import get_model_ollama_par
from modulos.reprocesamiento_emociones import reprocesar_errores_emociones
from modulos.schemas import ListaEmocionesSchema

# Cargar datos
df_recortes = pd.read_csv(paths.recortes_preprocesado, encoding="utf-8-sig")
df_discursos = pd.read_csv(paths.discursos_enunc, encoding="utf-8-sig")
df_actores = pd.read_csv(paths.actores_identificados, encoding="utf-8-sig")

# Instanciar modelo
modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

# Reprocesar errores de emociones
df_emociones_reprocesadas = reprocesar_errores_emociones(
    df_recortes=df_recortes,
    df_discursos=df_discursos,
    df_actores=df_actores,
    path_errores=paths.errores_identificacion_emociones_actores,  # usar el path correcto según tipo
    path_salida=paths.emociones_actores,  # archivo de salida correspondiente
    prompt_emociones=prompts.PROMPT_EMOCIONES_ACTORES,  # prompt según tipo
    schema=ListaEmocionesSchema,
    intento=1,
    modelo_llm=modelo_llm,
    mostrar_prompts=True,
    max_context=2
)

print(f"✅ Reprocesadas {len(df_emociones_reprocesadas)} filas de emociones.")

[reprocesar_errores_emociones] No existe C:\PROYECTOS\EmoParse2\errors\errores_identificar_emociones_actores.jsonl
✅ Reprocesadas 0 filas de emociones.


# 7. Prueba de módulo "caracterizacion_emociones"

In [1]:
# Primera prueba de caracterización de emociones: foria, dominancia, intensidad y fuente
# Emociones del enunciador

import pandas as pd
from modulos.modelo import get_model_ollama_par
from modulos.caracterizacion_emociones import caracterizar_emociones_todas
import modulos.paths as paths

# Cargar datos
df_recortes = pd.read_csv(paths.recortes_preprocesado, encoding="utf-8-sig")
df_emociones_enunciador = pd.read_csv(paths.emociones_enunciador, encoding="utf-8-sig")

# Inicializar modelo
modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

# Ejecutar caracterización completa
resultados = caracterizar_emociones_todas(
    df_emociones=df_emociones_enunciador,
    df_recortes=df_recortes,
    modelo_llm=modelo_llm,
    mostrar_prompt=False,
    path_errores=paths.errores_caracterizacion_emociones_enunciador,
    output_path=paths.emociones_caracterizadas_enunciador,
    guardar=True,
    checkpoint_interval=50,
    carpeta_salida="data"
)

# Imprimir resultados por variable
for key, df_res in resultados.items():
    print(f"--- {key.upper()} ---")
    print(df_res.head())

  0%|                                                                                           | 0/84 [00:00<?, ?it/s]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  1%|▉                                                                                  | 1/84 [00:03<05:31,  3.99s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  2%|█▉                                                                                 | 2/84 [00:08<05:49,  4.26s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  4%|██▉                                                                                | 3/84 [00:12<05:44,  4.25s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  5%|███▉                                                                               | 4/84 [00:16<05:40,  4.26s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  6%|

✅ Archivo guardado: C:\PROYECTOS\EmoParse2\data\D2. emociones_caracterizadas_enunciador.csv
--- FINAL ---
       foria                                foria_justificacion  \
0  Disfórico  La indignación expresada por el presidente Mil...   
1  Disfórico  El sentimiento de desprecio y desdén expresado...   
2  Disfórico  El discurso expresa indignación hacia la deten...   
3    Afórico  La emoción de determinación se caracteriza por...   
4   Eufórico  La expresión de esperanza y la expectativa de ...   

            recorte_id           experienciador   tipo_emocion    dominancia  \
0  DISCURSO_048_FR_002  Presidente Javier Milei    indignación  Cognoscitiva   
1  DISCURSO_048_FR_003  Presidente Javier Milei      contempto  Cognoscitiva   
2  DISCURSO_048_FR_003  Presidente Javier Milei    indignación  Cognoscitiva   
3  DISCURSO_048_FR_004  Presidente Javier Milei  determinación  Cognoscitiva   
4  DISCURSO_048_FR_004  Presidente Javier Milei      esperanza  Cognoscitiva   

          




In [2]:
# Primera prueba de caracterización de emociones: foria, dominancia, intensidad y fuente
# Emociones de los enunciatarios

import pandas as pd
from modulos.modelo import get_model_ollama_par
from modulos.caracterizacion_emociones import caracterizar_emociones_todas
import modulos.paths as paths

# Cargar datos
df_recortes = pd.read_csv(paths.recortes_preprocesado, encoding="utf-8-sig")
df_emociones_enunciatarios = pd.read_csv(paths.emociones_enunciatarios, encoding="utf-8-sig")

# Inicializar modelo
modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

# Ejecutar caracterización completa
resultados = caracterizar_emociones_todas(
    df_emociones=df_emociones_enunciatarios,
    df_recortes=df_recortes,
    modelo_llm=modelo_llm,
    mostrar_prompt=False,
    path_errores=paths.errores_caracterizacion_emociones_enunciatarios,
    output_path=paths.emociones_caracterizadas_enunciatarios,
    guardar=True,
    checkpoint_interval=50,
    carpeta_salida="data"
)

# Imprimir resultados por variable
for key, df_res in resultados.items():
    print(f"--- {key.upper()} ---")
    print(df_res.head())

  0%|                                                                                          | 0/240 [00:00<?, ?it/s]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  0%|▎                                                                                 | 1/240 [00:11<45:12, 11.35s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  1%|▋                                                                                 | 2/240 [00:16<29:40,  7.48s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  1%|█                                                                                 | 3/240 [00:20<23:57,  6.07s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  2%|█▎                                                                                | 4/240 [00:24<21:14,  5.40s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  2%|

✅ Archivo guardado: C:\PROYECTOS\EmoParse2\data\D2. emociones_caracterizadas_enunciatarios.csv
--- FINAL ---
       foria                                foria_justificacion  \
0    aforico  La emoción identificada es indiferencia, la cu...   
1   Eufórico  El orgullo es una emoción positiva que refleja...   
2   euforico  El saludo "buenas tardes a todos" es una expre...   
3  Disfórico  La indignación expresada por el presidente Mil...   
4  Disfórico  El discurso condena un secuestro ilegal, lo qu...   

            recorte_id                                     experienciador  \
0  DISCURSO_048_FR_001             Oposición política (la casta política)   
1  DISCURSO_048_FR_001  Partido político de Javier Milei y su base ele...   
2  DISCURSO_048_FR_001                          Público general argentino   
3  DISCURSO_048_FR_002                            Presidente Javier Milei   
4  DISCURSO_048_FR_002                                 contradestinatario   

   tipo_emocion    domina




In [3]:
# Primera prueba de caracterización de emociones: foria, dominancia, intensidad y fuente
# Emociones de los actores

import pandas as pd
from modulos.modelo import get_model_ollama_par
from modulos.caracterizacion_emociones import caracterizar_emociones_todas
import modulos.paths as paths

# Cargar datos
df_recortes = pd.read_csv(paths.recortes_preprocesado, encoding="utf-8-sig")
df_emociones_actores = pd.read_csv(paths.emociones_actores, encoding="utf-8-sig")

# Inicializar modelo
modelo_llm = get_model_ollama_par(modelo="gpt-oss:20b", temperature=0.0, output_format="text")

# Ejecutar caracterización completa
resultados = caracterizar_emociones_todas(
    df_emociones=df_emociones_actores,
    df_recortes=df_recortes,
    modelo_llm=modelo_llm,
    mostrar_prompt=False,
    path_errores=paths.errores_caracterizacion_emociones_actores,
    output_path=paths.emociones_caracterizadas_actores,
    guardar=True,
    checkpoint_interval=50,
    carpeta_salida="data"
)

# Imprimir resultados por variable
for key, df_res in resultados.items():
    print(f"--- {key.upper()} ---")
    print(df_res.head())

  0%|                                                                                           | 0/19 [00:00<?, ?it/s]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
  5%|████▎                                                                              | 1/19 [00:04<01:23,  4.66s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 11%|████████▋                                                                          | 2/19 [00:09<01:17,  4.58s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 16%|█████████████                                                                      | 3/19 [00:13<01:11,  4.45s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 21%|█████████████████▍                                                                 | 4/19 [00:19<01:18,  5.22s/it]INFO:httpx:HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
 26%|

✅ Archivo guardado: C:\PROYECTOS\EmoParse2\data\D2. emociones_caracterizadas_actores.csv
--- FINAL ---
       foria                                foria_justificacion  \
0    aforico  La emoción identificada es indiferencia, la cu...   
1   Eufórico  El orgullo es una emoción positiva que refleja...   
2   euforico  El saludo "buenas tardes a todos" es una expre...   
3  Disfórico  La indignación expresada por el presidente Mil...   
4  Disfórico  El discurso condena un secuestro ilegal, lo qu...   

            recorte_id                                     experienciador  \
0  DISCURSO_048_FR_001             Oposición política (la casta política)   
1  DISCURSO_048_FR_001  Partido político de Javier Milei y su base ele...   
2  DISCURSO_048_FR_001                          Público general argentino   
3  DISCURSO_048_FR_002                            Presidente Javier Milei   
4  DISCURSO_048_FR_002                                 contradestinatario   

   tipo_emocion    dominancia  




# Intervalo: construir df unificado

In [1]:
import pandas as pd
import re
import unicodedata
import modulos.paths as paths

# 1. Cargar data
df_emociones = pd.read_csv(paths.emociones_caracterizadas, encoding="utf-8-sig")
df_enunciador = pd.read_csv(paths.emociones_enunciador, encoding="utf-8-sig")
df_enunciatarios = pd.read_csv(paths.emociones_enunciatarios, encoding="utf-8-sig")
df_actores = pd.read_csv(paths.emociones_actores, encoding="utf-8-sig")
df_enunc = pd.read_csv(paths.discursos_enunc, encoding="utf-8-sig")
df_actores_validos = pd.read_csv(paths.actores_validos, encoding="utf-8-sig")

# 2. Renombrar columna 'justificacion' en los tres dfs si existe
for df in [df_enunciador, df_enunciatarios, df_actores]:
    if "justificacion" in df.columns:
        df.rename(columns={"justificacion": "tipo_emocion_justificacion"}, inplace=True)

# 3. Merge de los dfs (izquierda = df_emociones)
df_tmp = pd.concat([df_enunciador, df_enunciatarios, df_actores], ignore_index=True)

df_emociones_completo = pd.merge(
    df_emociones,
    df_tmp[["experienciador", "tipo_emocion", "recorte_id", "tipo_emocion_justificacion", "codigo"]],
    on=["experienciador", "tipo_emocion", "recorte_id"],
    how="left"
)

# 4. Crear columna tipo_experienciador
df_emociones_completo["tipo_experienciador"] = None

# 5. Agregar tipos de experienciadores

# 5a. Enunciador
mask_enunc = df_emociones_completo["experienciador"].isin(df_enunciador["experienciador"])
df_emociones_completo.loc[mask_enunc, "tipo_experienciador"] = "enunciador"

# 5b. Actores
for idx, row in df_emociones_completo.iterrows():
    exp = row["experienciador"]
    rec_id = row["recorte_id"]

    if exp in df_actores["experienciador"].values:
        match = df_actores_validos[
            (df_actores_validos["actor"] == exp) &
            (df_actores_validos["recorte_id"].astype(str) == str(rec_id))
        ]
        if not match.empty:
            tipo = match.iloc[0]["tipo"]
            df_emociones_completo.at[idx, "tipo_experienciador"] = f"actor_{tipo}"

# --- helpers para enunciatarios
def normalize_text(x):
    if pd.isna(x):
        return ""
    s = str(x)
    s = unicodedata.normalize('NFKD', s).encode('ASCII', 'ignore').decode('utf-8')  # quita tildes
    s = re.sub(r'[^\w\s]', ' ', s)   # reemplaza puntuación por espacios
    s = re.sub(r'\s+', ' ', s)       # normaliza espacios
    return s.strip().lower()

def partial_match(a, b):
    """Coincidencia total/parcial robusta (substring o token ≥3)."""
    if not a or not b:
        return False
    if a == b:
        return True
    if a in b or b in a:
        return True
    tokens = [t for t in a.split() if len(t) >= 3]
    for tok in tokens:
        if re.search(r'\b' + re.escape(tok) + r'\b', b):
            return True
    return False

def buscar_tipo_enunciatario(exp, rec_id, df_enunc):
    exp_n = normalize_text(exp)
    rec_id_s = str(rec_id)

    if 'codigo' in df_enunc.columns:
        filas = df_enunc[df_enunc['codigo'].astype(str) == rec_id_s]
        if not filas.empty:
            for _, fila in filas.iterrows():
                for i in range(3):
                    act_col = f'enunciatario_{i}_actor'
                    tipo_col = f'enunciatario_{i}_tipo'
                    if act_col not in fila.index or tipo_col not in fila.index:
                        continue
                    actor_val = fila.get(act_col)
                    if pd.isna(actor_val):
                        continue
                    actor_n = normalize_text(actor_val)
                    if partial_match(exp_n, actor_n):
                        return fila.get(tipo_col)

    # fallback: todo df_enunc
    for _, fila in df_enunc.iterrows():
        for i in range(3):
            act_col = f'enunciatario_{i}_actor'
            tipo_col = f'enunciatario_{i}_tipo'
            if act_col not in fila.index or tipo_col not in fila.index:
                continue
            actor_val = fila.get(act_col)
            if pd.isna(actor_val):
                continue
            actor_n = normalize_text(actor_val)
            if partial_match(exp_n, actor_n):
                return fila.get(tipo_col)
    return None

# 5c. Enunciatarios
mask_necesita = df_emociones_completo["tipo_experienciador"].isna() | (
    df_emociones_completo["tipo_experienciador"].astype(str).str.strip() == ""
)
idxs = df_emociones_completo[mask_necesita].index
assigned_enunc_idxs = []

for idx in idxs:
    exp = df_emociones_completo.at[idx, "experienciador"]
    rec_id = df_emociones_completo.at[idx, "recorte_id"]
    if exp in df_enunciatarios["experienciador"].values:
        tipo = buscar_tipo_enunciatario(exp, rec_id, df_enunc)
        if tipo and not pd.isna(tipo):
            df_emociones_completo.at[idx, "tipo_experienciador"] = tipo
            assigned_enunc_idxs.append(idx)

# 6a. Completar faltantes usando coincidencia con enunciatario_X_tipo
faltantes_tipo = df_emociones_completo[
    df_emociones_completo["tipo_experienciador"].isna() |
    (df_emociones_completo["tipo_experienciador"].astype(str).str.strip() == "")
]
assigned_from_tipo_idxs = []

for idx, row in faltantes_tipo.iterrows():
    exp = str(row["experienciador"]).strip()
    cod = row["codigo"]
    fila_enunc = df_enunc[df_enunc["codigo"] == cod]
    if fila_enunc.empty:
        continue
    fila_enunc = fila_enunc.iloc[0]
    for i in range(3):
        tipo_val = str(fila_enunc.get(f"enunciatario_{i}_tipo", "")).strip()
        if exp == tipo_val:
            df_emociones_completo.at[idx, "tipo_experienciador"] = tipo_val
            assigned_from_tipo_idxs.append(idx)
            break

# 6b. Reemplazar experienciador por actor según tipo_experienciador especial
tipos_destinatario = ["prodestinatario", "contradestinatario", "paradestinatario"]

for idx, row in df_emociones_completo.iterrows():
    tipo_exp = str(row["tipo_experienciador"]).strip()
    if tipo_exp in tipos_destinatario:
        cod = row["codigo"]
        fila_enunc = df_enunc[df_enunc["codigo"] == cod]
        if fila_enunc.empty:
            continue
        fila_enunc = fila_enunc.iloc[0]
        for i in range(3):
            tipo_col = f"enunciatario_{i}_tipo"
            actor_col = f"enunciatario_{i}_actor"
            tipo_val = str(fila_enunc.get(tipo_col, "")).strip()
            if tipo_val == tipo_exp:
                actor_val = fila_enunc.get(actor_col)
                if pd.notna(actor_val) and str(actor_val).strip():
                    df_emociones_completo.at[idx, "experienciador"] = actor_val
                break  # solo reemplaza con la primera coincidencia

# 6c. Reordenar columnas
cols_ordenadas = [
    "codigo", "recorte_id", "experienciador", "tipo_experienciador",
    "tipo_emocion", "tipo_emocion_justificacion", "fuente",
    "tipo_fuente", "fuente_justificacion"
]
# agregar el resto de columnas que no están en la lista original
cols_restantes = [c for c in df_emociones_completo.columns if c not in cols_ordenadas]
df_emociones_completo = df_emociones_completo[cols_ordenadas + cols_restantes]

# 7. Reportar filas con tipo_experienciador vacío o nulo
faltantes = df_emociones_completo[
    df_emociones_completo["tipo_experienciador"].isna() |
    (df_emociones_completo["tipo_experienciador"].astype(str).str.strip() == "")
]
if not faltantes.empty:
    print("⚠️ Revisar manualmente estas filas con tipo_experienciador faltante:")
    for idx, row in faltantes.iterrows():
        print(f" - Fila {idx} | recorte_id={row['recorte_id']} | experienciador={row['experienciador']}")
else:
    print("✅ No quedan filas con tipo_experienciador faltante.")

# 8. Guardar en CSV
output_path = paths.emociones_completo
df_emociones_completo.to_csv(output_path, index=False, encoding="utf-8-sig")

print(f"\nArchivo guardado en: {output_path}")
print(f"Asignados por enunciatarios (buscando actors en texto): {len(assigned_enunc_idxs)}")
print(f"Asignados por match con enunciatario_tipo (punto 6b): {len(assigned_from_tipo_idxs)}")
print("Top recuento tipo_experienciador:")
print(df_emociones_completo["tipo_experienciador"].value_counts(dropna=False).head(20))

⚠️ Revisar manualmente estas filas con tipo_experienciador faltante:
 - Fila 132 | recorte_id=DISCURSO_048_FR_017 | experienciador=todos los argentinos de bien

Archivo guardado en: C:\PROYECTOS\EmoParse2\data\D3. emociones_completo.csv
Asignados por enunciatarios (buscando actors en texto): 218
Asignados por match con enunciatario_tipo (punto 6b): 22
Top recuento tipo_experienciador:
tipo_experienciador
prodestinatario        93
paradestinatario       88
enunciador             84
contradestinatario     59
actor_colectivo        16
actor_institucional     2
None                    1
Name: count, dtype: int64


In [2]:
# Agregar valor manualmente

df_emociones_completo.loc[
    (df_emociones_completo["recorte_id"] == "DISCURSO_048_FR_017") &
    (df_emociones_completo["experienciador"] == "todos los argentinos de bien"),
    "tipo_experienciador"
] = "actor_colectivo"

faltantes = df_emociones_completo[
    df_emociones_completo["tipo_experienciador"].isna() |
    (df_emociones_completo["tipo_experienciador"].astype(str).str.strip() == "")
]
if not faltantes.empty:
    print("⚠️ Revisar manualmente estas filas con tipo_experienciador faltante:")
    for idx, row in faltantes.iterrows():
        print(f" - Fila {idx} | recorte_id={row['recorte_id']} | experienciador={row['experienciador']}")
else:
    print("✅ No quedan filas con tipo_experienciador faltante.")
    df_emociones_completo.to_csv(output_path, index=False, encoding="utf-8-sig")

✅ No quedan filas con tipo_experienciador faltante.


# Continuar con: verificación (por diccionario y por IA), normalización (idioma, acentos, mayúsculas), clusterización y clasificación de actores, emociones, tipos de fuentes, etc. Luego, visualizaciones. Finalmente, prueba general