# Codificación Automatizada con GPT-4o y Clasificación por Actor
Este notebook recorre todos los archivos `.txt`, genera códigos cualitativos con GPT-4o y asigna automáticamente el tipo de actor según el nombre del archivo, exportando todo a un archivo único `.csv`.

## 1. Instalación de dependencias

In [None]:
!pip install openai pandas



In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import os
os.chdir("/content/drive/MyDrive/_Luz Stella Doctorado/Mario Chamie Mazzilli/1_Audios_Archivos .m4a/Prueba_Piloto_3_con_IA_Assist")

In [None]:
os.getcwd()

'/content/drive/MyDrive/_Luz Stella Doctorado/Mario Chamie Mazzilli/1_Audios_Archivos .m4a/Prueba_Piloto_3_con_IA_Assist'

## 2. Cargar archivos de entrevistas

In [None]:
import os
import pandas as pd

carpeta = "/content/drive/MyDrive/_Luz Stella Doctorado/Mario Chamie Mazzilli/1_Audios_Archivos .m4a/Prueba_Piloto_3_con_IA_Assist"
archivos = [f for f in os.listdir(carpeta) if f.endswith(".txt")]
print("Archivos encontrados:", archivos)

def leer_entrevista(nombre_archivo):
    with open(os.path.join(carpeta, nombre_archivo), encoding="utf-8") as f:
        return f.read()


Archivos encontrados: ['comunidad_voz_036.txt', 'institucion_voz_035.txt', 'comunidad_prueba_01.txt']


## 3. Ingreso de clave de OpenAI

In [None]:
from openai import OpenAI
import getpass

clave = getpass.getpass("Ingrese su clave de OpenAI: ")
client = OpenAI(api_key=clave)
# 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


Ingrese su clave de OpenAI: ··········


## 4. Función para obtener códigos temáticos con GPT-4o

In [None]:
def sugerir_codigos_chatgpt(texto, sistema="Eres un investigador cualitativo experto en codificación temática."):
    prompt_usuario = f"""A partir del siguiente fragmento de entrevista, propón códigos cualitativos y su descripción.

Texto:
{texto}

Entrega ÚNICAMENTE la lista JSON. No escribas explicaciones ni encabezados. La respuesta debe ser directamente una lista de objetos JSON con campos: 'codigo', 'descripcion'."""

    respuesta = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": sistema},
            {"role": "user", "content": prompt_usuario}
        ],
        temperature=0.7
    )

    return respuesta.choices[0].message.content


## 5. Codificar entrevistas y construir DataFrame

In [None]:
import json
import re

resultados = []

for archivo in archivos:
    print(f"Codificando: {archivo}")
    texto = leer_entrevista(archivo)
    fragmento = texto[:1500]
    respuesta_json = sugerir_codigos_chatgpt(fragmento)

    try:
        json_puro = re.search(r"\[.*\]", respuesta_json, re.DOTALL).group(0)
        datos = json.loads(json_puro)

        if isinstance(datos, list):
            for item in datos:
                item["archivo"] = archivo
                resultados.append(item)
        else:
            print(f"⚠️ Respuesta no válida en {archivo}")

    except Exception as e:
        print(f"❌ Error procesando {archivo}: {e}")

df_total = pd.DataFrame(resultados)


Codificando: comunidad_voz_036.txt
Codificando: institucion_voz_035.txt
Codificando: comunidad_prueba_01.txt


## 6. Clasificación automática del tipo de actor

In [None]:
def clasificar_actor(nombre_archivo):
    nombre = nombre_archivo.lower()
    if "comunidad" in nombre:
        return "Comunidad"
    elif "institucion" in nombre or "institucional" in nombre or "gobierno" in nombre:
        return "Institución"
    elif "cooperacion" in nombre or "internacional" in nombre:
        return "Cooperación Internacional"
    elif "regional" in nombre:
        return "Nivel Regional"
    elif "local" in nombre:
        return "Nivel Local"
    elif "nacional" in nombre:
        return "Nivel Nacional"
    elif "procuraduria" in nombre or "contraloria" in nombre:
        return "Órgano de Control"
    elif "congreso" in nombre or "paz" in nombre:
        return "Comisión de Paz"
    else:
        return "Otro"

df_total["actor"] = df_total["archivo"].apply(clasificar_actor)


## 7. Exportar a CSV y mostrar resultado

In [None]:
nombre_archivo = "codigos_todas_entrevistas.csv"
df_total.to_csv(nombre_archivo, index=False)
print(f"✅ Archivo exportado: {nombre_archivo}")
display(df_total)


✅ Archivo exportado: codigos_todas_entrevistas.csv


Unnamed: 0,codigo,descripcion,archivo,actor
0,participacion_comunitaria,Experiencias y valoraciones de los actores com...,comunidad_voz_036.txt,Comunidad
1,desarrollo_capacidades,Propuestas y experiencias relacionadas con el ...,comunidad_voz_036.txt,Comunidad
2,proceso_entrevista,Aspectos relacionados con el consentimiento in...,comunidad_voz_036.txt,Comunidad
3,caracterizacion_participante,Datos demográficos y de identificación del par...,comunidad_voz_036.txt,Comunidad
4,enfoque_diferencial,Consideraciones relacionadas con característic...,comunidad_voz_036.txt,Comunidad
5,organizacion_comunitaria,Información sobre la afiliación del participan...,comunidad_voz_036.txt,Comunidad
6,confidencialidad_entrevista,Compromisos de confidencialidad y el derecho d...,comunidad_voz_036.txt,Comunidad
7,Entrevistado,"Referencia al doctor Juan Zambrano, un alto di...",institucion_voz_035.txt,Institución
8,Participación Comunitaria,Enfasis en la participación de diversas comuni...,institucion_voz_035.txt,Institución
9,Metodologías de Participación,Uso de metodologías específicas para facilitar...,institucion_voz_035.txt,Institución
