In [3]:
import pandas as pd
import os
from google.colab import drive
from collections import Counter
import nltk
from nltk.corpus import stopwords
import re  # Importar para tokenización robusta

# --- 1. CONFIGURACIÓN Y DESCARGA (Solo NLTK Stopwords) ---
print("Descargando recursos de NLTK (solo stopwords, ignorando 'punkt')...")
try:
    # Solo necesitamos las stopwords, no el tokenizador problemático 'punkt'
    nltk.download('stopwords', quiet=True)
    print("Descarga de NLTK completada.")
except Exception as e:
    print(f"Error al descargar stopwords: {e}")

# Montar Google Drive
drive.mount('/content/drive')

# Ruta a la carpeta que contiene tus archivos .txt
transcripciones_path = "/content/drive/MyDrive/TFG_2025/Entrevistas/"

# --- 2. CARGA Y PREPROCESAMIENTO DE DATOS ---

# Cargar las transcripciones en una lista
data = []
for filename in os.listdir(transcripciones_path):
    if filename.endswith(".txt"):
        with open(os.path.join(transcripciones_path, filename), 'r', encoding='utf-8') as f:
            content = f.read()
            data.append(content)

# Unir todo el texto de las entrevistas en una sola cadena
all_text = ' '.join(data)

# Definir las stopwords en español
stop_words_es = set(stopwords.words('spanish'))

def clean_and_tokenize(text):
    # ¡CORRECCIÓN! Usamos REGEX para tokenizar. Esto evita el error de NLTK Punkt.
    # El regex busca todas las secuencias de letras y caracteres acentuados.
    tokens = re.findall(r'[a-zA-ZáéíóúüñÁÉÍÓÚÜÑ]+', text.lower())

    # Filtrar: eliminar stopwords y palabras irrelevantes
    tokens_limpios = [word for word in tokens if word not in stop_words_es]
    # Eliminar palabras comunes que no aportan valor
    tokens_limpios = [word for word in tokens_limpios if word not in ('gracias', 'sí', 'no', 'vale', 'entonces', 'pues', 'claro', 'eh', 'e', 'o')]
    return tokens_limpios

# Aplicar la limpieza y tokenización
tokens_limpios = clean_and_tokenize(all_text)

# --- 3. RECUENTO Y RESULTADOS ---

# Calcular la frecuencia de cada palabra
word_counts = Counter(tokens_limpios)

# Mostrar las 50 palabras más frecuentes
frecuencia_top = pd.DataFrame(word_counts.most_common(50), columns=['Palabra', 'Frecuencia'])

print("\n--- TOP 50 PALABRAS MÁS USADAS EN TODAS LAS ENTREVISTAS ---")
print(frecuencia_top)

# Guardar el resultado en Drive para el TFG
output_path = "/content/drive/MyDrive/TFG_2025/Recuento_Palabras_TFG.csv"
frecuencia_top.to_csv(output_path, index=False)
print(f"\nRecuento guardado en Drive: {output_path}")

# --- 4. RECORDATORIO DEL PRÓXIMO PASO ---
print("\n¡ANÁLISIS DE FRECUENCIA COMPLETADO!")
print("El siguiente paso será CRUCAR esta tabla de palabras clave con tus DATOS FISIOLÓGICOS (EDA/HRV).")

Descargando recursos de NLTK (solo stopwords, ignorando 'punkt')...
Descarga de NLTK completada.
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).

--- TOP 50 PALABRAS MÁS USADAS EN TODAS LAS ENTREVISTAS ---
        Palabra  Frecuencia
0         bueno         215
1           acá         151
2            si         126
3         parte         122
4           ahí         120
5           vos         108
6       después         104
7          bien         103
8    relajación          86
9         ahora          84
10         cómo          81
11      momento          74
12          así          74
13           sé          63
14      colores          60
15          ver          60
16         tipo          59
17      digamos          54
18         test          49
19        hacer          49
20       tiempo          48
21       cuerpo          48
22           ok          46
23      empieza          46
24       algu