In [1]:
import re 
import pandas as pd
import spacy
from spacy.lang.es.stop_words import STOP_WORDS as stopwords

In [2]:
def expresiones_regulares(texto: str) -> str:
    # Remove accents/tildes but keep the letters
    texto = re.sub(r'[áàäâã]', 'a', texto)
    texto = re.sub(r'[éèëê]', 'e', texto)
    texto = re.sub(r'[íìïî]', 'i', texto)
    texto = re.sub(r'[óòöôõ]', 'o', texto)
    texto = re.sub(r'[úùüû]', 'u', texto)
    texto = re.sub(r'[ÁÀÄÂÃ]', 'A', texto)
    texto = re.sub(r'[ÉÈËÊ]', 'E', texto)
    texto = re.sub(r'[ÍÌÏÎ]', 'I', texto)
    texto = re.sub(r'[ÓÒÖÔÕ]', 'O', texto)
    texto = re.sub(r'[ÚÙÜÛ]', 'U', texto)
    
    # Convert to lowercase, remove non-alphabetic characters except spaces and ñ/ü, normalize spaces
    return re.sub(r'\s+', ' ', re.sub(r'[^a-zñü ]', '', texto.lower())).strip()


def tokenizar(texto: str) -> str:
    nlp = spacy.load("es_core_news_lg")
    
    stopwords_personalizados = [
        "medico", "paciente", "psicologo", "psicologa",
        "psicologia", "psicoterapeuta", "psicoterapia", "refiere"
    ]
    all_stopwords = stopwords.union(stopwords_personalizados)
    
    tokens = [
        token.text for token in nlp(texto)
        if token.text.lower() not in all_stopwords and not token.is_punct and not token.is_space
    ]
    
    return " ".join(tokens)


def lematizar(texto: str) -> str:
    nlp = spacy.load("es_core_news_lg")
    
    tokens = texto.split()
    lemmas = [token.lemma_ for token in nlp(" ".join(tokens))]
    
    return " ".join(lemmas)


In [4]:
# Probar las funciones con un ejemplo

texto_ejemplo = "estos días han sido un poquito maluquitos, tratando de asimilar lo de su hijo continua muy deprimida y la situación con su esposo continua muy abrumadora, siente mucho abuso psicológico porque el es quien paga el arriendo y la paciente no quiere tener relación con él, nombra toda la vida este hombre a tomado mucho trago, y no quiero estar con él. Ha tenido llanto fácil, pensamientos con su hijo, se siente muy mal porque no tiene dinero, ni pasajes. Continua con alteraciones en el sueño y alimentacion. Esta pendiente  la cita con psiquiatría y trabajo social.  Paciente se escucha con actitud abierta, se encuentra orientada en sus tres esferas: en persona, tiempo y lugar, euproséxica, alerta, con pensamiento estructurado, afecto eutimico, con pensamiento o plan suicida, lenguaje fluido, coherente y tono de voz normal, con alteraciones del sueño y de alimentacion, niega alteraciones sensoriales, juicio comprometido, introspección y con prospección en elaboración."

texto_limpio = expresiones_regulares(texto_ejemplo)
texto_tokenizado = tokenizar(texto_limpio)
texto_lemmatizado = lematizar(texto_tokenizado)

print("Texto original:", texto_ejemplo)
print("Texto limpio:", texto_limpio)
print("Texto tokenizado:", texto_tokenizado)
print("Texto lematizado:", texto_lemmatizado)

Texto original: estos días han sido un poquito maluquitos, tratando de asimilar lo de su hijo continua muy deprimida y la situación con su esposo continua muy abrumadora, siente mucho abuso psicológico porque el es quien paga el arriendo y la paciente no quiere tener relación con él, nombra toda la vida este hombre a tomado mucho trago, y no quiero estar con él. Ha tenido llanto fácil, pensamientos con su hijo, se siente muy mal porque no tiene dinero, ni pasajes. Continua con alteraciones en el sueño y alimentacion. Esta pendiente  la cita con psiquiatría y trabajo social.  Paciente se escucha con actitud abierta, se encuentra orientada en sus tres esferas: en persona, tiempo y lugar, euproséxica, alerta, con pensamiento estructurado, afecto eutimico, con pensamiento o plan suicida, lenguaje fluido, coherente y tono de voz normal, con alteraciones del sueño y de alimentacion, niega alteraciones sensoriales, juicio comprometido, introspección y con prospección en elaboración.
Texto lim