# **Correción de Elipsis - Natural Language Processing**


-----------------------
<div align="right">

</div>



# **I.- Introducción**

El preprocesamiento de textos es una etapa crucial en el Procesamiento de Lenguaje Natural (NLP), especialmente cuando se trabaja con transcripciones literales de entrevistas o focus groups, donde es común encontrar elipsis (o puntos suspensivos) que representan interrupciones, titubeos o correcciones del hablante, dificultando el análisis del texto si no se manejan adecuadamente.

El objetivo de este jupyter notebook es presentar una solución en Python para procesar textos y corregir las elipsis, mejorando así la calidad del texto para análisis posteriores. Se abordarán tres casos principales: la eliminación de palabras y bigramas repetidos, el ajuste de artículos definidos e indefinidos y la corrección de patrones gramaticales específicos.

# **II.- Desarrollo**

Para corregir el uso de elipsis en transcripciones literales típicas de entrevistas y focus groups, re realizarán varios pasos utilizando las herramientas y bibliotecas vistas en clases, como Natural Language Toolkit (NLTK), Stanza y funciones de manipulación de datos de Python.

## **A.- Configuración Inicial**

### Importación de Bibliotecas

In [1]:
#pip install stanza
#pip install nltk

In [2]:
import string
import stanza
import nltk
from nltk import word_tokenize
import pandas as pd

- Se importó la biblioteca 'string' para trabajar con cadena de texto y manipulación de caracteres.
- Se importó la biblioteca 'nltk' (Natural Language Toolkit) para el procesamiento del lenguaje natural.
- Se importó 'Stanza' para el procesamiento avanzado del lenguaje natural.

### Configuración de Stanza y Natural Language ToolKit

In [3]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ferna\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Se descargó el parquete 'punkt' de NLTK para la tokenización de palabras.

In [4]:
# Configurar Stanza
stanza.download('es')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.8.0.json:   0%|   …

2024-07-10 00:10:19 INFO: Downloaded file to C:\Users\ferna\stanza_resources\resources.json
2024-07-10 00:10:19 INFO: Downloading default packages for language: es (Spanish) ...
2024-07-10 00:10:20 INFO: File exists: C:\Users\ferna\stanza_resources\es\default.zip
2024-07-10 00:10:44 INFO: Finished downloading models and saved to C:\Users\ferna\stanza_resources


Se descargó el modelo en español para Stanza.

## **B.- Planificación y Análisis Inicial**

La función recibirá un texto como entrada y realizará varias transformaciones para corregir el uso de elipsis. En el string corregido no se eliminarán todas las elipsis, pero si las señaladas en las instrucciones de esta tarea.

### Flujo de trabajo proyectado:
1. Tokenización del texto en oraciones.
2.  Procesamiento de oraciones con Stanza.
3.  Corrección de elipsis.
    - Repetición de palabras o bigramas.
    - Ajuste de artículos.
    - Patrones gramaticales.
4.  Reconstrucción del texto.


In [5]:
# Texto de prueba
texto_prueba = ("El acuario es chiquito chiquito. Hay otro más grande pero … fuera del … de la ciudad, y no teníamos ganas de alejarnos mucho. Hay una sección con … con pececitos, cangrejos y bichos por el estilo, todos de la zona. Y otra sección con especies recogidas, ya sea porque los … las abandonaron, o porque están lesionadas y no pueden ser devueltas al ecosistema. Entre ellas había una tortuga … una tortuga de agua, grande, tendría sus 50 cm de … caparazón, y la pobre era cieguita. También había serpientes y lagartos, y uno podía interactuar con ellos. Maddalena dijo “no, gracias”, pero yo dije “siiii” a todo, así que me vi envuelta por serpientes y lagartos. Maddalena me tomó varias fotos con su teléfono, y le di mi correo para que me las mande, así que estoy esperando esas fotos. Salimos del acuario, nos despedimos para siempre con un abrazo, y me volví al … hotel. No tenía mucha idea como volver, pero el … la intuición me llevó derechito y llegué cerca de las 4.00. Como era bien temprano, y no tenía ganas de salir otra vez (hacía muucho calor) me puse el traje de baño y bajé a la piscina. Me bañé un ratito, y luego, aprovechando el lindo día, me quedé un rato disfrutando el sol, cuidando de no quedarme dormida.")

### Tokenización del texto en oraciones:

In [6]:
# Tokenización del texto en oraciones:
oraciones= nltk.sent_tokenize(texto_prueba)
oraciones

['El acuario es chiquito chiquito.',
 'Hay otro más grande pero … fuera del … de la ciudad, y no teníamos ganas de alejarnos mucho.',
 'Hay una sección con … con pececitos, cangrejos y bichos por el estilo, todos de la zona.',
 'Y otra sección con especies recogidas, ya sea porque los … las abandonaron, o porque están lesionadas y no pueden ser devueltas al ecosistema.',
 'Entre ellas había una tortuga … una tortuga de agua, grande, tendría sus 50 cm de … caparazón, y la pobre era cieguita.',
 'También había serpientes y lagartos, y uno podía interactuar con ellos.',
 'Maddalena dijo “no, gracias”, pero yo dije “siiii” a todo, así que me vi envuelta por serpientes y lagartos.',
 'Maddalena me tomó varias fotos con su teléfono, y le di mi correo para que me las mande, así que estoy esperando esas fotos.',
 'Salimos del acuario, nos despedimos para siempre con un abrazo, y me volví al … hotel.',
 'No tenía mucha idea como volver, pero el … la intuición me llevó derechito y llegué cerca d

In [7]:
print(f'El texto fue dividido en {len(oraciones)} oraciones.')

El texto fue dividido en 12 oraciones.


### Procesamiento de oraciones con Stanza:

Configuración del pipeline de procesamiento de Stanza con tokenización, multi-word expansion (mwt), etiquetado gramatical (pos) y lemmatización para el idioma español.

In [8]:
# Procesamiento de oraciones con Stanza.
nlp = stanza.Pipeline(lang='es', processors='tokenize,mwt,pos,lemma,depparse')

2024-07-10 00:10:44 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.8.0.json:   0%|   …

2024-07-10 00:10:45 INFO: Downloaded file to C:\Users\ferna\stanza_resources\resources.json
2024-07-10 00:10:45 INFO: Loading these models for language: es (Spanish):
| Processor | Package           |
---------------------------------
| tokenize  | combined          |
| mwt       | combined          |
| pos       | combined_charlm   |
| lemma     | combined_nocharlm |
| depparse  | combined_charlm   |

2024-07-10 00:10:45 INFO: Using device: cpu
2024-07-10 00:10:45 INFO: Loading: tokenize
2024-07-10 00:10:47 INFO: Loading: mwt
2024-07-10 00:10:47 INFO: Loading: pos
2024-07-10 00:10:47 INFO: Loading: lemma
2024-07-10 00:10:47 INFO: Loading: depparse
2024-07-10 00:10:48 INFO: Done loading processors!


Considerando que para esta tarea se deben abarcar los siguientes casos:
1.	Palabras (y bigramas) repetidas.
2.	Ajuste de artículos (definidos e indefinidos, singular y plural).
3.	Patrones gramaticales: hay patrones gramaticales en los que una elipsis al medio podría perfectamente borrarse. (los patrones que debería incluir serían artículo-sustantivo,  sustantivo-adjetivo, preposición-sustantivo).

Se utilizará la columna 'tag' del procesamiento de texto natural obtenido con Stanza, ya que esta columna proporciona las etiquetas gramaticales que corresponden a las partes del discurso (Part-of-Speech tags) de cada palabra, permitiendo identificar artículos, adjetivos, adverbios, pronombres y otros tipos de palabras.

In [9]:
# Función para extraer información de dependencias:
def depen_parser(mytext):
   out_parser = nlp(mytext) # Procesa el texto con Stanza
   parser_text = [word.text for sent in out_parser.sentences for word in sent.words]
   parser_tag = [word.upos for sent in out_parser.sentences for word in sent.words] 
   dict_pos = {'word': parser_text,'tag':parser_tag} # Se crea un diccionario con la info. extraída.
   df_parser = pd.DataFrame(dict_pos) 
   return df_parser

In [10]:
for oracion in oraciones:
    doc = nlp(oracion)
    df_parser = depen_parser(oracion)
    
    
    print(df_parser)
    
    tokens=df_parser['word'].tolist()
    tags=df_parser['tag'].tolist()

       word    tag
0        El    DET
1   acuario   NOUN
2        es    AUX
3  chiquito    ADJ
4  chiquito    ADJ
5         .  PUNCT
        word    tag
0        Hay   VERB
1       otro   PRON
2        más    ADV
3     grande    ADJ
4       pero  CCONJ
5          …  PUNCT
6      fuera    ADV
7         de    ADP
8         el    DET
9          …  PUNCT
10        de    ADP
11        la    DET
12    ciudad   NOUN
13         ,  PUNCT
14         y  CCONJ
15        no    ADV
16  teníamos   VERB
17     ganas   NOUN
18        de    ADP
19    alejar   VERB
20       nos   PRON
21     mucho   PRON
22         .  PUNCT
         word    tag
0         Hay   VERB
1         una    DET
2     sección   NOUN
3         con    ADP
4           …  PUNCT
5         con    ADP
6   pececitos   NOUN
7           ,  PUNCT
8   cangrejos   NOUN
9           y  CCONJ
10     bichos   NOUN
11        por    ADP
12         el    DET
13     estilo   NOUN
14          ,  PUNCT
15      todos   PRON
16         de    ADP
17       

#### Observaciones encontradas:
1. Hay algunas palabras que se dividieron en el proceso parser, como por ejemplo: 
    - "alejar" "nos" (VERB+PRON), en vez de "alejarnos".
    - "quedar" "me" (VERB+NOUN), en vez de "quedarme".
    - "lagar"  "tos" (VERB+NOUN), en vez de "lagartos".

    Estos detalles se deben a cómo Stanza tokeniza y etiqueta las palabras. Para abordar estos casos, se implementará una lógica adicional en la función, para combinar correctamente las palabras separadas que deberían estar unidas.

2. Por otra parte, se observa que en la frase *'Y otra sección con especies recogidas, ya sea porque los … las abandonaron, o porque están lesionadas y no pueden ser devueltas al ecosistema.'*, la palabra 'los' es un artículo definido plural 'DET' y la palabra 'las' es un pronombre 'PRON'. En este caso, 'las' está actuando como un pronombre que reemplaza un sustantivo plural femenino mencionado anteriormente, refiriéndose a 'las especies'.

    Por lo tanto, dado que Stanza puede etiquetar 'las' como 'PRON' cuando actúa como pronombre, se ajustará la función para considerar tanto 'DET' como 'PRON' para minimizar estos problemas.

### Consideraciones previas a la creación de la función:

Analizando el resultado del procesamiento con Stanza anterior, se deben tener en cuenta los siguientes aspectos:

- Caso 1 "Palabras y bigramas repetidos":
    - Deben aplicarse a cualquier tipo de POS tagging.
    - Eliminar una de ambas.
    - Ejemplos en el texto de prueba:
        - *"Hay una sección con … con pececitos"*
        - *"Entre ellas había una tortuga … una tortuga de agua, grande"*

- Caso 2 "Ajuste de artículos (definidos e indefinidos, singular y plural)":
    - Considerando 'las' puede ser un pronombre 'PRON' o artículo definido plural 'DET', para efectos de esta tarea, se ajustará la función tanto para artículos 'DET' como para pronombres 'PRON'.
    - Artículos definidos: 'el','la','los','las'.
    - Artículos indefinidos: 'un','una','unos','unas'.
    - Si el evento que está antes es artículo 'DET' y el evento que está después de la elipsis es artículo 'DET' o pronombre 'PRON', se debe eliminar el primero y conservar el posterior a la elipsis (asumiendo que el hablante se corrigió de forma correcta).
    - Ejemplos en el texto de prueba:
        - *"ya sea porque los … las abandonaron"* 
        - *"No tenía mucha idea como volver, pero el … la intuición me llevó derechito y llegué cerca de las 4.00."*

- Caso 3 "Patrones gramaticales":
    - artículo-sustantivo: DET-NOUN.
    - sustantivo-adjetivo: NOUN-ADJ.
    - preposición-sustantivo: ADP-NOUN.
    - Ejemplos en el texto de prueba: 
        - *"tendría sus 50 cm de … caparazón, y la pobre era cieguita."* Este caso corresponde a preposición-sustantivo.
        - *"Salimos del acuario, nos despedimos para siempre con un abrazo, y me volví al … hotel."* En este caso corresponde a preposición-sustantivo.


## **C.- Definición de la función para corregir elipsis.**


In [11]:

def corregir_elipsis(texto):
    oraciones = nltk.sent_tokenize(texto)  # Tokeniza el texto en oraciones
    
    nuevo_texto = []  # Lista para almacenar el texto corregido
    
    for oracion in oraciones:
        df_parser = depen_parser(oracion)  # Analiza la oración usando la función depen_parser
        
        tokens = df_parser['word'].tolist()  # Extrae las palabras tokenizadas
        tags = df_parser['tag'].tolist()  # Extrae las etiquetas POS de las palabras
        
        nuevo_tokens = []  # Lista para almacenar los tokens corregidos
        i = 0  # Índice para recorrer los tokens
        while i < len(tokens):
            if tokens[i] == '…':  # Verifica si el token es una elipsis
                # Caso 1: Repetición de palabras o bigramas
                if i > 0 and i < len(tokens) - 1:
                    if tokens[i - 1] == tokens[i + 1]:  # Verifica si hay una repetición de palabras
                        i += 2  # Salta la elipsis y la palabra repetida
                        continue
                    elif i > 1 and i < len(tokens) - 2 and tokens[i - 2] + ' ' + tokens[i - 1] == tokens[i + 1] + ' ' + tokens[i + 2]:
                        # Verifica si hay una repetición de bigramas
                        i += 3  # Salta la elipsis y los bigramas repetidos
                        continue
                
                # Caso 2: Ajuste de artículos (definidos e indefinidos, singular y plural)
                if i < len(tokens) - 1 and tags[i + 1] in ['DET','PRON']:  # Verifica si el token después de la elipsis es un artículo o pronombre
                    if tags[i - 1] == 'DET':  # Verifica si el token antes de la elipsis es un artículo
                        nuevo_tokens.pop()  # Elimina el artículo anterior
                        nuevo_tokens.append(tokens[i + 1])  # Agrega el nuevo artículo
                        i += 2  # Salta la elipsis y el nuevo artículo
                        continue
                
                # Caso 3: Patrones gramaticales (artículo-sustantivo, sustantivo-adjetivo, preposición-sustantivo)
                if i < len(tokens) - 1 and tags[i + 1] in ['NOUN', 'ADJ']:  # Verifica si el token después de la elipsis es un sustantivo o adjetivo
                    if tags[i - 1] in ['DET', 'NOUN', 'ADJ', 'ADP']:  # Verifica si el token antes de la elipsis es un artículo, sustantivo, adjetivo o preposición
                        i += 1  # Salta la elipsis
                        continue
            
            nuevo_tokens.append(tokens[i])  # Agrega el token actual a la lista de tokens corregidos
            i += 1  # Avanza al siguiente token
        
        # Combinación de palabras separadas incorrectamente
        j = 0
        while j < len(nuevo_tokens) - 1:
            if nuevo_tokens[j] == 'alejar' and nuevo_tokens[j + 1] == 'nos':  # Verifica si hay una combinación incorrecta de "alejar" y "nos"
                nuevo_tokens[j] = 'alejarnos'  # Corrige a "alejarnos"
                del nuevo_tokens[j + 1]  # Elimina el token incorrecto
            if nuevo_tokens[j] == 'lagar' and nuevo_tokens[j + 1] == 'tos':  # Verifica si hay una combinación incorrecta de "lagar" y "tos"
                nuevo_tokens[j] = 'lagartos'  # Corrige a "alagartos"
                del nuevo_tokens[j + 1]  # Elimina el token incorrecto                
            elif nuevo_tokens[j] == 'quedar' and nuevo_tokens[j + 1] == 'me':  # Verifica si hay una combinación incorrecta de "quedar" y "me"
                nuevo_tokens[j] = 'quedarme'  # Corrige a "quedarme"
                del nuevo_tokens[j + 1]  # Elimina el token incorrecto
            else:
                j += 1  # Avanza al siguiente par de tokens
        
        nuevo_texto.extend(nuevo_tokens)  # Agrega los tokens corregidos a la lista de texto corregido
        if len(nuevo_texto) > 0 and nuevo_texto[-1] != '.':
            nuevo_texto.append('.')  # Añade punto al final de cada oración si no está presente
    
    # Une las oraciones para formar el texto corregido
    texto_corregido = ' '.join(nuevo_texto)
    
    # Corrige errores comunes de puntuación y espacio
    texto_corregido = texto_corregido.replace(' .', '.')
    texto_corregido = texto_corregido.replace(' ,', ',')
    texto_corregido = texto_corregido.replace(' ;', ';')
    texto_corregido = texto_corregido.replace(' :', ':')
    texto_corregido = texto_corregido.replace('( ', '(')
    texto_corregido = texto_corregido.replace(' )', ')')
    texto_corregido = texto_corregido.replace('“ ', '“')
    texto_corregido = texto_corregido.replace(' ”', '”')
    texto_corregido = texto_corregido.replace('a el', 'al')
    texto_corregido = texto_corregido.replace('de el', 'del')
    
    return texto_corregido  # Devuelve el texto corregido



### Flujo de trabajo realizado:
1. **Tokenización de Oraciones**: La función comienza dividiendo el texto en oraciones usando 'nltk.sent_tokenize'.
2. **Procesamiento de Oraciones**: Cada oración se procesa usando 'depen_parser' para obtener los tokens y sus etiquetas POS.
3. **Corrección de Elipsis**:
    - Caso 1: Elimina las repeticiones de palabras y bigramas.
    - Caso 2: Ajusta los artículos antes y después de la elipsis.
    - Caso 3: Corrige patrones gramaticales específicos.
4. **Combinación de Palabras**: Corrige palabras que se han dividido incorrectamente en el proceso de tokenización.
5. **Unión y Correción del Texto**: Une los tokens corregidos en un solo texto y corrige errores comunes de puntuación y espacio.
6. **Devolución del Texto**: Devuelve el texto corregido.

## **D. Prueba de la función**

### Texto Original:

In [12]:
print(texto_prueba)

El acuario es chiquito chiquito. Hay otro más grande pero … fuera del … de la ciudad, y no teníamos ganas de alejarnos mucho. Hay una sección con … con pececitos, cangrejos y bichos por el estilo, todos de la zona. Y otra sección con especies recogidas, ya sea porque los … las abandonaron, o porque están lesionadas y no pueden ser devueltas al ecosistema. Entre ellas había una tortuga … una tortuga de agua, grande, tendría sus 50 cm de … caparazón, y la pobre era cieguita. También había serpientes y lagartos, y uno podía interactuar con ellos. Maddalena dijo “no, gracias”, pero yo dije “siiii” a todo, así que me vi envuelta por serpientes y lagartos. Maddalena me tomó varias fotos con su teléfono, y le di mi correo para que me las mande, así que estoy esperando esas fotos. Salimos del acuario, nos despedimos para siempre con un abrazo, y me volví al … hotel. No tenía mucha idea como volver, pero el … la intuición me llevó derechito y llegué cerca de las 4.00. Como era bien temprano, y 

### Texto Corregido:

In [13]:
texto_corregido = corregir_elipsis(texto_prueba)
print(texto_corregido)

El acuario es chiquito chiquito. Hay otro más grande pero … fuera del … de la ciudad, y no teníamos ganas de alejarnos mucho. Hay una sección con pececitos, cangrejos y bichos por el estilo, todos de la zona. Y otra sección con especies recogidas, ya sea porque las abandonaron, o porque están lesionadas y no pueden ser devueltas al ecosistema. Entre ellas había una tortuga de agua, grande, tendría sus 50 cm de caparazón, y la pobre era cieguita. También había serpientes y lagartos, y uno podía interactuar con ellos. Maddalena dijo “no, gracias”, pero yo dije “siiii” a todo, así que me vi envuelta por serpientes y lagartos. Maddalena me tomó varias fotos con su teléfono, y le di mi correo para que me las mande, así que estoy esperando esas fotos. Salimos del acuario, nos despedimos para siempre con un abrazo, y me volví al hotel. No tenía mucha idea como volver, pero la intuición me llevó derechito y llegué cerca de las 4.00. Como era bien temprano, y no tenía ganas de salir otra vez (h

## **E. Análisis de Resultados**

La función desarrollada recibió un texto como entrada y realizó varias transformaciones para corregir el uso de elipsis. El objetivo era mejorar la coherencia y legibilidad del texto, eliminando interrupciones innecesarias y ajustando estructuras gramaticales específicas.

En el string corregido, no se eliminaron todas las elipsis, pero sí aquellas señaladas en las instrucciones de esta tarea. La función procesó  adecuadamente los casos indicados, logrando los siguientes resultados:

###  Transformaciones Realizadas y Resultados Observados:

1. Corrección de palabras y bigramas con repeticiones:
    - La función identificó y eliminó repeticiones de palabras y bigramas.
    - Ejemplo observado:
        - Original: *"Hay una sección con ... con pececitos, cangrejos y bichos por el estilo, todos de la zona."*
        - Corregido: *"Hay una sección con pececitos, cangrejos y bichos por el estilo, todos de la zona."*

2. Ajuste de Artículos:
    - Se ajustaron artículos definidos e indefinidos, singular y plural, manteniendo solo el artículo posteiror a la elipsis. Por ejemplo, *"el ... la "* se corrigió a *"la"*.
    - Ejemplo observado N°1: 
        - Original: *"ya sea porque los ... las abandonaron"*
        - Corregido: *"ya sea porque las abandonaron"*
    - Ejemplo observado N°2: 
        - Original: *"pero el ... la intuición me llevó"*
        - Corregido: *"pero la intuición me llevó"*

3. Patrones Gramaticales:
    - Se corrigieron  patrones gramaticales como artículo-sustantivo, sustantivo-adjetivo y preposición-sustantivo.
    - Ejemplo observado:
        - Original: *"Entre ellas había una tortuga ... una tortuga de agua, grande, tendría sus 50  cm de ... caparazón"*
        - Corregido: *"Entre ellas había una tortuga de agua, grande, tendría sus 50 cm de caparazón"*
    




# **III.- Conclusión**

En esta tarea, se ha desarrollado un enfoque sistemático para el procesamiento de textos con el objetivo de corregir el uso de elipsis en transcripciones literales típicas de entrevistas y focus groups. Utilizando herramientas y bibliotecas vistas en clases como NLTK y Stanza, se implementó una función que normaliza el texto, elimina puntuación, tokeniza palabras y corrige elipsis basándose en las reglas específicas del enunciado.

El proceso de eliminar interrupciones innecesarias y ajustar estructuras gramaticales permitió mejorar significativamente la coherencia y legibilidad del texto. Esto puede facilitar posteriormente el análisis en aplicaciones de aprendizaje automático, procesamiento de lenguaje natural (NLP) y análisis linguistico. 

Durante el desarrollo, se identificaron algunos detalles importantes. Por ejemplo, algunas palabras se dividieron incorrectamente en el proceso de análisis, como *"alejar"* *"nos"* (VERB+PRON) en lugar de *"alejarnos"* y *"quedar"* *"me"* (VERB+PRON) en lugar de *"quedarme"*. Por lo tanto, para abordar estos casos, se implementó una lógica adicional en la función para combinar correctamente las palabras separadas que deberían estar unidas.

Finalmente, se observó que en la frase *"y otra sección con especies recogidas, ya sea porque los ... las abandonaron, o porque están lesionadas y no pueden ser devueltas al ecosistema,"* la palabra *"los"* es un artículo definido plural (DET) y la palabra *"las"* es un pronombre (PRON). En este contexto, *"las"* actúa como un pronombre que reemplaza un sustantivo plural femenino mencionado anteriormente, refiriéndose a "las especies". Por lo tanto, se ajustó la función para considerar tanto 'DET' como 'PRON' para manejar estos casos de manera adecuada.