# Tarea 01: Corrector gramatical

### Para esta tarea, deberás de generar un corrector gramatical que evalué 5 tipos de errores comunes, llenando los métodos que aparecen en este notebook. Deberás de utilizar la lógica adecuada para cada uno y usar el formato de docstring correspondiente para documentar el uso de cada método.

#### Plantilla de tarea 1: Corrector gramatical

In [1]:
# Importar la librería de SpaCy y su núcleo de trabajo en Español
import spacy
from spacy import displacy

# Cargamos núcleo de trabajo (Español)
nlp = spacy.load("es_core_news_md")

In [3]:
# Módulo para correguir errores de ortografía comunes
# Utilizando un diccionario
# Agregar mas ejemplos al diccionario

Diccionario = {
        "q": "que",
        "x": "por",
        "cmo": "cómo",
        "dnd": "dónde",
        "sq": "es que",
        "sta": "esta",
        "msj": "mensaje",
        "aki": "aquí",
        "tmb": "también",
        "qro": "quiero", 
        "pq": "porque"
    }

def ERRORES_COMUNES(texto, palabras_incorrectas):
    # Crear un documento spaCy a partir del texto.
    doc = nlp(texto)

    texto_corregido = ""
    num_correcciones = 0
    for token in doc:
        if token.text.lower() in palabras_incorrectas:
            texto_corregido += "[" + palabras_incorrectas[token.text.lower()] + "]"
            num_correcciones += 1
        else:
            texto_corregido += token.text

        texto_corregido += " "

    return texto_corregido, num_correcciones

texto = "Hola q tal? Quiero ir aki pq tmb sta el msj dnd me dices sq viste algo x allá."

texto_corregido, num_correcciones = ERRORES_COMUNES(texto, Diccionario)

print("Texto original: {}".format(texto))
print("Texto corregido: {}".format(texto_corregido))
print("Número de correcciones: {}".format(num_correcciones))

Texto original: Hola q tal? Quiero ir aki pq tmb sta el msj dnd me dices sq viste algo x allá.
Texto corregido: Hola [que] tal ? Quiero ir [aquí] [porque] [también] [esta] el [mensaje] [dónde] me dices [es que] viste algo [por] allá . 
Número de correcciones: 9


In [None]:
# Módulo para correguir errores dentre singulares y plurales
# Investigar si existe algún atributo en Spacy que pueda devolver dicha característica
# O implementar alguna lógica que pueda detectar si una palabra es sing, o plural

def TIEMPOS_VERBALES(Texto):
    # Documentación y lógica aquí
    return Texto_corregido

In [5]:
# Módulo para detectar palabras repetidas

def PALABRA_REPETIDA(Texto):
    """Esta función verifica que no exista la misma palabra repetida dos veces seguidas en un texto.

    Args:
        texto: El texto a revisar.

    Returns:
        El texto con las correcciones y el número de correcciones.
    """

    # Crear un documento spaCy a partir del texto.
    doc = nlp(texto)

    texto_corregido = ""
    num_correcciones = 0

    prev_token = None
    for token in doc:
        if prev_token is not None and token.text.lower() == prev_token.text.lower():
            num_correcciones += 1
            continue
        else:
            texto_corregido += token.text + " "
            prev_token = token

    return texto_corregido.strip(), num_correcciones

texto = "Estamos probando probando que no haya palabras palabras repetidas en este este texto"

texto_corregido, num_correcciones = PALABRA_REPETIDA(texto)

print("Texto original: {}".format(texto))
print("Texto corregido: {}".format(texto_corregido))
print("Número de correcciones: {}".format(num_correcciones))

Texto original: Estamos probando probando que no haya palabras palabras repetidas en este este texto
Texto corregido: Estamos probando que no haya palabras repetidas en este texto
Número de correcciones: 3


In [6]:
# Módulo para detectar problemas con mayúsculas y minúsculas
# Recuerda que si una palabra son SIGLAS (Es decir, se trata de una organización
# o lugar), NO se considera un error gramatical

def MAYUSC_MINUSC(token):
    """Verifica si el token cumple con la regla de mayúsculas y minúsculas.

    Args:
        token (Token): El token a verificar.

    Returns:
        bool: True si el token cumple con la regla, False si no.
    """
    if token.is_upper and token.is_sent_start or (token.i > 0 and token.nbor(-1).text == "."):
        return True  # Token en mayúscula al inicio de la oración o después de un punto
        
    text = token.text
    if text.islower() or text.isdigit():
        return True  # Token todo en minúsculas o solo dígitos
    
    return False  # No cumple

def check_token_case_rule(text):
    doc = nlp(text)
    for token in doc:
        if not MAYUSC_MINUSC(token):
            return False
    return True

# Ejemplo de uso para verificar regla de mayúsculas y minúsculas
texto_mayus = "los gatos son animales"
if not check_token_case_rule(texto_mayus):
    print("El texto combina mayúsculas y minúsculas.")
else:
    print("El texto no combina mayúsculas y minúsculas.")

El texto no combina mayúsculas y minúsculas.


In [None]:
# Modulo para detectar nouns juntos que no son un nombre propio
# Recuerda que "Juega el perro gato en el parque" es incorrecto
# porque hay dos NOUNS juntos (perro y gato), pero el texto "mi
# amigo Pedro" es correcto, sin embargo aquí se trata de un NOUN
# seguido de un PNOUN (Nombre propio), deberás de identificar si
# si ocurre un caso como este, o si por ejemplo, todo el nombre
# pertenece a una persona (entidad) para validar que no sea un error

def NOUNS(texto):
    """Esta función identifica pares de "NOUNS" seguidos que no son nombres propios y los corrige.

    Args:
        texto: El texto a revisar.

    Returns:
        Una lista de segundos sustantivos y el texto corregido sin los segundos sustantivos.
    """

    # Crear un documento spaCy a partir del texto.
    doc = nlp(texto)

    segundos_sustantivos = []
    texto_corregido = ""

    token_ant = None
    for token in doc:
        if token_ant is not None and token_ant.pos_ == "NOUN" and token.pos_ == "NOUN" and token.ent_type_ != "PERSON":
            if token_ant.text.lower() != token.text.lower():
                segundos_sustantivos.append(token.text)
                if token_ant.text in texto_corregido and token.text in texto_corregido:
                    texto_corregido = texto_corregido.replace(token_ant.text + " " + token.text, "[" + token_ant.text + " " + token.text + "]", 1)
            else:
                texto_corregido += " " + token.text
        else:
            texto_corregido += " " + token.text
        token_ant = token

    return segundos_sustantivos, texto_corregido.strip()

texto = "Este año ciudad, nos vamos a mudar a la ciudad año!"

segundos_sustantivos, texto_corregido = NOUNS(texto)

print("Segundos sustantivos encontrados:", segundos_sustantivos)
print("Texto original: {}".format(texto))
print("Texto corregido: {}".format(texto_corregido))


In [20]:
# El siguiente código debe de poder ser ejecutado y obtener una respuesta que
# muestre cláramente la diferencia entre el texto inicial y el corregido

# Cada método deberá marcar el lugar donde encuentre un error con corchetes
# e imprimir una lista con los errores encontrados

Utterance = input("Texto para revisión: \n")

# Pipeline de funciones definidas previamente
Texto_Corregido = NOUNS(MAYUSC_MINUSC(PALABRA_REPETIDA(TIEMPOS_VERBALES(ERRORES_COMUNES(Utterance)))))

print('\nTexto corregido:\n' + Texto_Corregido)

Texto para revisión: 
ola, me das mi zaldo por fabor, grasias


NameError: name 'TIEMPOS_VERBALES' is not defined

In [None]:
# Frases que puedes probar:
# ola, me das mi zaldo por fabor, grasias
# Quiero una casas en la playa
# los niño salieron a jugar al patio
# Palabras que se repiten repiten

# ola señorita, me puede dar mi zaldo por fabor, grasias, lo que pasa pasa es que quiero Comprar una casas en la playa playa para que los niño jueguen en el patio. Mi PeRRo es muy juguetón, por eso me mudo a la CDMX. EL casero mE dijo: "debes pagado antes del viernes viernes".