In [1]:
import spacy
import language_tool_python

# Cargar el modelo de spaCy para español
nlp = spacy.load("es_core_news_sm")

# Crear una instancia de LanguageTool para español
tool = language_tool_python.LanguageTool('es')

# Texto con errores
texto = "Esta es un pruebbas de correccin de txto"

# Procesar el texto con spaCy
doc = nlp(texto)

# Corregir el texto usando LanguageTool
correcciones = tool.correct(doc.text)
print(correcciones)


  from .autonotebook import tqdm as notebook_tqdm


Esta es un pruebas de corrección de texto


In [2]:
import pandas as pd
import numpy as np
from transformers import pipeline
import spacy
import language_tool_python
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

# Crear el DataFrame con textos y la columna de texto correcto
data = {
    "texto": ["Esta es un pruebba de corrección de texto", "Esto es otro ejemlo"],
    "texto_correcto": ["Esta es una prueba de corrección de texto", "Esto es otro ejemplo"]
}
df = pd.DataFrame(data)

# Función para corregir texto usando Hugging Face Transformers
def corregir_con_transformers(texto):
    corrector = pipeline("text2text-generation", model="t5-base")
    resultado = corrector(texto)
    return resultado[0]['generated_text']

# Función para corregir texto usando spaCy con LanguageTool
def corregir_con_spacy_languagetool(texto):
    nlp = spacy.load("es_core_news_sm")
    tool = language_tool_python.LanguageTool('es')
    doc = nlp(texto)
    correcciones = tool.correct(doc.text)
    return correcciones

# Función para corregir texto usando LanguageTool directamente
def corregir_con_languagetool(texto):
    tool = language_tool_python.LanguageTool('es')
    correcciones = tool.correct(texto)
    return correcciones

# Aplicar las funciones al DataFrame
df['corregido_transformers'] = df['texto'].apply(corregir_con_transformers)
df['corregido_spacy_languagetool'] = df['texto'].apply(corregir_con_spacy_languagetool)
df['corregido_languagetool'] = df['texto'].apply(corregir_con_languagetool)




AttributeError: module 'torch' has no attribute 'frombuffer'

In [None]:
%pip install fuzzywuzzy

Collecting fuzzywuzzy
  Downloading fuzzywuzzy-0.18.0-py2.py3-none-any.whl.metadata (4.9 kB)
Downloading fuzzywuzzy-0.18.0-py2.py3-none-any.whl (18 kB)
Installing collected packages: fuzzywuzzy
Successfully installed fuzzywuzzy-0.18.0
Note: you may need to restart the kernel to use updated packages.


In [None]:
import pandas as pd
import numpy as np
from transformers import pipeline
import spacy
import language_tool_python
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

from fuzzywuzzy import fuzz  # Importar la función fuzz

# Crear el DataFrame con textos y la columna de texto correcto
data = {
    "texto": [
        "Esta es un pruebba de corrección de texto",
        "Esto es otro ejemlo",
        "Esta es una pruebba de corrección de texto."
        ],
    "texto_correcto": [
        "Esta es una prueba de corrección de texto",
        "Esto es otro ejemplo",
        "Esta es una prueba de corrección de texto."
        ]
}
df = pd.DataFrame(data)

# Función para corregir texto usando Hugging Face Transformers
def corregir_con_transformers(texto):
    corrector = pipeline("text2text-generation", model="t5-base")
    resultado = corrector(texto)
    return resultado[0]['generated_text']

# Función para corregir texto usando spaCy con LanguageTool
def corregir_con_spacy_languagetool(texto):
    nlp = spacy.load("es_core_news_sm")
    tool = language_tool_python.LanguageTool('es')
    doc = nlp(texto)
    correcciones = tool.correct(doc.text)
    return correcciones

# Función para corregir texto usando LanguageTool directamente
def corregir_con_languagetool(texto):
    tool = language_tool_python.LanguageTool('es')
    correcciones = tool.correct(texto)
    return correcciones

# Aplicar las funciones al DataFrame
df['corregido_transformers'] = df['texto'].apply(corregir_con_transformers)
df['corregido_spacy_languagetool'] = df['texto'].apply(corregir_con_spacy_languagetool)
df['corregido_languagetool'] = df['texto'].apply(corregir_con_languagetool)

# Calcular la similitud entre los textos corregidos y los textos correctos
df['similitud_transformers'] = df.apply(lambda row: fuzz.ratio(row['corregido_transformers'], row['texto_correcto']), axis=1)
df['similitud_spacy_languagetool'] = df.apply(lambda row: fuzz.ratio(row['corregido_spacy_languagetool'], row['texto_correcto']), axis=1)
df['similitud_languagetool'] = df.apply(lambda row: fuzz.ratio(row['corregido_languagetool'], row['texto_correcto']), axis=1)

# Función para evaluar si la corrección es correcta o no
def evaluar_correccion(similitud):
    if similitud >= 90:  # Umbral de similitud arbitrario
        return 'Correcto'
    else:
        return 'Incorrecto'

# Aplicar la función de evaluación al DataFrame
df['evaluacion_transformers'] = df['similitud_transformers'].apply(evaluar_correccion)
df['evaluacion_spacy_languagetool'] = df['similitud_spacy_languagetool'].apply(evaluar_correccion)
df['evaluacion_languagetool'] = df['similitud_languagetool'].apply(evaluar_correccion)

# Crear una matriz de confusión para cada método de corrección
confusion_matrix_transformers = confusion_matrix(df['evaluacion_transformers'], ['Correcto']*len(df))
confusion_matrix_spacy_languagetool = confusion_matrix(df['evaluacion_spacy_languagetool'], ['Correcto']*len(df))
confusion_matrix_languagetool = confusion_matrix(df['evaluacion_languagetool'], ['Correcto']*len(df))

# Visualizar las matrices de confusión
plt.figure(figsize=(15, 5))

plt.subplot(1, 3, 1)
sns.heatmap(confusion_matrix_transformers, annot=True, fmt='d', cmap='Blues', cbar=False, xticklabels=['Correcto'], yticklabels=['Correcto'])
plt.title('Hugging Face Transformers')

plt.subplot(1, 3, 2)
sns.heatmap(confusion_matrix_spacy_languagetool, annot=True, fmt='d', cmap='Blues', cbar=False, xticklabels=['Correcto'], yticklabels=['Correcto'])
plt.title('spaCy + LanguageTool')

plt.subplot(1, 3, 3)
sns.heatmap(confusion_matrix_languagetool, annot=True, fmt='d', cmap='Blues', cbar=False, xticklabels=['Correcto'], yticklabels=['Correcto'])
plt.title('LanguageTool')

plt.tight_layout()
plt.show()




KeyboardInterrupt: 

In [3]:
import requests

def verificar_palabra(palabra):
    url = f'https://dle.rae.es/{palabra}'
    response = requests.get(url)
    if response.status_code == 200:
        return 'Correcta' in response.text
    return False

# Ejemplos
palabras = ['hola', 'adios', 'correcttio', 'inteligente', 'queso', 'tortiya']

for palabra in palabras:
    if verificar_palabra(palabra):
        print(f'{palabra}: Correcta')
    else:
        print(f'{palabra}: Incorrecta')


hola: Incorrecta
adios: Incorrecta
correcttio: Incorrecta
inteligente: Incorrecta
queso: Incorrecta
tortiya: Incorrecta


In [None]:
import random

# Palabras con errores comunes
errores_comunes = [
    "pruebba", "ejemlo", "espanol", "contrasena", "computador", "informattica",
    "correcttion", "revisaracion", "recibibo", "pagamuento", "estudiantes", "imformacion",
    "edducacion", "corrigeido", "inconforme", "sencillo", "aceptable", "inteligente",
    "accidente", "prevencion", "estrategia", "obligatorio", "posibilidad", "interesante"
]

# Frases con errores ortográficos aleatorios
frases = [
    "Esta es una pruebba de corrección de texto.", 
    "No tengo idea de como solucioanr este problema.",
    "El ejemlo que pusiste no es el correcto.",
    "La informattica es una materia muy interesante.",
    "Por favor revisaracion el recibibo antes de pagamuento.",
    "Hay muchos estudiantes en la clase de espanol.",
    "La edducacion es importante para el desarrollo.",
    "Estoy corrigeido mi tesis para la presentacion.",
    "Me siento inconforme con los resultados obtenidos.",
    "Es una sencillo tarea que puedes hacer en poco tiempo.",
    "Tu inteligente respuesta me ayudó a entender el tema.",
    "Después del accidente, se tomó medidas de prevencion.",
    "La estrategia utilizada fue efectiva y bien planificada.",
    "Es obligatorio llevar el uniforme al colegio.",
    "Tienes la posibilidad de elegir entre varias opciones.",
    "Este libro es realmente interesante y entretenido."
]

# Generar 100 ejemplos con errores
ejemplos = []
for _ in range(100):
    frase = random.choice(frases)
    frase_con_errores = frase.split()
    for i, palabra in enumerate(frase_con_errores):
        if random.random() < 0.3:  # Probabilidad de introducir un error en cada palabra
            palabra_con_error = random.choice(errores_comunes)
            frase_con_errores[i] = palabra_con_error
    ejemplos.append(" ".join(frase_con_errores))

# Crear el diccionario
diccionario_errores = {"texto": ejemplos}

print(diccionario_errores)


{'texto': ['Tienes la accidente de elegir estudiantes posibilidad opciones.', 'Hay pruebba estudiantes aceptable la accidente corrigeido espanol.', 'El ejemlo que pusiste pagamuento es el recibibo', 'Esta prevencion una correcttion de corrección de texto.', 'Esta es estrategia pruebba de corrección correcttion texto.', 'aceptable libro es realmente interesante y entretenido.', 'La edducacion es edducacion estudiantes el edducacion', 'prevencion tengo posibilidad de como solucioanr este interesante', 'Después ejemlo accidente, se ejemlo medidas accidente prevencion.', 'revisaracion imformacion prevencion en la contrasena de espanol.', 'Me siento inconforme inconforme los resultados informattica', 'pagamuento inteligente respuesta prevencion edducacion a entender el tema.', 'Me siento inconforme con los resultados obtenidos.', 'inteligente obligatorio estrategia el recibibo interesante de pagamuento.', 'El ejemlo que pusiste no es el recibibo', 'La estrategia utilizada fue efectiva y bie

In [9]:
import re
from collections import Counter

def words(text): return re.findall(r'\w+', text.lower())

WORDS = Counter(words(open('big.txt').read()))

def P(word, N=sum(WORDS.values())): 
    "Probability of `word`."
    return WORDS[word] / N

def correction(word): 
    "Most probable spelling correction for word."
    return max(candidates(word), key=P)

def candidates(word): 
    "Generate possible spelling corrections for word."
    return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])

def known(words): 
    "The subset of `words` that appear in the dictionary of WORDS."
    return set(w for w in words if w in WORDS)

def edits1(word):
    "All edits that are one edit away from `word`."
    letters    = 'abcdefghijklmnopqrstuvwxyz'
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + transposes + replaces + inserts)

def edits2(word): 
    "All edits that are two edits away from `word`."
    return (e2 for e1 in edits1(word) for e2 in edits1(e1))

In [12]:
text="Tenjo cossa ke acer en miz día livre algorimo caeteria comid fotocoadora"
for word in text.split():
    print(correction(word), end=' ')

tengo cosa de hacer en mi da libre algoritmo materia comida fotocoadora 