## 3A. Práctica: Predicción de Palabras
### Nombre: **Luis Fernando Izquierdo Berdugo**
### Materia: **Procesamiento de Información**
### Fecha: **14 de Octubre de 2024**


In [5]:
import re
from collections import defaultdict, Counter

# Paso 1: Leer el archivo
with open("europarl.es", "r", encoding="utf-8") as file:
    lines = file.readlines()

# Paso 2: Preprocesar el texto
def preprocess(line):
    line = line.lower()
    line = re.sub(r'[^\w\s]', '', line)  # Borrar puntuación
    line = f"<s> {line.strip()} <e>"
    return line

preprocessed_lines = [preprocess(line) for line in lines]

# Paso 3: Construir el modelo de bigramas
unigram_counts = Counter()
bigram_counts = defaultdict(Counter)

for line in preprocessed_lines:
    words = line.split()
    unigram_counts.update(words)
    for i in range(len(words) - 1):
        bigram_counts[words[i]][words[i + 1]] += 1

# Paso 4: Calcular las probabilidades MLE
def mle_probability(bigram_counts, unigram_counts, word1, word2):
    if word1 in bigram_counts and word2 in bigram_counts[word1]:
        return bigram_counts[word1][word2] / unigram_counts[word1]
    else:
        return 0

# Paso 5: Calcular las probabilidades MLE con suavizado de Laplace
def laplace_probability(bigram_counts, unigram_counts, word1, word2, vocab_size):
    return (bigram_counts[word1][word2] + 1) / (unigram_counts[word1] + vocab_size)

# Ejemplo de uso
vocab_size = len(unigram_counts)
word1, word2 = "el", "parlamento"
mle_prob = mle_probability(bigram_counts, unigram_counts, word1, word2)
laplace_prob = laplace_probability(bigram_counts, unigram_counts, word1, word2, vocab_size)

print(f"Probabilidad MLE de '{word1} {word2}': {mle_prob*100}%")
print(f"Probabilidad MLE con suavizado de Laplace de '{word1} {word2}': {laplace_prob}")

Probabilidad MLE de 'el parlamento': 4.152182021633719%
Probabilidad MLE con suavizado de Laplace de 'el parlamento': 0.024225969821960007


In [3]:
print(preprocessed_lines[0])

<s> declaro reanudado el período de sesiones del parlamento europeo  interrumpido el viernes 17 de diciembre pasado  y reitero a sus señorías mi deseo de que hayan tenido unas buenas vacaciones <e>


In [12]:
import re
from collections import defaultdict, Counter

# Paso 1: Leer el archivo
with open("europarl.es", "r", encoding="utf-8") as file:
    lines = file.readlines()

# Paso 2: Preprocesar el texto
def preprocess(line):
    line = line.lower()
    line = re.sub(r'[^\w\s]', '', line)  # Borrar puntuación
    line = f"<s> {line.strip()} <e>"
    return line

preprocessed_lines = [preprocess(line) for line in lines]

# Paso 3: Construir el modelo de bigramas
unigram_counts = Counter()
bigram_counts = defaultdict(Counter)

for line in preprocessed_lines:
    words = line.split()
    unigram_counts.update(words)
    for i in range(len(words) - 1):
        bigram_counts[words[i]][words[i + 1]] += 1


# Paso 4: Calcular las probabilidades MLE
def mle_probability(bigram_counts, unigram_counts, word1, word2):
    if word1 in bigram_counts and word2 in bigram_counts[word1]:
        return bigram_counts[word1][word2] / unigram_counts[word1]
    else:
        return 0

# Paso 5: Calcular las probabilidades MLE con suavizado de Laplace
def laplace_probability(bigram_counts, unigram_counts, word1, word2, vocab_size):
    return (bigram_counts[word1][word2] + 1) / (unigram_counts[word1] + vocab_size)

# Función para calcular la probabilidad de una oración usando MLE
def sentence_probability_mle(sentence, bigram_counts, unigram_counts):
    words = sentence.split()
    prob = 1.0
    for i in range(len(words) - 1):
        prob *= mle_probability(bigram_counts, unigram_counts, words[i], words[i + 1])
    return prob

# Función para calcular la probabilidad de una oración usando MLE con suavizado de Laplace
def sentence_probability_laplace(sentence, bigram_counts, unigram_counts, vocab_size):
    words = sentence.split()
    prob = 1.0
    for i in range(len(words) - 1):
        prob *= laplace_probability(bigram_counts, unigram_counts, words[i], words[i + 1], vocab_size)
    return prob

# Definir las oraciones
sentences = [
    "<s> el parlamento debe enviar un mensaje <e>",
    "<s> el parlamento debe enviar un consejo <e>",
    "<s> el abismo entre pobres y ricos <e>",
    "<s> el abismo entre ricos y pobres <e>",
    "<s> el abismo de la cantera entre pobres y ricos <e>",
    "<s> la comisión debe ser totalmente transparente <e>",
    "<s> la comisión debe ser transparente <e>"
]

# Calcular y comparar las probabilidades
vocab_size = len(unigram_counts)
for sentence in sentences:
    mle_prob = sentence_probability_mle(sentence, bigram_counts, unigram_counts)
    laplace_prob = sentence_probability_laplace(sentence, bigram_counts, unigram_counts, vocab_size)
    print(f"Oración: '{sentence}'")
    print(f"Probabilidad MLE: {mle_prob}")
    print(f"Probabilidad MLE con suavizado de Laplace: {laplace_prob}")
    print()

Oración: '<s> el parlamento debe enviar un mensaje <e>'
Probabilidad MLE: 4.452453175934305e-13
Probabilidad MLE con suavizado de Laplace: 6.012934083279632e-21

Oración: '<s> el parlamento debe enviar un consejo <e>'
Probabilidad MLE: 3.3686200213034554e-13
Probabilidad MLE con suavizado de Laplace: 9.396583560317146e-20

Oración: '<s> el abismo entre pobres y ricos <e>'
Probabilidad MLE: 3.820757157773409e-17
Probabilidad MLE con suavizado de Laplace: 1.6797412983867322e-26

Oración: '<s> el abismo entre ricos y pobres <e>'
Probabilidad MLE: 8.677949590529031e-15
Probabilidad MLE con suavizado de Laplace: 1.1658204487612676e-24

Oración: '<s> el abismo de la cantera entre pobres y ricos <e>'
Probabilidad MLE: 0.0
Probabilidad MLE con suavizado de Laplace: 2.2193756868953378e-37

Oración: '<s> la comisión debe ser totalmente transparente <e>'
Probabilidad MLE: 3.609720553302905e-11
Probabilidad MLE con suavizado de Laplace: 7.525729057212547e-19

Oración: '<s> la comisión debe ser tra