# Ejercicio 5: Modelo Probabilístico

## Objetivo de la práctica
- Aplicar paso a paso técnicas de preprocesamiento, evaluando el impacto de cada etapa en el número de tokens y en el vocabulario final.

## Parte 0: Carga del Corpus

In [1]:
from sklearn.datasets import fetch_20newsgroups

newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
newsgroupsdocs = newsgroups.data

## Parte 1: Tokenización

### Actividad 
1. Tokeniza los documentos.

In [2]:
import nltk
from nltk.tokenize import word_tokenize

def tokenize_corpus(corpus):
    return [word_tokenize(doc) for doc in corpus]

tokenized_docs = tokenize_corpus(newsgroupsdocs)

# Guardar el corpus tokenizado en un archivo
import pickle
with open('tokenized_docs.pkl', 'wb') as f:
    pickle.dump(tokenized_docs, f)

# Cargar el corpus tokenizado desde el archivo
with open('tokenized_docs.pkl', 'rb') as f:
    loaded_tokenized_docs = pickle.load(f)

# Verificar que el corpus cargado es igual al original
assert loaded_tokenized_docs == tokenized_docs, "Los corpus no coinciden"
print("Tokenización completada exitosamente")
print(f"Número de documentos tokenizados: {len(tokenized_docs)}")

# Mostrar algunos ejemplos de documentos tokenizados
for i in range(5):
    print(f"Documento {i+1}: {loaded_tokenized_docs[i][:20]}...")  # Mostrar solo las primeras 20 palabras
# Mostrar el número total de documentos
print(f"Número total de documentos: {len(loaded_tokenized_docs)}")
# Mostrar el número total de palabras en el corpus
total_words = sum(len(doc) for doc in loaded_tokenized_docs)
print(f"Número total de palabras en el corpus: {total_words}")

Tokenización completada exitosamente
Número de documentos tokenizados: 18846
Documento 1: ['I', 'am', 'sure', 'some', 'bashers', 'of', 'Pens', 'fans', 'are', 'pretty', 'confused', 'about', 'the', 'lack', 'of', 'any', 'kind', 'of', 'posts', 'about']...
Documento 2: ['My', 'brother', 'is', 'in', 'the', 'market', 'for', 'a', 'high-performance', 'video', 'card', 'that', 'supports', 'VESA', 'local', 'bus', 'with', '1-2MB', 'RAM', '.']...
Documento 3: ['Finally', 'you', 'said', 'what', 'you', 'dream', 'about', '.', 'Mediterranean', '?', '?', '?', '?', 'That', 'was', 'new', '....', 'The', 'area', 'will']...
Documento 4: ['Think', '!', 'It', "'s", 'the', 'SCSI', 'card', 'doing', 'the', 'DMA', 'transfers', 'NOT', 'the', 'disks', '...', 'The', 'SCSI', 'card', 'can', 'do']...
Documento 5: ['1', ')', 'I', 'have', 'an', 'old', 'Jasmine', 'drive', 'which', 'I', 'can', 'not', 'use', 'with', 'my', 'new', 'system', '.', 'My', 'understanding']...
Número total de documentos: 18846
Número total de palabra

## Parte 2: Normalización

### Actividad 
1. Convierte todos los tokens a minúsculas.
2. Elimina puntuación y símbolos no alfabéticos.

In [3]:
#convierte todos los tokens a minusculas, elimina puntuacion y simbolos alfanumericos con nltk
import string
def preprocess_tokens(tokenized_docs):
    processed_docs = []
    for doc in tokenized_docs:
        # Convertir a minúsculas y eliminar puntuación
        doc = [word.lower() for word in doc if word.isalpha()]
        processed_docs.append(doc)
    return processed_docs
processed_docs = preprocess_tokens(loaded_tokenized_docs)
# Guardar el corpus procesado en un archivo
with open('processed_docs.pkl', 'wb') as f:
    pickle.dump(processed_docs, f)
# Cargar el corpus procesado desde el archivo
with open('processed_docs.pkl', 'rb') as f:
    loaded_processed_docs = pickle.load(f)
# Verificar que el corpus procesado es igual al original
assert loaded_processed_docs == processed_docs, "Los corpus procesados no coinciden"
print("Procesamiento completado exitosamente")
print(f"Número de documentos procesados: {len(processed_docs)}")
# Mostrar algunos ejemplos de documentos procesados
for i in range(5):
    print(f"Documento {i+1}: {loaded_processed_docs[i][:20]}...")  # Mostrar solo las primeras 20 palabras
# Mostrar el número total de documentos procesados
print(f"Número total de documentos procesados: {len(loaded_processed_docs)}")




Procesamiento completado exitosamente
Número de documentos procesados: 18846
Documento 1: ['i', 'am', 'sure', 'some', 'bashers', 'of', 'pens', 'fans', 'are', 'pretty', 'confused', 'about', 'the', 'lack', 'of', 'any', 'kind', 'of', 'posts', 'about']...
Documento 2: ['my', 'brother', 'is', 'in', 'the', 'market', 'for', 'a', 'video', 'card', 'that', 'supports', 'vesa', 'local', 'bus', 'with', 'ram', 'does', 'anyone', 'have']...
Documento 3: ['finally', 'you', 'said', 'what', 'you', 'dream', 'about', 'mediterranean', 'that', 'was', 'new', 'the', 'area', 'will', 'be', 'greater', 'after', 'some', 'years', 'like']...
Documento 4: ['think', 'it', 'the', 'scsi', 'card', 'doing', 'the', 'dma', 'transfers', 'not', 'the', 'disks', 'the', 'scsi', 'card', 'can', 'do', 'dma', 'transfers', 'containing']...
Documento 5: ['i', 'have', 'an', 'old', 'jasmine', 'drive', 'which', 'i', 'can', 'not', 'use', 'with', 'my', 'new', 'system', 'my', 'understanding', 'is', 'that', 'i']...
Número total de documentos 

## Parte 3: Eliminación de Stopwords

### Actividad 
1. Elimina las palabras vacías usando una lista estándar.

In [4]:
#elimina las palabras vacias usando una lista estandar de nltk
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
def remove_stopwords(tokenized_docs, stop_words):
    filtered_docs = []
    for doc in tokenized_docs:
        filtered_doc = [word for word in doc if word not in stop_words]
        filtered_docs.append(filtered_doc)
    return filtered_docs
filtered_docs = remove_stopwords(loaded_processed_docs, stop_words)
# Guardar el corpus filtrado en un archivo
with open('filtered_docs.pkl', 'wb') as f:
    pickle.dump(filtered_docs, f)
# Cargar el corpus filtrado desde el archivo
with open('filtered_docs.pkl', 'rb') as f:
    loaded_filtered_docs = pickle.load(f)
# Verificar que el corpus filtrado es igual al original
assert loaded_filtered_docs == filtered_docs, "Los corpus filtrados no coinciden"
print("Filtrado de palabras vacías completado exitosamente")
print(f"Número de documentos filtrados: {len(filtered_docs)}")
# Mostrar algunos ejemplos de documentos filtrados          
for i in range(5):
    print(f"Documento {i+1}: {loaded_filtered_docs[i][:20]}...")  # Mostrar solo las primeras 20 palabras
# Mostrar el número total de documentos filtrados
print(f"Número total de documentos filtrados: {len(loaded_filtered_docs)}")

Filtrado de palabras vacías completado exitosamente
Número de documentos filtrados: 18846
Documento 1: ['sure', 'bashers', 'pens', 'fans', 'pretty', 'confused', 'lack', 'kind', 'posts', 'recent', 'pens', 'massacre', 'devils', 'actually', 'bit', 'puzzled', 'bit', 'relieved', 'however', 'going']...
Documento 2: ['brother', 'market', 'video', 'card', 'supports', 'vesa', 'local', 'bus', 'ram', 'anyone', 'diamond', 'stealth', 'pro', 'local', 'bus', 'orchid', 'farenheit', 'ati', 'graphics', 'ultra']...
Documento 3: ['finally', 'said', 'dream', 'mediterranean', 'new', 'area', 'greater', 'years', 'like', 'holocaust', 'numbers', 'july', 'usa', 'sweden', 'april', 'still', 'cold', 'changed', 'calendar', 'nothing']...
Documento 4: ['think', 'scsi', 'card', 'dma', 'transfers', 'disks', 'scsi', 'card', 'dma', 'transfers', 'containing', 'data', 'scsi', 'devices', 'attached', 'wants', 'important', 'feature', 'scsi', 'ability']...
Documento 5: ['old', 'jasmine', 'drive', 'use', 'new', 'system', 'unders

## Parte 4: Stemming o Lematización

### Actividad
1. Aplica stemming.
2. Aplica lematización.
3. Compara ambas técnicas.

In [5]:
# aplicar stemming, lematización y compara ambas técnicas
from nltk.stem import PorterStemmer, WordNetLemmatizer
import nltk

def stem_tokens(tokenized_docs):
    stemmer = PorterStemmer()
    stemmed_docs = []
    for doc in tokenized_docs:
        stemmed_doc = [stemmer.stem(word) for word in doc]
        stemmed_docs.append(stemmed_doc)
    return stemmed_docs

def lemmatize_tokens(tokenized_docs):   
    lemmatizer = WordNetLemmatizer()
    lemmatized_docs = []
    for doc in tokenized_docs:
        lemmatized_doc = [lemmatizer.lemmatize(word) for word in doc]
        lemmatized_docs.append(lemmatized_doc)
    return lemmatized_docs

stemmed_docs = stem_tokens(loaded_filtered_docs)
lemmatized_docs = lemmatize_tokens(loaded_filtered_docs)

# Guardar los documentos con stemming y lematización en archivos
with open('stemmed_docs.pkl', 'wb') as f:
    pickle.dump(stemmed_docs, f)
with open('lemmatized_docs.pkl', 'wb') as f:
    pickle.dump(lemmatized_docs, f)

# Cargar los documentos con stemming y lematización desde los archivos
with open('stemmed_docs.pkl', 'rb') as f:
    loaded_stemmed_docs = pickle.load(f)
with open('lemmatized_docs.pkl', 'rb') as f:
    loaded_lemmatized_docs = pickle.load(f)

# Verificar que los documentos con stemming y lematización son iguales a los originales
assert loaded_stemmed_docs == stemmed_docs, "Los documentos con stemming no coinciden"
assert loaded_lemmatized_docs == lemmatized_docs, "Los documentos con lematización no coinciden"
print("Stemming y lematización completados exitosamente")
print(f"Número de documentos con stemming: {len(stemmed_docs)}")
print(f"Número de documentos con lematización: {len(lemmatized_docs)}")

# Mostrar algunos ejemplos de documentos con stemming y lematización
for i in range(5):
    print(f"Documento {i+1} con stemming: {loaded_stemmed_docs[i][:20]}...")  # Mostrar solo las primeras 20 palabras
    print(f"Documento {i+1} con lematización: {loaded_lemmatized_docs[i][:20]}...")  # Mostrar solo las primeras 20 palabras

# Mostrar el número total de documentos con stemming y lematización
print(f"Número total de documentos con stemming: {len(loaded_stemmed_docs)}")
print(f"Número total de documentos con lematización: {len(loaded_lemmatized_docs)}")

# Comparación entre stemming y lematización
print("\n=== COMPARACIÓN STEMMING vs LEMATIZACIÓN ===")
# Ejemplo de palabras para comparar
sample_words = ['running', 'better', 'flies', 'geese', 'children', 'studies']
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

for word in sample_words:
    stemmed = stemmer.stem(word)
    lemmatized = lemmatizer.lemmatize(word)
    print(f"Original: {word} | Stemming: {stemmed} | Lematización: {lemmatized}")

Stemming y lematización completados exitosamente
Número de documentos con stemming: 18846
Número de documentos con lematización: 18846
Documento 1 con stemming: ['sure', 'basher', 'pen', 'fan', 'pretti', 'confus', 'lack', 'kind', 'post', 'recent', 'pen', 'massacr', 'devil', 'actual', 'bit', 'puzzl', 'bit', 'reliev', 'howev', 'go']...
Documento 1 con lematización: ['sure', 'bashers', 'pen', 'fan', 'pretty', 'confused', 'lack', 'kind', 'post', 'recent', 'pen', 'massacre', 'devil', 'actually', 'bit', 'puzzled', 'bit', 'relieved', 'however', 'going']...
Documento 2 con stemming: ['brother', 'market', 'video', 'card', 'support', 'vesa', 'local', 'bu', 'ram', 'anyon', 'diamond', 'stealth', 'pro', 'local', 'bu', 'orchid', 'farenheit', 'ati', 'graphic', 'ultra']...
Documento 2 con lematización: ['brother', 'market', 'video', 'card', 'support', 'vesa', 'local', 'bus', 'ram', 'anyone', 'diamond', 'stealth', 'pro', 'local', 'bus', 'orchid', 'farenheit', 'ati', 'graphic', 'ultra']...
Documento 3 c