# Ejercicio 5: Modelo Probabilístico

## Objetivo de la práctica
- Aplicar paso a paso técnicas de preprocesamiento, evaluando el impacto de cada etapa en el número de tokens y en el vocabulario final.

## Parte 0: Carga del Corpus

In [9]:
from sklearn.datasets import fetch_20newsgroups

newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
newsgroupsdocs = newsgroups.data

## Parte 1: Tokenización

### Actividad 
1. Tokeniza los documentos.

In [10]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ELI\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\ELI\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [18]:
from nltk.tokenize import word_tokenize

def tokenize_corpus(corpus):
    return [word_tokenize(doc) for doc in corpus]

tokenized_docs = tokenize_corpus(newsgroupsdocs)

print("Número de documentos tokenizados:", len(tokenized_docs))

Número de documentos tokenizados: 18846


In [19]:
print("Ejemplo de documento Tokenizado:")
print(tokenized_docs[0])

Ejemplo de documento Tokenizado:
['I', 'am', 'sure', 'some', 'bashers', 'of', 'Pens', 'fans', 'are', 'pretty', 'confused', 'about', 'the', 'lack', 'of', 'any', 'kind', 'of', 'posts', 'about', 'the', 'recent', 'Pens', 'massacre', 'of', 'the', 'Devils', '.', 'Actually', ',', 'I', 'am', 'bit', 'puzzled', 'too', 'and', 'a', 'bit', 'relieved', '.', 'However', ',', 'I', 'am', 'going', 'to', 'put', 'an', 'end', 'to', 'non-PIttsburghers', "'", 'relief', 'with', 'a', 'bit', 'of', 'praise', 'for', 'the', 'Pens', '.', 'Man', ',', 'they', 'are', 'killing', 'those', 'Devils', 'worse', 'than', 'I', 'thought', '.', 'Jagr', 'just', 'showed', 'you', 'why', 'he', 'is', 'much', 'better', 'than', 'his', 'regular', 'season', 'stats', '.', 'He', 'is', 'also', 'a', 'lot', 'fo', 'fun', 'to', 'watch', 'in', 'the', 'playoffs', '.', 'Bowman', 'should', 'let', 'JAgr', 'have', 'a', 'lot', 'of', 'fun', 'in', 'the', 'next', 'couple', 'of', 'games', 'since', 'the', 'Pens', 'are', 'going', 'to', 'beat', 'the', 'pulp',

## Parte 2: Normalización

### Actividad 
1. Convierte todos los tokens a minúsculas.
2. Elimina puntuación y símbolos no alfabéticos.

In [20]:
#convertir los tokenizados a lower case
def lower_case_tokenized_corpus(tokenized_corpus):
    return [[word.lower() for word in doc] for doc in tokenized_corpus]
lower_case_docs = lower_case_tokenized_corpus(tokenized_docs)
print("Ejemplo de documento en minúsculas:")
print(lower_case_docs[0])

#elimina puntuacion y simbolos no alfabeticos
import string
def remove_punctuation_and_non_alpha(tokenized_corpus):
    return [[word for word in doc if word.isalpha()] for doc in tokenized_corpus]
cleaned_docs = remove_punctuation_and_non_alpha(lower_case_docs)
print("Ejemplo de documento sin puntuación y símbolos no alfabéticos:")
print(cleaned_docs[0])

Ejemplo de documento en minúsculas:
['i', 'am', 'sure', 'some', 'bashers', 'of', 'pens', 'fans', 'are', 'pretty', 'confused', 'about', 'the', 'lack', 'of', 'any', 'kind', 'of', 'posts', 'about', 'the', 'recent', 'pens', 'massacre', 'of', 'the', 'devils', '.', 'actually', ',', 'i', 'am', 'bit', 'puzzled', 'too', 'and', 'a', 'bit', 'relieved', '.', 'however', ',', 'i', 'am', 'going', 'to', 'put', 'an', 'end', 'to', 'non-pittsburghers', "'", 'relief', 'with', 'a', 'bit', 'of', 'praise', 'for', 'the', 'pens', '.', 'man', ',', 'they', 'are', 'killing', 'those', 'devils', 'worse', 'than', 'i', 'thought', '.', 'jagr', 'just', 'showed', 'you', 'why', 'he', 'is', 'much', 'better', 'than', 'his', 'regular', 'season', 'stats', '.', 'he', 'is', 'also', 'a', 'lot', 'fo', 'fun', 'to', 'watch', 'in', 'the', 'playoffs', '.', 'bowman', 'should', 'let', 'jagr', 'have', 'a', 'lot', 'of', 'fun', 'in', 'the', 'next', 'couple', 'of', 'games', 'since', 'the', 'pens', 'are', 'going', 'to', 'beat', 'the', 'pul

## Parte 3: Eliminación de Stopwords

### Actividad 
1. Elimina las palabras vacías usando una lista estándar.

In [22]:
#con nltk vamos a eliminar stopwords de lo que ya estaba eliminado la puntuación y símbolos no alfabéticos
from nltk.corpus import stopwords
def remove_stopwords(tokenized_corpus):
    stop_words = set(stopwords.words('english'))
    return [[word for word in doc if word not in stop_words] for doc in tokenized_corpus]
cleaned_docs_no_stopwords = remove_stopwords(cleaned_docs)
print("Ejemplo de documento sin stopwords:")
print(cleaned_docs_no_stopwords[0])



Ejemplo de documento sin stopwords:
['sure', 'bashers', 'pens', 'fans', 'pretty', 'confused', 'lack', 'kind', 'posts', 'recent', 'pens', 'massacre', 'devils', 'actually', 'bit', 'puzzled', 'bit', 'relieved', 'however', 'going', 'put', 'end', 'relief', 'bit', 'praise', 'pens', 'man', 'killing', 'devils', 'worse', 'thought', 'jagr', 'showed', 'much', 'better', 'regular', 'season', 'stats', 'also', 'lot', 'fo', 'fun', 'watch', 'playoffs', 'bowman', 'let', 'jagr', 'lot', 'fun', 'next', 'couple', 'games', 'since', 'pens', 'going', 'beat', 'pulp', 'jersey', 'anyway', 'disappointed', 'see', 'islanders', 'lose', 'final', 'regular', 'season', 'game', 'pens', 'rule']


## Parte 4: Stemming o Lematización

### Actividad
1. Aplica stemming.
2. Aplica lematización.
3. Compara ambas técnicas.

In [23]:
#con los stopwords eliminados, vamos a hacer stemming
from nltk.stem import PorterStemmer
def stem_tokenized_corpus(tokenized_corpus):
    stemmer = PorterStemmer()
    return [[stemmer.stem(word) for word in doc] for doc in tokenized_corpus]
stemmed_docs = stem_tokenized_corpus(cleaned_docs_no_stopwords)
print("Ejemplo de documento con stemming:")
print(stemmed_docs[0])


Ejemplo de documento con stemming:
['sure', 'basher', 'pen', 'fan', 'pretti', 'confus', 'lack', 'kind', 'post', 'recent', 'pen', 'massacr', 'devil', 'actual', 'bit', 'puzzl', 'bit', 'reliev', 'howev', 'go', 'put', 'end', 'relief', 'bit', 'prais', 'pen', 'man', 'kill', 'devil', 'wors', 'thought', 'jagr', 'show', 'much', 'better', 'regular', 'season', 'stat', 'also', 'lot', 'fo', 'fun', 'watch', 'playoff', 'bowman', 'let', 'jagr', 'lot', 'fun', 'next', 'coupl', 'game', 'sinc', 'pen', 'go', 'beat', 'pulp', 'jersey', 'anyway', 'disappoint', 'see', 'island', 'lose', 'final', 'regular', 'season', 'game', 'pen', 'rule']


In [26]:
import nltk
nltk.download('wordnet') 
nltk.download('omw-1.4') 


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\ELI\AppData\Roaming\nltk_data...
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\ELI\AppData\Roaming\nltk_data...


True

In [27]:
#con lo de stemming, vamos a hacer lemmatization
from nltk.stem import WordNetLemmatizer
def lemmatize_tokenized_corpus(tokenized_corpus):
    lemmatizer = WordNetLemmatizer()
    return [[lemmatizer.lemmatize(word) for word in doc] for doc in tokenized_corpus]
lemmatized_docs = lemmatize_tokenized_corpus(cleaned_docs_no_stopwords)
print("Ejemplo de documento con lemmatization:")
print(lemmatized_docs[0])

Ejemplo de documento con lemmatization:
['sure', 'bashers', 'pen', 'fan', 'pretty', 'confused', 'lack', 'kind', 'post', 'recent', 'pen', 'massacre', 'devil', 'actually', 'bit', 'puzzled', 'bit', 'relieved', 'however', 'going', 'put', 'end', 'relief', 'bit', 'praise', 'pen', 'man', 'killing', 'devil', 'worse', 'thought', 'jagr', 'showed', 'much', 'better', 'regular', 'season', 'stats', 'also', 'lot', 'fo', 'fun', 'watch', 'playoff', 'bowman', 'let', 'jagr', 'lot', 'fun', 'next', 'couple', 'game', 'since', 'pen', 'going', 'beat', 'pulp', 'jersey', 'anyway', 'disappointed', 'see', 'islander', 'lose', 'final', 'regular', 'season', 'game', 'pen', 'rule']


In [28]:
#compara stemming y lemmatization
print("Comparación entre stemming y lemmatization:")
for i in range(5):
    print(f"Original: {cleaned_docs_no_stopwords[i]}")
    print(f"Stemming: {stemmed_docs[i]}")
    print(f"Lemmatization: {lemmatized_docs[i]}")
    print()
    

Comparación entre stemming y lemmatization:
Original: ['sure', 'bashers', 'pens', 'fans', 'pretty', 'confused', 'lack', 'kind', 'posts', 'recent', 'pens', 'massacre', 'devils', 'actually', 'bit', 'puzzled', 'bit', 'relieved', 'however', 'going', 'put', 'end', 'relief', 'bit', 'praise', 'pens', 'man', 'killing', 'devils', 'worse', 'thought', 'jagr', 'showed', 'much', 'better', 'regular', 'season', 'stats', 'also', 'lot', 'fo', 'fun', 'watch', 'playoffs', 'bowman', 'let', 'jagr', 'lot', 'fun', 'next', 'couple', 'games', 'since', 'pens', 'going', 'beat', 'pulp', 'jersey', 'anyway', 'disappointed', 'see', 'islanders', 'lose', 'final', 'regular', 'season', 'game', 'pens', 'rule']
Stemming: ['sure', 'basher', 'pen', 'fan', 'pretti', 'confus', 'lack', 'kind', 'post', 'recent', 'pen', 'massacr', 'devil', 'actual', 'bit', 'puzzl', 'bit', 'reliev', 'howev', 'go', 'put', 'end', 'relief', 'bit', 'prais', 'pen', 'man', 'kill', 'devil', 'wors', 'thought', 'jagr', 'show', 'much', 'better', 'regular',