# Ejercicio 5: Modelo Probabilístico

## Objetivo de la práctica
- Aplicar paso a paso técnicas de preprocesamiento, evaluando el impacto de cada etapa en el número de tokens y en el vocabulario final.

## Parte 0: Carga del Corpus

In [2]:
from sklearn.datasets import fetch_20newsgroups

newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
newsgroupsdocs = newsgroups.data



## Parte 1: Tokenización

### Actividad 
1. Tokeniza los documentos.

In [3]:
#Libreria para tokenizar
from sklearn.feature_extraction.text import CountVectorizer

In [4]:
#Instanciamos un objeto de tipo CountVectorizer
vectorizer = CountVectorizer()
tokenizer = vectorizer.build_tokenizer()

#tokenizamos todos los documentos
tokenized_docs = [tokenizer(doc) for doc in newsgroupsdocs]



In [5]:
#print(tokenized_docs[0][:20])
for i in range(5):  # los primeros 3 documentos
    print(f"Documento {i + 1}: {tokenized_docs[i][:12]}")  # muestra los primeros 10 tokens de cada uno
  

Documento 1: ['am', 'sure', 'some', 'bashers', 'of', 'Pens', 'fans', 'are', 'pretty', 'confused', 'about', 'the']
Documento 2: ['My', 'brother', 'is', 'in', 'the', 'market', 'for', 'high', 'performance', 'video', 'card', 'that']
Documento 3: ['Finally', 'you', 'said', 'what', 'you', 'dream', 'about', 'Mediterranean', 'That', 'was', 'new', 'The']
Documento 4: ['Think', 'It', 'the', 'SCSI', 'card', 'doing', 'the', 'DMA', 'transfers', 'NOT', 'the', 'disks']
Documento 5: ['have', 'an', 'old', 'Jasmine', 'drive', 'which', 'cannot', 'use', 'with', 'my', 'new', 'system']


## Parte 2: Normalización

### Actividad 
1. Convierte todos los tokens a minúsculas.
2. Elimina puntuación y símbolos no alfabéticos.

In [6]:
#Convierte todos los tokens a minusculas y los simbolos alfabeticos
cleaned_docs = [
    [token.lower() for token in doc if token.isalpha()]
    for doc in tokenized_docs
]

In [7]:
#Demostracion
for i in range(5):  # los primeros 3 documentos
    print(f"Documento {i + 1}: {cleaned_docs[i][:12]}")

Documento 1: ['am', 'sure', 'some', 'bashers', 'of', 'pens', 'fans', 'are', 'pretty', 'confused', 'about', 'the']
Documento 2: ['my', 'brother', 'is', 'in', 'the', 'market', 'for', 'high', 'performance', 'video', 'card', 'that']
Documento 3: ['finally', 'you', 'said', 'what', 'you', 'dream', 'about', 'mediterranean', 'that', 'was', 'new', 'the']
Documento 4: ['think', 'it', 'the', 'scsi', 'card', 'doing', 'the', 'dma', 'transfers', 'not', 'the', 'disks']
Documento 5: ['have', 'an', 'old', 'jasmine', 'drive', 'which', 'cannot', 'use', 'with', 'my', 'new', 'system']


## Parte 3: Eliminación de Stopwords

### Actividad 
1. Elimina las palabras vacías usando una lista estándar.

In [8]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\cesar\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [9]:
#eliminar palabras vacias
filtered_docs = [
    [token for token in doc if token not in stop_words]
    for doc in cleaned_docs
]

In [10]:
#Demostracion
for i in range(5):  # los primeros 3 documentos
    print(f"Documento {i + 1}: {filtered_docs[i][:12]}")

Documento 1: ['sure', 'bashers', 'pens', 'fans', 'pretty', 'confused', 'lack', 'kind', 'posts', 'recent', 'pens', 'massacre']
Documento 2: ['brother', 'market', 'high', 'performance', 'video', 'card', 'supports', 'vesa', 'local', 'bus', 'ram', 'anyone']
Documento 3: ['finally', 'said', 'dream', 'mediterranean', 'new', 'area', 'greater', 'years', 'like', 'holocaust', 'numbers', 'july']
Documento 4: ['think', 'scsi', 'card', 'dma', 'transfers', 'disks', 'scsi', 'card', 'dma', 'transfers', 'containing', 'data']
Documento 5: ['old', 'jasmine', 'drive', 'cannot', 'use', 'new', 'system', 'understanding', 'upsate', 'driver', 'modern', 'one']


## Parte 4: Stemming o Lematización

### Actividad
1. Aplica stemming.
2. Aplica lematización.
3. Compara ambas técnicas.

In [11]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()


In [12]:
#se aplica el stemming
stemmed_docs = [
    [stemmer.stem(token) for token in doc]
    for doc in filtered_docs
]

In [13]:
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

# Lematización (sin POS tagging por ahora)
lemmatized_docs = [
    [lemmatizer.lemmatize(token) for token in doc]
    for doc in filtered_docs
]


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\cesar\AppData\Roaming\nltk_data...
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\cesar\AppData\Roaming\nltk_data...


In [14]:
#demostracion
print("Original:", filtered_docs[0][:20])
print("Stemming:", stemmed_docs[0][:20])
print("Lematización:", lemmatized_docs[0][:20])


Original: ['sure', 'bashers', 'pens', 'fans', 'pretty', 'confused', 'lack', 'kind', 'posts', 'recent', 'pens', 'massacre', 'devils', 'actually', 'bit', 'puzzled', 'bit', 'relieved', 'however', 'going']
Stemming: ['sure', 'basher', 'pen', 'fan', 'pretti', 'confus', 'lack', 'kind', 'post', 'recent', 'pen', 'massacr', 'devil', 'actual', 'bit', 'puzzl', 'bit', 'reliev', 'howev', 'go']
Lematización: ['sure', 'bashers', 'pen', 'fan', 'pretty', 'confused', 'lack', 'kind', 'post', 'recent', 'pen', 'massacre', 'devil', 'actually', 'bit', 'puzzled', 'bit', 'relieved', 'however', 'going']
