# Ejercicio 5: Modelo Probabilístico

## Objetivo de la práctica
- Aplicar paso a paso técnicas de preprocesamiento, evaluando el impacto de cada etapa en el número de tokens y en el vocabulario final.

## Parte 0: Carga del Corpus

In [2]:
# Imports
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer


In [3]:
newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
newsgroupsdocs = newsgroups.data

## Parte 1: Tokenización

### Actividad 
1. Tokeniza los documentos.

In [None]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(newsgroupsdocs)
print(vectorizer.get_feature_names_out())

['aa' 'aaa' 'aaaaa' ... 'zzzoh' 'zzzzzz' 'zzzzzzt']


## Parte 2: Normalización

### Actividad 
1. Convierte todos los tokens a minúsculas.
2. Elimina puntuación y símbolos no alfabéticos.

In [None]:
vectorizer = CountVectorizer(token_pattern=r'(?u)\b[a-zA-Z]{2,}\b', lowercase=True)
X = vectorizer.fit_transform(newsgroupsdocs)
print(vectorizer.get_feature_names_out())
X.shape


['aa' 'aaa' 'aaaaa' ... 'zzzoh' 'zzzzzz' 'zzzzzzt']


(18846, 86876)

## Parte 3: Eliminación de Stopwords

### Actividad 
1. Elimina las palabras vacías usando una lista estándar.

In [14]:
stopWords = ['the', 'and', 'to', 'of', 'a', 'in', 'is', 'that', 'it', 'for']
vectorizer = CountVectorizer(token_pattern=r'(?u)\b[a-zA-Z]{2,}\b', stop_words=stopWords, lowercase=True)
X = vectorizer.fit_transform(newsgroupsdocs)
print(vectorizer.get_feature_names_out())
X.shape

['aa' 'aaa' 'aaaaa' ... 'zzzoh' 'zzzzzz' 'zzzzzzt']


(18846, 86867)

## Parte 4: Stemming o Lematización

### Actividad
1. Aplica stemming.
2. Aplica lematización.
3. Compara ambas técnicas.