# Ejercicio 5: Modelo Probabilístico

## Objetivo de la práctica
- Aplicar paso a paso técnicas de preprocesamiento, evaluando el impacto de cada etapa en el número de tokens y en el vocabulario final.

## Parte 0: Carga del Corpus

In [1]:
from sklearn.datasets import fetch_20newsgroups

newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
newsgroupsdocs = newsgroups.data

## Parte 1: Tokenización

### Actividad 
1. Tokeniza los documentos.

In [2]:
from sklearn.datasets import fetch_20newsgroups
import pandas as pd

In [6]:
# tokenizar
tokenized_docs = [doc.split() for doc in newsgroupsdocs]

# armar DataFrame
df = pd.DataFrame({
    'ID Documento': range(len(tokenized_docs)),
    'Número de tokens': [len(toks) for toks in tokenized_docs],
    'Tokens': tokenized_docs
})

# mostrar primeras filas
print(df.head())

   ID Documento  Número de tokens  \
0             0               137   
1             1                53   
2             2               241   
3             3               144   
4             4               125   

                                              Tokens  
0  [I, am, sure, some, bashers, of, Pens, fans, a...  
1  [My, brother, is, in, the, market, for, a, hig...  
2  [Finally, you, said, what, you, dream, about.,...  
3  [Think!, It's, the, SCSI, card, doing, the, DM...  
4  [1), I, have, an, old, Jasmine, drive, which, ...  


## Parte 2: Normalización

### Actividad 
1. Convierte todos los tokens a minúsculas.
2. Elimina puntuación y símbolos no alfabéticos.

In [7]:
import re
# asumiendo que ya tienes tokenized_docs de la parte 1

normalized_docs = []
for tokens in tokenized_docs:
    clean_tokens = []
    for tok in tokens:
        # 1) pasar a minúsculas
        lower = tok.lower()
        # 2) eliminar todo lo que no sean letras
        only_letters = re.sub(r'[^a-z]', '', lower)
        if only_letters:
            clean_tokens.append(only_letters)
    normalized_docs.append(clean_tokens)

# crear DataFrame de normalización
df_norm = pd.DataFrame({
    'ID Documento': range(len(normalized_docs)),
    'Número de tokens': [len(toks) for toks in normalized_docs],
    'Tokens Normalizados': normalized_docs
})

print(df_norm.head())

   ID Documento  Número de tokens  \
0             0               137   
1             1                47   
2             2               236   
3             3               144   
4             4               117   

                                 Tokens Normalizados  
0  [i, am, sure, some, bashers, of, pens, fans, a...  
1  [my, brother, is, in, the, market, for, a, hig...  
2  [finally, you, said, what, you, dream, about, ...  
3  [think, its, the, scsi, card, doing, the, dma,...  
4  [i, have, an, old, jasmine, drive, which, i, c...  


## Parte 3: Eliminación de Stopwords

### Actividad 
1. Elimina las palabras vacías usando una lista estándar.

In [8]:
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

# asumiendo que ya tienes normalized_docs de la parte 2
stopwords = ENGLISH_STOP_WORDS

filtered_docs = []
for tokens in normalized_docs:
    filtered = [tok for tok in tokens if tok not in stopwords]
    filtered_docs.append(filtered)

df_no_stop = pd.DataFrame({
    'ID Documento': range(len(filtered_docs)),
    'Número de tokens': [len(toks) for toks in filtered_docs],
    'Tokens Filtrados': filtered_docs
})

print(df_no_stop.head())

   ID Documento  Número de tokens  \
0             0                63   
1             1                31   
2             2               109   
3             3                70   
4             4                46   

                                    Tokens Filtrados  
0  [sure, bashers, pens, fans, pretty, confused, ...  
1  [brother, market, highperformance, video, card...  
2  [finally, said, dream, mediterranean, new, are...  
3  [think, scsi, card, doing, dma, transfers, dis...  
4  [old, jasmine, drive, use, new, understanding,...  


## Parte 4: Stemming o Lematización

### Actividad
1. Aplica stemming.
2. Aplica lematización.
3. Compara ambas técnicas.