<a href="https://colab.research.google.com/github/AceRb6/Procesamiento_de_Lenguaje_Natural/blob/main/PL2_PLN_Vectorizacion_de_Textos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Practica 2: Vectorizacion de textos

Para estudiar y practicar el Modelo de Espacio Vectorial (VSM) y el Modelo de Bolsa de Palabras (BoW) en Procesamiento de Lenguaje Natural (PLN) nos enfocaremos  en el conjunto de datos de sklear 20 Newsgroups que contiene publicaciones de 20 grupos de noticias diferentes.

Deberan implementar el cálculo manual de la Similitud del Coseno, Producto Punto y distancia euclidea en el dataset 20 Newsgroups y analizarán cómo varían las similitudes dentro y entre categorías.

- Tokenización manual
- Normalización
- Stopwords y lematización con librerías
- Construcción manual de Bag of Words (BoW)
- Cálculo manual de la Similitud del Coseno

## 1. Cargar el Dataset

Para la practica de hoy utilizaremos el dataset 20-Newsgroups de la libreria sklearn que contiene publicaciones de 20 grupos de noticias diferentes:

Primero deberán cargar y eligir alguna(s) categorias del dataset:

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

In [None]:
from sklearn.datasets import fetch_20newsgroups

In [None]:
import random

# Carga del dataset
categorias_seleccionadas = ['sci.space']
newsgroups = fetch_20newsgroups(subset='train', categories=categorias_seleccionadas, remove=('headers', 'footers', 'quotes'))

In [None]:
print(f"Total de documentos: {newsgroups.target_names}")
print(f"Total de documentos: {len(newsgroups.data)}")
print(f"\nEjemplo:\n {newsgroups.data[0]}")

Total de documentos: ['sci.space']
Total de documentos: 593

Ejemplo:
 
Any lunar satellite needs fuel to do regular orbit corrections, and when
its fuel runs out it will crash within months.  The orbits of the Apollo
motherships changed noticeably during lunar missions lasting only a few
days.  It is *possible* that there are stable orbits here and there --
the Moon's gravitational field is poorly mapped -- but we know of none.

Perturbations from Sun and Earth are relatively minor issues at low
altitudes.  The big problem is that the Moon's own gravitational field
is quite lumpy due to the irregular distribution of mass within the Moon.


### 1.1 Analisis Exploratorio

En este punto deben explorar y analizar el contenido del dataset antes de empezar la tokenización, normalizacion, vectorizacion y definir el proceso de similitud.

Las tareas que deben completar son:

- Analizar el número de documentos por categoría: Deberán contar cuántos documentos hay en cada categoría.
- Explorar la longitud de los textos: Deberán analizar el numero de palabras en los diferentes textos (Máximo, Mínimo, Promedio).
- Revisión de Documentos Aleatorios: Investiguen documentos aleatorios y definan si el lenguaje es formal o informal y si hay palabras características de la categoria (s) que escogieron.

### Evaluación

1. ¿Qué diferencias notaste entre las categorías?
2. ¿Cómo esperas que sea la similitud entre documentos de la misma categoría?
3. ¿Cómo crees que afectará el preprocesamiento (eliminar palabras, normalizar texto) los resultados de similitud?

## 2. Tokenización y Normalización

En este punto deben seleccionar la mejor forma de tokenizar los textos, que  técnicas de normalización utilizarán (stopwords, lematización, stemming) y justificar su elección según las características del conjunto de datos.

- NO usar sklearn ni CountVectorizer para tokenización.
- Pueden usar nltk y spacy para normalización.

1. Eliminación de stopwords:


In [None]:
from nltk.corpus import stopwords

nltk.download('stopwords')

stop_words = set(stopwords.words('english'))

def eliminar_stopwords(tokens):
    return [palabra for palabra in tokens if palabra not in stop_words]

2. Recortar palabras a su raiz si aplica (Steemming):

In [None]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

def stemming(tokens):
    return [stemmer.stem(palabra) for palabra in tokens]

3. Convertir palabras a su forma base (Lematización)

In [None]:
from nltk.stem import WordNetLemmatizer

nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()

def lemmatization(tokens):
    return [lemmatizer.lemmatize(palabra) for palabra in tokens]

### Evaluación

1. ¿Qué técnica de tokenización eligieron y por qué?
2. ¿Qué técnicas de normalización usaron y cómo esperan que impacten el entendimiento del texto?

## 3. Explorando y Construyendo Bolsa de Palabras (Bag of Words (BoW))

En este punto deberán generar una matriz de Bolsa de Palabras usando el enfoque binario (asignar 0 o 1 si la palabra existe en un documento) o simplemente contando las ocurrencias de una palabra del vocabulario en los textos.

1. Construcción del vocabulario. Del conjunto de tokens que generaron deberán construir un vocabulario de terminos.

- ¿Deberiamos limitar el numero de palabras?
- ¿Eliminar manualmente palabras que no aportan significado?
- ¿Cómo crees que cambiaría BoW si usamos todas las palabras posibles del vocabulario?

2. Construcción de la Matriz BoW. En este punto representamos cada documento como un vector de frecuencia basado en el vocabulario.

- ¿Cuán dispersa es la matriz BoW? (Muchos ceros vs. valores útiles)

- ¿Cómo podríamos reducir la dispersión de la matriz sin perder información relevante?

3. Análisis de la Frecuencia de Palabras. En este punto basta con analizar la distribución de lsa palabras obteniedo aquellas que parecen más comunes.

- ¿Las palabras más frecuentes aportan información útil o son triviales?
- ¿Deberíamos filtrar palabras extremadamente frecuentes o poco frecuentes?


## 4. Cálculo de la Similitud entre documentos

En este punto deben implementar una función para calcular la Similitud usando al menos 2 metricas. Ademásdeberan comparar documentos dentro y fuera de la misma categoría(si utlizaron 2 o mas categorias).

Pueden usar numpy para calcular el producto punto y la norma de los vectores:

 - np.dot(a, b)
 - np.linalg.norm(a)
 - np.linalg.norm(b)  

Ejemplo:

In [None]:
def similitud_producto_punto(vec1, vec2):
    '''
    logica aqui
    '''
    return  dot_product

def similitud_coseno(vec1, vec2):
    '''
    logica aqui
    '''
    return  dot_product / (norma_vec1 * norma_vec2)

doc1 = matriz_bow[0]
doc2 = matriz_bow[1]

sim = similitud_coseno(doc1, doc2)

Evaluación:

- ¿Los resultados de similitud coinciden con tus expectativas?
- ¿Qué patrones encontraste en la similitud entre categorías?
- ¿Cómo podríamos mejorar la calidad de las similitudes?