# Propuesta Dataset texto

**Datasets seleccionado:** Arxiv NLP (MaartenGr)

**URL:** https://huggingface.co/datasets/MaartenGr/arxiv_nlp

In [9]:
# Librerías
import pandas as pd

# URL directa al CSV en Hugging Face
url = "https://huggingface.co/datasets/MaartenGr/arxiv_nlp/resolve/main/data.csv"

# Cargar directamente en un DataFrame
df = pd.read_csv(url)

# Mostrar información básica
print("Dataset cargado correctamente")
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")
print(df.head())

Dataset cargado correctamente
Filas: 44949, Columnas: 4
                                              Titles  \
0  Introduction to Arabic Speech Recognition Usin...   
1  Arabic Speech Recognition System using CMU-Sph...   
2  On the Development of Text Input Method - Less...   
3  Network statistics on early English Syntax: St...   
4  Segmentation and Context of Literary and Music...   

                                           Abstracts  Years  \
0    In this paper Arabic was investigated from t...   2007   
1    In this paper we present the creation of an ...   2007   
2    Intelligent Input Methods (IM) are essential...   2007   
3    This paper includes a reflection on the role...   2007   
4    We test a segmentation algorithm, based on t...   2007   

                 Categories  
0  Computation and Language  
1  Computation and Language  
2  Computation and Language  
3  Computation and Language  
4  Computation and Language  


**1. ¿Qué problema concreto resolverás? ¿Por qué es relevante?**

Para comenzar, este dataset contiene metadatos y resúmenes de artículos de arXiv (una plataforma de investigación científica).<br><br>
El problema concreto que resolvería es la clasificación y análisis de artículos científicos según su contenido.<br>
Para aquello principalmente hay que buscar resolver, cómo entender, organizar y clasificar automáticamente estos textos mediante técnicas de Procesamiento del Lenguaje Natural (NLP).<br>

Por qué es relevante?

**1. Volumen creciente de investigación:** Al haber miles de papers nuevos publicad por día en arXiv. Clasificarlos y analizarlos manualmente es inviable.<br>
**2. Automatización inteligente:** Permitiría entrenar modelos como, la clasificación de artículos por tema, la generación de resúmenes automátizados, la detección de similitudes entre trabajos y la busqueda de tendencias emergentes en la investigación científica.<br>
**3. Aplicaciones prácticas:** la creación de motores de recomendación de papers, sistemas de búsqueda semántica (por contenido, no solo por palabras claves) y el análisis de tendencias en ciencia (por ejemplo, detectar áreas de rápido crecimiento).<br>

**¿Qué tipo de modelo de aprendizaje no supervisado usarás inicialmente? escoger al menos 2 vistos en clase y 2 no vistos en clase? Explicar teóricamente como funciona el modelo y los algoritmos usados por cada método.** 


Para el análisis del dataset Arxiv NLP se propone aplicar cuatro modelos de aprendizaje no supervisado, combinando dos métodos vistos en clase y dos no vistos:

**Modelos vistos en clase**<br>

**K-means**
- K-means en un dataset de texto funciona primero transformando los documentos en vectores numéricos, típicamente mediante TF-IDF o embeddings que representan el contenido de cada texto.<br>
- Luego se elige un número de clusters k y se inicializan k centroides aleatorios.<br>
- A cada documento se asigna al centroide más cercano según una medida de distancia, después se recalculan los centroides como el promedio de los vectores asignados a cada cluster.<br>
- Repitiendo este proceso hasta que las asignaciones de documentos ya no cambian significativamente, de modo que los textos queden agrupados en clusters que minimizan la variación interna dentro de cada grupo.

**PCA**

- Es una técnica de reducción de dimensionalidad que simplifica conjuntos de datos complejos y de alta dimensión.<br>
- Funciona transformando un conjunto de variables originales correlacionadas en un conjunto más pequeño de variables nuevas (componentes principales) que conservan la mayor parte de la información.<br>
- Se utiliza para preprocesar datos, explorar datos, visualizar tendencias y patrones. 

**Modelos no vistos en clase**

**Spectral Clustering**

- Spectral Clustering en un dataset de texto funciona transformando primero los documentos en vectores numéricos (por ejemplo, mediante TF-IDF o embeddings).<br>
- Luego construyendo una matriz de similitud que mide qué tan parecidos son los textos entre sí.<br>
- A partir de esta matriz se crea un Laplaciano del grafo de similitud y se calculan los vectores propios correspondientes a los valores propios más pequeños, los cuales representan los documentos en un espacio reducido donde los clusters son más claros. <br>
- Y finalmente se aplica un algoritmo como k-means sobre este espacio para agrupar los textos según patrones de similitud complejos que no necesariamente son lineales.

**Hierarchical clustering**

- Hierarchical clustering en un dataset de texto consiste en primero transformar los documentos en vectores numéricos mediante técnicas como TF-IDF o embeddings, de modo que cada texto quede representado en un espacio vectorial.<br>
- Luego, el algoritmo agrupa los documentos de manera jerárquica midiendo su similitud con distancias como la euclidiana o coseno, ya sea de manera aglomerativa (empezando con cada documento como su propio clúster y fusionando progresivamente los más similares) o divisiva (empezando con todos los documentos juntos y dividiéndolos iterativamente).<br>
- El resultado se puede visualizar con un dendrograma, que muestra cómo los textos se van uniendo en distintos niveles de similitud, permitiendo identificar clústeres naturales sin definir de antemano su número.

**¿Qué métrica de evaluación utilizarás y por qué?**

En un dataset de texto con K-means, la métrica de evaluación más común es el Silhouette Score, porque mide qué tan bien separados y compactos están los clústeres sin necesitar etiquetas reales.<br>
El Silhouette Score combina dos factores:<br>
- Cohesión: qué tan cerca están los textos dentro de un mismo clúster.
- Separación: qué tan lejos están de los textos de otros clústeres.<br>
  
Su valor va de -1 a 1, donde valores cercanos a 1 indican clústeres bien definidos.
Esta métrica es ideal en aprendizaje no supervisado, como en el caso de K-means aplicado a texto, ya que no se requieren clases verdaderas para calcularla.

**¿Quiénes serían los usuarios o beneficiarios del modelo?**

Los usuarios o beneficiarios de un modelo K-means aplicado a un dataset de texto serían principalmente:<br>

- Investigadores y analistas de datos, que pueden descubrir temas o patrones ocultos en grandes colecciones de documentos sin necesidad de etiquetarlos previamente.
- Empresas o medios de comunicación, que pueden agrupar noticias, reseñas o comentarios de usuarios según su contenido para mejorar la segmentación o el análisis de tendencias.
- Instituciones académicas o científicas, que pueden organizar automáticamente artículos, resúmenes o publicaciones por áreas temáticas.
- Departamentos de atención al cliente o marketing, que pueden clasificar opiniones o feedback en grupos similares para identificar problemas o intereses comunes.<br>

En general, cualquier persona u organización que necesite organizar, explorar o resumir grandes volúmenes de texto se beneficia directamente del modelo.

**¿Qué esperas lograr con tu modelo? (clasificar, predecir, segmentar, etc.)**

Con un modelo K-means aplicado a un dataset de texto, se espera segmentar o agrupar los documentos en función de su similitud de contenido.<br
El objetivo no es clasificar ni predecir etiquetas conocidas, sino descubrir patrones ocultos y organizar automáticamente los textos en grupos temáticos que compartan palabras o significados similares.<br> 
En otras palabras, el modelo busca identificar estructuras naturales dentro del texto, facilitando la exploración, el análisis de temas y la comprensión general del conjunto de datos.

**¿Qué herramientas planeas usar? (PyTorch, TensorFlow, Keras, etc.)**

Para un modelo K-means aplicado a texto, las herramientas más adecuadas y eficientes serían principalmente del ecosistema Python, especialmente:
- **scikit-learn** → para implementar el algoritmo K-means, calcular métricas de evaluación (como Silhouette Score) y manejar el flujo de clustering.
- **pandas** → para la carga, limpieza y manejo estructurado del dataset de texto.
- **scikit-learn.feature_extraction.text (TF-IDF Vectorizer)** o **spaCy / sentence-transformers** → para convertir los textos en vectores numéricos (representación vectorial).
- **matplotlib** o seaborn → para visualizar los clústeres y resultados.

En este caso no es necesario usar PyTorch, TensorFlow o Keras, ya que K-means no es una red neuronal, sino un algoritmo clásico de aprendizaje no supervisado, que se ejecuta de forma más ligera con scikit-learn.