# Selección de datasets 

En este tonebook se analizarán datasets de datos, tabulares y de imágenes con el fín de seleccionar uno de cada uno para sealizar el trabajo del ramo Machine Learning I del Magíster en Data Science de la UDLA.

**Integrantes:**
- Raúl Urzúa
- Adán Marchena

## Paso 1: Revisión de datasets

### Revisión de datasets de texto

En este notebook se revisarán los datasets para luego seleccionar los tres que se utilizarán en el resto del curso.

In [2]:
# Librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import fsspec
from datasets import load_dataset

#### Dataset: Medrxiv-Clustering-s2s
**Url:** https://huggingface.co/datasets/mteb/medrxiv-clustering-s2s

**Descripción:** Títulos de artículos científicos de MedRxiv en 51 categorías.

**Aplicación:** Ideal para modelado de temas o agrupamiento de textos científicos

Este dataset forma parte del benchmark Massive Text Embedding Benchmark (MTEB), y está diseñado para evaluar la capacidad de modelos de lenguaje en tareas de agrupamiento semántico (clustering).

In [7]:
# Cómo llamar el dataset desde Hugginface
df_medrxiv = pd.read_json("hf://datasets/mteb/medrxiv-clustering-s2s/test.jsonl.gz", lines=True)

**Características**
- 2 columnas: 
  - *sentences (Object):* título de los artículos
  - *labels (Object):* área de investigación a la que pertenece el artículo
- 17.647 filas
- No tiene datos nulos
- Dominio: ciencia
- Tipo de tarea: Clustering de textos / Modelado de temas.
  
**Observaciones**

Revisando el dataset puedo ver que tiene etiquetas, por lo que no sería muy útil trabajar con ellas para aprendizaje no supervisado. Por otra parte, si solo se utiliza la columna de títulos se podría realizar ejercicios como:
- TF-IDF + KMeans → para agrupar artículos por similitud de temas.
- Embeddings + PCA o t-SNE → para visualizar los grupos de artículos.
- Modelado de temas (LDA) → para descubrir temas latentes automáticamente.

Y se podrían utilizar las etiquetas para comparar los clusteres encontrados y evaluar qué tan bien funcionó el modelo aplicado.

**Conclusión**

Aunque el dataset tiene etiquetas, puede aprovecharse eficazmente para tareas de aprendizaje no supervisado, como agrupamiento temático de textos científicos. Sin embargo, dado que los textos son cortos (solo títulos), puede ser más limitado para representar contextos semánticos amplios.

#### Dataset: arxiv_nlp
**Url:** https://huggingface.co/datasets/MaartenGr/arxiv_nlp

**Descripción:** Artículos de investigación en NLP. extraídos de arXiv.

**Aplicación:** Útil para clustering de documentos académicos.

Este dataset recopila publicaciones de investigación del portal arXiv relacionadas con Natural Language Processing (NLP). Contiene tanto títulos como resúmenes (abstracts), lo que permite un análisis semántico más profundo que otros datasets similares.

In [11]:
df_arxiv = pd.read_csv("hf://datasets/MaartenGr/arxiv_nlp/data.csv")

**Características**
- 4 columnas
      - *Titles (Object):* título del artículo
      - *Abstract (Object):* extracto principal del estudio
      - *Years (Int):* año de publicación
      - *Categories (Object):* área de investigación a la que pertenece el artículo
  - 44.949 filas
  - No contiene datos nulos
  - Dominio: ciencia / procesamiento de lenguaje natural
  - Tipo de tarea: clustering de textos, modelado de temas, análisis temporal de publicaciones

**Observaciones**

A diferencia del dataset medrxiv, este corpus ofrece textos más largos y contextuales (abstracts), lo que permite aplicar representaciones vectoriales más ricas (por ejemplo, TF-IDF, Word2Vec o embeddings de modelos BERT).
Además, la presencia de la variable Year permite explorar la evolución temática de las publicaciones a lo largo del tiempo mediante agrupamiento temporal o visualizaciones de tendencias.

**Conclusión**

El dataset arxiv_nlp es una excelente opción para tareas de aprendizaje no supervisado en el dominio científico, especialmente para modelado de temas o análisis de similitud entre publicaciones. Su riqueza textual y diversidad temática lo convierten en una fuente sólida para aplicar técnicas de clustering o reducción de dimensionalidad.

#### Dataset: Stack Exchange Topics
**Url:** https://www.kaggle.com/competitions/transfer-learning-on-stack-exchange-tags/data

**Descripción:** El dataset está compuesto por múltiples subconjuntos temáticos extraídos de la plataforma Kaggle, donde los usuarios realizan preguntas y respuestas sobre distintos temas técnicos y de interés general.
Cada subdataset corresponde a una comunidad temática distinta (por ejemplo, biology, cooking, crypto, diy, robotics, travel, etc.).
En conjunto, forman un corpus de textos breves con lenguaje natural informal y centrado en la resolución de problemas.

**Aplicación:** Ideal para aplicar técnicas de procesamiento de lenguaje natural (NLP), clustering de preguntas por tema, modelado de tópicos (LDA) o análisis de similitud semántica entre comunidades.

In [3]:
df_bio = pd.read_csv("texto/Stack Exchange Topics/biology.csv")
df_cook = pd.read_csv("texto/Stack Exchange Topics/cooking.csv")
df_cryp = pd.read_csv("texto/Stack Exchange Topics/crypto.csv")
df_diy = pd.read_csv("texto/Stack Exchange Topics/diy.csv")
df_rob = pd.read_csv("texto/Stack Exchange Topics/robotics.csv")
df_ss = pd.read_csv("texto/Stack Exchange Topics/sample_submission.csv")
df_test = pd.read_csv("texto/Stack Exchange Topics/test.csv")
df_trav = pd.read_csv("texto/Stack Exchange Topics/travel.csv")

**Características generales**

- 8 archivos CSV (uno por temática):
    - biology.csv
    - cooking.csv
    - crypto.csv
    - diy.csv
    - robotics.csv
    - sample_submission.csv
    - test.csv
    - travel.csv
- Columnas comunes (pueden variar según archivo):
    - id (int): identificador de la publicación
    - title (object): título o pregunta del usuario
    - body (object): contenido o detalle de la pregunta
    - tags (object): etiquetas temáticas asociadas
- Cantidad de registros total: depende de la combinación de los 8 archivos (suelen superar las 100.000 filas en total).
- Dominio: lenguaje natural / foros de discusión.
- No contiene valores nulos significativos.
- Tipo de tarea:
    - Clustering de textos
    - Modelado de temas (LDA, NMF)
    - Clasificación de comunidades
    - Análisis semántico de preguntas

**Observaciones:**

Este dataset tiene la particularidad de estar distribuido en múltiples fuentes temáticas, lo que permite diferentes estrategias de análisis:
- Se pueden analizar los subdatasets por separado (por ejemplo, agrupar preguntas dentro de biology por similitud de contenido).
- O bien unirlos en un solo corpus global, añadiendo una columna “tema” (proveniente del nombre del archivo), para estudiar agrupamientos intertemáticos (por ejemplo, similitudes entre biology y robotics).

- Preprocesamiento típico:
    - Limpieza de HTML y caracteres especiales.
    - Normalización a minúsculas.
    - Eliminación de stopwords.
    - Tokenización o lematización.
    - Vectorización con TF-IDF o embeddings (Word2Vec, BERT).
- Métodos posibles:
    - TF-IDF + K-Means para agrupar preguntas similares.
    - LDA para descubrir temas recurrentes dentro de cada comunidad.
    - PCA/t-SNE para visualizar relaciones entre comunidades.

**Conclusión:**

El dataset Stack Exchange Topics ofrece una excelente base para experimentación en aprendizaje no supervisado.
Su estructura multitemática permite tanto el análisis individual de comunidades como la exploración de similitudes entre dominios de conocimiento.
A diferencia de los datasets medrxiv y arxiv_nlp, este corpus presenta lenguaje más informal y diverso, lo que lo hace ideal para contrastar modelos entrenados en contextos académicos con datos de lenguaje cotidiano.

En síntesis:

*Ventajas:* gran volumen, variedad de temas, riqueza léxica, lenguaje natural no técnico.

*Desventajas:* textos más ruidosos y desestructurados (mayor trabajo de limpieza).

Por su diversidad y tamaño, este dataset puede considerarse una opción sólida como dataset de texto principal, especialmente si se busca aplicar clustering o modelado de temas en lenguaje general.

### Revisión de Datasets tabulares


#### Dataset: polinaeterna/tabular-benchmark (2 datasets)
**Url:** https://huggingface.co/datasets/polinaeterna/tabular-benchmark

**Descripción:** Este dataset forma parte del Tabular Benchmark Dataset Collection, que agrupa conjuntos de datos clásicos usados para evaluar modelos en tareas de aprendizaje automático con datos estructurados.
Contiene varios subdatasets; en este caso, al cargarlo desde Hugging Face, aparecen dos: **Covertype.csv** y **Higgs.csv**, ambos ampliamente utilizados en investigación y competencias de ML.

**Aplicación:** Sirve para realizar análisis exploratorio, reducción de dimensionalidad o aprendizaje no supervisado (por ejemplo, clustering), comparando estructuras y patrones entre variables numéricas y categóricas.
También es útil para experimentar con distintos algoritmos en entornos tabulares (KMeans, DBSCAN, PCA, Autoencoders, etc.).

In [3]:
# Cómo llamar los datasets desde Hugginface
df_covertype = pd.read_csv("hf://datasets/polinaeterna/tabular-benchmark/clf_cat/covertype.csv")
df_higgs = pd.read_csv("hf://datasets/polinaeterna/tabular-benchmark/clf_num/Higgs.csv")

**Subdatasets**

1. Covertype
- Descripción:* Datos de cobertura forestal en EE. UU. recopilados por el U.S. Forest Service.
Cada registro representa un área de bosque con información topográfica y de suelo, y la variable objetivo indica el tipo de cobertura forestal.
- Características:
    - Filas: 423.680
    - Columnas: 55 (todas numéricas)
    - No hay valores nulos
- Dominio: Medio ambiente / geografía
- Aplicaciones posibles:
    - Clustering para descubrir regiones con características similares.
    - Reducción de dimensionalidad (PCA, t-SNE) para visualizar los patrones entre tipos de terreno.
    - Modelado de correlaciones entre variables ambientales.

2. Higgs
- Descripción: Datos simulados del experimento del CERN sobre detección del bosón de Higgs.
Cada registro representa un evento con 28 variables físicas (energías, momentos, ángulos, etc.), usadas para distinguir entre eventos del Higgs y ruido de fondo.
- Características:
    - Filas: 940.160
    - Columnas: 25 (todas numéricas)
    - No contiene valores nulos
    - Dominio: Física de partículas
- Aplicaciones posibles:
    - Clustering para identificar patrones o grupos de eventos similares.
    - Reducción de dimensionalidad (PCA, UMAP) para visualizar la estructura del espacio de eventos.
    - Ejercicio de análisis comparativo entre eventos reales y simulados.

**Observaciones**
- Aunque ambos datasets incluyen etiquetas, pueden ignorarse para enfocarse en aprendizaje no supervisado.
- El dataset Higgs es más adecuado si quieres explorar datasets numéricos grandes con cierta complejidad matemática.
- Covertype es más manejable y tiene interpretabilidad más clara (relaciones geográficas y ambientales).

**Conclusión**

La colección Tabular Benchmark permite realizar experimentos de aprendizaje no supervisado con datos reales y multidimensionales.
Ambos subdatasets son sólidos candidatos, pero:
- Covertype destaca por su interpretabilidad y estructura equilibrada.
- Higgs por su volumen y desafío computacional moderado.

#### Dataset: Analyzing Student Academic Trends
**Url:** https://www.kaggle.com/datasets/saadaliyaseen/analyzing-student-academic-trends

**Descripción:** Este conjunto de datos contiene información académica de 200 estudiantes. Incluye detalles sobre sus hábitos de estudio, duración del sueño, asistencia, rendimiento académico anterior y calificaciones de los exámenes finales. Los datos se pueden utilizar para analizar los factores que influyen en el rendimiento en los exámenes e identificar patrones en los resultados del aprendizaje de los estudiantes.

**Aplicación:** 
- Predecir estudiantes en riesgo de bajo rendimiento
- Identificar factores clave para el éxito académico
- Segmentación de estudiantes para intervenciones personalizadas
- Análisis de impacto de diferentes hábitos de estudio

In [21]:
df_students = pd.read_csv("tabulares/student_exam_scores.csv")

**Características**
- 6 columnas
    - Una columna de tipo Object que representa el id del estudiante
    - 5 columnas numéricas (4 float, 1 int)
- 200 filas
- No contiene datos nulos
- Dominio: análisis estudiantil
- Tipo de tarea:
    - Random Forest, XGBoost para clasificación
    - Regresión lineal para predicción de notas
    - K-means para clustering
    - Árboles de decisión para interpretabilidad

**Observaciones**

El dataset tiene una buena estructura, con datos bien organizados y contiene una temática interesante, de la que se pueden obtener casos interesantes de estudio. No contiene variables categóricas, lo que lo vuelve especialmente óptimo para aprendizaje no supervizado en el que se pueden aplicar técnicas como Clustering: Agrupar estudiantes por patrones de estudio/sueño/rendimiento, o PCA: Reducir dimensionalidad y visualizar patrones.

**Conclusión**

Es un dataset muy adecuado para empezar con machine learning, especialmente si se está interesado en educación analytics o se busca practicar con datos del mundo real. 


#### Dataset: Breast_cancer_dataset
**Url:** https://www.kaggle.com/datasets/yasserh/breast-cancer-dataset

**Descripción:** este dataset contiene información sobre las dimensiones de tumores alojados en las mamas femeninas (radio, textura, perímetro, etc.), además de un target de diagnóstico (M o B). Es uno de los datasets más utilizados en la literatura de ML y ha ayudado a avanzar en técnicas de diagnóstico temprano de cáncer.

**Aplicación:** Diagnóstico asistido por ML en medicina

In [25]:
df_breast = pd.read_csv("tabulares/Breast_cancer_dataset.csv")

**Características**

- 569 filas
- 32 columnas
    - Contiene un target: columna `diagnosis` con los valores M (Maligno) y B (Benigno)
    - Las demás columnas son numéricas (una int y 30 float)
    - Contiene una columna vacía. las demás no presentan datos nulos
    - Dominio: medicina/oncología
    - Tipo de tarea:
      - SVM
      - Random Forest
      - Logistic Regression
      - Neural Networks

**Observaciones**

El dataset presenta un problema de clasificación binaria, pero aplicaría lo mismo que para los demás; trabajar sin esa columna. Por otra parte presenta varias ventajas, sobretodo en el ámbito de la salud. Este dataset nos permitiría eventualmente aportar un granito de arena a la lucha contra el cáncer.
También tiene un gran valor educativo:
- Excelente para practicar clasificación médica
- Ideal para aprender sobre importancia de características
- Buen caso para normalización de datos (escalas diferentes)
- Demostración de ML con impacto social 

**Conclusión**

A pesar de la clasificación binaria que posee, el dataset tiene un gran potencial para trabajar con él, sobretodo por la importancia que podría significar un hagazgo relevante para la salud, en especial de las mujeres.

### Revisión de Datasets de imágenes

#### Agriculture crop images
**Url:** https://www.kaggle.com/datasets/aman2000jaiswal/agriculture-crop-images

**Descripción:** Conjunto de imágenes agrícolas con diferentes tipos de cultivos (trigo, arroz, maíz, algodón, entre otros).
El dataset fue originalmente diseñado para clasificación supervisada de cultivos, pero puede utilizarse en contextos no supervisados para explorar similitudes visuales entre especies vegetales.

**Características**

- Total de imágenes: ~3.200
- Formato: .jpg
- Resolución promedio: 256×256 píxeles
- Contiene carpetas por tipo de cultivo (pueden omitirse para análisis no supervisado)
- Dominio: agricultura / visión computacional

**Aplicaciones posibles**

- Clustering para agrupar imágenes según texturas o colores predominantes.
- Reducción de dimensionalidad con PCA o t-SNE para visualizar relaciones entre tipos de cultivos.
- Evaluación de representaciones visuales en entornos naturales.

**Conclusión**

Dataset adecuado para aplicar aprendizaje no supervisado en imágenes del entorno natural.
Permite estudiar la capacidad de los modelos para distinguir patrones visuales asociados a diferentes especies vegetales sin usar etiquetas explícitas.

#### CT Medical Images
**Url:** https://www.kaggle.com/datasets/kmader/siim-medical-images

**Descripción:** Colección de imágenes médicas provenientes de la Sociedad de Informática en Imágenes Médicas (SIIM). Incluye estudios radiológicos y tomográficos en formato DICOM, posteriormente convertidos a imágenes estándar.
El dataset fue diseñado para tareas de diagnóstico automático, pero puede utilizarse para aprendizaje no supervisado orientado a la agrupación de imágenes médicas según características morfológicas o anatómicas.

**Características**

- Total de imágenes: ~12.000
- Formato: .jpg o .png (derivado de DICOM)
- Contenido: radiografías de tórax y otras regiones anatómicas
- Resolución variable
- Algunas imágenes presentan etiquetas diagnósticas, pero pueden omitirse para análisis no supervisado
- Dominio: medicina / imágenes biomédicas

**Aplicaciones posibles**

- Clustering para descubrir patrones visuales en imágenes médicas sin usar etiquetas.
- Reducción de dimensionalidad con autoencoders o PCA para analizar similitudes entre estudios.
- Preprocesamiento para segmentación o detección de anomalías sin supervisión.

**Conclusión**

Dataset relevante para experimentos de agrupamiento o representación no supervisada en el ámbito médico.
Su complejidad y naturaleza visual homogénea permiten evaluar la sensibilidad de modelos no supervisados a pequeñas variaciones estructurales.

#### Small image dataset for unsupervised clustering
**Url:** https://www.kaggle.com/datasets/heavensky/image-dataset-for-unsupervised-clustering

**Descripción:** Conjunto de imágenes recopiladas con el propósito de realizar tareas de aprendizaje no supervisado, específicamente clustering.
Contiene imágenes de distintos objetos y escenas variadas, sin etiquetas predefinidas, lo que lo convierte en un recurso ideal para ejercicios de agrupamiento y reducción de dimensionalidad en el dominio visual.

**Características**

- Total de imágenes: aproximadamente 8.000
- Formato: .jpg
- Tamaño promedio: 128×128 píxeles
- Categorías: variadas (paisajes, animales, objetos, personas, entre otros)
- No contiene etiquetas (dataset puramente no supervisado)
- Dominio: visión por computadora general

**Aplicaciones posibles**

- Clustering de imágenes mediante extracción de features con redes preentrenadas (por ejemplo, VGG16 o ResNet50).
- Reducción de dimensionalidad con PCA, t-SNE o UMAP para visualizar agrupamientos.
- Evaluación cualitativa de similitud visual entre imágenes.

**Conclusión**

Dataset apropiado para analizar la efectividad de técnicas no supervisadas en imágenes sin anotaciones.
Su diversidad lo hace útil para pruebas exploratorias y comparación de representaciones visuales basadas en features profundas.

## Paso 2: Selección de trabajo

### Dataset de Texto
Arxiv NLP (MaartenGr)
https://huggingface.co/datasets/MaartenGr/arxiv_nlp

**Motivo:***

Tiene suficiente contenido textual para un análisis semántico real (modelado de temas, embeddings, clustering). Además, su estructura (título + abstract) permite comparar resultados y obtener visualizaciones interpretables. Es más “limpio” y académico que Stack Exchange y más rico que MedRxiv.

**Resumen:**

El dataset contiene casi 45.000 artículos académicos del dominio de procesamiento del lenguaje natural (NLP) obtenidos desde arXiv. Cada registro incluye el título, resumen, año y categoría temática del artículo, ofreciendo una muestra representativa de la investigación científica reciente en este campo.

**Posibles problemas del mundo real:**

Podría utilizarse para detectar automáticamente los temas emergentes en investigación NLP, identificar áreas con mayor crecimiento, o agrupar artículos similares para facilitar la búsqueda y organización de literatura científica sin depender de etiquetas preexistentes.

**Tipo de aprendizaje no supervisado:**

Modelado de temas con LDA (Latent Dirichlet Allocation) o clustering con embeddings + K-Means. LDA permitiría descubrir temas latentes dentro de los abstracts, mientras que los embeddings combinados con K-Means podrían identificar grupos de artículos con lenguaje similar o enfoques metodológicos parecidos.

**Desafíos potenciales:**

El tamaño y la longitud variable de los textos pueden aumentar la complejidad computacional. Además, los abstracts suelen contener vocabulario técnico y siglas que requieren una limpieza cuidadosa. Puede haber redundancia entre artículos muy similares, y el número óptimo de temas o clusters no es trivial de determinar.

In [7]:
# Como llamar el dtaset desde Hugginface
df_arxiv = pd.read_csv("hf://datasets/MaartenGr/arxiv_nlp/data.csv")

### Dataset Tabular

Covertype
https://huggingface.co/datasets/polinaeterna/tabular-benchmark

**Motivo:**
Es lo bastante grande (~420 mil filas) para mostrar técnicas de clustering y reducción de dimensionalidad, con múltiples variables numéricas reales. Permite aplicar PCA, KMeans y DBSCAN de forma significativa, y tiene buena interpretabilidad sin ser un caso “típico” como el Titanic o Iris.

**Resumen:**
El dataset Covertype contiene 423.680 filas y 55 columnas que describen características ambientales y topográficas de parcelas de terreno en EEUU (elevación, pendiente, suelo, sombras, etc.). El objetivo original era predecir el tipo de cobertura forestal, pero aquí se puede usar sin etiquetas para análisis exploratorio y clustering ambiental.

**Posibles problemas del mundo real:**
Puede aplicarse para identificar regiones con características ecológicas similares, realizar segmentaciones ambientales o descubrir patrones naturales en los tipos de bosques según las variables geográficas y climáticas. También podría servir para detectar regiones atípicas o con condiciones ambientales inusuales.

**Tipo de aprendizaje no supervisado:**
Clustering (K-Means, DBSCAN o Gaussian Mixture Models) para agrupar regiones similares según sus condiciones geográficas, y reducción de dimensionalidad (PCA o t-SNE) para visualizar las relaciones entre las variables ambientales. Estos métodos permitirían descubrir agrupamientos naturales sin depender de las etiquetas del tipo de bosque.

**Desafíos potenciales:**

La gran cantidad de variables numéricas y categóricas requiere una buena normalización y codificación. Algunas características pueden tener alta correlación, lo que puede distorsionar el clustering. Además, el tamaño del dataset puede implicar una alta demanda de memoria y tiempo de cómputo.

In [None]:
# Cómo llamar el datasets desde Hugginface
df_covertype = pd.read_csv("hf://datasets/polinaeterna/tabular-benchmark/clf_cat/covertype.csv")

### Dataset de Imagénes
Image Dataset for Unsupervised Clustering
https://www.kaggle.com/datasets/heavensky/image-dataset-for-unsupervised-clustering

**Motivo:**
Es el único de los tres creado explícitamente para aprendizaje no supervisado. Te permite aplicar desde extracción de características con CNNs preentrenadas (como ResNet o VGG16) hasta clustering o reducción de dimensionalidad (PCA, t-SNE). Es directo, limpio y cumple el objetivo del trabajo sin requerir anotaciones médicas o agrícolas.

**Resumen:**
El dataset incluye miles de imágenes de cultivos agrícolas tomadas en distintas condiciones, con variaciones en iluminación, ángulo y fondo. Cada carpeta representa una especie vegetal distinta (por ejemplo, arroz, maíz, trigo, etc.), aunque el objetivo puede abordarse sin usar dichas etiquetas explícitamente.

**Posibles problemas del mundo real:**
Podría utilizarse para clasificar cultivos automáticamente, detectar similitudes entre especies o identificar tipos de plantas desconocidas en imágenes sin etiquetar. También sería útil en tareas de monitoreo agrícola o detección de anomalías en cultivos.

**Tipo de aprendizaje no supervisado:**
Modelos de autoencoders convolucionales o clustering de embeddings de imágenes (K-Means, DBSCAN) para agrupar imágenes visualmente similares. Estos métodos permiten representar las imágenes en un espacio latente donde la similitud semántica es más evidente.

**Desafíos potenciales:**
Las imágenes pueden tener tamaños y resoluciones diferentes, lo que exige un preprocesamiento intensivo. El número de muestras por clase puede estar desbalanceado y el entrenamiento de modelos de visión no supervisados es computacionalmente costoso.