# openml

[openml.org](https://openml.org) es una plataforma abierta para compartir conjuntos de datos, algoritmos y experimentos de aprendizaje automático con datos tabulados. Los principales conceptos sobre los cuales se basa son:
* **Dataset:** $\;$ conjunto de datos tabulados
* **Task:** $\;$ conjunto de datos, tarea de aprendizaje a realizar y método de evaluación
* **Flow:** $\;$ pipeline de aprendizaje automático con detalles sobre software a emplear e hiperparámetros a ajustar
* **Run:** $\;$ experimento de evaluación de un flow en una tarea

La elección de conjuntos de datos se puede hacer en la sección [datasets](https://openml.org/search?type=data). Los conjuntos elegidos se pueden descargar directamente o en uso de la función [fetch_openml](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml) de sklearn. Ahora bien, en general es preferible escoger conjuntos de datos previamente elegidos por otros usuarios (con algún criterio específico) y publicados en la sección [benchmarks](https://openml.org/search?type=benchmark). En particular, podemos destacar tres "benchmark suites" recientes para comparar y evaluar técnicas de clasificación:
* **OpenML-CC18 Curated Classification benchmark:** $\;$ $72$ conjuntos de [Bahri et al, 2022](https://arxiv.org/abs/2106.15147)
* **Tabular benchmark categorical classification:** $\;$ $7$ conjuntos de [Grinsztajn et al, 2022](https://arxiv.org/abs/2207.08815)
* **AutoML Benchmark All Classification:** $\;$ $71$ conjuntos de [Gijsbers et al, 2019](https://arxiv.org/abs/1907.00909)





Es posible que primero tengamos que instalar el paquete openml


In [None]:
!pip install openml

In [None]:
import openml
# OpenML-CC18 99; Tabular 334; AutoML 271
benchmark_suite = openml.study.get_suite(suite_id=334)
benchmark_suite

In [None]:
openml.datasets.list_datasets(data_id=benchmark_suite.data, output_format='dataframe')

In [None]:
openml.tasks.list_tasks(task_id=benchmark_suite.tasks, output_format="dataframe")

In [None]:
# Cargar un conjunto de datos específico
dataset_id = 45012  # Reemplaza con el ID del conjunto de datos de OpenML
dataset = openml.datasets.get_dataset(dataset_id)

# Obtener la descripción
print(dataset.description)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Cargar el conjunto de datos de OpenML
dataset = openml.datasets.get_dataset(45012)
X, y, _, attribute_names = dataset.get_data(target=dataset.default_target_attribute)

print(dataset)

In [None]:
print(X.iloc[0], y.iloc[0])

In [None]:
print(y)
print(np.unique(y))

In [None]:
# Cargar un conjunto de datos específico
dataset_id = 41081  # Reemplaza con el ID del conjunto de datos de OpenML
dataset = openml.datasets.get_dataset(dataset_id)

# Obtener la descripción
print(dataset.description)
print(dataset)

In [None]:
# Cargar el conjunto de datos de OpenML
dataset = openml.datasets.get_dataset(41081)
X, y, _, attribute_names = dataset.get_data(target=dataset.default_target_attribute)

print(X)

In [None]:
print(X.iloc[0])

In [None]:
for i in range(10):
    plt.subplot(2, 5, i + 1)  # 2 filas, 5 columnas de imágenes
    image = np.array(X.iloc[i]).reshape(32, 32, 3)
    plt.title(f"Label: {y[i]}")
    plt.imshow(image)  # Asegúrate de que los datos estén en el rango correcto (0-255)
    plt.axis('off')  # Omitir los ejes

plt.tight_layout()
plt.show()