##### Copyright 2022 The TensorFlow Authors.

In [None]:
#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Colecciones de conjuntos de datos

<table class="tfo-notebook-buttons" align="left">
  <td><a target="_blank" href="https://www.tensorflow.org/datasets/dataset_collections"><img src="https://www.tensorflow.org/images/tf_logo_32px.png">Ver en TensorFlow.org</a></td>
  <td><a target="_blank" href="https://colab.research.google.com/github/tensorflow/docs-l10n/blob/master/site/es-419/datasets/dataset_collections.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png">Ejecutar en Google Colab</a></td>
  <td>     <a target="_blank" href="https://github.com/tensorflow/docs-l10n/blob/master/site/es-419/datasets/dataset_collections.ipynb"><img src="https://www.tensorflow.org/images/GitHub-Mark-32px.png">Ver en GitHub</a>
</td>
  <td>     <a href="https://storage.googleapis.com/tensorflow_docs/docs-l10n/site/es-419/datasets/dataset_collections.ipynb"><img src="https://www.tensorflow.org/images/download_logo_32px.png">Descargar el bloc de notas</a>
</td>
</table>

## Descripción general

Las colecciones de conjuntos de datos proporcionan una manera simple de agrupar una cantidad arbitraria de conjuntos de datos TFDS existentes y realizar operaciones simples en ellos.

Pueden resultar útiles, por ejemplo, para agrupar diferentes conjuntos de datos que se relacionan con la misma tarea o para [realizar una prueba comparativa](https://ruder.io/nlp-benchmarking/) sencilla de modelos en un número fijo de tareas diferentes.

## Preparación

Para comenzar, instale algunos paquetes:

In [None]:
# Use tfds-nightly to ensure access to the latest features.
!pip install -q tfds-nightly tensorflow
!pip install -U conllu

Importe TensorFlow y el paquete Tensorflow Datasets a su entorno de desarrollo:

In [None]:
import pprint

import tensorflow as tf
import tensorflow_datasets as tfds

Las colecciones de conjuntos de datos proporcionan una manera simple de agrupar una cantidad arbitraria de conjuntos de datos existentes desde Tensorflow Datasets (TFDS) y realizar operaciones simples en ellos.

Pueden resultar útiles, por ejemplo, para agrupar diferentes conjuntos de datos que se relacionan con la misma tarea o para [realizar una prueba comparativa](https://ruder.io/nlp-benchmarking/) sencilla de modelos en un número fijo de tareas diferentes.

## Encuentrar colecciones de conjuntos de datos disponibles

Todos los generadores de colecciones de conjuntos de datos son una subclase de `tfds.core.dataset_collection_builder.DatasetCollection`.

Para obtener la lista de generadores disponibles, use `tfds.list_dataset_collections()`.


In [None]:
tfds.list_dataset_collections()

## Cargar e inspeccionar una colección de conjuntos de datos

La forma más fácil de cargar una colección de conjuntos de datos es crear una instancia de un objeto `DatasetCollectionLoader` mediante el uso del comando [`tfds.dataset_collection`](https://www.tensorflow.org/datasets/api_docs/python/tfds/dataset_collection).


In [None]:
collection_loader = tfds.dataset_collection('xtreme')

Se pueden cargar versiones específicas de la colección de conjuntos de datos al seguir la misma sintaxis que con los conjuntos de datos TFDS:

In [None]:
collection_loader = tfds.dataset_collection('xtreme:1.0.0')

Un cargador de colecciones de conjuntos de datos puede mostrar información sobre la colección:

In [None]:
collection_loader.print_info()

El cargador de conjuntos de datos también puede mostrar información sobre los conjuntos de datos que tiene la colección:

In [None]:
collection_loader.print_datasets()

### Cargar conjuntos de datos desde una colección de conjuntos de datos

La forma más fácil de cargar un conjunto de datos de una colección es con el método `load_dataset` de un objeto `DatasetCollectionLoader`, que carga el conjunto de datos requerido llamando al [`tfds.load`](https://www.tensorflow.org/datasets/api_docs/python/tfds/load).

Esta llamada devuelve un diccionario de nombres divididos y los `tf.data.Dataset` correspondientes:

In [None]:
splits = collection_loader.load_dataset("ner")

pprint.pprint(splits)

`load_dataset` acepta los siguientes parámetros opcionales:

- `split`: qué división o divisiones cargar. Acepta una única división (`split="test"`) o una lista de divisiones: ( `split=["train", "test"]`). Si no se especifica, cargará todas las divisiones para el conjunto de datos dado.
- `loader_kwargs`: argumentos de palabras clave que se pasarán a la función `tfds.load`. Consulte la documentación [`tfds.load`](https://www.tensorflow.org/datasets/api_docs/python/tfds/load) para obtener una descripción general completa de las diferentes opciones de carga.

### Cargar varios conjuntos de datos desde una colección de conjuntos de datos

La forma más fácil de cargar varios conjuntos de datos de una colección es con el método `load_dataset` de un objeto `DatasetCollectionLoader`, que carga el conjunto de datos requerido llamando al [`tfds.load`](https://www.tensorflow.org/datasets/api_docs/python/tfds/load).

Devuelve un diccionario de nombres de conjuntos de datos, cada uno de estos está asociado con un diccionario de nombres divididos y los `tf.data.Dataset` correspondientes, como en el siguiente ejemplo:

In [None]:
datasets = collection_loader.load_datasets(['xnli', 'bucc'])

pprint.pprint(datasets)

El método `load_all_datasets` carga *todos* los conjuntos de datos disponibles para una colección determinada:

In [None]:
all_datasets = collection_loader.load_all_datasets()

pprint.pprint(all_datasets)

El método `load_datasets` acepta los siguientes parámetros opcionales:

- `split`: qué división o divisiones cargar. Acepta una única división (`split="test"`) o una lista de divisiones: ( `split=["train", "test"]`). Si no se especifica, cargará todas las divisiones para el conjunto de datos dado.
- `loader_kwargs`: argumentos de palabras clave que se pasarán a la función `tfds.load`. Consulte la documentación [`tfds.load`](https://www.tensorflow.org/datasets/api_docs/python/tfds/load) para obtener una descripción general completa de las diferentes opciones de carga.

### Especificar `loader_kwargs`

Los `loader_kwargs` son argumentos de palabras clave opcionales que se pasarán a la función [`tfds.load`](https://www.tensorflow.org/datasets/api_docs/python/tfds/load). Se pueden especificar de tres maneras:

1. Al inicializar la clase `DatasetCollectionLoader`:

In [None]:
collection_loader = tfds.dataset_collection('xtreme', loader_kwargs=dict(split='train', lote_size=10, try_gcs=False))

1. Con el método `set_loader_kwargs` de `DatasetCollectioLoader`:

In [None]:
collection_loader.set_loader_kwargs(dict(split='train', batch_size=10, try_gcs=False))

1. Como parámetros opcionales para los métodos `load_dataset`, `load_datasets` y `load_all_datasets`.

In [None]:
dataset = collection_loader.load_dataset('ner', loader_kwargs=dict(split='train', batch_size=10, try_gcs=False))

### Comentarios

Siempre buscamos mejorar el flujo de trabajo de la creación de conjuntos de datos, pero solo podemos hacerlo si conocemos los problemas que hay. ¿Qué problemas o errores encontró al crear la colección del conjunto de datos? ¿Hubo alguna parte que le resultó confusa o no funcionó la primera vez? Comparta sus comentarios en [GitHub](https://github.com/tensorflow/datasets/issues).