# Datasets en Scikit-Learn - Conversión a Pandas dataframes

Scikit-Learn incluye un paquete llamado `sklearn.datasets` que embebe algunos datasets de aprendizaje de Machine Learning. Éstos se devuelven en un tipo `Bunch`, que no es más que un objeto tipo diccionario, donde los atributos interesantes son:

 - `data`: los datos para aprendizaje
 - `target`: las etiquetas de clasificación
 - `target_names`: los significados de las etiquetas
 - `feature_names`: la descripción de las características
 - `DESCR`: la descripción completa del dataset

Dos de los datasets embebidos de ejemplo que incluye Scikit-Learn y que usamos en clase se pueden cargar con los utilidades de carga de datasets `load_boston` y `load_breast_cancer`. Éstas utilidades son las que devuelven un objeto tipo bunch cuando son utilizadas, y con los atributos antes mencionados, la gestión de los datos del dataset es sencilla.

Si no obstante se prefieren utilizar dataframes de Pandas para la gestión de los diferentes datos del dataset, podemos hacer una conversión aprovechando dichos atributos y manejando debidamente el formato en el que debe crearse un DataFrame en Pandas.

Usamos de ejemplo el dataset de Boston Housing a través de su utilidad de carga `load_boston` en el código que viene a continuación. La conversión de cualquier otro dataset cargado con Scikit-Learn sería similar a ésta:


In [None]:
# Importamos los módulos necesarios
from sklearn.datasets import load_boston
import numpy as np
import pandas as pd

Cargamos el boston housing dataset y mostramos su descripción:

In [None]:
boston_data = load_boston()
print(boston_data.DESCR)

Comprobamos que la utilidad de carga nos ha devuelto efectivamente un objeto tipo bunch:

In [None]:
type(boston_data)

Obtenemos los nombres de las características del dataset por separado, que también venían descritas en la información contenida en el atributo `DESCR`:

In [None]:
print(boston_data.feature_names)

Accedemos el atributo `data` del diccionario (`Bunch`) `data` para obtener los datos de las muestras del dataset:

In [None]:
boston_data.data

También accedemos a la información de las etiquetas; en este caso es una única etiqueta:

In [None]:
boston_data.target

El tipo array no existe en Python, podemos ver que en realidad los arrays que nos están devolviendo los atributos del objeto bunch son Numpy arrays:

In [None]:
type(boston_data.target)

Por último, nos apoyamos en Numpy para crear un DataFrame de Pandas con la forma que queremos, que es una tabla con las muestras y las etiquetas correspondientes

In [None]:
df_boston = pd.DataFrame(np.column_stack((boston_data.data, boston_data.target)),columns = np.append(boston_data.feature_names,['TARGET']))
df_boston.head()