# Datasets 

En el contexto del aprendizaje automático con Scikit-Learn, los **datasets** son conjuntos de datos estructurados que se utilizan para entrenar y evaluar modelos. Cada dataset típicamente contiene dos componentes principales:  

* **X**: Conjunto de entradas o características (features), que representan las variables independientes.  
* **y**: Vector objetivo (target) que contiene la salida esperada o variable dependiente.


#### Nombres:

* X: Entradas / Features / Características / Atributos / Variables independientes / Variables predictoras

* y: Salida / Target / Clase / Variable dependiente / Variable de respuesta

In [None]:
import sklearn
sklearn.__version__

## load_

La función `load_*` de Scikit-Learn se utiliza para cargar datasets clásicos ya incluidos en la biblioteca. Estos conjuntos de datos están documentados y se usan normalmente para aprendizaje y demostraciones.

In [None]:
# Cargar el dataset Iris y verificar el tipo de objeto retornado.

from sklearn import datasets
iris = datasets.load_iris()
print(type(iris))

In [None]:
# Listar posibles funciones de carga de datasets disponibles en sklearn

datasets.load_*?

In [None]:
# Descripción del dataset Iris

print(iris.DESCR)

In [None]:
# Valores de entrada (features) de Iris

iris.data

In [None]:
# Nombres de las características de Iris

iris.feature_names

In [None]:
# Valores objetivo (clases) para cada instancia

iris.target

In [None]:
# Nombres de las clases

iris.target_names

In [None]:
# Crear un DataFrame de pandas a partir de los datos de Iris. incluye la columna de clases

import pandas as pd
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['class'] = iris.target
df.head()

In [None]:
# Mostrar la forma (dimensiones) del dataframe

df.shape

## fetch_

A diferencia de `load_*`, las funciones `fetch_*` descargan datasets de fuentes externas o repositorios online (UCI, OpenML). Sirve para trabajar con datasets más grandes o personalizados que no se incluyen directamente en Scikit-Learn.

In [None]:
# datasets disponibles en sklearn

datasets.fetch_*?

In [None]:
# Cargar el dataset de California Housing y verificar su tipo de objeto

california = datasets.fetch_california_housing()
type(california)

In [None]:
# Descripción de California Housing

print(california.DESCR)

In [None]:
# Crear dataframe a partir de California Housing

df = pd.DataFrame(california.data, columns=california.feature_names)
df['price'] = california.target
df.head()

## fetch_ con url

`fetch_*` con URL permite acceder a datasets disponibles en repositorios en línea como OpenML. 

Por ejemplo, la URL [https://www.openml.org/search?type=data](https://www.openml.org/search?type=data) lleva a una colección de datos. Desde ahí se pueden descargar datasets por su identificador o nombre.

In [None]:
# dataset Iris desde OpenML a partir de su ID

iris = datasets.fetch_openml(data_id=61)
iris # bunch con atributos: data, feature_names, target, target_names

In [None]:
# dataset Iris desde OpenML especificando nombre, versión y parser

iris = datasets.fetch_openml(name='iris', version=1, parser='auto')
iris

## make_

`make_*` permite generar datasets sintéticos de manera programática. Sirve para experimentar con algoritmos de machine learning, probar comportamientos del modelo ante ciertos tipos de datos o validar técnicas sin necesidad de datos reales.

Por ejemplo, `make_regression`, `make_classification` y otras generan datos con características controladas según parámetros definidos.

In [None]:
datasets.make_*?

In [None]:
# dataset sintético de regresión y gráfico de dispersión

import matplotlib.pyplot as plt

X, y = datasets.make_regression(n_features=1, n_samples=100, noise=1)

# X matriz. Por ejemplo: Años de experiencia
# y vector. Por ejemplo: Salario

plt.scatter(X, y);