<small><i>This notebook was put together by [Jake Vanderplas](http://www.vanderplas.com). Source and license info is on [GitHub](https://github.com/jakevdp/sklearn_tutorial/).</i></small>

# Introducción a Scikit-Learn: Aprendizaje Automático con Python

Esta sesión cubrirá los conceptos básicos de Scikit-Learn, un paquete popular que contiene una colección de herramientas para aprendizaje automático escritas en Python. Puedes ver más en [http://scikit-learn.org](http://scikit-learn.org).

## Esquema

**Objetivo Principal:** Introducir los conceptos centrales del aprendizaje automático y cómo se pueden aplicar en Python utilizando el paquete Scikit-learn.

- Definición de aprendizaje automático  
- Representación de datos en Scikit-learn  
- Introducción a la API de Scikit-learn  

## Scikit-Learn

[Scikit-Learn](http://github.com/scikit-learn/scikit-learn) es un paquete de Python diseñado para proporcionar acceso a algoritmos de aprendizaje automático, a través de una **API limpia y cuidadosamente diseñada**. Ha sido desarrollado por cientos de colaboradores de todo el mundo y se utiliza tanto en la industria como en la academia.

Scikit-Learn está construido sobre las bibliotecas de Python [NumPy (Numerical Python)](http://numpy.org) y [SciPy (Scientific Python)](http://scipy.org), que permiten realizar cálculos numéricos y científicos eficientes en memoria dentro de Python. Como tal, Scikit-Learn no está específicamente diseñado para conjuntos de datos extremadamente grandes, aunque existe [trabajo en progreso](https://github.com/ogrisel/parallel_ml_tutorial) en esta área.

En esta breve introducción, nos centraremos en cuestiones relacionadas con el procesamiento en memoria de conjuntos de datos pequeños a medianos con Scikit-Learn.

## Qué es Machine Learning?

En esta sección comenzaremos a explorar los principios básicos del aprendizaje automático.  
El aprendizaje automático consiste en construir programas con **parámetros ajustables** (normalmente un array de valores de floats) que se ajustan automáticamente para mejorar su comportamiento **adaptándose a datos previamente observados**.

El aprendizaje automático puede considerarse un subcampo de la **inteligencia artificial**, ya que estos algoritmos pueden verse como bloques de construcción para hacer que las computadoras aprendan a comportarse de manera más **inteligente**, **generalizando** de alguna manera, en lugar de simplemente almacenar y recuperar elementos de datos como lo haría un sistema de bases de datos.

Aquí analizaremos dos tareas muy sencillas de aprendizaje automático.  
La primera es una tarea de **clasificación**: la figura muestra un conjunto de datos bidimensionales, coloreados según dos etiquetas de clase diferentes. Un algoritmo de clasificación puede usarse para trazar un límite divisorio entre los dos grupos de puntos:

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

plt.style.use('seaborn-v0_8')

In [None]:
# Import the example plot from the figures directory
from fig_code import plot_sgd_separator
plot_sgd_separator()

Esto puede parecer una tarea trivial, pero es una versión simple de un concepto muy importante.  
Al trazar esta línea de separación, hemos creado un modelo que puede **generalizar** a nuevos datos: si colocas otro punto en el plano que no esté etiquetado, este algoritmo ahora podría **predecir** si es un punto azul o rojo.

Si deseas ver el código fuente utilizado para generar esto, puedes abrir el código en el directorio `figures`, o cargar el código usando el comando mágico `%load`.

La siguiente tarea sencilla que examinaremos es una tarea de **regresión**: una simple línea de mejor ajuste para un conjunto de datos:

In [None]:
from fig_code import plot_linear_regression
plot_linear_regression()

Nuevamente, este es un ejemplo de ajustar un modelo a los datos, de modo que el modelo pueda hacer **generalizaciones** sobre nuevos datos. El modelo ha sido **entrenado** con los datos de entrenamiento y puede usarse para predecir el resultado de datos de prueba:  
aquí, podríamos tener un valor de `x`, y el modelo nos permitiría predecir el valor de `y`. Una vez más, esto podría parecer un problema trivial, pero es un ejemplo básico de un tipo de operación que es fundamental para las tareas de aprendizaje automático.

## Representación de los datos en Scikit-learn

El aprendizaje automático trata de crear modelos a partir de datos: por esa razón, comenzaremos discutiendo cómo pueden representarse los datos para que sean entendidos por la computadora. Además, ampliaremos los ejemplos de matplotlib de la sección anterior y mostraremos algunos ejemplos de cómo visualizar los datos.

La mayoría de los algoritmos de aprendizaje automático implementados en scikit-learn esperan que los datos se almacenen en un **arreglo o matriz bidimensional**. Los arrays pueden ser tanto matrices de ``numpy`` como, en algunos casos, matrices dispersas de ``scipy.sparse``.  
El tamaño del arreglo se espera que sea `[n_samples, n_features]`.

- **n_samples:** El número de muestras: cada muestra es un elemento a procesar (por ejemplo, clasificar).  
  Una muestra puede ser un documento, una imagen, un sonido, un video, un objeto astronómico, una fila en una base de datos o archivo CSV, o cualquier cosa que puedas describir con un conjunto fijo de características cuantitativas.
  
- **n_features:** El número de características o rasgos distintos que se pueden usar para describir cada elemento de manera cuantitativa. Las características suelen tener valores reales, pero en algunos casos pueden ser booleanas o con valores discretos.

El número de características debe fijarse de antemano. Sin embargo, puede ser de muy alta dimensionalidad (por ejemplo, millones de características), con la mayoría de ellas siendo ceros para una muestra dada. Este es un caso en el que las matrices de `scipy.sparse` pueden ser útiles, ya que son mucho más eficientes en el uso de memoria que las matrices de numpy.

![Data Layout](images/data-layout.png)

(Figura de [Python Data Science Handbook](https://github.com/jakevdp/PythonDataScienceHandbook))

## Un Ejemplo Sencillo: el Conjunto de Datos Iris

Como ejemplo de un conjunto de datos simple, vamos a examinar los datos de iris almacenados por Scikit-learn.  
Los datos consisten en mediciones de tres especies diferentes de iris.  
Existen tres especies de iris en el conjunto de datos, que podemos visualizar de la siguiente manera:

In [None]:
from IPython.core.display import Image, display
display(Image(filename='images/iris_setosa.jpg'))
print("Iris Setosa\n")

display(Image(filename='images/iris_versicolor.jpg'))
print("Iris Versicolor\n")

display(Image(filename='images/iris_virginica.jpg'))
print("Iris Virginica")

### Pregunta Rápida:

**Si quisiéramos diseñar un algoritmo para reconocer especies de iris, ¿cómo serían los datos?**

Recuerda: necesitamos un arreglo 2D de tamaño `[n_samples x n_features]`.

- ¿A qué se referiría `n_samples`?

  **`n_samples`** se referiría al número de muestras o ejemplos que tenemos en el conjunto de datos. En este caso, sería el número de flores de iris en el conjunto de datos, donde cada flor representa una muestra.

- ¿A qué se referirían `n_features`?

  **`n_features`** se referiría al número de características o atributos que usamos para describir cada muestra. En el caso del conjunto de datos Iris, las características podrían ser, por ejemplo, la longitud y el ancho del sépalo, y la longitud y el ancho del pétalo. Es decir, cada flor se describe con estas 4 características.

Recuerda que debe haber un número **fijo** de características para cada muestra, y la característica número `i` debe ser de un tipo similar para todas las muestras (por ejemplo, longitud o anchura en unidades de medidas consistentes).

### Cargando los Datos de Iris con Scikit-Learn

Scikit-learn tiene un conjunto de datos muy sencillo sobre estas especies de iris. Los datos consisten en lo siguiente:

- **Características en el conjunto de datos Iris**:

  1. Longitud del sépalo en cm
  2. Ancho del sépalo en cm
  3. Longitud del pétalo en cm
  4. Ancho del pétalo en cm

- **Clases objetivo a predecir**:

  1. Iris Setosa
  2. Iris Versicolor
  3. Iris Virginica
  
Scikit-learn incluye una copia del archivo CSV de iris junto con una función auxiliar para cargarlo en arreglos de numpy:

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

In [None]:
iris.keys()

In [None]:
n_samples, n_features = iris.data.shape
print((n_samples, n_features))
print(iris.data[0])

In [None]:
print(iris.data.shape)
print(iris.target.shape)

In [None]:
print(iris.target)

In [None]:
print(iris.target_names)

Estos datos son de cuatro dimensiones, pero podemos visualizar dos de las dimensiones a la vez usando un gráfico de dispersión simple:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x_index = 0
y_index = 1

# this formatter will label the colorbar with the correct target names
formatter = plt.FuncFormatter(lambda i, *args: iris.target_names[int(i)])

plt.scatter(iris.data[:, x_index], iris.data[:, y_index],
            c=iris.target, cmap=plt.cm.get_cmap('RdYlBu', 3))
plt.colorbar(ticks=[0, 1, 2], format=formatter)
plt.clim(-0.5, 2.5)
plt.xlabel(iris.feature_names[x_index])
plt.ylabel(iris.feature_names[y_index]);

### Ejercicio Rápido:

**Cambia** `x_index` **y** `y_index` **en el script anterior** y encuentra una combinación de dos parámetros que separen de manera óptima las tres clases.

Este ejercicio es una vista previa de la **reducción de dimensionalidad**, que veremos más adelante.

---

**Sugerencia:** Para separar las clases de manera más clara, prueba combinaciones de características como la longitud del sépalo y el ancho del pétalo. Estas combinaciones suelen ser más efectivas para visualizar y separar las clases en 2D.

## Otros Datos Disponibles  
Vienen en tres tipos:

- **Datos empaquetados:** estos pequeños conjuntos de datos están empaquetados con la instalación de scikit-learn y se pueden descargar usando las herramientas en ``sklearn.datasets.load_*``.
- **Datos descargables:** estos conjuntos de datos más grandes están disponibles para su descarga, y scikit-learn incluye herramientas que agilizan este proceso. Estas herramientas se pueden encontrar en ``sklearn.datasets.fetch_*``.
- **Datos generados:** existen varios conjuntos de datos generados a partir de modelos basados en una semilla aleatoria. Estos están disponibles en ``sklearn.datasets.make_*``.

Puedes explorar los cargadores, descargadores y generadores de conjuntos de datos disponibles usando la funcionalidad de autocompletado de IPython. Después de importar el submódulo ``datasets`` de ``sklearn``, escribe:

    datasets.load_ + TAB

o

    datasets.fetch_ + TAB

o

    datasets.make_ + TAB

para ver una lista de funciones disponibles.

In [None]:
from sklearn import datasets

In [None]:
# Type datasets.fetch_<TAB> or datasets.load_<TAB> in IPython to see all possibilities

# datasets.fetch_

In [None]:
# datasets.load_