# Qué es Machine Learning?

Antes de echar un vistazo a los detalles de varios métodos de aprendizaje automático, comencemos por ver qué es y qué no es el aprendizaje automático.
El aprendizaje automático a menudo se clasifica como un subcampo de la inteligencia artificial, pero creo que la categorización a menudo puede ser engañosa a primera vista.
El estudio del aprendizaje automático sin duda surgió de la investigación en este contexto, pero en la aplicación de la ciencia de datos de los métodos de aprendizaje automático, es más útil pensar en el aprendizaje automático como un medio para *construir modelos de datos*.
Fundamentalmente, el aprendizaje automático implica la construcción de modelos matemáticos para ayudar a comprender los datos.
El "aprendizaje" entra en juego cuando damos a estos modelos *parámetros ajustables* que se pueden adaptar a los datos observados; de esta manera se puede considerar que el programa está "aprendiendo" de los datos.
Una vez que estos modelos se han ajustado a los datos vistos anteriormente, se pueden usar para predecir y comprender aspectos de los datos recién observados.
Dejaré al lector la digresión más filosófica sobre hasta qué punto este tipo de "aprendizaje" matemático basado en modelos es similar al "aprendizaje" exhibido por el cerebro humano.
Comprender la configuración del problema en el aprendizaje automático es esencial para usar estas herramientas de manera efectiva, por lo que comenzaremos con algunas categorizaciones amplias de los tipos de enfoques que analizaremos aquí.

## Categorías de aprendizaje automático
En el nivel más fundamental, el aprendizaje automático se puede clasificar en dos tipos principales: aprendizaje supervisado y aprendizaje no supervisado.
*Aprendizaje supervisado* implica modelar de alguna manera la relación entre las características medidas de los datos y alguna etiqueta asociada con los datos; una vez que se determina este modelo, se puede usar para aplicar etiquetas a datos nuevos y desconocidos.
Esto se subdivide en tareas de *clasificación* y tareas de *regresión*: en la clasificación, las etiquetas son categorías discretas, mientras que en la regresión, las etiquetas son cantidades continuas.
Veremos ejemplos de ambos tipos de aprendizaje supervisado en la siguiente sección.
El *aprendizaje no supervisado* implica modelar las características de un conjunto de datos sin hacer referencia a ninguna etiqueta y, a menudo, se describe como "dejar que el conjunto de datos hable por sí mismo".
Estos modelos incluyen tareas como *agrupamiento* y *reducción de dimensionalidad.*
Los algoritmos de agrupamiento identifican distintos grupos de datos, mientras que los algoritmos de reducción de dimensionalidad buscan representaciones más sucintas de los datos.
Veremos ejemplos de ambos tipos de aprendizaje no supervisado en la siguiente sección.
Además, existen los llamados métodos de *aprendizaje semisupervisado*, que se encuentran en algún lugar entre el aprendizaje supervisado y el aprendizaje no supervisado.
Los métodos de aprendizaje semisupervisados ​​suelen ser útiles cuando solo se dispone de etiquetas incompletas.

## Ejemplos cualitativos de aplicaciones de aprendizaje automático
Para hacer estas ideas más concretas, echemos un vistazo a algunos ejemplos muy simples de una tarea de aprendizaje automático.
Estos ejemplos están destinados a brindar una descripción general intuitiva y no cuantitativa de los tipos de tareas de aprendizaje automático que veremos en este capítulo.
En secciones posteriores, profundizaremos en los modelos particulares y cómo se utilizan.
Para obtener una vista previa de estos aspectos más técnicos, puede encontrar la fuente de Python que genera las siguientes cifras en [Apéndice: Código de figuras](06.00-Código-de-figuras.ipynb).


### Clasificación: predicción de etiquetas discretas
Primero veremos una tarea simple de *clasificación*, en la que se le proporciona un conjunto de puntos etiquetados y desea utilizarlos para clasificar algunos puntos no etiquetados.
Imagina que tenemos los datos que se muestran en esta figura:### Classification: Predicting discrete labels

We will first take a look at a simple *classification* task, in which you are given a set of labeled points and want to use these to classify some unlabeled points.

Imagine that we have the data shown in this figure:

![](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/05.01-classification-1.png?raw=1)
[fuente de la figura en el Apéndice](06.00-Figure-Code.ipynb#Classification-Example-Figure-1)

Aquí tenemos datos bidimensionales: es decir, tenemos dos *características* para cada punto, representadas por las posiciones *(x,y)* de los puntos en el plano.
Además, tenemos una de dos *etiquetas de clase* para cada punto, aquí representada por los colores de los puntos.
A partir de estas características y etiquetas, nos gustaría crear un modelo que nos permita decidir si un nuevo punto debe etiquetarse como "azul" o "rojo".
Hay varios modelos posibles para tal tarea de clasificación, pero aquí usaremos uno extremadamente simple. Haremos la suposición de que los dos grupos se pueden separar dibujando una línea recta a través del plano entre ellos, de modo que los puntos a cada lado de la línea caigan en el mismo grupo.
Aquí, el *modelo* es una versión cuantitativa de la declaración "una línea recta separa las clases", mientras que los *parámetros del modelo* son los números particulares que describen la ubicación y la orientación de esa línea para nuestros datos.
Los valores óptimos para estos parámetros del modelo se aprenden de los datos (este es el "aprendizaje" en el aprendizaje automático), que a menudo se denomina *entrenamiento del modelo*.
La siguiente figura muestra una representación visual de cómo se ve el modelo entrenado para estos datos:

![](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/05.01-classification-2.png?raw=1)
[fuente de la figura en el Apéndice](06.00-Figure-Code.ipynb#Classification-Example-Figure-2)

Ahora que se ha entrenado este modelo, se puede generalizar a datos nuevos sin etiquetar.
En otras palabras, podemos tomar un nuevo conjunto de datos, dibujar esta línea de modelo a través de él y asignar etiquetas a los nuevos puntos en función de este modelo.
Esta etapa se suele llamar *predicción*. Ver la siguiente figura:

![](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/05.01-classification-3.png?raw=1)
[fuente de la figura en el Apéndice](06.00-Figure-Code.ipynb#Classification-Example-Figure-3)

Esta es la idea básica de una tarea de clasificación en el aprendizaje automático, donde "clasificación" indica que los datos tienen etiquetas de clase discretas.
A primera vista, esto puede parecer bastante trivial: sería relativamente fácil mirar simplemente estos datos y trazar una línea tan discriminatoria para lograr esta clasificación.
Sin embargo, un beneficio del enfoque de aprendizaje automático es que puede generalizarse a conjuntos de datos mucho más grandes en muchas más dimensiones.
Por ejemplo, esto es similar a la tarea de detección automática de spam para correo electrónico; en este caso, podríamos usar las siguientes funciones y etiquetas:

- *función 1*, *función 2*, etc. $\to$ recuentos normalizados de palabras o frases importantes ("Viagra", "príncipe nigeriano", etc.)
- *etiqueta* $\to$ "spam" o "no spam"


Para el conjunto de entrenamiento, estas etiquetas pueden determinarse mediante la inspección individual de una pequeña muestra representativa de correos electrónicos; para los correos electrónicos restantes, la etiqueta se determinaría utilizando el modelo.
Para un algoritmo de clasificación adecuadamente entrenado con suficientes funciones bien construidas (normalmente miles o millones de palabras o frases), este tipo de enfoque puede ser muy efectivo.
Veremos un ejemplo de dicha clasificación basada en texto en [En profundidad: Clasificación Naive Bayes](05.05-Naive-Bayes.ipynb).
Algunos algoritmos de clasificación importantes que analizaremos con más detalle son Gaussian Naive Bayes (consulte [In-Depth: Support Vector Machines](05.07-Support-Vector-Machines.ipynb)), máquinas de vectores de soporte (consulte [En profundidad: Clasificación Naive Bayes](05.05-Naive-Bayes.ipynb)) y clasificación aleatoria de bosques (consulte [En profundidad: Árboles de decisión y bosques aleatorios](05.08-Random-Forests.ipynb)).



### Regresión: predicción de etiquetas continuas
En contraste con las etiquetas discretas de un algoritmo de clasificación, a continuación veremos una tarea simple de *regresión* en la que las etiquetas son cantidades continuas.
Considere los datos que se muestran en la siguiente figura, que consta de un conjunto de puntos, cada uno con una etiqueta continua:

![](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/05.01-regression-1.png?raw=1)
[fuente de la figura en el Apéndice](06.00-Figure-Code.ipynb#Regression-Example-Figure-1)

Al igual que con el ejemplo de clasificación, tenemos datos bidimensionales: es decir, hay dos características que describen cada punto de datos.
El color de cada punto representa la etiqueta continua para ese punto.
Hay varios modelos de regresión posibles que podríamos usar para este tipo de datos, pero aquí usaremos una regresión lineal simple para predecir los puntos.
Este modelo de regresión lineal simple asume que si tratamos la etiqueta como una tercera dimensión espacial, podemos ajustar un plano a los datos.
Esta es una generalización de alto nivel del conocido problema de ajustar una línea a datos con dos coordenadas.
Podemos visualizar esta configuración como se muestra en la siguiente figura:

![](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/05.01-regression-2.png?raw=1)
[fuente de la figura en el Apéndice](06.00-Figure-Code.ipynb#Regression-Example-Figure-2)

Observe que el plano *feature 1-feature 2* aquí es el mismo que en el gráfico bidimensional anterior; en este caso, sin embargo, hemos representado las etiquetas por el color y la posición del eje tridimensional.
Desde este punto de vista, parece razonable que ajustar un plano a través de estos datos tridimensionales nos permita predecir la etiqueta esperada para cualquier conjunto de parámetros de entrada.
Volviendo a la proyección bidimensional, cuando ajustamos dicho plano obtenemos el resultado que se muestra en la siguiente figura:

![](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/05.01-regression-3.png?raw=1)
[fuente de la figura en el Apéndice](06.00-Figure-Code.ipynb#Regression-Example-Figure-3)

Este plano de ajuste nos da lo que necesitamos para predecir etiquetas para nuevos puntos.
Visualmente, encontramos los resultados que se muestran en la siguiente figura:

![](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/05.01-regression-4.png?raw=1)
[fuente de la figura en el Apéndice](06.00-Figure-Code.ipynb#Regression-Example-Figure-4)

Al igual que con el ejemplo de clasificación, esto puede parecer bastante trivial en un número reducido de dimensiones.
Pero el poder de estos métodos es que pueden aplicarse y evaluarse directamente en el caso de datos con muchas, muchas características.
Por ejemplo, esto es similar a la tarea de calcular la distancia a las galaxias observadas a través de un telescopio; en este caso, podríamos usar las siguientes características y etiquetas:
- *característica 1*, *característica 2*, etc. $\to$ brillo de cada galaxia en una de varias longitudes de onda o colores
- *label* $\to$ distancia o redshift de la galaxia
Las distancias para un pequeño número de estas galaxias podrían determinarse a través de un conjunto independiente de observaciones (generalmente más costosas).
Luego, las distancias a las galaxias restantes podrían estimarse utilizando un modelo de regresión adecuado, sin la necesidad de emplear la observación más costosa en todo el conjunto.
En los círculos de astronomía, esto se conoce como el problema del "desplazamiento al rojo fotométrico".
Algunos algoritmos de regresión importantes que analizaremos son la regresión lineal (consulte [En profundidad: Regresión lineal](05.06-Regresión-lineal.ipynb)), las máquinas de vectores de soporte (consulte [En profundidad: Máquinas de vectores de apoyo](05.07-Máquinas-de-vectores-de-apoyo.ipynb)) y la regresión de bosque aleatorio (consulte [A fondo: Árboles de decisión y Random Forests](05.08-Random-Forests.ipynb)).

### Clustering: inferir etiquetas en datos sin etiquetar

Las ilustraciones de clasificación y regresión que acabamos de ver son ejemplos de algoritmos de aprendizaje supervisado, en los que intentamos construir un modelo que prediga etiquetas para nuevos datos.
El aprendizaje no supervisado involucra modelos que describen datos sin referencia a ninguna etiqueta conocida.

Un caso común de aprendizaje no supervisado es la "agrupación", en la que los datos se asignan automáticamente a una cierta cantidad de grupos discretos.
Por ejemplo, podríamos tener algunos datos bidimensionales como los que se muestran en la siguiente figura:

![](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/05.01-clustering-1.png?raw=1)
[fuente de la figura en el Apéndice](06.00-Figure-Code.ipynb#Clustering-Example-Figure-2)

A simple vista, es claro que cada uno de estos puntos es parte de un grupo distinto.
Dada esta entrada, un modelo de agrupamiento utilizará la estructura intrínseca de los datos para determinar qué puntos están relacionados.
Usando el muy rápido e intuitivo algoritmo *k*-means (ver [En profundidad: K-Means Clustering](05.11-K-Means.ipynb)), encontramos los grupos que se muestran en la siguiente figura:

![](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/05.01-clustering-2.png?raw=1)
[fuente de la figura en el Apéndice](06.00-Figure-Code.ipynb#Clustering-Example-Figure-2)

*k*-means se ajusta a un modelo que consta de *k* centros de conglomerados; se supone que los centros óptimos son aquellos que minimizan la distancia de cada punto a su centro asignado.
Una vez más, esto puede parecer un ejercicio trivial en dos dimensiones, pero a medida que nuestros datos se vuelven más grandes y complejos, estos algoritmos de agrupamiento se pueden emplear para extraer información útil del conjunto de datos.
Discutiremos el algoritmo *k*-means con más profundidad en [En profundidad: K-Means Clustering](05.11-K-Means.ipynb).
Otros algoritmos de agrupamiento importantes incluyen modelos de mezcla gaussiana (consulte [En profundidad: Modelos de mixturas gaussianas](05.12-Mixturas-Gaussianass.ipynb)) y agrupamiento espectral [Documentación sobre clustering de Scikit-Learn](http://scikit-learn.org/stable/modules/clustering.html)).

### Reducción de la dimensionalidad: inferir la estructura de los datos sin etiquetar
La reducción de la dimensionalidad es otro ejemplo de un algoritmo no supervisado, en el que las etiquetas u otra información se deducen de la estructura del propio conjunto de datos.
La reducción de la dimensionalidad es un poco más abstracta que los ejemplos que vimos antes, pero generalmente busca extraer alguna representación de datos de baja dimensión que de alguna manera conserva las cualidades relevantes del conjunto de datos completo.
Diferentes rutinas de reducción de dimensionalidad miden estas cualidades relevantes de diferentes maneras, como veremos en [A profundidad: El aprendizaje múltiple](05.10-Aprendizaje-Múltiple.ipynb).
Como ejemplo de esto, considere los datos que se muestran en la siguiente figura:

![](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/05.01-dimesionality-1.png?raw=1)
[fuente de la figura en el Apéndice](06.00-Figure-Code.ipynb#Dimensionality-Reduction-Example-Figure-1)

Visualmente, está claro que hay cierta estructura en estos datos: se extrae de una línea unidimensional que se organiza en espiral dentro de este espacio bidimensional.
En cierto sentido, se podría decir que estos datos son "intrínsecamente" solo unidimensionales, aunque estos datos unidimensionales están incrustados en un espacio de dimensiones superiores.
Un modelo de reducción de dimensionalidad adecuado en este caso sería sensible a esta estructura incrustada no lineal y podría extraer esta representación de menor dimensionalidad.
La siguiente figura muestra una visualización de los resultados del algoritmo Isomap, un algoritmo de aprendizaje múltiple que hace exactamente esto:

![](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/figures/05.01-dimesionality-2.png?raw=1)
[fuente de la figura en el Apéndice](06.00-Figure-Code.ipynb#Dimensionality-Reduction-Example-Figure-2)

Observe que los colores (que representan la variable latente unidimensional extraída) cambian uniformemente a lo largo de la espiral, lo que indica que el algoritmo de hecho detectó la estructura que vimos a simple vista.
Al igual que con los ejemplos anteriores, el poder de los algoritmos de reducción de dimensionalidad se vuelve más claro en casos de dimensiones superiores.

Por ejemplo, podríamos desear visualizar relaciones importantes dentro de un conjunto de datos que tiene 100 o 1000 características.

Visualizar datos de 1000 dimensiones es un desafío, y una forma en que podemos hacer que esto sea más manejable es usar una técnica de reducción de dimensionalidad para reducir los datos a dos o tres dimensiones.
Algunos algoritmos de reducción de dimensionalidad importantes que analizaremos son el análisis de componentes principales (consulte [En profundidad: Análisis de componentes principales](05.09-Análisis-de-componentes-principales.ipynb)) y varios algoritmos de aprendizaje múltiple, incluidos Isomap y la incrustación lineal local (consulte [A profundidad: El aprendizaje múltiple](05.10-Aprendizaje-Múltiple.ipynb)

## Resumen
Aquí hemos visto algunos ejemplos simples de algunos de los tipos básicos de enfoques de aprendizaje automático.
No hace falta decir que hay una serie de detalles prácticos importantes que hemos pasado por alto, pero espero que esta sección haya sido suficiente para darle una idea básica de qué tipos de problemas pueden resolver los enfoques de aprendizaje automático.
En resumen, vimos lo siguiente:
- *Aprendizaje supervisado*: modelos que pueden predecir etiquetas en función de los datos de entrenamiento etiquetados
    - *Clasificación*: Modelos que predicen etiquetas como dos o más categorías discretas
    - *Regresión*: Modelos que predicen etiquetas continuas

- *Aprendizaje no supervisado*: Modelos que identifican estructura en datos no etiquetados
    - *Clustering*: Modelos que detectan e identifican distintos grupos en los datos
    - *Reducción de dimensionalidad*: Modelos que detectan e identifican estructuras de menor dimensión en datos de mayor dimensión

En las siguientes secciones profundizaremos mucho más en estas categorías y veremos algunos ejemplos más interesantes de dónde pueden ser útiles estos conceptos.
Todas las cifras de la discusión anterior se generan en base a cálculos reales de aprendizaje automático; el código detrás de ellos se puede encontrar en [Apéndice: Código de figuras](06.00-Código de figuras.ipynb).

<!--NAVIGATION-->
< [Machine Learning](05.00-Machine-Learning.ipynb) | [Contents](Index.ipynb) | [Introducing Scikit-Learn](05.02-Introducing-Scikit-Learn.ipynb) >

<a href="https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/05.01-What-Is-Machine-Learning.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>
