# Introducción

Describiremos brevemente el flujo de trabajo de un proyecto de aprendizaje automático (machine learning). Para ésto introduciremos los conceptos principales, presentaremos algunos algoritmos y herramientas de trabajo en Python. A lo largo de las unidades estudiaremos con detalle los algoritmos desde el punto de vista matemático. A través de ejemplos concretos analizaremos el rendimiento de los mismos.


## Qué es el machine learning o aprendizaje automático?


Machine learning, es un área de estudio que comprende un colección de herramientas y técnicas para extraer información a partir de datos para automatizar procesos de toma decisión o predicción de resultados. Se dedica al estudio de algortimos de aprendizaje.

Se dice que un programa aprende de una experiencia E con respecto a una clase de tareas T y con medida de rendimiento P, si su rendimiento en las tareas T, según la medida P, mejora con la experiencia E.


![Imagen](https://drive.google.com/uc?export=view&id=1l-syrqOsU3g5RnJl1Ugxs7gBhpVt_mnw)


Entre las múltiples aplicaciones se pueden enumerar: algoritmos de recomendación de plataformas de streaming y redes sociales, publicidad, servicios, aplicaciones comerciales, industriales, logísticas, financieras, detección de fraudes, etc. Incluso en los últimos años el machine learning ha comenzado a involucrarse en diversas áreas de las ciencias incluyendo: física, astronomía, biología, medicina, ciencias de la tierra, ciencias sociales y por supuesto matemática.

Las tres sub-areas de machine learning son:
- aprendizaje supervisado
- aprendizaje no supervisado
- aprendizaje reforzado.

Cada una tiene lugar en diferentes situaciones, las iremos estudiando mediante algoritmos y ejemplos.

## Aprendizaje supervisado

El aprendizaje supervisado es el más utilizado en la práctica. Aquí, un modelo se construye a partir de un dataset de pares entrada-salida, donde  las entradas son variables independientes que denotamos por x, a las cuales llamamos features (características) y las salidas las denotamos por y, y se conocen como target (objetivo) o label (etiqueta).




La entrada es una representación de una entidad de interés. Puede ser un cliente, representado por edad, género, historial de compra, intereses, etc.


La salida es una cantidad de interés que pretendemos que nuestro modelo prediga. Por ejemplo, si compraría o no un producto en particular que le recomendemos.


Para construir un modelo necesitamos recolectar gran cantidad de pares de entrada y salida, que agruparemos en un dataset o conjunto de datos. A partir del mismo podemos intentar elaborar un modelo de aprendizaje automático supervisado que predecirá salidas para nuevas entradas.


Retomando el ejemplo, el objetivo del modelado es que el comercio pueda hacer recomendaciones cada vez más acertadas para futuros clientes.

El nombre de aprendizaje supervisado viene del hecho de que durante el proceso de aprendizaje del modelo, el dataset contiene datos certeros, vale decir, los pares (x,y) del conjunto de datos son conocidos y se intepretan como experiencia de la cual aprender y supervisar el entrenamiento.

**Generalización.**

Supongamos que tenemos pares $(x_i,y_i)$ de features y targets, regidos bajo una distribución de probabilidad conjunta, y queremos aprender una función $f$ que prediga $y$ sobre un nuevo $x$ de la distribución.

El concepto de generalización no tiene que ver con qué tan bien $f$ modele la salida para los $x_i$ del conjunto de datos, sino que lo importante es que modele bien las salidas para nuevas entradas $x$.

Generalizar no es memorizar ni aproximar bien el conjunto de datos.

El concepto de generalización es fundamental para el desempeño de nuestros modelos de aprendizaje automático.


**Conjunto de entrenamiento y conjunto de testeo**.

En el proceso de aprendizaje automático será importante partir el conjunto de datos en dos partes: un conjunto de entrenamiento (training set) y uno conjunto de testeo (test set).

El conjunto de entrenamiento servirá para entrenar el modelo.

El conjunto de testeo servirá para evaluar el desempeño modelo.

Hay proporciones para considerar esta partición de los datos que dependen del algoritmo y del tipo de tarea que se requiera.


### Clasificación y Regresión

Hay dos tipos principales de tareas de aprendizaje supervisado: clasificación y regresión.
- Si la salida $y$ que queremos predecir es una cantidad, la tarea es un problema de regresión.
- Si la salida $y$ que queremos predecir es discreta, la tarea es un problema de clasificación.

Ejemplos:
- Si queremos predecir el tiempo que tomará que un paciente se recupere de una enfermedad, es una tarea de regresión.
- Si queremos predecir qué medicación es la más apropiada para el paciente de entre dos posibles, es una tarea de clasificación.

Para cada tipo de tarea se tendrán distintos algoritmos y se medirá el éxito de distintas formas.
- Para clasificación una métrica muy usada es accuracy (la porción de ejemplos correctamente clasificados).
- Para regresión una métrica muy usada es mean squared error (error medio al cuadrado, es decir el promedio de la distancia al cuadrado de la predicción a la respuesta correcta).

Esto es:
- en clasificación es deseable que la predicción sea cercana a la correcta,
- en regresión es necesario que la clase predicha sea la correcta.

A pesar de esto, hay casos en los cuales una misma tarea puede ser encarada con cualquiera de estos modelos.

### Herramientas probabilísticas

Desde un punto de vista probabilístico, el aprendizaje supervisado tiene por hipótesis que existe una distribución conjunta $p(x,y)$ y un dataset de entrenamiento que es un subconjunto de esta distribución conjunta, que es independiente y está identicamente distribuido (i.i.d.). Luego, el modelo se aplica a nuevos pares de la misma distribución para los cuales $y$ es desconocido. Es decir, se usa para estimar $p(y|x)$.

Observación: si se quiere predecir el resultado del lanzamiento de una moneda, podríamos diseñar un modelo muy apropiado de $p(y|x)$ que predice cara y cruz con igual probabilidad. No hay posibilidad de predecir una salida particular en sí misma. El proceso es intrínsecamente aleatorio y no da lugar a aprender del mismo.

Para garantizar éxito entonces, se necesita que el conjunto de datos test, sea también un subconjunto i.i.d. de la muestra con distribución $p(x,y)$ a partir de la cual se obtuvo el training set.



## Aprendizaje No supervisado

En el caso de modelos no supervisados de machine learning, en general, solo contamos con datos $x$, y el objetivo es aprender de la estructura de los datos.

Usualmente, se trata de tareas de final abierto, en comparación a las de modelos supervisados. En efecto, durante la etapa de entrenamiento de estos modelos, no hay una "supervisión" para garantizar una salida correcta.

Entre las subcategorías de los modelos de machine learning no supervisado podemos encontrar: Clustering, reducción de dimensionalidad y procesamiento de imágenes.





### Clustering, reducción de la dimensión y procesamiento de imágenes


Las tareas de clustering tienen que ver con "encontrar" grupos coherentes donde los datos puedan agruparse según características comunes. En estos casos, los grupos no son conocidos a priori. Por el contrario, las tareas de clasificación (de aprendizaje supervisado) tienen grupos pre-definidos.

En el caso de tareas de reducción de dimensión y procesamiento de imágenes, no se busca agrupar los datos, sino identificar patrones de varianza que son potencialmente más representativos que los datos en su versión original.

Todas estas tareas son usadas comunmente en contextos de análisis exploratorio de los datos (EDA), cuando se trata de entender los datos.



## Aprendizaje Reforzado

El tercer tipo de tareas de ML es el aprendizaje reforzado. Se trata de un programa (agente) que interactúa con su entorno y a través de esta interacción, el agente aprende a obtener un objetivo particular. Por ejemplo, un programa que aprende a jugar un video juego. El entorno sería el juego y el agente sería una IA que juega el juego. Al realizar una acción, cambia el entorno y la IA aprende de las consecuencias.

Observemos que para este tipo de tareas no se toma como punto de partida un dataset, sino que éste se construye automáticamente a partir del proceso.



## Herramientas matemáticas

Las herramientas matemáticas que atraviesan esta teoría son diversas, como los enfoques que uno puede tomar al estudiar aprendizaje automático desde el punto de vista de la matemática.

En este curso nos concentraremos principalmente en dos áreas de la matemática fuertemente presentes en aprendizaje automático: la optimización convexa y los algoritmos involucrados, y la geometría de los datos y el álgebra lineal avanzada para el estudio del conjunto de datos.

La dinámica de esta teoría que está en pleno desarrollo nos permitirá dejar abierta la posibilidad de complementar con otras herramientas matemáticas que sean necesarias de acuerdo a los objetivos individuales de cada estudiante.




---


Estas notebooks corresponden a la asignatura electiva para la Licenciatura en Matemática del Departamento de Matemática de la Escuela de Cs. Exactas y Naturales, de la Facultad de Cs. Exactas, Ingenieria y Agrimensura (FCEIA) de la Universidad Nacional de Rosario, Argentina. Año 2023.

Fueron confeccionadas a tal fin por las docentes investigadoras de la FCEIA Isolda Cardoso y Jorgelina Walpen. Este trabajo de análisis, estudio, recopilación, traducción, armado, pruebas y errores, nos ha llevado mucho tiempo. Cuando hay tanta información disponible es complicado extraer lo que, al menos para nosotras, es relevante. Hay muchísimos otros recursos y tutoriales, nosotras armamos este.

Si estas notebooks son reproducidas, solicitamos citar la fuente.

Dejamos nuestras páginas laborales y repositorios de GitHub. Seguramente en un futuro las pondremos a disposición en el Repositorio Hipermedial de la UNR.

Isolda: Te dejo mi página laboral https://www.fceia.unr.edu.ar/~isolda/ y mi GitHub https://github.com/IsoldaEugenia. Sentite libre de contactarme.

Jorgelina: https://www.fceia.unr.edu.ar/~walpen/ y  https://github.com/JorWalpen