# **7.1 Introduccción a Scikit-Learn para aprendizaje automático:**

<font size = 5>

**[Scikit-Learn](https://scikit-learn.org/stable/index.html) es una librería open source que contiene múltiples implementaciones de algoritmos de aprendizaje automático y herramientas adicionales para el análisis de información**

In [None]:
!pip install -U scikit-learn --upgrade

In [1]:
import sklearn

## **A - ¿Qué es el Aprendizaje Automático?:**

<font size = 5>

El Aprendizaje Automático o *Machine Learning* es un campo del conocimiento dedicado a la construcción de métodos que permitan una toma de decisiones *inteligente* mediante la generalización y detección de patrones en grandes volúmenes de información.

**Es decir: se entiende que entre las grandes concentraciones de información se 'esconde' conocimiento útil que podemos extractar matemáticamente**

## **B - Tipos de Aprendizaje Automático:**

<font size = 5>

Existen **tres tipos** generales de aprendizaje automático, dependiendo tanto del problema que tengamos como de los datos de que dispongamos podremos aplicar unos tipos u otros:

* **Supervisado**

* **No Supervisado**

* **Aprendizaje por refuerzo**

<center><img src="./imgs/machine-learning.png"  width="1000" height="600">

Modelo|Tipo de Aprendizaje|Descripción
|---|---|---|
Regresión Lineal|Supervisado|Modelo lineal que predice valores numéricos
Regresión Logística|Supervisado|Estima resultados binarios mediante probabilidades
Árboles de Decisión|Supervisado|Modelo en forma de árbol para clasificación/regresión
Bosques Aleatorios|Supervisado|Conjunto de árboles de decisión para mayor precisión
Máquinas de Vectores de Soporte (SVM)|Supervisado|Encuentra el hiperplano óptimo para clasificación
K-Vecinos Más Cercanos|Supervisado|Clasifica los datos en función de los vecinos más cercanos
Naive Bayes|Supervisado|Algoritmo de clasificación basado en probabilidades
Redes Neuronales Artificiales|Supervisado|Modelos inspirados en el cerebro humano
Redes Neuronales Convolucionales|Supervisado|Especializadas en reconocimiento de imágenes
Redes Neuronales Recurrentes|Supervisado|Maneja datos secuenciales como series temporales
K-Means|No Supervisado|Agrupa datos en clústeres
Clustering Jerárquico|No Supervisado|Construye clústeres en una jerarquía
DBSCAN|No Supervisado|Agrupamiento espacial basado en densidad
Modelos de Mezclas Gaussianas|No Supervisado|Representa datos como una mezcla de Gaussianas
Análisis de Componentes Principales (PCA)|No Supervisado|Técnica de reducción de dimensionalidad
Autoencoders|No Supervisado|Redes neuronales para compresión de datos
Redes Generativas Adversarias (GAN)|No Supervisado|Genera nuevos datos similares al conjunto de entrenamiento
Mapas Auto-Organizados (SOM)|No Supervisado|Mapea datos de alta dimensionalidad a una cuadrícula
t-SNE|No Supervisado|Visualiza datos de alta dimensionalidad
Expectation-Maximization (EM)|No Supervisado|Rellena valores faltantes en un conjunto de datos
Bosques Aleatorios|Ambos|Conjunto de árboles de decisión para aprendizaje supervisado/no supervisado
Redes Neuronales Artificiales|Ambos|Modelos versátiles para ambos tipos de aprendizaje
XGBoost|Ambos|Framework de aumento de gradiente para ambos tipos de aprendizaje
Redes de Creencia Profunda|Ambos|Modelos apilados para aprendizaje no supervisado/pre-entrenamiento


### **B.1 - Aprendizaje Automático Supervisado:**

<font size = 5>

La característica principal del aprendizaje automático supervisado es que **disponemos de datos etiquetados**. Es decir, para cada dato individual disponemos de un ejemplo del output que debería tener en el caso de que dicho dato fuera introducido en el modelo.

El objetivo que buscamos es **aprender** una función que explore y extraiga del espacio N-dimensional de los datos la capacidad de devolver la información que buscamos.

Se divide en dos grandes campos:

* **Clasificación**:
La variable objetivo es **categórica**, es decir: cae en unos valores predeterminados y limitados.

* **Regresión**:
La variable objetivo es **continua**, es decir: buscamos una predicción numérica en un espacio dimensional potencialmente infinito.

<center><img src="./imgs/regression-vs-classification-in-machine-learning.png" width="700" height="350">

<font size = 5>

**Ventajas:**
* Fáciles de entender e interactuar. Es muy sencillo obtener información precisa sobre la toma de decisiones de los modelos, lo cual lleva a identificar aquellas variables más importantes a la hora de alcanzar las conclusiones.
* Gran precisión si se les dota de un dataset suficientemente grande.
* El buen entrenamiento en un set de datos permite hacer predicciones sobre datos nuevos no vistos anteriormente con un alto nivel de precisión.
* El nivel de patrones identificado es amplio, encontrando relaciones mucho más complejas de lo que análisis estadísticos clásicos encontrarían.

<font size = 5>

**Desventajas:**
* Requieren datos etiquetados: Disponer de grandes sets de datos puede ser sencillo, pero que dichos datos estén etiquetados de la manera que necesitamos puede ser difícil y construir estas etiquetas es costoso en muchos casos.
* Nuestros datos probablemente contengan sesgos implícitos que terminan contagiandose a lo que los modelos aprenden.
* Pequeños cambios en los datos, especialmente si no tenemos un dataset suficientemente extenso, pueden tener efectos significativos en las predicciones.
* La detección de patrones complejos es posible, pero requiere modelos más complejos (redes neuronales).

### **B.2 - Aprendizaje No Supervisado:**

<font size = 5>

De manera simétrica, el Aprendizaje No Supervisado se define por la **ausencia de datos etiquetados**, es decir: tenemos un dataset de inputs sin contar con los outputs que serían deseables para dichos datos.

Nuestro objetivo es por tanto aprender patrones ocultos e intrínsecos a los datos.

Se dividen en dos categorías principales:

* **Clustering:** Agrupación de datos en categorías en base a sus similitudes y diferencias, se suelen utilizar para datos que necesitan crear grupos allí donde no existen inicialmente (clasificación de clientes, segmentación de mercados, análisis de compresión de imágenes, recomendaciones de contenido, etc.)

* **Reducción de Dimensionalidad:** Compresión eficiente de información. Se busca reducir el número de variables (dimensiones) al tiempo que se mantiene lo más intacta posible la cantidad de información de los dataset afectados. De esta forma se puede gestionar más información con menos cómputo y mayor agilidad. Estos métodos se aplican habitualmente como parte del preprocesamiento de los datos antes de realizar otros análisis.

<center><img src="./imgs/1_37a_i1t1tDxDYT3ZI6Yn8w.gif">

<font size = 5>

**Ventajas:**

* No se requiere de datasets etiquetado, únicamente de inputs, lo que aumenta dramáticamente la cantidad de información útil disponible.

* Permite encontrar relaciones muy complejas que pueden ser la base para otros análisis.

* Pueden ingerir cantidades muy grandes de información, lo que es ideal al no tener que ser esta información etiquetada.


<font size = 5>

**Desventajas:**

* Al no ser supervisado, las relaciones encontradas no provienen de una información útil contrastada, pudiendo llevarnos a equívocos, relaciones espúreas y otros problemas que aumenten la subjetividad de la información encontrada.

* Derivado de lo anterior, los resultados obtenidos requieren un trabajo relevante de interpretación que nos ayude a buscar potenciales problemas que no sean directamente evidentes.

* La calidad de los datos es de mucha importancia, dado que la introducción de sesgos, errores y ruido con cierto patrón y otros aspectos pueden afectar significativamente a los resultados.

### **B.3 - Aprendizaje por Refuerzo:**
**Este ámbito no se trata en el presente curso**

<font size = 5>

Área del aprendizaje automático en la que se generan **actores inteligentes** que **realizan acciones** en un **entorno** y **modifican su estrategia para maximizar una recompensa**. 

Por esto mismo no se requiere de datos etiquetados ni de datasets extensos. La **principal dificultad reside en poder construir un entorno que simule el problema a resolver con suficiente precisión, incluyendo qué consideramos como recompensa y qué valor le damos** y, una vez logrado esto, **encontrar un equilibrio para que los agentes 'exploren' diversas técnicas** en vez de quedarse con la primera que sea medianamente funcional.

<center><img src="./imgs/1-reinforcement-learning-ai.png" width="534" height="322">

### **EJEMPLOS:**

**EJ1:**

**DATOS:** Dataset de imágenes de frutas, cada imágen tiene el nombre de la fruta.

**OBJETIVO:** Dada una imagen, determinar qué fruta es.

**EJ2:**

**DATOS:** Dataset de historial de compra de usuarios.

**OBJETIVO:** Agrupar a los usuarios en función de sus preferencias.

**EJ3:**

**DATOS:** Dataset de cotizaciones históricas e indicadores bursátiles.

**OBJETIVO:** Predicción de valor futuro del precio de acciones/índices.

**EJ4:**

**DATOS:** Dataset de noticias descargadas en masa de internet.

**OBJETIVO:** Encontrar patrones comunes que permitan relacionar y dar contexto a una noticia.

**EJ5:**

**DATOS:** Simulador de carreras de coches que proporciona información de la velocidad, posición, situación, etc del vehículo en todo momento.

**OBJETIVO:** Conseguir una conducción lo más veloz y segura posible.

**EJ6:**

**DATOS:** Dataset de actividad de estudiantes (notas, interacción en plataforma, etc).

**OBJETIVO:** Dado un usuario en curso, estimar la probabilidad de que abandone un curso.

**EJ7:**

**DATOS:** Dataset de imágenes de frutas, cada imágen tiene el nombre de la fruta.

**OBJETIVO:** Dada una imagen, determinar qué fruta es.

**EJ8:**

**DATOS:** Lecturas de sensores a lo largo de una casa por (IoT).

**OBJETIVO:** Detectar anomalías que permitan detectar accidentes, potenciales robos u otros problemas.