# 1. Introducción

La **Inteligencia Artificial (IA)** es el campo científico de la informática que se centra en la creación de programas y mecanismos que pueden mostrar comportamientos considerados inteligentes.

**Machine Learning (ML)** es una rama de la inteligencia artificial que permite que las máquinas aprendan sin ser expresamente programadas para ello.

**Deep Learning**  es un conjunto de algoritmos de ML que intenta modelar abstracciones de alto nivel en datos usando arquitecturas computacionales que admiten transformaciones no lineales múltiples e iterativas de datos expresados en forma matricial o tensorial.


![IA.jpg](attachment:IA.jpg)

![ML.jpg](attachment:ML.jpg)

**Aprendizaje Supervisado**

El aprendizaje supervisado es la parte del aprendizaje automático que se ocupa de los  problemas en los que existe una variable de salida, o *etiqueta*. En la gran mayoría de los casos, en aprendizaje supervisado se pretende estimar (inferir o predecir) el valor  de la variable de salida en función del resto de variables. Así pues, los problemas en aprendizaje supervisado suelen ser problemas de inferencia (o predicción).

En los problemas de inferencia con aprendizaje supervisado, es preciso que todas las filas de datos tengan un valor para la variable de salida. Si en algunas filas no hay valor en la variable de salida, no hay aprendizaje a partir de ellas, pues no se puede determinar la relación entre la variable de salida y el resto de las variables.

Existen dos grandes tipos de problemas de predicción en función del tipo de dato de la variable salida:

- *Regresión*: Si la variable de salida es numérica (número real).
- *Clasificación*: Si la variable es categórica (número discreto o etiqueta nominal).

**Aprendizaje No Supervisado**

El aprendizaje no supervisado es la parte que se ocupa de los problemas en los que no existe una variable de salida o  interés destacada, llamada *etiqueta*.

Por este motivo, los problemas de aprendizaje no supervisado no son de inferencia o predicción, pues si hubiera inferencia habría una variable de interés que inferir. 

Los dos problemas habituales en aprendizaje no supervisado son los siguientes:
- *Clustering*: Creación de grupos de datos similares, de gran importancia para dividir los problemas, y analizar y modelar cada grupo de forma separada.
- *Reglas de asociación:* Creación de reglas que asocian las variables entre sí mediante relaciones causa-efecto (antecedente y consecuente), muy útil para estudiar las dependencias entre los datos y para los sistemas de recomendación.

Aparte de los dos problemas anteriores, existen numerosas técnicas no supervisadas de aprendizaje automático
para otros problemas, entre ellas las de *reducción de la dimensionalidad*.

**Aprendizaje por Refuerzo**

El Aprendizaje por refuerzo consiste en un aprendizaje en el que el algoritmo recibe algún tipo de valoración acerca de la idoneidad de la respuesta que produce el modelo aprendido. Cuando la respuesta es correcta, el aprendizaje por refuerzo se parece al aprendizaje supervisado. En ambos tipos de aprendizaje, el modelo (denominado habitualmente aprendiz en aprendizaje por refuerzo) recibe información con detalle de su acierto.

Sin embargo, ambos tipos de aprendizaje (aprendizaje supervisado y aprendizaje por refuerzo) difieren significativamente
en las respuestas erróneas, es decir, cuando el aprendiz responde de forma inadecuada.

En estos casos, en aprendizaje supervisado el modelo recibe el valor exacto de la variable de salida, con lo cual pueden computarse exactamente medidas de error. Sin embargo, en aprendizaje por refuerzo solo se comunica al aprendiz que su comportamiento ha sido inadecuado y, en algunas ocasiones, una estimación de la cantidad de error cometido.

**Aprendizaje SemiSupervisado**

En aprendizaje semisupervisado, los problemas que se resuelven involucran una variable de salida, aunque no todas las filas de datos poseen un valor para la variable de salida. El objetivo de este paradigma es aprender un modelo predictivo que, dado un nuevo caso o ejemplo sin valor clase, anticipe o prediga cuál es su valor clase más probable

Dado que el volumen de datos sin valor para la variable de salida puede ser elevado, en lugar de eliminar las filas sin valor en la variable de salida, las técnicas de aprendizaje semisupervisado pueden construir modelos que tengan en cuenta todas las filas de datos y aun así resuelvan problemas de predicción.

## 1.2 Algunas definiciones

Se denomina **instancia** (ejemplo, muestra, observación, punto o prototipo) (instance, data point, sample) a cada fila de la tabla de datos. 

Se denomina **clase** (etiqueta, variable objetivo, respuesta, efecto, consecuencia) (class, target, response) a la variable de salida utilizada en aprendizaje supervisado. 

Se llama **atributo** (característica, causa, variable de entrada, variable explicativa) (attribute, feature, predictor, predictive variable) a cada una de las demás variables de la tabla de datos, excepto la clase.

Así, el objetivo algoritmo de predicción en aprendizaje supervisado es la extracción inteligente de un **modelo** (también modelo de conocimiento, patrón) (knowledge model, pattern) a partir de las relaciones encontradas entre los atributos y la clase en las instancias de la tabla de datos.

Un **parámetro** es una variable que que es interna del modelo y que puede estimarse a partir de los datos (los pesos de una red neuronal, coeficientes de la regresión lineal...)

Un **hiperparámetro** es una variable que es externa al modelo y que no puede estimarse a partir de los datos (la tasa de aprendizaje de una red neuronal, número de capas de una red neuronal,K en KNN...).

## 1.3 Overfitting, Underfitting , Bias y Variance

Se produce **overfitting** cuando se obtienen muy buenos resultados en el conjunto de entrenamiento, pero el modelo no generaliza bien para otros datos.

Se produce **underfitting** cuando se obtienen malos resultados en el conjunto de entrenamiento, y por tanto, malos resultados al generalizar a otros datos.

![Bias-Vari.png](attachment:Bias-Vari.png)

**Bias** mide diferencia entre valor estimado y valor real, mientras que **Variance** mide cuánto varía la predicción según el conjunto de entrenamiento.

Cuando baja uno, suele subir el otro, y estos se conoce como **trade-off bias-variance**.







## 1.4 Función de coste y Gradient Descendent

https://www.youtube.com/watch?v=A6FiCDoz8_4

Cuando creamos un modelo, este va a tener una serie de parámetros. **La función de coste** es una función que nos va a decir el error que vamos a tener para cada combinación de esos parámetros, y el objetivo es *minimizarla*.

**Gradient Descendent** es un algoritmo iterativo que permite calcular el mínimo de una función matemática. Es un algoritmo de optimización que, partiendo de un punto cualquiera de la función, de forma iterativa se "desplaza" en cada iteración en la dirección contraria a aquella cuya pendiente es máxima (el gradiente), buscando "descender" (o converger) a un mínimo local. Esta operación se debería repetir, en principio, y si todo funciona según lo esperado, hasta que se alcanza dicho mínimo (veremos a continuación que esto no siempre ocurre así).

La longitud de ese desplamiento es lo que se conoce como ratio o tasa de aprendizaje, y la eleccion de este hiperparámetro es muy importante para  obtener buenos resultados con el gradiente descendente. Si la tasa de aprendizaje es my pequeña, el algoritmo se quedará "atascado" en la misma región, dará "pasitos" muy pequeños y nunca llegará a encontrar ese mínimo (no llegará a converger al mínimo) o si lo hace, tardará demasiado tiempo. Por el contrario, si esta tasa fuera muy grande, los pasos serían tan grandes que iría de un punto a otro "dando tumbos" sin llegar a encontrar ese mínimo local porque lo "saltaría". Por eso es tan importante escoger un ratio de aprendizaje adecuado, de tal manera que sea capaz de converger a un mínimo local y que lo haga además en un tiempo razonable.

In [None]:
# Función que implementa el algoritmo de gradiente descendente.
import numpy as np

def gradient_descent(gradient, start, learn_rate, n_iter, tolerance):
    # gradient: El gradiente de la función que se desea minimizar
    # start: Un valor inicial x0
    # learn_rate: ratio de aprendizaje α
    # n_iter: número maximo de iteraciones 
    # tolerance: Un parámetro de tolerancia tol (con el que analizar el proceso cuando |f'(x)|<tol)
    
    vector = start
    for _ in range(n_iter):
        diff = np.array(-learn_rate * gradient(vector))
        if np.all(np.abs(diff) <= tolerance):
            break
        vector = diff + vector

    return vector

In [None]:
gradiente = lambda x :12*x**3 + 12*x**2 - 24*x
start_point = 3
learning_rate = 0.1
n_iteraciones = 100000
tolerancia = 1e-12

gradient_descent(gradiente, start_point, learning_rate,n_iteraciones, tolerancia)

Lo que ocurre es que la tasa de aprendizaje es tan grande, que el algoritmo va dando "saltos" muy grandes de un sitio a otro sin llegar a encontrar un mínimo local, y por tanto, sin llegar a converger a un mínimo local.

**Dibujar la función** f(x) = 12*x**3 + 12*x**2 - 24*x

In [None]:
gradiente = lambda x :12*x**3 + 12*x**2 - 24*x
start_point = 0.01
learning_rate = 0.01
n_iteraciones = 100000
tolerancia = 1e-12

gradient_descent(gradiente, start_point, learning_rate,n_iteraciones, tolerancia)

In [None]:
gradiente = lambda x :12*x**3 + 12*x**2 - 24*x
start_point = -0.01
learning_rate = 0.01
n_iteraciones = 100000
tolerancia = 1e-12

gradient_descent(gradiente, start_point, learning_rate,n_iteraciones, tolerancia)

# 2. Validación y Evaluación

## 2.1 Conjuntos de *Train*, *Test* y *Validation*

En un mismo no todos los algoritmos producen las mismas predicciones: unos algoritmos se comportan mejor con unos datos, mientras que otros algoritmos lo hacen mejor con otros datos. Po rlo que para un mismo conjunto de datos, será bueno comparar los resultados obtenidos con diferentes modelos y escoger el mejor.


El **conjunto de entrenamiento o training** es  el conjunto de datos utilizado para que el algoritmo aprenda y genere su modelo de conocimiento. 

Una vez entrenado el algoritmo, éste debe probarse en un conjunto de datos desconocido para el modelos (que no haya sido utilizado en el entrenamiento). Se denomina **conjunto de test** al conjunto de datos utilizado para que el algoritmo realice sus predicciones utilizando el modelo aprendido con el conjunto de entrenamiento. **El conjunto de test no debe contener ninguna instancia del conjunto de entrenamiento, sino que deben ser ejemplos diferentes.**

El **conjunto de validación** se utiliza para evaluar lo bien que se está ajustando el modelo a los datos de entrenamiento, mientras se ajustan los hiperparámetros del modelo. Sirve para evaluar los resultados del conjunto de train.

![Train.PNG](attachment:Train.PNG)

![Validation.svg](attachment:Validation.svg)

## 2.2 Hold Out Validation

In [None]:
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split

In [None]:
iris = datasets.load_iris()
iris.data.shape

In [None]:
# Test: hold-out split 80-20%.
X_training, X_test, y_training, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

In [None]:
# Validación: hold-out split 80-20%.
X_train, X_val, y_train, y_val = train_test_split(X_training, y_training, test_size=0.2, random_state=42)

In [None]:
# Mostrar características de los conjuntos de training y test.
print("Training: %d instancias y %d atributos" % (X_train.data.shape[0], X_train.data.shape[1]))
print("Validation: %d instancias y %d atributos" % (X_val.data.shape[0], X_val.data.shape[1]))
print("Test: %d instancias y %d atributos" % (X_test.data.shape[0], X_test.data.shape[1]))

## 2.3 Cross Validation

![Cross%20Validation.png](attachment:Cross%20Validation.png)

La validación *hold-out* es sencilla y muy utilizada, pero los resultados pueden ser sesgados hacia las particularidades del conjunto de test elegido. La técnica de validación más conocida que da más generalidad al resultado es **cross-validation**, donde los datos se dividen en *K-Folds* y se realizan K validaciones tipo *hold-out*.

In [None]:
from sklearn.model_selection import KFold

In [None]:
print("Tabla de datos: %d instancias y %d atributos" % (iris.data.shape[0], iris.data.shape[1]))
print("Valores de la clase:", set(iris.target))

In [None]:
# Validación cruzada.
kf = KFold(n_splits = 3)
bolsas = kf.split(iris)

In [None]:
k = 1
for train, test in bolsas:
    print("Iteracion", k, ":")
    print(" - Entrenamiento: %s" % (train)) 
    print(" - Test: %s" % (test))
    k = k + 1

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.dummy import DummyClassifier

clf = DummyClassifier(strategy='prior')

results = cross_val_score(clf, X_train, y_train, cv = KFold(n_splits=10))
print("Resultados por bolsa: ", results)
print("Accuracy (media +/- desv.): %0.4f +/- %0.4f)" % (results.mean(), results.std()))

## 2.4 Evaluación en Regresión

**Métricas**

https://sitiobigdata.com/2018/08/27/machine-learning-metricas-regresion-mse/#

In [None]:
from sklearn.dummy import DummyRegressor
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.metrics import make_scorer
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

In [None]:
datos = datasets.load_boston()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(datos.data, datos.target, test_size=0.2, random_state=42)
print(np.shape(X_train))
print(np.shape(X_test))

# Algoritmo de aprendizaje.
reg = DummyRegressor()

In [None]:
# Métricas de evaluación.
metricas = {
  'MAE': 'neg_mean_absolute_error',
  'RMSE': make_scorer(
          lambda y, y_pred:
            sqrt(mean_squared_error(y, y_pred)),
            greater_is_better=False),
  'MAPE': make_scorer(
          lambda y, y_pred:
            np.mean(np.abs((y - y_pred) / y)) * 100,
            greater_is_better=False)}

In [None]:
evaluacion = cross_validate(reg, X_train, y_train,
                cv = KFold(n_splits=5), scoring = metricas)

In [None]:
from pprint import pprint
pprint(evaluacion)

## 2.5 Evaluación en Clasificación

**Métricas**

https://sitiobigdata.com/2019/01/19/machine-learning-metrica-clasificacion-parte-3/


In [None]:
# Algoritmo 
clf = DummyClassifier(random_state=42)

In [None]:
# Validación y predicciones del modelo
y_pred = cross_val_predict(clf, X_train, y_train, cv = KFold(n_splits=5))
print(y_pred)

In [None]:
print("Exactitud: %.3f\n" % (metrics.accuracy_score(y_train, y_pred)))
print("Precisión: %.3f\n" % (metrics.precision_score(y_train, y_pred, average="micro")))
print("Sensibilidad: %.3f\n" % (metrics.recall_score(y_train, y_pred, average="micro")))
print("F1: %.3f\n" % (metrics.f1_score(y_train, y_pred, average="micro")))

In [None]:
print("Matriz de confusión:\n", metrics.confusion_matrix(y_train, y_pred))

In [None]:
print("Tabla de métricas:\n", metrics.classification_report(y_train, y_pred))

In [None]:
# Test evaluation
clf.fit(X_train, y_train)
y_pred_test = clf.predict(X_test)

print(metrics.classification_report(y_test, y_pred_test))
print(metrics.confusion_matrix(y_test, y_pred_test))

# 3. Regularización

Los modelos muy complejos tienen al sobreajuste u overfitting. La **regularización** es un conjunto de técnicas que se utilizan para prevenir el sobreajuste que lo que hacen es añadir una penalización a la función de coste, produciendo así modelos más simples que generalizan mejor.


https://sitiobigdata.com/2019/12/24/regularizacion-en-machine-learning-conecta-los-puntos/