## Métodos Estadísticos

Las medidas probabilísticas implican calificar analíticamente un modelo candidato utilizando tanto su desempeño en el conjunto de datos de entrenamiento como en la complejidad del modelo.

Se sabe que el error de entrenamiento tiene un sesgo optimista (por overfitting) y, por lo tanto, no es una buena base para elegir un modelo. El rendimiento se puede penalizar en función de cuán optimista se cree que es el error de entrenamiento. Por lo general, esto se logra mediante métodos específicos de algoritmos, a menudo lineales, que penalizan la puntuación en función de la **complejidad del modelo**.

Existen varias tecnicas probabilisticas para la seleccion de modelos, dos de las mas populares son:
- AIC (Akaike Information Criterion)
- BIC (Bayesian Information Criterio)

Existen dos criterios principales a utilizar cuando evaluamos modelos:
- Rendimiento del modelo: Rendimiento del modelo despues de entrenarlo con el set de entrenamiento.
- Complejidad del modelo: Grados de libertad o cantidad de parametros del modelo. Se asume que entre más parámetros, más complejidad existe en el modelo.

A continuación, vamos a revisar cómo podemos implementar estas técnicas en la selección de nuestros modelos de ML.

### Estimación de Probabilidad Máxima

Cada estadística se puede calcular utilizando la probabilidad logarítmica de un modelo y los datos. La probabilidad logarítmica proviene de la estimación de probabilidad máxima (Maximum Likelihood Estimation), una técnica para encontrar u optimizar los parámetros de un modelo en respuesta a un conjunto de datos de entrenamiento.

En la estimación de probabilidad máxima, deseamos maximizar la probabilidad condicional de observar los datos (X) dada una distribución de probabilidad específica y sus parámetros (beta), expresados formalmente como:

- $P(X|\beta)$ donde $X$ es la probabilidad conjunta de todos los datos $x_i$ o bien,
- $P(x_1 + x_2,+...+,x_n|\beta) = \sum log(P(x_i|\beta))$

<img src="img/frebay.png" />

### AIC (Akaike Information Criterion)

Lleva el nombre del desarrollador del método, Hirotugu Akaike, y stiene una base en la teoría de la información y la inferencia frecuentista.

la formula de AIC varia segun el algoritmo:

- $regresion Logistica: AIC = -2/n * log(MLE) + 2 * k/n$
- $regresion Lineal: AIC = n * log(MLE) + 2 * k$

Donde:
- n: número de rows en el training set
- MLE: estimación de máxima verosimilitud (logarítmica) [maximum likelihood estimation]
- k: número de parámetros  en el modelo (features)

Una vez que se calcula el AIC, para varios modelos, se escoje el modelo con el AIC mas pequeno.

In [34]:
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from math import log

# generar un dataset random con 2 variables
X, y = make_regression(n_samples=100, n_features=2, noise=0.1)

# entrenar el modelo
model = LinearRegression()
model.fit(X, y)

# realizar la prediccion sobre el set de entrenamiento
y_prima = model.predict(X)

# calculate the error
MSE = mean_squared_error(y, y_prima)
print('MSE: %.3f' % MSE)

MSE: 0.011


In [35]:
# parametros del modelo
k = len(model.coef_) + 1

# cantidad de datos
n = X.shape[0]

# EPM es el MSE!
def estimar_aic(n, mle, k):
    aic = n * log(mle) + 2 * k
    return aic

aic_score = estimar_aic(n,MSE,k)

print("AIC:", aic_score, "MSE:",MSE, "Parametros:",k)

AIC: -447.6491776984325 MSE: 0.010710917003088854 Parametros: 3


In [36]:
# EJERCICIO IMPLEMENTE AIC PARA LOGISTIC REGRESSION
# Para el siguiente dataset

# Nuestro dataset de aprobación de exámenes dadas las horas de estudio, sueño y repeticiones
horas_estudio = [5, 4, 1, 1, 1, 2, 3, 3, 2, 0, 3, 3, 2, 3, 2, 3, 1, 5, 4, 4, 3, 4, 2, 4, 3, 3, 6, 4, 4, 5, 3, 4, 3, 2, 6, 2, 4, 4, 1, 5, 3, 3, 5, 7, 4, 3, 5, 2, 3, 5, 3, 4, 3, 3, 1, 3, 6, 0, 4, 3, 7, 2, 5, 3, 3, 4, 3, 1, 5, 4, 1, 4, 3, 1, 2, 4, 2, 2, 2, 2, 4, 3, 3, 1, 4, 2, 1, 0, 4, 4, 3, 3, 4, 6, 5, 3, 2, 2, 6, 6]
horas_sueno = [4, 4, 5, 5, 4, 6, 7, 7, 5, 8, 5, 7, 7, 7, 7, 7, 4, 8, 4, 8, 6, 8, 5, 4, 5, 5, 7, 4, 6, 8, 6, 4, 7, 4, 5, 7, 7, 4, 6, 6, 5, 6, 7, 6, 4, 8, 7, 4, 4, 6, 5, 8, 6, 8, 4, 5, 4, 6, 8, 5, 6, 6, 5, 6, 4, 8, 4, 6, 5, 7, 5, 6, 7, 7, 8, 4, 4, 6, 8, 6, 4, 6, 5, 5, 5, 4, 4, 7, 8, 5, 4, 8, 5, 6, 5, 6, 7, 7, 4, 5]
repeticiones = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
resultado_examen = ['APROBADO', 'APROBADO', 'REPROBADO', 'REPROBADO', 'REPROBADO', 'REPROBADO', 'REPROBADO', 'APROBADO', 'REPROBADO', 'REPROBADO', 'APROBADO', 'REPROBADO', 'REPROBADO', 'APROBADO', 'REPROBADO', 'APROBADO', 'REPROBADO', 'REPROBADO', 'REPROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'REPROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'REPROBADO', 'APROBADO', 'REPROBADO', 'REPROBADO', 'APROBADO', 'REPROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'REPROBADO', 'REPROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'REPROBADO', 'APROBADO', 'APROBADO', 'REPROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'REPROBADO', 'APROBADO', 'REPROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'REPROBADO', 'APROBADO', 'APROBADO', 'REPROBADO', 'APROBADO', 'APROBADO', 'REPROBADO', 'REPROBADO', 'APROBADO', 'REPROBADO', 'REPROBADO', 'REPROBADO', 'REPROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'REPROBADO', 'REPROBADO', 'REPROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'APROBADO', 'REPROBADO', 'REPROBADO', 'APROBADO', 'APROBADO']

# TODO: Aqui su codigo para estimar AIC con LogReg
# verifique el cambio de AIC con mas o menos variables


### BIC (Bayesian Information Criterion)

Recibe el nombre del campo de estudio del que se derivó: probabilidad e inferencias bayesianas. Al igual que AIC, es apropiado para modelos que se ajustan al marco de MLE.

la formula de BIC varia segun el algoritmo:

- $Regresion Logistica: BIC = -2 * log(MLE) + log(n) * k$
- $Regresion Lineal: BIC = n * log(MLE) + k * log(n) $

El BIC penaliza más al modelo por su complejidad, lo que significa que los modelos más complejos tendrán una puntuación peor (mayor) y, a su vez, será menos probable que sean seleccionados.

In [37]:
# EPM es el MSE!
def estimar_bic(n, mle, k):
    bic = n * log(mle) + k * log(n)
    return bic


In [38]:
# EJERCICIO IMPLEMENTE BIC PARA LOGISTIC REGRESSION
# Para el mismo dataset de las horas de estudio.

# TODO: Aqui su codigo para estimar BIC con LogReg
# verifique el cambio de BIC con mas o menos variables
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
import numpy as np

encoder = LabelEncoder()

arr_x = np.array((horas_estudio, horas_sueno, repeticiones)).T

# En cuanto a la salida, scikit-learn se encarga de todas las codificaciones binarias
arr_y = np.array(resultado_examen)

encoder.fit(arr_y)
arr_y=encoder.transform(arr_y)

exame_model = LogisticRegression(multi_class='multinomial', max_iter=1000)
exame_model.fit(arr_x, arr_y)

# realizar la prediccion sobre el set de entrenamiento
y_prima_examen = exame_model.predict(arr_x)

# calculate the error
MSE_EXAM = mean_squared_error(arr_y, y_prima_examen)

k = len(exame_model.coef_) + 1

# cantidad de datos
n = arr_x.shape[0]


In [39]:

bic_score = estimar_bic(n,MSE,k)

print("AIC:", aic_score, "MSE:",MSE_EXAM, "Parametros:",k)
print("BIC:", bic_score, "MSE:",MSE_EXAM, "Parametros:",k)

AIC: -447.6491776984325 MSE: 0.08 Parametros: 2
BIC: -444.4388373264563 MSE: 0.08 Parametros: 2
