# Submodulo metrics de sklearn



## Metricas para evaluar problemas de Regresion

**Error Cuadratico Medio** (Mean Squared Error : MSE )

$$
\frac{1}{n}\sum_{i = 1}^{n} (y_i  - \hat{y_i})^2
$$

```python
from sklearn import metrics
metrics.mean_squared_error(y_true, y_pred)
```

**Raiz del Error cuadratico medio** (Root Mean Squared Error : RMSE)

$$
\sqrt{\frac{1}{n}\sum_{i = 1}^{n} (y_i  - \hat{y_i})^2}
$$

```
metrics.mean_squared_error(y_true, y_pred, squared = False)
```

**Error Absoluto Medio** (Mean Squared Error :MAE)
$$
\frac{1}{n} \sum_{i = 1}^{n} |y_i - \hat{y_i}|
$$


```
metrics.mean_absolute_error(y_true, y_pred)
```

**Error Absoluto Medio Porcentual** (Mean Absolute Percentage Error : MAPE)
$$
\frac{100\text{%}}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y_i}}{y_i} \right|
$$



```
metrics.mean_absolute_percentage_error(y_true, y_pred)
```


### Otros indicadores de calidad
  > Coeficiente de determinacion ($R^2$)

  > Error Cuadratico Medio Logaritmico

  > Maximo Error







## Consideraciones Estadisticas y Computacionales

### Robustez y Sensibilidad
  * MAE y MAPE : Robustos a outliers
  * MSE/RMSE : Sensibles a outliers (utiles cuando los errores grandes son criticos)

### Escalabilidad
  * Todas las metricas son computacionalmente eficientes
  * Implementaciones vectorizadas

# Modelos de Regresion  Lineal : submodulo linear_model

In [None]:
# Importamos la clase a modelar
from sklearn.linear_model import LinearRegression
help(LinearRegression)

## Estrategia para obtener un modelo de regresion lineal

* Definicion de $X$ (todas las variables independientes) e $y$ (variable dependiente)

* Particionar los datos en un subconjunto de entrenamiento (ajustar el modelo) y un subconjunto de testeo (calcular indicadores/metricas para medir el poder predictivo del modelo)

* Instanciar la clase a modelar (LinearRegression)

* Ajustar la clase a modelar usando el subconjunto  de entrenamiento (Paso2)

* COnstruimos pronosticos de la variable dependiente a partir del modelo y del subconjunto de testeo de las variables independientes

* Calculamos un indicador de calidad (metrica).

# Analizar a los modelos que compone al submodulo `linear_model`



```
import sklear.linear_model
dir(sklear.linear_model)
```



In [None]:
# 'ARDRegression',
#  'BayesianRidge',
#  'ElasticNet',
#  'ElasticNetCV',
#  'GammaRegressor',
#  'HuberRegressor',
#  'Lars',
#  'LarsCV',
#  'Lasso',
#  'LassoCV',
#  'LassoLars',
#  'LassoLarsCV',
#  'LassoLarsIC',
#  'LinearRegression',
#  'LogisticRegression',
#  'LogisticRegressionCV',
#  'MultiTaskElasticNet',
#  'MultiTaskElasticNetCV',
#  'MultiTaskLasso',
#  'MultiTaskLassoCV',
#  'OrthogonalMatchingPursuit',
#  'OrthogonalMatchingPursuitCV',
#  'PassiveAggressiveClassifier',
#  'PassiveAggressiveRegressor',
#  'Perceptron',
#  'PoissonRegressor',
#  'QuantileRegressor',
#  'RANSACRegressor',
#  'Ridge',
#  'RidgeCV',
#  'RidgeClassifier',
#  'RidgeClassifierCV',
#  'SGDClassifier',
#  'SGDOneClassSVM',
#  'SGDRegressor',
#  'TheilSenRegressor',
#  'TweedieRegressor',

# Tecnicas de regularizacion

Las tecnicas de regularizacion es añadir un termino de penalizacion sobre los coeficientes del modelo

* L1 (Lasso)
* L2 (Ridge)
* ElasticNet

## Limitaciones de la utilizacion del metodo de Minimos Cuadrados (ordinarios)

$$
\min_{c_i} \| y - XC \|^2
$$

## Ventajas de los modelos regularizados

* Regresion Lasso (L1)

$$
\min_{c_i} \| y - XC \|^2 + \alpha \|C\|_1
$$

* Regresion Ridge (L2)

$$
\min_{c_i} \| y - XC \|^2 + \alpha \|C\|^2
$$


* ElasticNet

$$
\min_{C_0, C} \left\{ \frac{1}{2n}  \| y - XC - C_0 1 \|^2 +
\alpha\rho \|C\| + \frac{\alpha(1-\rho)}{2} \|C\|^2
\right\}
$$

In [None]:
help(sklearn.linear_model.Lasso)

In [None]:
help(sklearn.linear_model.Ridge)

In [None]:
help(sklearn.linear_model.ElasticNet)

# Modelos de Aprendizaje Supervisado para problemas de clasificacion : Regresion logistica Binomial

Un modelo lineal generalizado se define mediante 3 componentes:
* Distribucion de la variable de respuesta
* Funcion de enlace
* Predictor Lineal

> Un modelo de clasificacion basado en una regresion  logistica satisface estos tres componentes : una distribucion binomial y una funcion de enlace logic



## Formulacion matematica del modelo lineal Generalizacion para un problema de clasificacion binomial : $y \in \{0,1\}$

> Primera componente : $y_i \sim $ Bernoulli($\mu_i$)

> Segundo Componente : Funcion de enlace logit

$$
g(\mu_i) = \log \left(  \frac{\mu_i}{1- \mu_i}\right) = x_i^{T} C
$$

Definir la regresion logistica:
$$
\log \left( \frac{\mathbb{P} (y_1 =1 |x_i)}{1- \mathbb{P} (y_1 =1 |x_i)}\right) = c_0 + C_1 x_{i1} + C_2 x_{i2} + C_p x_{ip} = x_i^{T} C
$$

$$
\mathbb{P} (y_1 =1 |x_i) = \frac{\exp(x_i^{T} C)}{1-\exp(x_i^{T} C)}
$$

In [9]:
#
from sklearn.linear_model import LogisticRegression
help(LogisticRegression)

Help on class LogisticRegression in module sklearn.linear_model._logistic:

class LogisticRegression(sklearn.linear_model._base.LinearClassifierMixin, sklearn.linear_model._base.SparseCoefMixin, sklearn.base.BaseEstimator)
 |  LogisticRegression(penalty='l2', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='lbfgs', max_iter=100, multi_class='deprecated', verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)
 |
 |  Logistic Regression (aka logit, MaxEnt) classifier.
 |
 |  This class implements regularized logistic regression using the
 |  'liblinear' library, 'newton-cg', 'sag', 'saga' and 'lbfgs' solvers. **Note
 |  that regularization is applied by default**. It can handle both dense
 |  and sparse input. Use C-ordered arrays or CSR matrices containing 64-bit
 |  floats for optimal performance; any other input format will be converted
 |  (and copied).
 |
 |  The 'newton-cg', 'sag', and 'lbfgs' solvers support

# Primer modelo de regresion logistica

In [10]:
# Modulos y datos
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Aprendizaje Automatico / Machine Learning
from sklearn.model_selection import train_test_split

# Regresion Logistica : Variable dependiente es categorica (Modelo de Clasificacion)
from sklearn.linear_model import LogisticRegression

# Calculo de indicadores de calidad : Metricas
from sklearn import metrics

# Dataset : Problema de clasificacion binaria
df = pd.read_csv("https://raw.githubusercontent.com/robintux/Datasets4StackOverFlowQuestions/refs/heads/master/breast-cancer-wisconsin.csv")
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 33 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id                       569 non-null    int64  
 1   diagnosis                569 non-null    object 
 2   radius_mean              569 non-null    float64
 3   texture_mean             569 non-null    float64
 4   perimeter_mean           569 non-null    float64
 5   area_mean                569 non-null    float64
 6   smoothness_mean          569 non-null    float64
 7   compactness_mean         569 non-null    float64
 8   concavity_mean           569 non-null    float64
 9   concave points_mean      569 non-null    float64
 10  symmetry_mean            569 non-null    float64
 11  fractal_dimension_mean   569 non-null    float64
 12  radius_se                569 non-null    float64
 13  texture_se               569 non-null    float64
 14  perimeter_se             5

In [11]:
# Eliminemos las columnas id y Unnamed: 32
df = df.drop(["id", "Unnamed: 32"], axis = 1)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 31 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   diagnosis                569 non-null    object 
 1   radius_mean              569 non-null    float64
 2   texture_mean             569 non-null    float64
 3   perimeter_mean           569 non-null    float64
 4   area_mean                569 non-null    float64
 5   smoothness_mean          569 non-null    float64
 6   compactness_mean         569 non-null    float64
 7   concavity_mean           569 non-null    float64
 8   concave points_mean      569 non-null    float64
 9   symmetry_mean            569 non-null    float64
 10  fractal_dimension_mean   569 non-null    float64
 11  radius_se                569 non-null    float64
 12  texture_se               569 non-null    float64
 13  perimeter_se             569 non-null    float64
 14  area_se                  5

In [13]:
# Numero de valores faltantes para todo el dataframe
df.isnull().sum().sum()

np.int64(0)

In [15]:
# Que valores compone a la variable dependiente :
df.diagnosis.unique()
# M : maligno
# B : Benigno



array(['M', 'B'], dtype=object)

In [None]:
# Podriamos considerar como una estratregia adecuada (basada en nuestra explicacion teorica)
# de traducir la informacion cualitativa de la variable dependiente a informacion
# cuantitativa

# Resultado de un debate sumamente productivo, reconocemos 3 posibles escenarios de transformacion


In [None]:
# Primer escenario : B=0 M=1
# Segundo escenario : B=0 M=-1
# Tercer escenario : B=1 M=-1

## Consideremos para nuestro modelo base el primer escenario : B=0 -  M=1

In [18]:
# Veamos la distribucion de valores dentro de la variable dependiente
df.diagnosis.value_counts()

Unnamed: 0_level_0,count
diagnosis,Unnamed: 1_level_1
B,357
M,212


In [28]:
# Definamos las variables independientes
X = df.drop("diagnosis", axis = 1)

# Definamos a la variable dependientes (Primer escenario)
y = df.diagnosis.replace({"B":0, "M":1})

# Particionado de datos : subconjunto de entrenamiento y subconjunto de testeo
X_train, X_test, y_train, y_test = train_test_split(X,y,train_size= 0.93,
                                                    # Muestreo estratificado
                                                    stratify= y
                                                    )

# Instanciamos la clase a modelar
model_base_reglog = LogisticRegression(max_iter=2000*5)

# Adjuntamos el modelo con el subconjunto de entrenamiento
model_base_reglog.fit(X_train,y_train)

# COnstruccion de pronosticos para el subconjunto de testeo
y_test_pred = model_base_reglog.predict(X_test)

# Calculamos un indicador de calidad : Exactitud
metrics.accuracy_score(y_test, y_test_pred)


  y = df.diagnosis.replace({"B":0, "M":1})


0.975

# Construyamos un segundo modelo para nuestro Segundo escenario : B=0 - M=-1


In [32]:
# Definamos las variables independientes
X = df.drop("diagnosis", axis = 1)

# Definamos a la variable dependientes (Primer escenario)
y = df.diagnosis.replace({"B":0, "M":-1})

# Particionado de datos : subconjunto de entrenamiento y subconjunto de testeo
X_train, X_test, y_train, y_test = train_test_split(X,y,train_size= 0.93,
                                                    # Muestreo estratificado
                                                    stratify= y
                                                    )

# Instanciamos la clase a modelar
model_base_reglog = LogisticRegression(max_iter=2000*5)

# Adjuntamos el modelo con el subconjunto de entrenamiento
model_base_reglog.fit(X_train,y_train)

# COnstruccion de pronosticos para el subconjunto de testeo
y_test_pred = model_base_reglog.predict(X_test)

# Calculamos un indicador de calidad : Exactitud
metrics.accuracy_score(y_test, y_test_pred)


  y = df.diagnosis.replace({"B":0, "M":-1})


0.925

# Construyamos un tercer modelo para nuestro Tercer escenario : B=1 - M=-1

In [35]:
# Definamos las variables independientes
X = df.drop("diagnosis", axis = 1)

# Definamos a la variable dependientes (Primer escenario)
y = df.diagnosis.replace({"B":1, "M":-1})

# Particionado de datos : subconjunto de entrenamiento y subconjunto de testeo
X_train, X_test, y_train, y_test = train_test_split(X,y,train_size= 0.93,
                                                    # Muestreo estratificado
                                                    stratify= y
                                                    )

# Instanciamos la clase a modelar
model_base_reglog = LogisticRegression(max_iter=2000*5)

# Adjuntamos el modelo con el subconjunto de entrenamiento
model_base_reglog.fit(X_train,y_train)

# COnstruccion de pronosticos para el subconjunto de testeo
y_test_pred = model_base_reglog.predict(X_test)

# Calculamos un indicador de calidad : Exactitud
metrics.accuracy_score(y_test, y_test_pred)


  y = df.diagnosis.replace({"B":1, "M":-1})


0.975

# Implementemos una estrategia adecuada de comparacion de modelos


In [36]:
# Fijemos los datos de entrenamiento y testeo para poder comparar las
# divarsas estrategias formuladas


# Primera Estrategia :
# Definamos a la variable dependientes (Primer escenario)
y1 = df.diagnosis.replace({"B":0, "M":1})

# Particionado de datos : subconjunto de entrenamiento y subconjunto de testeo
X_train_1, X_test_1, y_train_1, y_test_1 = train_test_split(X,y1,train_size= 0.93,
                                                    # Muestreo estratificado
                                                    stratify= y1
                                                    )

# Segunda Estrategia :
y2 = df.diagnosis.replace({"B":0, "M":-1})

# Particionado de datos : subconjunto de entrenamiento y subconjunto de testeo
X_train_2, X_test_2, y_train_2, y_test_2 = train_test_split(X,y2,train_size= 0.93,
                                                    # Muestreo estratificado
                                                    stratify= y2
                                                    )

# Tercera Estrategia
y3 = df.diagnosis.replace({"B":1, "M":-1})

# Particionado de datos : subconjunto de entrenamiento y subconjunto de testeo
X_train_3, X_test_3, y_train_3, y_test_3 = train_test_split(X,y3,train_size= 0.93,
                                                    # Muestreo estratificado
                                                    stratify= y3
                                                    )

  y1 = df.diagnosis.replace({"B":0, "M":1})
  y2 = df.diagnosis.replace({"B":0, "M":-1})
  y3 = df.diagnosis.replace({"B":1, "M":-1})


In [40]:
# MOdelo para la primera estrategia
model_base_y1 = LogisticRegression(max_iter=10000).fit(X_train_1,y_train_1 )
exactitud1 = metrics.accuracy_score(y_test_1, model_base_y1.predict(X_test_1))

# MOdelo para la segunda estrategia
model_base_y2 = LogisticRegression(max_iter=10000).fit(X_train_2,y_train_2 )
exactitud2 = metrics.accuracy_score(y_test_2, model_base_y2.predict(X_test_2))

# MOdelo para la tercera estrategia
model_base_y3 = LogisticRegression(max_iter=10000).fit(X_train_3,y_train_3 )
exactitud3 = metrics.accuracy_score(y_test_3, model_base_y3.predict(X_test_3))

# Resumir los resultados
print("""
Exactitud (modelo1) : %f
Exactitud (modelo2) : %f
Exactitud (modelo3) : %f
""" %(exactitud1,exactitud2,exactitud3))


Exactitud (modelo1) : 0.950000
Exactitud (modelo2) : 0.950000
Exactitud (modelo3) : 0.925000

