<a href="https://colab.research.google.com/github/Viny2030/Aconcagua/blob/main/scikit_001_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 # **<font color="DarkOrange">Introducción a Scikit-learn</font>**

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DarkOrange">Historia de scikit-learn</font>**

<p align="justify">  
La historia de <b>scikit-learn</b> es fascinante, ya que refleja cómo un proyecto de código abierto puede transformarse en una herramienta indispensable en el ecosistema de Python para aprendizaje automático. Su desarrollo y crecimiento no solo han sido un logro técnico, sino también un ejemplo de colaboración comunitaria exitosa.  
<br><br>  
👀 <b>Resumen de su historia:</b>  
<br><br>  
<ol align="justify">  
<li>  
<b>Orígenes y lanzamiento inicial:</b>  
Scikit-learn fue creado en 2007 por **David Cournapeau** como parte de su tesis doctoral en la Universidad Tecnológica de Nueva Gales del Sur, en Australia. En sus inicios, se llamó "scikits.learn" y se diseñó como un proyecto de código abierto para proporcionar herramientas simples y eficientes para aprendizaje automático en Python. La biblioteca estaba destinada a complementar la funcionalidad de SciPy. La primera versión pública fue lanzada en 2010, marcando el inicio de una revolución en la accesibilidad al aprendizaje automático para programadores e investigadores.  
</li>  
<br>  
<li>  
<b>Crecimiento y adopción:</b>  
Desde su primera versión, scikit-learn ha experimentado un crecimiento exponencial. A lo largo de los años, se han añadido una amplia gama de algoritmos de aprendizaje automático (supervisado y no supervisado), herramientas de preprocesamiento de datos, técnicas de selección de características, métodos de evaluación de modelos y utilidades para crear flujos de trabajo eficientes. Este continuo desarrollo ha sido crucial para su adopción masiva en diversas industrias y campos académicos.  
</li>  
<br>  
<li>  
<b>Contribuciones y comunidad:</b>  
El éxito de scikit-learn se debe en gran medida a su comunidad activa de desarrolladores y colaboradores. Desde 2010, cientos de contribuyentes han participado en el proyecto, añadiendo nuevas funcionalidades, corrigiendo errores y mejorando la documentación. Además, el liderazgo de organizaciones como Inria (Instituto Nacional de Investigación en Informática y Automática, de Francia) y la Fundación NumFOCUS ha garantizado la sostenibilidad del proyecto.  
</li>  
<br>  
<li>  
<b>Reconocimiento y uso generalizado:</b>  
Hoy en día, scikit-learn es una biblioteca estándar para estudiantes, investigadores, académicos y profesionales de la industria. Su enfoque en la simplicidad, documentación clara y amplia gama de algoritmos lo han convertido en una herramienta esencial. Es comúnmente utilizado en áreas como la predicción de tendencias, el análisis financiero, la biología computacional y la minería de datos, entre muchas otras.  
</li>  
<br>  
<li>  
<b>Integración con el ecosistema de Python:</b>  
Scikit-learn es altamente compatible con otras bibliotecas de Python, como NumPy, SciPy, Pandas, Matplotlib, Seaborn y Plotly. Esta integración permite a los usuarios construir flujos de trabajo completos para el análisis de datos, desde la limpieza inicial hasta la visualización de resultados y el despliegue de modelos predictivos. Su sinergia con estas herramientas ha sido un factor clave en su éxito.  
</li>  
<br>  
<li>  
<b>Impacto en la educación:</b>  
Además de su uso en la industria, scikit-learn ha transformado la enseñanza del aprendizaje automático. Su facilidad de uso y enfoque pedagógico lo convierten en la biblioteca ideal para introducir conceptos complejos de manera accesible. Muchos cursos y programas de análisis de datos y ciencia de datos en todo el mundo lo utilizan como herramienta principal.  
</li>  
</ol>  
<br>  
<p align="justify">  
✅ La historia de scikit-learn es la de un proyecto que, desde sus humildes comienzos, se ha convertido en una de las bibliotecas más populares, versátiles y respetadas del aprendizaje automático en Python. Su simplicidad, funcionalidad robusta y comunidad activa han sido pilares de su éxito, consolidándolo como una herramienta imprescindible para el análisis de datos y el desarrollo de modelos predictivos.  
</p>  

 # **<font color="DarkOrange">Primer modelo de Regresión con scikit-learn</font>**

❤ https://scikit-learn.org/stable/

<p align="justify">
👀 En este Colab, vamos a construir un modelo predictivo de datos tabulares y solo con las variables numéricas. <br><br>En particular, se destacan las siguientes funciones y métodos:
</p>

- <code>.fit(X, y)</code> para entrenar.
- <code>.predict(X)</code> para predecir.
- <code>.score(X, y)</code> para evaluar la predicción.
- Evaluación del rendimiento del modelo con:
     - un conjunto de datos de entrenamiento.
     - un conjunto de datos de prueba.

<p align="justify"> 👀 Los <mark>datos numéricos</mark> son el tipo de datos que <mark>se utilizan naturalmente en los modelos de aprendizaje automático</mark> y pueden incorporarse directamente a los modelos predictivos, bueno, casi directamente (conviene normalizarlos).<br><br> Ahora a continuación, vamos a cargar un conjunto de  datos, pero solo vamos a trabajar con las columnas numéricas. Por eso, habilitamos <code>Pandas</code>, <code>Numpy</code> y leemos los datos de <code>Github</code>.</p>

In [1]:
import numpy as np
import pandas as pd

In [2]:
data = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/refs/heads/main/datasets/house.csv")

In [3]:
data.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
1,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
2,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
3,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
4,8,60,RL,,10382,Pave,,IR1,Lvl,AllPub,...,0,,,Shed,350,11,2009,WD,Normal,200000


<p align="justify">
El conjunto de datos <b>house</b> es un dataset utilizado comúnmente para tareas de regresión. Este dataset contiene información sobre diferentes propiedades inmobiliarias, con diversas características descriptivas (variables independientes) y el precio de la casa como variable objetivo (dependiente). Es ideal para demostrar cómo predecir precios de casas utilizando modelos de aprendizaje automático.
<br><br>

<b>1. Variables del conjunto de datos:</b><br>
El dataset incluye tanto variables numéricas como categóricas. Algunas de las columnas más relevantes son:
<ul>
<li><b>Price:</b> El precio de la propiedad (variable objetivo).</li>
<li><b>Area:</b> Superficie total de la casa en pies cuadrados.</li>
<li><b>Rooms:</b> Número de habitaciones.</li>
<li><b>Bathrooms:</b> Número de baños.</li>
<li><b>Stories:</b> Número de pisos.</li>
<li><b>Mainroad:</b> Indica si la casa está cerca de una carretera principal (sí/no).</li>
<li><b>Guestroom:</b> Indica si la casa tiene cuarto de huéspedes (sí/no).</li>
<li><b>Basement:</b> Indica si la casa tiene sótano (sí/no).</li>
<li><b>Hotwaterheating:</b> Indica si la casa tiene calefacción por agua caliente (sí/no).</li>
<li><b>Airconditioning:</b> Indica si la casa tiene aire acondicionado (sí/no).</li>
<li><b>Parking:</b> Número de espacios de estacionamiento disponibles.</li>
<li><b>Prefarea:</b> Indica si la casa está ubicada en una zona preferencial (sí/no).</li>
</ul>

<br>

<b>2. Características del dataset:</b><br>
<ul>
<li>El dataset contiene tanto variables categóricas como numéricas, permitiendo la práctica de preprocesamiento, como codificación de variables categóricas, manejo de valores nulos y escalado de características.</li>
<li>Es ideal para experimentar con algoritmos de regresión y entender cómo las diferentes características afectan el precio de las casas.</li>
</ul>

<br>

<b>3. Tareas comunes realizadas con este dataset:</b><br>
<ul>
<li>Análisis exploratorio de datos (EDA) para identificar patrones y relaciones entre variables.</li>
<li>Entrenamiento de modelos de regresión para predecir el precio de una casa.</li>
<li>Evaluación de la importancia de las características para determinar qué factores impactan más en el precio.</li>
<li>Visualización de datos para interpretar los resultados, como gráficos de dispersión, histogramas y mapas de calor.</li>
</ul>

<br>

<b>4. Contexto práctico:</b><br>
Este dataset puede representar un escenario real para empresas inmobiliarias o desarrolladores interesados en estimar precios de propiedades basándose en sus características estructurales y de ubicación.
<br><br>
<p align="justify">
🏠 En resumen, el conjunto de datos <b>house</b> es una herramienta excelente para aprender y practicar técnicas de regresión en el contexto del análisis inmobiliario.
</p>


<p align="justify">
✅ El objetivo con estos datos es estimar precios de propiedades basándose en sus características estructurales y de ubicación.
</p>



 # **<font color="DarkOrange">Algunos conceptos de Aprendizaje Automático</font>**

<p align="justify">
✅ En general, un problema de <b>Aprendizaje Automático</b> considera un conjunto de $n$ muestras de datos y luego trata de predecir las propiedades de los datos desconocidos. Si cada muestra es más que un solo número, por ejemplo los datos multivariados, se dice que la muestra tiene varios atributos o características.
<br><br> Vamos a dividir los problemas de Aprendizaje Automático en dos categorías:
<br><br>
</p>
<ul align="justify">
<li>
<b>Aprendizaje Supervisado</b>, en el que los datos vienen con atributos adicionales que queremos predecir. El Aprendizaje Supervisado puede ser de:
<ul><li>
<b>Clasificación</b>: las muestras pertenecen a dos (clasificacion binaria) o más clases (clasificacion multiclase) y queremos aprender de los datos ya etiquetados (variable objetivo) para predecir la clase de aquellos datos que no estan etiquetados (datos nuevos). Un ejemplo de un problema de clasificación binaria sería la predicción de la contratación de un seguro ofrecido por un banco, en virtud de las caracteristicas de los clientes del banco.
</li>
<li>
<b>Regresión</b>: si la salida deseada consiste en una o más variables continuas, entonces este modelo se llama regresión. Un ejemplo de un problema de regresión sería la predicción del precio de una propiedad en virtud de las caracteristicas de la propiedad.
</li></ul><br>
<li>
<b>Aprendizaje no Supervisado</b>, en el que los datos de entrenamiento consisten en un conjunto de vectores de entrada $x$ sin ninguna variable objetivo correspondiente, ya que el objetivo de tales problemas de Aprendizaje no Supervisado puede ser descubrir grupos de ejemplos similares dentro de los datos, lo que se denomina agrupamiento, o determinar la distribución de los datos, conocido como estimación de densidad, o proyectar los datos desde un punto de vista de dimensión, como por ejemplo, reducir el espacio a dos o tres dimensiones con el propósito de visualización.


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/ML-001.png?raw=true" width="500">
</p>


 # **<font color="DarkOrange">Separar la variable objetivo y las variables explicativas</font>**

👀 Ahora vamos a dividir del conjunto de datos, la variable objetivo y las variables explicativas, es decir, vamos a obtener una <code>Serie</code> para la variable objetivo y un <code>DataFrame</code> con las variables explicativas, y de las explicativas, solo nos vamos a quedar con las variables numéricas...

 ## **<font color="DarkOrange">Variable objetivo</font>**

In [4]:
y = data["SalePrice"]
y.head()

Unnamed: 0,SalePrice
0,181500
1,223500
2,140000
3,250000
4,200000


👀 Verificamos que el objeto es una <code>Serie</code>...

In [5]:
y.shape

(1022,)

In [6]:
type(y)

 ## **<font color="DarkOrange">Variables explicativas</font>**

In [7]:
X = data.drop(columns=["SalePrice"])
X.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,0,,,,0,5,2007,WD,Normal
1,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,9,2008,WD,Normal
2,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,2,2006,WD,Abnorml
3,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,12,2008,WD,Normal
4,8,60,RL,,10382,Pave,,IR1,Lvl,AllPub,...,0,0,,,Shed,350,11,2009,WD,Normal


👀 Verificamos que el objeto es un <code>DataFrame</code>...

In [8]:
type(X)

In [9]:
X.shape

(1022, 80)

In [10]:
print("")
print(f"El conjunto de datos contiene {X.shape[0]} registros y "
      f"{X.shape[1]} variables explicativas")


El conjunto de datos contiene 1022 registros y 80 variables explicativas


<p align="justify">
🔢 Ahora, solo nos quedamos con las variables explicativas, que sean numéricas, por eso, vamos a excluir las cadenas de caracteres.

In [11]:
X = X.select_dtypes(exclude=['object'])


In [28]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1022 entries, 0 to 1021
Data columns (total 37 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1022 non-null   int64  
 1   MSSubClass     1022 non-null   int64  
 2   LotFrontage    832 non-null    float64
 3   LotArea        1022 non-null   int64  
 4   OverallQual    1022 non-null   int64  
 5   OverallCond    1022 non-null   int64  
 6   YearBuilt      1022 non-null   int64  
 7   YearRemodAdd   1022 non-null   int64  
 8   MasVnrArea     1016 non-null   float64
 9   BsmtFinSF1     1022 non-null   int64  
 10  BsmtFinSF2     1022 non-null   int64  
 11  BsmtUnfSF      1022 non-null   int64  
 12  TotalBsmtSF    1022 non-null   int64  
 13  1stFlrSF       1022 non-null   int64  
 14  2ndFlrSF       1022 non-null   int64  
 15  LowQualFinSF   1022 non-null   int64  
 16  GrLivArea      1022 non-null   int64  
 17  BsmtFullBath   1022 non-null   int64  
 18  BsmtHalf

In [12]:
print("")
print(f"El conjunto de datos contiene {X.shape[0]} registros y "
      f"{X.shape[1]} variables explicativas numéricas")


El conjunto de datos contiene 1022 registros y 37 variables explicativas numéricas


In [30]:
X.drop(columns='Id', axis=1, inplace=True)

In [31]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1022 entries, 0 to 1021
Data columns (total 36 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   MSSubClass     1022 non-null   int64  
 1   LotFrontage    832 non-null    float64
 2   LotArea        1022 non-null   int64  
 3   OverallQual    1022 non-null   int64  
 4   OverallCond    1022 non-null   int64  
 5   YearBuilt      1022 non-null   int64  
 6   YearRemodAdd   1022 non-null   int64  
 7   MasVnrArea     1016 non-null   float64
 8   BsmtFinSF1     1022 non-null   int64  
 9   BsmtFinSF2     1022 non-null   int64  
 10  BsmtUnfSF      1022 non-null   int64  
 11  TotalBsmtSF    1022 non-null   int64  
 12  1stFlrSF       1022 non-null   int64  
 13  2ndFlrSF       1022 non-null   int64  
 14  LowQualFinSF   1022 non-null   int64  
 15  GrLivArea      1022 non-null   int64  
 16  BsmtFullBath   1022 non-null   int64  
 17  BsmtHalfBath   1022 non-null   int64  
 18  FullBath

 # **<font color="DarkOrange">División de datos de entrenamiento y prueba</font>**

<p align="justify">
👀 Al construir un modelo de aprendizaje automático, es importante evaluar el modelo entrenado en datos que no se usaron para ajustarlo <code>fit</code>, ya que la generalización de un modelo es más que la memorización.
<br><br>
Esto significa que queremos un modelo de aprendizaje que generalice a nuevos datos, y no un modelo que compara con los datos que memorizamos.
<br><br>
Es más difícil concluir sobre casos nunca vistos, que concluir sobre los casos que ya hemos vistos. Por este motivo, es que se plantea una división de los datos disponibles.
<br><br>
Por ese motivo, los datos utilizados para ajustar un modelo se denominan datos de entrenamiento, mientras que los datos utilizados para evaluar un modelo se denominan datos de prueba, es decir, dividimos el conjunto de datos en un conjunto de datos de entrenamiento y un conjunto de datos de prueba.
</p>


In [32]:
from sklearn.model_selection import train_test_split


In [33]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

 # **<font color="DarkOrange">Ajustar un modelo y hacer predicciones</font>**

❤ https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

<p align="justify">
👀 Construiremos un modelo de regresión usando el algoritmo de <code>Bosques Aleatorios</code>.
</p>


In [34]:
from sklearn.ensemble import RandomForestRegressor


 ## **<font color="DarkOrange">Ajustando el modelo</font>**

In [35]:
model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train)


In [48]:
model.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'criterion': 'squared_error',
 'max_depth': None,
 'max_features': 1.0,
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'monotonic_cst': None,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': 42,
 'verbose': 0,
 'warm_start': False}

<p align="justify">
👀 El método <code>fit</code> que vamos a utilizar, se compone de dos elementos:
</p>

- Un algoritmo de aprendizaje, y
- Algunos estados de los modelos.

<br>
<p align="justify">
El algoritmo de aprendizaje toma el conjunto de datos de entrenamiento y la variable objetivo de entrenamiento como entrada, es decir como <code>input</code> y establece los estados del modelo. Estos estados de los modelos se usarán más tarde para predecir (para clasificadores y regresores)
o para transformar datos (para transformadores). <br><br>Tanto el algoritmo de aprendizaje como el tipo de estado del modelo son específicos de cada modelo.
</p>

<p align="justify">
👀 Ahora bien, para predecir un modelo se utiliza una función de predicción. El método que se utiliza es <code>predict()</code>.
</p>


 ## **<font color="DarkOrange">Prediccion</font>**

In [36]:
y_pred = model.predict(X_test)

In [37]:
type(y_pred)

numpy.ndarray

<p align="justify">
👀 Ahora observamos las predicciones generadas. Solo veremos las primeras 10  predicciones...
</p>


In [38]:
y_pred[:10]

array([141338.75, 149134.52,  91536.5 , 241530.06, 151967.61, 188063.87,
       148293.25, 293681.12, 132357.5 , 152842.14])

👀 Y vemos los datos reales...

In [39]:
y[:10]

Unnamed: 0,SalePrice
0,181500
1,223500
2,140000
3,250000
4,200000
5,345000
6,144000
7,279500
8,132000
9,149000


👀 Y comparamos los datos reales, con las predicciones, solo para las primeras 10 muestras...

In [49]:
df = pd.DataFrame()
df["SalePrice"] = y_test
df["SalePrice_pred"] = y_pred
df["Residuals"] = df["SalePrice"] - df["SalePrice_pred"]
df["Residuals_abs"] = df["Residuals"].abs()
df.sort_values(by="SalePrice", inplace=True)
df.reset_index(drop=True,inplace=True)
df.head()

Unnamed: 0,SalePrice,SalePrice_pred,Residuals,Residuals_abs
0,62383,123421.0,-61038.0,61038.0
1,64500,101649.0,-37149.0,37149.0
2,67000,69297.5,-2297.5,2297.5
3,79000,79558.64,-558.64,558.64
4,80500,69516.5,10983.5,10983.5


 ## **<font color="DarkOrange">Evaluando</font>**

 ### **<font color="DarkOrange">$R^2$**

<p align="justify">
El coeficiente de determinación, comúnmente conocido como <b>$R^2$</b> (pronunciado "R cuadrado"), es una métrica utilizada para evaluar la calidad de ajuste de un modelo de regresión.
<br><br>
Mientras que el MAE y el RMSE miden la magnitud de los errores absolutos, el $R^2$ proporciona una medida de cuánta variabilidad de la variable dependiente (la variable a predecir) es explicada por el modelo.
<br><br>
El $R^2$ varía entre 0 y 1, y puede ser interpretado como el porcentaje de la variabilidad de la variable dependiente que es explicada por el modelo en comparación con la variabilidad total presente en los datos.
<br><br>
La fórmula para calcular el $R^2$ es la siguiente:
<br><br>
$$R^2 = 1 - \frac{SS_{res}}{SS_{tot}}$$
<br><br>
Donde:
<br><br>
<ul align="justify">
<li>\( SS_{res} \) es la suma de los cuadrados de los residuos (diferencia entre los valores reales y las predicciones del modelo).</li><br>
<li> \( SS_{tot} \) es la suma total de los cuadrados de la diferencia entre los valores reales y la media de la variable dependiente.</li><br>
</ul>
<p align="justify">
El $R^2$ puede tomar los siguientes valores:
<br><br>
<ul align="justify">
<li> $R^2 = 1$: El modelo ajusta perfectamente los datos, explicando el $100$% de la variabilidad de la variable dependiente.</li><br>
<li> $R^2 = 0$: El modelo no ofrece ninguna mejora en comparación con simplemente usar la media de la variable dependiente para hacer predicciones.</li><br>
<li> $R^2 < 0$: El modelo se ajusta tan mal que su rendimiento es peor que simplemente usar la media como predicción.</li><br>
</ul>
<p align="justify">
Es importante tener en cuenta que un alto $R^2$ no garantiza que el modelo sea válido o que esté libre de problemas.
<br><br>
El $R^2$ solo proporciona información sobre cómo el modelo se ajusta a los datos, pero no dice nada sobre la causalidad o la validez de las relaciones entre variables. Por lo tanto, es fundamental complementar la evaluación con otras técnicas y análisis para asegurar la robustez y relevancia del modelo.

In [50]:
model.score(X_test, y_test)

0.7814965482326867

In [42]:
from sklearn.metrics import r2_score

In [43]:
r2_score(y_test, y_pred)

0.7814965482326867

 ### **<font color="DarkOrange">MAE**

<p align = "justify">
<b>MAE</b> (Error Absoluto Medio, por sus siglas en inglés) es una métrica utilizada para evaluar el rendimiento de un modelo de regresión. Representa el promedio de las diferencias absolutas entre las predicciones del modelo y los valores reales de los datos de prueba.
<br><br>
Para calcular MAE, primero se deben hacer predicciones con el modelo sobre un conjunto de datos de prueba y luego se resta el valor real de cada dato de prueba a su correspondiente predicción para obtener la diferencia absoluta. Después, se toma el promedio de todas estas diferencias absolutas para obtener MAE.
<br><br>
La fórmula para calcular MAE es la siguiente:
<br><br>
 $$ \frac{1}{n} \sum_{i=1}^{n} |y_{i} - \hat{y_{i}}|$$
<br><br>
Donde:
<br><br>
<ul align = "justify">
<li> \( n \) es el número de muestras en el conjunto de datos de prueba.</li><br>
<li> \( y_{i} \) es el valor real del dato \( i \) en el conjunto de datos de prueba.</li><br>
<li> \( \hat{y_{i}} \) es la predicción del modelo para el dato \( i \) en el conjunto de datos de prueba.</li><br>
<li> \( |x| \) representa el valor absoluto de \( x \).</li><br>
</ul>
<p align="justify">
<b>MAE</b> es una medida de la magnitud promedio de los errores de predicción del modelo, independientemente de la dirección de los errores (es decir, no toma en cuenta si el modelo subestima o sobreestima los valores).
<br><br>
Un MAE más bajo indica un mejor rendimiento del modelo, ya que significa que las predicciones están más cercanas a los valores reales en promedio.

In [44]:
abs(df["Residuals"]).sum()/df["Residuals"].shape[0]

19635.724585365853

In [45]:
from sklearn.metrics import mean_absolute_error

In [46]:
mean_absolute_error(y_test, y_pred)

19635.724585365853

In [52]:
df.SalePrice.describe()

Unnamed: 0,SalePrice
count,205.0
mean,178930.492683
std,76914.709566
min,62383.0
25%,127500.0
50%,160000.0
75%,213000.0
max,538000.0


<br>
<br>
<p align="center"><b>
💗
<font color="DarkOrange">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
