<a href="https://colab.research.google.com/github/DanielDialektico/dialektico-machine-learning-practices/blob/main/notebooks/Machine%20Learning/Aprendizaje%20Supervisado/Regresi%C3%B3n_Lineal_Simple.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://dialektico.com/wp-content/uploads/2023/03/MiniLogoW4.png" alt="Dial√©ktico Logo" />

# **Introducci√≥n a La Regresi√≥n Lineal üìä**

<br>

# **Introducci√≥n**

En este ejercicio aplicar√°s el m√©todo de **regresi√≥n lineal** para ajustar la ecuaci√≥n de una **recta** a un **conjunto de datos** y realizar **predicciones** sobre los valores de una variable respecto a otra; esto permitir√° demostrar la sencillez y poder de la aplicaci√≥n de uno de los **algoritmos** b√°sicos del **machine learning** a un conjunto de **datos reales**.

En este caso, utilizaremos un c√∫mulo de informaci√≥n sobre autom√≥viles que consiste en especificaciones y precios de 84 carros del a√±o 2022 vendidos en la India.

Los detalles del conjunto de datos pueden ser consultados en el **ap√©ndice** al final.

<br>
<center><img src="https://dialektico.com/wp-content/uploads/2024/10/IRL_colab_1.png" width="300" /></center>

<br>

#**Objetivo**

En esta ocasi√≥n estamos haciendo un estudio mercadol√≥gico, y deseamos saber c√≥mo se han comportado las variaciones de los **precios** de autom√≥viles respecto a su **potencia de frenado**, la cual va desde los 10 BPH hasta los 739 BPH (break power horse: caballo de fuerza de frenado), y para esto se nos ha proporcionado una tabla con datos.

Se est√° planeando lanzar un nuevo autom√≥vil al mercado, y se nos ha pedido responder a las siguientes cuestiones:

1.   ¬øC√≥mo tiende a comportarse el **precio** de los autom√≥viles respecto a la **potencia de frenado**?
2.   De acuerdo con la tendencia, ¬øcu√°l es el precio aproximado, en d√≥lares estadounidenses, de un autom√≥vil con una capacidad de 160 BPH?

<br>
<center><img src="https://dialektico.com/wp-content/uploads/2024/10/IRL_misioncolab.jpg" width="400" /></center>

<br>

# Carga y exploraci√≥n de datos

Para responder a las cuestiones planteadas, antes deberemos revisar c√≥mo es la informaci√≥n que se nos ha proporcionado, y cu√°les **adecuaciones** debemos hacer para su correcto **[procesamiento](https://dialektico.com/introduccion-preprocesamiento/)**.

Antes que nada, cargaremos las dem√°s librer√≠as a utilizar, e instalaremos una librer√≠a que nos ayudar√° en las etapas de preprocesamiento, cuya intervenci√≥n se explicar√° m√°s adelante:

In [None]:
# Se instala la librer√≠a alibi-detect para preprocesamiento de datos.
!pip install alibi-detect

# Se importan las librer√≠as.
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import warnings
from datetime import date
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Se filtran las advertencias.
warnings.filterwarnings('ignore')

# Se define el estilo de las gr√°ficas.
plt.style.use('seaborn-v0_8-whitegrid')

<br>

Una vez hecho esto, proseguimos a cargar el **conjunto de datos** y leerlo como una tabla (dataFrame) de **[Pandas](https://pandas.pydata.org/)**.

Imprimiremos la tabla para tener una primera visi√≥n de los datos que disponemos, como parte de nuestro [an√°lisis exploratorio](https://dialektico.com/introduccion-analisis-exploratorio-de-datos/):

In [None]:
# Se carga el conjunto de datos desde un repositorio de GitHub.
dataset = pd.read_csv('https://raw.githubusercontent.com/DanielDialektico/dialektico-machine-learning-practices/refs/heads/main/data/Autom%C3%B3viles_Cardekho.csv')

# Se imprime el conjunto de datos.
dataset

A primera vista, se puede observar que se trata una tabla con **84 renglones** (ejemplos de entrenamiento) y **15 columnas**, las cuales representan los atributos de los autom√≥viles.

Para obtener mayor informaci√≥n sobre estos atributos, imprimiremos datos estad√≠sticos sobre ellos:

In [None]:
# Se imprime una tabla con datos estad√≠sticos de cada variable del conjuto de datos.
dataset.describe()

En esta tabla, la cual fue explicada en la [introducci√≥n al preprocesamiento de datos](https://colab.research.google.com/github/DanielDialektico/dialektico-machine-learning-practices/blob/main/notebooks/Preprocesamiento/Preprocesamiento_intro.ipynb), nos podemos percatar de algunas **propiedades** estad√≠sticas del conjunto de datos. Por ejemplo, en lo que respecta a las variables que vamos a utilizar, podemos observar una **desviaci√≥n est√°ndar** relativamente alta para la **potencia de frenado**, lo cual puede indicar presencia de **valores at√≠picos**.

Por √∫ltimo, imprimimos la informaci√≥n general de cada columna, buscando posibles datos no nulos e incongruencias en sus tipos:

In [None]:
dataset.info()

Con esto constatamos la ausencia de datos inv√°lidos, as√≠ como de la adecuada definici√≥n de cada tipo (Dtype) para cada variable (el **precio** y la **potencia** est√°n declarados como tipo num√©rico).

<br>

# **Preprocesamiento de datos**

Una vez realizada la breve **exploraci√≥n** de los datos, procedemos a ejecutar las etapas de **preprocesamiento**, que ser√°n las siguientes:



*   **Limpieza de datos**: se delimitar√°n los atributos solo a las columnas necesarias, se renombrar√°n al idioma espa√±ol, y se remover√°n valores at√≠picos (outliers).
*   **Transformaci√≥n de datos**: se transformar√°n los precios de rupias a d√≥lares.
*  **Reducci√≥n de datos**: se delimitar√° el conjunto de datos solo a los atributos de inter√©s eliminando las columnas sobrantes.



## Transformaci√≥n, reducci√≥n y limpieza de datos

Dada que todas las acciones a realizar son sencillas, salvo la **remoci√≥n de valores at√≠picos** (la cual requerir√° algo de **procesamiento** de datos), realizaremos primero todas las dem√°s adecuaciones de las etapas de preprocesamiento, y dejaremos esta hasta el final.

En el siguiente bloque, se reduce el conjunto de datos a las 2 columnas que se utilizar√°n, y se cambian los nombres de las variables para su mejor comprensi√≥n:

In [None]:
# Se seleccionan solo las columnas de precio y potencia para el an√°lisis propuesto.
dataset = dataset[['price','max_power_bhp']]

# Se traduce el nombre de las variables.
dataset.columns = ['Precio', 'Poder_m√°ximo_BHP']

# Se imprime la tabla resultante.
dataset

Ahora, cambiamos el valor de los precios convirti√©ndolos a d√≥lares con una simple multiplicaci√≥n por un escalar:

In [None]:
# Se multiplican los precios de la columna por un factor para la conversi√≥n en d√≥lares.
dataset['Precio'] = dataset['Precio']*0.012

# Se imprime la tabla resultante.
dataset

Se puede notar c√≥mo los valores se han modificado correctamente. Con esto, podemos continuar con el √∫ltimo paso definido del preprocesamiento de datos.

<br>

## **Detecci√≥n y remoci√≥n de valores at√≠picos**

Para identificar y eliminar los valores que se **desv√≠an** considerablemente del **comportamiento** **t√≠pico** de los datos, utilizaremos la librer√≠a antes instalada: [**alibi-detect**](https://github.com/SeldonIO/alibi-detect), la cual ofrece un conjunto de **algoritmos** diferentes para la detecci√≥n de este tipo de **observaciones**.

En este caso, se utilizar√° el algoritmo **Isolation Forest**, el cual detecta **anormalidades** en los datos utilizando √°rboles binarios.

Los detalles sobre el funcionamiento de este se escapan del alcance de esta pr√°ctica, pero pueden ser consultados en [**Liu et al. (2008)**](https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf).

Antes de aplicar el algoritmo, con la intenci√≥n de atisbar posibles **valores at√≠picos**, mostraremos la gr√°fica de los puntos generados por ambas variables, donde la variable **dependiente** es el **precio**, y la variable **independiente** el **poder m√°ximo de frenado**.

In [None]:
# Se definen cu√°les son las entradas y salidas del conjunto de datos.
inputs = dataset['Poder_m√°ximo_BHP']
outputs = dataset['Precio']

# Se genera la gr√°fica de dispersi√≥n de ambas variables.
plt.figure(figsize=(6, 6))
plt.plot(inputs, outputs, 'o', markersize = 6)
plt.title("PRECIO RESPECTO A PODER M√ÅXIMO DE FRENADO", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 16}, pad = 15)
plt.suptitle("Fig. 1 Representaci√≥n en el plano del conjunto de datos.", fontproperties = {'family': 'DejaVu Sans', 'size': 12}, y=-0.001)
plt.xlabel("POTENCIA M√ÅXIMA DE FRENADO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad=15)
plt.ylabel("PRECIO (USD)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad=15)
plt.show()

Podemos notar algunos **ejemplos de entrenamiento** (puntos) posicionados en regiones **lejanas** a la agrupaci√≥n de la mayor√≠a.

Para su detecci√≥n, procedemos a utilizar el algoritmo **[Isolation Forest](https://docs.seldon.io/projects/alibi-detect/en/stable/od/methods/iforest.html)** con la librer√≠a alibi_detect.

Para visualizar el resultado, resaltaremos los puntos identificados como valores at√≠picos con un color rojo:

In [None]:
# Se importa el algoritmo desde alibi_detect.
from alibi_detect.od import IForest

# Se define el m√©todo con sus respectivos par√°metros.
od = IForest(threshold=0., n_estimators=400)

# Se ejecuta el algoritmo sobre el conjunto de datos.
od.fit(dataset[['Poder_m√°ximo_BHP', 'Precio']])
preds = od.predict(dataset[['Poder_m√°ximo_BHP', 'Precio']], return_instance_score=True)

# Se a√±ade una columna donde se asocia cada ejemplo de entrenamiento a un valor n = 0 si es un valor at√≠pico, n = 1 en el caso contrario.
dataset['Valores_at√≠picos'] = preds['data']['is_outlier']

# Se generan dos subconjuntos de datos, uno filtrado, y otro que solo contiene valores at√≠picos.
outliers = dataset.loc[(dataset['Valores_at√≠picos']==1)]
dataset = dataset.loc[(dataset['Valores_at√≠picos']==0)]

# Se definen los puntos a graficar.
inputs = dataset['Poder_m√°ximo_BHP']
outputs = dataset['Precio']
x_outliers = outliers['Poder_m√°ximo_BHP']
y_outliers = outliers['Precio']

# Se grafican.
plt.figure(figsize=(6, 6))
plt.plot(inputs, outputs, 'o', markersize = 6)
plt.plot(x_outliers, y_outliers, 'o', color = 'red', label = 'Valores at√≠picos', markersize = 6)
plt.title("PRECIO RESPECTO A PODER M√ÅXIMO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 16}, pad = 15)
plt.suptitle("Fig. 2 Visualizaci√≥n de los datos at√≠picos (puntos color rojo) en el conjunto de datos.", fontproperties = {'family': 'DejaVu Sans', 'size': 12}, y=-0.001)
plt.xlabel("POTENCIA M√ÅXIMA DE FRENADO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.ylabel("PRECIO (USD)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.legend(loc='upper left', prop = {'family': 'DejaVu Sans', 'weight': 'bold', 'size': 14}, frameon = True, framealpha = 1, facecolor  = '#dddddd', shadow = True)
plt.show()

En la **Figura 2** se aprecia la diferenciaci√≥n con coloraci√≥n en rojo de los puntos se√±alados como **outliers**. Filtraremos estos valores y graficaremos las observaciones restantes, las cuales representan al conjunto de datos finalmente preprocesado:

In [None]:
# Se grafica el conjunto de datos preprocesado.
plt.figure(figsize=(6, 6))
plt.plot(inputs, outputs, 'o', markersize = 6)
plt.title("PRECIO RESPECTO A PODER M√ÅXIMO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 16}, pad = 15)
plt.suptitle("Fig. 3 Conjunto de datos preprocesado.", fontproperties = {'family': 'DejaVu Sans','size': 12}, y=-0.001)
plt.xlabel("POTENCIA M√ÅXIMA DE FRENADO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.ylabel("PRECIO (USD)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.show()

# **Regresi√≥n lineal simple**

Hemos concluido la preparaci√≥n de nuestros datos, y para dar soluci√≥n a las preguntas planteadas en los objetivos, utilizaremos el m√©todo de **regresi√≥n lineal simple** invocando a la clase definida en la librer√≠a [**scikit-learn**](https://scikit-learn.org/stable/index.html), la cual nos permitir√° utilizar el m√©todo de **m√≠nimos cuadrados** para la obtenci√≥n de la **ecuaci√≥n de la recta**.

En el siguiente bloque se definen los conjuntos de datos de **entrenamient**o y **prueba**, los cuales tendr√°n una proporci√≥n de **80%** y **20%** del total de ejemplos de entrenamiento.

In [None]:
# Se generan los conjuntos de entrenamiento y prueba para las entradas (x) y salidas (y), con una proporci√≥n 80-20.
x_train, x_test, y_train, y_test = train_test_split(inputs, outputs, test_size=0.2, random_state=42)
x_train = x_train.to_numpy().reshape(-1,1)
y_train = y_train.to_numpy().reshape(-1,1)

print(f'N√∫mero de valores en el conjunto de entrenamiento: {len(x_train)}')
print(f'N√∫mero de valores en el conjunto de prueba: {len(y_test)}')

Ahora entrenamos al modelo utilizando regresi√≥n lineal:

In [None]:
# Se instancia la regresi√≥n lineal.
regr = linear_model.LinearRegression()

# Se entrena el modelo sobre los conjuntos de entrenamiento, utilizando el m√©todo de m√≠nimos cuadrados.
regr.fit(x_train, y_train);

print('Modelo entrenado con regresi√≥n lineal.')

Una vez ajustados los datos con el m√©todo **fit()**, podemos graficar la l√≠nea recta resultante:

In [None]:
# Se grafica la l√≠nea recta obtenida.
plt.figure(figsize=(6, 6))
plt.plot(inputs, outputs, 'o', markersize = 6)
plt.plot(inputs, regr.predict(inputs.to_numpy().reshape(-1,1)), color="#9E0505", linewidth=5, label='Recta de regresi√≥n')
plt.title("PRECIO RESPECTO A PODER M√ÅXIMO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 16}, pad = 15)
plt.xlabel("POTENCIA M√ÅXIMA DE FRENADO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.ylabel("PRECIO (USD)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.suptitle("Fig. 4 Visualizaci√≥n del conjunto de datos y la recta ajustada generada por la ecuaci√≥n resultante de la regresi√≥n lineal.", fontproperties = {'family': 'DejaVu Sans', 'size': 12}, y=-0.001)
plt.legend(loc='upper left', prop = {'family': 'DejaVu Sans', 'weight': 'bold', 'size': 14}, frameon = True, framealpha = 1, facecolor  = '#dddddd', shadow = True)
plt.show()

Con esta primera ilustraci√≥n podemos resolver la **primera interrogante**: ¬øc√≥mo se comporta el precio de los autom√≥viles respecto a la potencia de frenado?

En la **Figura 4** podemos ver c√≥mo a valores m√°s altos de la **potencia m√°xima** se obtienen tambi√©n cantidades m√°s altas del **precio**, raz√≥n por la cual la **pendiente** de la recta es **positiva**. Esto nos indica que el precio es directamente proporcional a la potencia: uno aumenta conforme el otro tambi√©n, y por lo tanto la **tendencia** entre ambos es **creciente**.


<br>

## **Realizando predicciones con el modelo entrenado**

Para responder a la **segunda pregunta**, debemos recordar c√≥mo se utiliza el modelo obtenido por la regresi√≥n lineal para hacer **predicciones**. La ecuaci√≥n de la recta dada por este m√©todo tiene la siguiente forma:


\begin{align}
        h(x)=\theta_{0}+\theta_{1}x\tag{1.1}
    \end{align}

donde $\theta_{0}$ es el **par√°metro** que determina la **intersecci√≥n** con el eje $y$, y $\theta_{1}$ el **par√°metro** que define su **pendiente**.

Para poder consultar los valores de estos **par√°metros** despu√©s de hacer la regresi√≥n, utilizaremos los atributos **coef_** y **rank_** del modelo definido, los cuales nos entregar√°n los valores de los **coeficientes de regresi√≥n** correspondientes a la intersecci√≥n y la pendiente, respectivamente:

In [None]:
# Se obtienen los valores de los coeficientes de regresi√≥n calculados.
theta_0 = regr.intercept_[0]
theta_1 = regr.coef_[0][0]

print(f'El valor de los par√°metros de regresi√≥n de la ecuaci√≥n de la recta son:\n\nŒ∏‚ÇÄ = {str(theta_0)[0:8]} \nŒ∏‚ÇÅ = {str(theta_1)[0:6]}')

Por lo tanto, la ecuaci√≥n quedar√≠a de la siguiente forma:

In [None]:
# Se imprime la ecuaci√≥n resultante:
print(f'h(x) = {str(theta_0)[0:8]} + ({str(theta_1)[0:6]})x')

Ahora, para responder a la segunda pregunta: ¬øcu√°l es el precio aproximado, en d√≥lares estadounidenses, de un autom√≥vil de 160 BPH?, utilizaremos la funci√≥n obtenida sustituyendo el valor de $x$ por **160**, lo cual se puede hacer utilizando el m√©todo **predict()**:


In [None]:
# Se define el valor de x para la predicci√≥n.
input_pred = 160
print(f'El precio de un autom√≥vil dada una potencia de 160 BHP es de aproximadamente: ${str(regr.predict(np.array([[input_pred,]]))[0][0])[0:2]},{str(regr.predict(np.array([[input_pred,]]))[0][0])[2:8]} USD')

<br>

Es decir, para un valor de potencia de 160 bhp, el valor impreso arriba es el **precio estimado** por la regresi√≥n lineal.

Para ilustrar esto, veamos en d√≥nde se encuentra el **punto predicho** por el **modelo** en la recta obtenida respecto al conjunto de datos:

In [None]:
# Se grafica el resultado.
plt.figure(figsize=(6, 6))
plt.plot(inputs, outputs, 'o', markersize = 6)
plt.plot(inputs, regr.predict(inputs.to_numpy().reshape(-1,1)), color="#9E0505", linewidth=5, label=f'h(x) = {str(theta_0)[0:8]} + ({str(theta_1)[0:6]})x')
plt.plot(input_pred, regr.predict(np.array([[input_pred,]])), 'o', markersize = 14, color="orange", label = 'Predicci√≥n = $' + str(regr.predict(np.array([[input_pred,]]))[0][0])[0:2] + ',' +
         str(regr.predict(np.array([[input_pred,]]))[0][0])[2:8] + ' USD');
plt.title("PRECIO RESPECTO A PODER M√ÅXIMO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 16}, pad = 15)
plt.xlabel("POTENCIA M√ÅXIMA DE FRENADO (BHP)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.ylabel("PRECIO (USD)", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12}, labelpad = 15)
plt.suptitle("Fig. 5 L√≠nea de regresi√≥n y el punto calculado por el modelo sobre esta (punto amarillo).", fontproperties = {'family': 'DejaVu Sans', 'size': 12}, y=-0.001)
plt.legend(loc='upper left', prop = {'family': 'DejaVu Sans', 'weight': 'bold', 'size': 14}, frameon = True, framealpha = 1, facecolor  = '#dddddd', shadow = True)
plt.show()

<br>

## **Evaluando su precisi√≥n**

Uno de las etapas clave de todo proyecto de **machine learning** consiste en la **evaluaci√≥n** de la **precisi√≥n** del modelo entrenado en la ejecuci√≥n de sus tareas.

Para esto, se utilizan diversas **medidas** que permiten calcular los **errores** respecto a los valores reales del conjunto de datos (conjunto de prueba).

Esto lo veremos de forma m√°s detallada en un futuro, por el momento, utilizaremos dos m√©tricas de manera ilustrativa: el **error cuadr√°tico medio** (MSE), el cual fue definido en nuestra exploraci√≥n, y el **coeficiente de determinaci√≥n $\mathrm{R^2}$**, el cual conforme se aproxima a $1$, indica mayor **rendimiento** de **predicci√≥n** del modelo (dicho de forma simplificada).

A continuaci√≥n calculamos estas m√©tricas:

In [None]:
# Se imprimen los valores de m√©tricas para la medici√≥n de la efectividad del modelo.
y_pred = regr.predict(x_test.to_numpy().reshape(-1,1))

print("Error cuadr√°tico medio: %.2f" % mean_squared_error(y_test, y_pred))
print("Coeficiente de determinaci√≥n: %.2f" % r2_score(y_test, y_pred))

Dado que es m√°s f√°cil **interpretar** el coeficiente de determinaci√≥n, nos fijaremos solamente en este: n√≥tese que tiene una aproximaci√≥n a 1 considerable (0.84), lo cual indica un buen rendimiento del modelo; sin embargo, es probable que este puntaje pueda ser mejorado mediante otros **algoritmos** de **aprendizaje de m√°quinas**. Esto nos plantea la inc√≥gnita de c√≥mo podemos generar un modelo con mayor capacidad predictiva.

En lo sucesivo, estaremos explorando m√°s **algoritmos** que nos abrir√°n un amplio abanico de posibilidades para el entrenamiento de modelos de **aprendizaje supervisado** para abordar problemas de **regresi√≥n**.

<br>

#**Ejercicio**

Hasta aqu√≠ concluimos con esta pr√°ctica, pero a√∫n puedes poner a prueba tus conocimientos haciendo unas cuantas **modificaciones** a las siguientes celdas de c√≥digo. A continuaci√≥n, se cargar√° el **conjunto de datos** de **calificaciones** y **horas de estudio** visto en la introducci√≥n a la regresi√≥n lineal (esta celda no requiere modificaci√≥n alguna):

In [None]:
# Se visualiza el conjunto de datos:
dataset = pd.read_csv('https://raw.githubusercontent.com/DanielDialektico/Machine-Learning/main/Conjuntos%20de%20datos/Estudiantes_puntaje.csv', encoding='latin-1')
dataset

Para aplicar regresi√≥n lineal y realizar predicciones sobre este conjunto de datos solo deber√°s a√±adir algunos elementos a los siguientes bloques de c√≥digo:

Define las **entradas** y **salidas** del conjunto de datos, colocando entre comillas el nombre de las variables.

Recuerda cu√°les son tus entradas y salidas, y que:

Inputs = entradas

Outputs = salidas

In [None]:
inputs = dataset['Horas']
outputs = dataset['Puntaje']

Por √∫ltimo, en el siguiente c√≥digo se aplica la regresi√≥n lineal simple para el **entrenamiento** del modelo. Aqu√≠ solo deber√°s especificar con qu√© valores deseas realizar una predicci√≥n con la ecuaci√≥n resultante; se recomienda utilizar un **n√∫mero continuo** de entre **0** y **10**.

In [None]:
x_train, x_test, y_train, y_test = train_test_split(inputs, outputs, test_size=0.2, random_state=42)
x_train = x_train.to_numpy().reshape(-1,1)
y_train = y_train.to_numpy().reshape(-1,1)
regr = linear_model.LinearRegression()
regr.fit(x_train, y_train);
theta_0 = regr.intercept_[0]
theta_1 = regr.coef_[0][0]

# Edita esta l√≠nea de c√≥digo
input_pred = # Valor para el que deseas probar el modelo.

plt.figure(figsize=(6, 6))
plt.plot(inputs, outputs, 'o', markersize = 6)
plt.plot(inputs, regr.predict(inputs.to_numpy().reshape(-1,1)), color="#9E0505", linewidth=5, label=f'h(x) = {str(theta_0)[0:4]} + {str(theta_1)[0:4]}x')
plt.plot(input_pred, regr.predict(np.array([[input_pred,]])), 'o', markersize = 17, color="orange", label = 'Predicci√≥n = ' + str(regr.predict(np.array([[input_pred,]]))[0][0])[0:5],);
plt.title("PUNTAJE RESPECTO A HORAS DE ESTUDIO", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 14})
plt.xlabel("HORAS DE ESTUDIO", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12})
plt.ylabel("PUNTAJE", fontdict = {'family': 'DejaVu Sans', 'color':  'black', 'weight': 'bold', 'size': 12})
plt.suptitle("Fig. 6 Linea de regresi√≥n y el punto calculado por el modelo sobre esta (punto amarillo).", fontproperties = {'family': 'DejaVu Sans', 'size': 12}, y=-0.001)
plt.legend(loc='upper left', prop = {'family': 'DejaVu Sans', 'weight': 'bold', 'size': 14}, frameon = True, framealpha = 1, facecolor  = '#dddddd', shadow = True)
plt.show()

En la **Figura 6** podr√°s observar la ecuaci√≥n resultante, la recta generada a partir de esta, y la **predicci√≥n** realizada por el **modelo**.

‚ñ∂ [Regresar a la lecci√≥n](https://dialektico.com/introduccion-a-la-regresion-lineal/) üßô

<br>

# **Ap√©ndice**

## **Conjunto de datos**

El conjunto de datos utilizado para este ejercicio es un subconjunto de un conjunto de datos de segunda mano extra√≠dos de https://www.cardekho.com/, y ofrecidos de forma gratuita en [Kaggle](https://www.kaggle.com/).

Consiste en un total de 84 autom√≥viles en venta en la India durante el 2022, con 16 atributos asociados:

*   **car_name:** nombre del coche.
*   **reviews_count:** n√∫mero de opiniones dadas al coche en el sitio web.
*   **fuel_type:** tipo de combustible que utiliza el coche. Los valores posibles son petr√≥leo, diesel y el√©ctrico.
*   **engine_displacement:** medida del volumen del cilindro barrido por todos los pistones de un motor de pistones, excluyendo las c√°maras de combusti√≥n. La unidad es (cc).
*   **no_cylinder:** n√∫mero de cilindros que contiene el coche. Es $0$ en caso de veh√≠culos el√©ctricos.
*   **seating_capacity:** n√∫mero de personas que caben en el coche.
*   **transmission_type:** tipo de transmisi√≥n, los valores posibles son manual, autom√°tico y el√©ctrico.
*   **fuel_tank_capacity:** capacidad m√°xima del dep√≥sito de combustible del coche. 0 en caso de veh√≠culo el√©ctrico.
*   **body_type**: forma de la carrocer√≠a del coche.
*   **rating_Integer:** clasificaci√≥n proporcionada al coche en el sitio web. Valores entre 0 y 5.
*   **starting_price:** precio inicial del coche en Rs.
*   **ending_price:** precio final del coche en Rs.
*   **max_torque_nm:** Torque m√°ximo que puede proporcionar el coche
*   **max_torque_rpm:** RPM al que se puede alcanzar el torque m√°ximo.
*   **max_power_bhp:** Potencia de frenado m√°xima del coche
*   **max_power_rp:** RPM al que se puede alcanzar la potencia m√°xima.


In [None]:
# Dialektico Machine learning practices ¬© 2024 by Daniel Antonio Garc√≠a Escobar
# is licensed under CC BY-NC 4.0. To view a copy of this license,
# visit https://creativecommons.org/licenses/by-nc/4.0/

# Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International
# Public License