# Algoritmo Regresión Lineal Múltiple

A continuación, se dará el código en JupyterNotebook para el algoritmo de regresión lineal múltiple.

In [None]:
# import libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn import metrics 

1. **`pandas as pd`:** Importa la librería Pandas para manejo de datos.
2. **`numpy as np`:** Importa la librería NumPy para operaciones matemáticas.
3. **`matplotlib.pyplot as plt`:** Importa la librería Matplotlib para la creación de gráficos.
4. **`from sklearn.linear_model import LinearRegression`:** Importa la clase LinearRegression de scikit-learn para la regresión lineal.
5. **`from sklearn.compose import ColumnTransformer`:** Importa la clase ColumnTransformer de scikit-learn para la transformación de columnas.
6. **`from sklearn.preprocessing import OneHotEncoder`:** Importa la clase OneHotEncoder de scikit-learn para codificación categórica.
7. **`from sklearn.model_selection import train_test_split`:** Importa la función train_test_split de scikit-learn para dividir datos en entrenamiento y prueba.
8. **`from sklearn import metrics`:** Importa el submódulo metrics de la librería sklearnn. Este submódulo proporciona una colección de funciones para evaluar el rendimiento de los modelos de aprendizaje automático.

In [None]:
# reading dataset 
dataset = pd.read_csv("50_Startups.csv")
x = dataset.iloc[:, : -1]
y = dataset.iloc[:, -1].values
dataset.head(5)

1. **`dataset = pd.read_csv("50_Startups.csv")`:** Lee el dataset "50_Startups.csv" en un DataFrame de Pandas.
2. **`x = dataset.iloc[:, : -1]`:** Extrae las características independientes (todas las columnas excepto la última) del DataFrame y las asigna a la variable x.
3. **`y = dataset.iloc[:, -1].values`:** Extrae la variable dependiente (última columna) del DataFrame y la convierte en un array NumPy y la asigna a la variable y.
4. **`dataset.headead(5)`:** Muestra las primeras 5 filas del DataFrame para una vista previa de los datos.

In [None]:
ct = ColumnTransformer(transformers = [("encoder", OneHotEncoder(), [3])], remainder = "passthrough")
x = np.array(ct.fit_transform(x))
x

1. **`ct = ColumnTransformer(...)`:** Crea un objeto ColumnTransformer para transformar las columnas.
2. **`transformers = [("encoder", OneHotEncoder(), [3])]`:** Especifica que la columna en el índice 3 (variable categórica) se codificará con OneHotEncoder.
3. **`remainder = "passthrough"`:** Indica que las demás columnas se pasarán sin cambios.
4. **`x = np.array(ct.fit_transform(x))`:** Aplica la transformación a las características independientes y las convierte en un array NumPy,
almacenándolas en `x`.

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2): Divide las características (x) y la variable dependiente (y) en conjuntos de entrenamiento (80%) y prueba (20%).

In [None]:
regressor = LinearRegression()
regressor.fit(x_train, y_train)

1. **`regressor = LinearRegression()`:** Crea un objeto del modelo de regresión lineal.
2. **`regressor.fit(x_train, y_train)`:** Entrena el modelo de regresión lineal usando los datos de entrenamiento (`x_train` y `y_train`).

In [None]:
y_pred = regressor.predict(x_test)

y_pred = regressor.predict(x_test): Utiliza el modelo entrenado para predecir la variable dependiente para el conjunto de prueba (x_test), almacenando las predicciones en y_pred.

In [None]:
df = pd.DataFrame({"Real Values": y_test, "Predicted Values": y_pred})
df

1. **`"Real Values"`:** Almacena los valores reales de la variable dependiente para el conjunto de prueba (`y_test`).
2. **`"Predicted Values"`:** Almacena las predicciones realizadas por el modelo para el conjunto deprueba (`y_pred`).

In [None]:
# RMSE 
print(np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

1. Se calcula el MSE llamando a `mean_squared_error` y pasando los valores reales (`y_test`) y las predicciones (`y_pred`) del modelo.
2. Se calcula la raíz cuadrada del MSE utilizando `np.sqrt` para obtener el RMSE.
3. Finalmente, se imprime el valor del RMSE utilizando la función `print`.