## 2.- Regresión lineal múltiple

### a) Importación de las librerías

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

### b) Importación del conjunto de datos

In [2]:
dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [3]:
print(X)

[[165349.2 136897.8 471784.1 'New York']
 [162597.7 151377.59 443898.53 'California']
 [153441.51 101145.55 407934.54 'Florida']
 [144372.41 118671.85 383199.62 'New York']
 [142107.34 91391.77 366168.42 'Florida']
 [131876.9 99814.71 362861.36 'New York']
 [134615.46 147198.87 127716.82 'California']
 [130298.13 145530.06 323876.68 'Florida']
 [120542.52 148718.95 311613.29 'New York']
 [123334.88 108679.17 304981.62 'California']
 [101913.08 110594.11 229160.95 'Florida']
 [100671.96 91790.61 249744.55 'California']
 [93863.75 127320.38 249839.44 'Florida']
 [91992.39 135495.07 252664.93 'California']
 [119943.24 156547.42 256512.92 'Florida']
 [114523.61 122616.84 261776.23 'New York']
 [78013.11 121597.55 264346.06 'California']
 [94657.16 145077.58 282574.31 'New York']
 [91749.16 114175.79 294919.57 'Florida']
 [86419.7 153514.11 0.0 'New York']
 [76253.86 113867.3 298664.47 'California']
 [78389.47 153773.43 299737.29 'New York']
 [73994.56 122782.75 303319.26 'Florida']
 [67532

### c) Codificación de datos categóricos

In [4]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [3])], remainder='passthrough')
X = np.array(ct.fit_transform(X))

In [5]:
print(X)

[[0.0 0.0 1.0 165349.2 136897.8 471784.1]
 [1.0 0.0 0.0 162597.7 151377.59 443898.53]
 [0.0 1.0 0.0 153441.51 101145.55 407934.54]
 [0.0 0.0 1.0 144372.41 118671.85 383199.62]
 [0.0 1.0 0.0 142107.34 91391.77 366168.42]
 [0.0 0.0 1.0 131876.9 99814.71 362861.36]
 [1.0 0.0 0.0 134615.46 147198.87 127716.82]
 [0.0 1.0 0.0 130298.13 145530.06 323876.68]
 [0.0 0.0 1.0 120542.52 148718.95 311613.29]
 [1.0 0.0 0.0 123334.88 108679.17 304981.62]
 [0.0 1.0 0.0 101913.08 110594.11 229160.95]
 [1.0 0.0 0.0 100671.96 91790.61 249744.55]
 [0.0 1.0 0.0 93863.75 127320.38 249839.44]
 [1.0 0.0 0.0 91992.39 135495.07 252664.93]
 [0.0 1.0 0.0 119943.24 156547.42 256512.92]
 [0.0 0.0 1.0 114523.61 122616.84 261776.23]
 [1.0 0.0 0.0 78013.11 121597.55 264346.06]
 [0.0 0.0 1.0 94657.16 145077.58 282574.31]
 [0.0 1.0 0.0 91749.16 114175.79 294919.57]
 [0.0 0.0 1.0 86419.7 153514.11 0.0]
 [1.0 0.0 0.0 76253.86 113867.3 298664.47]
 [0.0 0.0 1.0 78389.47 153773.43 299737.29]
 [0.0 1.0 0.0 73994.56 122782.75 3

### d) Dividir el conjunto de datos en el conjunto de entrenamiento y el conjunto de prueba

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

### e) Entrenamiento del modelo de regresión lineal múltiple en el conjunto de entrenamiento

In [7]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

LinearRegression()

### f) Predicción de los resultados del conjunto de pruebas

In [8]:
y_pred = regressor.predict(X_test)
np.set_printoptions(precision=2)
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))

[[103015.2  103282.38]
 [132582.28 144259.4 ]
 [132447.74 146121.95]
 [ 71976.1   77798.83]
 [178537.48 191050.39]
 [116161.24 105008.31]
 [ 67851.69  81229.06]
 [ 98791.73  97483.56]
 [113969.44 110352.25]
 [167921.07 166187.94]]


La regresión lineal múltiple es una extensión de la regresión lineal simple que se utiliza para modelar la relación entre una variable dependiente y dos o más variables independientes. Aquí está la descripción paso a paso:

### 1. Modelo de Regresión Lineal Múltiple
El modelo de regresión lineal múltiple se representa como:
$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \ldots + \beta_kX_k + \varepsilon$
donde:
- $Y$ es la variable dependiente.
- $X_1, X_2, \ldots, X_k$ son las variables independientes.
- $\beta_0$ es el término de intercepción.
- $\beta_1, \beta_2, \ldots, \beta_k$ son los coeficientes de las variables independientes que miden el cambio en $Y$ asociado con una unidad de cambio en las variables independientes.
- $\varepsilon$ es el término de error que captura la variación en $Y$ no explicada por las variables independientes.



### 2. Estimación de Parámetros
Los coeficientes del modelo se estiman mediante el método de mínimos cuadrados ordinarios (MCO), que busca minimizar la suma de los cuadrados de los residuos (la diferencia entre los valores observados y los valores ajustados por el modelo).



### 3. Fórmula Matricial de MCO
La estimación de MCO en forma matricial para la regresión múltiple es:
$$\boldsymbol{\beta} = (X^TX)^{-1}X^TY$$
donde:
- $X$ es la matriz de diseño que incluye una columna de unos para el término de intercepción y las columnas de las variables independientes.
- $Y$ es el vector de la variable dependiente.
- $\boldsymbol{\beta}$ es el vector de coeficientes a estimar.


### 4. Interpretación de los Coeficientes
Cada coeficiente $\beta_i$ representa el cambio esperado en $Y$ por cada unidad de cambio en $X_i$, manteniendo todas las demás variables independientes constantes.

### 5. Evaluación del Modelo
Se evalúa el ajuste del modelo utilizando estadísticas como:
- $R^2$: coeficiente de determinación que indica la proporción de la varianza de $Y$ explicada por el modelo.
- $F$ -test: prueba si al menos una de las variables independientes tiene un coeficiente significativamente diferente de cero.
- $t$ -tests: pruebas para evaluar si cada coeficiente individualmente es significativamente diferente de cero.

### 6. Supuestos de la Regresión Lineal Múltiple
El modelo se basa en varios supuestos, incluyendo:
- Linealidad: la relación entre las variables independientes y la variable dependiente es lineal.
- Independencia: los errores son independientes entre sí.
- Homoscedasticidad: los errores tienen varianzas constantes.
- Normalidad: los errores siguen una distribución normal.

### 7. Diagnóstico y Validación del Modelo
Se realizan pruebas de diagnóstico para validar los supuestos del modelo, incluyendo:
- Análisis de residuos: para verificar la homoscedasticidad y la no correlación de errores.
- Gráficos de influencia y medidas de influencia: para detectar datos influyentes o atípicos que puedan distorsionar el análisis.


### Ejemplo Práctico:
Imagina que queremos analizar el impacto de la publicidad en diferentes medios (TV, radio, periódico) sobre las ventas de un producto. La variable dependiente sería las ventas del producto, y las variables independientes serían la cantidad de dinero gastado en publicidad en cada medio. Recopilamos datos, estimamos los coeficientes para cada medio y utilizamos el modelo para entender cómo influye cada tipo de publicidad en las ventas, manteniendo los otros tipos constantes.

La regresión lineal múltiple es una herramienta poderosa en la estadística para entender y predecir el comportamiento de las variables dependientes basándose en varias variables independientes, y es ampliamente utilizada en la investigación y en el análisis de datos en múltiples campos.