**REGRESIÓN LINEAL MÚLTIPLE**

La regresión lineal múltiple es una técnica estadística utilizada para modelar la relación entre una variable dependiente (también conocida como variable de respuesta) y dos o más variables independientes (también conocidas como variables predictoras o explicativas). A continuación, se presenta una explicación básica del concepto, la fórmula y un ejemplo de cómo implementarla.

Supongamos que queremos predecir el precio de una casa en función de su tamaño en pies cuadrados, el número de habitaciones y el número de baños. Para ello, usaremos una regresión lineal múltiple. Para comenzar, necesitamos importar las bibliotecas necesarias y cargar los datos en un DataFrame de Pandas:

In [2]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
# Crear datos de ejemplo
datos = {
    'Habitaciones': [3, 4, 2, 5, 4, 1, 2, 3, 4, 5, 6, 1, 3, 2, 4, 6, 5, 2, 1, 3, 4, 5, 6, 3, 2, 1, 4, 5, 6, 4, 3, 2, 1, 5, 6],
    'Tamaño_terreno': [150, 200, 89, 150, 200, 120, 250, 180, 81, 115, 282, 153, 269, 191, 299, 172, 206, 276, 145, 235, 252, 223, 214, 244, 102, 289, 187, 161, 292, 132, 128, 228, 230, 154, 267],
    'Baños': [3, 2, 1, 2, 1, 3, 2, 1, 3, 2, 4, 2, 1, 4, 3, 1, 2, 3, 4, 4, 2, 1, 3, 2, 4, 1, 3, 4, 2, 1, 4, 3, 2, 3, 1], # Add missing values to make the length the same as other columns
    'Precio_casa': [30000, 400000, 250000, 500000, 350000, 100110, 142781, 253122, 282349, 313015, 330340, 336310, 348989, 371114, 372234, 386310, 394498, 412345, 422345, 431114, 448989, 451114, 452234, 466310, 471114, 472234, 486310, 494498, 500000, 512345, 522345, 531114, 548989, 551114, 571114] # Add missing values to make the length the same as other columns
}
for clave,valor in datos.items():
    print(clave," ",len(valor))

Habitaciones   35
Tamaño_terreno   35
Baños   35
Precio_casa   35


In [3]:
# Convertir el diccionario a un DataFrame de pandas
df = pd.DataFrame(datos)
# Guardar los datos en un archivo CSV
df.to_csv('casas.csv', index=False)
# cargar los datos
datos = pd.read_csv('casas.csv')
datos.head()

Unnamed: 0,Habitaciones,Tamaño_terreno,Baños,Precio_casa
0,3,150,3,30000
1,4,200,2,400000
2,2,89,1,250000
3,5,150,2,500000
4,4,200,1,350000


In [4]:
# separar las variables independientes y la variable dependiente
X = datos.iloc[:, :-1].values
y = datos.iloc[:, 3].values

In [5]:
X

array([[  3, 150,   3],
       [  4, 200,   2],
       [  2,  89,   1],
       [  5, 150,   2],
       [  4, 200,   1],
       [  1, 120,   3],
       [  2, 250,   2],
       [  3, 180,   1],
       [  4,  81,   3],
       [  5, 115,   2],
       [  6, 282,   4],
       [  1, 153,   2],
       [  3, 269,   1],
       [  2, 191,   4],
       [  4, 299,   3],
       [  6, 172,   1],
       [  5, 206,   2],
       [  2, 276,   3],
       [  1, 145,   4],
       [  3, 235,   4],
       [  4, 252,   2],
       [  5, 223,   1],
       [  6, 214,   3],
       [  3, 244,   2],
       [  2, 102,   4],
       [  1, 289,   1],
       [  4, 187,   3],
       [  5, 161,   4],
       [  6, 292,   2],
       [  4, 132,   1],
       [  3, 128,   4],
       [  2, 228,   3],
       [  1, 230,   2],
       [  5, 154,   3],
       [  6, 267,   1]])

In [6]:
y

array([ 30000, 400000, 250000, 500000, 350000, 100110, 142781, 253122,
       282349, 313015, 330340, 336310, 348989, 371114, 372234, 386310,
       394498, 412345, 422345, 431114, 448989, 451114, 452234, 466310,
       471114, 472234, 486310, 494498, 500000, 512345, 522345, 531114,
       548989, 551114, 571114])

A continuación, ajustamos el modelo de regresión lineal múltiple utilizando la

*   Elemento de la lista
*   Elemento de la lista

clase LinearRegression de Scikit-learn:

In [7]:
# ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)

Podemos ver los coeficientes de regresión y la intersección mediante los siguientes comandos:

In [8]:
# imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)

Coeficientes: [18939.29335838   449.06976821 11565.33781392]
Intersección: 214927.58605835144


Esto indica que el modelo de regresión lineal múltiple se ajustó a la ecuación:

Por lo tanto, para predecir el precio de una casa con un tamaño de 600 pies cuadrados, 3 habitaciones y 2 baños, podemos hacer lo siguiente:

In [9]:
# hacer una predicción
prediccion = regressor.predict([[3, 600, 2]])
print('Precio de la casa:', prediccion)

Precio de la casa: [564318.00268539]


Por lo tanto, el modelo predice que el precio de la casa sería de $300000 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

**EJERCICIOS A DESARROLLAR**


***Ejemplo 1: Predicción del Precio de Autos***
Supongamos que queremos predecir el precio de autos en función de varias características como el año de fabricación, el kilometraje y la potencia del motor.

In [10]:
import pandas as pd
from sklearn.linear_model import LinearRegression

# Crear datos de ejemplo
datos_autos = {
    'Año_fabricacion': [2010, 2012, 2015, 2018, 2020, 2005, 2008, 2011, 2013, 2016],
    'Kilometraje': [150000, 120000, 90000, 30000, 15000, 200000, 180000, 140000, 110000, 70000],
    'Potencia': [120, 150, 130, 200, 180, 110, 140, 160, 150, 170],
    'Precio_auto': [5000, 7000, 8500, 15000, 20000, 3000, 4500, 6000, 7500, 10000]
}

# Convertir el diccionario a un DataFrame de pandas
df_autos = pd.DataFrame(datos_autos)

In [11]:
# Separar las variables independientes y la variable dependiente
X_autos = df_autos.iloc[:, :-1].values
y_autos = df_autos.iloc[:, -1].values

In [12]:
# Ajustar el modelo de regresión lineal múltiple
regressor_autos = LinearRegression()
regressor_autos.fit(X_autos, y_autos)

In [13]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor_autos.coef_)
print('Intersección:', regressor_autos.intercept_)

Coeficientes: [-9.32214448e+02 -1.48735567e-01  6.60380679e+00]
Intersección: 1900449.3470889847


In [14]:
# Hacer una predicción
prediccion_auto = regressor_autos.predict([[2017, 50000, 160]])
print('Precio del auto:', prediccion_auto)

Precio del auto: [13792.6354088]


***Ejemplo 2: Predicción de Salarios***

Queremos predecir el salario de empleados en función de sus años de experiencia, nivel de educación y número de proyectos completados.


In [15]:
# Crear datos de ejemplo
datos_salarios = {
    'Años_experiencia': [1, 3, 5, 7, 9, 2, 4, 6, 8, 10],
    'Nivel_educacion': [1, 2, 2, 3, 3, 1, 2, 2, 3, 3],
    'Proyectos_completados': [2, 4, 6, 8, 10, 3, 5, 7, 9, 11],
    'Salario': [30000, 35000, 40000, 50000, 60000, 32000, 37000, 42000, 52000, 62000]
}

In [16]:
# Convertir el diccionario a un DataFrame de pandas
df_salarios = pd.DataFrame(datos_salarios)

In [17]:
# Separar las variables independientes y la variable dependiente
X_salarios = df_salarios.iloc[:, :-1].values
y_salarios = df_salarios.iloc[:, -1].values

In [18]:
# Ajustar el modelo de regresión lineal múltiple
regressor_salarios = LinearRegression()
regressor_salarios.fit(X_salarios, y_salarios)

In [19]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor_salarios.coef_)
print('Intersección:', regressor_salarios.intercept_)

Coeficientes: [1838.70967742   80.64516129 1838.70967742]
Intersección: 21758.06451612903


In [20]:
# Hacer una predicción
prediccion_salario = regressor_salarios.predict([[5, 3, 6]])
print('Salario:', prediccion_salario)

Salario: [42225.80645161]


***Ejemplo 3: Predicción de Rendimiento Académico***

Queremos predecir el rendimiento académico de los estudiantes en función de las horas de estudio, asistencia a clases y participación en actividades extracurriculares.

In [21]:
# Crear datos de ejemplo
datos_academicos = {
    'Horas_estudio': [10, 15, 20, 25, 30, 12, 18, 22, 28, 35],
    'Asistencia': [80, 85, 90, 95, 100, 75, 82, 88, 93, 97],
    'Actividades_extracurriculares': [1, 2, 1, 2, 1, 2, 1, 2, 1, 2],
    'Rendimiento': [60, 70, 75, 85, 90, 65, 72, 78, 87, 92]
}

In [22]:
# Convertir el diccionario a un DataFrame de pandas
df_academicos = pd.DataFrame(datos_academicos)

In [23]:
# Separar las variables independientes y la variable dependiente
X_academicos = df_academicos.iloc[:, :-1].values
y_academicos = df_academicos.iloc[:, -1].values

In [24]:
# Ajustar el modelo de regresión lineal múltiple
regressor_academicos = LinearRegression()
regressor_academicos.fit(X_academicos, y_academicos)

In [25]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor_academicos.coef_)
print('Intersección:', regressor_academicos.intercept_)

Coeficientes: [1.05490058 0.29970172 0.86676137]
Intersección: 26.895893369275107


In [26]:
# Hacer una predicción
prediccion_academico = regressor_academicos.predict([[20, 90, 1]])
print('Rendimiento académico:', prediccion_academico)

Rendimiento académico: [75.83382102]


***Ejemplo 4: Predicción del Consumo de Energía***

Queremos predecir el consumo de energía de una vivienda en función de la temperatura, la humedad y el número de habitantes.

In [27]:
# Crear datos de ejemplo
datos_energia = {
    'Temperatura': [15, 20, 25, 30, 35, 10, 22, 28, 33, 40],
    'Humedad': [30, 40, 50, 60, 70, 20, 35, 45, 55, 65],
    'Habitantes': [2, 3, 4, 5, 6, 1, 2, 3, 4, 5],
    'Consumo': [300, 350, 400, 450, 500, 250, 320, 370, 430, 480]
}

In [28]:
# Convertir el diccionario a un DataFrame de pandas
df_energia = pd.DataFrame(datos_energia)

In [30]:
# Separar las variables independientes y la variable dependiente
X_energia = df_energia.iloc[:, :-1].values
y_energia = df_energia.iloc[:, -1].values

In [31]:
# Ajustar el modelo de regresión lineal múltiple
regressor_energia = LinearRegression()
regressor_energia.fit(X_energia, y_energia)

In [32]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor_energia.coef_)
print('Intersección:', regressor_energia.intercept_)

Coeficientes: [ 2.85714286  0.28571429 33.17460317]
Intersección: 181.74603174603186


In [33]:
# Hacer una predicción
prediccion_energia = regressor_energia.predict([[25, 50, 4]])
print('Consumo de energía:', prediccion_energia)

Consumo de energía: [400.15873016]


***Ejemplo 5: Predicción de Ventas de Tienda***

Queremos predecir las ventas de una tienda en función del gasto en publicidad en televisión, radio y prensa.

In [35]:
# Crear datos de ejemplo
datos_ventas = {
    'Publicidad_TV': [100, 200, 150, 300, 250, 100, 180, 220, 270, 320],
    'Publicidad_Radio': [30, 40, 35, 50, 45, 25, 38, 42, 47, 53],
    'Publicidad_Prensa': [20, 30, 25, 35, 28, 15, 22, 27, 33, 38],
    'Ventas': [1000, 1500, 1200, 2000, 1800, 900, 1400, 1600, 1900, 2100]
}

In [36]:
# Convertir el diccionario a un DataFrame de pandas
df_ventas = pd.DataFrame(datos_ventas)

In [37]:
# Separar las variables independientes y la variable dependiente
X_ventas = df_ventas.iloc[:, :-1].values
y_ventas = df_ventas.iloc[:, -1].values

In [38]:
# Ajustar el modelo de regresión lineal múltiple
regressor_ventas = LinearRegression()
regressor_ventas.fit(X_ventas, y_ventas)

In [39]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor_ventas.coef_)
print('Intersección:', regressor_ventas.intercept_)

Coeficientes: [ 3.51749884 20.64889519 -5.62160399]
Intersección: 122.0322754880799


In [40]:
# Hacer una predicción
prediccion_ventas = regressor_ventas.predict([[150, 35, 25]])
print('Ventas de la tienda:', prediccion_ventas)

Ventas de la tienda: [1231.82833392]


***Ejemplo 6: Predicción del Precio de Productos Agrícolas***

Queremos predecir el precio de productos agrícolas en función de la cantidad producida, la demanda y el costo de producción.

In [41]:
# Crear datos de ejemplo
datos_agricolas = {
    'Cantidad_producida': [100, 150, 200, 250, 300, 120, 170, 220, 270, 320],
    'Demanda': [50, 70, 60, 80, 90, 55, 75, 65, 85, 95],
    'Costo_produccion': [30, 35, 40, 45, 50, 32, 37, 42, 47, 52],
    'Precio': [1000, 1500, 1200, 2000, 1800, 1100, 1600, 1300, 2100, 1900]
}

In [42]:
# Convertir el diccionario a un DataFrame de pandas
df_agricolas = pd.DataFrame(datos_agricolas)

In [43]:
# Separar las variables independientes y la variable dependiente
X_agricolas = df_agricolas.iloc[:, :-1].values
y_agricolas = df_agricolas.iloc[:, -1].values

In [44]:
# Ajustar el modelo de regresión lineal múltiple
regressor_agricolas = LinearRegression()
regressor_agricolas.fit(X_agricolas, y_agricolas)

In [45]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor_agricolas.coef_)
print('Intersección:', regressor_agricolas.intercept_)

Coeficientes: [-0.61171722 26.64968153 -0.06117172]
Intersección: -251.13325345273438


In [46]:
# Hacer una predicción
prediccion_agricola = regressor_agricolas.predict([[250, 80, 45]])
print('Precio del producto agrícola:', prediccion_agricola)

Precio del producto agrícola: [1725.15923567]


***Ejemplo 7: Predicción del Peso Corporal***

Queremos predecir el peso corporal de una persona en función de su altura, edad y nivel de actividad física.

In [47]:
# Crear datos de ejemplo
datos_peso = {
    'Altura': [150, 160, 170, 180, 190, 155, 165, 175, 185, 195],
    'Edad': [25, 30, 35, 40, 45, 28, 33, 38, 43, 48],
    'Actividad_fisica': [1, 2, 3, 4, 5, 2, 3, 4, 5, 1],
    'Peso': [60, 70, 80, 90, 100, 65, 75, 85, 95, 105]
}

In [48]:
# Convertir el diccionario a un DataFrame de pandas
df_peso = pd.DataFrame(datos_peso)

In [49]:
# Separar las variables independientes y la variable dependiente
X_peso = df_peso.iloc[:, :-1].values
y_peso = df_peso.iloc[:, -1].values

In [50]:
# Ajustar el modelo de regresión lineal múltiple
regressor_peso = LinearRegression()
regressor_peso.fit(X_peso, y_peso)

In [51]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor_peso.coef_)
print('Intersección:', regressor_peso.intercept_)

Coeficientes: [1.00000000e+00 2.39410061e-15 1.06388808e-15]
Intersección: -89.99999999999989


In [52]:
# Hacer una predicción
prediccion_peso = regressor_peso.predict([[175, 35, 3]])
print('Peso corporal:', prediccion_peso)

Peso corporal: [85.]


***Ejemplo 8: Predicción de la Productividad Laboral***

Queremos predecir la productividad laboral de los empleados en función de las horas de trabajo, la capacitación y el entorno de trabajo.

In [53]:
# Crear datos de ejemplo
datos_productividad = {
    'Horas_trabajo': [35, 40, 45, 50, 55, 38, 42, 47, 52, 57],
    'Capacitacion': [1, 2, 3, 4, 5, 2, 3, 4, 5, 1],
    'Entorno_trabajo': [3, 4, 5, 4, 3, 4, 5, 3, 4, 5],
    'Productividad': [60, 70, 80, 90, 100, 65, 75, 85, 95, 105]
}

In [54]:
# Convertir el diccionario a un DataFrame de pandas
df_productividad = pd.DataFrame(datos_productividad)

In [55]:
# Separar las variables independientes y la variable dependiente
X_productividad = df_productividad.iloc[:, :-1].values
y_productividad = df_productividad.iloc[:, -1].values

In [56]:
# Ajustar el modelo de regresión lineal múltiple
regressor_productividad = LinearRegression()
regressor_productividad.fit(X_productividad, y_productividad)

In [57]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor_productividad.coef_)
print('Intersección:', regressor_productividad.intercept_)

Coeficientes: [2.0400264  0.02154669 0.13074254]
Intersección: -12.132827446676657


In [58]:
# Hacer una predicción
prediccion_productividad = regressor_productividad.predict([[45, 3, 5]])
print('Productividad laboral:', prediccion_productividad)

Productividad laboral: [80.3867135]


***Ejemplo 9: Predicción del Precio de Alquiler***

Queremos predecir el precio de alquiler de apartamentos en función de la superficie, el número de habitaciones y la ubicación.

In [59]:
# Crear datos de ejemplo
datos_alquiler = {
    'Superficie': [50, 60, 70, 80, 90, 55, 65, 75, 85, 95],
    'Habitaciones': [1, 2, 3, 4, 5, 1, 2, 3, 4, 5],
    'Ubicacion': [1, 2, 3, 2, 1, 3, 2, 1, 3, 2],
    'Precio_alquiler': [500, 600, 700, 800, 900, 550, 650, 750, 850, 950]
}

In [60]:
# Convertir el diccionario a un DataFrame de pandas
df_alquiler = pd.DataFrame(datos_alquiler)

In [61]:
# Separar las variables independientes y la variable dependiente
X_alquiler = df_alquiler.iloc[:, :-1].values
y_alquiler = df_alquiler.iloc[:, -1].values

In [62]:
# Ajustar el modelo de regresión lineal múltiple
regressor_alquiler = LinearRegression()
regressor_alquiler.fit(X_alquiler, y_alquiler)

In [63]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor_alquiler.coef_)
print('Intersección:', regressor_alquiler.intercept_)

Coeficientes: [1.00000000e+01 1.46169477e-14 9.24160303e-16]
Intersección: 3.410605131648481e-13


In [64]:
# Hacer una predicción
prediccion_alquiler = regressor_alquiler.predict([[70, 3, 2]])
print('Precio de alquiler:', prediccion_alquiler)

Precio de alquiler: [700.]


***Ejemplo 10: Predicción de la Calidad del Aire***

Queremos predecir la calidad del aire en función de la concentración de varios contaminantes: dióxido de nitrógeno (NO2), partículas en suspensión (PM10) y ozono (O3).

In [65]:
# Crear datos de ejemplo
datos_aire = {
    'NO2': [30, 40, 50, 60, 70, 35, 45, 55, 65, 75],
    'PM10': [20, 30, 25, 35, 28, 15, 22, 27, 33, 38],
    'O3': [10, 15, 12, 18, 14, 9, 13, 17, 19, 20],
    'Calidad_aire': [50, 60, 55, 65, 58, 45, 52, 57, 63, 68]
}

In [66]:
# Convertir el diccionario a un DataFrame de pandas
df_aire = pd.DataFrame(datos_aire)

In [68]:
# Separar las variables independientes y la variable dependiente
X_aire = df_aire.iloc[:, :-1].values
y_aire = df_aire.iloc[:, -1].values

In [70]:
# Ajustar el modelo de regresión lineal múltiple
regressor_aire = LinearRegression()
regressor_aire.fit(X_aire, y_aire)

In [71]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor_aire.coef_)
print('Intersección:', regressor_aire.intercept_)

Coeficientes: [ 5.31071059e-17  1.00000000e+00 -5.55111512e-17]
Intersección: 30.000000000000004


In [72]:
# Hacer una predicción
prediccion_aire = regressor_aire.predict([[50, 25, 12]])
print('Calidad del aire:', prediccion_aire)

Calidad del aire: [55.]
