**REGRESIÓN LINEAL MÚLTIPLE**

La regresión lineal múltiple es una técnica estadística utilizada para modelar la relación entre una variable dependiente (también conocida como variable de respuesta) y dos o más variables independientes (también conocidas como variables predictoras o explicativas). A continuación, se presenta una explicación básica del concepto, la fórmula y un ejemplo de cómo implementarla.

Supongamos que queremos predecir el precio de una casa en función de su tamaño en pies cuadrados, el número de habitaciones y el número de baños. Para ello, usaremos una regresión lineal múltiple. Para comenzar, necesitamos importar las bibliotecas necesarias y cargar los datos en un DataFrame de Pandas:

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
# Crear datos de ejemplo
datos = {
    'Habitaciones': [3, 4, 2, 5, 4, 1, 2, 3, 4, 5, 6, 1, 3, 2, 4, 6, 5, 2, 1, 3, 4, 5, 6, 3, 2, 1, 4, 5, 6, 4, 3, 2, 1, 5, 6],
    'Tamaño_terreno': [150, 200, 120, 250, 180, 81, 115, 282, 153, 269, 191, 299, 172, 206, 276, 145, 235, 252, 223, 214, 244, 102, 289, 187, 161, 292, 132, 128, 228, 230, 154, 267, 233, 348,231],
    'Baños': [1, 2, 1, 3, 2, 1, 3, 2, 4, 2, 1, 4, 3, 1, 2, 3, 4, 4, 2, 1, 3, 2, 4, 1, 3, 4, 2, 1, 4, 3, 2, 3, 1, 2, 3],
    'Precio_casa': [30000, 400000, 250000, 500000, 350000, 100110, 142781, 253122, 282349, 313015, 330340, 336310, 348989, 371114, 372234, 386310, 394498, 412345, 422345, 431114, 448989, 451114, 452234, 466310, 471114, 472234, 486310, 494498, 500000, 234569, 465610, 522114, 333234, 444310, 542298]
}
for clave,valor in datos.items():
 print(clave," ",len(valor))

Habitaciones   35
Tamaño_terreno   35
Baños   35
Precio_casa   35


In [None]:
# Convertir el diccionario a un DataFrame de pandas
df = pd.DataFrame(datos)
# Guardar los datos en un archivo CSV
df.to_csv('casas.csv', index=False)
# cargar los datos
datos = pd.read_csv('casas.csv')
datos.head()

Unnamed: 0,Habitaciones,Tamaño_terreno,Baños,Precio_casa
0,3,150,1,30000
1,4,200,2,400000
2,2,120,1,250000
3,5,250,3,500000
4,4,180,2,350000


In [None]:
# separar las variables independientes y la variable dependiente
X = datos.iloc[:, :-1].values
y = datos.iloc[:, 3].values

In [None]:
X

array([[  3, 150,   1],
       [  4, 200,   2],
       [  2, 120,   1],
       [  5, 250,   3],
       [  4, 180,   2],
       [  1,  81,   1],
       [  2, 115,   3],
       [  3, 282,   2],
       [  4, 153,   4],
       [  5, 269,   2],
       [  6, 191,   1],
       [  1, 299,   4],
       [  3, 172,   3],
       [  2, 206,   1],
       [  4, 276,   2],
       [  6, 145,   3],
       [  5, 235,   4],
       [  2, 252,   4],
       [  1, 223,   2],
       [  3, 214,   1],
       [  4, 244,   3],
       [  5, 102,   2],
       [  6, 289,   4],
       [  3, 187,   1],
       [  2, 161,   3],
       [  1, 292,   4],
       [  4, 132,   2],
       [  5, 128,   1],
       [  6, 228,   4],
       [  4, 230,   3],
       [  3, 154,   2],
       [  2, 267,   3],
       [  1, 233,   1],
       [  5, 348,   2],
       [  6, 231,   3]])

In [None]:
y

array([ 30000, 400000, 250000, 500000, 350000, 100110, 142781, 253122,
       282349, 313015, 330340, 336310, 348989, 371114, 372234, 386310,
       394498, 412345, 422345, 431114, 448989, 451114, 452234, 466310,
       471114, 472234, 486310, 494498, 500000, 234569, 465610, 522114,
       333234, 444310, 542298])

A continuación, ajustamos el modelo de regresión lineal múltiple utilizando la

*   Elemento de la lista
*   Elemento de la lista

clase LinearRegression de Scikit-learn:

In [None]:
# ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)

Podemos ver los coeficientes de regresión y la intersección mediante los siguientes comandos:

In [None]:
# imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)

Coeficientes: [20161.12414016   486.26248492 14552.93202282]
Intersección: 171131.29464347952


Esto indica que el modelo de regresión lineal múltiple se ajustó a la ecuación:

Por lo tanto, para predecir el precio de una casa con un tamaño de 600 pies cuadrados, 3 habitaciones y 2 baños, podemos hacer lo siguiente:

In [None]:
# hacer una predicción
prediccion = regressor.predict([[3, 600, 2]])
print('Precio de la casa:', prediccion)

Precio de la casa: [552478.02206045]


Por lo tanto, el modelo predice que el precio de la casa sería de $300000 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

**EJERCICIOS A DESARROLLAR**


***Ejemplo 1: Predicción del Precio de Autos***
Supongamos que queremos predecir el precio de autos en función de varias características como el año de fabricación, el kilometraje y la potencia del motor.

In [None]:

n = 100 # Número de observaciones
Precio_Auto = np.random.uniform(10000, 50000, n) # Precio entre $10,000 y $50,000
Año_Fabricacion = np.random.randint(2010, 2022, n) # Año de fabricación entre 2010 y 2021
Kilometraje = np.random.randint(10000, 200000, n) # Kilometraje entre 10,000 y 200,000
Potencia_Motor = np.random.randint(80, 300, n) # Potencia del motor entre 80 y 300 caballos de fuerza

# Crear el DataFrame
datos = pd.DataFrame({
    'Precio_Auto': Precio_Auto,
    'Año_Fabricacion': Año_Fabricacion,
    'Kilometraje': Kilometraje,
    'Potencia_Motor': Potencia_Motor
})

print(datos.head())

    Precio_Auto  Año_Fabricacion  Kilometraje  Potencia_Motor
0  27877.584429             2013        91738             104
1  20500.246708             2015        24749             143
2  28061.484574             2021       155688             294
3  21063.476918             2018       109995             252
4  33823.416359             2019       113371             178


In [None]:
from sklearn.linear_model import LinearRegression

# Dividir los datos en variables independientes (X) y variable dependiente (y)
X = datos[['Año_Fabricacion', 'Kilometraje', 'Potencia_Motor']]
y = datos['Precio_Auto']

# Crear el modelo de regresión lineal múltiple
modelo = LinearRegression()
modelo.fit(X, y)

# Coeficientes del modelo
print("Coeficientes:")
print(modelo.coef_)

# Intercepto del modelo
print("Intercepto:")
print(modelo.intercept_)

# Coeficiente de determinación (R^2)
print("R-cuadrado:")
print(modelo.score(X, y))

Coeficientes:
[ 2.39660566e+02 -1.94278174e-02 -3.92673585e+00]
Intercepto:
-450958.0971408755
R-cuadrado:
0.02192926584338295


In [None]:
# Hacer predicciones
nuevos_datos = pd.DataFrame({
    'Año_Fabricacion': [2018, 2015, 2020],
    'Kilometraje': [50000, 80000, 30000],
    'Potencia_Motor': [150, 200, 180]
})

predicciones = modelo.predict(nuevos_datos)
print("Predicciones:")
print(predicciones)

Predicciones:
[31116.52476888 29618.37175526 31866.60017395]


***Ejemplo 2: Predicción de Salarios***

Queremos predecir el salario de empleados en función de sus años de experiencia, nivel de educación y número de proyectos completados.


In [None]:
n = 500
Salario = np.random.uniform(30000, 100000, n) # Salario entre $30,000 y $100,000
Años_Experiencia = np.random.randint(0, 20, n) # Años de experiencia entre 0 y 20
Nivel_Educacion = np.random.randint(1, 5, n) # Nivel de educación entre 1 (bachillerato) y 4 (doctorado)
Proyectos_Completados = np.random.randint(0, 20, n) # Número de proyectos completados entre 0 y 20

# Crear el DataFrame
datos = pd.DataFrame({
    'Salario': Salario,
    'Años_Experiencia': Años_Experiencia,
    'Nivel_Educacion': Nivel_Educacion,
    'Proyectos_Completados': Proyectos_Completados
})

print(datos.head())

        Salario  Años_Experiencia  Nivel_Educacion  Proyectos_Completados
0  46687.437827                 6                4                     12
1  51310.520689                13                2                      7
2  52024.902110                17                1                      2
3  77734.173547                17                2                     16
4  62934.825854                 1                2                      0


In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

In [None]:
datos = pd.DataFrame({
    'Salario': Salario,
    'Años_Experiencia': Años_Experiencia,
    'Nivel_Educacion': Nivel_Educacion,
    'Proyectos_Completados': Proyectos_Completados
})

In [None]:
# Dividir los datos en entrenamiento y prueba
X = datos[['Años_Experiencia', 'Nivel_Educacion', 'Proyectos_Completados']]
y = datos['Salario']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [None]:
# Evaluar el modelo
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R-cuadrado):", r2)

Error cuadrático medio (MSE): 390519322.43965375
Coeficiente de determinación (R-cuadrado): -0.020574859859017414


In [None]:
# Hacer predicciones
nueva_persona = pd.DataFrame({
    'Años_Experiencia': [5],
    'Nivel_Educacion': [3],
    'Proyectos_Completados': [10]
})
salario_predicho = modelo.predict(nueva_persona)
print("Salario predicho:", salario_predicho[0])

Salario predicho: 63274.5437023745


***Ejemplo 3: Predicción de Rendimiento Académico***

Queremos predecir el rendimiento académico de los estudiantes en función de las horas de estudio, asistencia a clases y participación en actividades extracurriculares.

In [None]:

n = 500
Rendimiento_Académico = np.random.uniform(70, 100, n) # Rendimiento académico entre 70 y 100
Horas_Estudio = np.random.randint(5, 20, n) # Horas de estudio entre 5 y 20 por semana
Asistencia_Clases = np.random.randint(80, 101, n) # Asistencia a clases entre 80% y 100%
Actividades_Extracurriculares = np.random.randint(0, 5, n) # Número de actividades extracurriculares entre 0 y 4

# Crear el DataFrame
datos = pd.DataFrame({
    'Rendimiento_Académico': Rendimiento_Académico,
    'Horas_Estudio': Horas_Estudio,
    'Asistencia_Clases': Asistencia_Clases,
    'Actividades_Extracurriculares': Actividades_Extracurriculares
})

print(datos.head())

   Rendimiento_Académico  Horas_Estudio  Asistencia_Clases  \
0              72.600915             13                 84   
1              79.956741              9                 94   
2              88.525817              6                 80   
3              91.348114             19                 82   
4              84.311824             13                 96   

   Actividades_Extracurriculares  
0                              0  
1                              0  
2                              0  
3                              1  
4                              4  


In [None]:
# Dividir los datos en entrenamiento y prueba
X = datos[['Horas_Estudio', 'Asistencia_Clases', 'Actividades_Extracurriculares']]
y = datos['Rendimiento_Académico']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [None]:
# Evaluar el modelo
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R-cuadrado):", r2)

Error cuadrático medio (MSE): 68.87206588736878
Coeficiente de determinación (R-cuadrado): 0.029631911185983517


In [None]:
# Hacer predicciones
nuevo_estudiante = pd.DataFrame({
    'Horas_Estudio': [15],
    'Asistencia_Clases': [95],
    'Actividades_Extracurriculares': [2]
})
rendimiento_predicho = modelo.predict(nuevo_estudiante)
print("Rendimiento académico predicho:", rendimiento_predicho[0])

Rendimiento académico predicho: 85.93262794906262


***Ejemplo 4: Predicción del Consumo de Energía***

Queremos predecir el consumo de energía de una vivienda en función de la temperatura, la humedad y el número de habitantes.

In [None]:
n = 500
Consumo_Energia = np.random.uniform(1000, 3000, n) # Consumo de energía entre 1000 y 3000 kWh
Temperatura = np.random.uniform(10, 30, n) # Temperatura entre 10 y 30 grados Celsius
Humedad = np.random.uniform(30, 80, n) # Humedad entre 30% y 80%
Habitantes = np.random.randint(1, 6, n) # Número de habitantes entre 1 y 5

# Crear el DataFrame
datos = pd.DataFrame({
    'Consumo_Energia': Consumo_Energia,
    'Temperatura': Temperatura,
    'Humedad': Humedad,
    'Habitantes': Habitantes
})

print(datos.head())

   Consumo_Energia  Temperatura    Humedad  Habitantes
0      1540.684677    25.990514  38.301133           2
1      2211.758186    13.982904  57.023036           1
2      2235.575416    27.010225  61.345296           5
3      2053.849790    19.881541  57.527983           3
4      1891.102339    26.473611  51.658177           1


In [None]:
# Dividir los datos en entrenamiento y prueba
X = datos[['Temperatura', 'Humedad', 'Habitantes']]
y = datos['Consumo_Energia']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [None]:
# Evaluar el modelo
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R-cuadrado):", r2)

Error cuadrático medio (MSE): 349225.69208864763
Coeficiente de determinación (R-cuadrado): -0.049817153125040425


In [None]:
# Hacer predicciones
nueva_vivienda = pd.DataFrame({
    'Temperatura': [20],
    'Humedad': [60],
    'Habitantes': [3]
})
consumo_predicho = modelo.predict(nueva_vivienda)
print("Consumo de energía predicho:", consumo_predicho[0])

Consumo de energía predicho: 1996.3109163106221


***Ejemplo 5: Predicción de Ventas de Tienda***

Queremos predecir las ventas de una tienda en función del gasto en publicidad en televisión, radio y prensa.

In [None]:
n = 500
Ventas = np.random.uniform(10000, 50000, n) # Ventas entre 10000 y 50000 USD
Publicidad_TV = np.random.uniform(1000, 5000, n) # Gasto en publicidad en TV entre 1000 y 5000 USD
Publicidad_Radio = np.random.uniform(500, 2000, n) # Gasto en publicidad en radio entre 500 y 2000 USD
Publicidad_Prensa = np.random.uniform(500, 2000, n) # Gasto en publicidad en prensa entre 500 y 2000 USD

# Crear el DataFrame
datos = pd.DataFrame({
    'Ventas': Ventas,
    'Publicidad_TV': Publicidad_TV,
    'Publicidad_Radio': Publicidad_Radio,
    'Publicidad_Prensa': Publicidad_Prensa
})

print(datos.head())

         Ventas  Publicidad_TV  Publicidad_Radio  Publicidad_Prensa
0  17922.710094    3902.759518       1747.803975        1925.636682
1  41465.671152    4407.067533       1044.034193        1970.116624
2  41418.260070    4817.410958       1629.267331         735.817142
3  34000.082002    1569.719177       1105.673270        1436.858201
4  16909.552958    1278.483231       1890.810756        1346.226259


In [None]:
# Dividir los datos en entrenamiento y prueba
X = datos[['Publicidad_TV', 'Publicidad_Radio', 'Publicidad_Prensa']]
y = datos['Ventas']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [None]:
# Evaluar el modelo
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R-cuadrado):", r2)

Error cuadrático medio (MSE): 130938357.41117328
Coeficiente de determinación (R-cuadrado): -0.044946749763835836


In [None]:
# Hacer predicciones
nuevo_gasto = pd.DataFrame({
    'Publicidad_TV': [3000],
    'Publicidad_Radio': [1000],
    'Publicidad_Prensa': [800]
})
ventas_predichas = modelo.predict(nuevo_gasto)
print("Ventas predichas:", ventas_predichas[0])

Ventas predichas: 30821.954158572917


***Ejemplo 6: Predicción del Precio de Productos Agrícolas***

Queremos predecir el precio de productos agrícolas en función de la cantidad producida, la demanda y el costo de producción.

In [None]:
n = 500
Precio = np.random.uniform(5, 20, n) # Precio entre 5 y 20 USD/unidad
Cantidad_Producida = np.random.randint(1000, 5000, n) # Cantidad producida entre 1000 y 5000 unidades
Demanda = np.random.randint(800, 4500, n) # Demanda entre 800 y 4500 unidades
Costo_Produccion = np.random.uniform(3, 12, n) # Costo de producción entre 3 y 12 USD/unidad

# Crear el DataFrame
datos = pd.DataFrame({
    'Precio': Precio,
    'Cantidad_Producida': Cantidad_Producida,
    'Demanda': Demanda,
    'Costo_Produccion': Costo_Produccion
})

print(datos.head())

      Precio  Cantidad_Producida  Demanda  Costo_Produccion
0   9.009502                4698     1010         11.279068
1  15.176474                3953     3511          3.951459
2   7.846530                2971     1504          6.581606
3  14.567784                1994     2065         11.663765
4  12.008926                4151     4308         11.945476


In [None]:
# Dividir los datos en entrenamiento y prueba
X = datos[['Cantidad_Producida', 'Demanda', 'Costo_Produccion']]
y = datos['Precio']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [None]:
# Evaluar el modelo
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R-cuadrado):", r2)

Error cuadrático medio (MSE): 19.797262936775383
Coeficiente de determinación (R-cuadrado): -0.0065407391393268455


In [None]:
# Hacer predicciones
nueva_cantidad = 3500
nueva_demanda = 3000
nuevo_costo = 8
nueva_muestra = pd.DataFrame({
    'Cantidad_Producida': [nueva_cantidad],
    'Demanda': [nueva_demanda],
    'Costo_Produccion': [nuevo_costo]
})
precio_predicho = modelo.predict(nueva_muestra)
print("Precio predicho:", precio_predicho[0])

Precio predicho: 12.936854174308877


***Ejemplo 7: Predicción del Peso Corporal***

Queremos predecir el peso corporal de una persona en función de su altura, edad y nivel de actividad física.

In [None]:
n = 500
Peso = np.random.normal(70, 10, n) # Peso entre 40 y 120 kg
Altura = np.random.normal(170, 10, n) # Altura entre 150 y 190 cm
Edad = np.random.randint(18, 70, n) # Edad entre 18 y 69 años
Actividad_Fisica = np.random.randint(1, 6, n) # Nivel de actividad física entre 1 (sedentario) y 5 (muy activo)

# Crear el DataFrame
datos = pd.DataFrame({
    'Peso': Peso,
    'Altura': Altura,
    'Edad': Edad,
    'Actividad_Fisica': Actividad_Fisica
})

print(datos.head())

        Peso      Altura  Edad  Actividad_Fisica
0  58.832208  174.423982    29                 2
1  76.751383  159.991516    18                 1
2  70.584477  180.395163    50                 5
3  75.702695  176.562720    43                 2
4  59.620500  186.593039    18                 5


In [None]:
# Dividir los datos en entrenamiento y prueba
X = datos[['Altura', 'Edad', 'Actividad_Fisica']]
y = datos['Peso']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [None]:
# Evaluar el modelo
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R-cuadrado):", r2)

Error cuadrático medio (MSE): 85.97636600749645
Coeficiente de determinación (R-cuadrado): 0.00531941320327034


In [None]:
# Hacer predicciones
nueva_altura = 175
nueva_edad = 35
nueva_actividad = 3
nueva_muestra = pd.DataFrame({
    'Altura': [nueva_altura],
    'Edad': [nueva_edad],
    'Actividad_Fisica': [nueva_actividad]
})
peso_predicho = modelo.predict(nueva_muestra)
print("Peso predicho:", peso_predicho[0])

Peso predicho: 70.42142132522895


***Ejemplo 8: Predicción de la Productividad Laboral***

Queremos predecir la productividad laboral de los empleados en función de las horas de trabajo, la capacitación y el entorno de trabajo.

In [None]:
n = 500

# Generar datos
Horas_Trabajo = np.random.uniform(35, 60, n) # Horas de trabajo semanales entre 35 y 60
Capacitacion = np.random.randint(1, 6, n) # Nivel de capacitación entre 1 (bajo) y 5 (alto)
Entorno_Trabajo = np.random.randint(1, 6, n) # Calidad del entorno de trabajo entre 1 (malo) y 5 (excelente)
Productividad = 50 + 2 * Horas_Trabajo + 5 * Capacitacion + 3 * Entorno_Trabajo + np.random.normal(0, 5, n) # Productividad laboral

# Crear el DataFrame
datos = pd.DataFrame({
    'Horas_Trabajo': Horas_Trabajo,
    'Capacitacion': Capacitacion,
    'Entorno_Trabajo': Entorno_Trabajo,
    'Productividad': Productividad
})

print(datos.head())

   Horas_Trabajo  Capacitacion  Entorno_Trabajo  Productividad
0      46.466598             3                4     173.999569
1      59.668234             1                1     178.352904
2      59.646848             4                3     192.695413
3      47.072085             4                4     185.588177
4      52.153537             1                4     169.336448


In [None]:
# Dividir los datos en entrenamiento y prueba
X = datos[['Horas_Trabajo', 'Capacitacion', 'Entorno_Trabajo']]
y = datos['Productividad']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [None]:
# Evaluar el modelo
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R-cuadrado):", r2)

Error cuadrático medio (MSE): 19.576664800273793
Coeficiente de determinación (R-cuadrado): 0.9350013478795137


In [None]:
# Hacer predicciones
nuevas_horas = 45
nueva_capacitacion = 4
nuevo_entorno = 3
nueva_muestra = pd.DataFrame({
    'Horas_Trabajo': [nuevas_horas],
    'Capacitacion': [nueva_capacitacion],
    'Entorno_Trabajo': [nuevo_entorno]
})
productividad_predicha = modelo.predict(nueva_muestra)
print("Productividad predicha:", productividad_predicha[0])

Productividad predicha: 169.3267764073999


***Ejemplo 9: Predicción del Precio de Alquiler***

Queremos predecir el precio de alquiler de apartamentos en función de la superficie, el número de habitaciones y la ubicación.

In [None]:
n = 1000


Superficie = np.random.uniform(40, 120, n) # Superficie en metros cuadrados
Habitaciones = np.random.randint(1, 5, n) # Número de habitaciones
Ubicacion = np.random.randint(1, 4, n) # Ubicación: 1 (centro), 2 (periferia), 3 (suburbio)
Precio_Alquiler = 500 + 10 * Superficie + 100 * Habitaciones + 200 * Ubicacion + np.random.normal(0, 50, n) # Precio de alquiler

# Crear el DataFrame
datos = pd.DataFrame({
    'Superficie': Superficie,
    'Habitaciones': Habitaciones,
    'Ubicacion': Ubicacion,
    'Precio_Alquiler': Precio_Alquiler
})

print(datos.head())

   Superficie  Habitaciones  Ubicacion  Precio_Alquiler
0   66.668938             1          3      1863.099735
1  109.846275             1          2      2106.374105
2   43.090438             4          2      1723.860948
3  105.257329             3          1      1997.445278
4   53.147871             2          3      1848.153124


In [None]:
# Dividir los datos en entrenamiento y prueba
X = datos[['Superficie', 'Habitaciones', 'Ubicacion']]
y = datos['Precio_Alquiler']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

In [None]:
# Evaluar el modelo
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R-cuadrado):", r2)

Error cuadrático medio (MSE): 2452.6873379247136
Coeficiente de determinación (R-cuadrado): 0.9755791468434283


In [None]:
# Hacer predicciones
nueva_superficie = 80
nuevas_habitaciones = 3
nueva_ubicacion = 2
nueva_muestra = pd.DataFrame({
    'Superficie': [nueva_superficie],
    'Habitaciones': [nuevas_habitaciones],
    'Ubicacion': [nueva_ubicacion]
})
precio_alquiler_predicho = modelo.predict(nueva_muestra)
print("Precio de alquiler predicho:", precio_alquiler_predicho[0])

Precio de alquiler predicho: 1999.4758602567392


***Ejemplo 10: Predicción de la Calidad del Aire***

Queremos predecir la calidad del aire en función de la concentración de varios contaminantes: dióxido de nitrógeno (NO2), partículas en suspensión (PM10) y ozono (O3).

In [None]:
from sklearn.ensemble import RandomForestRegressor


In [None]:
n = 1000

# Generar datos aleatorios
NO2 = np.random.uniform(10, 100, n) # Concentración de NO2 (µg/m³)
PM10 = np.random.uniform(20, 150, n) # Concentración de PM10 (µg/m³)
O3 = np.random.uniform(30, 120, n) # Concentración de O3 (µg/m³)

# Calcular la calidad del aire en función de los contaminantes
Calidad_Aire = 100 - 0.5 * NO2 - 0.3 * PM10 - 0.2 * O3 + np.random.normal(0, 10, n)

# Crear el DataFrame
datos = pd.DataFrame({
    'NO2': NO2,
    'PM10': PM10,
    'O3': O3,
    'Calidad_Aire': Calidad_Aire
})
print(datos.head())

         NO2        PM10          O3  Calidad_Aire
0  83.711949  144.060599   54.051146     -7.708307
1  20.639109   25.255984  114.530283     52.030457
2  57.480286   60.348361   47.378965     32.563729
3  99.843516   34.605508   45.327972     46.132974
4  34.182923  135.163244   97.521196     38.569230


In [None]:
# División de datos en entrenamiento y prueba
X = datos[['NO2', 'PM10', 'O3']]
y = datos['Calidad_Aire']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Entrenamiento del modelo
modelo = RandomForestRegressor(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

In [None]:
# Evaluación del modelo
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R-cuadrado):", r2)

Error cuadrático medio (MSE): 109.75935501400959
Coeficiente de determinación (R-cuadrado): 0.7445810652399258


In [None]:
# Hacer predicciones
nueva_no2 = 60
nueva_pm10 = 90
nuevo_o3 = 75
nueva_muestra = pd.DataFrame({
    'NO2': [nueva_no2],
    'PM10': [nueva_pm10],
    'O3': [nuevo_o3]
})
calidad_aire_predicha = modelo.predict(nueva_muestra)
print("Calidad del aire predicha:", calidad_aire_predicha[0])

Calidad del aire predicha: 27.834827152359836
