**REGRESIÓN LINEAL MÚLTIPLE**

La regresión lineal múltiple es una técnica estadística utilizada para modelar la relación entre una variable dependiente (también conocida como variable de respuesta) y dos o más variables independientes (también conocidas como variables predictoras o explicativas). A continuación, se presenta una explicación básica del concepto, la fórmula y un ejemplo de cómo implementarla.

Supongamos que queremos predecir el precio de una casa en función de su tamaño en pies cuadrados, el número de habitaciones y el número de baños. Para ello, usaremos una regresión lineal múltiple. Para comenzar, necesitamos importar las bibliotecas necesarias y cargar los datos en un DataFrame de Pandas:

In [5]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
# Crear datos de ejemplo
datos = {
    'Habitaciones': [3, 4, 2, 5, 4, 1, 2, 3, 4, 5, 6, 1, 3, 2, 4, 6, 5, 2, 1, 3, 4, 5, 6, 3, 2, 1, 4, 5, 6, 4, 3, 2, 1, 5, 6],
    'Tamaño_terreno': [200,200,100,150, 200, 120, 250, 180, 81, 115, 282, 153, 269, 191, 299, 172, 206, 276, 145, 235, 252, 223, 214, 244, 102, 289, 187, 161, 292, 132, 128, 228, 230, 154, 267],
    'Baños': [4,6,1, 2, 1, 3, 2, 1, 3, 2, 4, 2, 1, 4, 3, 1, 2, 3, 4, 4, 2, 1, 3, 2, 4, 1, 3, 4, 2, 1, 4, 3, 2, 3, 1],
    'Precio_casa': [371114, 372234,400000, 250000, 500000,30000,30000, 400000, 250000, 500000, 350000, 100110, 142781, 253122, 282349, 313015, 330340, 336310, 348989, 371114, 372234, 386310, 394498, 412345, 422345, 431114, 448989, 451114, 452234, 466310, 471114, 472234, 486310, 494498, 500000]
}
for clave,valor in datos.items():
 print(clave," ",len(valor))

Habitaciones   35
Tamaño_terreno   35
Baños   35
Precio_casa   35


In [6]:
# Convertir el diccionario a un DataFrame de pandas
df = pd.DataFrame(datos)
# Guardar los datos en un archivo CSV
df.to_csv('casas.csv', index=False)
# cargar los datos
datos = pd.read_csv('casas.csv')
datos.head()

Unnamed: 0,Habitaciones,Tamaño_terreno,Baños,Precio_casa
0,3,200,4,371114
1,4,200,6,372234
2,2,100,1,400000
3,5,150,2,250000
4,4,200,1,500000


In [7]:
# separar las variables independientes y la variable dependiente
X = datos.iloc[:, :-1].values
y = datos.iloc[:, 3].values

In [8]:
X

array([[  3, 200,   4],
       [  4, 200,   6],
       [  2, 100,   1],
       [  5, 150,   2],
       [  4, 200,   1],
       [  1, 120,   3],
       [  2, 250,   2],
       [  3, 180,   1],
       [  4,  81,   3],
       [  5, 115,   2],
       [  6, 282,   4],
       [  1, 153,   2],
       [  3, 269,   1],
       [  2, 191,   4],
       [  4, 299,   3],
       [  6, 172,   1],
       [  5, 206,   2],
       [  2, 276,   3],
       [  1, 145,   4],
       [  3, 235,   4],
       [  4, 252,   2],
       [  5, 223,   1],
       [  6, 214,   3],
       [  3, 244,   2],
       [  2, 102,   4],
       [  1, 289,   1],
       [  4, 187,   3],
       [  5, 161,   4],
       [  6, 292,   2],
       [  4, 132,   1],
       [  3, 128,   4],
       [  2, 228,   3],
       [  1, 230,   2],
       [  5, 154,   3],
       [  6, 267,   1]])

In [9]:
y

array([371114, 372234, 400000, 250000, 500000,  30000,  30000, 400000,
       250000, 500000, 350000, 100110, 142781, 253122, 282349, 313015,
       330340, 336310, 348989, 371114, 372234, 386310, 394498, 412345,
       422345, 431114, 448989, 451114, 452234, 466310, 471114, 472234,
       486310, 494498, 500000])

A continuación, ajustamos el modelo de regresión lineal múltiple utilizando la

*   Elemento de la lista
*   Elemento de la lista

clase LinearRegression de Scikit-learn:

In [10]:
# ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)

Podemos ver los coeficientes de regresión y la intersección mediante los siguientes comandos:

In [11]:
# imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)

Coeficientes: [25820.1001857    -54.33090723  1022.45493071]
Intersección: 277217.3252207076


Esto indica que el modelo de regresión lineal múltiple se ajustó a la ecuación:

Por lo tanto, para predecir el precio de una casa con un tamaño de 600 pies cuadrados, 3 habitaciones y 2 baños, podemos hacer lo siguiente:

In [12]:
# hacer una predicción
prediccion = regressor.predict([[3, 600, 2]])
print('Precio de la casa:', prediccion)

Precio de la casa: [324123.99129976]


Por lo tanto, el modelo predice que el precio de la casa sería de $300000 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

**EJERCICIOS A DESARROLLAR**


***Ejemplo 1: Predicción del Precio de Autos***
Supongamos que queremos predecir el precio de autos en función de varias características como el año de fabricación, el kilometraje y la potencia del motor.

In [14]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Crear datos de ejemplo
datos1 = {
    'año_fabricacion': [2010, 2012, 2014, 2016, 2018, 2020, 2011, 2013, 2015, 2017, 2019, 2021, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2010, 2012, 2014, 2016, 2018, 2020, 2011, 2013, 2015, 2017, 2019],
    'kilometraje': [150000, 140000, 130000, 120000, 110000, 100000, 145000, 135000, 125000, 115000, 105000, 95000, 155000, 145000, 135000, 125000, 115000, 105000, 95000, 85000, 75000, 65000, 55000, 45000, 35000, 25000, 15000, 5000, 10000, 20000, 30000, 40000, 60000, 70000, 80000],
    'potencia_motor': [120, 150, 130, 160, 140, 170, 125, 155, 135, 165, 145, 175, 130, 120, 140, 160, 180, 200, 220, 240, 260, 280, 300, 320, 340, 360, 380, 400, 420, 440, 460, 480, 500, 520, 540],
    'precio': [20000, 22000, 24000, 26000, 28000, 30000, 21000, 23000, 25000, 27000, 29000, 31000, 22000, 21000, 23000, 25000, 27000, 29000, 31000, 33000, 35000, 37000, 39000, 41000, 43000, 45000, 47000, 49000, 51000, 53000, 55000, 57000, 59000, 61000, 63000]
}

# Verificar la longitud de cada lista
for clave, valor in datos1.items():
    print(clave, " ", len(valor))


año_fabricacion   35
kilometraje   35
potencia_motor   35
precio   35


In [15]:
# Convertir el diccionario a un DataFrame de pandas
df = pd.DataFrame(datos1)
# Guardar los datos en un archivo CSV
df.to_csv('carros.csv', index=False)
# cargar los datos
datos1 = pd.read_csv('carros.csv')
datos1.head()

Unnamed: 0,año_fabricacion,kilometraje,potencia_motor,precio
0,2010,150000,120,20000
1,2012,140000,150,22000
2,2014,130000,130,24000
3,2016,120000,160,26000
4,2018,110000,140,28000


In [17]:
# separar las variables independientes y la variable dependiente
X = datos1.iloc[:, :-1].values
y = datos1.iloc[:, 3].values

In [18]:
X

array([[  2010, 150000,    120],
       [  2012, 140000,    150],
       [  2014, 130000,    130],
       [  2016, 120000,    160],
       [  2018, 110000,    140],
       [  2020, 100000,    170],
       [  2011, 145000,    125],
       [  2013, 135000,    155],
       [  2015, 125000,    135],
       [  2017, 115000,    165],
       [  2019, 105000,    145],
       [  2021,  95000,    175],
       [  2010, 155000,    130],
       [  2011, 145000,    120],
       [  2012, 135000,    140],
       [  2013, 125000,    160],
       [  2014, 115000,    180],
       [  2015, 105000,    200],
       [  2016,  95000,    220],
       [  2017,  85000,    240],
       [  2018,  75000,    260],
       [  2019,  65000,    280],
       [  2020,  55000,    300],
       [  2021,  45000,    320],
       [  2010,  35000,    340],
       [  2012,  25000,    360],
       [  2014,  15000,    380],
       [  2016,   5000,    400],
       [  2018,  10000,    420],
       [  2020,  20000,    440],
       [  

In [19]:
y

array([20000, 22000, 24000, 26000, 28000, 30000, 21000, 23000, 25000,
       27000, 29000, 31000, 22000, 21000, 23000, 25000, 27000, 29000,
       31000, 33000, 35000, 37000, 39000, 41000, 43000, 45000, 47000,
       49000, 51000, 53000, 55000, 57000, 59000, 61000, 63000])

In [20]:
# ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)

In [21]:
# imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)

Coeficientes: [ 2.68890741e+02 -5.25318007e-03  9.36111309e+01]
Intersección: -530175.6970892085


In [23]:
# Hacer una predicción específica
prediccion = regressor.predict([[2015, 80000, 150]])
print('Precio del auto:', prediccion)


Precio del auto: [25260.56045543]


Por lo tanto, el modelo predice que el precio del carro sería de $25260 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

***Ejemplo 2: Predicción de Salarios***

Queremos predecir el salario de empleados en función de sus años de experiencia, nivel de educación y número de proyectos completados.


In [25]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Crear datos de ejemplo
datos2 = {
    'años_experiencia': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15],
    'nivel_educacion': [1, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8],
    'proyectos_completados': [1, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9],
    'salario': [30000, 35000, 40000, 45000, 50000, 55000, 60000, 65000, 70000, 75000, 80000, 85000, 90000, 95000, 100000]
}

# Verificar la longitud de cada lista
for clave, valor in datos2.items():
    print(clave, " ", len(valor))


años_experiencia   15
nivel_educacion   15
proyectos_completados   15
salario   15


In [26]:
# Convertir el diccionario a un DataFrame de pandas
df = pd.DataFrame(datos2)

# Guardar los datos en un archivo CSV
df.to_csv('salarios.csv', index=False)

# Cargar los datos
datos2 = pd.read_csv('salarios.csv')
datos2.head()

Unnamed: 0,años_experiencia,nivel_educacion,proyectos_completados,salario
0,1,1,1,30000
1,2,2,2,35000
2,3,2,3,40000
3,4,3,3,45000
4,5,3,4,50000


In [27]:
# Separar las variables independientes y la variable dependiente
X = datos2.iloc[:, :-1].values
y = datos2.iloc[:, 3].values

In [29]:
X

array([[ 1,  1,  1],
       [ 2,  2,  2],
       [ 3,  2,  3],
       [ 4,  3,  3],
       [ 5,  3,  4],
       [ 6,  4,  4],
       [ 7,  4,  5],
       [ 8,  5,  5],
       [ 9,  5,  6],
       [10,  6,  6],
       [11,  6,  7],
       [12,  7,  7],
       [13,  7,  8],
       [14,  8,  8],
       [15,  8,  9]])

In [30]:
y

array([ 30000,  35000,  40000,  45000,  50000,  55000,  60000,  65000,
        70000,  75000,  80000,  85000,  90000,  95000, 100000])

In [31]:
# Ajustar el modelo
regressor = LinearRegression()
regressor.fit(X,y)


In [32]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)


Coeficientes: [ 5.00000000e+03 -1.77481021e-11 -1.81950555e-11]
Intersección: 25000.00000000005


In [33]:
# Hacer una predicción específica
prediccion = regressor.predict([[5, 3, 4]])
print('Salario del empleado:', prediccion[0])

Salario del empleado: 50000.0


Por lo tanto, el modelo predice que el Salario del empleado seria 50000 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

***Ejemplo 3: Predicción de Rendimiento Académico***

Queremos predecir el rendimiento académico de los estudiantes en función de las horas de estudio, asistencia a clases y participación en actividades extracurriculares.

In [34]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Crear datos de ejemplo
datos3 = {
    'horas_estudio': [10, 20, 15, 30, 25, 5, 12, 22, 8, 18, 28, 35, 14, 26, 16, 24, 20, 10, 30, 15, 25, 35, 8, 18, 28, 22, 10, 20, 15, 30, 25, 5, 12, 22, 8],
    'asistencia_clases': [85, 90, 78, 95, 88, 70, 82, 91, 75, 89, 93, 96, 84, 92, 79, 87, 85, 75, 95, 80, 88, 96, 77, 89, 94, 91, 83, 90, 78, 95, 88, 70, 82, 91, 75],
    'participacion_actividades': [5, 7, 6, 8, 7, 4, 5, 6, 4, 7, 8, 9, 6, 7, 5, 8, 7, 4, 8, 6, 7, 9, 5, 6, 8, 7, 5, 7, 6, 8, 7, 4, 5, 6, 4],
    'rendimiento_academico': [75, 80, 78, 90, 85, 70, 76, 82, 72, 84, 88, 92, 77, 86, 80, 84, 83, 73, 90, 78, 85, 92, 75, 82, 89, 81, 74, 80, 78, 90, 85, 70, 76, 82, 72]
}

# Verificar la longitud de cada lista
for clave, valor in datos3.items():
    print(clave, " ", len(valor))


horas_estudio   35
asistencia_clases   35
participacion_actividades   35
rendimiento_academico   35


In [35]:
# Convertir el diccionario a un DataFrame de pandas
df = pd.DataFrame(datos3)

# Guardar los datos en un archivo CSV
df.to_csv('rendimiento_academico.csv', index=False)

# Cargar los datos
datos3 = pd.read_csv('rendimiento_academico.csv')
datos3.head()

Unnamed: 0,horas_estudio,asistencia_clases,participacion_actividades,rendimiento_academico
0,10,85,5,75
1,20,90,7,80
2,15,78,6,78
3,30,95,8,90
4,25,88,7,85


In [36]:
# Separar las variables independientes y la variable dependiente
X = datos3.iloc[:, :-1].values
y = datos3.iloc[:, 3].values

In [37]:
X

array([[10, 85,  5],
       [20, 90,  7],
       [15, 78,  6],
       [30, 95,  8],
       [25, 88,  7],
       [ 5, 70,  4],
       [12, 82,  5],
       [22, 91,  6],
       [ 8, 75,  4],
       [18, 89,  7],
       [28, 93,  8],
       [35, 96,  9],
       [14, 84,  6],
       [26, 92,  7],
       [16, 79,  5],
       [24, 87,  8],
       [20, 85,  7],
       [10, 75,  4],
       [30, 95,  8],
       [15, 80,  6],
       [25, 88,  7],
       [35, 96,  9],
       [ 8, 77,  5],
       [18, 89,  6],
       [28, 94,  8],
       [22, 91,  7],
       [10, 83,  5],
       [20, 90,  7],
       [15, 78,  6],
       [30, 95,  8],
       [25, 88,  7],
       [ 5, 70,  4],
       [12, 82,  5],
       [22, 91,  6],
       [ 8, 75,  4]])

In [38]:
y

array([75, 80, 78, 90, 85, 70, 76, 82, 72, 84, 88, 92, 77, 86, 80, 84, 83,
       73, 90, 78, 85, 92, 75, 82, 89, 81, 74, 80, 78, 90, 85, 70, 76, 82,
       72])

In [39]:
# Ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)


In [40]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)


Coeficientes: [0.59861229 0.04135584 0.65253832]
Intersección: 61.92031858130211


In [41]:
# Hacer una predicción específica
prediccion = regressor.predict([[20, 85, 5]])
print('Rendimiento académico del estudiante:', prediccion[0])

Rendimiento académico del estudiante: 80.67050235918964


Por lo tanto, el modelo predice que el Rendimiento académico del estudiante seria 80 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

***Ejemplo 4: Predicción del Consumo de Energía***

Queremos predecir el consumo de energía de una vivienda en función de la temperatura, la humedad y el número de habitantes.

In [42]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Crear datos de ejemplo
datos4 = {
    'temperatura': [20, 25, 18, 30, 22, 27, 24, 19, 28, 26, 23, 21, 29, 25, 20, 26, 22, 18, 27, 24],
    'humedad': [50, 45, 60, 55, 48, 52, 58, 53, 49, 47, 51, 56, 54, 46, 59, 50, 48, 57, 55, 52],
    'num_habitantes': [3, 4, 2, 5, 3, 4, 2, 3, 5, 4, 2, 3, 5, 4, 2, 4, 3, 2, 5, 4],
    'consumo_energia': [300, 320, 280, 350, 310, 330, 315, 290, 340, 325, 295, 305, 345, 335, 285, 330, 312, 278, 335, 320]
}

# Verificar la longitud de cada lista
for clave, valor in datos4.items():
    print(clave, " ", len(valor))

temperatura   20
humedad   20
num_habitantes   20
consumo_energia   20


In [43]:

# Convertir el diccionario a un DataFrame de pandas
df = pd.DataFrame(datos4)

# Guardar los datos en un archivo CSV
df.to_csv('consumo_energia.csv', index=False)

# Cargar los datos
datos4 = pd.read_csv('consumo_energia.csv')
datos4.head()


Unnamed: 0,temperatura,humedad,num_habitantes,consumo_energia
0,20,50,3,300
1,25,45,4,320
2,18,60,2,280
3,30,55,5,350
4,22,48,3,310


In [44]:
# Separar las variables independientes y la variable dependiente
X = datos4.iloc[:, :-1].values
y = datos4.iloc[:, 3].values

In [45]:
X

array([[20, 50,  3],
       [25, 45,  4],
       [18, 60,  2],
       [30, 55,  5],
       [22, 48,  3],
       [27, 52,  4],
       [24, 58,  2],
       [19, 53,  3],
       [28, 49,  5],
       [26, 47,  4],
       [23, 51,  2],
       [21, 56,  3],
       [29, 54,  5],
       [25, 46,  4],
       [20, 59,  2],
       [26, 50,  4],
       [22, 48,  3],
       [18, 57,  2],
       [27, 55,  5],
       [24, 52,  4]])

In [46]:
y

array([300, 320, 280, 350, 310, 330, 315, 290, 340, 325, 295, 305, 345,
       335, 285, 330, 312, 278, 335, 320])

In [47]:
# Ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)

In [48]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)


Coeficientes: [ 4.1832993  -0.3261787   5.62921039]
Intersección: 213.47786769771164


In [49]:
# Hacer una predicción específica
prediccion = regressor.predict([[28, 55, 4]])
print('Consumo de energía estimado:', prediccion[0])

Consumo de energía estimado: 335.1872612967089


Por lo tanto, el modelo predice que el Consumo de energía estimado es 335 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

***Ejemplo 5: Predicción de Ventas de Tienda***

Queremos predecir las ventas de una tienda en función del gasto en publicidad en televisión, radio y prensa.

In [50]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Crear datos de ejemplo
datos5 = {
    'gasto_tv': [230, 120, 310, 190, 280, 220, 330, 190, 270, 310, 210, 330, 250, 290, 280, 330, 220, 310, 270, 290],
    'gasto_radio': [60, 40, 80, 50, 70, 65, 85, 50, 75, 80, 55, 90, 70, 60, 80, 95, 65, 85, 75, 70],
    'gasto_prensa': [90, 75, 110, 85, 100, 95, 115, 80, 105, 110, 90, 120, 100, 95, 110, 125, 85, 115, 100, 95],
    'ventas': [450, 300, 600, 400, 550, 430, 620, 390, 580, 610, 420, 640, 520, 600, 590, 630, 450, 590, 560, 580]
}

# Verificar la longitud de cada lista
for clave, valor in datos5.items():
    print(clave, " ", len(valor))


gasto_tv   20
gasto_radio   20
gasto_prensa   20
ventas   20


In [51]:
# Convertir el diccionario a un DataFrame de pandas
df = pd.DataFrame(datos5)

# Guardar los datos en un archivo CSV
df.to_csv('ventas_tienda.csv', index=False)

# Cargar los datos
datos5 = pd.read_csv('ventas_tienda.csv')
datos5.head()


Unnamed: 0,gasto_tv,gasto_radio,gasto_prensa,ventas
0,230,60,90,450
1,120,40,75,300
2,310,80,110,600
3,190,50,85,400
4,280,70,100,550


In [52]:
# Separar las variables independientes y la variable dependiente
X = datos5[['gasto_tv', 'gasto_radio', 'gasto_prensa']].values
y = datos5['ventas'].values


In [56]:
X

array([[230,  60,  90],
       [120,  40,  75],
       [310,  80, 110],
       [190,  50,  85],
       [280,  70, 100],
       [220,  65,  95],
       [330,  85, 115],
       [190,  50,  80],
       [270,  75, 105],
       [310,  80, 110],
       [210,  55,  90],
       [330,  90, 120],
       [250,  70, 100],
       [290,  60,  95],
       [280,  80, 110],
       [330,  95, 125],
       [220,  65,  85],
       [310,  85, 115],
       [270,  75, 100],
       [290,  70,  95]])

In [57]:
y

array([450, 300, 600, 400, 550, 430, 620, 390, 580, 610, 420, 640, 520,
       600, 590, 630, 450, 590, 560, 580])

In [53]:
# Ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)


In [54]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)


Coeficientes: [ 1.74764705 -0.16336683 -0.03086307]
Intersección: 83.01228127977203


In [55]:
# Hacer una predicción específica
prediccion = regressor.predict([[300, 50, 80]])
print('Ventas estimadas:', prediccion[0])


Ventas estimadas: 596.6690092040621


Por lo tanto, el modelo predice que las Ventas estimadas son de $5960 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

***Ejemplo 6: Predicción del Precio de Productos Agrícolas***

Queremos predecir el precio de productos agrícolas en función de la cantidad producida, la demanda y el costo de producción.

In [58]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Crear datos de ejemplo
datos6 = {
    'cantidad_producida': [1000, 1200, 800, 1500, 1100, 1300, 1000, 1400, 900, 1600, 1200, 1100, 1300, 1000, 1400, 900, 1600, 1200, 1100, 1300],
    'demanda': [500, 600, 400, 700, 550, 650, 500, 750, 450, 800, 600, 550, 700, 500, 750, 450, 800, 600, 550, 700],
    'costo_produccion': [300, 350, 280, 400, 320, 360, 310, 380, 290, 420, 330, 320, 370, 300, 370, 290, 420, 330, 320, 370],
    'precio_producto': [700, 800, 600, 900, 750, 850, 700, 950, 650, 1000, 800, 750, 850, 700, 950, 650, 1000, 800, 750, 850]
}

# Verificar la longitud de cada lista
for clave, valor in datos6.items():
    print(clave, " ", len(valor))

cantidad_producida   20
demanda   20
costo_produccion   20
precio_producto   20


In [59]:
# Convertir el diccionario a un DataFrame de pandas
df = pd.DataFrame(datos6)

# Guardar los datos en un archivo CSV
df.to_csv('precio_productos_agricolas.csv', index=False)

# Cargar los datos
datos6 = pd.read_csv('precio_productos_agricolas.csv')
datos6.head()


Unnamed: 0,cantidad_producida,demanda,costo_produccion,precio_producto
0,1000,500,300,700
1,1200,600,350,800
2,800,400,280,600
3,1500,700,400,900
4,1100,550,320,750


In [60]:
# Separar las variables independientes y la variable dependiente
X = datos6[['cantidad_producida', 'demanda', 'costo_produccion']].values
y = datos6['precio_producto'].values


In [61]:
X

array([[1000,  500,  300],
       [1200,  600,  350],
       [ 800,  400,  280],
       [1500,  700,  400],
       [1100,  550,  320],
       [1300,  650,  360],
       [1000,  500,  310],
       [1400,  750,  380],
       [ 900,  450,  290],
       [1600,  800,  420],
       [1200,  600,  330],
       [1100,  550,  320],
       [1300,  700,  370],
       [1000,  500,  300],
       [1400,  750,  370],
       [ 900,  450,  290],
       [1600,  800,  420],
       [1200,  600,  330],
       [1100,  550,  320],
       [1300,  700,  370]])

In [62]:
y

array([ 700,  800,  600,  900,  750,  850,  700,  950,  650, 1000,  800,
        750,  850,  700,  950,  650, 1000,  800,  750,  850])

In [63]:
# Ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)


In [64]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)


Coeficientes: [ 0.32073823  0.66109716 -0.84816716]
Intersección: 306.40311601325027


In [65]:
# Hacer una predicción específica
prediccion = regressor.predict([[1100, 600, 320]])
print('Precio estimado del producto agrícola:', prediccion[0])

Precio estimado del producto agrícola: 784.4599759746643


Por lo tanto, el modelo predice que el Precio estimado del producto agrícola es 784 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

***Ejemplo 7: Predicción del Peso Corporal***

Queremos predecir el peso corporal de una persona en función de su altura, edad y nivel de actividad física.

In [66]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

# Crear datos de ejemplo
datos7 = {
    'altura': [1.65, 1.75, 1.80, 1.70, 1.68, 1.72, 1.78, 1.69, 1.73, 1.76, 1.79, 1.71, 1.67, 1.74, 1.77, 1.81, 1.66, 1.82, 1.75, 1.70, 1.68, 1.72, 1.78, 1.69, 1.73, 1.76, 1.79, 1.71, 1.67, 1.74, 1.77, 1.81, 1.66, 1.82],
    'edad': [25, 30, 28, 32, 27, 29, 31, 26, 33, 29, 31, 28, 27, 30, 32, 34, 26, 35, 30, 28, 27, 29, 31, 26, 33, 29, 31, 28, 27, 30, 32, 34, 26, 35],
    'nivel_actividad': [1.5, 1.7, 1.6, 1.8, 1.7, 1.6, 1.8, 1.5, 1.7, 1.6, 1.8, 1.7, 1.6, 1.8, 1.5, 1.7, 1.6, 1.8, 1.7, 1.6, 1.8, 1.5, 1.7, 1.6, 1.8, 1.7, 1.6, 1.8, 1.5, 1.7, 1.6, 1.8, 1.7, 1.6],
    'peso': [65, 70, 72, 68, 66, 69, 71, 67, 73, 70, 74, 68, 66, 70, 72, 75, 65, 76, 70, 68, 66, 69, 71, 67, 73, 70, 74, 68, 66, 70, 72, 75, 65, 76]
}

# Verificar la longitud de cada lista
for clave, valor in datos7.items():
    print(clave, " ", len(valor))



altura   34
edad   34
nivel_actividad   34
peso   34


In [67]:
# Convertir el diccionario a un DataFrame de pandas
df = pd.DataFrame(datos7)

# Guardar los datos en un archivo CSV
df.to_csv('peso_corporal.csv', index=False)

# Cargar los datos
datos7 = pd.read_csv('peso_corporal.csv')
datos7.head()


Unnamed: 0,altura,edad,nivel_actividad,peso
0,1.65,25,1.5,65
1,1.75,30,1.7,70
2,1.8,28,1.6,72
3,1.7,32,1.8,68
4,1.68,27,1.7,66


In [68]:

# Separar las variables independientes y la variable dependiente
X = datos7[['altura', 'edad', 'nivel_actividad']].values
y = datos7['peso'].values


In [69]:
X

array([[ 1.65, 25.  ,  1.5 ],
       [ 1.75, 30.  ,  1.7 ],
       [ 1.8 , 28.  ,  1.6 ],
       [ 1.7 , 32.  ,  1.8 ],
       [ 1.68, 27.  ,  1.7 ],
       [ 1.72, 29.  ,  1.6 ],
       [ 1.78, 31.  ,  1.8 ],
       [ 1.69, 26.  ,  1.5 ],
       [ 1.73, 33.  ,  1.7 ],
       [ 1.76, 29.  ,  1.6 ],
       [ 1.79, 31.  ,  1.8 ],
       [ 1.71, 28.  ,  1.7 ],
       [ 1.67, 27.  ,  1.6 ],
       [ 1.74, 30.  ,  1.8 ],
       [ 1.77, 32.  ,  1.5 ],
       [ 1.81, 34.  ,  1.7 ],
       [ 1.66, 26.  ,  1.6 ],
       [ 1.82, 35.  ,  1.8 ],
       [ 1.75, 30.  ,  1.7 ],
       [ 1.7 , 28.  ,  1.6 ],
       [ 1.68, 27.  ,  1.8 ],
       [ 1.72, 29.  ,  1.5 ],
       [ 1.78, 31.  ,  1.7 ],
       [ 1.69, 26.  ,  1.6 ],
       [ 1.73, 33.  ,  1.8 ],
       [ 1.76, 29.  ,  1.7 ],
       [ 1.79, 31.  ,  1.6 ],
       [ 1.71, 28.  ,  1.8 ],
       [ 1.67, 27.  ,  1.5 ],
       [ 1.74, 30.  ,  1.7 ],
       [ 1.77, 32.  ,  1.6 ],
       [ 1.81, 34.  ,  1.8 ],
       [ 1.66, 26.  ,  1.7 ],
       [ 1

In [70]:
y

array([65, 70, 72, 68, 66, 69, 71, 67, 73, 70, 74, 68, 66, 70, 72, 75, 65,
       76, 70, 68, 66, 69, 71, 67, 73, 70, 74, 68, 66, 70, 72, 75, 65, 76])

In [71]:
# Ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)

In [72]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)


Coeficientes: [37.39641726  0.54887953 -1.60871462]
Intersección: -8.599056092844961


In [73]:
# Hacer una predicción específica
prediccion = regressor.predict([[1.75, 30, 1.5]])
print('Peso estimado:', prediccion[0])

Peso estimado: 70.89798801705442


Por lo tanto, el modelo predice que el Peso estimado es 70 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

***Ejemplo 8: Predicción de la Productividad Laboral***

Queremos predecir la productividad laboral de los empleados en función de las horas de trabajo, la capacitación y el entorno de trabajo.

In [74]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Crear datos de ejemplo para Ejemplo 8
datos8 = {
    'horas_trabajo': [8, 7, 6, 7, 8, 9, 6, 8, 7, 8, 9, 7, 6, 8, 9, 6, 7, 8, 9, 7],
    'capacitacion': [2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3, 2, 3],
    'entorno_trabajo': [7, 8, 7, 8, 7, 8, 7, 8, 7, 8, 7, 8, 7, 8, 7, 8, 7, 8, 7, 8],
    'productividad': [80, 85, 78, 82, 79, 86, 77, 81, 80, 84, 87, 82, 76, 79, 88, 79, 83, 81, 85, 78]
}

# Imprimir la longitud de cada columna en los datos
for clave, valor in datos8.items():
    print(clave, " ", len(valor))


horas_trabajo   20
capacitacion   20
entorno_trabajo   20
productividad   20


In [75]:

# Convertir el diccionario a un DataFrame de pandas
df8 = pd.DataFrame(datos8)

# Guardar los datos en un archivo CSV
df8.to_csv('productividad_laboral.csv', index=False)

# Cargar los datos
datos8 = pd.read_csv('productividad_laboral.csv')
datos8.head()


Unnamed: 0,horas_trabajo,capacitacion,entorno_trabajo,productividad
0,8,2,7,80
1,7,3,8,85
2,6,2,7,78
3,7,3,8,82
4,8,2,7,79


In [76]:
# Separar las variables independientes y la variable dependiente
X = datos8[['horas_trabajo', 'capacitacion', 'entorno_trabajo']].values
y = datos8['productividad'].values


In [77]:
X

array([[8, 2, 7],
       [7, 3, 8],
       [6, 2, 7],
       [7, 3, 8],
       [8, 2, 7],
       [9, 3, 8],
       [6, 2, 7],
       [8, 3, 8],
       [7, 2, 7],
       [8, 3, 8],
       [9, 2, 7],
       [7, 3, 8],
       [6, 2, 7],
       [8, 3, 8],
       [9, 2, 7],
       [6, 3, 8],
       [7, 2, 7],
       [8, 3, 8],
       [9, 2, 7],
       [7, 3, 8]])

In [78]:
y

array([80, 85, 78, 82, 79, 86, 77, 81, 80, 84, 87, 82, 76, 79, 88, 79, 83,
       81, 85, 78])

In [79]:
# Ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)

In [80]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)


Coeficientes: [2.42857143 0.2        0.2       ]
Intersección: 61.285714285714285


In [81]:
# Hacer una predicción específica
prediccion_productividad = regressor.predict([[8, 2, 7]])
print('Productividad estimada:', prediccion_productividad[0])


Productividad estimada: 82.5142857142857


Por lo tanto, el modelo predice que la Productividad estimada es 82 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

***Ejemplo 9: Predicción del Precio de Alquiler***

Queremos predecir el precio de alquiler de apartamentos en función de la superficie, el número de habitaciones y la ubicación.

In [82]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Crear datos de ejemplo para Ejemplo 9
datos9 = {
    'superficie': [80, 100, 120, 85, 95, 110, 90, 115, 105, 100, 95, 110, 85, 120, 100],
    'num_habitaciones': [2, 3, 3, 2, 2, 3, 2, 3, 3, 2, 2, 3, 2, 3, 3],
    'ubicacion': ['Centro', 'Centro', 'Periferia', 'Centro', 'Periferia', 'Centro', 'Periferia', 'Centro', 'Centro', 'Periferia', 'Centro', 'Periferia', 'Centro', 'Periferia', 'Centro'],
    'precio_alquiler': [1200, 1500, 1000, 1300, 1100, 1400, 1050, 1350, 1250, 1450, 1150, 1550, 1250, 950, 1600]
}

# Imprimir la longitud de cada columna en los datos
for clave, valor in datos9.items():
    print(clave, " ", len(valor))


superficie   15
num_habitaciones   15
ubicacion   15
precio_alquiler   15


In [83]:

# Convertir el diccionario a un DataFrame de pandas
df9 = pd.DataFrame(datos9)

# Guardar los datos en un archivo CSV
df9.to_csv('precio_alquiler.csv', index=False)

# Cargar los datos
datos9 = pd.read_csv('precio_alquiler.csv')
datos9.head()



Unnamed: 0,superficie,num_habitaciones,ubicacion,precio_alquiler
0,80,2,Centro,1200
1,100,3,Centro,1500
2,120,3,Periferia,1000
3,85,2,Centro,1300
4,95,2,Periferia,1100


In [84]:
# Codificar la variable categórica 'ubicacion' usando one-hot encoding
datos9 = pd.get_dummies(datos9, columns=['ubicacion'], drop_first=True)



In [85]:
# Separar las variables independientes y la variable dependiente
X = datos9[['superficie', 'num_habitaciones', 'ubicacion_Periferia']].values
y = datos9['precio_alquiler'].values


In [86]:
X

array([[80, 2, False],
       [100, 3, False],
       [120, 3, True],
       [85, 2, False],
       [95, 2, True],
       [110, 3, False],
       [90, 2, True],
       [115, 3, False],
       [105, 3, False],
       [100, 2, True],
       [95, 2, False],
       [110, 3, True],
       [85, 2, False],
       [120, 3, True],
       [100, 3, False]], dtype=object)

In [87]:
y

array([1200, 1500, 1000, 1300, 1100, 1400, 1050, 1350, 1250, 1450, 1150,
       1550, 1250,  950, 1600])

In [88]:
# Ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)



In [89]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)



Coeficientes: [-12.11199026 351.55203895 -26.17163725]
Intersección: 1612.477175897748


In [90]:
# Hacer una predicción específica
prediccion_alquiler = regressor.predict([[95, 2, 1]])
print('Precio de alquiler estimado:', prediccion_alquiler[0])


Precio de alquiler estimado: 1138.770541692027


Por lo tanto, el modelo predice que el Precio de alquiler estimado es 1138 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.

***Ejemplo 10: Predicción de la Calidad del Aire***

Queremos predecir la calidad del aire en función de la concentración de varios contaminantes: dióxido de nitrógeno (NO2), partículas en suspensión (PM10) y ozono (O3).

In [94]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# Crear datos de ejemplo para Ejemplo 10
datos10 = {
    'NO2': [27, 18, 21, 29, 25, 17, 19, 22, 30, 26, 28, 24, 23, 20, 15, 16, 30, 18, 19, 28,20, 25, 30, 18, 22, 27, 21, 24, 29, 19, 23, 26, 20, 28, 25],
    'PM10': [59, 62, 47, 58, 71, 55, 52, 65, 73, 46, 67, 69, 61, 72, 49, 70, 50, 54, 56, 48,50, 60, 70, 45, 55, 65, 48, 58, 68, 47, 57, 67, 52, 62, 72],
    'O3': [19, 18, 13, 16, 17, 21, 15, 20, 14, 22, 13, 17, 14, 18, 15, 22, 16, 19, 20, 13,15, 18, 20, 14, 16, 19, 15, 17, 21, 13, 17, 20, 14, 19, 22],
    'calidad_aire': ['Buena', 'Moderada', 'Regular', 'Buena', 'Moderada', 'Regular', 'Buena', 'Moderada', 'Regular', 'Buena', 'Moderada', 'Regular', 'Buena', 'Moderada', 'Regular', 'Regular', 'Buena', 'Moderada', 'Regular', 'Buena', 'Moderada', 'Regular', 'Buena', 'Moderada', 'Regular', 'Buena', 'Moderada', 'Regular', 'Buena', 'Moderada', 'Regular', 'Buena', 'Moderada', 'Regular', 'Buena']
}

# Imprimir la longitud de cada columna en los datos
for clave, valor in datos10.items():
    print(clave, " ", len(valor))


NO2   35
PM10   35
O3   35
calidad_aire   35


In [95]:
# Convertir el diccionario a un DataFrame de pandas
df10 = pd.DataFrame(datos10)

# Guardar los datos en un archivo CSV
df10.to_csv('calidad_aire.csv', index=False)

# Cargar los datos
datos10 = pd.read_csv('calidad_aire.csv')
datos10.head()



Unnamed: 0,NO2,PM10,O3,calidad_aire
0,27,59,19,Buena
1,18,62,18,Moderada
2,21,47,13,Regular
3,29,58,16,Buena
4,25,71,17,Moderada


In [96]:
# Codificar la variable categórica 'calidad_aire' usando one-hot encoding
datos10 = pd.get_dummies(datos10, columns=['calidad_aire'], drop_first=True)




In [97]:
# Separar las variables independientes y la variable dependiente
X = datos10[['NO2', 'PM10', 'O3']].values
y = datos10['calidad_aire_Moderada'].values  # Predicción de 'Moderada'


In [98]:
X

array([[27, 59, 19],
       [18, 62, 18],
       [21, 47, 13],
       [29, 58, 16],
       [25, 71, 17],
       [17, 55, 21],
       [19, 52, 15],
       [22, 65, 20],
       [30, 73, 14],
       [26, 46, 22],
       [28, 67, 13],
       [24, 69, 17],
       [23, 61, 14],
       [20, 72, 18],
       [15, 49, 15],
       [16, 70, 22],
       [30, 50, 16],
       [18, 54, 19],
       [19, 56, 20],
       [28, 48, 13],
       [20, 50, 15],
       [25, 60, 18],
       [30, 70, 20],
       [18, 45, 14],
       [22, 55, 16],
       [27, 65, 19],
       [21, 48, 15],
       [24, 58, 17],
       [29, 68, 21],
       [19, 47, 13],
       [23, 57, 17],
       [26, 67, 20],
       [20, 52, 14],
       [28, 62, 19],
       [25, 72, 22]])

In [99]:
y

array([False,  True, False, False,  True, False, False,  True, False,
       False,  True, False, False,  True, False, False, False,  True,
       False, False,  True, False, False,  True, False, False,  True,
       False, False,  True, False, False,  True, False, False])

In [100]:
# Ajustar el modelo
regressor = LinearRegression()
regressor.fit(X, y)



In [101]:
# Imprimir los coeficientes y la intersección
print('Coeficientes:', regressor.coef_)
print('Intersección:', regressor.intercept_)



Coeficientes: [-0.04536827  0.01110768 -0.05856001]
Intersección: 1.7202956865370898


In [102]:
# Hacer una predicción específica
prediccion_calidad_aire = regressor.predict([[23, 57, 17]])
print('Calidad del aire estimada (Moderada):', prediccion_calidad_aire[0])


Calidad del aire estimada (Moderada): 0.31444283025099007


Por lo tanto, el modelo predice que la Calidad del aire estimada (Moderada): 0.31444283025099007 con estas características.

Por último, podemos evaluar el modelo utilizando diferentes métricas como el error cuadrático medio (MSE) o el coeficiente de determinación (R2), como se mencionó en las practicas anteriores.