# **CARGUEMOS EL DATASET**

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Cargar el dataset de Boston
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# Convertir a DataFrame para facilitar el manejo
boston = pd.DataFrame(data, columns=[
    'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT'
])
boston['MEDV'] = target  # MEDV es la variable que nos interesa (dependiente) (precio medio de la vivienda)

print(boston.head()) # Vemos como queda el data set armado.

      CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD    TAX  \
0  0.00632  18.0   2.31   0.0  0.538  6.575  65.2  4.0900  1.0  296.0   
1  0.02731   0.0   7.07   0.0  0.469  6.421  78.9  4.9671  2.0  242.0   
2  0.02729   0.0   7.07   0.0  0.469  7.185  61.1  4.9671  2.0  242.0   
3  0.03237   0.0   2.18   0.0  0.458  6.998  45.8  6.0622  3.0  222.0   
4  0.06905   0.0   2.18   0.0  0.458  7.147  54.2  6.0622  3.0  222.0   

   PTRATIO       B  LSTAT  MEDV  
0     15.3  396.90   4.98  24.0  
1     17.8  396.90   9.14  21.6  
2     17.8  392.83   4.03  34.7  
3     18.7  394.63   2.94  33.4  
4     18.7  396.90   5.33  36.2  


# **1° CONJUNTO**

In [None]:
C1 = boston[['CRIM', 'RM', 'LSTAT']] # Elegimos el primer grupo de variables independientes.
y = boston['MEDV'] # Nuestra variable dependiente.

# Separamos el data set para su analisis en 80% - 20%
X_train, X_test, y_train, y_test = train_test_split(C1, y, test_size=0.2)

# Crear el modelo de regresión lineal
lr_multiple = LinearRegression()
lr_multiple.fit(X_train, y_train)

# Hacer predicciones
y_pred1 = lr_multiple.predict(X_test)

# Evaluar el modelo
print("Datos del modelo de regresion:")
print("Conjunto 1: CRIM, RM, LSTAT")
print('Valor de las pendinetes o coeficientes "a":', lr_multiple.coef_)
print('Valor de las pendinetes o coeficientes "b":', lr_multiple.intercept_)
print('Precision del modelo:', lr_multiple.score(X_train, y_train))

Datos del modelo de regresion:
Conjunto 1: CRIM, RM, LSTAT
Valor de las pendinetes o coeficientes "a": [-0.11213765  5.51851857 -0.54241807]
Valor de las pendinetes o coeficientes "b": -4.8096102238965805
Precision del modelo: 0.6538012089446643


# **2° CONJUNTO**

In [None]:
C2 = boston[['INDUS', 'AGE', 'DIS']] # Elegimos el primer grupo de variables independientes.
y = boston['MEDV'] # Nuestra variable dependiente.

# Separamos el data set para su analisis en 80% - 20%
X_train, X_test, y_train, y_test = train_test_split(C2, y, test_size=0.2)

# Crear el modelo de regresión lineal
lr_multiple = LinearRegression()
lr_multiple.fit(X_train, y_train)

# Hacer predicciones
y_pred1 = lr_multiple.predict(X_test)

# Evaluar el modelo
print("Datos del modelo de regresion:")
print("Conjunto 1: CRIM, RM, LSTAT")
print('Valor de las pendinetes o coeficientes "a":', lr_multiple.coef_)
print('Valor de las pendinetes o coeficientes "b":', lr_multiple.intercept_)
print('Precision del modelo:', lr_multiple.score(X_train, y_train))

Datos del modelo de regresion:
Conjunto 1: CRIM, RM, LSTAT
Valor de las pendinetes o coeficientes "a": [-0.7857802  -0.09744266 -1.69727028]
Valor de las pendinetes o coeficientes "b": 44.69901864197101
Precision del modelo: 0.3009964372001488


In [None]:
C3 = boston[['TAX', 'PTRATIO', 'B']] # Elegimos el primer grupo de variables independientes.
y = boston['MEDV'] # Nuestra variable dependiente.

# Separamos el data set para su analisis en 80% - 20%
X_train, X_test, y_train, y_test = train_test_split(C3, y, test_size=0.2)

# Crear el modelo de regresión lineal
lr_multiple = LinearRegression()
lr_multiple.fit(X_train, y_train)

# Hacer predicciones
y_pred1 = lr_multiple.predict(X_test)

# Evaluar el modelo
print("Datos del modelo de regresion:")
print("Conjunto 1: CRIM, RM, LSTAT")
print('Valor de las pendinetes o coeficientes "a":', lr_multiple.coef_)
print('Valor de las pendinetes o coeficientes "b":', lr_multiple.intercept_)
print('Precision del modelo:', lr_multiple.score(X_train, y_train))

Datos del modelo de regresion:
Conjunto 1: CRIM, RM, LSTAT
Valor de las pendinetes o coeficientes "a": [-0.0118947  -1.56252418  0.01762496]
Valor de las pendinetes o coeficientes "b": 49.93856232393021
Precision del modelo: 0.3488495890890273


# **AHORA CREAMOS UN ALGORITMOS QUE PRUEBE LAS DISTINTAS COMBINACIONES A VER COMO ENCONTRAMOS LA MEJOR.**

In [None]:
# CARGAMOS LIBRERIAS
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error
from itertools import combinations

In [None]:
# Cargar el dataset de Boston
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# Convertir a DataFrame para facilitar el manejo
BOSTON = pd.DataFrame(data, columns=[
    'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT'
])
BOSTON['MEDV'] = target  # MEDV es la variable que nos interesa (dependiente) (precio medio de la vivienda)

print(BOSTON.head()) # Vemos como queda el data set armado.

      CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD    TAX  \
0  0.00632  18.0   2.31   0.0  0.538  6.575  65.2  4.0900  1.0  296.0   
1  0.02731   0.0   7.07   0.0  0.469  6.421  78.9  4.9671  2.0  242.0   
2  0.02729   0.0   7.07   0.0  0.469  7.185  61.1  4.9671  2.0  242.0   
3  0.03237   0.0   2.18   0.0  0.458  6.998  45.8  6.0622  3.0  222.0   
4  0.06905   0.0   2.18   0.0  0.458  7.147  54.2  6.0622  3.0  222.0   

   PTRATIO       B  LSTAT  MEDV  
0     15.3  396.90   4.98  24.0  
1     17.8  396.90   9.14  21.6  
2     17.8  392.83   4.03  34.7  
3     18.7  394.63   2.94  33.4  
4     18.7  396.90   5.33  36.2  


In [None]:
# ASIGNAMOS X e Y
X = pd.DataFrame(data, columns=[
    'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT'
])
y = target

In [None]:
COMBINACIONES = list(combinations(X.columns, 3)) # CREAMOS COMBINACIONES EN GRUPOS DE 3

In [None]:
# Variables para almacenar el mejor resultado
mejor_combo = None
mejor_pocA = 0.0
mejor_pocB = 0.0
mejor_pm = 0.0

In [None]:
# Iterar sobre todas las combinaciones
for combo in COMBINACIONES:
    X_current = X[list(combo)] # Selecciona las variables independientes actuales

    # Dividir el dataset en conjuntos de entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X_current, y, test_size=0.2)

    # Crear y entrenar el modelo
    lr_multiple = LinearRegression()
    lr_multiple.fit(X_train, y_train)

    # Hacer predicciones
    y_pred = lr_multiple.predict(X_test)

    # Evaluar el modelo
    pocA = lr_multiple.coef_
    pocB = lr_multiple.intercept_
    pm = lr_multiple.score(X_train, y_train)

    # Verificar si este conjunto es el mejor hasta ahora
    if pm > mejor_pm:
        mejor_pocA = pocA
        mejor_pocB = pocB
        mejor_pm = pm
        mejor_combo = combo

# Mostrar los mejores resultados
print(f"Mejor combinación de variables independientes: {mejor_combo}")
print('Valor de las pendinetes o coeficientes "a":', mejor_pocA)
print('Valor de las pendinetes o coeficientes "b":', mejor_pocB)
print('Precision del modelo:', mejor_pm)

Mejor combinación de variables independientes: ('CRIM', 'RM', 'LSTAT')
Valor de las pendinetes o coeficientes "a": [-0.11813875  5.51077314 -0.51951512]
Valor de las pendinetes o coeficientes "b": -5.293008459788457
Precision del modelo: 0.6715920199020753
