# Ejercicio de Machine Learning con el Dataset de Boston Housing

En este ejercicio vamos a utilizar el dataset de Boston Housing para realizar un análisis de Machine Learning. El objetivo es predecir el precio medio de las viviendas en Boston basándonos en varias características como la cantidad de habitaciones, el crimen en la zona, la accesibilidad al transporte, entre otras.

### Objetivos del ejercicio:
1. Cargar y explorar el dataset.
2. Preprocesar los datos (normalización, manejo de valores faltantes, etc.).
3. Entrenar modelos de Machine Learning: Regresión Lineal, Regresión Logística (para clasificación), SVM, y KNN.
4. Evaluar el rendimiento de los modelos.

# Paso 1: Cargar el Dataset

Vamos a comenzar cargando el dataset de Boston Housing, que está disponible en la biblioteca `sklearn`.

#### Instrucciones:
1. Importa la librería necesaria.
2. Carga el dataset de Boston.
3. Visualiza las primeras filas del conjunto de datos para familiarizarte con las características.


In [8]:
import pandas as pd
import numpy as np

In [4]:
# Importar las librerías necesarias
#from sklearn.datasets import load_boston
#ya no está disponible, cargar del csv
# Cargar el dataset de Boston
boston = pd.read_csv("data/House_Prices.csv")

# Visualizar las primeras filas del dataset
# Tu código aquí
boston.head()

Unnamed: 0,ID,Date,Price,Bedrooms,Bathrooms,Sqft_living,Sqft_lot,Floors,Waterfront,View,...,Grade,Sqft_above,Sqft_basement,Yr_built,Yr_renovated,zipcode,Lat,Long,Sqft_living15,Sqft_lot15
0,1,20140916T000000,280000.0,6,3.0,2400,9373,2.0,0,0,...,7,2400,0,1991,0,98002,47.3262,-122.214,2060,7316
1,2,20150422T000000,300000.0,6,3.0,2400,9373,2.0,0,0,...,7,2400,0,1991,0,98002,47.3262,-122.214,2060,7316
2,3,20140508T000000,647500.0,4,1.75,2060,26036,1.0,0,0,...,8,1160,900,1947,0,98166,47.4444,-122.351,2590,21891
3,4,20140811T000000,400000.0,3,1.0,1460,43000,1.0,0,0,...,7,1460,0,1952,0,98166,47.4434,-122.347,2250,20023
4,5,20150401T000000,235000.0,3,1.0,1430,7599,1.5,0,0,...,6,1010,420,1930,0,98168,47.4783,-122.265,1290,10320


# Paso 2: Preparación de los Datos

Para trabajar con el modelo, debemos dividir el dataset en características (X) y etiquetas (y). Posteriormente, dividiremos los datos en conjunto de entrenamiento y conjunto de prueba.

#### Instrucciones:
1. Crea las variables `X` y `y` a partir del dataset.
2. Divide el dataset en conjunto de entrenamiento y prueba.



In [5]:

from sklearn.model_selection import train_test_split

# Crear las variables X (características) y y (etiquetas)
X = boston.drop('Price', axis=1)
y = boston["Price"]

# Dividir los datos en conjunto de entrenamiento y prueba
# Tu código aquí
X  = X.select_dtypes(include=[float, int])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# Paso 3: Regresión Lineal

En este paso, implementaremos un modelo de regresión lineal para predecir el precio de las viviendas basado en las características proporcionadas.

#### Instrucciones:
1. Importa la librería para **Regresión Lineal**.
2. Crea un modelo de **Regresión Lineal** y ajústalo a los datos de entrenamiento.
3. Realiza predicciones sobre el conjunto de prueba y evalúa el rendimiento utilizando el **Error Cuadrático Medio (MSE)**.



In [6]:

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Crear el modelo de regresión lineal
# Tu código aquí

# Ajustar el modelo con los datos de entrenamiento
# Tu código aquí

# Realizar predicciones
# Tu código aquí

# Calcular el Error Cuadrático Medio (MSE)
# Tu código aquí
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)
y_pred = linear_model.predict(X_test)
mse_linear = mean_squared_error(y_test, y_pred)
print("Regresión Lineal - MSE:", mse_linear)


Regresión Lineal - MSE: 36433232171.131195



# Paso 4: Regresión Logística (Clasificación)

Para este paso, transformaremos el problema de regresión en un problema de clasificación binaria. Convertiremos el precio de las casas en una variable binaria (¿el precio es mayor o menor a un valor umbral?).

#### Instrucciones:
1. Convierte el target `y` a una variable binaria (utiliza un umbral como 30,000).
2. Crea y ajusta un modelo de **Regresión Logística**.
3. Evalúa el rendimiento utilizando la **precisión (accuracy)**.



In [9]:

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Convertir el target 'y' a clasificación binaria
# Tu código aquí

# Crear el modelo de regresión logística
# Tu código aquí

# Ajustar el modelo con los datos de entrenamiento
# Tu código aquí

# Realizar predicciones
# Tu código aquí

# Calcular la precisión del modelo
# Tu código aquí
median_price = np.median(y) 
y_bin = (y > median_price).astype(int)  
# Clasificar como '1' si el precio es mayor al precio medio, '0' en caso contrario
y_train_bin, y_test_bin = train_test_split(y_bin, test_size=0.2, random_state=42)[0], train_test_split(y_bin, test_size=0.2, random_state=42)[1]

log_model = LogisticRegression(max_iter=200)
log_model.fit(X_train, y_train_bin)
y_pred_log = log_model.predict(X_test)
accuracy_log = accuracy_score(y_test_bin, y_pred_log)
print("Regresión Logística - Accuracy:", accuracy_log)

Regresión Logística - Accuracy: 0.7561878325237104


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(




# Paso 5: Support Vector Machines (SVM)

Ahora implementaremos un modelo de SVM para regresión, el cual puede manejar tanto regresión lineal como no lineal.

#### Instrucciones:
1. Crea un modelo de **Support Vector Regression (SVR)**.
2. Ajusta el modelo con los datos de entrenamiento.
3. Realiza predicciones y evalúa el rendimiento utilizando **MSE**.


In [10]:

from sklearn.svm import SVR

# Crear el modelo SVM para regresión
# Tu código aquí

# Ajustar el modelo con los datos de entrenamiento
# Tu código aquí

# Realizar predicciones
# Tu código aquí

# Calcular el MSE
# Tu código aquí
svm_model = SVR()
svm_model.fit(X_train, y_train)
y_pred_svm = svm_model.predict(X_test)
mse_svm = mean_squared_error(y_test, y_pred_svm)
print("SVM Regresión - MSE:", mse_svm)

SVM Regresión - MSE: 127748904068.36668




# Paso 6: K-Nearest Neighbors (KNN)

En este paso, implementaremos el algoritmo KNN, tanto para regresión como para clasificación.

#### Instrucciones:
1. Crea un modelo de **KNN** para regresión.
2. Ajusta el modelo con los datos de entrenamiento.
3. Realiza predicciones y evalúa el rendimiento utilizando **MSE**.



In [11]:

from sklearn.neighbors import KNeighborsRegressor

# Crear el modelo KNN para regresión
# Tu código aquí

# Ajustar el modelo con los datos de entrenamiento
# Tu código aquí

# Realizar predicciones
# Tu código aquí

# Calcular el MSE
# Tu código aquí
knn_model = KNeighborsRegressor(n_neighbors=3)
knn_model.fit(X_train, y_train)
y_pred_knn = knn_model.predict(X_test)
mse_knn = mean_squared_error(y_test, y_pred_knn)
print("KNN Regresión - MSE:", mse_knn)

KNN Regresión - MSE: 65158358200.43879


In [13]:
from sklearn.neighbors import KNeighborsClassifier
knn_classifier = KNeighborsClassifier(n_neighbors=3)
knn_classifier.fit(X_train, y_train_bin)
y_pred_knn_class = knn_classifier.predict(X_test)
accuracy_knn = accuracy_score(y_test_bin, y_pred_knn_class)
print("KNN Clasificación - Accuracy:", accuracy_knn)

KNN Clasificación - Accuracy: 0.7531806615776081




# Paso 7: Evaluación del Rendimiento

Finalmente, compararemos los resultados de los modelos utilizados en cuanto a sus métricas de rendimiento.

#### Instrucciones:
1. Imprime los resultados de **MSE** para cada modelo.
2. Compara los rendimientos de los modelos y haz un análisis de cuál fue el mejor.


In [13]:

# Imprimir los resultados del MSE de cada modelo
# Tu código aquí




# Conclusión

En este ejercicio, hemos trabajado con el dataset de Boston Housing para aplicar distintos modelos de Machine Learning. Hemos utilizado regresión lineal, regresión logística, SVM y KNN para predecir el precio de las viviendas y evaluar el rendimiento de cada uno de los modelos.

- ¿Cuál de los modelos tuvo mejor desempeño? ¿Por qué crees que eso ocurrió?
- ¿Qué modificaciones podrías hacer en los modelos para mejorar su rendimiento?
Nota: para los modelos de regresión se han creado dos clases, los pisos con valor mayor a la media, y menor. 

### Solución

Regresión Lineal - MSE: 36433232171.131195


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Regresión Logística - Accuracy: 0.7561878325237104
SVM Regresión - MSE: 127748904068.36668
KNN Regresión - MSE: 65158358200.43879
KNN Clasificación - Accuracy: 0.7531806615776081
