# Contenido del dataset
Cada registro en la base de datos describe un suburbio o pueblo de Boston. Los datos se extrajeron del Área Estadística Metropolitana Estándar de Boston (SMSA) en 1970. Los atributos se definen de la siguiente manera (tomados del Repositorio de aprendizaje automático de UCI1):
CRIM: tasa de criminalidad per cápita por ciudad
ZN: proporción de suelo residencial zonificado para lotes de más de 25,000 pies cuadrados
INDUS: proporción de acres comerciales no minoristas por ciudad
CHAS: variable ficticia del río Charles (= 1 si el tramo limita con el río; 0 de lo contrario)
NOX: concentración de óxidos nítricos (partes por 10 millones)
https://archive.ics.uci.edu/ml/datasets/Housing

Cargue el conjunto de datos 124
RM: número promedio de habitaciones por vivienda
AGE: proporción de unidades ocupadas por propietarios construidas antes de 1940
DIS: distancias ponderadas a cinco centros de empleo  
BostonRAD: índice de accesibilidad a autopistas
radialesTAX: tasa de impuesto a la propiedad de valor total por $10,000
PTRATIO: alumno -proporción de maestros por ciudad 12.
B: 1000(Bk−0.63)2 donde Bk es la proporción de negros por ciudad 13.
LSTAT: % de estatus más bajo de la población
MEDV: valor medio de viviendas ocupadas por propietarios en miles de dólares
Podemos ver que los atributos de entrada tienen una mezcla de unidades.



In [15]:
# Importamos las librerias que vamos a utilizar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
from pandas import read_csv

# Le damos formato al dataset con los nombres de cada columna
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
data = pd.read_csv('housing.csv', names=column_names)
data_copy = data.copy()

In [16]:
# Muestra las columnas del dataset con los nombres asignados
data_copy.head()

In [17]:
#muestra las dimensiones del dataset
data_copy.shape

In [18]:
# Muestra la informacion de las columnas y los tipos de datos
data_copy.info()

In [19]:
# Muestra estadisticas descriptivas de las columnas numéricas
data_copy.describe()

In [20]:
#Verificar valores nulos
data_copy.isnull().sum()

In [21]:
#Eliminamos los datos nullos (en esta ocasion no hay)
data_copy=data_copy.dropna()

In [22]:
#Checamos los tipos de datos de las columnas
data_copy.dtypes

In [23]:
# Crear una figura con subplots
fig, ax = plt.subplots(ncols=7, nrows=2, figsize=(17, 8))
ax = ax.flatten()  # Aplanar los subplots en un arreglo unidimensional
index = 0  # Índice para recorrer los subplots
colors = ['blue', 'orange', 'green', 'red', 'purple', 'brown']  # Colores para los boxplots

# Iterar sobre las columnas del DataFrame
for i, column in enumerate(data.columns):
    # Crear el boxplot en el subplot correspondiente
    ax[index].boxplot(data[column], patch_artist=True, boxprops=dict(facecolor=colors[i % len(colors)]))
    ax[index].set_ylabel(column)  # Establecer el nombre de la columna en el eje y del subplot
    index += 1  # Incrementar el índice para pasar al siguiente subplot

plt.tight_layout(pad=0.4)  # Ajustar el espaciado entre subplots
plt.show()  # Mostrar la figura con los boxplots

In [None]:
#Este bucle itera a través de los elementos del diccionario data, donde k representa la clave
#(nombre de la columna) y v representa los valores (columna de datos) correspondientes.
for k, v in data_copy.items():
    #calculamos el primer cuartil
    q1 = v.quantile(0.25)
    #calculamos el tercer cuartil
    q3 = v.quantile(0.75)
    #rango de  medida de dispersión de los datos.
    irq = q3 - q1
    # Filtra los valores en la columna v que se consideran valores atípicos. Se considera un valor atípico si
    #está por debajo de q1 - 1.5 * irq o por encima de q3 + 1.5 * irq.
    v_col = v[(v <= q1 - 1.5 * irq) | (v >= q3 + 1.5 * irq)]
    # Calcula el porcentaje de valores atípicos en la columna v en relación con el tamaño total del conjunto de datos.
    #Se utiliza np.shape para obtener el número de valores atípicos
    perc = np.shape(v_col)[0] * 100.0 / np.shape(data_copy)[0]
    #Imprime el nombre de la columna (k) y el porcentaje de valores atípicos (perc) en formato de cadena de texto
    print("Columna %s anomalias= %.2f%%" % (k, perc))

In [None]:
import matplotlib.pyplot as plt

# Crear una figura y un conjunto de ejes
fig, axes = plt.subplots(nrows=len(data_copy.columns), figsize=(10, 6*len(data.columns)))

# Iterar a través de cada columna de datos
for i, (column, values) in enumerate(data_copy.items()):
    # Calcular los límites para definir las anomalías (por ejemplo, ± 3 desviaciones estándar)
    anomaly_lower = values.mean() - 3 * values.std()
    anomaly_upper = values.mean() + 3 * values.std()

    # Crear una gráfica de dispersión de la columna de datos
    axes[i].scatter(range(len(values)), values, color='blue', label='Datos normales')

    # Filtrar y mostrar las anomalías en rojo
    anomalies = values[(values < anomaly_lower) | (values > anomaly_upper)]
    if len(anomalies) > 0:
        axes[i].scatter(anomalies.index, anomalies, color='red', label='Anomalías')

    # Configurar los límites y etiquetas de los ejes
    axes[i].set_ylabel(column)
    axes[i].set_xlabel('Índice')
    axes[i].set_title('Gráfica de Dispersión - {}'.format(column))
    axes[i].legend()

# Ajustar el espaciado entre subtramas
plt.tight_layout()

# Mostrar la gráfica
plt.show()


In [None]:
data_copy.corr()

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Obtener la matriz de correlación
corr_matrix = data_copy.corr().abs().values

# Crear la figura y el objeto de los ejes
fig, ax = plt.subplots(figsize=(20, 10))

# Crear el mapa de calor con imshow
heatmap = ax.imshow(corr_matrix, cmap='coolwarm', vmin=0, vmax=1)

# Añadir las anotaciones
for i in range(corr_matrix.shape[0]):
    for j in range(corr_matrix.shape[1]):
        ax.annotate(f'{corr_matrix[i, j]:.2f}', xy=(j, i),
                    ha='center', va='center', color='black')

# Añadir la barra de color
cbar = ax.figure.colorbar(heatmap, ax=ax)

# Establecer etiquetas de los ejes
ax.set_xticks(np.arange(corr_matrix.shape[1]))
ax.set_yticks(np.arange(corr_matrix.shape[0]))
ax.set_xticklabels(data_copy.columns)
ax.set_yticklabels(data_copy.columns)

# Girar las etiquetas de los ejes x
plt.setp(ax.get_xticklabels(), rotation=45, ha="right", rotation_mode="anchor")

# Mostrar la figura
plt.show()


In [None]:
from sklearn import preprocessing
import pandas as pd
import matplotlib.pyplot as plt

# Escalado de columnas
min_max_scaler = preprocessing.MinMaxScaler()

# Selección de columnas
column_sels = ['LSTAT', 'INDUS', 'NOX', 'PTRATIO', 'RM', 'TAX', 'DIS', 'AGE']

# Obtención de las columnas seleccionadas y la variable objetivo
x = data_copy.loc[:, column_sels]
y = data_copy['MEDV']

# Escalado de las columnas seleccionadas
x = pd.DataFrame(data=min_max_scaler.fit_transform(x), columns=column_sels)

# Creación de la figura y los ejes
fig, axs = plt.subplots(ncols=4, nrows=2, figsize=(20, 10))
index = 0
axs = axs.flatten()

# Creación de los gráficos de dispersión con regresión lineal
for i, k in enumerate(column_sels):
    axs[i].scatter(x[k], y)
    axs[i].set_xlabel(k)
    axs[i].set_ylabel('MEDV')
    axs[i].set_title(f'{k} vs MEDV')

    # Ajuste de la regresión lineal
    m, b = np.polyfit(x[k], y, 1)
    axs[i].plot(x[k], m * x[k] + b, color='red')

# Ajuste de la disposición de los gráficos
plt.tight_layout(pad=0.4, w_pad=0.5, h_pad=5.0)
plt.show()


In [24]:
y =  np.log1p(y)
for col in x.columns:
    if np.abs(x[col].skew()) > 0.3:
        x[col] = np.log1p(x[col])

In [25]:
from sklearn import datasets, linear_model
from sklearn.model_selection import cross_val_score, KFold
from sklearn.model_selection import cross_val_predict
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures
import numpy as np
import pandas as pd

# Creación del modelo de regresión lineal
l_regression = linear_model.LinearRegression()

# Configuración de la validación cruzada con 10 splits
kf = KFold(n_splits=10)

# Escalado de las características
min_max_scaler = preprocessing.MinMaxScaler()
x_scaled = min_max_scaler.fit_transform(x)

# Almacenamiento de los resultados de las predicciones
results = pd.DataFrame({'Actual': y})

# Evaluación del modelo de regresión lineal
scores = cross_val_score(l_regression, x_scaled, y, cv=kf, scoring='neg_mean_squared_error')
y_pred_lr = cross_val_predict(l_regression, x_scaled, y, cv=kf)
results['Linear Regression'] = y_pred_lr

# Creación del modelo de regresión Ridge
l_ridge = linear_model.Ridge()

# Evaluación del modelo de regresión Ridge
scores = cross_val_score(l_ridge, x_scaled, y, cv=kf, scoring='neg_mean_squared_error')
y_pred_rr = cross_val_predict(l_ridge, x_scaled, y, cv=kf)
results['Ridge Regression'] = y_pred_rr

# Modelo de regresión polinomial con grado 3
poly_features = PolynomialFeatures(degree=3)
x_poly = poly_features.fit_transform(x_scaled)

model = make_pipeline(linear_model.Ridge())

# Evaluación del modelo de regresión polinomial
scores = cross_val_score(model, x_poly, y, cv=kf, scoring='neg_mean_squared_error')
y_pred_poly = cross_val_predict(model, x_poly, y, cv=kf)
results['Polynomial Ridge'] = y_pred_poly

# Imprimir el DataFrame con los resultados
print(results)


In [26]:
from sklearn.svm import SVR
from sklearn.model_selection import GridSearchCV

# Creación del modelo de Regresión de Vectores de Soporte con kernel RBF y parámetros C y gamma predefinidos
svr_rbf = SVR(kernel='rbf', C=1e3, gamma=0.1)

# Evaluación del modelo de Regresión de Vectores de Soporte
scores = cross_val_score(svr_rbf, x_scaled, y, cv=kf, scoring='neg_mean_squared_error')

# Almacenamiento de los resultados en el diccionario scores_map
scores_map = {}
scores_map['SVR'] = scores

# Impresión del promedio y la desviación estándar del MSE
print("MSE SVR: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std()))

# Ajuste del modelo de Regresión de Vectores de Soporte a todos los datos
svr_rbf.fit(x_scaled, y)

# Predicciones con el modelo ajustado
y_pred = svr_rbf.predict(x_scaled)

# Creación de una tabla con los valores actuales y los valores predichos
results = pd.DataFrame({'Actual': y, 'Predicted': y_pred})
print(results)


In [None]:
from sklearn.tree import DecisionTreeRegressor

# Creación del modelo de Regresión por Árboles de Decisión con una profundidad máxima de 5
desc_tr = DecisionTreeRegressor(max_depth=5)

# Evaluación del modelo de Regresión por Árboles de Decisión
scores = cross_val_score(desc_tr, x_scaled, y, cv=kf, scoring='neg_mean_squared_error')

# Almacenamiento de los resultados en el diccionario scores_map
scores_map['DecisionTreeRegressor'] = scores

# Impresión del promedio y la desviación estándar del MSE
print("MSE DecisionTreeRegressor: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std()))

# Ajuste del modelo de Regresión por Árboles de Decisión a todos los datos
desc_tr.fit(x_scaled, y)

# Predicciones con el modelo ajustado
y_pred = desc_tr.predict(x_scaled)

# Creación de una tabla con los valores actuales y los valores predichos
results = pd.DataFrame({'Actual': y, 'Predicted': y_pred})
print(results)

In [None]:
from sklearn.neighbors import KNeighborsRegressor

# Creación del modelo de Regresión por Vecinos más Cercanos con 7 vecinos
knn = KNeighborsRegressor(n_neighbors=7)

# Evaluación del modelo de Regresión por Vecinos más Cercanos
scores = cross_val_score(knn, x_scaled, y, cv=kf, scoring='neg_mean_squared_error')

# Almacenamiento de los resultados en el diccionario scores_map
scores_map['KNeighborsRegressor'] = scores

# Impresión del promedio y la desviación estándar del MSE
print("MSE KNeighborsRegressor: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std()))

#Búsqueda del número óptimo de vecinos para el modelo de Regresión por Vecinos más Cercanos utilizando GridSearchCV
# grid_sv = GridSearchCV(knn, cv=kf, param_grid={"n_neighbors" : [2, 3, 4, 5, 6, 7]}, scoring='neg_mean_squared_error')
# grid_sv.fit(x_scaled, y)
# print("Best classifier :", grid_sv.best_estimator_)

In [11]:
from sklearn.ensemble import GradientBoostingRegressor

# Creación del modelo de Regresión por Gradient Boosting con los parámetros especificados
gbr = GradientBoostingRegressor(alpha=0.9, learning_rate=0.05, max_depth=2, min_samples_leaf=5, min_samples_split=2, n_estimators=100, random_state=30)

# Evaluación del modelo de Regresión por Gradient Boosting
scores = cross_val_score(gbr, x_scaled, y, cv=kf, scoring='neg_mean_squared_error')

# Almacenamiento de los resultados en el diccionario scores_map
scores_map['GradientBoostingRegressor'] = scores

# Impresión del promedio y la desviación estándar del MSE
print("MSE GradientBoostingRegressor: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std()))

#Búsqueda de los mejores parámetros para el modelo de Regresión por Gradient Boosting utilizando GridSearchCV
# param_grid = {'n_estimators': [100, 200], 'learning_rate': [0.1, 0.05, 0.02], 'max_depth': [2, 4, 6], 'min_samples_leaf': [3, 5, 9]}
# grid_sv = GridSearchCV(gbr, cv=kf, param_grid=param_grid, scoring='neg_mean_squared_error')
# grid_sv.fit(x_scaled, y)
# print("Best classifier :", grid_sv.best_estimator_)


In [12]:
# Creación de la figura
plt.figure(figsize=(20, 10))

# Creación del gráfico de caja (boxplot) utilizando los datos almacenados en scores_map
scores_map = pd.DataFrame(scores_map)
scores_map.boxplot()

# Configuración de etiquetas y título del gráfico
plt.xlabel('Modelos')
plt.ylabel('MSE')
plt.title('Comparación de MSE entre modelos')

# Mostrar el gráfico
plt.show()

In [13]:
import matplotlib.pyplot as plt

# Plotting the comparison for Linear Regression
plt.figure(figsize=(10, 6))
plt.scatter(results.index, results['Actual'], color='blue', label='Actual')
plt.scatter(results.index, results['Predicted'], color='red', label='Linear Regression')
plt.xlabel('Data Point')
plt.ylabel('MEDV')
plt.title('Comparison of Actual and Predicted Values (Linear Regression)')
plt.legend()
plt.show()

# Plotting the comparison for Ridge Regression
plt.figure(figsize=(10, 6))
plt.scatter(results.index, results['Actual'], color='blue', label='Actual')
plt.scatter(results.index, results['Predicted'], color='green', label='Ridge Regression')
plt.xlabel('Data Point')
plt.ylabel('MEDV')
plt.title('Comparison of Actual and Predicted Values (Ridge Regression)')
plt.legend()
plt.show()

# Plotting the comparison for Polynomial Ridge
plt.figure(figsize=(10, 6))
plt.scatter(results.index, results['Actual'], color='blue', label='Actual')
plt.scatter(results.index, results['Predicted'], color='orange', label='Polynomial Ridge')
plt.xlabel('Data Point')
plt.ylabel('MEDV')
plt.title('Comparison of Actual and Predicted Values (Polynomial Ridge)')
plt.legend()
plt.show()


In [14]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas import read_csv
from sklearn import preprocessing
from sklearn.model_selection import train_test_split

# Le damos formato al dataset con los nombres de cada columna
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
data = pd.read_csv('housing.csv', names=column_names)
data_copy = data.copy()

# Grafica de correlación
plt.figure(figsize=(10, 6))
corr_matrix = data_copy.corr()
plt.imshow(corr_matrix, cmap='coolwarm', interpolation='nearest')
plt.colorbar()
plt.xticks(np.arange(len(column_names)), column_names, rotation=45)
plt.yticks(np.arange(len(column_names)), column_names)
plt.title('Matriz de correlación')
plt.show()

# Matriz de correlación
print(corr_matrix)

# Vemos la correlación de los atributos utilizando scatter matrix de pandas
pd.plotting.scatter_matrix(data_copy, figsize=(15, 15), diagonal='kde')
plt.show()

# Gráfico de dispersión de los datos
plt.figure(figsize=(10, 6))
plt.scatter(data_copy['RM'], data_copy['MEDV'], color='blue')
plt.xlabel('Número promedio de habitaciones por vivienda')
plt.ylabel('Valor medio de viviendas ocupadas por propietarios')
plt.title('Gráfico de dispersión: Número promedio de habitaciones vs Valor medio de viviendas')
plt.show()

