In [None]:
# Importamos las librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Cargamos los datos
data_path = 'proyecto_training_data.npy'
data = np.load(data_path)

# Definimos los nombres de las columnas
columns = ['SalePrice', 'OverallQual', '1stFlrSF', 'TotRmsAbvGrd', 'YearBuilt', 'LotFrontage']

# Convertimos los datos a DataFrame para un manejo más sencillo
df = pd.DataFrame(data, columns=columns)

# Dividimos los datos en conjuntos de entrenamiento y validación (80% - 20%)
train_size = int(len(df) * 0.8)
train_df = df[:train_size]
validation_df = df[train_size:]

# Análisis exploratorio de datos
# Estadísticas descriptivas
print(train_df.describe())

# Correlación entre las variables
correlation_matrix = train_df.corr()
print(correlation_matrix)

# Visualización de la distribución de 'OverallQual'
sns.distplot(train_df['OverallQual'])
plt.title('Distribución de OverallQual')
plt.show()

# Visualización de 'OverallQual' vs 'SalePrice'
sns.scatterplot(x='OverallQual', y='SalePrice', data=train_df)
plt.title('OverallQual vs SalePrice')
plt.show()

# Entrenamiento del modelo de regresión lineal
model = LinearRegression()
model.fit(train_df[['OverallQual']], train_df['SalePrice'])

# Coeficientes del modelo
print(f"Intercepto: {model.intercept_}")
print(f"Coeficiente para OverallQual: {model.coef_[0]}")

# Predicciones y evaluación del modelo
predictions = model.predict(validation_df[['OverallQual']])
mse = mean_squared_error(validation_df['SalePrice'], predictions)
r2 = r2_score(validation_df['SalePrice'], predictions)

print(f"Error cuadrático medio (MSE): {mse}")
print(f"Coeficiente de determinación (R^2): {r2}")

# Visualización de las predicciones vs los valores reales
plt.scatter(validation_df['OverallQual'], validation_df['SalePrice'], color='blue', label='Valores reales')
plt.scatter(validation_df['OverallQual'], predictions, color='red', label='Predicciones')
plt.title('Predicciones vs Valores Reales')
plt.xlabel('OverallQual')
plt.ylabel('SalePrice')
plt.legend()
plt.show()