In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import SGDRegressor, LinearRegression
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score



Utilizando el conjunto de datos "precio_casas.csv" realizar las siguientes tareas:

- Imprimir el nombre de cada columna seguido del valor medio, valor máximo y valor mínimo de dicha columna.
- Imprimir el número de filas cuya suma sea inferior a 1000
- Imprimir el nombre de las columnas cuya suma sea superior a 100000

In [None]:
df = pd.read_csv("precio_casas.csv", sep = ";")
df.head()

In [None]:
for col in df.columns:
    if pd.api.types.is_numeric_dtype(df[col]):
        print(f"{col} \nMedia = {df[col].mean()} \nmaximo={df[col].max()} \nminimo={df[col].min()}")

In [None]:
num_filas_menor_1000 = (df.sum(axis=1) < 1000).sum()
print(f"Nº filas menor a 1000:{num_filas_menor_1000}")

In [None]:
col_mayor_100000 = [col for col in df.columns if df[col].sum() > 100000] 
print(f"Nombre de columnas cuya suma sea mayor que 100000: {col_mayor_100000}")

Utilizando el conjunto de datos "precio_casas-perdidos.csv" realizar las siguientes tareas:

- Imprimir el nombre de las columnas que posean algún valor perdido y el número de valores perdidos.
- Para cada columna con valores perdidos, sustituir los que se encuentren en las 1000 primeras filas por la media de la columna.
- Representar gráficamente los valores de las columnas que no poseen valores perdidos. La gráfica debe tener como titulo el nombre de la columna que representa.


In [None]:
df2 = pd.read_csv("precio_casas_perdidos.csv", sep = ",")
df2

In [None]:
columnas_perdidas = df2.isnull().sum()
columnas_perdidas = columnas_perdidas[columnas_perdidas > 0]
columnas_perdidas

In [None]:
for col in columnas_perdidas.index:
    media_columna = df2[col].mean()
    df2.loc[:999, col] = df2.loc[:999, col].fillna(media_columna)
df2

In [None]:
columnas_sin_perdidos = df.columns[df.isnull().sum() == 0]
for col in columnas_sin_perdidos:
    plt.figure(figsize=(10, 5))
    plt.plot(df.index, df[col], marker='o', linestyle='-', markersize=3)
    plt.title(f"{col}")
    

Utilizando el conjunto de datos "precio_casas.csv" realizar las siguientes tareas:

- Obtener un estimador basado en regresión lineal de la variable "Mediana precio" a partir del resto.
- Mostrar por pantalla los coeficientes de regresión del estimador antes calculado.
- Mostrar mediante un gráfico de barras los coeficientes de regresión.

In [None]:
y = df["Mediana precio"]
x = df.drop(columns=["Mediana precio"])

In [None]:
reg = LinearRegression()
reg.fit(x,y)

In [None]:
coeficientes = reg.coef_
columnas = x.columns
print("Coeficientes de regresión:")
for col, coef in zip(columnas, coeficientes):
    print(f"{col}: {coef}")

In [None]:
plt.figure(figsize=(10, 5))
plt.bar(columnas, coeficientes, color='blue')
plt.xlabel("Variables")
plt.ylabel("Coeficientes de regresión")
plt.title("Coeficientes de regresión lineal para 'Mediana precio'")
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()


Utilizando el conjunto de datos "precio_casas.csv" realizar las siguientes tareas:

- Dividir el conjunto de datos en dos subconjuntos: entrenamiento con el 80% de las muestras y test con las restantes.
- Obtener un estimador basado en regresión lineal de la variable "Mediana precio" a partir del resto.
- Mostrar el RMSE y el R^2 tanto para el conjunto de entrenamiento como para el de test.
- Obtener un estimador utilizando las 3 variables con mayor R^2 del conjunto completo.
Mostrar el RMSE y el R^2 del estimador anterior para el conjunto de entrenamiento y el de test.

In [None]:
y = df["Mediana precio"]
x = df.drop(columns=["Mediana precio"])

x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.2, random_state=42)
regr = LinearRegression()
regr.fit(x_train, y_train)

In [None]:
y_test_pred = regr.predict(x_test)
rmse_train = np.sqrt(mean_squared_error(y_test, y_test_pred))
r2_train = r2_score(y_test, y_test_pred)
print(f"RMSE Entrenamiento: {rmse_train}")
print(f"R^2 Entrenamiento: {r2_train}")
print(f"RMSE Test: {rmse_train}")
print(f"R^2 Test: {r2_train}")

In [None]:
def calcular_r2_por_variable(X, y):
    r2_scores = {}
    for col in x.columns:
        X_col = x[[col]]
        modelo_var = LinearRegression()
        modelo_var.fit(X_col, y)
        r2_scores[col] = modelo_var.score(X_col, y)
    return sorted(r2_scores, key=r2_scores.get, reverse=True)[:3]

mejores_vars = calcular_r2_por_variable(x, y)
X_train_best = x_train[mejores_vars]
X_test_best = x_test[mejores_vars]


In [None]:
modelo_best = LinearRegression()
modelo_best.fit(X_train_best, y_train)

In [None]:
y_train_pred_best = modelo_best.predict(X_train_best)
y_test_pred_best = modelo_best.predict(X_test_best)

rmse_train_best = np.sqrt(mean_squared_error(y_train, y_train_pred_best))
r2_train_best = r2_score(y_train, y_train_pred_best)

rmse_test_best = np.sqrt(mean_squared_error(y_test, y_test_pred_best))
r2_test_best = r2_score(y_test, y_test_pred_best)

print(f"\nModelo con las 3 mejores variables:")
print(f"Variables seleccionadas: {mejores_vars}")
print(f"RMSE Entrenamiento: {rmse_train_best}")
print(f"R^2 Entrenamiento: {r2_train_best}")
print(f"RMSE Test: {rmse_test_best}")
print(f"R^2 Test: {r2_test_best}")


Utilizando el conjunto de datos "precio_casas.csv" realizar las siguientes tareas:

- Dividir el conjunto de datos en dos subconjuntos: entrenamiento con el 80% de las muestras y test con las restantes.
- Obtener un estimador univariable basado en regresión lineal para la variable "Mediana precio".
- Para las 4 variables con menor RMSE en el conjunto de test, mostrar gráficamente las muestras del conjunto de entrenamiento y la recta de regresión obtenida.
- Para las 4 variables con menor RMSE en el conjunto de test, mostrar gráficamente las muestras del conjunto de test y la recta de regresión obtenida.

In [None]:
df = pd.read_csv("precio_casas.csv", sep=";")

x = df.drop(columns=["Mediana precio"])
y = df["Mediana precio"]

x_train, x_test, y_train, y_test = train_test_split(x,y, test_size = 0.2, random_state = 6789) 

In [None]:
# obtener modelo univariables y calcular RMSE en test
rmse_dict = {}
modelos = {}

for col in x.columns:
    x_train_col = x_train[[col]]
    x_test_col = x_test[[col]]

    modelo = LinearRegression()
    modelo.fit(x_train_col, y_train)

    y_test_pred = modelo.predict(x_test_col)
    rmse = np.sqrt(mean_squared_error(y_test, y_test_pred))

    rmse_dict[col]= rmse
    modelos[col] = modelo
#seleccionar las 4 variables con menor RMSE
mejores_vars = sorted(rmse_dict, key=rmse_dict.get)[:4]

In [None]:
# Graficar las muestras y la recta de regresión para entrenamiento y test
for col in mejores_vars:
    modelo = modelos[col]
    
    # Gráfico para el conjunto de entrenamiento
    plt.figure(figsize=(6, 4))
    plt.scatter(x_train[col], y_train, color='blue', label='Muestras de entrenamiento')
    plt.plot(x_train[col], modelo.predict(x_train[[col]]), color='red', label='Recta de regresión')
    plt.xlabel(col)
    plt.ylabel("Mediana precio")
    plt.title(f"Regresión lineal para {col} (Entrenamiento)")
    plt.legend()
    plt.show()
    
    # Gráfico para el conjunto de test
    plt.figure(figsize=(6, 4))
    plt.scatter(x_test[col], y_test, color='green', label='Muestras de test')
    plt.plot(x_test[col], modelo.predict(x_test[[col]]), color='red', label='Recta de regresión')
    plt.xlabel(col)
    plt.ylabel("Mediana precio")
    plt.title(f"Regresión lineal para {col} (Test)")
    plt.legend()
    plt.show()
