In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import SGDRegressor, LinearRegression
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

Utilizando el conjunto de datos "precio_casas.csv" realizar las siguientes tareas:

- Imprimir el nombre de cada columna seguido del valor medio, valor máximo y valor mínimo de dicha columna.
- Imprimir el número de filas cuya suma sea inferior a 1000
- Imprimir el nombre de las columnas cuya suma sea superior a 100000

In [None]:
df = pd.read_csv("precio_casas.csv", sep=";")
df.head()


In [None]:
for col in df.columns:
    print(f"\nMedia {col}: {df[col].mean()} \nMaximo {col}: {df[col].max()} \nMinimo {col}: {df[col].min()}")

In [None]:
filas_menor_1000 = (df.sum(axis=1)<1000).sum()
print(f"Nº filas cuya sumas es menor que 1000: {filas_menor_1000}")

In [None]:
columnas_mayor_100000 = [col for col in df.columns if df[col].sum() > 100000]
print(f"{columnas_mayor_100000}")

Utilizando el conjunto de datos "precio_casas-perdidos.csv" realizar las siguientes tareas:

- Imprimir el nombre de las columnas que posean algún valor perdido y el número de valores perdidos.
- Para cada columna con valores perdidos, sustituir los que se encuentren en las 1000 primeras filas por la media de la columna.
- Representar gráficamente los valores de las columnas que no poseen valores perdidos. La gráfica debe tener como titulo el nombre de la columna que representa.
 

In [None]:
df2 = pd.read_csv("precio_casas_perdidos.csv", sep = ",")
df2.head()

In [None]:
columnas_perdidas = df2.isnull().sum()
columnas_perdidas = columnas_perdidas[columnas_perdidas > 0]
columnas_perdidas

In [None]:
for col in columnas_perdidas.index:
    media_columna = df2[col].mean()
    df2.loc[:999, col] = df2.loc[:999, col].fillna(media_columna)
df2

In [None]:
columnas_sin_perdidos = df2.columns[df2.isnull().sum() == 0]
for col in columnas_sin_perdidos:
    plt.figure(figsize=(10, 5))
    plt.plot(df2.index, df[col], marker='o', linestyle='-', markersize=3)
    plt.title(f"{col}")
    

Utilizando el conjunto de datos "precio_casas.csv" realizar las siguientes tareas:

- Obtener un estimador basado en regresión lineal de la variable "Mediana precio" a partir del resto.
- Mostrar por pantalla los coeficientes de regresión del estimador antes calculado.
- Mostrar mediante un gráfico de barras los coeficientes de regresión.

In [None]:
y = df["Mediana precio"]
x = df.drop(columns=["Mediana precio"])
reg = LinearRegression()
reg.fit(x,y)

In [None]:
coeficientes = reg.coef_
columnas = x.columns
for col, coef in zip(columnas, coeficientes):
    print(f"{col}: {coef}")

In [None]:
plt.bar(columnas,coeficientes)
plt.xticks(rotation=45)

Utilizando el conjunto de datos "precio_casas.csv" realizar las siguientes tareas:

- Dividir el conjunto de datos en dos subconjuntos: entrenamiento con el 80% de las muestras y test con las restantes.
- Obtener un estimador basado en regresión lineal de la variable "Mediana precio" a partir del resto.
- Mostrar el RMSE y el R^2 tanto para el conjunto de entrenamiento como para el de test.
- Obtener un estimador utilizando las 3 variables con mayor R^2 del conjunto completo.
Mostrar el RMSE y el R^2 del estimador anterior para el conjunto de entrenamiento y el de test.

In [None]:
x = df.iloc[:,:-1]
y = df.iloc[:,-1]

x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=2, random_state=4567)
reg=LinearRegression()
reg.fit(x_train, y_train)

In [None]:
y2 = df["Mediana precio"]
x2 = df.drop(columns=["Mediana precio"])

x_train2, x_test2, y_train2, y_test2 = train_test_split(x2,y2, test_size=0.2, random_state=42)

In [None]:
y_train_pred = reg.predict(x_train)
rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
r2_train = r2_score(y_train, y_train_pred)
print(f"RMSE: {rmse_train}")
print(f"R^2: {r2_train}")

In [None]:
y_test_pred = reg.predict(x_test)
rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))
r2_test = r2_score(y_test, y_test_pred)
print(f"RMSE: {rmse_test}")
print(f"R^2: {r2_test}")

Utilizando el conjunto de datos "precio_casas.csv" realizar las siguientes tareas:

- Dividir el conjunto de datos en dos subconjuntos: entrenamiento con el 80% de las muestras y test con las restantes.
- Obtener un estimador univariable basado en regresión lineal para la variable "Mediana precio".
- Para las 4 variables con menor RMSE en el conjunto de test, mostrar gráficamente las muestras del conjunto de entrenamiento y la recta de regresión obtenida.
- Para las 4 variables con menor RMSE en el conjunto de test, mostrar gráficamente las muestras del conjunto de test y la recta de regresión obtenida.