## Integrantes:
1. Camila Coltriani
2. Luis Dartayet
3. Irania Fuentes
4. Jonathan Fichelson
5. Ornella Cevoli

# Trabajo práctico 2 : Modelo de regresión lineal del dataset Properatti

## Objetivos

El objetivo de este trabajo final es generar y comparar estadísticamente tres modelos de regresión lineal sobre el dataset limpio de Properatti construido en el TP_1; en este, fue planteado la hipótesis que el precio (variable objetivo) de las propiedades iba a estar influenciado principalmente por la superficie y la ubicación (variables predictoras). 

Con base a esto, se han planteado los siguientes objetivos específicos:
- Explorar el dataset limpio con la finalidad de verificar si debe realizarse una ultima limpieza o pueden utilizase los datos directamente;
- Realizar una visualización general de las distribuciones y relaciones del dataset con la finalidad de determinar la zona, tipo de inmueble y variables predictoras y objetivo para la realización de los modelos;
- Construir modelos de regresión lineal simple y multiple e interpretar sus metricas con la finalidad de identificar el que mejor permita obtener una predicción confiable de la variable objetivo;
- Implementar un modelo de regularización con la finalidad de compararlos y evaluar si existe o no problemas de sobreajuste;
- Determinar el modelo que más se ajusta al comportamiento de los datos analizados. 

In [None]:
#Las librerías utilizadas en este documento son:
%matplotlib inline
from matplotlib import pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import statsmodels.api as sm
from sklearn import metrics
from matplotlib.ticker import ScalarFormatter
from matplotlib import gridspec
sns.set()

## Visualización del dataset

In [None]:
# Visualización de la forma y atributos del dataset
data = pd.read_csv("./data/data_limpio_gdf.csv")
print(data.shape)
print("El dataset está compuesto por:", data.shape[0], "filas y",data.shape[1],"columnas.")
data.sample(5)

### Descripción de las columnas del dataset limpio:

Las columnas que incluye son:

● municipio: ubicación del inmueble por su municipio/barrios

● provincia: ubicación del inmueble por provincia

● lat  ●lon: ubicación de latitud y longitud

● superficie_m2_total: superficie total en m² del inmueble

● price_usd: Precio en dólares del inmueble

● tipo: tipo de inmueble en venta (casa, departamento, ph, tienda)

● ambientes_cat: cantidad de ambientes del inmueble (0, 1, 2, 3 , 4 o más)

● precio_usd_por_m2: Precio en dólares por metro cuadrado (USD/m²: precio dólares / superficie)

● tipo_cat_code: categoría numérica de tipo de inmueble

● municipio_cat_code: categoría numérica de municipios

● provincia_cat_code: categoría numérica de provincia

● tipo_cat_code: categoría numérica de ambientes_cat

● geometry: figura geométrica de latitud y la longitud

● country_name: nombre del país donde ocurre la operación inmobiliaria

● **precio_usd_por_m2_cat: categoría numérica de precio_usd_por_m2**

# Análisis exploratorio y visualización de correlaciones entre las variables

In [None]:
#Revisamos la presencia de datos NaN
data.isna().sum().sort_values()
#La columna "ambientes_cat" quedó con 1248 registros nulos

In [None]:
#reviso donde están ubicados y a que propiedad pertenecen los registros nulos para saber si afectaran escoger un tipo de inmueble y su zona
mascara_nulos = data["ambientes_cat"].astype(str) == "nan" 
data_nulos = data[mascara_nulos]
data_nulos.loc[:, ["municipio", 'tipo', 'ambientes_cat', "precio_usd"]].sample(7)
#print(data[mascara_nulos].index)

In [None]:
#agrupamos los registros donde hay nulos
pd.options.display.max_rows = None
data_nulos.groupby(["tipo"])["municipio"].value_counts().sort_values(ascending=False)
#vemos que los nan están distribuidos equitativamente y no están concentrados en una mismo municipio

In [None]:
#Los elimino p
data.dropna(subset=['ambientes_cat'], inplace=True)
print(data.isna().sum())

In [None]:
# Eliminamos algunos outliers

data= data[(data["precio_usd"] >100) & (data["precio_usd"]<= 4.500000e+05)]
data= data[(data["precio_usd_por_m2"] > 100) & (data["precio_usd_por_m2"]<= 2.500000e+04)]

In [None]:
#Realizamos una descripción estadística del dataset
data.describe()
#existen datos que no permiten ver los estadísticos ya que hay valores de 0 en sup_m2_total e inf en precio_usd_por_m2: eliminarlos

In [None]:
#eliminamos del dataset los registros de sup_m2_total con valores de cero
data.drop(data[(data["sup_m2_total"] ==0)].index, inplace=True ,axis=0)

In [None]:
data.describe()

In [None]:
#Vemos la correlación entre las variables 
data_corr = data.corr()
#graficamos
plt.figure(figsize=(6,6))
sns.heatmap(data_corr, annot=True, fmt=".2f", cmap="coolwarm")
plt.title("Correlación entre variables")
plt.show()

#puede verse una correlación significativa entre sup_m2_total y precio_usd (0.39)
#tipo_cat_code / ambientes_cat_code y  precio_usd (0.30)
#precio_usd_por_m2_cat y lon

In [None]:
#graficamos las provincias y municipios que contengan un valor mínimo de 500 registros por municipio (para una mejor visualización)
limite = 500
data = data.copy().groupby(['municipio']).filter(lambda grp: grp.shape[0] > limite)

In [None]:
fig= plt.subplots(figsize=(20,20),constrained_layout=True)
grid = gridspec.GridSpec(2, 1, height_ratios=[1, 3])

ax1=plt.subplot(grid[0])
sns.countplot(data=data,y="provincia",order=data["provincia"].value_counts().index ,ax=ax1,color="g")

ax1.set_yticklabels(ax1.get_yticklabels(),fontsize="medium")
ax1.set_title("Distribucion de registros segun la provincia", fontsize= 'large')

ax2=plt.subplot(grid[1])
sns.countplot(data=data,x="municipio",order=data["municipio"].value_counts().index,ax=ax2,color="b")


ax2.set_title("Distribucion de registros segun los municipios", fontsize= 'large')
ax2.set_xticklabels(ax2.get_xticklabels(),rotation=90,ha="right")
plt.xticks(fontsize= 10)
plt.yticks(fontsize= 10)
ax1.grid()
ax2.grid()
plt.show()

La mayor cantidad de registros están Capital Federal para los barrios de Palermo, Belgrano, Caballito..
Consideraremos Capital Federal para la evaluación de los modelos 

In [None]:
#Revisamos la distribución de registros por tipo de inmueble
plt.figure(figsize=(5,3))

plt.gca().yaxis.set_major_formatter(ScalarFormatter())
ax = sns.countplot(data = data, x = "tipo")
ax.set_xticklabels(ax.get_xticklabels(),rotation=40,ha="right")
plt.show()

#Apartamentos tiene la mayoría de los datos

Consideraremos apartamentos para la evaluacion de los modelos

In [None]:
#Revisamos la ubicacion de los los tipos de inmueble que contienen la mayor cantidad de registros
pd.options.display.max_rows = None
data.groupby(["municipio"])["tipo"].value_counts().sort_values(ascending=False)

#### Para determinar en que barrio enfocarnos, generaremos una funcion que correremos para los tres barrios enunciados 

In [None]:
# Seleccionamos las columnas que vamos a utilizar y sólo las propiedades de tipo apartamento

df_0 = data[data['tipo'] == 'apartment']
df_0 = data[['municipio', 'sup_m2_total', 'ambientes_cat', 'lat', 'lon', 'precio_usd' ]]
df_0.head()

In [None]:
# Extraemos un dataframe por cada columna

df_0_sup_m2_total = df_0[['sup_m2_total', 'precio_usd', 'municipio']]
df_0_ambientes_cat = df_0[['ambientes_cat', 'precio_usd', 'municipio']]
df_0_ubica = df_0[['lat', 'lon', 'precio_usd', 'municipio']]

In [None]:
# Armamos la función para las regresiones lineales

def regresion_lineal(df_0_lr, target, test_size=0.2, random_state=42):
    # Separamos la variable objetivo del resto del dataset
    X = df_0_lr.drop(target, axis=1)
    y = df_0_lr[target]
    
    # Dividimos el dataset en train y test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=random_state)
    
    # Normalizamos los datos
    scaler = StandardScaler()
    scaler.fit(X_train)
    X_train = scaler.transform(X_train)
    X_test = scaler.transform(X_test)
    
    # Instanciamos el modelo
    model = linear_model.LinearRegression()
    
    # Entrenamos el modelo
    model.fit(X_train, y_train)
    
    # Predecimos con el modelo
    y_pred = model.predict(X_test)
    
    # Calculamos el R2
    r2 = r2_score(y_test, y_pred)
    
    # Imprimimos los resultados
    print('R2: ', r2)
    print('Intercept: ', model.intercept_)
    print('Coeficiente: ', model.coef_[0])
    
    # Graficamos los resultados
    plt.figure(figsize=(4, 3))
    plt.scatter(y_test, y_pred)
    plt.axline(xy1=(0, 0), slope=1, color='red')
    plt.xlabel('Valores reales')
    plt.ylabel('Valores predichos')
    plt.xlim(0, 1000000)
    plt.ylim(0, 1000000)
    plt.show()

In [None]:
#creamos una mascara para Palermo, Belgrano, Caballito.
municipios = np.array(['Palermo', 'Belgrano', 'Caballito'])

Elegimos estos 3 barrios porque son los que tienen mayor cantidad de registros y mejor R2 inicial en el modelo de regresión lineal simple.
> confrontar con el archivo lr-barrios-capital.ipynb donde se corrió el modelo para todos los barrios de capital federal


In [None]:
# Regresión lineal para el precio de las propiedades en función del municipio y la superficie total y guardamos el modelo en un mapa

for municipio in municipios:
    df_0_municipio =df_0_sup_m2_total[df_0_sup_m2_total['municipio'] == municipio]
    if(df_0_municipio.shape[0] > 100):
        df_0_municipio = df_0_municipio.drop('municipio', axis=1)
        print('Municipio: ', municipio)
        regresion_lineal(df_0_municipio, 'precio_usd')
        print('----------------------------------------')

## Correlación entre la variables del dataset

In [None]:
#analizamos la correlación entre cada una de las variables.
figz= plt.figure()
mask_cols= ["tipo","sup_m2_total","precio_usd","precio_usd_por_m2", "ambientes_cat", "municipio_cat_code", "ambientes_cat_code","lat"]
graph=sns.pairplot(data[mask_cols],hue="tipo")
graph.fig.set_size_inches(20,10)
plt.grid()
plt.show()


In [None]:
# Realizamos los siguientes gráficos para visualizar mejor (zoom) las relaciones- En primera medida analizamos metros totales con precio en dolares
g = sns.FacetGrid(data, col="tipo")
g.map(sns.scatterplot, "sup_m2_total", "precio_usd", alpha=.5)
g.add_legend()


In [None]:
#

g = sns.FacetGrid(data, col="tipo")
g.map(sns.scatterplot, "sup_m2_total", "precio_usd_por_m2", alpha=.5)
g.add_legend()

In [None]:
g = sns.FacetGrid(data, col="tipo")
g.map(sns.scatterplot, "precio_usd_por_m2", "precio_usd", alpha=.7)
g.add_legend()

In [None]:
g = sns.FacetGrid(data, col="tipo")
g.map(sns.scatterplot, "municipio_cat_code", "precio_usd", alpha=.7)
g.add_legend()

In [None]:
g = sns.FacetGrid(data, col="tipo")
g.map(sns.scatterplot, "ambientes_cat_code", "precio_usd", alpha=.7)
g.add_legend()

#### la variable target debe tener una distribucion cercana a la normal

In [None]:
#de acuerdo con los valores mínimos y máximos realizamos un histograma para ver la distribución de datos de precio_usd
data_2= data[(data["precio_usd"] >10000) & (data["precio_usd"]<= 4.500000e+05)]
sns.histplot(data_2["precio_usd"], color = "orange", bins = 40)

In [None]:
#de acuerdo con los valores mínimos y máximos realizamos un histograma para ver la distribución de datos de superficie total
data_2= data[(data["sup_m2_total"] >10) & (data["sup_m2_total"]<= 400)]
sns.histplot(data_2["sup_m2_total"], color = "green", bins = 40)

In [None]:
data_2= data[(data["precio_usd_por_m2"] >10) & (data["precio_usd_por_m2"]<= 2.812500e+03)]
sns.histplot(data_2["precio_usd_por_m2"], color = "blue", bins = 20)


In [None]:
data.boxplot(column= "precio_usd", by="tipo") 
plt.show()

Conclusiones del análisis de variables predictoras y target:
- La mayor cantidad de registros están Capital Federal para los barrios de Palermo, Belgrano, Caballito. Seleccionaremos el barrio Caballito porque que tiene una buena cantidad de registros y un buen R2 inicial en el modelo de regresión lineal simple inicial.
- Utilizaremos departamentos como el tipo de inmueble a modelar por contener una mayor cantidad de datos
- Consideraremos como variables predictoras: Superficie total y precio usd por su alta correlación, y su distribución. Luego evaluaremos el impacto de las variables de ubicación y ambientes.


# Analisis de regresiones sobre el dataset

## Regresión lineal simple

#### Iniciamos con un barrio de Capital Federal con una cantidad de registros mayor a 500 para ver como resulta la regresion utilizando todos los tipos de propiedades de caballito

In [None]:
# data_Caballito = data[data['municipio'] == 'Caballito']
# data_Caballito.to_csv('./data/data_limpio_gdf_caballito.csv', index=False)

In [None]:
#leemos el df creado para el barrio de caballito
df = pd.read_csv('./data/data_limpio_gdf_caballito.csv')

Comparamos un modelo de regresión simple sin división de los registros y un modelo con train_split_train

Repetimos los resultados pero ahora con datos filtrados y mayores métricas

In [None]:
#generamos la regresión simple para el barrio caballito usando como variable predictora la superficie total
#sin realizar un train_test_split para ver como dan los resultados
X = df[['sup_m2_total']]
y = df['precio_usd']

# Importamos, Instanciamos, Fiteamos, etc..

# Instanciamos el modelo.
lm = linear_model.LinearRegression()

# Fiteamos el modelo sobre los vectores X e y.
model = lm.fit(X, y)
#
# Guardamos  las predicciones en un nuevo vector que llamaremos predictions.
predictions = lm.predict(X)

# Imprimimos el intercepto y los coeficientes como atributos del objeto entrenado.
print ('Intercepto=', ' ', model.intercept_)
print ('b_sup_m2_total=', ' ', model.coef_)
# imprimimos la métrica que mide la bondad de ajusto del modelo. En este caso el R2.
print ('R2=','', model.score(X, y))
print ("EMC:", mean_squared_error(y, predictions))
print ("r_EMC:", np.sqrt(mean_squared_error(y, predictions)))

In [None]:
# #Realizamos el modelo de regresión utilizando train_test_split para los mismos datos 

# # Dividimos el dataset en train y test
X_train_1, X_test_1, y_train_1, y_test_1 = train_test_split(X, y, test_size=0.2, random_state=42)
# Instanciamos el modelo y lo entrenamos

lr = linear_model.LinearRegression()
lr.fit(X_train_1, y_train_1)

# Guardamos  las predicciones en un nuevo vector que llamaremos predictions.
predictions_1 = lr.predict(X)

In [None]:
# Imprimimos el intercepto y los coeficientes como atributos del objeto entrenado.
print ('Intercepto=', ' ', lr.intercept_)
print ('b_sup_m2_total=', ' ', lr.coef_)
# imprimimos la métrica que mide la bondad de ajusto del modelo. En este caso el R2.
print ('R2_train=', ' ', lr.score(X_train_1, y_train_1))
print ('R2_test=', ' ', lr.score(X_test_1, y_test_1))
print ("EMC:", mean_squared_error(y, predictions_1))
print ("r_EMC:", np.sqrt(mean_squared_error(y, predictions_1)))

Los resultados del coeficiente en ambos modelos no son tan diferentes, indican que por cada m2 de superficie total el valor del precio en dolares aumenta en 1713 unidades al hacer la separacion de datos y aprox 1693 unid al modelar todos los datos
El R2 de entrenamiento disminuye de 0.41 a 0.37 al hacer la separacion de los datos en train_test-_split. 
Cuando se determina el R2 en los datos no entrenados tenemos una respuesta del 60% de que nuestra variable objetivo es explicada por el modelo
En este caso preferimos usar la raiz de EMC ya que los precios estan en el orden de 1e7.

In [None]:
# Graficamos la variable X contra la variable Y, 
plt.scatter(X, y, s=30, c='black', marker='+', zorder=10)
plt.scatter(X, y)
plt.xlabel("sup_m2_total")
plt.ylabel("Valores reales precio_usd")
plt.title('Relación entre sup_m2_total y precio_usd')
plt.show()

# Graficamos el modelo re regresion del modelo con train_test_split
plt.plot(y,y, '-.',c='grey')
plt.scatter(predictions, y, s=30, c='r', marker='+', zorder=10)
plt.xlabel("Predicciones de precio_usd usando sup_m2_total")
plt.ylabel("Valores reales precio_usd")
plt.title('Comparación entre el modelo y los valores reales de precio_usd')
plt.show()

El primer gráfico nos permite ver el tipo de relacion entre la variable predictora y la variable objetivo. Se observa que hay cierta correlación entre ellas, pero estan influenciadas por los valores extremos. 
 
 El segundo gráfico es la comparación entre el valor real de precio en dolares  vs el valor predicho por nuestro modelo. 
 Puede verse que existe la correlación entre las variables pero existe el ruido de los valores extremos.

### Separamos por tipo de inmueble
Realizamos un filtro en el tipo de inmueble para ver si existen cambios en el modelo: nos quedamos con departamentos que para el barrio caballito cuenta con mas de 1500 registros

In [None]:
#Solo para departamentos
tipo_dept = ["apartment"]
df_2 = df[df["tipo"].isin(tipo_dept)]

In [None]:
# Asignamos la variable a predecir
y_d = df_2['precio_usd']
# Asignamos la variable predictora
X_d = df_2[['sup_m2_total']]
# Dividimos el dataset en train y test

X_train_2, X_test_2, y_train_2, y_test_2 = train_test_split(X_d, y_d, test_size=0.2, random_state=42)

# Instanciamos el modelo y lo entrenamos

lr_d = linear_model.LinearRegression()
lr_d.fit(X_train_2, y_train_2)

# Guardamos  las predicciones en un nuevo vector que llamaremos predictions.
predictions_d = lr_d.predict(X_d)

In [None]:
# Imprimimos el intercepto y los coeficientes como atributos del objeto entrenado.
print ('Intercepto=', ' ', lr_d.intercept_)
print ('sup_m2_total=', ' ', lr_d.coef_)

# imprimos la metrica que mide la bondad de ajusto del modelo. En este caso el R2.

print ('R2_train=', ' ', lr_d.score(X_train_2, y_train_2))
print ('R2_test=', ' ', lr_d.score(X_test_2, y_test_2))
print ("EMC:", mean_squared_error(y_d, predictions_d))
print ("r_EMC:", np.sqrt(mean_squared_error(y_d, predictions_d)))

In [None]:
# Graficamos la variable X contra la variable Y
plt.scatter(X_d, y_d, s=30, c='black', marker='+', zorder=10)
plt.scatter(X_d, y_d)
plt.xlabel("sup_m2_total")
plt.ylabel("Valores reales precio_usd")
plt.title('Relación entre sup_m2_total y precio_usd')
plt.show()

# Graficamos el modelo
plt.plot(y_d,y_d, '-.',c='grey')
plt.scatter(predictions_d, y_d, s=30, c='r', marker='+', zorder=10)
plt.xlabel("Predicciones de precio_usd usando sup_m2_total")
plt.ylabel("Valores reales precio_usd")
plt.title('Comparación entre el modelo y los valores reales de precio_usd')
plt.show()

## Regresión lineal múltiple

Agregamos a la correlacion las variables latitud y longitud

In [None]:
# Asignamos las variables predictoras

X_3 = df_2[['lat', 'lon', 'sup_m2_total']]

y_3 = df_2['precio_usd']

# Normalizamos los datos

scaler = StandardScaler()
scaler.fit(X_3)
X_3 = scaler.transform(X_3)

# Dividimos en train y test

X_train_3, X_test_3, y_train_3, y_test_3 = train_test_split(X_3, y_3, test_size=0.2, random_state=42)

# Instanciamos el modelo y lo entrenamos

lr_2= linear_model.LinearRegression()
lr_2.fit(X_train_3, y_train_3)

# Vemos los coeficientes

print('Coeficientes: ', lr_2.coef_)
print('Intercepto: ', lr_2.intercept_)
print('R2_train: ', r2_score(y_train_3, lr_2.predict(X_train_3)))
print('R2_test: ', r2_score(y_test_3, lr_2.predict(X_test_3)))
print ('MSE:', metrics.mean_squared_error(y_3, lr_2.predict(X_3)))
print ('rMSE:', np.sqrt(metrics.mean_squared_error(y_3, lr_2.predict(X_3))))


In [None]:
# Modelamos con statsmodels

X_train_sm = sm.add_constant(X_train_3)

model = sm.OLS(y_train_3, X_train_sm).fit()

print(model.summary())

Comparando la regresión multiple sencilla con la regresión OLS podemos observar como OLS nos permite validar la significancia de los datos obtenidos. Vemos con los p values para las variables latitud y longitud son mayores al nivel de significancia por lo cual estas variables no están explicando o no tiene valor de predicción sobre el valor de nuestra variable objetivo precio en dólares.

Al incluir latitud y longitud disminuye el performance del R2 a 0,38 en la regresión multiple.

Usamos OLS para ver como resultan las metricas al usar solo la variable superficie total

In [None]:
# Probamos con regularización ridge

lm_ridge = linear_model.RidgeCV(alphas=np.logspace(-6, 6, 13))

model_ridge = lm_ridge.fit(X_train_3, y_train_3)

print(lm_ridge.alpha_)
print(lm_ridge.coef_)
print(lm_ridge.intercept_)

In [None]:
model_ridge.score(X_test_3, y_test_3)

In [None]:
# Probamos con regularización lasso

lm_lasso = linear_model.LassoCV(alphas=np.logspace(-6, 6, 13), cv=5)

model_lasso = lm_lasso.fit(X_train_3, y_train_3)

print(lm_lasso.alpha_)
print(lm_lasso.coef_)

print(lm_lasso.intercept_)

In [None]:
model_lasso.score(X_test_3, y_test_3)

#### Analizaremos el impacto de la variables ambientes en la predicción de la variable precio. 

In [None]:
# Creamos las variables dummies para la variable categórica de ambientes
df_0_ambientes_cat = pd.get_dummies(df_0_ambientes_cat, columns=['ambientes_cat'], drop_first=True)
print(df_0_ambientes_cat.shape)
df_0_ambientes_cat.head()

In [None]:
df_3 = pd.concat([df_0_ambientes_cat,df_2["sup_m2_total"]],axis=1, join='inner')
print(df_3.shape)
df_3.head(4)

In [None]:
# Asignamos las variables predictoras

X_amb = df_3[['ambientes_cat_1', 'ambientes_cat_2', 'ambientes_cat_3', 'ambientes_cat_4 o mas','sup_m2_total']]
y = df_3['precio_usd']


In [None]:
# Normalizamos los datos

scaler = StandardScaler()
scaler.fit(X_amb)
X_amb = scaler.transform(X_amb)


In [None]:
# Dividimos en train y test

X_train_4, X_test_4, y_train_4, y_test_4 = train_test_split(X_amb, y, test_size=0.2, random_state=42)

In [None]:
# Instanciamos el modelo y lo entrenamos

lr_4 = linear_model.LinearRegression()
lr_4.fit(X_train_4, y_train_4)


In [None]:
# Vemos los coeficientes

print('Coeficientes: ', lr_4.coef_)
print('Intercepto: ', lr_4.intercept_)

In [None]:
# Calculamos el R2

print('R2: ', r2_score(y_test_4, lr_4.predict(X_test_4)))


In [None]:
# Modelamos con statsmodels

X_train_sm_2 = sm.add_constant(X_train_4)
model_2 = sm.OLS(y_train_4, X_train_sm_2).fit()

model_2.summary()

In [None]:
# Probamos con regularización ridge

lm_ridge_2 = linear_model.RidgeCV(alphas=np.logspace(-6, 6, 13))

model_ridge_2 = lm_ridge_2.fit(X_train_4, y_train_4)

lm_ridge_2.alpha_

In [None]:
model_ridge.score(X_test_4, y_test_4)

In [None]:
# Probamos con regularización lasso

lm_lasso_2 = linear_model.LassoCV(alphas=np.logspace(-6, 6, 13), cv=5)

model_lasso_2 = lm_lasso_2.fit(X_train_4, y_train_4)

lm_lasso_2.alpha_

In [None]:
model_lasso_2.score(X_test_4, y_test_4)

PENDIENTE- VER SI AJUSTAMOS EL MODELO REDUCIENDO LA CANTIDAD DE DATOS

In [None]:
# superficie_min=15
# superficie_max=1000

# data = data[(data.sup_m2_total <= 1000) & (data.sup_m2_total >= 15)]

# data = data[(data.precio_usd <= 4000000)]

In [None]:
# # Generamos una función que resume los coeficientes, el intercepto y el R2
# # "model" = objeto con el modelo
# # "X" = matrix de variables independientes

# def sum_mod(lr, X):
#     a = pd.DataFrame(lr.coef_ , X_simple.columns.values)
#     a = a.append(pd.DataFrame([lr.intercept_, lr.score(X_simple, y)], index=['Intecept','R2']))
#     return(a)