<img src='properati2.png' align="center" alt="drawing" width="800"/>

### Grupo 1: *Natali Ferron, Daniela Ichinose, Andres Legorburu, Federico Idoeta, Gonzalo Garcia*
---
### Flujo de trabajo 
<a name="top"></a>
* [1. Analisis exploratorio de los datos](#inicial)

* [2. Preparación de los datos para el entrenamiento](#preparacion)
* [3. Regresion Lineal](#rl)
>[3a. Regresión Lineal con Stats Model](#rlA)</br>
>[3b. Regresión Lineal con regularización Lasso](#rlB)</br>
>[3c. Regresión Lineal con regularización Ridge](#rlC)</br>
>[3d. Regresion Lineal con Elastic Net](#rlD)</br>
>[3f. Comparación de los resultados entre los distintos modelos](#rlD)</br>

* [4. Calculo de portafolio y rentabilidad](#portafolio)
>[4a. Calculo de portafolio](#portafolioA)</br>
>[4a. Calculo de rentabilidad](#portafolioB)</br>
---

In [None]:
from matplotlib import pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
from sklearn import metrics
from sklearn.model_selection import cross_val_score, train_test_split, KFold
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn import linear_model
from sklearn import metrics
import statsmodels.api as sm
from statsmodels.tools import eval_measures

%config Completer.use_jedi = False

In [None]:
data_CABA = pd.read_csv('dataCABA.csv', sep=",", index_col=0)

In [None]:
data_CABA

---
<a name="inicial"></a>
## 1. Analisis exploratorio de los datos

#### Descripción del dataset

In [None]:
print(f'El dataset esta formado por {data_CABA.shape[1]} columnas:')

print(f'    Cuatro numericas')
print(data_CABA.loc[:,('price_aprox_usd','price_m2','surface','rooms')].agg(['min','max','median']).T)

print(f'    Una columna categorica property_type con {len(data_CABA.property_type.unique())} niveles:')
print('      ',data_CABA.property_type.unique())

print(f'    Otra categorica place_name con {len(data_CABA.place_name.unique())} niveles, correspondiente a los zonas de CABA')

print('    Y 6 categoricas como dummies: cochera,contrafrente,amenities, esp_exterior,mas_1banio, estrenar')

#### Columnas (12)
>##### property_type     categorica            4 categorias (PH, apartment, house, store)
>##### place_name        categorica            55 zonas/barrios de CABA
>##### price_aprox_usd   numerica continua     precio en dolares  (22377.38000 - 3.000000e+06)
>##### rooms             numerica ordinal      habitaciones  (1-10)
>##### surface           numerica continua     superficie en m2 (18.00000 - 4.800000e+03)
>##### price_m2          numerica continua     precio por m2 (24.20719 - 9.215686e+03)
>##### contrafrente      dummie                si la propiedad es contrafrente
>##### cochera           dummie                si tiene cochera
>##### amenities         dummie                pileta, seguridad, sum..
>##### esp_exterior      dummie                patio, terraza, quincho, parrilla, paque, jardin
>##### mas_1banio        dummie                si tiene mas de un baño
>##### estrenar          dummie                si es una propiedad a estrenar

#### Evaluación de la relación entre variables

In [None]:
#Evaluamos la correlacion entre las variables numericas
data_CABA.loc[:,('price_aprox_usd','price_m2', 'rooms','surface')].corr()

In [None]:
# Graficamos la relacion entre surface con price y price_m2
sns.set_style("whitegrid")
sns.regplot(data=data_CABA[data_CABA.surface<=3000], y='price_aprox_usd', x ='surface')

In [None]:
sns.set_style("whitegrid")
sns.regplot(data=data_CABA[data_CABA.surface<=3000], y='price_m2', x ='surface')

In [None]:
# Grafico la relación entre superficie y precio, según el place_name (barrio)
g = sns.lmplot(x='surface', y='price_aprox_usd', hue='place_name', col='place_name',data=data_CABA, aspect=.7, x_jitter=2, col_wrap=6, sharex= False, sharey=False)

In [None]:
sns.set_style("whitegrid")
g = sns.lmplot(x='surface', y='price_m2', hue='place_name', col='place_name',data=data_CABA, aspect=.7, x_jitter=2, col_wrap=6, sharex= False, sharey=False)

##### Conclusiones
>##### 1) A mayor superficie aumenta el precio pero disminuye(con menor pendiente) el precio por m2
>##### 2) A mayor superficie aumenta la cantidad de rooms y aumenta tanto el precio como el precio por m2

#### Evaluación de las variables dummies

In [None]:
# Exploro los amenities con respecto al price y price_m2

In [None]:
data_final=list()
for amenitie in ['contrafrente', 'cochera', 'amenities', 'esp_exterior', 'mas_1banio','estrenar']:
    result=dict()
    amenitie_explorer= data_CABA.groupby(amenitie).price_aprox_usd.median()
    result['amenitie']= amenitie
    result['price_no']=amenitie_explorer[0]
    result['price_si']=amenitie_explorer[1]
    amenitie_explorer2= data_CABA.groupby(amenitie).price_m2.median()
    result['price_m2_no']=amenitie_explorer2[0]
    result['price_m2_si']=amenitie_explorer2[1]
    data_final.append(result)
amenities= pd.DataFrame(data_final)

In [None]:
amenities['diff_price']=amenities.price_si-amenities.price_no
amenities['diff_price_m2']=amenities.price_m2_si-amenities.price_m2_no

In [None]:
amenities

In [None]:
sns.barplot(data=amenities, x='amenitie', y='diff_price')
plt.xlabel('Amenities')
plt.ylabel('Diferencia de precio(mediana)')
plt.title('Relacion de Amenities con precio')

In [None]:
sns.barplot(data=amenities, x='amenitie', y='diff_price_m2')
plt.xlabel('Amenities')
plt.ylabel('Diferencia de precio(mediana) por m2')
plt.title('Relacion de Amenities con precio por m2')

##### Conclusion
>##### 1) El precio por metro cuadrado es mayor con la presencia de coheras, amenities y si es a estrenar
>##### 2) El precio por metro cuadrado disminuye cuando hay mas de un baño o hay espacios exteriores, ambos items que hacen referencia a propiedades con mayor superficie, lo que coincide con la observación anterior sobre que el valor por m2 desciende a mayor superficie. Sin embargo esto no es asi sobre el precio final de la propiedad

#### Evaluación de la variable rooms

In [None]:
data_CABA.loc[:,['price_aprox_usd','price_m2','rooms']].corr()

In [None]:
sns.regplot(data=data_CABA, x='rooms',y='price_aprox_usd')

In [None]:
# Grafico rooms y price
# sns.scatterplot(data=data_CABA, x='rooms',y='price_aprox_usd')

In [None]:
# Grafico rooms y precio dividido por barrios
g = sns.lmplot(x='rooms', y='price_aprox_usd', hue='place_name', col='place_name',data=data_CABA, aspect=.7, x_jitter=2, col_wrap=6, sharex= False, sharey=False)

##### Si bien rooms es una variable numérica, se nota que no sigue una relación lineal con respecto al precio, por lo que se la toma como variable categórica.
##### Se discretiza en cinco niveles

In [None]:
data_CABA['rooms']=data_CABA.rooms.apply(lambda x: x if x<=4 else '5_mas')

#### Exploracion sobre barrios y precios por m2

In [None]:
data_CABA.place_name.unique()

In [None]:
# Diccionario de comunas
comunas={ 'Retiro':1,'San Nicolás':1,'Puerto Madero':1,'San Telmo':1,'Monserrat':1,'Constitución':1,'Centro / Microcentro':1, 'Tribunales':1,
 'Recoleta':2,
'Balvanera':3,'San Cristobal':3,'Abasto':3,'Once':3,'Congreso':3,
 'Boca':4,'Barracas':4,'Parque Patricios':4,'Pompeya':4,
'Almagro':5, 'Boedo':5,
'Caballito':6,'Parque Centenario':6,
'Flores':7, 'Parque Chacabuco':7,
 
 'Villa Soldati':8, 'Villa Riachuelo':8, 'Villa Lugano':8,
'Liniers':9, 'Mataderos':9,'Parque Avellaneda':9,
'Villa Real':10, 'Monte Castro':10, 'Versalles':10, 'Floresta':10, 'Velez Sarsfield':10, 'Villa Luro':10,
 'Villa General Mitre':11, 'Villa Devoto':11, 'Villa del Parque':11, 'Villa Santa Rita':11,
'Coghlan':12, 'Saavedra':12, 'Villa Urquiza':12 ,'Villa Pueyrredón':12,
'Nuñez':13, 'Belgrano':13, 'Colegiales':13,
'Palermo':14,'Las Cañitas':14, 'Barrio Norte':14,
'Chacarita':15, 'Villa Crespo':15, 'Paternal':15, 'Villa Ortuzar':15, 'Agronomía':15, 'Parque Chas':15}

In [None]:
dataComunas=data_CABA.copy()

In [None]:
dataComunas['comuna']= dataComunas.place_name.apply(lambda x: comunas[x])

In [None]:
sns.set(rc = {'figure.figsize':(11,7)})
sns.boxplot(data=dataComunas, x='comuna', y='price_m2')
plt.xlabel('Comunas de CABA')
plt.ylabel('Precio por m2')

In [None]:
print('1.Retiro,San Nicolás,Puerto Madero, San Telmo,Monserrat,Constitución,Centro,Tribunales','\n','2.Recoleta','\n',
'3.Balvanera,San Cristobal,Abasto,Once,Congreso','\n', '4.Boca,Barracas,Parque Patricios,Pompeya','\n',
'5.Almagro,Boedo','\n',
'6.Caballito,Parque Centenario','\n',
'7.Flores,Parque Chacabuco', '8.Villa Soldati,Villa Riachuelo,Villa Lugano','\n',
'9.Liniers,Mataderos,Parque Avellaneda','\n',
'10.Villa Real,Monte Castro,Versalles,Floresta,Velez Sarsfield,Villa Luro','\n',
 '11.Villa General Mitre,Villa Devoto,Villa del Parque,Villa Santa Rita','\n',
'12.Coghlan,Saavedra,Villa Urquiza,Villa Pueyrredón','\n',
'13.Nuñez,Belgrano,Colegiales','\n',
'14.Palermo,Las Cañitas,Barrio Norte','\n',
'15.Chacarita,Villa Crespo,Paternal,Villa Ortuzar,Agronomía,Parque Chas')


In [None]:
comunas_group=dataComunas.groupby('comuna').price_aprox_usd.median().sort_values()
comunas_group.plot(kind='bar')

[Subir](#top)

---
<a name="preparacion"></a>
## 2. Preparación de los datos para el entrenamiento

#### Definimos X e Y

Se elige como variable target el precio final de la propiedad. 
Esto se realiza ya que el precio/m2 es independiente de la variable superficie, por lo que sólo se usarían variables dummy.
EL precio tiene una correlacion lineal moderada con la superficie, mientras que el precio por metro cuadrado tiene una correlación negativa muy débil(por eso al quitar superficie como variable explicativa del precio por m2 no se modifica el r2).Al estimar el precio/m2, el R2 da en el orden de 0.62 (considerando superficie) y 0.60 (sacando superficie, sólo con dummy).
Al estimar el precio final, el R2 da en el orden de 0.78 considerando superficie y variables dummy. Además se observa una relación lineal entre precio y superficie en cada barrio. Por lo tanto, se utilizará este precio predicho para calcular finalmente el precio/m2.

In [None]:
X = data_CABA.drop(['price_aprox_usd', 'price_m2'], axis = 1)
y = data_CABA.price_aprox_usd

In [None]:
X.head()

#### Dividimos en Train y Test

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 13)

#### Obtenemos Dummies

In [None]:
X_train_dummies = pd.get_dummies(X_train, drop_first=False).reset_index(drop = True)
X_test_dummies = pd.get_dummies(X_test, drop_first=False).reset_index(drop = True)

In [None]:
y_train = y_train.reset_index(drop = True)
y_test = y_test.reset_index(drop = True)

In [None]:
X_train_dummies.columns

##### Se elige Almagro, departamento y 3 rooms como variables dummies por defecto ya que representan la mediana del dataset

In [None]:
data_CABA.groupby(['place_name'])['price_aprox_usd'].median().sort_values(ascending=False)

In [None]:
data_CABA.groupby(['place_name'])['price_aprox_usd'].median().sort_values(ascending=False).median()
#data_CABA.groupby(['place_name'])['price_aprox_usd'].median().sort_values(ascending=False).hist(bins=30)

In [None]:
data_CABA[data_CABA.place_name=='Almagro'].groupby(['property_type', 'rooms'])['property_type'].count()

In [None]:
#Saco las dummies
X_train_dummies.drop(['property_type_apartment','place_name_Almagro', 'rooms_3.0'], axis=1, inplace=True)
X_test_dummies.drop(['property_type_apartment','place_name_Almagro', 'rooms_3.0'], axis=1, inplace=True)

[Subir](#top)

---
<a name="rl"></a>
## 3. Regresion Lineal

<a name="rlA"></a>
### 3a. Regresión Lineal con Stats Model

In [None]:
X_stats = sm.add_constant(X_train_dummies)

model = sm.OLS(y_train, X_stats).fit()

model.summary()

#### Se descartan del análisis las variables con coeficientes no significativos

In [None]:
mask = model.pvalues.loc[model.pvalues > 0.05]
mask = pd.DataFrame(mask)
mask.reset_index(inplace = True)
mask.rename(columns = {'index': 'dummy', 0 : 'p-value'}, inplace = True)
mask.set_index('dummy', inplace = True)
mask = mask.T
print(mask.columns)


X_train_dummies_pvalue = X_train_dummies.drop(mask.columns, axis = 1)
X_test_dummies_pvalue = X_test_dummies.drop(mask.columns, axis = 1)

#### Nueva Regresión Lineal con Stats Model

In [None]:
X_stats = sm.add_constant(X_train_dummies_pvalue)
X_stats_test = sm.add_constant(X_test_dummies_pvalue)
model = sm.OLS(y_train, X_stats).fit()

model.summary()

##### Calculo del r2 y RMSE en OLS

In [None]:
#Calculando sobre el train
OLS_predictions_train= model.predict(X_stats)

OLS_r2_train=metrics.r2_score(y_train,OLS_predictions_train)
OLS_RMSE_train=np.sqrt(metrics.mean_squared_error(y_train,OLS_predictions_train))
print(f'el R2 para train es {OLS_r2_train} y el error RMSE es {OLS_RMSE_train}')

In [None]:
#Calculando sobre el test
OLS_predictions_test= model.predict(X_stats_test)

OLS_r2_test=metrics.r2_score(y_test,OLS_predictions_test)
OLS_RMSE_test=np.sqrt(metrics.mean_squared_error(y_test,OLS_predictions_test))
print(f'el R2 para test es {OLS_r2_test} y el error RMSE es {OLS_RMSE_test}')

In [None]:
sns.scatterplot(x=y_test, y=OLS_predictions_test)

[Subir](#top)

<a name="rlB"></a>
### 3b. Regresión Lineal con regularización Lasso

Decidimos entrenar Lasso con el X_train original sin sacar las dummies con p_value no significativo ya que pensamos que es la forma mas correcta para comparar al final los modelos entre si

In [None]:
# Estandarizo superficie TEST   ESTANDARIZAMOS Y ENTRENAMOS LASSO CON X_train original
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()

#Entreno el escaler y transformo
x_train_sup_sc = sc.fit_transform(X_train_dummies['surface'].values.reshape(-1,1)) 
x_test_sup_sc =  sc.transform(X_test_dummies['surface'].values.reshape(-1,1)) 

# Lo convuierto a DF
x_train_sup_sc = pd.DataFrame(x_train_sup_sc, columns = ['surface'])
x_test_sup_sc = pd.DataFrame(x_test_sup_sc, columns = ['surface'])

# Lo agrego al DF  en la columnas surface
X_train_dummies['surface'] = x_train_sup_sc
X_test_dummies['surface'] = x_test_sup_sc

In [None]:
cv = KFold(5, shuffle=True)

In [None]:
# Entreno Lasso
lassocv = linear_model.LassoCV(alphas=np.linspace(10, 20, 1000), cv=cv, normalize=False) 
lassocv.fit(X_train_dummies, y_train)

print ("\nalpha:", lassocv.alpha_)
print ("\ncoeficientes:", lassocv.coef_)
print ("\nintercepto:", lassocv.intercept_)
print ("\nzero_coefs:", (lassocv.coef_ == 0).sum())

In [None]:
lasso_prediction_train = lassocv.predict(X_train_dummies)
lasso_r2_train=metrics.r2_score(y_train,lasso_prediction_train)
lasso_RMSE_train=np.sqrt(metrics.mean_squared_error(y_train,lasso_prediction_train))
print(f'el R2 para train es {lasso_r2_train} y el error RMSE es {lasso_RMSE_train}')


lasso_prediction_test = lassocv.predict(X_test_dummies)
lasso_r2_test=metrics.r2_score(y_test,lasso_prediction_test)
lasso_RMSE_test=np.sqrt(metrics.mean_squared_error(y_test,lasso_prediction_test))
print(f'el R2 para test es {lasso_r2_test} y el error RMSE es {lasso_RMSE_test}')

In [None]:
lasso_coef=pd.DataFrame([[v, c] for v,c in zip(X_train_dummies.columns, lassocv.coef_)], columns=['variable','coef'])

In [None]:
lasso_coef[lasso_coef.coef==0]

[Subir](#top)

<a name="rlC"></a>
### 3c. Regresión Lineal con regularización Ridge

In [None]:
#cv = KFold(5, shuffle=True) el CV ya está generado en Lasso y usaremos el mismo
RidgeCV = linear_model.RidgeCV(alphas=np.linspace(1,5, 100), cv=cv, normalize=False) 
RidgeCV.fit(X_train_dummies, y_train)
print ("\n alpha:", RidgeCV.alpha_)
print ("\n coeficientes:", RidgeCV.coef_)
print ("\n intercepto:", RidgeCV.intercept_)

In [None]:
ridge_prediction_train = RidgeCV.predict(X_train_dummies)
ridge_r2_train=metrics.r2_score(y_train,ridge_prediction_train)
ridge_RMSE_train=np.sqrt(metrics.mean_squared_error(y_train,ridge_prediction_train))
print(f'el R2 para train es {ridge_r2_train} y el error RMSE es {ridge_RMSE_train}')

ridge_prediction_test = RidgeCV.predict(X_test_dummies)
ridge_r2_test=metrics.r2_score(y_test,ridge_prediction_test)
ridge_RMSE_test=np.sqrt(metrics.mean_squared_error(y_test,ridge_prediction_test))
print(f'el R2 para test es {ridge_r2_test} y el error RMSE es {ridge_RMSE_test}')

In [None]:
metrics.mean_absolute_error(y_test,ridge_prediction_test)

[Subir](#top)

<a name="rlD"></a>
### 3d. Regresion Lineal con Elastic Net

In [None]:
# Se prueba también el modelo Elastic Net y se puede observar que el alpha es prácticamente cero.

elastic_net = linear_model.ElasticNetCV(alphas=np.linspace(0.0001,0.001, 10), normalize=False)
elastic_net.fit(X_train_dummies_pvalue, y_train)
predictions = elastic_net.predict(X_train_dummies_pvalue)

print ("\n alpha:", elastic_net.alpha_)
print ("\n r^2:", elastic_net.score(X_train_dummies_pvalue, y_train))
print ("\n coeficientes:", elastic_net.coef_)
print ("\n intercepto:", elastic_net.intercept_)

[Subir](#top)

<a name="rlF"></a>
### 3f. Comparación de los resultados entre los distintos modelos

In [None]:
filas=['R2_train','RMSE_train','R2_test','RMSE_test']
result={'OLS':[OLS_r2_train,OLS_RMSE_train,OLS_r2_test,OLS_RMSE_test],'LassoCV':[lasso_r2_train,lasso_RMSE_train,lasso_r2_test,lasso_RMSE_test],
        'RidgeCV':[ridge_r2_train,ridge_RMSE_train,ridge_r2_test,ridge_RMSE_test]}
result=pd.DataFrame(data=result,index=filas)
result

#### *Viendo los resultados, y que el valor de R2 no varía prácticamente, se elige OLS por ser el modelo con menos variables (41 variables en total).*

[Subir](#top)

---
<a name="portafolio"></a>
## 4. Calculo de portafolio y rentabilidad

<a name="portafolioA"></a>
### 4a. Calculo de portafolio

#### Muestreo de 100 filas

In [None]:
data_CABA = pd.read_csv('dataCABA.csv', sep=",", index_col=0) # importo el dataset
data_CABA['rooms']=data_CABA.rooms.apply(lambda x: x if x<=4 else '5_mas') #categorizo rooms
data_CABA_sample = data_CABA.sample(100, random_state=55)
Presupuesto1 = data_CABA_sample["price_aprox_usd"].sum()
Presupuesto1

In [None]:
# divido en X e y
X = data_CABA.drop(['price_aprox_usd', 'price_m2'], axis = 1) 
y = data_CABA.price_aprox_usd 

# Genero las variables dummies para todo el dataset X
X_dummies = pd.get_dummies(X, drop_first=False)

# Elimino una columna por cada categoria de dummie
X_dummies.drop(['property_type_apartment','place_name_Almagro', 'rooms_3.0'], axis=1, inplace=True)

# Dejo sólo las dummies que fueron usadas en el modelo
X_dummies_pvalue = X_dummies.drop(mask.columns, axis = 1)

In [None]:
# Aplico el modelo para predecir los precios de las propiedades del sample
X_dummies_OLS_all = sm.add_constant(X_dummies_pvalue)
y_pred_all = model.predict(X_dummies_OLS_all)

In [None]:
# Calculo el R2 de la predicción

R2_sample =metrics.r2_score(y,y_pred_all)
RMSE_sample=np.sqrt(metrics.mean_squared_error(y,y_pred_all))
MAE_sample= metrics.mean_absolute_error(y,y_pred_all)
print(f'el R2 es {R2_sample} , el RMSE es {RMSE_sample}, el MAE es {MAE_sample}')

In [None]:
# Genero las columnas de precio y precio por metro cuadrado predicho

data_CABA['price_pred'] = np.around(y_pred_all, 2)
data_CABA['price_m2_pred'] = np.around(y_pred_all/data_CABA['surface'], 2)

In [None]:
# Genero la columna de diferencia (en fracción) en precio de mercado y precio predicho

data_CABA['fracc_dif'] = 1 - (data_CABA['price_pred'] / data_CABA['price_aprox_usd']) 

In [None]:
data_CABA['dif_clasify'] = data_CABA.fracc_dif.apply(lambda x: 'incierto' if abs(x)< 0.05 else ('sobrevaluado' if x>0 else 'subvaluado'))

In [None]:
data_CABA.sample(10)

In [None]:
# Estos son los valores mínimos y máximos de las diferencias en porcentaje. Se observa que las diferencias son muy grandes, por lo que se filtran las propiedades en el paso siguiente.

data_CABA.fracc_dif.min()*100, data_CABA.fracc_dif.max()*100

In [None]:
# Filtro el dataset tomando sólo las propiedades que varían en mas/menos un 30% ya que sino hay variaciones muy grandes. Se pueden atribuir a problemas de representabilidad de algún grupo, errores de carga o de imputación.
# Sumo los valores de mercado de las propiedades hasta alcanzar el budget 24.5MMUSD. Luego sumo el valor de tasación del modelo para obtener la posible ganancia.

data_sort_filtered = data_CABA[(data_CABA.fracc_dif > -0.3) & (data_CABA.fracc_dif < 0.3)].sort_values(by='fracc_dif')
data_sort_filtered.price_aprox_usd.head(125).sum(), np.around(data_sort_filtered.price_pred.head(125).sum(), 2)

In [None]:
import plotly.express as px
import plotly.offline as pyo

fig = px.pie(data_sort_filtered, values='price_aprox_usd', names='dif_clasify', color='dif_clasify',
             color_discrete_map={'sobrevaluado':'royalblue',
                                 'subvaluado':'darkblue',
                                'incierto': 'cyan'}, labels='dif_clasify', title='Proporción de Subvaluados, Sobrevaluados e Inciertos')
fig.show()

# Set notebook mode to work in offline
pyo.init_notebook_mode()

#### *Conclusión: Hay 10mil valores en los que la diferencia es de más del 30% por lo que probablemente sea un error del modelo o porque ese grupo está poco representado, por lo que se toman sólo las propiedades que cuya diferencia con el valor de tasación se encuentra en un rango de mas/menos 30%*

[Subir](#top)

<a name="portafolioB"></a>
### 4b. Calculo de rentabilidad

In [None]:
data_sort_filtered.head(125)

In [None]:
data_CABA.shape, data_sort_filtered.shape

In [None]:
diferencia_abs = - data_sort_filtered.price_aprox_usd.head(124).sum() + np.around(data_sort_filtered.price_pred.head(124).sum(), 2)
renta = np.round(diferencia_abs * 100 / data_sort_filtered.price_aprox_usd.head(124).sum(),2)

print(f'Del portafolio elegido se obtiene una rentabilidad de: {renta}%')

[Subir](#top)