### Columnas: surface_total_in_m2 / surface_covered_in_m2 / expenses / property_type

1 - Importamos las librerias: Pandas, Numpy, Seaborn y Matplotlib. Ademas, llamamos a la magic function de matplotlib inline

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
#Importamos el dataset

df = pd.read_csv("properatti.csv", sep = ",")

In [3]:
#Revisamos que esten todas las columnas del dataset

df.columns

Index(['Unnamed: 0', 'operation', 'property_type', 'place_name',
       'place_with_parent_names', 'country_name', 'state_name', 'geonames_id',
       'lat-lon', 'lat', 'lon', 'price', 'currency',
       'price_aprox_local_currency', 'price_aprox_usd', 'surface_total_in_m2',
       'surface_covered_in_m2', 'price_usd_per_m2', 'price_per_m2', 'floor',
       'rooms', 'expenses', 'properati_url', 'description', 'title',
       'image_thumbnail'],
      dtype='object')

In [4]:
#Borramos las columnas que no son necesarias ya que no aportan datos relevantes

to_drop = ['operation', #Todas las operaciones son del tipo sell
          'country_name', #Todas son en Argentina
          'expenses', #No aporta datos relevantes
          'properati_url', #No aporta datos relevantes
          'image_thumbnail'] #No aporta datos relevantes

df.drop(columns=to_drop, inplace = True) #Aplicamos el drop

In [5]:
df.sample(5)

Unnamed: 0.1,Unnamed: 0,property_type,place_name,place_with_parent_names,state_name,geonames_id,lat-lon,lat,lon,price,...,price_aprox_local_currency,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,description,title
59198,59198,apartment,Miramar,|Argentina|Buenos Aires Costa Atlántica|Miramar|,Buenos Aires Costa Atlántica,3430668.0,"-38.273109,-57.8362858",-38.273109,-57.836286,70000.0,...,1235115.0,70000.0,330.0,75.0,212.121212,933.333333,,3.0,Departamento de tres ambientes ubicado en el e...,Departamentos de tres ambientes
67136,67136,apartment,Temperley,|Argentina|Bs.As. G.B.A. Zona Sur|Lomas de Zam...,Bs.As. G.B.A. Zona Sur,3427776.0,,,,120000.0,...,2117340.0,120000.0,,65.0,,1846.153846,,,Departamento tipo casa en primer piso por esca...,Departamento - Temperley Este
7734,7734,apartment,Palermo,|Argentina|Capital Federal|Palermo|,Capital Federal,3430234.0,"-34.5793434,-58.4244159",-34.579343,-58.424416,182000.0,...,3211299.0,182000.0,80.0,74.0,2275.0,2459.459459,7.0,4.0,"Venta de Departamento 4 AMBIENTES en Palermo, ...",DEPARTAMENTO EN VENTA
47992,47992,house,Misiones,|Argentina|Misiones|,Misiones,3430657.0,"-27.6032396,-55.3257211",-27.60324,-55.325721,375000.0,...,6616687.5,375000.0,850.0,350.0,441.176471,1071.428571,,,***SE VENDE CASA CÉNTRICA***---FRENTE A LA PLA...,***SE VENDE CASA CÉNTRICA*** ---FRENTE A LA PL...
9706,9706,house,Río Ceballos,|Argentina|Córdoba|Río Ceballos|,Córdoba,3838902.0,"-31.3753329,-64.1487594",-31.375333,-64.148759,1500000.0,...,26466750.0,1500000.0,,145.0,,10344.827586,2.0,3.0,Casa en Venta de 1 dorm. en Río Ceballos,Casa Bº 4 Vientos Camino a Rio Ceballos


In [6]:
#Comprobamos que tiene 121.220 lineas

df.index

RangeIndex(start=0, stop=121220, step=1)

In [7]:
df.index.is_unique

True

In [8]:
#Verifico el index unique en la columna Unnamed: 0

df.index.is_unique
df['Unnamed: 0'].is_unique

#Unnamed:0 sera la nueva columna index, y la vamos a renombrar

df.rename(index=str, columns={"Unnamed: 0": "indice"}, inplace = True)

In [9]:
df.sample(2)

Unnamed: 0,indice,property_type,place_name,place_with_parent_names,state_name,geonames_id,lat-lon,lat,lon,price,...,price_aprox_local_currency,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,description,title
2571,2571,house,Moreno,|Argentina|Bs.As. G.B.A. Zona Oeste|Moreno|,Bs.As. G.B.A. Zona Oeste,3430550.0,"-34.65470123,-58.80490112",-34.654701,-58.804901,,...,,,300.0,120.0,,,,3.0,Casa a solo 12 cuadras de estación. Todos los ...,U$D 65.000 - Casa en Venta - Soule 728
71815,71815,apartment,San Cristobal,|Argentina|Capital Federal|San Cristobal|,Capital Federal,3429153.0,"-34.6203657138,-58.393122026",-34.620366,-58.393122,93000.0,...,1640938.5,93000.0,42.0,40.0,2214.285714,2325.0,,,Excelente departamento a estrenar al frente co...,Departamento - S.Cristobal


# Property Type --> OK

In [10]:
#Vemos los tipos de propiedades existentes, y su correspondiente cantidad

df['property_type'].value_counts()

apartment    71065
house        40268
PH            5751
store         4136
Name: property_type, dtype: int64

In [11]:
#Revisamos si alguna linea tiene el tipo de propiedad vacio
#Vemos que no, que todas las 121.220 lineas existentes tienen el campo completo

df['property_type'].value_counts().sum()

121220

In [12]:
house = df.loc[:, 'property_type'] == 'house'
print("La cantidad de house es: ",house.sum())

apartment = df.loc[:, 'property_type'] == 'apartment'
print("La cantidad de apartment es: ",apartment.sum())

PH = df.loc[:, 'property_type'] == 'PH'
print("La cantidad de PH es: ",PH.sum())

store = df.loc[:, 'property_type'] == 'store'
print("La cantidad de store es: ",store.sum())

tipodepropiedad = house & apartment & PH & store
print("La cantidad de propiedades sin tipo es: ",tipodepropiedad.sum())

La cantidad de house es:  40268
La cantidad de apartment es:  71065
La cantidad de PH es:  5751
La cantidad de store es:  4136
La cantidad de propiedades sin tipo es:  0


# Surface (covered y total)

## Opcion 1: funcion para obtener metros cuadrados (a partir de surface_total_in_m2 y surface_covered_in_m2)

In [13]:
import re
import matplotlib as mpl
from scipy import stats
import math
import operator
import plotly

In [14]:
df['surface_covered_in_m2'].isnull().sum()

19907

In [15]:
df['surface_total_in_m2'].isnull().sum()

39328

### Vamos a tratar de llenar los datos faltantes de superficie total en el dataset, rellenando con el promedio por barrio de cada publicacion

In [16]:
#Primero vamos a ordenar el dataset para poder tener los partidos en orden y limpios

In [17]:
df.rename(index=str, columns={"Unnamed: 0": "indice"}, inplace=True)

In [18]:
#Primero hacmemos data wrangling de la columna "place_with_parent_names"

df.place_with_parent_names = df.place_with_parent_names.map(str.lower) #llevo a minusculas para evitar duplicados

grouped_places = df.groupby(['place_with_parent_names']) #agrupo por place_with_parent_names

dictio_places = grouped_places.groups.keys() #genero diccionario de places

cantidad_places = len(dictio_places) #cuento la cantidad de places distintos

print("Cantidad de place_with_parent_names distintos: ",cantidad_places)

Cantidad de place_with_parent_names distintos:  1164


In [19]:
count_x_places = grouped_places.agg({"indice": "count"}) #agrupo y cuento

count_x_places = count_x_places.rename(index=str, columns={"indice": "cantidad"}) #renombro la columna por cantidad

count_x_places = count_x_places.sort_values(by=['cantidad'], ascending=False) #ordeno por cantidad descendente

In [20]:
len(count_x_places.query("cantidad > 50")) # places con mas de <n> registros. Solo consulta

261

In [21]:
list_places = [sub_places.split('|') for sub_places in count_x_places.index]

df_places = pd.DataFrame(list_places, 
                         index = count_x_places.index, 
                         columns =['none1','pais','provincia','partido','localidad','barrio','none2'])

df_places = df_places.drop(['none1', 'none2'], axis=1) # elimino none1 y none2
df_places = df_places.drop(['pais'], axis=1) # elimino pais ya que todos son argentina
df_places[df_places.barrio.notnull()] # el unico que tiene barrios es tigre-nordelta
df_places = df_places.drop(['barrio'], axis=1) # elimino barrio tambien

In [22]:
# Para cada columna busco vacios y asigno None

for column_name in df_places.columns:
    df_places[column_name][df_places[column_name].apply(lambda column_name: True if re.search('^\s*$', str(column_name)) else False)]=None

df_places = df_places.sort_values(by=['provincia','partido','localidad']) #ordeno

# creo df de provincias partidos y localidades
df_provincias = pd.DataFrame(df_places.provincia.unique(),columns=['nombre'])
df_partidos = pd.DataFrame(df_places.partido.unique(),columns=['nombre'])
df_localidades = pd.DataFrame(df_places.localidad.unique(),columns=['nombre'])

def buscar_reemplazar_place_column(row,column_name,df_base):
    if row[column_name]:
        idx = df_base.index[df_base.nombre == row[column_name]]
        return int(idx.data[0])
    
df_places.provincia =  df_places.apply(buscar_reemplazar_place_column,args=('provincia',df_provincias),axis=1)
df_places.partido =  df_places.apply(buscar_reemplazar_place_column,args=('partido',df_partidos),axis=1)
df_places.localidad =  df_places.apply(buscar_reemplazar_place_column,args=('localidad',df_localidades),axis=1)
df_places.sample(5)


Int64Index.data is deprecated and will be removed in a future version



Unnamed: 0_level_0,provincia,partido,localidad
place_with_parent_names,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
|argentina|bs.as. g.b.a. zona sur|la plata|grand bell|,2,27.0,398.0
|argentina|chubut|los cipreses|,8,204.0,
|argentina|catamarca|santa maría|,6,189.0,
|argentina|buenos aires interior|general lavalle|,4,89.0,
|argentina|bs.as. g.b.a. zona oeste|morón|villa sarmiento|,1,18.0,309.0


In [23]:
# agrega la relacion para las columnas que se vayan pasando respecto al dataframe de provincias, localidades y partidos

def agregar_columna_place(row,column_name,test):
    if (row.place_with_parent_names):
        return df_places.loc[row.place_with_parent_names][column_name]
    
provincias = df.apply(agregar_columna_place,args=('provincia','random'),axis=1)
df['provincia'] = pd.Series(provincias, index=df.index)
partidos = df.apply(agregar_columna_place,args=('partido','random'),axis=1)
df['partido'] = pd.Series(partidos, index=df.index)
localidades = df.apply(agregar_columna_place,args=('localidad','random'),axis=1)
df['localidad'] = pd.Series(localidades, index=df.index)
df.sample(3)

Unnamed: 0,indice,property_type,place_name,place_with_parent_names,state_name,geonames_id,lat-lon,lat,lon,price,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,description,title,provincia,partido,localidad
33796,33796,house,Villa Martelli,|argentina|bs.as. g.b.a. zona norte|vicente ló...,Bs.As. G.B.A. Zona Norte,,"-34.54985,-58.507648",-34.54985,-58.507648,225000.0,...,271.0,,830.258303,,4.0,Corredor Responsable: Ramiro Cappelloni - C.M....,Casa 4 amb. en 2 plantas y deposito c/entrada ...,0.0,9.0,245.0
46860,46860,apartment,San Telmo,|argentina|capital federal|san telmo|,Capital Federal,3428113.0,"-34.6117437576,-58.3861532218",-34.611744,-58.386153,139000.0,...,85.0,1635.294118,1635.294118,,4.0,"Muy buen departamento de 4 ambientes, ubicado ...",Depto. de 4 ambientes.,5.0,168.0,
115246,115246,house,Córdoba,|argentina|córdoba|córdoba|,Córdoba,3860259.0,"-33.092406,-64.324792",-33.092406,-64.324792,180000.0,...,240.0,,750.0,,11.0,"Vendo casa a reciclar en Bº Jardin, excelente ...",Vendo casa en Bº Jardin,10.0,234.0,


In [24]:
df['state_name'].value_counts()

Capital Federal                 32316
Bs.As. G.B.A. Zona Norte        25560
Bs.As. G.B.A. Zona Sur          13952
Córdoba                         12069
Santa Fe                        10172
Buenos Aires Costa Atlántica    10006
Bs.As. G.B.A. Zona Oeste         9322
Buenos Aires Interior            2291
Río Negro                         808
Neuquén                           733
Mendoza                           681
Tucumán                           674
Corrientes                        583
Misiones                          464
Entre Ríos                        369
Salta                             278
Chubut                            259
San Luis                          252
La Pampa                          157
Formosa                            65
Chaco                              57
San Juan                           40
Tierra Del Fuego                   31
Catamarca                          27
Jujuy                              26
Santa Cruz                         20
La Rioja    

In [25]:
df['provincia'].value_counts()

5.0     32316
0.0     25560
2.0     13952
10.0    12069
24.0    10172
3.0     10006
1.0      9322
4.0      2291
19.0      808
18.0      733
16.0      681
27.0      674
9.0       583
17.0      464
11.0      369
20.0      278
8.0       259
22.0      252
14.0      157
12.0       65
7.0        57
21.0       40
26.0       31
6.0        27
13.0       26
23.0       20
25.0        4
15.0        4
Name: provincia, dtype: int64

In [26]:
# Analisis del cambio de columnas realizado con place_with parent names

df.place_name = df.place_name[df.place_name.notnull()].map(str.lower)
df_place_name = df.place_name

df_place_name_not_in = df_place_name[~(df_place_name.isin(df_partidos.nombre))]
df_place_name_not_in_loc = df_place_name_not_in[~(df_place_name_not_in.isin(df_localidades.nombre))]
df_place_name_not_in_loc_prov = df_place_name_not_in_loc[~(df_place_name_not_in_loc.isin(df_provincias.nombre))]
df_place_name_not_in_loc_prov.unique()
#Puedo eliminar la columna place_name

array(['barrio el golf', 'barrio las glorietas', 'barrio los lagos',
       'enyoi', 'qbay yacht', 'barrio la alameda', 'islas del canal',
       'barrio los alisos', 'barrioportezuelo', nan, 'barrio la isla',
       'barrio los tilos', 'barrio los sauces', 'barrio cabos del lago',
       'barrio los castores', 'barrio barrancas del lago',
       'barrio el yacht'], dtype=object)

In [27]:
# Reemplazo los valores que encuentro en place_name y que estan definidos en partidos

df.place_name = df.place_name[df.place_name.notnull()].map(str.lower)

def buscar_reemplazar_place_definidos(row,column_name,df_base): # funcion que buscar y reemplaza de la columna base (provincia, localidad, partido)
    a = df_base.nombre.str.contains(row[column_name], regex=False).any()
    if a:
        idx = df_base.index[df_base.nombre == row[column_name]]
        return int(idx.data[0])
    
df_place_name = df.place_name
mask_in_partidos = (df_place_name.isin(df_partidos.nombre))
mask_not_column_partido = df.partido.isnull()

print("Partidos con null:",df.partido.isnull().sum())

Partidos con null: 4780


In [28]:
df_reemplazar_part = df[mask_not_column_partido&mask_in_partidos].apply(buscar_reemplazar_place_definidos,args=('place_name',df_partidos),axis=1)
df.partido.update(df_reemplazar_part)
print("Partidos con null luego de procesar:",df.partido.isnull().sum())


Int64Index.data is deprecated and will be removed in a future version



Partidos con null luego de procesar: 1904


In [29]:
# Reemplazo los valores que encuentro en place_name y que estan definidos en localidades

df_place_name = df.place_name
mask_in_localidades = (df_place_name.isin(df_localidades.nombre))
mask_not_column_localidad = df.localidad.isnull()

print("Localidades con null:",df.localidad.isnull().sum())

df_reemplazar_loc = df[mask_not_column_localidad&mask_in_localidades].apply(buscar_reemplazar_place_definidos,args=('place_name',df_localidades),axis=1)
df.localidad.update(df_reemplazar_loc)

print("Localidades con null luego de procesar:",df.localidad.isnull().sum())

Localidades con null: 80803



Int64Index.data is deprecated and will be removed in a future version



Localidades con null luego de procesar: 68992


In [30]:
# borrar columnas que ya no se utilizaran
to_drop = [
            'place_name', # ya no se utilizara
            'place_with_parent_names', # se hizo el data wrangling
            'state_name' # esta completo en columna provincia
        ] #listar columnas no utilizadas
df.drop(columns=to_drop, inplace=True) #aplicar drop
df.sample(2)

Unnamed: 0,indice,property_type,geonames_id,lat-lon,lat,lon,price,currency,price_aprox_local_currency,price_aprox_usd,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,description,title,provincia,partido,localidad
27653,27653,house,3430310.0,,,,259000.0,USD,4569925.5,259000.0,...,155.0,1670.967742,1670.967742,,,Excelente duplex a estrenar de 3 amb + play Ã³...,"Casa 155m² con Cochera en San Lorenzo 1900, Vi...",0.0,9.0,243.0
99904,99904,apartment,,"-34.6017036521,-58.3865848907",-34.601704,-58.386585,178000.0,USD,3140721.0,178000.0,...,65.0,,2738.461538,,,"""TORRE TUCUMAN"" Hermoso departamento de 3 ambi...",Departamento - Tribunales,5.0,169.0,


#### IMPORTANTE!!! Faltaria ver como podemos hacer para que la informacion de provincia, partido y localidad la muestra como texto y no como valores

### Ahora vamos a limpiar la columna de surface

In [31]:
df_title = df[df.title.notnull()]
df_title.title = df_title.title.map(str.lower)
pattern_m2 = re.compile("(\d+\s*) m2")

def get_m2(row):
    result = pattern_m2.search(row)
    try:
        str_aux = result.group(1)
        array_m2 = str_aux.split()
        m2 = array_m2[-1]
        try:
            m2 = float(m2)
            return m2
        except:
            return np.nan;
    except:
        return np.nan

print("Cantidad de nulos m2 total surface: ",df.surface_total_in_m2.isnull().sum())

m2_from_title = df_title.title.apply(get_m2)
m2_from_title[m2_from_title.notnull()]
df.surface_total_in_m2.update(m2_from_title)

print("Cantidad de nulos luego de procesar: ",df.surface_total_in_m2.isnull().sum())

Cantidad de nulos m2 total surface:  39328
Cantidad de nulos luego de procesar:  38873


In [32]:
#Vamos a generar los 39.328 datos faltantes en surface_total en la tabla, y lo vamos a hacer
#rellenando con el promedio del barrio de cada propiedad

print("Cantidad de nulos en surface_total_in_m2 antes:",df.surface_total_in_m2.isnull().sum())

# creamos una proporción de metros cubiertos sobre metros totales - no puede ser mayor a 1!
propcubierto = df.surface_covered_in_m2 / df.surface_total_in_m2
mask = propcubierto < 1
propcubierto_clean  = propcubierto[mask]

Cantidad de nulos en surface_total_in_m2 antes: 38873


In [33]:
#Relevamos algunos casos anómalos, donde la proporción da mayor a uno (inverosímil). Desestimamos estos 1200 registros para este procedimiento.
tempmask = propcubierto > 1
np.sum(tempmask)

1200

In [34]:
#Creamos una nueva variable sin esos datos anómalos
mask = propcubierto < 1
propcubierto_clean  = propcubierto[mask]

In [36]:
#Hay dos casos anómalos donde superficie cubierta es cero, los reemplazamos por np.nan para evitar conflictos en el siguiente paso.
masksurface0 = (df.surface_covered_in_m2 == 0)
df.surface_covered_in_m2[masksurface0] = np.nan

#Agregamos la columna al dataframe
df['propcubierto']=propcubierto_clean

#Agrupamos por provincia(partido) el porcentaje promedio de m2cubierto/m2total
avg_propcubiertobarrio = df.groupby('partido')["propcubierto"].mean().sort_values(ascending = False)

#Cantidad de datos para calcular la proporcion 
avg_propcubiertobarriocount = df.groupby('partido')["propcubierto"].count().sort_values(ascending = False)

#Condición de la regla 1
removerporcantidadmask = avg_propcubiertobarriocount > 30

#Cantidad de datos existentes en tabla
datos_en_tabla = df.groupby('partido')['partido'].count().sort_values(ascending = False)

#Divido los datos existentes sobre los datos totales y obtengo la relación para la regla DOS
proporcion = avg_propcubiertobarriocount / datos_en_tabla
proporcion.round(2).sort_values(ascending = True)

#Condición de la regla 2
removerporproporcionmask = proporcion > 0.25

#Genero máscara con ambas condiciones
proporcionmask2 = removerporcantidadmask & removerporproporcionmask
propvalidados = avg_propcubiertobarrio[proporcionmask2]

#Ahora iteramos por las propiedades que tienen el dato faltante de superficie total y les inputamos la proporción promedio
#del barrio al que pertenecen, usando como dato la superficie cubierta.
# SUPERFICIE TOTAL = (SUPERFICIE CUBIERTA / PROPORCION CUBIERTO TOTAL)

surface_total_in_m2_clean = []
for index, row in df.iterrows():
    
    if pd.isnull(row.surface_total_in_m2):    
        if(propvalidados.index.contains(row.partido)):        
            surface_total_in_m2_clean.append(row.surface_covered_in_m2 / propvalidados.loc[row.partido]) #VERSION CON PROPVALIDADOS NO CORRE
        else:
            surface_total_in_m2_clean.append(row.surface_total_in_m2)    
    else:
        surface_total_in_m2_clean.append(row.surface_total_in_m2)
df["surface_total_in_m2_nueva"] = surface_total_in_m2_clean
df["surface_total_in_m2_nueva"]

#dropeamos los casos NaN
surfacetotalnueva_condatos = df.surface_total_in_m2_nueva.dropna()

#y finalmente, los reemplazamos en la columna "surface_total_in_m2_nueva" original del DF
df.surface_total_in_m2.update(surfacetotalnueva_condatos)

print("Cantidad de nulos en surface_total_in_m2 despues:",df.surface_total_in_m2.isnull().sum())



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


The 'contains' method is deprecated and will be removed in a future version. Use 'key in index' instead of 'index.contains(key)'



Cantidad de nulos en surface_total_in_m2 despues: 21181


In [38]:
df.columns

Index(['indice', 'property_type', 'geonames_id', 'lat-lon', 'lat', 'lon',
       'price', 'currency', 'price_aprox_local_currency', 'price_aprox_usd',
       'surface_total_in_m2', 'surface_covered_in_m2', 'price_usd_per_m2',
       'price_per_m2', 'floor', 'rooms', 'description', 'title', 'provincia',
       'partido', 'localidad', 'propcubierto', 'surface_total_in_m2_nueva'],
      dtype='object')

In [39]:
df.surface_total_in_m2.isnull().sum()

21181

#### Ya podemos hacer un drop de las columnas surface_total_in_m2 y surface_covered_in_m2, debido a que tenemos una nueva columna llamada surface_total_in_m2_nueva y es la cual utilizaremos de ahora en adelante

## Opcion 2: para aquellas filas con surface_total vacia, la rellenamos con la columna surface_covered si estuviese completa (es mas simple pero menos exacto y certero)

#### Definimos una nueva columna que se va a llamar "surface_total", la cual sera "surface_covered_in_m2" si "surface_total_in_m2" == NaN o sera "surface_total_in_m2" en caso contrario

In [None]:
#Vamos a llamar a la funcion init_data, para utilizar unicamente las columnas que nos interesan
init_data = df[['place_name', 'price_aprox_usd', 'surface_total_in_m2', 'surface_covered_in_m2', 'price_usd_per_m2']]

In [None]:
init_data.info()

#### Renombramos las columnas para que sea mas facil acceder a ellas

In [None]:
init_data.columns = ['location', 'total_price', 'total_surface', 'covered_surface', 'm2_price']
init_data.info()

In [None]:
#Testeamos la nueva funcion init_data para chequear que este andando correctamente
init_data.head(10)

#### Definimos la funcion para completar los campos faltantes en "total_surface"

In [None]:
def set_surface(row):
    total = row.total_surface
    covered = row.covered_surface
    if np.isnan(total):
        row.total_surface = covered
        return row
    return row

In [None]:
#Aplicamos la nueva funcion
surface_data = init_data.apply(set_surface, axis = 1)
surface_data.head()

In [None]:
#Corremos un .info para chequear si vario la cantidad de propiedades con surface completo
#Vemos que antes teniamos 81.892 y ahora tenemos 108.851. Quedamos muy cerca del total de propiedades
#que son 121.197, por lo que estariamos ok
surface_data.info()