In [None]:
# initial setup
try:
    # settings colab:
    import google.colab
        
except ModuleNotFoundError:    
    # settings local:
    %run "common/0_notebooks_base_setup.py"

In [None]:
data = pd.read_csv("properati.csv")

In [None]:
#CREAR COPIA DEL DATASET ORIGINAL
data_clean = data.copy(deep=True)

<hr id="Generales">

<h2 style="color: lightblue">GENERALES</h2>

In [None]:
print("cantidad de filas: " + str(data.shape[0]))
print("cantidad de columnas: " + str(data.shape[1]))

In [None]:
#Columnas String
columnas_str = ['operation', 'property_type', 'place_name', 'place_with_parent_names', 'country_name', 'state_name', 'description', 'title']

In [None]:
#Quitar espacios en blanco
for columna in columnas_str:
    data_clean[columna] = data_clean[columna].str.strip()

In [None]:
serieCantidadNulos = data_clean.isnull().sum()
dataCantidadNulos = { "Variable" : serieCantidadNulos.index[1:], "Cantidad" : serieCantidadNulos.values[1:]}
dfCantidadNulos = pd.DataFrame(dataCantidadNulos, columns=["Variable", "Cantidad"])

fig1, ax1 = plt.subplots(figsize=(15, 15))
ax1.pie(dfCantidadNulos.Cantidad.values, startangle=90)
ax1.axis('equal')
total = data_clean.shape[0]
labels = dfCantidadNulos.Variable.values

plt.legend(
    loc='upper left',
    labels=['%s, %1.1f%%' % (
        l, (s / total) * 100) for l, s in zip(labels, dfCantidadNulos.Cantidad.values)],
    prop={'size': 12},
    bbox_to_anchor=(0.0, 1),
    bbox_transform=fig1.transFigure
)

fig1.set_facecolor('lightgrey')
plt.show()

<br>
<div style="width: 100%; text-align: right"><a href="#Secciones"><img src="GoUp.png" style="height: 50px"></a></div>

<hr id="Operaciones">
<h2 style="color: lightblue">TIPOS DE OPERACIONES</h2>

In [None]:
#Expresión regular para buscar venta o alquiler
regex = re.compile("(venta)|(alquiler)", flags = re.IGNORECASE)

In [None]:
#Buscar Venta o Alquiler en description
regexOperacionesDescription = data_clean.description.apply(lambda x: regex.search(str(x)))
dfVentasDescription = regexOperacionesDescription.apply(lambda x: np.NaN if x is None else x.group(0))

#Normalizar
dfVentasDescription[dfVentasDescription.notnull()].unique()
dfVentasDescription.replace(["VENTA", "venta"], "Venta", inplace=True)
dfVentasDescription.replace(["alquiler", "ALQUILER"], "Alquiler", inplace=True)
dfVentasDescription[dfVentasDescription.notnull()].unique()

#Crear columna Operacion
data_clean["Operacion_Description"] = dfVentasDescription
data_clean["Operacion_Description"].value_counts()

In [None]:
#Buscar Venta o Alquiler en title
regexOperacionesTitle = data_clean.title.apply(lambda x: regex.search(str(x)))
dfVentasTitle = regexOperacionesTitle.apply(lambda x: np.NaN if x is None else x.group(0))

#Normalizar
dfVentasTitle[dfVentasTitle.notnull()].unique()
dfVentasTitle.replace(["VENTA", "venta"], "Venta", inplace=True)
dfVentasTitle.replace(["alquiler", "ALQUILER"], "Alquiler", inplace=True)
dfVentasTitle[dfVentasTitle.notnull()].unique()

#Crear columna Title
data_clean["Operacion_Title"] = dfVentasTitle
data_clean["Operacion_Title"].value_counts()

In [None]:
#Buscar Venta o Alquiler en properati_url
regexOperacionesURL = data_clean.properati_url.apply(lambda x: regex.search(str(x)))
dfVentasURL = regexOperacionesURL.apply(lambda x: np.NaN if x is None else x.group(0))

#Normalizar
dfVentasURL[dfVentasURL.notnull()].unique()
dfVentasURL.replace(["VENTA", "venta"], "Venta", inplace=True)
dfVentasURL.replace(["alquiler", "ALQUILER"], "Alquiler", inplace=True)
dfVentasURL[dfVentasURL.notnull()].unique()

#Crear columna URL
data_clean["Operacion_URL"] = dfVentasURL
data_clean["Operacion_URL"].value_counts()

In [None]:
#Precios mínimos y máximos para alquiler
data_clean[data_clean.price_aprox_usd > 0].filter(items=["property_type", "price_aprox_usd"]).groupby(by="property_type").agg(['min', 'max'])

In [None]:
#Revisar los casos con precios menores a 10.000 para ver que no sean alquileres
data_clean[(data_clean.property_type == "house") & (data_clean.price_aprox_usd < 10000)].filter(items=["price_aprox_usd", "description"]).head(10)

In [None]:
#Revisar los casos con precios menores a 10.000 para ver que no sean alquileres
data_clean[(data_clean.property_type == "apartment") & (data_clean.price_aprox_usd < 10000)].filter(items=["price_aprox_usd", "description"]).head(10)

In [None]:
#Revisar los casos con precios menores a 10.000 para ver que no sean alquileres
data_clean[(data_clean.property_type == "store") & (data_clean.price_aprox_usd < 10000)].filter(items=["price_aprox_usd", "description"]).head(10)

In [None]:
#Asignar "Fondo de Comercio"
regex = re.compile("venta de negocio|fondo de comercio", flags = re.IGNORECASE)
regexLocal = data_clean[(data_clean.property_type == "store")].description.apply(lambda x: regex.search(str(x)))
locales = regexLocal[regexLocal.notnull()].apply(lambda x: np.NaN if x is None else x.group(0))
data_clean.loc[locales.index, "property_type"] = "Fondo de Comercio"

In [None]:
data_clean.property_type.unique()

In [None]:
property_type_dummies = pd.get_dummies(data_clean, columns=["property_type"], prefix="tipo_propiedad")
data_clean = pd.concat([data_clean, property_type_dummies], axis=1)

In [None]:
data_clean.drop(
    ['Unnamed: 0'], \
    axis=1, inplace=True)

In [None]:
data_clean.to_csv("CleanCSV/Clean01_TipoOperacion.csv")