In [237]:
# initial setup
try:
    # settings colab:
    import google.colab
        
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

pandas=1.0.3 already installed
matplotlib=2.2.2 already installed
bokeh=2.0.0 already installed
seaborn=0.10.0 already installed


In [238]:
import pandas as pd
import seaborn as sns
import re
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import plotly.express as px
import chart_studio
import chart_studio.plotly as py
import unidecode as ud

In [239]:
pd.set_option('display.max_rows', 300)
pd.set_option('display.width', 5000)

In [240]:
import chardet
def get_encoding_type(csv_path):
    rawdata = open(csv_path, 'rb').read()
    result = chardet.detect(rawdata)
    return result.get('encoding')

In [245]:
data = pd.read_csv("properati.csv", encoding="iso-8859-1")

In [246]:
#Creo una copia del DF
data_clean = data.copy(deep=True)

In [247]:
#Columnas que son string
columnas_str = ['operation', 'property_type', 'place_name', 'place_with_parent_names', 'country_name', 'state_name', 'description', 'title']

In [248]:
#Le quito los espacios en blanco
for columna in columnas_str:
    data_clean[columna] = data_clean[columna].str.strip()

<span style="font-size:24px">OPERACION<span>

In [249]:
#BUSCAR NULOS
data_clean["property_type"].isnull().sum()

0

In [250]:
#Expresión regular para buscar venta o alquiler
regex = re.compile("(venta)|(alquiler)", flags = re.IGNORECASE)

In [252]:
#Buscar Venta o Alquiler en description
regexOperacionesDescription = data_clean.description.apply(lambda x: regex.search(str(x)))
dfVentasDescription = regexOperacionesDescription.apply(lambda x: np.NaN if x is None else x.group(0))

#Normalizar
dfVentasDescription[dfVentasDescription.notnull()].unique()
dfVentasDescription.replace(["VENTA", "venta"], "Venta", inplace=True)
dfVentasDescription.replace(["alquiler", "ALQUILER"], "Alquiler", inplace=True)
dfVentasDescription[dfVentasDescription.notnull()].unique()

#Crear columna Operacion
data_clean["Operacion_Description"] = dfVentasDescription
data_clean["Operacion_Description"].value_counts()

Venta       42336
Alquiler     1325
Name: Operacion_Description, dtype: int64

In [253]:
#Buscar Venta o Alquiler en title
regexOperacionesTitle = data_clean.title.apply(lambda x: regex.search(str(x)))
dfVentasTitle = regexOperacionesTitle.apply(lambda x: np.NaN if x is None else x.group(0))

#Normalizar
dfVentasTitle[dfVentasTitle.notnull()].unique()
dfVentasTitle.replace(["VENTA", "venta"], "Venta", inplace=True)
dfVentasTitle.replace(["alquiler", "ALQUILER"], "Alquiler", inplace=True)
dfVentasTitle[dfVentasTitle.notnull()].unique()

#Crear columna Title
data_clean["Operacion_Title"] = dfVentasTitle
data_clean["Operacion_Title"].value_counts()

Venta       36125
Alquiler      217
Name: Operacion_Title, dtype: int64

In [254]:
#Buscar Venta o Alquiler en properati_url
regexOperacionesURL = data_clean.properati_url.apply(lambda x: regex.search(str(x)))
dfVentasURL = regexOperacionesURL.apply(lambda x: np.NaN if x is None else x.group(0))

#Normalizar
dfVentasURL[dfVentasURL.notnull()].unique()
dfVentasURL.replace(["VENTA", "venta"], "Venta", inplace=True)
dfVentasURL.replace(["alquiler", "ALQUILER"], "Alquiler", inplace=True)
dfVentasURL[dfVentasURL.notnull()].unique()

#Crear columna URL
data_clean["Operacion_URL"] = dfVentasURL
data_clean["Operacion_URL"].value_counts()

Venta       121086
Alquiler       134
Name: Operacion_URL, dtype: int64

In [257]:
#Crear la columna Operacion con Operacion_URL que contempla todos los casos
data_clean["Operacion"] = data_clean["Operacion_URL"]

In [359]:
#Precios mínimos y máximos para alquiler
data_clean[data_clean.price_aprox_usd > 0].filter(items=["property_type", "price_aprox_usd"]).groupby(by="property_type").agg(['min', 'max'])

Unnamed: 0_level_0,price_aprox_usd,price_aprox_usd
Unnamed: 0_level_1,min,max
property_type,Unnamed: 1_level_2,Unnamed: 2_level_2
PH,5047.53,2800000.0
apartment,4666.62,46545445.0
house,5047.53,25000000.0
store,4952.45,13000000.0


In [360]:
#Revisar los casos con precios menores a 10.000 para ver que no sean alquileres
data_clean[(data_clean.property_type == "PH") & (data_clean.price_aprox_usd < 10000)].filter(items=["price_aprox_usd", "description"])

Unnamed: 0,price_aprox_usd,description
36433,5047.53,CODIGO: ubicado en: Guemes 4200 - Publicado ...
49105,6617.87,CODIGO: 3 ubicado en: IbaÃ±ez 7400 - Publicad...
62524,6169.2,CODIGO: 683-1295 ubicado en: Ezeiza NÂ° 2960 1...
116277,5327.94,"P3 ambientes, posee: Living comedor, cocina co..."


In [361]:
#Revisar los casos con precios menores a 10.000 para ver que no sean alquileres
data_clean[(data_clean.property_type == "home") & (data_clean.price_aprox_usd < 10000)].filter(items=["price_aprox_usd", "description"])

Unnamed: 0,price_aprox_usd,description


In [362]:
#Revisar los casos con precios menores a 10.000 para ver que no sean alquileres
data_clean[(data_clean.property_type == "apartment") & (data_clean.price_aprox_usd < 10000)].filter(items=["price_aprox_usd", "description"])

Unnamed: 0,price_aprox_usd,description
4399,5000.0,Corredor Responsable: Mauro Marvisi - CMCPSI 5...
6720,5608.31,BV Rondeau / Nancen: A metros del Shoping Port...
17731,5608.36,CODIGO: ubicado en: COOPERATIVA DE VIVIENDA R...
18705,5608.36,CODIGO: 85 ubicado en: mitre 100 - Publicado ...
19336,7851.71,Departamento de dos dormitorios con placard en...
20133,5103.61,CODIGO: 6375 ubicado en: Vera 1100 - Publicad...
21197,7583.27,SE OFRECE DEPARTAMENTO DE 2 DORMITORIOS EN BAR...
23142,7963.88,Corredor Responsable: Mariana Carrizo - CPCPI:...
23307,8973.38,Corredor Responsable: Caroline Hogner - CCI St...
26931,9500.0,Excelente Metros de Subte Lnea *A* Frente Sup...


In [363]:
#Revisar los casos con precios menores a 10.000 para ver que no sean alquileres
data_clean[(data_clean.property_type == "store") & (data_clean.price_aprox_usd < 10000)].filter(items=["price_aprox_usd", "description"])

Unnamed: 0,price_aprox_usd,description
836,8412.55,"Venta de Negocio en Tolosa, La Plata116 entre..."
37594,6730.04,"Venta de puesto de diarios, excelente ubicaciÃ..."
40173,8244.3,"Fondo de comercio almacÃ©n/quiosco.En Galeria,..."
40576,6231.51,CODIGO: 1834-024 ubicado en: LOCAL CENTRICO EN...
46687,8973.38,SE VENDE O SE ALQUILAN MAQUINAS + BANCOS - BA...
48004,8412.55,Fondo de comercio : De Indumentaria Femenina. ...
51890,8412.55,26 LOTES EXCEPCIONALES EN GENERAL RODRIGUEZ.PO...
56407,7500.0,"LOCALSARGENTO CABRAL 8, RAMOS MEJÃA. LOCAL DE..."
56924,8412.55,Fondo de comercio : De Indumentaria Femenina. ...
58951,6231.51,CODIGO: 3122-VBB-019 ubicado en: Rondeau 201 -...
