# Data Wrangling

## Librerias

### Instalacion

### Importacion

In [61]:
import re
import pandas as pd
import numpy as np

from sklearn.cluster import KMeans

## Carga Datos

In [62]:
dfFinalSet = pd.read_csv('FinalSet.csv', dtype = {'codigoencabezado': 'int32'})

dfFinalSet.describe(include = 'all')

Unnamed: 0,codigoencabezado,idregistro,linkpagina,fecharegistro,administracion,amueblado,antiguedad,banos,habitaciones,estudio,...,moneda,tipo,tipo_vendedor,favoritos,titulo,fecha_creacion,valido_hasta,descripcion,partner_code,user_id
count,2488.0,2488.0,2488,2488,515.0,1514,1190,2487.0,2479.0,2479,...,2488,2486,2053,2488.0,2488,2488,2488,2488,354,2488.0
unique,,,1339,9,,2,7,,,2,...,2,4,2,,1255,1440,1328,1329,206,
top,,,https://www.olx.com.gt/item/venta-de-apartamen...,2020-06-10,,No,Hasta 5 años,,,No,...,US$,Apartamento,Inmobiliaria,,ALQUILO APARTAMENTO EN VILLA CANALES,2020-05-03T13:47:49-06:00,2020-08-20T10:46:28-06:00,"Fácil acceso por Villa Nueva, Petapa, Villa Ca...",PVA-007-05-20-V,
freq,,,10,550,,1186,371,,,2470,...,1583,2439,1722,,13,9,10,13,6,
mean,1245.141479,1095538000.0,,,842.456311,,,1.959791,2.296491,,...,,,,2.102492,,,,,,39909540.0
std,718.766531,14727290.0,,,4750.896978,,,0.891991,0.813793,,...,,,,13.710706,,,,,,25103590.0
min,1.0,963778000.0,,,0.0,,,0.0,1.0,,...,,,,0.0,,,,,,4263970.0
25%,622.75,1100258000.0,,,0.0,,,1.0,2.0,,...,,,,0.0,,,,,,24012110.0
50%,1245.5,1100371000.0,,,0.0,,,2.0,2.0,,...,,,,1.0,,,,,,27450980.0
75%,1867.25,1100393000.0,,,675.0,,,2.0,3.0,,...,,,,2.0,,,,,,61621430.0


## Data Wrangling

En esta seccion prepararemos el set de datos que se utilizara para realizar la construccion del modelo de regresion.

### Registros Unicos

Obtendremos solo los valores mas actualizados de los registros. Utilizaremos el atributo **idregistro** como identificador unico de los registros.

In [63]:
# Conversion a string del campo idregistro
dfAnalisisSet = dfFinalSet.astype({'idregistro': 'str'})

# Conversion a fecha del campo fecharegsitro
dfAnalisisSet['fecharegistro'] = pd.to_datetime(dfAnalisisSet['fecharegistro'], format = "%Y-%m-%d")

# Obtencion de fecha maxima por cada idregistro y filtro de esos registros.
dfAnalisisSet = dfAnalisisSet.loc[dfAnalisisSet.reset_index().groupby(['idregistro'])['fecharegistro'].idxmax()]

# Verificamos la cantidad de registros faltantes
dfAnalisisSet.shape

(1330, 26)

### Columna Precio Real

Procedemos a crear una columna llamada **precio_real** para establecer el precio en quetzales. Para los registros que tienen un precio en dolares se aplicara el factor de conversion a quetzales.

In [64]:
# Factor de conversion
cambio_moneda = 7.69

# Creacion de nueva columna
dfAnalisisSet['precio_real'] = np.where(dfAnalisisSet['moneda'] == 'US$', dfAnalisisSet['precio'] * cambio_moneda, 
                                        dfAnalisisSet['precio'])

# Visualizams los valores de precio real
dfAnalisisSet['precio_real']

1630    2299310.00
974     1207330.00
975      922800.00
965        6000.00
556        9612.50
           ...    
2363     405000.00
2114    4921600.00
2113       6913.31
2362       3400.00
1645        900.00
Name: precio_real, Length: 1330, dtype: float64

### Columna Oferta

Procederemos a crear una columna llamada oferta para determinar si es una venta o alquiler de apartamento. Para ello vamos a especificar un valor pivote en la columna precio. Todo valor superior al valor pivote sera considerado como una venta.

In [65]:
# Asignacion de valor pivote
intValorPivote = 50000

# Creacion de nueva columna oferta.
dfAnalisisSet['oferta'] = ['Venta' if precio > intValorPivote else 'Alquiler' for precio in dfAnalisisSet['precio_real']]

# Verificamos cuantos registros quedaron en el dataset
dfAnalisisSet.groupby(['oferta']).count()['codigoencabezado']

oferta
Alquiler    833
Venta       497
Name: codigoencabezado, dtype: int64

### Filtro Inicial

Los primeros filtros a aplicar a nuestro set de datos son los siguientes:
* Tipo de oferta como Venta, ya que solo nos interesa realizar el modelo para apartamentos en venta.
* Amueblado con valor No, ya que segun el analisis para las ventas no hay data para este atributo.
* El tipo se especificara como "Apartamento" ya que es la clasificacion que posee mayor cantidad de registros.

In [66]:
# Especificamos los filtros
dfFiltradoSet = dfAnalisisSet[(dfAnalisisSet['oferta'] == 'Venta') & 
                              ((dfAnalisisSet['amueblado'] == 'No') | (dfAnalisisSet['amueblado'].isnull())) &
                             (dfAnalisisSet['tipo'] == 'Apartamento')]

# Verificamos las dimensiones
dfFiltradoSet.shape

(482, 28)

Ahora especificamos las columnas que utilizaremos en principio para la construccion del set de datos

In [67]:
# Seleccionando las columnas a utilizar
dfFiltradoSet = dfFiltradoSet[['idregistro', 'banos', 'habitaciones', 
                               'espacio_m2', 'latitud', 'longitud', 'moneda',
                               'parqueo', 'tipo_vendedor', 'precio_real']]

dfFiltradoSet.shape

(482, 10)

### Nueva Variable Ubicacion (KMeans)

Se procedera a crear una nueva variable llamada ubicacion que sera el numero de cluster asignado dependiendo de los valores de longitud y latitud.

In [68]:
# Seleccion de numero de clusters.
# Nota: En Notebook Data Analysis podriamos identificar la cantidad de cluster por medio de elbow plot
intKClusters = 10

# Se obtienen los valores que se utilizaran para la construccion de modelo KMeans
npUbicaciones = np.array(list(zip(dfFiltradoSet['longitud'], 
                                  dfFiltradoSet['latitud']))).reshape(len(dfFiltradoSet['longitud']), 2)

# Construccion del modelo
kmeanModel = KMeans(n_clusters = intKClusters, max_iter = 2000).fit(npUbicaciones)

# Asignacion de clusters a registros
dfFiltradoSet['ubicacion'] = kmeanModel.labels_

# Verificacion de la nueva columna
dfFiltradoSet.head(10)

Unnamed: 0,idregistro,banos,habitaciones,espacio_m2,latitud,longitud,moneda,parqueo,tipo_vendedor,precio_real,ubicacion
1630,1007688385,3.0,3.0,232.0,14.591,-90.506,US$,,Inmobiliaria,2299310.0,0
974,1014321966,2.0,1.0,78.0,14.6,-90.511,US$,Si,Inmobiliaria,1207330.0,0
975,1014324725,2.0,2.0,65.0,14.593,-90.491,US$,Si,Inmobiliaria,922800.0,0
557,1023944274,2.0,2.0,74.0,14.588,-90.503,US$,Si,Inmobiliaria,1647474.84,0
559,1029720345,2.0,3.0,290.0,14.607,-90.47,US$,Si,Inmobiliaria,5190750.0,6
2219,1030164820,2.0,2.0,74.0,14.588,-90.503,US$,Si,Inmobiliaria,1647474.84,0
521,1039739280,2.0,2.0,74.0,14.588,-90.503,US$,Si,Inmobiliaria,1647474.84,0
526,1041192203,1.0,1.0,79.0,14.588,-90.503,Q,Si,Inmobiliaria,1329277.0,0
527,1041192824,2.0,2.0,79.0,14.588,-90.503,Q,Si,Inmobiliaria,1604456.0,0
528,1041193829,2.0,3.0,114.0,14.588,-90.503,Q,Si,Inmobiliaria,1604456.0,0


### Filtro Baja Frecuencia (Ubicacion)

Verificaremos para la variable **ubicacion** del dataframe la frecuencia de sus valores para dejar aquellos que se encuentran bien representados.

In [69]:
srFreqUbicacion = pd.Series(dfFiltradoSet['ubicacion']).value_counts()
srFreqUbicacion

0    203
3     83
6     79
4     63
8     18
5     12
7     11
1      8
9      4
2      1
Name: ubicacion, dtype: int64

In [70]:
# Eliminando elementos que tienen baja frecuencia para ubicacion
intNumeroPivote = 5
idxEliminar = srFreqUbicacion[srFreqUbicacion <= intNumeroPivote].index
dfFiltradoSet = dfFiltradoSet[~dfFiltradoSet.ubicacion.isin(idxEliminar)]

### Manejo valores nulos

#### Validacion variables con valores nulos
Procedemos a verificar cuales son las variables que presentan valores nulos

In [71]:
dfFiltradoSet.isnull().sum()

idregistro         0
banos              0
habitaciones       0
espacio_m2         0
latitud            0
longitud           0
moneda             0
parqueo           11
tipo_vendedor    112
precio_real        0
ubicacion          0
dtype: int64

#### Tratamiento Valores Nulos Parqueo
Primero verificaremos los rangos de valores para la variable **parqueo**.

In [72]:
srFreqParqueo = pd.Series(dfFiltradoSet['parqueo']).value_counts(dropna = False)
srFreqParqueo

Si     382
No      84
NaN     11
Name: parqueo, dtype: int64

Vamos a utilizar la columna de descripcion para verificar si tiene la columna parqueo. De ser asi, se les colocara que si posee parqueo.

In [73]:
# Obtenemos la info de los registros que tienen parqueo como nulo.
dfSinParqueo = dfFiltradoSet.loc[pd.isnull(dfFiltradoSet['parqueo']), ['idregistro', 'parqueo']]

# Obtenemos la info de los regsitros del catalogo inicial solo para los registros de interes.
dfCatalogo = dfAnalisisSet.loc[dfAnalisisSet.idregistro.isin(dfSinParqueo['idregistro']), ['idregistro', 'descripcion']]

# Verificamos si existe palabra parqueo dentro de columna descripcion
dfCatalogo['parqueo'] = ["Si" if (re.search('parqueo',str(descripcion).lower())) else "No" \
                         for descripcion in dfCatalogo['descripcion']]

# Asignacion de los valores calculados para parqueo
dfFiltradoSet = dfFiltradoSet.set_index(['idregistro'])\
    .combine_first(dfCatalogo[['idregistro', 'parqueo']].set_index(['idregistro']))\
    .reset_index()

# Verificacion del parqueo
srFreqParqueo = pd.Series(dfFiltradoSet['parqueo']).value_counts(dropna = False)
srFreqParqueo

Si    390
No     87
Name: parqueo, dtype: int64