# Data Wrangling

## Librerias

### Instalacion

### Importacion

In [23]:
import pandas as pd
import numpy as np

from sklearn.cluster import KMeans

## Carga Datos

In [3]:
dfFinalSet = pd.read_csv('FinalSet.csv', dtype = {'codigoencabezado': 'int32'})

dfFinalSet.describe(include = 'all')

Unnamed: 0,codigoencabezado,idregistro,linkpagina,fecharegistro,administracion,amueblado,antiguedad,banos,habitaciones,estudio,...,moneda,tipo,tipo_vendedor,favoritos,titulo,fecha_creacion,valido_hasta,descripcion,partner_code,user_id
count,2089.0,2089.0,2089,2089,441.0,1263,1000,2089.0,2083.0,2083,...,2089,2088,1735,2089.0,2089,2089,2089,2089,287,2089.0
unique,,,1171,8,,2,7,,,2,...,2,4,2,,1089,1238,1160,1159,180,
top,,,https://www.olx.com.gt/item/apartamento-en-ven...,2020-06-10,,No,Hasta 5 años,,,No,...,US$,Apartamento,Inmobiliaria,,APARTAMENTO EN ZONA 15 / ACODI,2020-05-14T17:23:53-06:00,2020-08-12T17:56:10-06:00,"Fácil acceso por Villa Nueva, Petapa, Villa Ca...",PAA-041-01-19-V,
freq,,,8,550,,974,309,,,2076,...,1335,2051,1454,,10,8,8,10,5,
mean,1045.573001,1095163000.0,,,938.292517,,,1.95596,2.269323,,...,,,,2.089995,,,,,,39539370.0
std,603.610614,15283550.0,,,5122.267271,,,0.866011,0.808192,,...,,,,14.648158,,,,,,24666580.0
min,1.0,963778000.0,,,0.0,,,0.0,1.0,,...,,,,0.0,,,,,,4263970.0
25%,523.0,1100240000.0,,,0.0,,,1.0,2.0,,...,,,,0.0,,,,,,24012110.0
50%,1046.0,1100368000.0,,,0.0,,,2.0,2.0,,...,,,,1.0,,,,,,27450980.0
75%,1568.0,1100389000.0,,,700.0,,,2.0,3.0,,...,,,,2.0,,,,,,61621430.0


## Data Wrangling

En esta seccion prepararemos el set de datos que se utilizara para realizar la construccion del modelo de regresion.

### Registros Unicos

Obtendremos solo los valores mas actualizados de los registros. Utilizaremos el atributo **idregistro** como identificador unico de los registros.

In [24]:
# Conversion a string del campo idregistro
dfAnalisisSet = dfFinalSet.astype({'idregistro': 'str'})

# Conversion a fecha del campo fecharegsitro
dfAnalisisSet['fecharegistro'] = pd.to_datetime(dfAnalisisSet['fecharegistro'], format = "%Y-%m-%d")

# Obtencion de fecha maxima por cada idregistro y filtro de esos registros.
dfAnalisisSet = dfAnalisisSet.loc[dfAnalisisSet.reset_index().groupby(['idregistro'])['fecharegistro'].idxmax()]

# Verificamos la cantidad de registros faltantes
dfAnalisisSet.shape

(1166, 26)

### Columna Precio Real

Procedemos a crear una columna llamada **precio_real** para establecer el precio en quetzales. Para los registros que tienen un precio en dolares se aplicara el factor de conversion a quetzales.

In [25]:
# Factor de conversion
cambio_moneda = 7.69

# Creacion de nueva columna
dfAnalisisSet['precio_real'] = np.where(dfAnalisisSet['moneda'] == 'US$', dfAnalisisSet['precio'] * cambio_moneda, 
                                        dfAnalisisSet['precio'])

# Visualizams los valores de precio real
dfAnalisisSet['precio_real']

1630    2299310.00
974     1207330.00
975      922800.00
965        6000.00
556        9612.50
           ...    
2044     697636.80
1974      19225.00
2043       4106.46
1973     753620.00
1645        900.00
Name: precio_real, Length: 1166, dtype: float64

### Columna Oferta

Procederemos a crear una columna llamada oferta para determinar si es una venta o alquiler de apartamento. Para ello vamos a especificar un valor pivote en la columna precio. Todo valor superior al valor pivote sera considerado como una venta.

In [26]:
# Asignacion de valor pivote
intValorPivote = 50000

# Creacion de nueva columna oferta.
dfAnalisisSet['oferta'] = ['Venta' if precio > intValorPivote else 'Alquiler' for precio in dfAnalisisSet['precio_real']]

# Verificamos cuantos registros quedaron en el dataset
dfAnalisisSet.groupby(['oferta']).count()['codigoencabezado']

oferta
Alquiler    730
Venta       436
Name: codigoencabezado, dtype: int64

### Filtro Inicial

Los primeros filtros a aplicar a nuestro set de datos son los siguientes:
* Tipo de oferta como Venta, ya que solo nos interesa realizar el modelo para apartamentos en venta.
* Amueblado con valor No, ya que segun el analisis para las ventas no hay data para este atributo.
* El tipo se especificara como "Apartamento" ya que es la clasificacion que posee mayor cantidad de registros.

In [27]:
# Especificamos los filtros
dfFiltradoSet = dfAnalisisSet[(dfAnalisisSet['oferta'] == 'Venta') & 
                              ((dfAnalisisSet['amueblado'] == 'No') | (dfAnalisisSet['amueblado'].isnull())) &
                             (dfAnalisisSet['tipo'] == 'Apartamento')]

# Verificamos las dimensiones
dfFiltradoSet.shape

(425, 28)

Ahora especificamos las columnas que utilizaremos en principio para la construccion del set de datos

In [28]:
# Seleccionando las columnas a utilizar
dfFiltradoSet = dfFiltradoSet[['idregistro', 'banos', 'habitaciones', 
                               'espacio_m2', 'latitud', 'longitud', 'moneda',
                               'parqueo', 'tipo_vendedor', 'precio_real']]

dfFiltradoSet.shape

(425, 10)

### Ingenieria de Variables

Se procedera a crear una nueva variable llamada ubicacion que sera el numero de cluster asignado dependiendo de los valores de longitud y latitud.

In [30]:
# Seleccion de numero de clusters.
# Nota: En Notebook Data Analysis podriamos identificar la cantidad de cluster por medio de elbow plot
intKClusters = 10

# Se obtienen los valores que se utilizaran para la construccion de modelo KMeans
npUbicaciones = np.array(list(zip(dfFiltradoSet['longitud'], 
                                  dfFiltradoSet['latitud']))).reshape(len(dfFiltradoSet['longitud']), 2)

# Construccion del modelo
kmeanModel = KMeans(n_clusters = intKClusters, max_iter = 2000).fit(npUbicaciones)

# Asignacion de clusters a registros
dfFiltradoSet['ubicacion'] = kmeanModel.labels_

# Verificacion de la nueva columna
dfFiltradoSet.head(10)

Unnamed: 0,idregistro,banos,habitaciones,espacio_m2,latitud,longitud,moneda,parqueo,tipo_vendedor,precio_real,ubicacion
1630,1007688385,3,3.0,232.0,14.591,-90.506,US$,,Inmobiliaria,2299310.0,2
974,1014321966,2,1.0,78.0,14.6,-90.511,US$,Si,Inmobiliaria,1207330.0,2
975,1014324725,2,2.0,65.0,14.593,-90.491,US$,Si,Inmobiliaria,922800.0,2
557,1023944274,2,2.0,74.0,14.588,-90.503,US$,Si,Inmobiliaria,1647474.84,2
559,1029720345,2,3.0,290.0,14.607,-90.47,US$,Si,Inmobiliaria,5190750.0,5
564,1030164820,2,2.0,74.0,14.588,-90.503,US$,Si,Inmobiliaria,1647474.84,2
521,1039739280,2,2.0,74.0,14.588,-90.503,US$,Si,Inmobiliaria,1647474.84,2
526,1041192203,1,1.0,79.0,14.588,-90.503,Q,Si,Inmobiliaria,1329277.0,2
527,1041192824,2,2.0,79.0,14.588,-90.503,Q,Si,Inmobiliaria,1604456.0,2
528,1041193829,2,3.0,114.0,14.588,-90.503,Q,Si,Inmobiliaria,1604456.0,2


### Manejo Missing Values

Verificaremos para cada variable del dataframe la cantidad de valores faltantes.

In [31]:
# Verificacion de valores nulos en todas las columnas 
dfFiltradoSet.isnull().sum()

idregistro        0
banos             0
habitaciones      0
espacio_m2        0
latitud           0
longitud          0
moneda            0
parqueo          11
tipo_vendedor    97
precio_real       0
ubicacion         0
dtype: int64

Verifiquemos los rangos de valores y sus respectivas frecuencias.

In [32]:
pd.Series(dfFiltradoSet['ubicacion']).value_counts()

2    206
5     77
6     73
7     20
4     15
0     12
8     10
1      8
9      3
3      1
Name: ubicacion, dtype: int64