# Data Wrangling

## Librerias

### Instalacion

### Importacion

In [18]:
import pandas as pd
import numpy as np

## Carga Datos

In [15]:
dfFinalSet = pd.read_csv('FinalSet.csv', dtype = {'codigoencabezado': 'int32'})

dfFinalSet.describe(include = 'all')

Unnamed: 0,codigoencabezado,idregistro,linkpagina,fecharegistro,administracion,amueblado,antiguedad,banos,habitaciones,estudio,...,moneda,tipo,tipo_vendedor,favoritos,titulo,fecha_creacion,valido_hasta,descripcion,partner_code,user_id
count,1540.0,1540.0,1540,1540,312.0,925,710,1540.0,1538.0,1538,...,1540,1539,1312,1540.0,1540,1540,1540,1540,184,1540.0
unique,,,947,7,,2,7,,,2,...,2,3,2,,887,984,944,937,125,
top,,,https://www.olx.com.gt/item/apartamento-en-ven...,2020-05-30,,No,Entre 5 y 10 años,,,No,...,US$,Apartamento,Inmobiliaria,,ALQUILO APARTAMENTO EN VILLA CANALES,2020-05-14T17:56:10-06:00,2020-08-13T03:22:20-06:00,"Fácil acceso por Villa Nueva, Petapa, Villa Ca...",PVA-007-05-20-V,
freq,,,8,370,,721,220,,,1531,...,976,1516,1107,,10,8,8,9,5,
mean,770.5,1094163000.0,,,1107.644231,,,1.931169,2.264629,,...,,,,1.653247,,,,,,39028380.0
std,444.704021,16421840.0,,,5806.982196,,,0.811189,0.808742,,...,,,,3.218372,,,,,,24254110.0
min,1.0,1014322000.0,,,0.0,,,0.0,1.0,,...,,,,0.0,,,,,,4263970.0
25%,385.75,1100222000.0,,,0.0,,,1.0,2.0,,...,,,,0.0,,,,,,24012110.0
50%,770.5,1100356000.0,,,100.0,,,2.0,2.0,,...,,,,1.0,,,,,,26781920.0
75%,1155.25,1100379000.0,,,750.0,,,2.0,3.0,,...,,,,2.0,,,,,,61621430.0


## Data Wrangling

En esta seccion prepararemos el set de datos que se utilizara para realizar la construccion del modelo de regresion.

### Registros Unicos

Obtendremos solo los valores mas actualizados de los registros. Utilizaremos el atributo **idregistro** como identificador unico de los registros.

In [16]:
# Conversion a string del campo idregistro
dfAnalisisSet = dfFinalSet.astype({'idregistro': 'str'})

# Conversion a fecha del campo fecharegsitro
dfAnalisisSet['fecharegistro'] = pd.to_datetime(dfAnalisisSet['fecharegistro'], format = "%Y-%m-%d")

# Obtencion de fecha maxima por cada idregistro y filtro de esos registros.
dfAnalisisSet = dfAnalisisSet.loc[dfAnalisisSet.reset_index().groupby(['idregistro'])['fecharegistro'].idxmax()]

# Verificamos la cantidad de registros faltantes
dfAnalisisSet.shape

(947, 26)

### Columna Precio Real

Procedemos a crear una columna llamada **precio_real** para establecer el precio en quetzales. Para los registros que tienen un precio en dolares se aplicara el factor de conversion a quetzales.

In [20]:
# Factor de conversion
cambio_moneda = 7.69

# Creacion de nueva columna
dfAnalisisSet['precio_real'] = np.where(dfAnalisisSet['moneda'] == 'US$', dfAnalisisSet['precio'] * cambio_moneda, 
                                        dfAnalisisSet['precio'])

# Visualizams los valores de precio real
dfAnalisisSet['precio_real']

975     1207330.00
976      922800.00
966        6000.00
556        9612.50
557     1647474.84
           ...    
1211    1461100.00
1210      14995.50
1208    3875760.00
1207    1845600.00
1204       9228.00
Name: precio_real, Length: 947, dtype: float64

### Columna Oferta

Procederemos a crear una columna llamada oferta para determinar si es una venta o alquiler de apartamento. Para ello vamos a especificar un valor pivote en la columna precio. Todo valor superior al valor pivote sera considerado como una venta.

In [21]:
# Asignacion de valor pivote
intValorPivote = 50000

# Creacion de nueva columna oferta.
dfAnalisisSet['oferta'] = ['Venta' if precio > intValorPivote else 'Alquiler' for precio in dfAnalisisSet['precio_real']]

# Verificamos cuantos registros quedaron en el dataset
dfAnalisisSet.groupby(['oferta']).count()['codigoencabezado']

oferta
Alquiler    599
Venta       348
Name: codigoencabezado, dtype: int64

### Filtro Inicial

Los primeros filtros a aplicar a nuestro set de datos son los siguientes:
* Tipo de oferta como Venta, ya que solo nos interesa realizar el modelo para apartamentos en venta.
* Amueblado con valor No, ya que segun el analisis para las ventas no hay data para este atributo.
* El tipo se especificara como "Apartamento" ya que es la clasificacion que posee mayor cantidad de registros.

In [40]:
# Especificamos los filtros
dfFiltradoSet = dfAnalisisSet[(dfAnalisisSet['oferta'] == 'Venta') & 
                              ((dfAnalisisSet['amueblado'] == 'No') | (dfAnalisisSet['amueblado'].isnull())) &
                             (dfAnalisisSet['tipo'] == 'Apartamento')]

# Verificamos las dimensiones
dfFiltradoSet.shape

(341, 28)

Ahora especificamos las columnas que utilizaremos en principio para la construccion del set de datos

In [42]:
# Seleccionando las columnas a utilizar
dfFiltradoSet = dfFiltradoSet[['idregistro', 'banos', 'habitaciones', 
                               'espacio_m2', 'latitud', 'longitud', 'moneda',
                               'parqueo', 'tipo_vendedor', 'precio_real']]

dfFiltradoSet.shape

(341, 10)