# Data Cleaning

## Librerias

### Instalacion

In [35]:
import sys
!{sys.executable} -m pip install pandas
!{sys.executable} -m pip install psycopg2
!{sys.executable} -m pip install sqlalchemy
!{sys.executable} -m pip install numpy



### Importacion

In [49]:
import sqlalchemy
import re
import pandas as pd
import numpy as np

print("Import succeded")

Import succeded


## Lectura Datos
Primeramente realizaremos la lectura de datos en la base de datos postgres

In [6]:
from sqlalchemy import create_engine
engine = create_engine('postgresql://postgres:150592@localhost:5432/DBApartamentos')

dfEncabezadoRegistros = pd.read_sql_query('select * from encabezadoregistros',con=engine)
dfDetalleRegistros = pd.read_sql_query('select * from detalleregistros',con=engine)

dfDetalleRegistros.head(10)

Unnamed: 0,codigodetalle,codigoencabezado,nombrecampo,valorcampo,valorjson,fecharegistro
0,1,1,Tipo,Apartamento,,2020-05-14
1,2,1,Amueblado,No,,2020-05-14
2,3,1,Habitaciones,1,,2020-05-14
3,4,1,Baños,1,,2020-05-14
4,5,1,Metros Cuadrados Totales,25 m2,,2020-05-14
5,6,1,Parqueadero,Si,,2020-05-14
6,7,1,Administración,0,,2020-05-14
7,8,1,Precio,US$ 800,,2020-05-14
8,9,1,Latitude,14.618,,2020-05-14
9,10,1,Longitude,-90.516,,2020-05-14


## Configuraciones

In [99]:
# Bandera para realizar mapeo de valores categoricos a valores numericos
blnMapeo = False

## Wrangling Detalle

Primeramente procederemos a realizar una transformacion de los datos detalle. El objetivo es dejar los diferentes tipos de campos (NombreCampo) como columnas de un data frame, y que solo exista un registro por cada codigo encabezado.

In [7]:
dfDetalleRegistros.dtypes

codigodetalle        int64
codigoencabezado     int64
nombrecampo         object
valorcampo          object
valorjson           object
fecharegistro       object
dtype: object

In [8]:
dfDetalleRegistros.groupby(['nombrecampo']).count()['codigodetalle']

nombrecampo
Administración               58
Amueblado                   147
Antigüedad                   88
Baños                       280
Habitaciones                280
JSON                        280
Latitude                    280
Longitude                   280
Metros Cuadrados Totales    280
Parqueadero                 263
Piso                         79
Precio                      280
Tipo                        280
Tipo de vendedor            222
Name: codigodetalle, dtype: int64

### Administracion
Precio que se paga por administracion.

In [16]:
# Obtenemos solo registros con NombreCampo == "Administracion"
dfDetalleAdmin = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Administración",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleAdmin.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleAdmin.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Administracion
dfDetalleAdmin.rename(columns={'valorcampo': 'administracion'}, inplace = True)

# Cambiamos el tipo de dato
dfDetalleAdmin = dfDetalleAdmin.astype({'administracion': int})

# Mostramos como querdaron los datos
dfDetalleAdmin.head(10)

Unnamed: 0,codigoencabezado,administracion
0,1,0
1,9,1
2,11,0
3,13,0
4,19,0
5,24,100
6,28,0
7,29,0
8,30,0
9,32,0


### Amueblado

In [101]:
# Obtenemos solo registros con NombreCampo == "Amueblado"
dfDetalleAmueblado = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Amueblado",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleAmueblado.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleAmueblado.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Amueblado
dfDetalleAmueblado.rename(columns={'valorcampo': 'amueblado'}, inplace = True)

if(blnMapeo):
    # Reemplazamos los valores de amueblado por valores numericos
    dfDetalleAmueblado['amueblado'] = dfDetalleAmueblado.amueblado.map({'No': 0, 'Sí': 1})
else:
    dfDetalleAmueblado['amueblado'] = dfDetalleAmueblado.amueblado.map({'No': 'No', 'Sí': 'Si'})

# Mostramos como querdaron los datos
dfDetalleAmueblado.head(10)

Unnamed: 0,codigoencabezado,amueblado
0,1,No
1,5,Si
2,7,Si
3,8,No
4,9,Si
5,10,No
6,11,Si
7,12,No
8,13,No
9,14,No


### Antiguedad

In [102]:
# Obtenemos solo registros con NombreCampo == "Antigüedad"
dfDetalleAntiguedad = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Antigüedad",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleAntiguedad.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleAntiguedad.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Antiguedad
dfDetalleAntiguedad.rename(columns={'valorcampo': 'antiguedad'}, inplace = True)

# Reemplazamos los valores de antiguedad
if(blnMapeo):
    dfDetalleAntiguedad['antiguedad'] = dfDetalleAntiguedad.antiguedad.map({'En construcción': 0,
                                                                     'A estrenar': 1,
                                                                     'Hasta 5 años': 2,
                                                                     'Entre 5 y 10 años': 3,
                                                                     'Entre 10 y 20 años': 4,
                                                                     'Entre 20 y 50 años': 5,
                                                                     'Más de 50 años': 6
                                                                    })

dfDetalleAntiguedad.head(10)

Unnamed: 0,codigoencabezado,antiguedad
0,5,Hasta 5 años
1,6,Entre 5 y 10 años
2,7,Hasta 5 años
3,8,A estrenar
4,9,Entre 5 y 10 años
5,11,Hasta 5 años
6,13,Entre 20 y 50 años
7,14,A estrenar
8,15,Entre 5 y 10 años
9,22,Hasta 5 años


### Baños

In [31]:
# Obtenemos solo registros con NombreCampo == "Baños"
dfDetalleBanos = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Baños",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleBanos.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleBanos.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Baños
dfDetalleBanos.rename(columns={'valorcampo': 'banos'}, inplace = True)

# Cambiamos el tipo de dato
dfDetalleBanos = dfDetalleBanos.astype({'banos': int})

dfDetalleBanos.head(10)

Unnamed: 0,codigoencabezado,banos
0,1,1
1,2,4
2,3,2
3,4,3
4,5,3
5,6,3
6,7,1
7,8,2
8,9,1
9,10,4


### Habitaciones

In [43]:
# Obtenemos solo registros con NombreCampo == "Habitaciones"
dfDetalleHabitaciones = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Habitaciones",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleHabitaciones.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleHabitaciones.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Habitaciones
dfDetalleHabitaciones.rename(columns={'valorcampo': 'habitaciones'}, inplace = True)

# Como existe un valor llamado estudio, se creara una variable que inidique si es estudio.
dfDetalleHabitaciones['estudio'] = np.where(dfDetalleHabitaciones['habitaciones'] == 'Estudio', 1, 0)

# Para aquellos que son estudio definiremos el valor de habitaciones como 1
dfDetalleHabitaciones['habitaciones'] = np.where(dfDetalleHabitaciones['habitaciones'] == 'Estudio', '1', 
                                                 dfDetalleHabitaciones['habitaciones'])

# Cambiamos el tipo de dato
dfDetalleHabitaciones = dfDetalleHabitaciones.astype({'habitaciones': int})

dfDetalleHabitaciones.head(10)

Unnamed: 0,codigoencabezado,habitaciones,estudio
0,1,1,0
1,2,4,0
2,3,2,0
3,4,2,0
4,5,3,0
5,6,1,0
6,7,1,0
7,8,2,0
8,9,1,0
9,10,3,0


### Latitud

In [45]:
# Obtenemos solo registros con NombreCampo == "Latitude"
dfDetalleLatitude = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Latitude",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleLatitude.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleLatitude.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Latitud
dfDetalleLatitude.rename(columns={'valorcampo': 'latitud'}, inplace = True)

# Cambiamos el tipo de dato
dfDetalleLatitude = dfDetalleLatitude.astype({'latitud': float})

# Mostramos como querdaron los datos
dfDetalleLatitude.head(10)

Unnamed: 0,codigoencabezado,latitud
0,1,14.618
1,2,14.609
2,3,14.618
3,4,14.617
4,5,14.595
5,6,14.668
6,7,14.589
7,8,14.614
8,9,14.595
9,10,14.634


### Longitud

In [46]:
# Obtenemos solo registros con NombreCampo == "Longitud"
dfDetalleLongitude = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Longitude",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleLongitude.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleLongitude.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Longitud
dfDetalleLongitude.rename(columns={'valorcampo': 'longitud'}, inplace = True)

# Cambiamos el tipo de dato
dfDetalleLongitude = dfDetalleLongitude.astype({'longitud': float})

# Mostramos como querdaron los datos
dfDetalleLongitude.head(10)

Unnamed: 0,codigoencabezado,longitud
0,1,-90.516
1,2,-90.484
2,3,-90.478
3,4,-90.478
4,5,-90.509
5,6,-90.502
6,7,-90.527
7,8,-90.485
8,9,-90.505
9,10,-90.507


### Metros Cuadrados Totales

In [58]:
# Obtenemos solo registros con NombreCampo == "Metros Cuadrados Totales"
dfDetalleEspacio = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Metros Cuadrados Totales",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleEspacio.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleEspacio.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con espacio_m2
dfDetalleEspacio.rename(columns={'valorcampo': 'espacio_m2'}, inplace = True)

# Obtenemos solo los valores numericos
dfDetalleEspacio['espacio_m2'] =  [re.sub('m2','', str(espacio)).strip() for espacio in dfDetalleEspacio['espacio_m2']]
    

# Cambiamos el tipo de dato
dfDetalleEspacio = dfDetalleEspacio.astype({'espacio_m2': float})

# Mostramos como querdaron los datos
dfDetalleEspacio.head(10)

Unnamed: 0,codigoencabezado,espacio_m2
0,1,25.0
1,2,525.0
2,3,218.0
3,4,212.0
4,5,90.0
5,6,115.0
6,7,55.0
7,8,70.0
8,9,80.0
9,10,303.0


### Parqueadero

In [103]:
# Obtenemos solo registros con NombreCampo == "Parqueadero"
dfDetalleParqueo = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Parqueadero",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleParqueo.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleParqueo.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Parqueo
dfDetalleParqueo.rename(columns={'valorcampo': 'parqueo'}, inplace = True)

if(blnMapeo):
    # Reemplazamos los valores de parqueo por valores numericos
    dfDetalleParqueo['parqueo'] = dfDetalleParqueo.parqueo.map({'No': 0, 'Si': 1})

# Mostramos como querdaron los datos
dfDetalleParqueo.head(10)

Unnamed: 0,codigoencabezado,parqueo
0,1,Si
1,2,Si
2,3,Si
3,4,Si
4,5,Si
5,6,Si
6,7,Si
7,8,Si
8,9,Si
9,10,Si


### Piso

In [71]:
# Obtenemos solo registros con NombreCampo == "Piso"
dfDetallePiso = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Piso",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetallePiso.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetallePiso.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con piso
dfDetallePiso.rename(columns={'valorcampo': 'piso'}, inplace = True)

# Cambiamos el tipo de dato
dfDetallePiso = dfDetallePiso.astype({'piso': int})

# Mostramos como querdaron los datos
dfDetallePiso.head(10)

Unnamed: 0,codigoencabezado,piso
0,5,1
1,6,1
2,7,2
3,8,1
4,9,1
5,11,11
6,13,2
7,15,1
8,18,1
9,24,12


### Precio

In [94]:
# Obtenemos solo registros con NombreCampo == "Precio"
dfDetallePrecio = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Precio",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetallePrecio.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetallePrecio.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con precio
dfDetallePrecio.rename(columns={'valorcampo': 'precio'}, inplace = True)

# Separamos por espacio para poder tener una lista con el tipo de moneda y el precio en cada registro
dfDetallePrecio['precio'] = [strPrecio.split() for strPrecio in dfDetallePrecio['precio']]

# Creamos un campo de moneda
dfDetallePrecio['moneda'] = [precio[0] for precio in dfDetallePrecio['precio']]

# Eliminamos las comas del precio
dfDetallePrecio['precio'] = [re.sub(',', '', str(precio[1])) for precio in dfDetallePrecio['precio']]

# Cambiamos el tipo de dato
dfDetallePrecio = dfDetallePrecio.astype({'precio': float})

# Mostramos como querdaron los datos
dfDetallePrecio.head(10)

Unnamed: 0,codigoencabezado,precio,moneda
0,1,800.0,US$
1,2,1250000.0,US$
2,3,540000.0,US$
3,4,472000.0,US$
4,5,1600.0,US$
5,6,799000.0,Q
6,7,3000.0,Q
7,8,900.0,US$
8,9,3900.0,Q
9,10,2600.0,US$


### Tipo

In [104]:
# Obtenemos solo registros con NombreCampo == "Tipo"
dfDetalleTipo = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Tipo",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleTipo.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleTipo.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Tipo
dfDetalleTipo.rename(columns={'valorcampo': 'tipo'}, inplace = True)

if(blnMapeo):
    # Reemplazamos los valores de parqueo por valores numericos
    dfDetalleTipo['tipo'] = dfDetalleTipo.tipo.map({'Apartamento': 0, 'Casa': 1})

# Mostramos como querdaron los datos
dfDetalleTipo.head(10)

Unnamed: 0,codigoencabezado,tipo
0,1,Apartamento
1,2,Apartamento
2,3,Apartamento
3,4,Apartamento
4,5,Apartamento
5,6,Apartamento
6,7,Apartamento
7,8,Apartamento
8,9,Apartamento
9,10,Apartamento


### Tipo Vendedor

In [109]:
# Obtenemos solo registros con NombreCampo == "Tipo de vendedor"
dfDetalleVendedor = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Tipo de vendedor",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleVendedor.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleVendedor.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con tipo_vendedor
dfDetalleVendedor.rename(columns={'valorcampo': 'tipo_vendedor'}, inplace = True)

if(blnMapeo):
    # Reemplazamos los valores de parqueo por valores numericos
    dfDetalleVendedor['tipo_vendedor'] = dfDetalleVendedor.tipo_vendedor.map({'Dueño Directo': 0, 'Inmobiliaria': 1})

# Mostramos como querdaron los datos
dfDetalleVendedor.head(10)

Unnamed: 0,codigoencabezado,tipo_vendedor
0,5,Inmobiliaria
1,6,Inmobiliaria
2,7,Inmobiliaria
3,8,Inmobiliaria
4,9,Dueño Directo
5,10,Inmobiliaria
6,11,Dueño Directo
7,12,Inmobiliaria
8,13,Inmobiliaria
9,14,Inmobiliaria
