# Data Cleaning

## Librerias

### Instalacion

In [26]:
import sys
!{sys.executable} -m pip install pandas
!{sys.executable} -m pip install psycopg2
!{sys.executable} -m pip install sqlalchemy
!{sys.executable} -m pip install numpy



### Importacion

In [27]:
import sqlalchemy
import re
import json
import ast
import pandas as pd
import numpy as np

print("Importacion Exitosa")

Importacion Exitosa


## Lectura Datos
Primeramente realizaremos la lectura de datos en la base de datos postgres

In [28]:
from sqlalchemy import create_engine
engine = create_engine('postgresql://postgres:150592@localhost:5432/DBApartamentos')

dfEncabezadoRegistros = pd.read_sql_query('select * from encabezadoregistros',con=engine)
dfDetalleRegistros = pd.read_sql_query('select * from detalleregistros',con=engine)

dfDetalleRegistros.head(10)

Unnamed: 0,codigodetalle,codigoencabezado,nombrecampo,valorcampo,valorjson,fecharegistro
0,1,1,Tipo,Apartamento,,2020-05-14
1,2,1,Amueblado,No,,2020-05-14
2,3,1,Habitaciones,1,,2020-05-14
3,4,1,Baños,1,,2020-05-14
4,5,1,Metros Cuadrados Totales,25 m2,,2020-05-14
5,6,1,Parqueadero,Si,,2020-05-14
6,7,1,Administración,0,,2020-05-14
7,8,1,Precio,US$ 800,,2020-05-14
8,9,1,Latitude,14.618,,2020-05-14
9,10,1,Longitude,-90.516,,2020-05-14


## Configuraciones

In [29]:
# Bandera para realizar mapeo de valores categoricos a valores numericos
blnMapeo = False

## Wrangling Detalle

Primeramente procederemos a realizar una transformacion de los datos detalle. El objetivo es dejar los diferentes tipos de campos (NombreCampo) como columnas de un data frame, y que solo exista un registro por cada codigo encabezado.

In [30]:
dfDetalleRegistros.dtypes

codigodetalle        int64
codigoencabezado     int64
nombrecampo         object
valorcampo          object
valorjson           object
fecharegistro       object
dtype: object

In [31]:
dfDetalleRegistros.groupby(['nombrecampo']).count()['codigodetalle']

nombrecampo
Administración              1190
Amueblado                   3310
Antigüedad                  2627
Año                            1
Baños                       5561
Color                          1
Combustible                    1
Condición                      1
Habitaciones                5538
JSON                        5569
Kilometraje                    1
Latitude                    5569
Longitude                   5569
Marca                          1
Metros Cuadrados Totales    5561
Modelo                         1
Parqueadero                 5324
Piso                        2267
Precio                      5569
Puertas                        1
Tipo                        5561
Tipo de vendedor            4300
Transmisión                    1
Único Dueño                    1
Name: codigodetalle, dtype: int64

### Administracion
Precio que se paga por administracion.

In [32]:
# Obtenemos solo registros con NombreCampo == "Administracion"
dfDetalleAdmin = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Administración",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleAdmin.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleAdmin.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Administracion
dfDetalleAdmin.rename(columns={'valorcampo': 'administracion'}, inplace = True)

# Cambiamos el tipo de dato
dfDetalleAdmin = dfDetalleAdmin.astype({'administracion': float})

# Mostramos como querdaron los datos
dfDetalleAdmin.head(10)

Unnamed: 0,codigoencabezado,administracion
0,1,0.0
1,9,1.0
2,11,0.0
3,13,0.0
4,19,0.0
5,24,100.0
6,28,0.0
7,29,0.0
8,30,0.0
9,32,0.0


### Amueblado

In [33]:
# Obtenemos solo registros con NombreCampo == "Amueblado"
dfDetalleAmueblado = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Amueblado",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleAmueblado.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleAmueblado.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Amueblado
dfDetalleAmueblado.rename(columns={'valorcampo': 'amueblado'}, inplace = True)

if(blnMapeo):
    # Reemplazamos los valores de amueblado por valores numericos
    dfDetalleAmueblado['amueblado'] = dfDetalleAmueblado.amueblado.map({'No': 0, 'Sí': 1})
else:
    dfDetalleAmueblado['amueblado'] = dfDetalleAmueblado.amueblado.map({'No': 'No', 'Sí': 'Si'})

# Mostramos como querdaron los datos
dfDetalleAmueblado.head(10)

Unnamed: 0,codigoencabezado,amueblado
0,1,No
1,5,Si
2,7,Si
3,8,No
4,9,Si
5,10,No
6,11,Si
7,12,No
8,13,No
9,14,No


### Antiguedad

In [34]:
# Obtenemos solo registros con NombreCampo == "Antigüedad"
dfDetalleAntiguedad = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Antigüedad",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleAntiguedad.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleAntiguedad.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Antiguedad
dfDetalleAntiguedad.rename(columns={'valorcampo': 'antiguedad'}, inplace = True)

# Reemplazamos los valores de antiguedad
if(blnMapeo):
    dfDetalleAntiguedad['antiguedad'] = dfDetalleAntiguedad.antiguedad.map({'En construcción': 0,
                                                                     'A estrenar': 1,
                                                                     'Hasta 5 años': 2,
                                                                     'Entre 5 y 10 años': 3,
                                                                     'Entre 10 y 20 años': 4,
                                                                     'Entre 20 y 50 años': 5,
                                                                     'Más de 50 años': 6
                                                                    })

dfDetalleAntiguedad.head(10)

Unnamed: 0,codigoencabezado,antiguedad
0,5,Hasta 5 años
1,6,Entre 5 y 10 años
2,7,Hasta 5 años
3,8,A estrenar
4,9,Entre 5 y 10 años
5,11,Hasta 5 años
6,13,Entre 20 y 50 años
7,14,A estrenar
8,15,Entre 5 y 10 años
9,22,Hasta 5 años


### Baños

In [35]:
# Obtenemos solo registros con NombreCampo == "Baños"
dfDetalleBanos = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Baños",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleBanos.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleBanos.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Baños
dfDetalleBanos.rename(columns={'valorcampo': 'banos'}, inplace = True)

# Cambiamos el tipo de dato
dfDetalleBanos = dfDetalleBanos.astype({'banos': int})

dfDetalleBanos.head(10)

Unnamed: 0,codigoencabezado,banos
0,1,1
1,2,4
2,3,2
3,4,3
4,5,3
5,6,3
6,7,1
7,8,2
8,9,1
9,10,4


### Habitaciones

In [36]:
# Obtenemos solo registros con NombreCampo == "Habitaciones"
dfDetalleHabitaciones = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Habitaciones",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleHabitaciones.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleHabitaciones.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Habitaciones
dfDetalleHabitaciones.rename(columns={'valorcampo': 'habitaciones'}, inplace = True)

# Como existe un valor llamado estudio, se creara una variable que inidique si es estudio.
if(blnMapeo):
    dfDetalleHabitaciones['estudio'] = np.where(dfDetalleHabitaciones['habitaciones'] == 'Estudio', 1, 0)
else:
     dfDetalleHabitaciones['estudio'] = np.where(dfDetalleHabitaciones['habitaciones'] == 'Estudio', 'Si', 'No')
        
# Para aquellos que son estudio definiremos el valor de habitaciones como 1
dfDetalleHabitaciones['habitaciones'] = np.where(dfDetalleHabitaciones['habitaciones'] == 'Estudio', '1', 
                                                 dfDetalleHabitaciones['habitaciones'])

# Cambiamos el tipo de dato
dfDetalleHabitaciones = dfDetalleHabitaciones.astype({'habitaciones': int})

dfDetalleHabitaciones.head(10)

Unnamed: 0,codigoencabezado,habitaciones,estudio
0,1,1,No
1,2,4,No
2,3,2,No
3,4,2,No
4,5,3,No
5,6,1,No
6,7,1,No
7,8,2,No
8,9,1,No
9,10,3,No


### Latitud

In [37]:
# Obtenemos solo registros con NombreCampo == "Latitude"
dfDetalleLatitude = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Latitude",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleLatitude.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleLatitude.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Latitud
dfDetalleLatitude.rename(columns={'valorcampo': 'latitud'}, inplace = True)

# Cambiamos el tipo de dato
dfDetalleLatitude = dfDetalleLatitude.astype({'latitud': float})

# Mostramos como querdaron los datos
dfDetalleLatitude.head(10)

Unnamed: 0,codigoencabezado,latitud
0,1,14.618
1,2,14.609
2,3,14.618
3,4,14.617
4,5,14.595
5,6,14.668
6,7,14.589
7,8,14.614
8,9,14.595
9,10,14.634


### Longitud

In [38]:
# Obtenemos solo registros con NombreCampo == "Longitud"
dfDetalleLongitude = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Longitude",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleLongitude.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleLongitude.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Longitud
dfDetalleLongitude.rename(columns={'valorcampo': 'longitud'}, inplace = True)

# Cambiamos el tipo de dato
dfDetalleLongitude = dfDetalleLongitude.astype({'longitud': float})

# Mostramos como querdaron los datos
dfDetalleLongitude.head(10)

Unnamed: 0,codigoencabezado,longitud
0,1,-90.516
1,2,-90.484
2,3,-90.478
3,4,-90.478
4,5,-90.509
5,6,-90.502
6,7,-90.527
7,8,-90.485
8,9,-90.505
9,10,-90.507


### Metros Cuadrados Totales

In [39]:
# Obtenemos solo registros con NombreCampo == "Metros Cuadrados Totales"
dfDetalleEspacio = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Metros Cuadrados Totales",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleEspacio.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleEspacio.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con espacio_m2
dfDetalleEspacio.rename(columns={'valorcampo': 'espacio_m2'}, inplace = True)

# Obtenemos solo los valores numericos
dfDetalleEspacio['espacio_m2'] =  [re.sub('m2','', str(espacio)).strip() for espacio in dfDetalleEspacio['espacio_m2']]
    

# Cambiamos el tipo de dato
dfDetalleEspacio = dfDetalleEspacio.astype({'espacio_m2': float})

# Mostramos como querdaron los datos
dfDetalleEspacio.head(10)

Unnamed: 0,codigoencabezado,espacio_m2
0,1,25.0
1,2,525.0
2,3,218.0
3,4,212.0
4,5,90.0
5,6,115.0
6,7,55.0
7,8,70.0
8,9,80.0
9,10,303.0


### Parqueadero

In [40]:
# Obtenemos solo registros con NombreCampo == "Parqueadero"
dfDetalleParqueo = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Parqueadero",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleParqueo.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleParqueo.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Parqueo
dfDetalleParqueo.rename(columns={'valorcampo': 'parqueo'}, inplace = True)

if(blnMapeo):
    # Reemplazamos los valores de parqueo por valores numericos
    dfDetalleParqueo['parqueo'] = dfDetalleParqueo.parqueo.map({'No': 0, 'Si': 1})

# Mostramos como querdaron los datos
dfDetalleParqueo.head(10)

Unnamed: 0,codigoencabezado,parqueo
0,1,Si
1,2,Si
2,3,Si
3,4,Si
4,5,Si
5,6,Si
6,7,Si
7,8,Si
8,9,Si
9,10,Si


### Piso

In [41]:
# Obtenemos solo registros con NombreCampo == "Piso"
dfDetallePiso = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Piso",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetallePiso.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetallePiso.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con piso
dfDetallePiso.rename(columns={'valorcampo': 'piso'}, inplace = True)

# Cambiamos el tipo de dato
dfDetallePiso = dfDetallePiso.astype({'piso': int})

# Mostramos como querdaron los datos
dfDetallePiso.head(10)

Unnamed: 0,codigoencabezado,piso
0,5,1
1,6,1
2,7,2
3,8,1
4,9,1
5,11,11
6,13,2
7,15,1
8,18,1
9,24,12


### Precio

In [42]:
# Obtenemos solo registros con NombreCampo == "Precio"
dfDetallePrecio = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Precio",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetallePrecio.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetallePrecio.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con precio
dfDetallePrecio.rename(columns={'valorcampo': 'precio'}, inplace = True)

# Separamos por espacio para poder tener una lista con el tipo de moneda y el precio en cada registro
dfDetallePrecio['precio'] = [strPrecio.split() for strPrecio in dfDetallePrecio['precio']]

# Creamos un campo de moneda
dfDetallePrecio['moneda'] = [precio[0] for precio in dfDetallePrecio['precio']]

# Eliminamos las comas del precio
dfDetallePrecio['precio'] = [re.sub(',', '', str(precio[1])) for precio in dfDetallePrecio['precio']]

# Cambiamos el tipo de dato
dfDetallePrecio = dfDetallePrecio.astype({'precio': float})

# Mostramos como querdaron los datos
dfDetallePrecio.head(10)

Unnamed: 0,codigoencabezado,precio,moneda
0,1,800.0,US$
1,2,1250000.0,US$
2,3,540000.0,US$
3,4,472000.0,US$
4,5,1600.0,US$
5,6,799000.0,Q
6,7,3000.0,Q
7,8,900.0,US$
8,9,3900.0,Q
9,10,2600.0,US$


### Tipo

In [43]:
# Obtenemos solo registros con NombreCampo == "Tipo"
dfDetalleTipo = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Tipo",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleTipo.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleTipo.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con Tipo
dfDetalleTipo.rename(columns={'valorcampo': 'tipo'}, inplace = True)

if(blnMapeo):
    # Reemplazamos los valores de parqueo por valores numericos
    dfDetalleTipo['tipo'] = dfDetalleTipo.tipo.map({'Apartamento': 0, 'Casa': 1})

# Mostramos como querdaron los datos
dfDetalleTipo.head(10)

Unnamed: 0,codigoencabezado,tipo
0,1,Apartamento
1,2,Apartamento
2,3,Apartamento
3,4,Apartamento
4,5,Apartamento
5,6,Apartamento
6,7,Apartamento
7,8,Apartamento
8,9,Apartamento
9,10,Apartamento


### Tipo Vendedor

In [44]:
# Obtenemos solo registros con NombreCampo == "Tipo de vendedor"
dfDetalleVendedor = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "Tipo de vendedor",
                                        ["codigoencabezado", "nombrecampo", "valorcampo"]]

# Reseteamos valores de indices.
dfDetalleVendedor.reset_index(drop = True, inplace = True)

# Eliminamos la columna NombreCampo
dfDetalleVendedor.drop(columns = ['nombrecampo'], inplace = True)

# Renombramos la columna ValorCampo con tipo_vendedor
dfDetalleVendedor.rename(columns={'valorcampo': 'tipo_vendedor'}, inplace = True)

if(blnMapeo):
    # Reemplazamos los valores de tipo_vendedor por valores numericos
    dfDetalleVendedor['tipo_vendedor'] = dfDetalleVendedor.tipo_vendedor.map({'Dueño Directo': 0, 'Inmobiliaria': 1})

# Mostramos como querdaron los datos
dfDetalleVendedor.head(10)

Unnamed: 0,codigoencabezado,tipo_vendedor
0,5,Inmobiliaria
1,6,Inmobiliaria
2,7,Inmobiliaria
3,8,Inmobiliaria
4,9,Dueño Directo
5,10,Inmobiliaria
6,11,Dueño Directo
7,12,Inmobiliaria
8,13,Inmobiliaria
9,14,Inmobiliaria


### JSON

Verifiquemos cuales son los campos que posee el valor JSON

In [45]:
dfDetalleJson = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "JSON",
                                        ["codigoencabezado", "nombrecampo", "valorjson"]]

dfDetalleJson['valorjson'].iloc[0]

{'elements': {'1100371144': {'id': '1100371144',
   'revision': 7,
   'has_phone_param': True,
   'created_at': '2020-05-14T03:27:04-06:00',
   'created_at_first': '2020-05-13T12:58:14-06:00',
   'republish_date': None,
   'valid_to': '2020-08-11T12:58:15-06:00',
   'title': 'Alquilo Apartamento  zona 4 tipo loft en edificio  - wasi2498381',
   'location_source': '',
   'description': 'DRA-941Apartamento con un gran espacio abierto conecta las áreas de sala, comedor y cocina.  Baño sencillo con una bonita ducha, balcón con una vista increíble de la ciudad de Guatemala y las montañas circundantes. Cocina sencilla con todos los instrumentos necesarios para cocinar.  Estufa eléctrica, microondas, nevera y utensilios de cocina.  Los restaurantes de los alrededores se encuentran entre los mejores del país, por lo que le recomiendo comer fuera mientras esté aquí. Lavadoras y secadoras están disponibles en la planta baja.  La azotea tiene una hermosa terraza y jardín que ofrece una vista 360 

In [46]:
# Obtenemos solo registros con NombreCampo == "JSON"
dfDetalleJson = dfDetalleRegistros.loc[dfDetalleRegistros["nombrecampo"] == "JSON",
                                        ["codigoencabezado", "nombrecampo", "valorjson"]]

# Reseteamos valores de indices.
dfDetalleJson.reset_index(drop = True, inplace = True)

# Obtenemos los elementos que interesan
dfDetalleJson['favoritos'] = [list(json.loads(json.dumps(elemento))['elements'].values())[0]['favorites']['count']
                              for elemento in dfDetalleJson['valorjson']]

dfDetalleJson['titulo'] = [list(json.loads(json.dumps(elemento))['elements'].values())[0]['title']
                              for elemento in dfDetalleJson['valorjson']]

dfDetalleJson['fecha_creacion'] = [list(json.loads(json.dumps(elemento))['elements'].values())[0]['created_at']
                              for elemento in dfDetalleJson['valorjson']]
                                                  
dfDetalleJson['valido_hasta'] = [list(json.loads(json.dumps(elemento))['elements'].values())[0]['valid_to']
                              for elemento in dfDetalleJson['valorjson']]

dfDetalleJson['descripcion'] = [list(json.loads(json.dumps(elemento))['elements'].values())[0]['description']
                              for elemento in dfDetalleJson['valorjson']]

dfDetalleJson['partner_code'] = [list(json.loads(json.dumps(elemento))['elements'].values())[0]['partner_code']
                              for elemento in dfDetalleJson['valorjson']]

dfDetalleJson['user_id'] = [list(json.loads(json.dumps(elemento))['elements'].values())[0]['user_id']
                              for elemento in dfDetalleJson['valorjson']]

# Eliminamos la columna NombreCampo y ValorJSON
dfDetalleJson.drop(columns = ['valorjson'], inplace = True)
dfDetalleJson.drop(columns = ['nombrecampo'], inplace = True)


dfDetalleJson.head(10)

Unnamed: 0,codigoencabezado,favoritos,titulo,fecha_creacion,valido_hasta,descripcion,partner_code,user_id
0,1,0,Alquilo Apartamento zona 4 tipo loft en edifi...,2020-05-14T03:27:04-06:00,2020-08-11T12:58:15-06:00,DRA-941Apartamento con un gran espacio abierto...,2498381-9,23432107
1,2,0,Vendo Apartamento amplio en zona 16 - wasi684813,2020-05-14T03:27:03-06:00,2020-08-11T12:58:14-06:00,DVA-508Precioso apartamento en Albatros zona 1...,684813-17,23432107
2,3,0,Vendo Alquilo Apartamento en zona 16 - wasi13...,2020-05-14T03:27:16-06:00,2020-08-11T12:58:13-06:00,DRA-830Alquiler de Apartamento exclusivo en ...,1365266-12,23432107
3,4,0,Vendo Apartamento en zona 16 Ciudad cayala ...,2020-05-14T03:27:04-06:00,2020-08-11T12:58:02-06:00,DRA-877 Venta de Apartamento exclusivo en Ed...,1645798-11,23432107
4,5,0,RENTO APARTAMENTO AMUEBLADO Y EQUIPADO EN LA Z...,2020-05-13T12:39:43-06:00,2020-08-11T12:39:43-06:00,Bienes Inmobiliarios Renta Lindo Apartamento e...,,56587551
5,6,0,Vendo Apartamento en La Floresta,2020-05-13T12:16:29-06:00,2020-08-11T12:16:29-06:00,lindo Apartamento en la Floresta \n\nReserve c...,,36213095
6,7,1,RENTO APARTAMENTO AMUEBLADO Y EQUIPADO EN ZONA...,2020-05-13T12:09:53-06:00,2020-08-11T12:09:53-06:00,Bienes Inmobiliarios Renta Lindo y Cómodo Apar...,,56587551
7,8,1,RENTO LINDO APARTAMENTO EN SHIFT CAYALÁ ZONA 16,2020-05-13T11:49:56-06:00,2020-08-11T11:49:56-06:00,Bienes Inmobiliarios Renta Lindo y Cómodo Apar...,,56587551
8,9,0,Apartamento zona 10,2020-05-13T11:27:34-06:00,2020-08-11T11:27:34-06:00,Apartamento 1 habitacion amueblado en zona 10 ...,,80274827
9,10,1,"Alquilo Apartamento Zona 10, Penthouse, lujoso...",2020-05-13T11:01:41-06:00,2020-08-11T10:56:56-06:00,Penthouse en Alquiler Zona 10\n\nDescripción:\...,,24147415


## Merging

In [47]:
# Agregamos el dataframe de pago de admin
dfFinalSet = dfEncabezadoRegistros.merge(dfDetalleAdmin, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de amueblado
dfFinalSet = dfFinalSet.merge(dfDetalleAmueblado, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de antiguedad
dfFinalSet = dfFinalSet.merge(dfDetalleAntiguedad, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de banos
dfFinalSet = dfFinalSet.merge(dfDetalleBanos, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de habitaciones
dfFinalSet = dfFinalSet.merge(dfDetalleHabitaciones, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de latitud
dfFinalSet = dfFinalSet.merge(dfDetalleLatitude, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de longitud
dfFinalSet = dfFinalSet.merge(dfDetalleLongitude, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de espacio
dfFinalSet = dfFinalSet.merge(dfDetalleEspacio, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de parqueo
dfFinalSet = dfFinalSet.merge(dfDetalleParqueo, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de piso
dfFinalSet = dfFinalSet.merge(dfDetallePiso, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de precio
dfFinalSet = dfFinalSet.merge(dfDetallePrecio, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de tipo
dfFinalSet = dfFinalSet.merge(dfDetalleTipo, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de vendedor
dfFinalSet = dfFinalSet.merge(dfDetalleVendedor, on = 'codigoencabezado', how = 'left')

# Agregamos el dataframe de json
dfFinalSet = dfFinalSet.merge(dfDetalleJson, on = 'codigoencabezado', how = 'left')

dfFinalSet.head(10)

Unnamed: 0,codigoencabezado,idregistro,linkpagina,fecharegistro,fechalimpieza,administracion,amueblado,antiguedad,banos,habitaciones,...,moneda,tipo,tipo_vendedor,favoritos,titulo,fecha_creacion,valido_hasta,descripcion,partner_code,user_id
0,4592,1100453618,https://www.olx.com.gt/item/apartamento-en-alq...,2020-07-11,2020-07-11,,Si,,1.0,2.0,...,US$,Apartamento,Inmobiliaria,0,Apartamento en alquiler amueblado y equipado e...,2020-07-09T18:11:23-06:00,2020-10-07T18:11:23-06:00,Apartamento en alquiler amueblado y equipado e...,,41961524
1,4699,1100452726,https://www.olx.com.gt/item/se-renta-apartamen...,2020-07-11,2020-07-11,,No,Hasta 5 años,1.0,1.0,...,Q,Apartamento,Inmobiliaria,2,Se renta apartamento en zona 1,2020-07-09T09:00:52-06:00,2020-10-07T09:00:52-06:00,Alquilo apartamento super céntrico ubicado en ...,,80225139
2,4789,1100450262,https://www.olx.com.gt/item/vendo-apartamento-...,2020-07-11,2020-07-11,,,,0.0,3.0,...,US$,Apartamento,,0,"Vendo Apartamento en Torres de Villa Linda, zo...",2020-07-08T03:50:19-06:00,2020-10-05T16:08:11-06:00,Edificio - Salón social- Juegos de niños- Segu...,138546,80001037
3,4876,1100450023,https://www.olx.com.gt/item/vendo-apartamento-...,2020-07-11,2020-07-11,,,,0.0,3.0,...,US$,Apartamento,,0,Vendo Apartamento en zona 16 (Opción 3) | ACODI,2020-07-08T03:47:03-06:00,2020-10-05T16:08:05-06:00,Edificio  Sky Lounge  Churrasquera  Sports ...,149100,80001037
4,4964,1100397363,https://www.olx.com.gt/item/alquilo-apartament...,2020-07-11,2020-07-11,,No,,1.0,3.0,...,Q,Apartamento,Inmobiliaria,7,Alquilo Apartamento en 1 Nivel con Patio Ampli...,2020-06-01T21:33:41-06:00,2020-08-30T21:33:41-06:00,ALQUILOOO Apartamento 95Mts2 con Jardin Reside...,,74229349
5,5053,1100355784,https://www.olx.com.gt/item/apartamento-en-ren...,2020-07-11,2020-07-11,750.0,Si,A estrenar,2.0,3.0,...,Q,Apartamento,Inmobiliaria,7,Apartamento en Renta. Nuevo y Amueblado Zona 12,2020-05-06T05:39:41-06:00,2020-08-02T07:31:30-06:00,Apartamento en Renta en Segundo Nivel. Totalm...,,66818155
6,5139,1100464457,https://www.olx.com.gt/item/alquiler-apartamen...,2020-07-18,2020-07-18,,No,Entre 20 y 50 años,2.0,4.0,...,Q,Apartamento,Dueño Directo,15,Alquiler apartamento Jardines de La Asunción Sur,2020-07-16T20:54:44-06:00,2020-10-14T20:54:44-06:00,Ubicado en área dentro de garita. Sala y come...,,80284289
7,5226,1100146721,https://www.olx.com.gt/item/apartamento-en-pla...,2020-07-18,2020-07-18,,,,1.0,2.0,...,Q,Apartamento,,1,Apartamento en planos en venta con 62.66 m2 en...,2020-07-18T04:22:02-06:00,2020-10-14T05:22:03-06:00,Vendo apartamento en planos en la zona 2 ciuda...,PVA-011-09-19-4-V,4263970
8,5313,1100148994,https://www.olx.com.gt/item/apartamento-en-con...,2020-07-18,2020-07-18,,,,2.0,2.0,...,Q,Apartamento,,2,APARTAMENTO EN CONSTRUCCION EN VENTA ZONA 2 | ...,2020-07-18T04:29:17-06:00,2020-10-14T05:20:18-06:00,CITYMAX DIAMONDHERMOSO APARTAMENTO EN VENTA ZO...,PVA-003-09-19-2-V,5439785
9,5400,1100146184,https://www.olx.com.gt/item/apartamento-en-con...,2020-07-18,2020-07-18,,,,3.0,3.0,...,US$,Apartamento,,1,Apartamento en construccion en zona 10 Guatema...,2020-07-18T04:22:01-06:00,2020-10-14T05:18:05-06:00,"Apartamento en Venta Zona 10 de 176Mts, cuenta...",PVA-054-11-19-4-V,4263970


## Escritura BD

In [48]:
dfTemp = dfFinalSet.dtypes.to_frame(name = "tipodatacampo")

dfTemp.reset_index(level=0, inplace=True)

# Renombramos la columna index con nombrecampo
dfTemp.rename(columns={'index': 'nombrecampo'}, inplace = True)

dfTemp['tipodatacampo'] = dfTemp.nombrecampo.map(
    {'codigoencabezado': 'int64',
     'idregistro': 'int64',
     'linkpagina': 'string',
     'fecharegistro': 'date',
     'administracion': 'float64',
     'amueblado': 'int64',
     'antiguedad': 'int64',
     'banos': 'int64',
     'habitaciones': 'int64',
     'estudio': 'int64',
     'latitud': 'float64',
     'longitud': 'float64',
     'espacio_m2': 'float64',
     'parqueo': 'int64',
     'piso': 'int64',
     'precio': 'float64',
     'moneda': 'string',
     'tipo': 'int64',
     'tipo_vendedor': 'int64',
     'favoritos': 'int64',
     'titulo': 'string',
     'fecha_creacion': 'string',
     'valido_hasta': 'string',
     'descripcion': 'string',
     'partner_code': 'string',
     'user_id': 'string'
    })

dfTemp['idloglimpieza'] = 1

dfTemp

Unnamed: 0,nombrecampo,tipodatacampo,idloglimpieza
0,codigoencabezado,int64,1
1,idregistro,int64,1
2,linkpagina,string,1
3,fecharegistro,date,1
4,fechalimpieza,,1
5,administracion,float64,1
6,amueblado,int64,1
7,antiguedad,int64,1
8,banos,int64,1
9,habitaciones,int64,1


In [49]:
dfTemp = dfFinalSet

dfTemp = dfTemp.melt(id_vars = 'codigoencabezado', var_name = 'nombrecampo', value_name = 'valordata')

dfTemp

Unnamed: 0,codigoencabezado,nombrecampo,valordata
0,4592,idregistro,1100453618
1,4699,idregistro,1100452726
2,4789,idregistro,1100450262
3,4876,idregistro,1100450023
4,4964,idregistro,1100397363
...,...,...,...
144789,4582,user_id,34408653
144790,4583,user_id,27450980
144791,4584,user_id,4704266
144792,4585,user_id,24107980


## Escritura Archivo

In [50]:
dfFinalSet.to_csv('FinalSet.csv', index = False)

print("Escritura Exitosa")

Escritura Exitosa
