# Proyecto final de aplicación de machine learning

**Learning Code**

## Introdución

La estimación de los precios de la vivienda es esencial tanto para los propietarios como para los inversores, ya que ambos necesitan entender el valor de este activo inmobiliario. 
Para muchas personas, comprar una propiedad es una de las decisiones y compra más importantes en la vida. Además de la asequibilidad de una vivienda, otros factores, 
como la conveniencia del lugar y las perspectivas de inversión a largo plazo, también afectan
el proceso de toma de decisiones.
El mercado inmobiliario está expuesto a muchas fluctuaciones en los precios debido a las correlaciones existentes con muchas variables, algunas de las cuales no se pueden controlar
o incluso pueden ser desconocidas. Los precios de las viviendas pueden aumentar rápidamente (o en algunos casos, también bajan muy rápido).
Algunas aplicaciones para un banco son:
- Originación: Establecer el valor comercial del inmueble a financiar utilizado para la aprobación final.
- Retanqueo: Actualizar el valor comercial de garantía ya existente para aprobación de nuevos cupos de crédito.
- Monitoreo portafolio garantías: Valoración del portafolio de las garantías para cumplimiento normativo y para el análisis de riesgos del colateral.
- Normalización de cartera: Evaluar los préstamos existentes, evaluar los acuerdos de refinanciamiento Y daciones en pago.

## Objetivo:

El objetivo de este proyecto es que el estudiante aplique los temas vistos en el BootCamp para resolver un problema del mundo real, con datos reales. Lea cuidadosamente las instrucciones contenidas en el archivo "Enunciado_dataton_banco". Allí están los detalles iniciales de la prueba. Para este curso, se evaluará adicionalmente el desarrollo de los puntos de este notebook. 

Al final, usted debe entregar una copia de este notebook junto con unas conclusiones finales que usted debe sacar y que deben estar contenidas al final del documento.

Cómo es usual, para empezar, debemos importar todas las librerías que vamos a necesitar. Asegurese de contar con las librerias, hasta que no encuentre ningún error al correr la siguiente celda:

In [3]:
# import the necessary packages

import pandas as pd
import numpy as np
import argparse
import glob
from pandas import DataFrame
import sklearn
from sklearn import tree
import xgboost
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from datetime import datetime
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV

pd.set_option('display.max_rows', 500)


  from pandas import MultiIndex, Int64Index


# Cargar los datos que usaremos

Usaremos los archivos entrenamiento_precios_vivienda.csv  y prueba_precios_vivienda.csv. Note que los datos del archivo prueba_precios_vivienda.csv no contienen la columna de los precios de la vivienda. La idea de este archivo, es que usted complete dicha columna con los predicciones resultantes de su modelo, y mediante un proceso de validación externo, Learning Code calcula el desempeño de este. Esta es una práctica muy común en pruebas de este tipo.

In [1]:
from content.utils.data_processing import load_csv_data

dataTrain = load_csv_data("./content/sample_data/train.csv")
dataTest = load_csv_data("./content/sample_data/test.csv")

# New Section

In [4]:
# Asignar el campo id como índice del dataframe
dataTrain['id'] = pd.to_numeric(dataTrain['id'], errors='coerce')
dataTest['id'] = pd.to_numeric(dataTest['id'], errors='coerce')

dataTrain = dataTrain.set_index('id')
dataTest =  dataTest.set_index('id')
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)

dataTrain.head()

Unnamed: 0_level_0,fecha_aprobación,objeto,motivo,proposito,tipo_avaluo,tipo_credito,tipo_subsidio,departamento_inmueble,municipio_inmueble,barrio,sector,direccion_inmueble_informe,alcantarillado_en_el_sector,acueducto_en_el_sector,gas_en_el_sector,energia_en_el_sector,telefono_en_el_sector,vias_pavimentadas,sardineles_en_las_vias,andenes_en_las_vias,estrato,barrio_legal,topografia_sector,condiciones_salubridad,transporte,demanda_interes,paradero,alumbrado,arborizacion,alamedas,ciclo_rutas,nivel_equipamiento_comercial,descripcion_general_sector,perspectivas_de_valorizacion,actualidad_edificadora,comportamiento_oferta_demanda,alcantarillado_en_el_predio,acueducto_en_el_predio,gas_en_el_predio,energia_en_el_predio,telefono_en_el_predio,tipo_inmueble,descripcion_tipo_inmueble,uso_actual,descripcion_uso_inmueble,clase_inmueble,descripcion_clase_inmueble,ocupante,sometido_a_propiedad_horizontal,altura_permitida,observaciones_altura_permitida,aislamiento_posterior,observaciones_aislamiento_posterior,aislamiento_lateral,observaciones_aislamiento_lateral,antejardin,observaciones_antejardin,indice_ocupacion,observaciones_indice_ocupacion,indice_construccion,observaciones_indice_construccion,predio_subdividido_fisicamente,unidades,contadores_agua,contadores_luz,accesorios,area_valorada,observaciones_generales_inmueble,condicion_ph,numero_piso,numero_de_edificios,area_actividad,uso_principal_ph,rph,porteria,citofono,bicicletero,piscina,tanque_de_agua,club_house,garaje_visitantes,teatrino,sauna,vigilancia_privada,tipo_vigilancia,administracion,vetustez,pisos_bodega,estructura,ajustes_sismoresistentes,cubierta,fachada,tipo_fachada,estructura_reforzada,danos_previos,material_de_construccion,detalle_material,iluminacion,ventilacion,irregularidad_planta,irregularidad_altura,observaciones_estructura,habitaciones,estar_habitacion,cuarto_servicio,closet,sala,comedor,bano_privado,bano_social,bano_servicio,cocina,estudio,balcon,terraza,patio_interior,jardin,zona_de_ropas,zona_verde_privada,local,oficina,bodega,observaciones_dependencias,estado_acabados_pisos,calidad_acabados_pisos,estado_acabados_muros,calidad_acabados_muros,estado_acabados_techos,calidad_acabados_techos,estado_acabados_madera,calidad_acabados_madera,estado_acabados_metal,calidad_acabados_metal,estado_acabados_banos,calidad_acabados_banos,estado_acabados_cocina,calidad_acabados_cocina,tipo_garaje,numero_total_de_garajes,total_cupos_parquedaro,numero_garaje_1,matricula_garaje_1,garaje_cubierto_1,garaje_doble_1,garaje_paralelo_1,garaje_servidumbre_1,numero_garaje_2,matricula_garaje_2,garaje_cubierto_2,garaje_doble_2,garaje_paralelo_2,garaje_servidumbre_2,numero_garaje_3,matricula_garaje_3,garaje_cubierto_3,garaje_doble_3,garaje_paralelo_3,garaje_servidumbre_3,numero_garaje_4,matricula_garaje_4,garaje_cubierto_4,garaje_doble_4,garaje_paralelo_4,garaje_servidumbre_4,numero_garaje_5,matricula_garaje_5,garaje_cubierto_5,garaje_doble_5,garaje_paralelo_5,garaje_servidumbre_5,tipo_deposito,numero_total_depositos,numero_deposito_1,matricula_inmobiliaria_deposito_1,numero_deposito_2,matricula_inmobiliaria_deposito_2,numero_deposito_3,matricula_inmobiliaria_deposito_3,numero_deposito_4,matricula_inmobiliaria_deposito_4,numero_deposito_5,matricula_inmobiliaria_deposito_5,observaciones_generales_construccion,metodo_valuacion_1,concepto_del_metodo_1,metodo_valuacion_2,concepto_del_metodo_2,metodo_valuacion_3,concepto_del_metodo_3,metodo_valuacion_4,concepto_del_metodo_4,metodo_valuacion_5,concepto_del_metodo_5,metodo_valuacion_6,concepto_del_metodo_6,metodo_valuacion_7,concepto_del_metodo_7,metodo_valuacion_8,concepto_del_metodo_8,metodo_valuacion_9,concepto_del_metodo_9,area_privada,valor_area_privada,area_garaje,valor_area_garaje,area_deposito,valor_area_deposito,area_terreno,valor_area_terreno,area_construccion,valor_area_construccion,area_otros,valor_area_otros,area_libre,valor_area_libre,valor_total_avaluo,valor_uvr,valor_avaluo_en_uvr,Longitud,Latitud
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1,Unnamed: 79_level_1,Unnamed: 80_level_1,Unnamed: 81_level_1,Unnamed: 82_level_1,Unnamed: 83_level_1,Unnamed: 84_level_1,Unnamed: 85_level_1,Unnamed: 86_level_1,Unnamed: 87_level_1,Unnamed: 88_level_1,Unnamed: 89_level_1,Unnamed: 90_level_1,Unnamed: 91_level_1,Unnamed: 92_level_1,Unnamed: 93_level_1,Unnamed: 94_level_1,Unnamed: 95_level_1,Unnamed: 96_level_1,Unnamed: 97_level_1,Unnamed: 98_level_1,Unnamed: 99_level_1,Unnamed: 100_level_1,Unnamed: 101_level_1,Unnamed: 102_level_1,Unnamed: 103_level_1,Unnamed: 104_level_1,Unnamed: 105_level_1,Unnamed: 106_level_1,Unnamed: 107_level_1,Unnamed: 108_level_1,Unnamed: 109_level_1,Unnamed: 110_level_1,Unnamed: 111_level_1,Unnamed: 112_level_1,Unnamed: 113_level_1,Unnamed: 114_level_1,Unnamed: 115_level_1,Unnamed: 116_level_1,Unnamed: 117_level_1,Unnamed: 118_level_1,Unnamed: 119_level_1,Unnamed: 120_level_1,Unnamed: 121_level_1,Unnamed: 122_level_1,Unnamed: 123_level_1,Unnamed: 124_level_1,Unnamed: 125_level_1,Unnamed: 126_level_1,Unnamed: 127_level_1,Unnamed: 128_level_1,Unnamed: 129_level_1,Unnamed: 130_level_1,Unnamed: 131_level_1,Unnamed: 132_level_1,Unnamed: 133_level_1,Unnamed: 134_level_1,Unnamed: 135_level_1,Unnamed: 136_level_1,Unnamed: 137_level_1,Unnamed: 138_level_1,Unnamed: 139_level_1,Unnamed: 140_level_1,Unnamed: 141_level_1,Unnamed: 142_level_1,Unnamed: 143_level_1,Unnamed: 144_level_1,Unnamed: 145_level_1,Unnamed: 146_level_1,Unnamed: 147_level_1,Unnamed: 148_level_1,Unnamed: 149_level_1,Unnamed: 150_level_1,Unnamed: 151_level_1,Unnamed: 152_level_1,Unnamed: 153_level_1,Unnamed: 154_level_1,Unnamed: 155_level_1,Unnamed: 156_level_1,Unnamed: 157_level_1,Unnamed: 158_level_1,Unnamed: 159_level_1,Unnamed: 160_level_1,Unnamed: 161_level_1,Unnamed: 162_level_1,Unnamed: 163_level_1,Unnamed: 164_level_1,Unnamed: 165_level_1,Unnamed: 166_level_1,Unnamed: 167_level_1,Unnamed: 168_level_1,Unnamed: 169_level_1,Unnamed: 170_level_1,Unnamed: 171_level_1,Unnamed: 172_level_1,Unnamed: 173_level_1,Unnamed: 174_level_1,Unnamed: 175_level_1,Unnamed: 176_level_1,Unnamed: 177_level_1,Unnamed: 178_level_1,Unnamed: 179_level_1,Unnamed: 180_level_1,Unnamed: 181_level_1,Unnamed: 182_level_1,Unnamed: 183_level_1,Unnamed: 184_level_1,Unnamed: 185_level_1,Unnamed: 186_level_1,Unnamed: 187_level_1,Unnamed: 188_level_1,Unnamed: 189_level_1,Unnamed: 190_level_1,Unnamed: 191_level_1,Unnamed: 192_level_1,Unnamed: 193_level_1,Unnamed: 194_level_1,Unnamed: 195_level_1,Unnamed: 196_level_1,Unnamed: 197_level_1,Unnamed: 198_level_1,Unnamed: 199_level_1,Unnamed: 200_level_1,Unnamed: 201_level_1,Unnamed: 202_level_1,Unnamed: 203_level_1,Unnamed: 204_level_1,Unnamed: 205_level_1,Unnamed: 206_level_1,Unnamed: 207_level_1,Unnamed: 208_level_1,Unnamed: 209_level_1,Unnamed: 210_level_1,Unnamed: 211_level_1,Unnamed: 212_level_1,Unnamed: 213_level_1,Unnamed: 214_level_1,Unnamed: 215_level_1,Unnamed: 216_level_1,Unnamed: 217_level_1,Unnamed: 218_level_1,Unnamed: 219_level_1,Unnamed: 220_level_1
1,42979.3250782755,Originación,Crédito hipotecario de vivienda,Garantía Hipotecaria,Hipotecario,Vivienda,,CUNDINAMARCA,SOACHA,BUENOS AIRES,Urbano,"""KR 7 C # 2 A - 30 SUR CS 2""",Si,Si,Si,Si,Si,Si,Si,Si,2,Si,Plano,Buenas,Bueno,Media,Si,Si,Si,Si,Si,Bueno,"""Vivienda multifamiliar-zonas verdes-arborizac...","""Teniendo en cuenta el estado del inmueble y s...","""Es un sector consolidado, al momento de la vi...","""Equilibrada""",Si,Si,Si,Si,No,Casa,0,Vivienda,0,Multifamiliar,0,SinOcupante,Si,Aplica,0,Aplica,0,Aplica,0,Aplica,0,Aplica,0,Aplica,0,No,0,0,0,0,5333,"""El inmueble se encuentra en buen estado de co...",Construccion,4,99,RESIDENCIAL,VIVIENDA,Si,Si,No,No,No,Si,No,Si,No,No,Si,24 Horas,Si,6,1,Mamposteria Estructural,No disponible,Teja fibrocemento,Ladrillo a la vista,De 0 a 3 metros,No disponible,No disponible,Mampostería,Mampostería reforzada,Bueno,Bueno,Sin irregularidad,Sin irregularidad,"""Estructura en buen estado no presenta ningún ...",3,0,0,0,1,1,0,2,0,1,0,0,0,0,0,1,0,0,0,0,"""En aparente buen estado, tres alcobas, dos ba...",Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Integral,No Tiene,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0,0,0,0,0,0,0,0,0,0,0,0.0,0,0.0,0,0,"""Se trata de una casa de 4 pisos de altura en ...",0,0,0,0,0,0,0,0,Comparación de Mercado PH en Venta,"""Se utiliza la metodología de comparación ya q...",0,0,0,0,0,0,0,0,5333,7199550000,0,0,0,0,0,0,0,0,0,0,No,0,7199550000,2.516675e+18,28604149,0.0,0.0
5,42979.3399077431,Originación,Crédito hipotecario de vivienda,Garantía Hipotecaria,Hipotecario,Vivienda,,NARIÑO,PASTO,LAS BRISAS,Urbano,"""KR 18 Este # 21 G Bis - 03 MZ 16 CS 1""",Si,Si,Si,Si,Si,No,No,Si,2,Si,Plano,Buenas,Bueno,Media,Si,Si,No,No,No,Bueno,"""El Barrio Las Brisas es un sector destinado a...","""El mercado inmobiliario del entorno urbano y ...","""En la actualidad, no se observan en el sector...","""La demanda de inmuebles similares en la zona ...",Si,Si,Si,Si,No,Casa,0,Vivienda,0,Unifamiliar,0,SinOcupante,No,Aplica,3,No Aplica,0,No Aplica,0,No Aplica,0,Aplica,8,Aplica,35,No,0,0,0,0,576,"""Vivienda de carácter unifamiliar. Para el pre...",0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,No,0,0,7,1,Tradicional,No disponible,Placa concreto imp.,Pañete y pintura,De 3 a 6 metros,Trabes coladas en sitio,No disponible,Concreto Reforzado,Pórticos,Bueno,Bueno,Sin irregularidad,Sin irregularidad,"""Estructura con columnas y vigas en concreto r...",3,0,0,0,1,1,1,1,0,1,0,0,1,0,0,1,0,0,0,0,"""Distribución arquitectónica con especificacio...",Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Semi-Integral,No Tiene,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0,0,0,0,0,0,0,0,0,0,0,0.0,0,0.0,0,0,"""Construcción de normales especificaciones""",0,0,0,0,0,0,0,0,0,0,0,0,0,0,Comparación de Mercado Lote en Venta (Terreno ...,"""Se utiliza la metodología de comparación ya q...",0,0,0,0,0,0,0,0,36,28800000,636,492900000,0,0,0,0,780900000,251696.0,31025523,0.0,0.0
7,42979.3610794329,Originación,Empleados,Garantía Hipotecaria,Hipotecario,Vivienda,,ANTIOQUIA,ITAGUI,VIVIENDAS DEL SUR,Urbano,"""KR 58 # 77 - 41 TR 5 ET 3 APTO 921""",Si,Si,Si,Si,Si,Si,No,Si,3,Si,Plano,Buenas,Bueno,Media,No,Si,Si,No,No,Bueno,"""Inmueble ubicado en zona residencial con buen...","""Aceptables.""","""Alta.""","""Buena demanda.""",Si,Si,Si,Si,Si,Apartamento,0,Vivienda,0,Multifamiliar,0,SinInformacion,Si,Aplica,0,Aplica,0,Aplica,0,Aplica,0,Aplica,0,Aplica,0,No,0,0,0,0,6244,"""Apartamento estructuralmente sin problemas.""",Construccion,9,7,62.44,VIVIENDA,Si,Si,No,No,Si,Si,No,Si,No,No,Si,24 Horas,Si,9,2,Industrializada,No disponible,Placa concreto imp.,Ladrillo a la vista,De 3 a 6 metros,No disponible,Sin daños previos,Mampostería,Mampostería confinada,Bueno,Bueno,Sin irregularidad,Sin irregularidad,"""Inmueble en construcción industrializada.""",3,0,0,0,1,1,2,0,0,1,0,1,0,0,0,1,0,0,0,0,"""Apartamento con buenas dependencias.""",Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Integral,Privado,1,1,382,001-977481,Si,No,No,No,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0,0,0,0,0,0,0,0,0,0,0,0.0,0,0.0,0,0,"""Inmueble sin problemas estructurales. """,0,0,0,0,0,0,0,0,Comparación de Mercado PH en Venta,"""Se realizó por método comparativo o de mercad...",0,0,0,0,0,0,0,0,6244,14985600000,1332,150000000516,0,0,0,0,0,0,0,0,No,0,1648560000516,251696.0,65497020,0.0,0.0
10,42979.3768803935,Originación,Crédito hipotecario de vivienda,Garantía Hipotecaria,Hipotecario,Vivienda,VIS,CAUCA,PUERTO TEJADA,La Esperanza,Urbano,"""KR 17 # 23 - 76""",Si,Si,Si,Si,Si,Si,Si,Si,3,Si,Plano,Buenas,Bueno,Media,No,Si,No,No,No,Bueno,"""Inmueble bien ubicado en el centro-norte de P...","""Sector con buenas perspectivas de valorización.""","""Por ahora en el sector no se desarrollan proy...","""En el momento no se adelantan construcciones ...",Si,Si,Si,Si,No,Casa,0,Vivienda,0,Unifamiliar,0,Propietario,No,No Aplica,0,No Aplica,0,No Aplica,0,No Aplica,0,Aplica,8,Aplica,2,No,0,0,0,0,1288,"""Vivienda medianera desarrollada en una planta...",0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,No,0,0,35,2,Muro de carga,No disponible,Teja de barro,Pañete y pintura,De 0 a 3 metros,No disponible,Sin daños previos,Mampostería,Muros,Bueno,Bueno,Sin irregularidad,Sin irregularidad,"""Inmueble con estructura en mampostería, adecu...",4,0,0,0,1,1,1,0,0,1,1,0,0,1,0,1,0,0,0,0,"""La vivienda cuenta con una distribución acept...",Bueno,Normal,Bueno,Normal,Bueno,Normal,Regular,Sencillo,Bueno,Sencillo,Regular,Sencillo,Regular,Sencillo,No Tiene,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0,0,0,0,0,0,0,0,0,0,0,0.0,0,0.0,0,0,"""Casa construida en ladrillo de arcilla con ac...",0,0,0,0,0,0,0,0,0,0,0,0,0,0,Comparación de Mercado Lote en Venta (Terreno ...,"""Se utiliza la metodología de comparación ya q...",0,0,0,0,0,0,0,0,203,34510000,135,62100000,0,0,0,0,96610000,251696.0,38383606,0.0,0.0
11,42979.3841619329,Originación,Leasing Visto Bueno,Garantía Hipotecaria,Hipotecario,Vivienda,,"BOGOTÁ, D. C.","BOGOTÁ, D. C.",LOS ROSALES,Urbano,"""KR 5 # 78 - 20 AP 503""",Si,Si,Si,Si,Si,Si,Si,Si,6,Si,Ligera,Buenas,Bueno,Media,Si,Si,Si,No,No,Bueno,"""Se trata de un sector exclusivo de la ciudad ...","""Las perspectivas de valorización se considera...","""La actualidad edificadora en la zona es baja,...","""La oferta y la demanda se consideran medias y...",Si,Si,Si,Si,Si,Apartamento,0,Vivienda,0,Multifamiliar,0,SinOcupante,Si,Aplica,0,Aplica,0,Aplica,0,Aplica,0,Aplica,0,Aplica,0,No,0,0,0,0,15369,"""Se trata del apartamento 503 del edificio. Se...",Construccion,5,1,Residencial,Vivienda,Si,Si,Si,No,No,Si,No,Si,No,No,Si,12 Horas,Si,7,1,Tradicional,No disponible,Placa concreto imp.,Otros,Mayor a 6 metros,No disponible,No disponible,Concreto Reforzado,Pórticos,Bueno,Bueno,No disponible,No disponible,"""En aparente buen estado.""",3,0,1,3,1,1,1,2,1,1,0,0,0,0,0,1,0,0,0,0,"""Dependencias bien distribuidas en buen estado...",Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Normal,Bueno,Integral,Privado,3,4,35,50C-1763323,Si,No,No,No,36,50C-1763324,Si,No,No,No,48 y,50C-1763329,Si,Si,No,Si,0,0,0,0,0,0,0,0.0,0,0,0,0,Privado,1,10,50C-1763355,0,0,0,0.0,0,0.0,0,0,"""Se trata de una construcción de buenas caract...",0,0,0,0,0,0,0,0,Comparación de Mercado PH en Venta,"""-\tSe utiliza la metodología de comparación y...",Comparación de Mercado PH en Renta,"""-\tSe utiliza la metodología de comparación y...",0,0,0,0,0,0,1536,15022080000,431,100000000,264,6000000,0,0,0,0,0,0,No,0,16082080000,251696.0,638948573,0.0,0.0


In [1]:
dataTrain.describe()

NameError: name 'dataTrain' is not defined

In [None]:
dataTrain.isnull().sum()

Pocos datos faltantes, pero los pocos que no estan pueden rellenarse facilmente. El tipo de subsidio tiene demasiados datos faltantes.

In [None]:
dataTest.isnull().sum()

Aparte de los datos faltantes en el valor, se nota que el tipo de subsidio tiene demasiados datos faltantes. En los demas pueden rellenarse los datos.

Clean dataset

Una columna que tiene demasiados datos faltantes en ambos dataframes es el de fecha de aprobación, por lo que se removera. Tambien podemos alegar que la fecha no deberia ser relevante, por lo menos en comparacion a otros parametros.

Tipo de subsidio tambien vemos que presenta muchos datos nulos, se eliminira.

Las columnas que consideramos que tienen poca informacion relevante y deben borrarse son:

[
  'fecha_aprobación',
  'tipo_subsidio',
  'numero_garaje_1',
  'matricula_garaje_1',
  'numero_garaje_2',
  'matricula_garaje_2',
  'numero_garaje_3',
  'matricula_garaje_3',
  'numero_garaje_4',
  'matricula_garaje_4',
  'numero_garaje_5',
  'matricula_garaje_5',
  'numero_deposito_1',
  'matricula_inmobiliaria_deposito_1',
  'numero_deposito_2',
  'matricula_inmobiliaria_deposito_2',
  'numero_deposito_3',
  'matricula_inmobiliaria_deposito_3',
  'numero_deposito_4',
  'matricula_inmobiliaria_deposito_4',
  'numero_deposito_5',
  'matricula_inmobiliaria_deposito_5',
  'metodo_valuacion_1',
  'concepto_del_metodo_1',
  'metodo_valuacion_2',
  'concepto_del_metodo_2',
  'metodo_valuacion_3',
  'concepto_del_metodo_3',
  'metodo_valuacion_4',
  'concepto_del_metodo_4',
  'metodo_valuacion_5',
  'concepto_del_metodo_5',
  'metodo_valuacion_6',
  'concepto_del_metodo_6',
  'metodo_valuacion_7',
  'concepto_del_metodo_7',
  'metodo_valuacion_8',
  'concepto_del_metodo_8',
  'metodo_valuacion_9',
  'concepto_del_metodo_9',
  'Longitud',
  'Latitud',
]

Por otro lado tenemos algunas que consideramos que pueden arrojan informacion pero necesitan trabajo adicional, mas que todo preprocesar intensamente la data, para extraerle un score o sentimiento:

[
  'descripcion_clase_inmueble',
  'perspectivas_de_valorizacion',
  'actualidad_edificadora',
  'comportamiento_oferta_demanda',
  'observaciones_generales_inmueble',
  'observaciones_estructura',
  'observaciones_generales_construccion',
  'observaciones_dependencias',
]

Hay otros que pueden agruparse, por ejemplo

## Influencia de la zona

[
  'departamento_inmueble',
  'municipio_inmueble',
  'barrio',
  'descripcion_general_sector',
  'direccion_inmueble_informe',
  'descripcion_general_sector',
]

Un caso interesante aca es el de 'sector' pues usualmente rural siempre vale menos que urbano por metro cuadrado. Sin embargo combinandolo con los anteriores puede dar mas informacion sobre la zona especifica, por ejemplo inidicar que un apartamento en la zona urbana tiene mayor valor que un lote urbano.

Pero las 3 ultimas son las que dan mas informacion, pues indican con palabras si el barrio o la ciudad estan cotizadas. Creemos que usar tambien departamento, municipio o barrio implicaria en la practica hacer una etiquetacion de tales columnas (es bogota bueno, malo o no afecta al valor?). Por eso se incluyo al final a las 3 primeras para eliminar, pues no aportan tanta data como se quisiera.

## Influencia de la estructura

[
  'observaciones_generales_inmueble',
  'observaciones_estructura',
  'observaciones_dependencias',
  'observaciones_generales_construccion',
]

## Area, altura, dimensiones

[
  'observaciones_altura_permitida',
  'area_privada',
  'area_garaje',
  'area_deposito',
  'area_terreno',
  'area_construccion',
  'area_otros',
  'area_libre',
]

Aca podria pensarse que el area total y el area contruida serian los valores mas importantes, y otros valores no ayudan individualmente, asi mismo la atura no se toma en cuenta.

## Valor

Aca solo tomamos el valor total, las demas quedan borradas

Borrar data no util

In [None]:
columnsToErase = [
  'fecha_aprobación',
  'tipo_subsidio',
  'numero_garaje_1',
  'matricula_garaje_1',
  'numero_garaje_2',
  'matricula_garaje_2',
  'numero_garaje_3',
  'matricula_garaje_3',
  'numero_garaje_4',
  'matricula_garaje_4',
  'numero_garaje_5',
  'matricula_garaje_5',
  'numero_deposito_1',
  'matricula_inmobiliaria_deposito_1',
  'numero_deposito_2',
  'matricula_inmobiliaria_deposito_2',
  'numero_deposito_3',
  'matricula_inmobiliaria_deposito_3',
  'numero_deposito_4',
  'matricula_inmobiliaria_deposito_4',
  'numero_deposito_5',
  'matricula_inmobiliaria_deposito_5',
  'metodo_valuacion_1',
  'concepto_del_metodo_1',
  'metodo_valuacion_2',
  'concepto_del_metodo_2',
  'metodo_valuacion_3',
  'concepto_del_metodo_3',
  'metodo_valuacion_4',
  'concepto_del_metodo_4',
  'metodo_valuacion_5',
  'concepto_del_metodo_5',
  'metodo_valuacion_6',
  'concepto_del_metodo_6',
  'metodo_valuacion_7',
  'concepto_del_metodo_7',
  'metodo_valuacion_8',
  'concepto_del_metodo_8',
  'metodo_valuacion_9',
  'concepto_del_metodo_9',
  'Longitud',
  'Latitud',
]

cleanTrainData = dataTrain.drop(columnsToErase, axis=1)
cleanTestData = dataTest.drop(columnsToErase, axis=1)

print(f'Train data now have {cleanTrainData.shape}')
print(f'Test data now have {cleanTestData.shape}')

In [None]:
cleanTrainData.head()

First half here

Second half here