## Preparación de datos y preselección de variables para modelo de estimación de precio de vivienda

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

In [2]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.float_format', lambda x: '%.9f' % x)

### 1. Cargue de datos

In [3]:
df_train = pd.read_excel("../datos/clean_entrenamiento_precios_vivienda.xlsx", dtype=str)

In [4]:
campos_desc = ['descripcion_general_sector','perspectivas_de_valorizacion','actualidad_edificadora',
               'comportamiento_oferta_demanda','descripcion_tipo_inmueble','descripcion_uso_inmueble',
               'descripcion_clase_inmueble','observaciones_generales_inmueble','area_actividad',
               'uso_principal_ph','observaciones_estructura','observaciones_dependencias',
               'observaciones_generales_construccion']

campos_garaje = ['numero_garaje_1', 'matricula_garaje_1', 'garaje_cubierto_1', 'garaje_doble_1',
                 'garaje_paralelo_1', 'garaje_servidumbre_1', 'numero_garaje_2', 'matricula_garaje_2',
                 'garaje_cubierto_2', 'garaje_doble_2', 'garaje_paralelo_2', 'garaje_servidumbre_2',
                 'numero_garaje_3', 'matricula_garaje_3', 'garaje_cubierto_3', 'garaje_doble_3',
                 'garaje_paralelo_3', 'garaje_servidumbre_3', 'numero_garaje_4', 'matricula_garaje_4',
                 'garaje_cubierto_4', 'garaje_doble_4', 'garaje_paralelo_4', 'garaje_servidumbre_4',
                 'numero_garaje_5', 'matricula_garaje_5', 'garaje_cubierto_5', 'garaje_doble_5',
                 'garaje_paralelo_5', 'garaje_servidumbre_5']

campos_deposito = ['numero_deposito_1', 'matricula_inmobiliaria_deposito_1', 'numero_deposito_2',
                   'matricula_inmobiliaria_deposito_2', 'numero_deposito_3', 'matricula_inmobiliaria_deposito_3',
                   'numero_deposito_4', 'matricula_inmobiliaria_deposito_4', 'numero_deposito_5',
                   'matricula_inmobiliaria_deposito_5']

campos_valuacion = ['metodo_valuacion_1', 'concepto_del_metodo_1', 'metodo_valuacion_2', 'concepto_del_metodo_2',
                    'metodo_valuacion_3', 'concepto_del_metodo_3', 'metodo_valuacion_4', 'concepto_del_metodo_4',
                    'metodo_valuacion_5', 'concepto_del_metodo_5', 'metodo_valuacion_6', 'concepto_del_metodo_6',
                    'metodo_valuacion_7', 'concepto_del_metodo_7', 'metodo_valuacion_8', 'concepto_del_metodo_8',
                    'metodo_valuacion_9', 'concepto_del_metodo_9']

campos_valores = ['valor_area_privada', 'valor_area_garaje', 'valor_area_deposito', 'valor_area_terreno',
                  'valor_area_construccion', 'valor_area_otros', 'valor_area_libre', 'valor_uvr',
                  'valor_avaluo_en_uvr', 'valor_total_avaluo', 'clean_valor_uvr', 'clean_valor_avaluo_en_uvr',
                  'val', 'diff']

campos_areas = ['area_total', 'area_privada', 'area_garaje', 'area_deposito', 'area_terreno', 'area_construccion', 'diff_area']

campos_na = ['observaciones_indice_construccion', 'observaciones_antejardin', 'observaciones_aislamiento_posterior',
            'observaciones_antejardin', 'observaciones_altura_permitida', 'observaciones_indice_ocupacion']

In [5]:
df_train.drop(columns=["id", "fecha_aprobación"], inplace=True)
df_train.drop(columns=campos_desc, inplace=True)
df_train.drop(columns=campos_garaje, inplace=True)
df_train.drop(columns=campos_deposito, inplace=True)
df_train.drop(columns=campos_valuacion, inplace=True)
df_train.drop(columns=campos_valores, inplace=True)
df_train.drop(columns=campos_areas, inplace=True)
df_train.drop(columns=campos_na, inplace=True)

### 2. Eliminación de variables categóricas con clase de alta frecuencia

In [6]:
frec_vars = df_train.describe(include="all").T['freq']/df_train.shape[0]
frec_vars.sort_values(ascending = False)

condiciones_salubridad              0.997400347
energia_en_el_sector                0.996297463
oficina                             0.994879471
acueducto_en_el_sector              0.994485584
alcantarillado_en_el_sector         0.985189853
proposito                           0.983299196
bodega                              0.983220419
ventilacion                         0.982984087
local                               0.981014653
iluminacion                         0.979123996
observaciones_aislamiento_lateral   0.976603120
tipo_credito                        0.975106349
uso_actual                          0.974948795
objeto                              0.970694816
tipo_avaluo                         0.970537262
contadores_agua                     0.969670711
contadores_luz                      0.969119269
accesorios                          0.968489050
area_otros                          0.966913502
sector                              0.966913502
acueducto_en_el_predio              0.96

In [7]:
to_drop = frec_vars[frec_vars > 0.95].index
len(to_drop)

35

In [8]:
df_train.drop(columns=to_drop, inplace=True)

In [9]:
df_train.head()

Unnamed: 0,motivo,tipo_subsidio,departamento_inmueble,municipio_inmueble,barrio,direccion_inmueble_informe,vias_pavimentadas,sardineles_en_las_vias,andenes_en_las_vias,estrato,topografia_sector,demanda_interes,paradero,arborizacion,alamedas,ciclo_rutas,nivel_equipamiento_comercial,gas_en_el_predio,telefono_en_el_predio,tipo_inmueble,clase_inmueble,ocupante,sometido_a_propiedad_horizontal,altura_permitida,aislamiento_posterior,aislamiento_lateral,antejardin,indice_ocupacion,indice_construccion,area_valorada,condicion_ph,numero_piso,numero_de_edificios,rph,porteria,citofono,bicicletero,piscina,tanque_de_agua,club_house,garaje_visitantes,teatrino,sauna,vigilancia_privada,tipo_vigilancia,administracion,vetustez,pisos_bodega,estructura,ajustes_sismoresistentes,cubierta,fachada,tipo_fachada,estructura_reforzada,danos_previos,material_de_construccion,detalle_material,irregularidad_planta,irregularidad_altura,habitaciones,estar_habitacion,cuarto_servicio,closet,sala,comedor,bano_privado,bano_social,bano_servicio,cocina,estudio,balcon,terraza,patio_interior,jardin,zona_de_ropas,estado_acabados_pisos,calidad_acabados_pisos,calidad_acabados_muros,calidad_acabados_techos,estado_acabados_madera,calidad_acabados_madera,calidad_acabados_metal,calidad_acabados_banos,estado_acabados_cocina,calidad_acabados_cocina,tipo_garaje,numero_total_de_garajes,total_cupos_parquedaro,tipo_deposito,numero_total_depositos,area_libre,Longitud,Latitud,clean_valor_total_avaluo
0,Crédito hipotecario de vivienda,,CUNDINAMARCA,SOACHA,BUENOS AIRES,"""KR 7 C # 2 A - 30 SUR CS 2""",Si,Si,Si,2,Plano,Media,Si,Si,Si,Si,Bueno,Si,No,Casa,Multifamiliar,SinOcupante,Si,Aplica,Aplica,Aplica,Aplica,Aplica,Aplica,53.33,Construccion,4,99,Si,Si,No,No,No,Si,No,Si,No,No,Si,24 Horas,Si,6,1,Mamposteria Estructural,No disponible,Teja fibrocemento,Ladrillo a la vista,De 0 a 3 metros,No disponible,No disponible,Mampostería,Mampostería reforzada,Sin irregularidad,Sin irregularidad,3,0,0,0,1,1,0,2,0,1,0,0,0,0,0,1,Bueno,Normal,Normal,Normal,Bueno,Normal,Normal,Normal,Bueno,Integral,No Tiene,0,0,0,0,No,0,0,71995500.0
1,Garantía,VIS,SUCRE,SINCELEJO,LAS FLORES,"""KR 6 # 6 - 20""",Si,Si,Si,2,Plano,Media,No,Si,No,No,Bueno,Si,No,Casa,Unifamiliar,Propietario,No,Aplica,Aplica,Aplica,Aplica,Aplica,Aplica,92.0,0,0,0,0,0,0,0,0,0,0,0,0,0,No,0,0,17,2,Muro de carga,No disponible,Teja fibrocemento,Pañete y pintura,De 0 a 3 metros,No disponible,Sin daños previos,Mampostería,Mampostería confinada,Sin irregularidad,Sin irregularidad,4,0,0,0,1,1,2,0,0,1,0,0,1,1,0,1,Bueno,Normal,Normal,Sencillo,Bueno,Normal,Normal,Normal,Bueno,Sencillo,No Tiene,0,0,0,0,0,0,0,87094000.08
2,Crédito hipotecario de vivienda,,VALLE DEL CAUCA,CALI,FLORA INDUSTRIAL,"""KR 7 # 58 - 05 AP 201""",Si,Si,Si,3,Plano,Media,Si,Si,No,No,Muy bueno,Si,Si,Apartamento,Multifamiliar,Otro,Si,Aplica,Aplica,Aplica,Aplica,Aplica,Aplica,49.13,Construccion,2,1,Si,No,No,No,No,No,No,No,No,No,No,0,No,8,2,Mamposteria Estructural,No disponible,Placa concreto imp.,Graniplast,Mayor a 6 metros,No disponible,No disponible,Mampostería,Mampostería no reforzada,No disponible,No disponible,3,0,0,3,1,1,0,1,0,1,0,0,0,0,0,1,Bueno,Normal,Normal,Normal,Bueno,Normal,Normal,Normal,Bueno,Sencillo,No Tiene,0,0,0,0,No,0,0,76151500.0
3,Crédito hipotecario de vivienda,,NARIÑO,PASTO,LAS BRISAS,"""KR 18 Este # 21 G Bis - 03 MZ 16 CS 1""",No,No,Si,2,Plano,Media,Si,No,No,No,Bueno,Si,No,Casa,Unifamiliar,SinOcupante,No,Aplica,No Aplica,No Aplica,No Aplica,Aplica,Aplica,57.6,0,0,0,0,0,0,0,0,0,0,0,0,0,No,0,0,7,1,Tradicional,No disponible,Placa concreto imp.,Pañete y pintura,De 3 a 6 metros,Trabes coladas en sitio,No disponible,Concreto Reforzado,Pórticos,Sin irregularidad,Sin irregularidad,3,0,0,0,1,1,1,1,0,1,0,0,1,0,0,1,Bueno,Normal,Normal,Normal,Bueno,Normal,Normal,Normal,Bueno,Semi-Integral,No Tiene,0,0,0,0,0,0,0,78090000.0
4,Crédito hipotecario de vivienda,,VALLE DEL CAUCA,TULUA,BUENOS AIRES,"""CL 26 D # 8 - 27""",No,No,Si,3,Plano,Media,No,Si,No,No,Regular Malo,Si,No,Casa,Unifamiliar,Propietario,No,Aplica,No Aplica,No Aplica,Aplica,Aplica,No Aplica,78.0,0,0,0,0,0,0,0,0,0,0,0,0,0,No,0,0,0,2,Muro de carga,No disponible,Placa concreto imp.,Ladrillo a la vista,Mayor a 6 metros,No disponible,Sin daños previos,Mampostería,Muros,Sin irregularidad,Sin irregularidad,3,0,0,0,1,1,1,0,0,1,0,0,0,2,1,1,Bueno,Sencillo,Sencillo,Sencillo,Sin acabados,Sin Acabados,Sencillo,Sencillo,Bueno,Sencillo,No Tiene,0,0,0,0,0,0,0,61205000.0


### 3. Exploración de contenido de variables

In [10]:
vars_ordinales = ['estrato', 'demanda_interes', 'nivel_equipamiento_comercial', 'estado_acabados_pisos', 
                  'calidad_acabados_pisos', 'calidad_acabados_muros', 'calidad_acabados_techos',
                  'estado_acabados_madera', 'calidad_acabados_madera', 'calidad_acabados_metal', 
                  'calidad_acabados_banos', 'estado_acabados_cocina', 'calidad_acabados_cocina', 'tipo_garaje']

vars_numericas = ['area_valorada', 'numero_piso', 'numero_de_edificios', 'pisos_bodega', 'habitaciones',
                  'estar_habitacion', 'cuarto_servicio', 'closet', 'sala', 'comedor', 'bano_privado', 
                  'bano_social', 'bano_servicio', 'cocina', 'estudio', 'balcon', 'terraza',
                  'patio_interior', 'jardin', 'zona_de_ropas', 'numero_total_de_garajes', 
                  'total_cupos_parquedaro', 'vetustez', 'numero_total_depositos',
                  'Longitud', 'Latitud']

vars_binarias = ['vias_pavimentadas', 'sardineles_en_las_vias', 'andenes_en_las_vias', 'paradero', 
                 'arborizacion', 'alamedas', 'ciclo_rutas', 'gas_en_el_predio', 'telefono_en_el_predio', 
                 'sometido_a_propiedad_horizontal', 'vigilancia_privada']

var_objetivo = ['clean_valor_total_avaluo']

vars_categoricas = list(set(df_train.columns).difference(vars_ordinales + vars_numericas + vars_binarias + var_objetivo))

In [11]:
for c in vars_ordinales:
    print(c)
    print(df_train[c].value_counts(), "\n\n")

estrato
3             4534
4             2738
2             2415
5             1461
6             1014
1              525
Comercial        4
Industrial       2
Oficina          1
Name: estrato, dtype: int64 


demanda_interes
Media     10297
Fuerte     1598
Débil       483
Nula        316
Name: demanda_interes, dtype: int64 


nivel_equipamiento_comercial
Bueno           9028
Muy bueno       2479
Regular Malo    1078
En Proyecto      109
Name: nivel_equipamiento_comercial, dtype: int64 


estado_acabados_pisos
Bueno           12006
Sin acabados      418
Regular           258
Malo               12
Name: estado_acabados_pisos, dtype: int64 


calidad_acabados_pisos
Normal          10242
Sencillo         1305
Lujoso            574
Sin Acabados      573
Name: calidad_acabados_pisos, dtype: int64 


calidad_acabados_muros
Normal          10846
Sencillo         1167
Sin Acabados      495
Lujoso            186
Name: calidad_acabados_muros, dtype: int64 


calidad_acabados_techos
Normal       

In [12]:
for c in vars_binarias:
    print(c)
    print(df_train[c].value_counts(), "\n\n")

vias_pavimentadas
Si    11982
No      712
Name: vias_pavimentadas, dtype: int64 


sardineles_en_las_vias
Si    10535
No     2159
Name: sardineles_en_las_vias, dtype: int64 


andenes_en_las_vias
Si    11813
No      881
Name: andenes_en_las_vias, dtype: int64 


paradero
Si    9672
No    3022
Name: paradero, dtype: int64 


arborizacion
Si    10287
No     2407
Name: arborizacion, dtype: int64 


alamedas
No    9780
Si    2914
Name: alamedas, dtype: int64 


ciclo_rutas
No    9748
Si    2946
Name: ciclo_rutas, dtype: int64 


gas_en_el_predio
Si    11380
No      988
0       326
Name: gas_en_el_predio, dtype: int64 


telefono_en_el_predio
Si    8113
No    4121
0      460
Name: telefono_en_el_predio, dtype: int64 


sometido_a_propiedad_horizontal
Si    9021
No    3673
Name: sometido_a_propiedad_horizontal, dtype: int64 


vigilancia_privada
No    6606
Si    6088
Name: vigilancia_privada, dtype: int64 




In [13]:
for c in vars_categoricas:
    print(c)
    print(df_train[c].value_counts().head(50), "\n\n")

indice_construccion
Aplica        11218
No Aplica       871
Resultante      534
0                71
Name: indice_construccion, dtype: int64 


ajustes_sismoresistentes
No disponible    11346
No Reparados       884
Reparados          464
Name: ajustes_sismoresistentes, dtype: int64 


altura_permitida
Aplica        12017
No Aplica       381
Resultante      225
0                71
Name: altura_permitida, dtype: int64 


clase_inmueble
Multifamiliar       7230
Unifamiliar         4370
Bifamiliar           621
Viv. Subdividida     289
Otro                 108
0                     51
Comercial             22
Ed. Oficinas           3
Name: clase_inmueble, dtype: int64 


irregularidad_planta
No disponible        6131
Sin irregularidad    6083
Con irregularidad     480
Name: irregularidad_planta, dtype: int64 


aislamiento_lateral
Aplica       9409
No Aplica    3214
0              71
Name: aislamiento_lateral, dtype: int64 


estructura
Tradicional                6248
Mamposteria Estructura

In [14]:
for c in vars_numericas:
    print(c)
    print(df_train[c].value_counts().head(50), "\n\n")

area_valorada
60       78
54       52
56       48
72       43
80       37
120      36
98       35
90       34
84       33
81       33
76       32
68       31
66       30
96       29
108      27
100      27
70       26
75       25
105      25
78       24
50       24
44       24
57       24
52       23
65       23
82       23
55       23
63       21
58       21
48       20
85       20
126      20
83       20
92       19
62       18
73       18
45       18
64       18
51       18
75.58    18
160      17
94       17
42       17
38.9     17
114      16
130      16
104      16
79       16
180      16
50.4     16
Name: area_valorada, dtype: int64 


numero_piso
0     3661
1     1985
2     1450
3     1164
4      961
5      876
6      440
7      316
8      280
9      245
10     202
12     189
11     184
15     106
13     102
14      91
16      78
18      58
17      57
19      40
20      38
21      30
22      29
23      27
25      20
24      18
27      12
26       8
28       6
30       5
29     

### 4. Tratamiento de variables numéricas

In [15]:
def isfloat(string):
    try:
        float(string)
        return True
    except ValueError:
        return False

In [16]:
for c in vars_numericas:
    if(df_train[c].dtype == "O"):
        df_train[c] = df_train[c].apply(lambda v: float(v.replace(",",".")) if type(v) is str and isfloat(v.replace(",",".")) else np.nan)

In [17]:
for c in vars_numericas:
    print(c)
    print(df_train[c].describe(), "\n\n")

area_valorada
count     12694.000000000
mean        431.962206082
std       25909.007647532
min           1.000000000
25%          56.850000000
50%          75.295000000
75%         109.195000000
max     2885763.000000000
Name: area_valorada, dtype: float64 


numero_piso
count   12694.000000000
mean        3.599180715
std         5.006280083
min         0.000000000
25%         0.000000000
50%         2.000000000
75%         5.000000000
max        99.000000000
Name: numero_piso, dtype: float64 


numero_de_edificios
count   12694.000000000
mean        4.976366787
std        12.150338854
min         0.000000000
25%         0.000000000
50%         1.000000000
75%         4.000000000
max        99.000000000
Name: numero_de_edificios, dtype: float64 


pisos_bodega
count   12694.000000000
mean        1.427446037
std         0.609199531
min         0.000000000
25%         1.000000000
50%         1.000000000
75%         2.000000000
max         2.000000000
Name: pisos_bodega, dtype: float64 


### 5. Exportación de datos preparados

In [18]:
df_train.to_excel("../datos/prep_entrenamiento_precios_vivienda.xlsx", index=False)