# 

### Machine learning para la valuación inmobiliaria en la Provincia de Córdoba

Estado de situación inicial:

-   Valuaciones inmobiliarias sin actualizarse durante los últimos 30 años.

    -   Pérdida de capacidad fiscal en un impuesto menos nocivo que Ingresos Brutos.

    -   Inequidad vertical y horizonal.

-   Ausencia de personal calificado para realizar la tarea en la Administración Pública, incluso bajo un enfoque tradicional.

# 

### Objetivo

Desarrollar un modelo valuatorio dinámico y replicable, que permita expresar las valuaciones fiscales de los inmuebles a niveles de mercado.

<br></br>

### Estrategia

Implementar modelos predictivos para conocer el precio de mercado de los inmuebles a partir de observaciones de mercado.

# 

### Primera aproximación...

**Estadística "clásica"** (perdón, soy economista):

-   Modelos lineales generalizados.

-   Modelos con corrección por dependencia espacial [@anselin].

-   Modelos con corrección por heterogeneidad espacial [@brunsdon1996].

-   Modelos geoestadísticos [@krige1951].

**Problema:**

Los modelos lineales generalizan mal hacia afuera de la muestra [@kleinberg2015]

# 

### Potencial solución.

Modelos de machine learning: sesgo 🔄 varianza.

<br></br>

**¿Por qué no Deep Learning, si está de moda?**

-   Pocos datos, pocas features.

-   Para problemas con datos tabulares, ML \> DL [@Grinsztajn]

# 

**Paso 1**: Relevar una muestra de mercado de inmuebles en venta o vendidos.

[![Observatorio del Mercado Inmobiliario (OMI)](content/omi.png){fig-align="center"}](https://omi.mapascordoba.gob.ar/spa/#/)

# 

**Paso 2**: Calcular features o variables independientes.

-   Distancias a hitos urbanos (categorización vial, ejes comerciales, barrios cerrados, villas y asentamientos, rios, entre otras).

-   Características del entorno (Cantidad de m^2^ edificacados, cantidad de baldíos, tamaño promedio de lotes, diferentes índices calculados a partir de la clasificación automática de imágenes satelitales, entre otras).

# 

**Paso 3**: Entrenamiento de algoritmos de ML.

Se entrenan los siguientes algoritmos mediante un proceso de validación cruzada en 10 folds.

-   Quantile Regression Forest [@meinshausen2006]

-   Gradient Boosting Machine [@friedman2001]

-   Support Vector Regression [@svr]

-   Machine Learning Ensemble: GLM = $f$(QRF, GBM, SVR)

# 


    ```{css}
    #| echo: false

    .reveal table {
      font-size: smaller;
    }

    ```


**Paso 4**: Validación del nivel de error por sector de la ciudad (clusters)

|                 |        |       |
|-----------------|--------|-------|
| Cluster         | Modelo | MAPE  |
| CAPITAL_ZONA_0  | QRF    | 0.19  |
| CAPITAL_ZONA_1  | QRF    | 0.106 |
| CAPITAL_ZONA_10 | QRF    | 0.1   |
| CAPITAL_ZONA_11 | QRF    | 0.114 |
| CAPITAL_ZONA_12 | QRF    | 0.118 |
| CAPITAL_ZONA_2  | QRF    | 0.09  |
| CAPITAL_ZONA_3  | EML    | 0.255 |
| CAPITAL_ZONA_4  | QRF    | 0.142 |
| CAPITAL_ZONA_5  | QRF    | 0.1   |
| CAPITAL_ZONA_6  | QRF    | 0.107 |
| CAPITAL_ZONA_7  | QRF    | 0.11  |
| CAPITAL_ZONA_8  | EML    | 0.135 |
| CAPITAL_ZONA_9  | QRF    | 0.087 |

# 

**Referencias.**

::: {#refs}
:::