# _Universitat Oberta de Catalunya (UOC)_
## Master Universitario en Ciencia de Datos (Data Science)
### Tipología y ciclo de vida de los datos

### PRA2 - _Limpieza y análisis de datos_

### 1. Descripción del problema

El proyecto que se presenta es una continuación de la [primera práctica](https://github.com/jvruoc/rent_prices) en la que se creó un conjunto de datos de pisos y casas en alquiler de la web Fotocasa, que corresponden con toda la oferta de alquiler publicada en esta web para la ciudad de Madrid. Cada registro del conjunto de datos representa una casa/piso de alquiler con sus características. 

Los datos de este dataset se recogieron entre el 4-4-2022 y el 11-4-2022, lanzando dos procesos diarios de web scraping. En cada proceso se incluían los nuevos anuncios publicados y se actualizaban los siguientes datos de los ya existentes:
* Fecha de último acceso. Se actualizaba la fecha en la que se accedía al anuncio para tener trazabilidad de cuando desaparecía.
* Histórico de cambios en el precio de alquiler publicado (por comparación con el último registrado)

Nos podemos encontrar con muchos datasets que tienen información similar a la indicada, pero este datasets incorpora dos datos que no suelen estar registados, el tiempo de vigencia del anuncio y el histórico de precios durante el tiempo que estuvo publicado. Esta información nos permite enfocarnos hacia la construcción de modelos que intenten predecir cuestiones que tienen que ver con el proceso de alquiler, por ejemplo:

* ¿Qué precio de renta elegir si quiero que se alquile en menos de x días?
* ¿En qué época del año es más sencillo que se alquile una vivienda?
* Estudios sobre series temporales relativas a los inmuebles en alquiler
* Con las características de un inmueble, ¿Cuánto tiempo tardará en alquilarse el inmueble?

En esta práctica se va a realizar un modelo que ayude en el establecimiento del precio de la renta en función del resto de características del inmueble. Es decir, se creará un modelo supervisado de regresión.

### 2. Justificación selección datos
![](images/seleccion_datos_regresión.png)

Por las caracteríticas del proceso de extracción, en el dataset nos encontramos anuncios publicados antes de la primera fecha de proceso y que todavía permanecen activos (Supervivientes), pero no van a existir, como es lógico, ningún anuncio que se haya retirado antes de la fecha del primer proceso de extracción (En rojo, "No registrados"). Para no sesgar el modelo con información de inmuebles que se han publicado y todavía no se han vendido (quizás porque el precio no se ajusta a las características), se van a seleccionar sólo los anuncios que se hayan publicado con posterioridad al 4 de abril, de ese modo tendremos en el dataset información tanto de inmuebles que desaparecen pronto de la web, como de aquellos que permanecen más tiempo.

### 2. Descripción del conjunto de datos

A continuación se enumeran las distintas características que forman el conjunto de datos original:

* _id_: Id. del inmueble, este identificador está anonimizado para que no se pueda asociar al anuncio de origen
* _zipCode_: Código postal en el que se encuentra la localidad. Ej: 28023
* _buildingType_: Categoría del tipo de inmueble, en la mayoría de los casos se tratan de pisos (Flat).
* _buildingSubtype_: Subtipo de inmueble, valor categórico. Ej: GroundFloorWithGarden, Flat, SemiDetached, Attic, ...
* _clientId_: Id. del cliente que publica el anuncio. Ej: id-1, id-2, ...
* _clientTypeId_: Categoría del tipo de cliente
    * _1_: Particular
    * _3_: Inmobiliaria  
* _dateOriginal_: Fecha de publicación del inmueble. Ej: 2022-03-01
* _bathrooms_: Cantidad de baños (valor numérico). Ej: 2
* _balcony_: Balcón, valor binario tiene o no tiene este extra (0 ó 1)
* _air conditioner_: Aire acondicionado, valor binario tiene o no tiene este extra (0 ó 1)
* _heater_: Calentador, valor binario tiene o no tiene este extra (0 ó 1)
* _heating_: Calefacción, valor binario tiene o no tiene este extra (0 ó 1)
* _swimming pool_: Piscina, valor binario tiene o no tiene este extra (0 ó 1)
* _parking_: Parking propio, valor binario tiene o no tiene este extra (0 ó 1)
* _conservationState_: Estado de conservación valor categórico:
    * _1_: Casi nuevo
    * _2_: Muy bueno
    * _3_: Bueno
    * _4_: A reformar
    * _8_: Reformado
* _floor_: Planta en la que se sitúa el piso. Ej: 4
* _terrace_: Terrazas, valor binario tiene o no tiene este extra (0 ó 1 )
* _elevator_: Ascensores, valor binario tiene o no tiene este extra (0 ó 1 )
* _rooms_: Número de habitaciones. Ej: 3
* _surface_: Superficie de la vivienda en m². Ej: 102
* _isHighlighted_: Valor binario que define si el inmueble está destacado o no (0 ó 1 )
* _isPackPremiumPriority_: Anuncio premium, valor binario (0 ó 1 )
* _isNewConstruction_: Es de nueva construcción, valor binario (0 ó 1 )
* _hasOpenHouse_: Visita libre, valor binario (0 ó 1 )
* _isOpportunity_: Es una oportunidad, valor binario (0 ó 1 )
* _minPrice_: Precio mínimo aceptado. Ej: 0
* _otherFeaturesCount_: Cantidad de características adicionales, valor numérico. Ej: 15
* _price_: Precio del alquiler. Ej: 1325
* _periodicityId_: Periodicidad de pago del alquiler.
    * _0_: Desconocido
    * _3_: Mensual
* _history_: Historial de precios del inmueble. Ej: [{'date': '2022-04-04', 'price': 1120}]
* _lastAccess_: Ultima fecha de acceso a la obtención de los datos. Ej: '2022-04-09 16:55:15.693000'

### Contribuciones

En este apartado se reflejan las contribuciones realizadas por cada uno de los autores en las
diversas tareas realizadas. Las iniciales en la sección de firma representan la confirmación por
parte del autor de su participación en el apartado correspondiente.

| Contribución  | Firma   |
|---------------|---------|
| Planteamiento del problema | KM - JV  |
| Limpieza del dataset       | KM - JV  |
| Análisis estadístico       | KM - JV  |
| Modelo del problema        | KM - JV  |