# CREANDO VALOR DE NEGOCIO CON DATA SCIENCE

# Parte 1 - Introducción

Hace aproximadamente un año se lanzó una de las mayores competiciones en Kaggle hasta la fecha: se trataba del *desafío* denominado **Premio Zillow**, dotado con 1.000.000 $ en efectivo para el ganador.

Los usuarios de Kaggle fueron desafiados a mejorar el sistema de Predicción del Valor de Viviendas de Zillow. De la [página web del concurso](https://www.kaggle.com/c/zillow-prize-1#description):

> Una casa es a menudo la compra más grande y más costosa que una persona hace en su vida. Asegurar que los propietarios tengan una manera confiable de monitorizar este activo es muy importante. The **Zestimate** se creó para ofrecer a los consumidores la mayor información posible sobre las casas y el mercado de la vivienda, siendo la primera vez que los consumidores tuvieron acceso a este tipo de información sobre el valor de la vivienda sin coste alguno.

> "*Zestimates*" son los valores estimados de viviendas basados en 7,5 millones de modelos estadísticos y machine learning que analizan cientos de variables de cada propiedad. Y al mejorar continuamente el margen de error medio, desde el 14% al inicio hasta el 5% en la actualidad, Zillow se ha convertido en uno de los mercados más grandes y confiables para información de bienes raíces en los EE.UU., así como un ejemplo destacado del impacto del machine learning.

En pocas palabras, ¡el desafío consistía en mejorar el valor de la estimación del precio de la vivienda de Zillow! El margen de error medio del 5% ya es increíble. Pero para un mercado inmobiliario que vale miles de millones de dólares, cada punto porcentual cuenta.

## ¿Qué es importante para el negocio?

Antes de realizar cualquier tipo de exploración de datos, en primer lugar **tenemos que entender el propósito de hacerlo** ¿Qué es exactamente lo que estamos tratando de obtener de todo esto?

Una cosa que sabemos con certeza es que queremos **aumentar la precisión de la predicción de nuestro sistema**. No nos importa demasiado la velocidad de nuestro sistema, ya que no estamos tratando de ejecutar nada en tiempo real, por lo que podemos ejecutar cosas como Random Forest y Neural Networks si las encontramos útiles.

Aunque realmente el único requisito es aumentar la precisión de la predicción, estaría genial que pudíeramos entender qué contienen nuestros datos. Siempre hay más información que se puede obtener de un conjunto de datos tan grande y dicha información puede ofrecer un enorme valor de negocio más allá de la simple predicción.

Imaginemos que podemos encontrar que ciertas aspectos de una vivienda aumentan el precio más que otros. Por ejemplo, qué sucede si disponer de 4 dormitorios y 3 cuartos de baño es mucho más valioso que la superficie en el mercado inmobiliario. Esa es la información que podemos ofrecer a los clientes para que puedan tomar una decisión fundamentada sobre el valor de la inversión a largo plazo. O tal vez uno quiera construir un conjunto de viviendas y quiera saber qué aspectos de la misma harían que se revalorizara con el tiempo.

Al presentar esta información a los clientes o ejecutivos de la compañía queremos mantener las cosas a un nivel bastante alto de manera que sea rápidas y fáciles de entender. Esto significa visualizaciones muy simplistas sin gráficos complicados. Deberíamos usar menos matemáticas y estadística y un lenguaje más básico en nuestros informes. En lugar de decir algo como "*...nuestro conjunto de datos tiene un valor de gradiente de ...*", diríamos algo como "*...como podemos ver en este gráfico, hemos tenido una tendencia al alza...*"

## El conjunto de datos Zillow Zestimate

Zillow proporciona a los participantes propiedades inmobiliarias del año 2016 de tres condados de California: Los Angeles, Orange y Ventura. Las variables proporcionadas son:

|Variable|Descripción|
| :--- | :--- |
|'airconditioningtypeid'| Type of cooling system present in the home (if any) |
|'architecturalstyletypeid'| Architectural style of the home (ie 'ranch' 'colonial' 'split-level' etc)|
|'basementsqft'| Finished living area below or partially below ground level|
|'bathroomcnt'| Number of bathrooms in home including fractional bathrooms|
|'bedroomcnt'| Number of bedrooms in home|
|'buildingqualitytypeid'| Overall assessment of condition of the building from best (lowest) to worst (highest)|
|'buildingclasstypeid'|The building framing type (steel frame wood frame concrete or brick)|
|'calculatedbathnbr'| Number of bathrooms in home including fractional bathroom|
|'decktypeid'|Type of deck (if any) present on parcel|
|'threequarterbathnbr'| Number of 3/4 bathrooms in house (shower + sink + toilet)|
|'finishedfloor1squarefeet'| Size of the finished living area on the first (entry) floor of the home|
|'calculatedfinishedsquarefeet'| Calculated total finished living area of the home|
|'finishedsquarefeet6'|Base unfinished and finished area|
|'finishedsquarefeet12'|Finished living area|
|'finishedsquarefeet13'|Perimeter  living area|
|'finishedsquarefeet15'|Total area|
|'finishedsquarefeet50'| Size of the finished living area on the first (entry) floor of the home|
|'fips'| Federal Information Processing Standard code|
|'fireplacecnt'| Number of fireplaces in a home (if any)|
|'fireplaceflag'| Is a fireplace present in this home |
|'fullbathcnt'| Number of full bathrooms (sink shower + bathtub and toilet) present in home|
|'garagecarcnt'| Total number of garages on the lot including an attached garage|
|'garagetotalsqft'| Total number of square feet of all garages on lot including an attached garage|
|'hashottuborspa'| Does the home have a hot tub or spa|
|'heatingorsystemtypeid'| Type of home heating system|
|'latitude'| Latitude of the middle of the parcel multiplied by 10e6|
|'longitude'| Longitude of the middle of the parcel multiplied by 10e6|
|'lotsizesquarefeet'| Area of the lot in square feet|
|'numberofstories'| Number of stories or levels the home has|
|'parcelid'| Unique identifier for parcels (lots) |
|'poolcnt'| Number of pools on the lot (if any)|
|'poolsizesum'| Total square footage of all pools on property|
|'pooltypeid10'| Spa or Hot Tub|
|'pooltypeid2'| Pool with Spa/Hot Tub|
|'pooltypeid7'| Pool without hot tub|
|'propertycountylandusecode'| County land use code ie it's zoning at the county level|
|'propertylandusetypeid'| Type of land use the property is zoned for|
|'propertyzoningdesc'| Description of the allowed land uses (zoning) for that property|
|'rawcensustractandblock'| Census tract and block ID combined - also contains blockgroup assignment by extension|
|'censustractandblock'| Census tract and block ID combined - also contains blockgroup assignment by extension|
|'regionidcounty'|County in which the property is located|
|'regionidcity'| City in which the property is located (if any)|
|'regionidzip'| Zip code in which the property is located|
|'regionidneighborhood'|Neighborhood in which the property is located|
|'roomcnt'| Total number of rooms in the principal residence|
|'storytypeid'| Type of floors in a multi-story house (ie basement and main level split-level attic etc)|
|'typeconstructiontypeid'| What type of construction material was used to construct the home|
|'unitcnt'| Number of units the structure is built into (ie 2 = duplex 3 = triplex etc)|
|'yardbuildingsqft17'|Patio in  yard|
|'yardbuildingsqft26'|Storage shed/building in yard|
|'yearbuilt'| The Year the principal residence was built |
|'taxvaluedollarcnt'|The total tax assessed value of the parcel|
|'structuretaxvaluedollarcnt'|The assessed value of the built structure on the parcel|
|'landtaxvaluedollarcnt'|The assessed value of the land area of the parcel|
|'taxamount'|The total property tax assessed for that assessment year|
|'assessmentyear'|The year of the property tax assessment |
|'taxdelinquencyflag'|Property taxes for this parcel are past due as of 2015|
|'taxdelinquencyyear'|Year for which the unpaid propert taxes were due |

Es probable que algunas de estas variables sean super importantes desde el principio, como el número de habitaciones, baños, tamaño del jardín, etc. Otras pueden parecer menos importantes como disponer de un cobertizo o no. Y seguro que, como siempre, habrá gemas ocultas en este conjunto de características. Todo lo que necesitamos hacer es predecir el precio final de la vivienda a partir de estas características.