# Introducción: Proyecto de Machine Learning Parte 1

Al leer un libro de ciencia de datos o seguir un curso, puedes sentir que tienes piezas individuales, pero no sabes cómo unirlas. Dar el siguiente paso y resolver un problema de machine learning completo puede ser desalentador, pero enfrentarse y completar un primer proyecto le dará la confianza para afrontar cualquier problema relacionado con data science. Esta serie de notebooks analizará una solución completa de machine learning con un conjunto de datos del mundo real para que pueda ver cómo se unen todas las piezas.

Seguiremos paso a paso el flujo general de trabajo de machine learning:

1. Limpieza y formateo de datos.
2. Análisis exploratorio de datos
3. Ingeniería y selección de características.
4. Comparar varios modelos de machine learning en una métrica de rendimiento.
5. Ajuste del hiperparámetro en el mejor modelo
6. Evaluar el mejor modelo en el conjunto de pruebas
7. Interpretar los resultados del modelo.
8. Sacar conclusiones y documentar el trabajo.

En el camino veremos cómo cada paso fluye hacia el siguiente y cómo implementar específicamente cada parte en Python.

Definir esta estructura antes de tiempo nos permite ver cómo un paso fluye hacia el otro. Sin embargo, el proceso de machine learning es un procedimiento iterativo, por lo que no siempre seguimos estos pasos de manera lineal. Es posible que volvamos a revisar un paso anterior en función de los resultados de una etapa posterior. Por ejemplo, si bien podemos realizar una selección de características antes de construir cualquier modelo, podemos usar los resultados del modelado para retroceder y seleccionar un conjunto diferente de características. O el modelado puede generar resultados inesperados que signifiquen que queremos explorar nuestros datos desde otro ángulo.

A lo largo de esta serie de notebooks, el objetivo es mostrar cómo todas las diferentes prácticas de data science se unen para formar un proyecto completo. Trato de centrarme más en la implementación de los métodos en lugar de explicarlos en un nivel bajo, pero he proporcionado recursos para aquellos que desean profundizar. Uno de los mejores libros individuales para aprender lo básico e implementar prácticas de machine learning en Python es [Hands-On Machine Learning with Scikit-Learn and Tensorflow](http://shop.oreilly.com/product/0636920052289.do) de [Aurelion Geron](https://twitter.com/aureliengeron?lang=en).

## Definición del problema

El primer paso es comprender el problema que estamos tratando de resolver y los datos disponibles. En este proyecto, trabajaremos con [datos de energía de edificios disponibles públicamente de la ciudad de Nueva York](http://www.nyc.gov/html/gbee/html/plan/ll84_scores.shtml).

**El objetivo es utilizar los datos de energía para construir un modelo que pueda predecir la puntuación Energy Star de un edificio e interpretar los resultados para encontrar los factores que influyen en dicha puntuación**.

Los datos incluyen la puntuación Energy Star, por tanto, se trata de una tarea de machine learning de regresión supervisada:

+ **Supervisado**: tenemos acceso tanto a las características como al objetivo y nuestro objetivo es entrenar un modelo que pueda aprender un mapeo entre los dos.
+ **Regresión**: la puntuación de Energy Star es una variable continua (en este caso va de 0 a 100).

Queremos desarrollar un modelo que sea a la vez **preciso**: puede predecir el puntaje Energy Star cerca del valor real, e **interpretable**: podemos entender las predicciones del modelo. Una vez que conozcamos el objetivo, podemos usarlo para guiar nuestras decisiones a medida que profundizamos en los datos y construimos modelos. Durante el entrenamiento, queremos que el modelo aprenda la relación entre las características y la puntuación, por lo que le damos las características y la respuesta. Luego, para probar cómo de bien ha aprendido el modelo, ¡lo evaluamos en un conjunto de pruebas donde nunca ha visto las respuestas!

## Imports

Usaremos las bibliotecas estándar de ciencia de datos y machine learning: numpy, pandas y scikit-learn. También utilizamos matplotlib y seaborn para visualización.

In [1]:
# Pandas y numpy para manipulación de datos
import pandas as pd
import numpy as np

# Quitamos los warnings sobre el establecimiento de un valor en una copia de un slice
pd.options.mode.chained_assignment = None

# Mostramos hasta 60 columnas de un dataframe
pd.set_option('display.max_columns', 60)

# Visualización Matplotlib
import matplotlib.pyplot as plt
%matplotlib inline

# Establece el tamaño de fuente por defecto
plt.rcParams['font.size'] = 24

# Herramienta interna ipython para establecer el tamaño de la figura
from IPython.core.pylabtools import figsize

# Visualizción por Seaborn
import seaborn as sns
sns.set(font_scale = 2)

# División de los datos en entrenamiento y prueba
from sklearn.model_selection import train_test_split

## Limpieza de datos

Contrariamente a lo que pueda parecer, no todos los conjuntos de datos son un grupo de observaciones perfectamente saneado, sin valores perdidos ni anomalías (como puede creerse observando los conjuntos de datos de [mtcars](http://stat.ethz.ch/R-manual/R-devel/library/datasets/html/mtcars.html) e [iris](https://archive.ics.uci.edu/ml/datasets/iris)). Los datos del mundo real son confusos, lo que significa que debemos [limpiarlos y cambiarlos](https://www.springboard.com/blog/data-wrangling/) a un formato aceptable antes de que podamos comenzar el análisis. La limpieza de datos es una parte poco glamurosa pero necesaria de la mayoría de los problemas reales de data science.

Cargaremos nuestros datos en un `dataframe` de pandas, una de las estructuras de datos más útiles de data science. Piense en ello como una hoja de cálculo dentro de Python que podemos manipular, limpiar y visualizar fácilmente. Pandas [tiene muchos métodos](http://pandas.pydata.org/pandas-docs/stable/) para ayudar a que el flujo de información de ciencia de datos / machine learning sea lo más sencillo posible.

In [4]:
# Cargamos los datos en un dataframe 
data = pd.read_csv("./data/Energy_and_Water_Data_Disclosure_for_Local_Law_84_2017__Data_for_Calendar_Year_2016_.csv")

# Display top of dataframe
data.head()

Unnamed: 0,Order,Property Id,Property Name,Parent Property Id,Parent Property Name,BBL - 10 digits,"NYC Borough, Block and Lot (BBL) self-reported",NYC Building Identification Number (BIN),Address 1 (self-reported),Address 2,Postal Code,Street Number,Street Name,Borough,DOF Gross Floor Area,Primary Property Type - Self Selected,List of All Property Use Types at Property,Largest Property Use Type,Largest Property Use Type - Gross Floor Area (ft²),2nd Largest Property Use Type,2nd Largest Property Use - Gross Floor Area (ft²),3rd Largest Property Use Type,3rd Largest Property Use Type - Gross Floor Area (ft²),Year Built,Number of Buildings - Self-reported,Occupancy,Metered Areas (Energy),Metered Areas (Water),ENERGY STAR Score,Site EUI (kBtu/ft²),Weather Normalized Site EUI (kBtu/ft²),Weather Normalized Site Electricity Intensity (kWh/ft²),Weather Normalized Site Natural Gas Intensity (therms/ft²),Weather Normalized Source EUI (kBtu/ft²),Fuel Oil #1 Use (kBtu),Fuel Oil #2 Use (kBtu),Fuel Oil #4 Use (kBtu),Fuel Oil #5 & 6 Use (kBtu),Diesel #2 Use (kBtu),District Steam Use (kBtu),Natural Gas Use (kBtu),Weather Normalized Site Natural Gas Use (therms),Electricity Use - Grid Purchase (kBtu),Weather Normalized Site Electricity (kWh),Total GHG Emissions (Metric Tons CO2e),Direct GHG Emissions (Metric Tons CO2e),Indirect GHG Emissions (Metric Tons CO2e),Property GFA - Self-Reported (ft²),Water Use (All Water Sources) (kgal),Water Intensity (All Water Sources) (gal/ft²),Source EUI (kBtu/ft²),Release Date,Water Required?,DOF Benchmarking Submission Status,Latitude,Longitude,Community Board,Council District,Census Tract,NTA
0,1,13286,201/205,13286,201/205,1013160001,1013160001,1037549,201/205 East 42nd st.,Not Available,10017,675,3 AVENUE,Manhattan,289356.0,Office,Office,Office,293447,Not Available,Not Available,Not Available,Not Available,1963,2,100,Whole Building,Not Available,Not Available,305.6,303.1,37.8,Not Available,614.2,Not Available,Not Available,Not Available,Not Available,Not Available,5.15506751E7,Not Available,Not Available,38139374.2,1.10827705E7,6962.2,0.0,6962.2,762051,Not Available,Not Available,619.4,05/01/2017 05:32:03 PM,No,In Compliance,40.750791,-73.973963,6.0,4.0,88.0,Turtle Bay-East Midtown ...
1,2,28400,NYP Columbia (West Campus),28400,NYP Columbia (West Campus),1021380040,1-02138-0040,1084198; 1084387;1084385; 1084386; 1084388; 10...,622 168th Street,Not Available,10032,180,FT WASHINGTON AVENUE,Manhattan,3693539.0,Hospital (General Medical & Surgical),Hospital (General Medical & Surgical),Hospital (General Medical & Surgical),3889181,Not Available,Not Available,Not Available,Not Available,1969,12,100,Whole Building,Whole Building,55,229.8,228.8,24.8,2.4,401.1,Not Available,1.96248472E7,Not Available,Not Available,Not Available,-3.914148026E8,933073441,9330734.4,332365924,9.62613121E7,55870.4,51016.4,4854.1,3889181,Not Available,Not Available,404.3,04/27/2017 11:23:27 AM,No,In Compliance,40.841402,-73.942568,12.0,10.0,251.0,Washington Heights South ...
2,3,4778226,MSCHoNY North,28400,NYP Columbia (West Campus),1021380030,1-02138-0030,1063380,3975 Broadway,Not Available,10032,3975,BROADWAY,Manhattan,152765.0,Hospital (General Medical & Surgical),Hospital (General Medical & Surgical),Hospital (General Medical & Surgical),231342,Not Available,Not Available,Not Available,Not Available,1924,1,100,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,0.0,0.0,0.0,231342,Not Available,Not Available,Not Available,04/27/2017 11:23:27 AM,No,In Compliance,40.840427,-73.940249,12.0,10.0,251.0,Washington Heights South ...
3,4,4778267,Herbert Irving Pavilion & Millstein Hospital,28400,NYP Columbia (West Campus),1021390001,1-02139-0001,1087281; 1076746,161 Fort Washington Ave,177 Fort Washington Ave,10032,161,FT WASHINGTON AVENUE,Manhattan,891040.0,Hospital (General Medical & Surgical),Hospital (General Medical & Surgical),Hospital (General Medical & Surgical),1305748,Not Available,Not Available,Not Available,Not Available,1971,1,100,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,0.0,0.0,0.0,1305748,Not Available,Not Available,Not Available,04/27/2017 11:23:27 AM,No,In Compliance,40.840746,-73.942854,12.0,10.0,255.0,Washington Heights South ...
4,5,4778288,Neuro Institute,28400,NYP Columbia (West Campus),1021390085,1-02139-0085,1063403,710 West 168th Street,Not Available,10032,193,FT WASHINGTON AVENUE,Manhattan,211400.0,Hospital (General Medical & Surgical),Hospital (General Medical & Surgical),Hospital (General Medical & Surgical),179694,Not Available,Not Available,Not Available,Not Available,1932,1,100,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,Not Available,0.0,0.0,0.0,179694,Not Available,Not Available,Not Available,04/27/2017 11:23:27 AM,No,In Compliance,40.841559,-73.942528,12.0,10.0,255.0,Washington Heights South ...


Echando un vistazo a los datos en bruto, ya podemos ver una serie de problemas que tendremos que resolver. En primer lugar, hay 60 columnas y no sabemos lo que significan muchas de ellas. Todo lo que sabemos de la declaración del problema es que queremos predecir el número en la columna de puntuación. Algunas de las definiciones de otras columnas pueden ser razonablemente adivinadas, pero otras son difíciles de entender (investigo con energía de construcción y aún no pude entender todas las columnas). En machine learning, esto no es realmente un problema, porque dejamos que el modelo decida qué características son importantes. A veces es posible que ni siquiera nos den nombres de columnas ni nos digan lo que estamos pronosticando. No obstante, me gusta entender el problema en la medida de lo posible y, como también queremos interpretar los resultados del modelo, sería una buena idea tener algún conocimiento de las columnas.

Después de mirar el nombre del archivo, `Energy_and_Water_Data_Disclosure_for_Local_Law_84_2017__Data_for_Calendar_Year_2016_.csv`, busqué "Local Law 84." Al hacerlo, se accede a [esta página web](http://www.nyc.gov/html/gbee/html/plan/ll84.shtml) que nos dice que la Ley Local 84 es un requisito de la Ciudad de Nueva York que establece que todos los edificios mayores de $50,000 ft^2$ deben reportar un determinado conjunto de números relacionados con la energía cada año. Después de buscar un poco más, podemos acceder a [este documento pdf](http://www.nyc.gov/html/gbee/downloads/misc/nyc_benchmarking_disclosure_data_definitions_2017.pdf) detalla el significado de cada columna.

Si bien no necesitamos estudiar cada columna, sería una buena idea comprender al menos el objetivo que queremos predecir. Aquí está la definición para el objetivo `score`:

    Una clasificación percentil de 1 a 100 para tipos de edificios específicos, calculada en Portfolio Manager, basada en el consumo de energía autoinformado para el año de informe.
    
Eso parece bastante sencillo: el Energy Star Score es un método para clasificar los edificios en términos de eficiencia energética con 1 para los peores y 100 para los mejores. Es una clasificación de percentil relativo, lo que significa que los edificios se califican entre sí y deben mostrar una distribución uniforme en todo el rango de valores.

## Tipos de datos y valores faltantes

El método `dataframe.info` es una forma rápida de evaluar los datos al mostrar los tipos de datos de cada columna y el número de valores que no faltan. Ya al mirar el marco de datos, puede haber un problema porque los valores faltantes se codifican como "No disponible" en lugar de como np.nan (not a number). Esto significa que las columnas con números no se representarán como numéricas porque los pandas convierten las columnas con cualquier valor de cadena en columnas de todas las cadenas.

In [6]:
# Mostramos los tipos de datos y los valores no faltantes
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11746 entries, 0 to 11745
Data columns (total 60 columns):
Order                                                         11746 non-null int64
Property Id                                                   11746 non-null int64
Property Name                                                 11746 non-null object
Parent Property Id                                            11746 non-null object
Parent Property Name                                          11746 non-null object
BBL - 10 digits                                               11735 non-null object
NYC Borough, Block and Lot (BBL) self-reported                11746 non-null object
NYC Building Identification Number (BIN)                      11746 non-null object
Address 1 (self-reported)                                     11746 non-null object
Address 2                                                     11746 non-null object
Postal Code                                          

Efectivamente, hay una serie de columnas con números que se han registrado como tipos de datos `object`. Estos deberán ser convertidos a tipo de datos `float` antes de que podamos realizar cualquier análisis numérico.

## Convertir datos al tipo correcto

Convertimos las columnas con números en tipos de datos numéricos reemplazando las entradas "Not available" con `np.nan` que se pueden interpretar como `float`. Luego, convertiremos las columnas que contienen valores numéricos (como pies cuadrados o uso de energía) en tipos de datos numéricos.

In [7]:
# Reemplaza todas las ocurrencias de Not Available por numpy not a number
data = data.replace({'Not Available': np.nan})

# Iterar a través de las columnas
for col in list(data.columns):
    # Selecciona las columnas que deben ser numéricas
    if ('ft²' in col or 'kBtu' in col or 'Metric Tons CO2e' in col or 'kWh' in 
        col or 'therms' in col or 'gal' in col or 'Score' in col):
        # Convierte el tipo de dato a float
        data[col] = data[col].astype(float)

In [10]:
data.describe()

Unnamed: 0,Order,Property Id,DOF Gross Floor Area,Largest Property Use Type - Gross Floor Area (ft²),2nd Largest Property Use - Gross Floor Area (ft²),3rd Largest Property Use Type - Gross Floor Area (ft²),Year Built,Number of Buildings - Self-reported,Occupancy,ENERGY STAR Score,Site EUI (kBtu/ft²),Weather Normalized Site EUI (kBtu/ft²),Weather Normalized Site Electricity Intensity (kWh/ft²),Weather Normalized Site Natural Gas Intensity (therms/ft²),Weather Normalized Source EUI (kBtu/ft²),Fuel Oil #1 Use (kBtu),Fuel Oil #2 Use (kBtu),Fuel Oil #4 Use (kBtu),Fuel Oil #5 & 6 Use (kBtu),Diesel #2 Use (kBtu),District Steam Use (kBtu),Natural Gas Use (kBtu),Weather Normalized Site Natural Gas Use (therms),Electricity Use - Grid Purchase (kBtu),Weather Normalized Site Electricity (kWh),Total GHG Emissions (Metric Tons CO2e),Direct GHG Emissions (Metric Tons CO2e),Indirect GHG Emissions (Metric Tons CO2e),Property GFA - Self-Reported (ft²),Water Use (All Water Sources) (kgal),Water Intensity (All Water Sources) (gal/ft²),Source EUI (kBtu/ft²),Latitude,Longitude,Community Board,Council District,Census Tract
count,11746.0,11746.0,11628.0,11744.0,3741.0,1484.0,11746.0,11746.0,11746.0,9642.0,11583.0,10281.0,10959.0,9783.0,10281.0,9.0,2581.0,1321.0,594.0,16.0,936.0,10304.0,9784.0,11502.0,10960.0,11672.0,11663.0,11681.0,11746.0,7762.0,7762.0,11583.0,9483.0,9483.0,9483.0,9483.0,9483.0
mean,7185.759578,3642958.0,173269.5,160552.4,22778.68201,12016.82527,1948.738379,1.289971,98.762557,59.854594,280.071484,309.747466,11.072643,1.901441,417.915709,3395398.0,3186882.0,5294367.0,2429105.0,1193594.0,286890700.0,50485450.0,536457.8,5965472.0,1768752.0,4553.657,2477.937,2076.339,167373.9,15917.98,136.172432,385.908029,40.754379,-73.957057,7.140673,15.771275,4977.596647
std,4323.859984,1049070.0,336705.5,309574.6,55094.441422,27959.755486,30.576386,4.017484,7.501603,29.993586,8607.178877,9784.731207,127.733868,97.204587,10530.524339,2213237.0,5497154.0,5881863.0,4442946.0,3558178.0,3124603000.0,3914719000.0,40226060.0,31544300.0,9389154.0,204163.9,195449.8,59312.95,318923.8,152952.4,1730.726938,9312.736225,0.08012,0.046337,3.954129,15.674375,13520.42299
min,1.0,7365.0,50028.0,54.0,0.0,0.0,1600.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,208597.3,0.0,0.0,0.0,0.0,-469079700.0,0.0,0.0,0.0,0.0,0.0,0.0,-23134.3,0.0,0.0,0.0,0.0,40.516065,-74.243582,1.0,1.0,1.0
25%,3428.25,2747222.0,65240.0,65201.0,4000.0,1720.75,1927.0,1.0,100.0,37.0,61.8,65.1,3.8,0.1,103.5,1663594.0,255037.8,2128213.0,0.0,56980.2,4320254.0,1098251.0,11769.52,1043673.0,301997.4,328.7,147.45,94.8,66994.0,2595.4,27.15,99.4,40.707226,-73.984662,4.0,4.0,100.0
50%,6986.5,3236404.0,93138.5,91324.0,8654.0,5000.0,1941.0,1.0,100.0,65.0,78.5,82.5,5.3,0.5,129.4,4328815.0,1380138.0,4312984.0,0.0,207002.0,9931240.0,4103962.0,44455.25,1855196.0,541631.2,500.25,272.6,171.8,94080.0,4692.5,45.095,124.9,40.75913,-73.96281,7.0,9.0,201.0
75%,11054.5,4409092.0,159614.0,153255.0,20000.0,12000.0,1966.0,1.0,100.0,85.0,97.6,102.5,9.2,0.7,167.2,4938947.0,4445808.0,6514520.0,4293825.0,291833.2,20644970.0,6855070.0,73481.07,4370302.0,1284677.0,908.425,447.5,424.9,158414.0,8031.875,70.805,162.75,40.817623,-73.932443,9.0,33.0,531.5
max,14993.0,5991312.0,13540110.0,14217120.0,962428.0,591640.0,2019.0,161.0,100.0,100.0,869265.0,939329.0,6259.4,9393.0,986366.0,6275850.0,104684900.0,79074640.0,44103780.0,14351780.0,71635180000.0,394285200000.0,3942852000.0,1691763000.0,495827300.0,20943400.0,20943400.0,4764375.0,14217120.0,6594604.0,96305.69,912801.1,40.912869,-73.715543,56.0,51.0,155101.0
