# INTRODUCTION TO MACHINE LEARNING

### CARGAR DATA

El primer paso es cargar la librería de Pandas en nuestro archivo Python
Tenemos que obtener el path del archivo que vamos a utilizar. En este caso, el csv, y usar la función read_csv para abrir el archivo.

Con la función describe podemos ver un resumen de la data que hay en nuestro archivo

In [2]:
import pandas as pd

In [3]:
# save filepath to variable for easier access
melbourne_file_path = 'melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


Con el atributo columns podemos ver un resumen de las columnas con las que cuenta el fichero

In [4]:
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

SELECCIONAR DATA PARA EL MODELO

Limpiamos la data de nuestro modelo con la función **dropna** (si el axis=0, limpiamos las rows que tengan null values, si axis=1, limpiamos las cols que tengan null values)

Después creamos una variable seleccionando la columna que queramos predecir usando la dot notation

In [5]:
# dropna drops missing values (think of na as "not available")
melbourne_data = melbourne_data.dropna(axis=0)

In [6]:
#Para seleccionar una columna y que se guarden en una SERIE 
#(que es un Dataframe con solo una columna), usamos el dot notation.
#Columna que queremos predecir = "Prediction target" (y)
#En este caso queremos predecir el precio de las casas
y = melbourne_data.Price
y

1        1035000.0
2        1465000.0
4        1600000.0
6        1876000.0
7        1636000.0
           ...    
12205     601000.0
12206    1050000.0
12207     385000.0
12209     560000.0
12212    2450000.0
Name: Price, Length: 6196, dtype: float64

Ahora tenemos que seleccionar las columnas de nuestro modelo que tienen alguna influencia a la hora de predecir el precio. No queremos columnas innecesraias para mejorar el rendimiento. Para ello creamos las Features con una lista de nombres de las columnas que queremos

In [7]:
#Las columnas que usamos en nuestro modelo para hacer prediciones son las "Features"
#A veces usaremos todas menos la target para predecir, otras será mejor usar menos
#Las seleccionamos dando una lista de nombres de columnas entre corchetes
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

#Normalmente a la data de las columnas se le denomina como X
X = melbourne_data[melbourne_features]
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [8]:
#El metodo head me muestra las top filas del dataframe
X.head()


Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


### CONSTRUIR EL MODELO

La libreria scikit-learn de python es la que se encarga de crear modelo. Se escribe como
sklearn. Scikit-learn es la libreria mas usa para datos almacenados en DataFrames.

Los pasos para construir y usar un modelo son:
1. Definir (Define): Que modelo será? Decision tree? Otro tipo de modelo? 
2. Ajuste (Fit): Captura patrones de la data. Esto es el corazón del modelo
3. Predecir (Predict): Predecir los valores queridos
4. Evaluar (Evaluate): Determina como de precisa son las predicciones del modelo

In [9]:
#Modelo decision tree con scikit-learn 
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

In [10]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]


### VALIDACION DEL MODELO

Una vez que tenemos hecho el modelo, queremos ver como de preciso es y ver si se ajusta de verdad a un modelo predictivo. Hay muchas métricas para resumir la calidad del modelo. Empezaremos con **Mean Absolute Error** *(MAE)*

                                Error = actual - predicted

Con *MAE* tomamos el valor absoluto de cada error y después hacemos la media de todos los errores absolutos. "De media, nuestras aproximaciones se alejan un X"


Para calcular el Error Medio Absoluto usamos una función de la librería de sklearn

In [11]:
from sklearn.metrics import mean_absolute_error

predicted_home_prices = melbourne_model.predict(X)
mean_absolute_error(y, predicted_home_prices)

1115.7467183128902

Para verificar que nuestro modelo funciona correctamente, no podemos comprobarlo con la data que hemos usado para entrenarlo. Por eso reservamos una parte de la data con la que no entrenamos para poder ver como funciona nuestro modelo con nueva data. A esta data se le llama **validation data**

Scikit-learn tiene una función para separar la data en dos partes. Una parte se usa para entrenar la data y que se ajuste al modelo y la otra la usaremos como validation data para calcular el MAE. Esta función se llama *train_test_split*

In [12]:
from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)
# Define model
melbourne_model = DecisionTreeRegressor() # DecisionTreeRegressor(random_state=1)
# Fit model
melbourne_model.fit(train_X, train_y)

# get predicted prices on validation data
val_predictions = melbourne_model.predict(val_X)
print(mean_absolute_error(val_y, val_predictions))

274775.6901226598


Podemos observar que en este caso, usando la data de validación, el error es mucho mayor, por lo que nuestro modelo no es del todo bueno

### Underfitting and Overfitting // Infraajuste y Sobreajuste

El **Sobreajuste** (Overfitting) es un fenómeno que ocurre cuando un modelo se ajusta casi perfectamente a la data, pero se ajusta pobremente en la validación y con nueva data. (En este ejemplo, tener un árbol de decisión con muchas ramas y hojas (número de divisiones), hará que los grupos de datos encajen muy bien, pero serán muy específicos los datos y no funcionará con nuevos datos porque no sabrá interpretarlos)

El **Infraajuste** (Underfitting) ocurre cuando un modelo falla en capturar importantes distinciones y patrones en la data, por lo que el modelo se ajusta pobremente, incluso en la training data. (Por ejemplo, hacer muy pocas divisiones en el árbol de decisión no nos proporcionará un modelo eficiente para hacer futuras predicciones)

Para controlar el número de hojas que tiene un árbol de decisión (hay que buscar el equilibrio entre tener muchas y pocas), la función *max_leaf_nodes* nos ayuda a tener una forma para controlar el overfitting y el underfitting

In [13]:
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

Ahora usaremos un bucle for para iterar modelos variándole el número de máximas hojas

In [14]:
# compare MAE with differing values of max_leaf_nodes
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

Max leaf nodes: 5  		 Mean Absolute Error:  385696
Max leaf nodes: 50  		 Mean Absolute Error:  279794
Max leaf nodes: 500  		 Mean Absolute Error:  261718
Max leaf nodes: 5000  		 Mean Absolute Error:  271320


500 hojas sería el número óptimo de hojas del árbol de decisión

### Random Forest

El Random Forest es otro modelo que nos puede llevar a un mejor rendimiento a la hora de hacer predicciones. El **Random Forest** usa muchos árboles y hace predicciones haciendo la media de las predicciones de cada árbol. En general tiene mucha más precisión que solo un árbol de decisión.

La forma de construir un Random Forest es igual que como creamos un Decission Tree, solo que creamos una instancia de la clase *RandomForestRegressor* en vez de la clase *DecisionTreeRegressor*

In [15]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

207190.6873773146


Hay varios parámetros que permiten cambiar el rendimiento del Random Forest del mismo modo que cambiamos la máxima profundidad de un single Decision Tree. Pero una de las mejores características del modelo del Random Forest que funcionan razonablemente bien sin estas modificaciones. 