# Machine Learning: Aprendizaje Supervisado
___

 - **Lenguaje:** Python
 - **Librería:** scikit-learn

## 1. Clasificación
___

 - **Conjunto de datos:** Iris
 - **Problema:** Identificar la especie a la que pertenece una flor.
 - **Características:** `Longitud sépalo`, `Anchura sépalo`, `Longitud pétalo`, `Anchura pétalo`.
 - **Solución:** Especie a la que pertenece la flor:
    - `IRIS SETOSA`
    - `IRIS VERSICOLOR`
    - `IRIS VIRGINICA`

### 1.1. Cargamos el Conjunto de Datos

In [1]:
# Importamos función para cargar el conjunto de datos Iris
from sklearn.datasets import load_iris
iris = load_iris()  # Cargamos el conjunto de datos Iris

El conjunto de datos tiene dos elementos:

 - **Características (X):** Mediciones de cada objeto o ejemplo que queremos clasificar. En este caso, mediciones de flores.
 - **Solución (Y):** Etiquetas de clase. En este caso, la especie de la flor.

In [2]:
X = iris.data    # Características (X)
Y = iris.target  # Solución (Y)

#### Características

In [3]:
import pandas as pd
# Crea un DataFrame con los ejemplos y los nombres de las características
iris_df = pd.DataFrame(X, columns=iris.feature_names)
# Añadimos la solución (clase)
iris_df['Clase'] = iris.target_names[Y]
# Muestra los 5 primeros ejemplos de flores con su solución
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Clase
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


¿Cuántos ejemplos de flores hay en el conjunto de datos?

In [4]:
X.shape   # Número de filas (ejemplos) y columnas (características) de la matriz "X"

(150, 4)

#### Solución

In [5]:
Y   # Muestra el vector "Y"

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

¿Cuántas etiquetas de clase hay?

In [6]:
len(Y)   # Número de elementos del vector "Y"

150

In [7]:
iris.target_names[Y]

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

### 1.2. Dividimos el Conjunto de Datos

Dividimos el conjunto de datos en dos:

 - Conjunto de entrenamiento (o `training set`)

 - Conjunto de prueba (o `test set`)

In [8]:
# Importamos función para dividir el conjunto de datos
from sklearn.model_selection import train_test_split
# Fijamos semilla para generar números aleatorios (por reproducibilidad,
# para que obtengamos los mismos resultados cada vez)
semilla = 3
# Dividimos el conjunto de datos (70% entrenamiento, 30% prueba)
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size=.3,random_state=semilla)

Resultado:

 - `X_train`: Ejemplos del conjunto de entrenamiento.
 - `Y_train`: Soluciones del conjunto de entrenamiento (etiquetas).
 - `X_test`: Ejemplos del conjunto de prueba.
 - `Y_test`: Soluciones del conjunto de prueba (etiquetas).

#### Número de ejemplos en el conjunto de entrenamiento

In [9]:
len(X_train)

105

#### Número de ejemplos en el conjunto de prueba

In [10]:
# Lo guardamos en una variable (se utiliza después)
n_ejemplos_test = len(X_test)
n_ejemplos_test

45

### 1.3. Importamos el Algoritmo de Machine Learning

In [11]:
# Importamos funciones para árboles de decisión
from sklearn import tree
clasificador = tree.DecisionTreeClassifier(random_state=semilla)

### 1.4. Entrenamiento

Algoritmo o función de aprendizaje (`fit`):
 - Entrada:
    - Conjunto de entrenamiento:
       - Ejemplos de entrenamiento (`X_train`)
       - Etiquetas de los ejemplos de entrenamiento (`Y_train`)

In [12]:
clasificador.fit(X_train,Y_train);

Resultado: Modelo (representación del conocimiento aprendido).

### 1.5. Test

Algoritmo o función de inferencia (`predict`):
 - Entrada:
    - Conjunto de prueba:
       - Ejemplos de prueba (`X_test`)
 - Salida:
    - Solución (etiqueta de clase)

#### Predecimos solución de un único nuevo ejemplo

In [13]:
X_test[:1]

array([[4.6, 3.2, 1.4, 0.2]])

In [14]:
especie = clasificador.predict(X_test[:1])

In [15]:
especie

array([0])

In [16]:
iris.target_names[especie[0]]

'setosa'

#### Predecimos soluciones para todo el conjunto de prueba

In [17]:
Y_pred = clasificador.predict(X_test)

In [18]:
Y_pred  # Predicciones

array([0, 0, 0, 0, 0, 2, 1, 0, 2, 1, 1, 0, 1, 1, 2, 0, 2, 2, 2, 0, 2, 2,
       2, 2, 0, 2, 2, 1, 1, 1, 0, 0, 2, 1, 0, 0, 2, 0, 2, 1, 2, 1, 0, 0,
       2])

In [19]:
iris.target_names[Y_pred]

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'virginica',
       'versicolor', 'setosa', 'virginica', 'versicolor', 'versicolor',
       'setosa', 'versicolor', 'versicolor', 'virginica', 'setosa',
       'virginica', 'virginica', 'virginica', 'setosa', 'virginica',
       'virginica', 'virginica', 'virginica', 'setosa', 'virginica',
       'virginica', 'versicolor', 'versicolor', 'versicolor', 'setosa',
       'setosa', 'virginica', 'versicolor', 'setosa', 'setosa',
       'virginica', 'setosa', 'virginica', 'versicolor', 'virginica',
       'versicolor', 'setosa', 'setosa', 'virginica'], dtype='<U10')

### 1.6. Medimos el Rendimiento

$$Tasa\ de\ Aciertos = \frac{\#\ Predicciones\ Correctas}{\#\ Total\ de\ Predicciones}$$

In [20]:
# Importamos función para calcular tasa de aciertos (accuracy)
from sklearn.metrics import accuracy_score
# Calculamos tasa de aciertos
tasa_de_aciertos = accuracy_score(Y_test,Y_pred)
tasa_de_aciertos

0.9333333333333333

In [21]:
# Etiquetas correctas
iris.target_names[Y_test]

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'virginica',
       'versicolor', 'setosa', 'virginica', 'versicolor', 'versicolor',
       'setosa', 'versicolor', 'versicolor', 'virginica', 'setosa',
       'versicolor', 'virginica', 'virginica', 'setosa', 'virginica',
       'virginica', 'virginica', 'versicolor', 'setosa', 'virginica',
       'virginica', 'versicolor', 'versicolor', 'versicolor', 'setosa',
       'setosa', 'virginica', 'versicolor', 'setosa', 'setosa',
       'versicolor', 'setosa', 'virginica', 'versicolor', 'virginica',
       'versicolor', 'setosa', 'setosa', 'virginica'], dtype='<U10')

In [22]:
# Etiquetas asignadas por el algoritmo
iris.target_names[Y_pred]

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'virginica',
       'versicolor', 'setosa', 'virginica', 'versicolor', 'versicolor',
       'setosa', 'versicolor', 'versicolor', 'virginica', 'setosa',
       'virginica', 'virginica', 'virginica', 'setosa', 'virginica',
       'virginica', 'virginica', 'virginica', 'setosa', 'virginica',
       'virginica', 'versicolor', 'versicolor', 'versicolor', 'setosa',
       'setosa', 'virginica', 'versicolor', 'setosa', 'setosa',
       'virginica', 'setosa', 'virginica', 'versicolor', 'virginica',
       'versicolor', 'setosa', 'setosa', 'virginica'], dtype='<U10')

In [23]:
tasa_de_fallos = 1 - tasa_de_aciertos
n_aciertos = int(round(n_ejemplos_test*tasa_de_aciertos))
n_fallos = int(round(n_ejemplos_test*tasa_de_fallos))
print('Ejemplos de test: %d' % n_ejemplos_test)
print('Ejemplos clasificados correctamente: %d' % n_aciertos)
print('Ejemplos clasificados erróneamente: %d' % n_fallos)
print('Tasa de aciertos: %.3f' % tasa_de_aciertos)
print('Tasa de fallos: %.3f' % tasa_de_fallos)

Ejemplos de test: 45
Ejemplos clasificados correctamente: 42
Ejemplos clasificados erróneamente: 3
Tasa de aciertos: 0.933
Tasa de fallos: 0.067


### Código Completo del Ejemplo

In [24]:
# Importamos función para cargar el conjunto de datos Iris
from sklearn.datasets import load_iris
iris = load_iris()  # Cargamos el conjunto de datos Iris
X = iris.data    # Características (X)
Y = iris.target  # Solución (Y)
# Importamos función para dividir el conjunto de datos
from sklearn.model_selection import train_test_split
# Fijamos semilla para generar números aleatorios (por reproducibilidad,
# para que obtengamos los mismos resultados cada vez)
semilla = 3
# Dividimos el conjunto de datos (70% entrenamiento, 30% prueba)
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size=.3,random_state=semilla)
n_ejemplos_test = len(X_test)   # Número de ejemplos en el conjunto de test
from sklearn import tree   # Importamos funciones para árboles de decisión
clasificador = tree.DecisionTreeClassifier(random_state=semilla) # Creamos clasificador
clasificador.fit(X_train,Y_train) # Entrenamiento
Y_pred = clasificador.predict(X_test) # Test
# Evaluación del rendimiento del modelo
# Importamos función para calcular tasa de aciertos
from sklearn.metrics import accuracy_score
# Calculamos tasa de aciertos
tasa_de_aciertos = accuracy_score(Y_test,Y_pred)
tasa_de_fallos = 1 - tasa_de_aciertos
n_aciertos = int(round(n_ejemplos_test*tasa_de_aciertos))
n_fallos = int(round(n_ejemplos_test*tasa_de_fallos))
print('Ejemplos de test: %d' % n_ejemplos_test)
print('Ejemplos clasificados correctamente: %d' % n_aciertos)
print('Ejemplos clasificados erróneamente: %d' % n_fallos)
print('Tasa de aciertos: %.3f' % tasa_de_aciertos)
print('Tasa de fallos: %.3f' % tasa_de_fallos)

Ejemplos de test: 45
Ejemplos clasificados correctamente: 42
Ejemplos clasificados erróneamente: 3
Tasa de aciertos: 0.933
Tasa de fallos: 0.067


## 2. Dos Tipos de Problemas
___

Aprendizaje supervisado:

 - **Clasificación:** Solución discreta (etiqueta de clase). Identificar a qué clase pertenece un objeto.
 - **Regresión:** Solución continua (valor numérico). Predecir un valor numérico asociado a un objeto.

## 3. Regresión
___

 - **Conjunto de datos:** Boston House Prices
 - **Problema:** Estimar el precio de una vivienda.
 - **Características:** Hay 13. Algunas de ellas (simplificadas):
    - Número medio de `habitaciones` por vivienda.
    - `Antigüedad` de las viviendas.
    - Concentración de `óxidos de nitrógeno` en la zona.
    - Índice de `criminalidad` de la población.
 - **Solución:** Precio de la vivienda.

### 3.1. Cargamos el conjunto de datos

In [25]:
# Importamos función para cargar el conjunto de datos Boston
from sklearn.datasets import load_boston
boston = load_boston()  # Cargamos el conjunto de datos Boston

El conjunto de datos tiene dos elementos:

 - **Características (X):** Mediciones de cada objeto o ejemplo. En este caso, información sobre la zona de la vivienda.
 - **Solución (Y):** Valor númérico. Precio de la vivienda (en miles de $).

In [26]:
X = boston.data    # Características (X)
Y = boston.target  # Solución (Y)

#### Características

In [27]:
# Creamos un DataFrame con los ejemplos y los nombres de las características
boston_df = pd.DataFrame(X, columns=boston.feature_names)
# Añadimos la solución (Valor)
boston_df['Precio (1000$)'] = Y
# Mostramos los 5 primeros ejemplos con su solución
boston_df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,Precio (1000$)
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


¿Cuántos ejemplos de viviendas hay en el conjunto de datos?

In [28]:
X.shape   # Número de filas (ejemplos) y columnas (características) de la matriz "X"

(506, 13)

#### Solución

In [29]:
Y   # Muestra el vector "Y"

array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 18.7, 16. , 22.2, 25. , 33. , 23.5,
       19.4, 22. , 17.4, 20.9, 24.2, 21.7, 22.8, 23.4, 24.1, 21.4, 20. ,
       20.8, 21.2, 20.3, 28. , 23.9, 24.8, 22.9, 23.9, 26.6, 22.5, 22.2,
       23.6, 28.7, 22.6, 22. , 22.9, 25. , 20.6, 28.4, 21.4, 38.7, 43.8,
       33.2, 27.5, 26.5, 18.6, 19.3, 20.1, 19.5, 19.5, 20.4, 19.8, 19.4,
       21.7, 22.8, 18.8, 18.7, 18.5, 18.3, 21.2, 19.2, 20.4, 19.3, 22. ,
       20.3, 20.5, 17.3, 18.8, 21.4, 15.7, 16.2, 18. , 14.3, 19.2, 19.6,
       23. , 18.4, 15.6, 18.1, 17.4, 17.1, 13.3, 17.8, 14. , 14.4, 13.4,
       15.6, 11.8, 13.8, 15.6, 14.6, 17.8, 15.4, 21

### 3.2. Dividimos el Conjunto de Datos

Dividimos el conjunto de datos en dos:

 - Conjunto de entrenamiento (o `training set`)

 - Conjunto de prueba (o `test set`)

In [30]:
# Importamos función para dividir el conjunto de datos
from sklearn.model_selection import train_test_split
# Fijamos semilla para generar números aleatorios (por reproducibilidad,
# para que obtengamos los mismos resultados cada vez)
semilla = 3
# Dividimos el conjunto de datos (70% entrenamiento, 30% prueba)
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size=.3,random_state=semilla)

#### Número de ejemplos en el conjunto de entrenamiento

In [31]:
len(X_train)

354

#### Número de ejemplos en el conjunto de prueba

In [32]:
len(X_test)

152

### 3.3. Importamos el Algoritmo de Machine Learning

In [33]:
# Importamos funciones para árboles de decisión
from sklearn import tree
regresor = tree.DecisionTreeRegressor(random_state=semilla)

### 3.4. Entrenamiento

Algoritmo o función de aprendizaje (`fit`):
 - Entrada:
    - Conjunto de entrenamiento:
       - Ejemplos de entrenamiento (`X_train`)
       - Etiquetas de los ejemplos de entrenamiento (`Y_train`)

In [34]:
regresor.fit(X_train,Y_train);

Resultado: Modelo (representación del conocimiento aprendido).

### 3.5. Test

Algoritmo o función de inferencia (`predict`):
 - Entrada:
    - Conjunto de prueba:
       - Ejemplos de prueba (`X_test`)
 - Salida:
    - Solución (valor numérico)

#### Predecimos solución de un único nuevo ejemplo

In [35]:
precio = regresor.predict(X_test[:1])

In [36]:
precio

array([41.7])

#### Predecimos soluciones para todo el conjunto de prueba

In [37]:
Y_pred = regresor.predict(X_test)

In [38]:
Y_pred

array([41.7, 18.4, 12.6, 30.5, 20.9, 20.3, 14.3,  7. , 22.1, 21.7,  8.1,
       28.7, 34.6, 29.8,  5. , 17.8, 23.1, 15.1, 13.9, 22. , 22. , 43.1,
       24.8, 24.1,  9.5, 24.2, 20.5, 20.2, 21. , 24. , 19.1, 36.1, 15. ,
       21. , 13.6, 13.1, 24.4, 33.8, 18.6, 24.8, 16.8, 10.8, 20.5, 19. ,
       19.5, 28.7, 22. , 21.7, 30.5, 19.4, 26.2, 19.6, 50. , 21.7, 19.5,
       10.2, 50. , 13.1, 31.1, 19.2, 19.6, 22.6, 28.4, 30.5, 22.6, 21.1,
       35.1, 23.4, 28.5, 25. , 25.3, 31. , 17.4, 30.5,  9.6, 21.7, 17.6,
       27. , 22. , 13.8, 25.1, 16.7, 13.8, 20.4, 20.6, 12.1, 25.3,  8.5,
       18.6, 25. , 21. , 24.5, 26.4, 48.3, 23.7, 15.2, 48.5, 10.2, 23. ,
       33.2, 19.5, 18.6, 14.1, 19.6, 30.5, 13.6, 20.1, 14.4, 23.1, 38.7,
       17.2,  8.3, 15.1, 25. , 24.8, 18.2, 32.9, 30.5, 24.4, 30.5, 10.9,
       10.8, 13.1, 24.3, 22.5, 20.5, 16.6, 33. , 19. , 21.1, 22. , 48.3,
        9.5, 29.9, 20. , 13.9, 20.1,  7.5, 21. , 24.8, 13.4, 22.6, 31.5,
       21.2, 17.2, 50. , 14.1, 22. , 18.4, 15. ,  8

### 3.6. Medimos el Rendimiento

In [39]:
Y_test  # Estimaciones correctas

array([44.8, 17.1, 17.8, 33.1, 21.9, 21. , 18.4, 10.4, 23.1, 20. , 15.7,
       41.3, 33.3, 30.7,  8.5,  6.3, 21.2, 16.2, 15.6, 24.1, 23.9, 50. ,
       23.2, 23.4, 12.8, 24.6, 18.8, 16.1, 18.2, 24.3, 14.8, 37.3, 21.4,
       18.6, 18.8, 13.9, 24.5, 31.5, 18.2, 20.7, 19.4,  9.7, 21.5, 14.9,
       21.7, 26.5, 20.7, 19.3, 24.5, 19.3, 26.6, 23. , 45.4, 19.8, 22.7,
       23.1, 50. , 17.8, 29.1, 19.2, 22.7, 21.2, 37.2, 31.6, 16.1, 22.2,
       34.9, 20.5, 28. , 29.1, 24.7, 22. , 15.6, 37. , 11.8, 21.7, 19.4,
       23.3, 16.5, 16.7, 23.9, 15.2, 11.9, 19.9, 22.8, 11.3, 25.2, 11.5,
       22. , 21.6, 19.9, 16.8, 19.3, 50. , 29.4, 13.3, 50. , 11.7, 21.7,
       33.4, 20.2, 19.4, 14.9, 19.6, 35.4, 12. , 20.4, 23.7, 21. , 50. ,
       27.5, 12.7, 17.4, 23.8, 22.9, 18.5, 30.3, 31.2, 16. , 23.3, 15. ,
       10.2, 12.5, 19.6, 19.7, 19.5, 15. , 35.4, 13.5, 20.6, 24.7, 21.9,
       17.1, 23.6, 21.1, 15.6, 18.5,  8.3, 14.5, 23.9, 11.8, 24.6, 24.8,
       18.7, 17.9, 48.8, 13. , 29.6, 18. , 20.1, 17

In [40]:
Y_pred  # Estimaciones realizadas por el algoritmo

array([41.7, 18.4, 12.6, 30.5, 20.9, 20.3, 14.3,  7. , 22.1, 21.7,  8.1,
       28.7, 34.6, 29.8,  5. , 17.8, 23.1, 15.1, 13.9, 22. , 22. , 43.1,
       24.8, 24.1,  9.5, 24.2, 20.5, 20.2, 21. , 24. , 19.1, 36.1, 15. ,
       21. , 13.6, 13.1, 24.4, 33.8, 18.6, 24.8, 16.8, 10.8, 20.5, 19. ,
       19.5, 28.7, 22. , 21.7, 30.5, 19.4, 26.2, 19.6, 50. , 21.7, 19.5,
       10.2, 50. , 13.1, 31.1, 19.2, 19.6, 22.6, 28.4, 30.5, 22.6, 21.1,
       35.1, 23.4, 28.5, 25. , 25.3, 31. , 17.4, 30.5,  9.6, 21.7, 17.6,
       27. , 22. , 13.8, 25.1, 16.7, 13.8, 20.4, 20.6, 12.1, 25.3,  8.5,
       18.6, 25. , 21. , 24.5, 26.4, 48.3, 23.7, 15.2, 48.5, 10.2, 23. ,
       33.2, 19.5, 18.6, 14.1, 19.6, 30.5, 13.6, 20.1, 14.4, 23.1, 38.7,
       17.2,  8.3, 15.1, 25. , 24.8, 18.2, 32.9, 30.5, 24.4, 30.5, 10.9,
       10.8, 13.1, 24.3, 22.5, 20.5, 16.6, 33. , 19. , 21.1, 22. , 48.3,
        9.5, 29.9, 20. , 13.9, 20.1,  7.5, 21. , 24.8, 13.4, 22.6, 31.5,
       21.2, 17.2, 50. , 14.1, 22. , 18.4, 15. ,  8

#### Error cometido

In [41]:
Y_test-Y_pred  # Diferencias = Errores cometidos

array([  3.1,  -1.3,   5.2,   2.6,   1. ,   0.7,   4.1,   3.4,   1. ,
        -1.7,   7.6,  12.6,  -1.3,   0.9,   3.5, -11.5,  -1.9,   1.1,
         1.7,   2.1,   1.9,   6.9,  -1.6,  -0.7,   3.3,   0.4,  -1.7,
        -4.1,  -2.8,   0.3,  -4.3,   1.2,   6.4,  -2.4,   5.2,   0.8,
         0.1,  -2.3,  -0.4,  -4.1,   2.6,  -1.1,   1. ,  -4.1,   2.2,
        -2.2,  -1.3,  -2.4,  -6. ,  -0.1,   0.4,   3.4,  -4.6,  -1.9,
         3.2,  12.9,   0. ,   4.7,  -2. ,   0. ,   3.1,  -1.4,   8.8,
         1.1,  -6.5,   1.1,  -0.2,  -2.9,  -0.5,   4.1,  -0.6,  -9. ,
        -1.8,   6.5,   2.2,   0. ,   1.8,  -3.7,  -5.5,   2.9,  -1.2,
        -1.5,  -1.9,  -0.5,   2.2,  -0.8,  -0.1,   3. ,   3.4,  -3.4,
        -1.1,  -7.7,  -7.1,   1.7,   5.7,  -1.9,   1.5,   1.5,  -1.3,
         0.2,   0.7,   0.8,   0.8,   0. ,   4.9,  -1.6,   0.3,   9.3,
        -2.1,  11.3,  10.3,   4.4,   2.3,  -1.2,  -1.9,   0.3,  -2.6,
         0.7,  -8.4,  -7.2,   4.1,  -0.6,  -0.6,  -4.7,  -2.8,  -1. ,
        -1.6,   2.4,

$$RMSE = \sqrt{\frac{\sum_{i=0}^N(Estimaciones\ Correctas-Estimaciones\ del\ Algoritmo)^{2}}{N}}$$

*N*: Número de ejemplos en el conjunto de prueba.

In [42]:
# Importamos función para calcular error cuadrático medio (MSE)
from sklearn.metrics import mean_squared_error
# Importamos numpy para calcular la raíz cuadrada (sqrt)
import numpy as np
# Calculamos la raíz cuadrada del error cuadrático medio (RMSE)
rmse = np.sqrt(mean_squared_error(Y_test,Y_pred))
print('RMSE: %.3f' % rmse)

RMSE: 4.596


### Código Completo del Ejemplo

In [46]:
# Importamos función para cargar el conjunto de datos Boston
from sklearn.datasets import load_boston
boston = load_boston()  # Cargamos el conjunto de datos Boston
X = boston.data    # Características (X)
Y = boston.target  # Solución (Y)
# Importamos función para dividir el conjunto de datos
from sklearn.model_selection import train_test_split
# Fijamos semilla para generar números aleatorios (por reproducibilidad,
# para que obtengamos los mismos resultados cada vez)
semilla = 3
# Dividimos el conjunto de datos (70% entrenamiento, 30% prueba)
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size=.3,random_state=semilla)
# Importamos funciones para árboles de decisión
from sklearn import tree
regresor = tree.DecisionTreeRegressor(random_state=semilla)
regresor.fit(X_train,Y_train) # Entrenamiento
Y_pred = regresor.predict(X_test) # Test
# Evaluación del rendimiento del modelo
# Importamos función para calcular error cuadrático medio (MSE)
from sklearn.metrics import mean_squared_error
# Importamos numpy para calcular la raíz cuadrada (sqrt)
import numpy as np
# Calculamos la raíz cuadrada del error cuadrático medio (RMSE)
rmse = np.sqrt(mean_squared_error(Y_test,Y_pred))
print('RMSE: %.3f' % rmse)

RMSE: 4.596


## 4. Ejemplos de Algoritmos para Aprendizaje Supervisado
___

 - Regresión lineal
 - Regresión logística
 - Árboles de decisión
 - k-Vecinos más cercanos
 - Máquinas de soporte vectorial
 - Redes neuronales artificiales
 - Random Forest (bosques aleatorios)
 - Gradient Boosting

## 5. Siguiente
___

Si tienes alguna duda o comentario, puedes dejárnoslo en el [vídeo](https://www.youtube.com/watch?v=HfRfKQ8ZUjQ) en el que explicamos este notebook.

Para más vídeos sobre este tema, puedes visitar nuestro [canal de YouTube](https://www.youtube.com/channel/UCAUedO0e4eNjycH4_hU4-1g).

¡Esperamos que os sea de ayuda!