# Hola mundo de machine learning

## Nivel Principiante

## Tiempo estimado para completarlo: 15 minutos

## Requisitos
* Haber leído y comprendido la sección de [requisitos generales](../../../docs/basics/requisites/requisites.md).

## Objetivos

* Comprobar que jupyter lab está correctamente instalado.
* Dar los primeros pasos en el uso de jupyter lab.
* Utilizar [scikit learn](https://scikit-learn.org) como biblioteca de machine learning. 
* Entrenar un modelo de machine learning y hacer predicciones con él.

## Introducción

Bienvenido al primer laboratorio de machine learning.

Este ejercicio supone que no sabe nada sobre aprendizaje automático.  Solo se espera que haya revisado los [requisitos generales](../../../docs/basics/requisites/requisites.md).  Si aún no lo ha hecho, lo invito a que visite esa sección antes de continuar.

Si usted es principiante, no se preocupe si no comprende todos los detalles ahora mismo dado que en futuras entregas se profundizarán los temas.

Si usted no es principiante, notará que se han omitido muchos pasos que se aplican en un proyecto complejo. Mantener la simplicidad es importante por la naturaleza didáctica de este material.

Sin embargo, con cada laboratorio se explicarán nuevos conceptos, por lo que el nivel de complejidad crecerá gradualmente.

## Enunciado del problema

Recolectamos la siguiente información (peso y textura) sobre dos tipos de frutas:  manzanas y naranjas.


| Peso | Textura | Etiqueta |
|------|---------|----------|
| 150g | rugoso  | naranja  |
| 170g | rugoso  | naranja  |
| 140g | liso    | manzana  |
| 130g | liso    | manzana  |

En la tabla anterior, al peso y la textura se le conocen como: dimensiones, columnas, características, atributos, propiedades, variables o campos.

Suponga que se le presenta una fruta rugosa que pesa 160g ¿Es una naranaja o una manzana?

Utilicemos machine learning para responder a dicha pregunta.

## Solución

Ya que contamos con un conjunto de datos etiquetados para entrenar, estamos ante un problema de **aprendizaje supervisado**.

Adicionalmente, dado que la etiqueta que desea predecirse es de tipo nominal o discreta (naranja o manzana), nos enfrentamos a un problema de **clasficación**

Un modelo de machine learning supervisado que puede ser utilizado para solucionar problemas de clasificación es el **árbol de decisión**.

En la biblioteca scikit learn, el árbol de decisión se conoce como DecisionTreeClassifier.  Importémoslo.

In [36]:
from sklearn.tree import DecisionTreeClassifier

Por lo general, los modelos de aprendizaje automático supervisado de scikit learn requieren dos parámetros para poder ser entrenados:  la matriz de características y el vector de etiquetas.  Por otro lado, es necesario codificar todas las variables categóricas (ordinales o nominales).

Primero codifiquemos y construyamos la matriz de características.  Nótese que codificaremos el valor "liso" como 0 y "rugoso" como 1.

In [37]:
# 0 = liso, 1 = rugoso, 
# características = [[150, "rugoso"], [170, "rugoso"], [140, "liso"], [130, "liso"]]
features = [[150, 1], [170, 1], [140, 0], [130, 0]]

A continuación se procede a codificar y construir el vector de etiquetas. Observe que codificaremos el valor "naranja" como 0 y "manzana" como 1.

In [38]:
# 0 = naranja, 1 = manzana
# etiquetas = ["naranja", "naranja", "manzana", "manzana"]
labels = [0, 0, 1, 1]

Notará, el proceso de codificación es manual y propenso a errores.  En futuros laboratorios se explicarán maneras óptimas de llevar a cabo este paso.  Sin embargo, si siente curiosidad, puede leer [cómo codificar variables categóricas en scikit learn](https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features).

Ahora, construiremos un clasificador basado en un árbol de decisión. Por el momento, no es importante saber qué hace un árbol de decisión, en posteriores laboratorios se explicará éste y otros modelos.

In [39]:
model = DecisionTreeClassifier()

Se procede a entrena el árbol de decisión con la matriz de características y el vector de etiquetas.

In [43]:
model.fit(features, labels); # hint: finalizar con punto y coma oculta el resultado de la ejecución

Listo, el modelo ha sido entrenado.

Pero antes de utilizar el modelo para predecir, recordemos cómo codificamos las distintas variables categóricas.

Codificación de la textura de las frutas

| Valor   | Código |
|---------|--------|
| liso    | 0      |
| rugoso  | 1      |

Codificación del nombre de la fruta

| Valor   | Código |
|---------|--------|
| naranja | 0      |
| manzana | 1      |

Pidámosle al modelo que prediga qué fruta es rugosa y pesa 160g.

In [41]:
print(model.predict([[160, 1]]))

[0]


Nótese que el modelo predice como **naranja** (codificada como 0) una fruta que pesa 160g y que su textura es rugosa (textura que fue codificada como 1).  Hemos encontrado así la solución al problema.

Solo por curiosidad, preguntemos al modelo qué tipo de fruta es aquella que es lisa y pesa 135g.

In [42]:
print(model.predict([[135, 0]]))

[1]


El modelo responde que dicha fruta es una manzana, tal y como sospechábamos.

Felicitaciones ha solucionado su primer problema utilizando machine learning.

## Resumen

Este laboratorio propuso un problema sencillo para ser solucionado con machine learning.
Los problemas de machine learning nunca son tan simples, pero este pequeño ejercicio expone importantes conceptos básicos.
Se utilizó un algoritmo de aprendizaje supervisado para predecir si un objeto es una manzana o una naranja (un problema de clasificación).

Por ahora no se preocupe si no entiende porqué se creo una matriz de características, una lista de etiquetas o qué es un árbol de decisión, en futuros laboratorios se explicarán estos conceptos (y muchos otros) con detalle.

Lo importante es notar que este problema se solucionó siguiendo estos pasos:
* recolectar datos
* entrenar un modelo
* hacer predicciones.