# Usando scikit-learn para explorar el famoso dataset iris

Créditos: Material presentado en este notebook está basado en el curso del [Data School](http://www.dataschool.io/) "Machine Learning with Text in Python", cuyos videos están disponibles en [YouTube](https://www.youtube.com/playlist?list=PL5-da3qGB5ICeMbQuqbbCOQWcS6OYBr5A) y los notebooks en [GitHub](https://github.com/justmarkham/scikit-learn-videos).

**Nota:** Este notebook utiliza Python 3.6 and scikit-learn 0.22.2.

## Agenda

- ¿Qué es el dataset Iris y cómo se puede utilizar para hacer machine learning (ML)?
- ¿Cómo se puede cargar el dataset Iris con scikit-learn?
- Como se describe un dataset usando la terminologia de ML?
- Cual son los cuatro principales requisitos de scikit-learn para trabajar con datos?

## Introduccion al dataset iris

![Iris](images/03_iris.png)

- 50 muestras de 3 especies distintas de iris (150 muestras en total). Los iris tambien son conocido comunmente como lirios.
- Medidas: longitud del sepalo, ancho del sepalo, longitud del petalo, ancho del petalo
- Iris es un género de plantas rizomatosas de la familia Iridaceae. El mayor género de la familia con más de 300 especies, además de muchos híbridos y cultivares. Además del nombre del género, iris se usa comúnmente para referirse a todas las especies, así como a otros varios géneros estrechamente emparentados y a una subdivisión dentro del género. Fuente: [Wikipedia](https://es.wikipedia.org/wiki/Iris_(planta))

In [1]:
from IPython.display import IFrame
IFrame('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', width=300, height=200)

## Aplicando machine learning en el dataset iris

- Expresar la tarea como un problema de **aprendizaje supervisado** (supervised learning): Predecir la especie de un iris utilizando las medidas
- El dataset iris es famoso en el area de ML debido a que resolver el problema de prediccion es **sencillo**
- Puedes aprender mas acerca del dataset iris en el sitio: [UCI Machine Learning Repository](http://archive.ics.uci.edu/ml/datasets/Iris)

## Cargando el dataset iris con scikit-learn

In [2]:
# importa la funcion load_iris del modulo datasets
from sklearn.datasets import load_iris

In [3]:
# guarda el objeto tipo "bunch", que contiene el dataset iris y sus atributos
iris = load_iris()
type(iris)

sklearn.utils.Bunch

In [4]:
# imprime la data the iris data
# encontraras 150 muestras o filas, cada una con cuatro valores
print(iris.data)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

## Terminologia de Machine learning

- Cada fila es una **observacion** (tambien conocida como: muestra, ejemplo, caso o registro)
- Cada columna es una **caracteristica** (tambien conocido como: predictor, atributo, variable independiente, regresor, o covariable)

In [5]:
# imprime los nombres de las cuatro caracteristicas
print(iris.feature_names)

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


**Pregunta 1:** Puedes explicar por que cada fila del dataset tiene cuatro valores?

In [6]:
# imprime los numeros enteros que representan las distintas especies de cada observacion
print(iris.target)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


**Pregunta 2:** Cuantas especies distintas posee el dataset iris?

In [7]:
# imprime el esquema de especies: 0 = setosa, 1 = versicolor, 2 = virginica
print(iris.target_names)

['setosa' 'versicolor' 'virginica']


- Cada valor que predecimos es la **respuesta** (tambien conocida como objetivo, etiqueta, o variable dependiente)
- **Clasificacion** es aprendizaje supervisado en donde la respuesta es categorica
- **Regresion** es aprendizaje supervisado en donde la respuesta es continua

## Requisitos para procesar datos con scikit-learn

1. Caracteristicas y respuesta deben ser **objetos separados**
2. Caracteristicas y respuesta deben ser **valores numericos**
3. Caracteristicas y respuesta deben ser **arreglos de tipo NumPy**
4. Caracteristicas y respuesta deben tener **dimensiones especificas**

In [8]:
# revisar el tipo de las caracteristicas y la respuesta
print(type(iris.data))
print(type(iris.target))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [9]:
# revisa las dimensiones de las caracteristicas (primera dimension = numero de observaciones,
# segunda dimension = numero de caracteristicas)
print(iris.data.shape)

(150, 4)


In [10]:
# revisa las dimensiones de la respuesta (una sola dimension que corresponde al numero de observaciones)
print(iris.target.shape)

(150,)


In [11]:
# almacena la matriz de caracteristicas en "X"
X = iris.data

# almacena el vector de respuesta en "y"
y = iris.target

## Resources

- scikit-learn documentation: [Dataset loading utilities](http://scikit-learn.org/stable/datasets/)
- Jake VanderPlas: Fast Numerical Computing with NumPy ([slides](https://speakerdeck.com/jakevdp/losing-your-loops-fast-numerical-computing-with-numpy-pycon-2015), [video](https://www.youtube.com/watch?v=EEUXKG97YRw))
- Scott Shell: [An Introduction to NumPy](http://www.engr.ucsb.edu/~shell/che210d/numpy.pdf) (PDF)

In [8]:
from IPython.core.display import HTML
def css_styling():
    styles = open("styles/custom.css", "r").read()
    return HTML(styles)
css_styling()