# Introducción a scikit-learn y clasificación

## Iris dataset

![Image of Iris](https://raw.githubusercontent.com/jrasero/curso-ml-ehu-2019/master/images/iris.jpeg)

- 50 muestras de 3 diferentes especies de iris (150 muestras en total)
- Medidas: sepal length, sepal width, petal length, petal width

## Machine learning en la dataset de iris

- Es un tipo de problema de  **clasificación**: Predecir la especie de iris usando medidas
- Famosa dataset para machine learning porque la predicción es muy **fácil**

## Cargando la data de iris

In [None]:
from sklearn.datasets import load_iris

In [None]:
iris = load_iris()
type(iris)

In [None]:
print(iris.data)

## Machine learning terminología

- Cada fila es una **observación** (También: sample, example, instance, record)
- Cada columna es una **feature** (También: predictor, attribute, independent variable, input, regressor, covariate)

In [None]:
# Mostremos el nombre de las variables
print(iris.feature_names)

In [None]:
# Mostremos los números enteros representando la especie de iris en cada observación
print(iris.target)

In [None]:
# Mostremos el nombre de cada especie: 0 = setosa, 1 = versicolor, 2 = virginica
print(iris.target_names)

- Cada valor que intentamos predecir es la variable **response o respuesta** (o: target, outcome, label, dependent variable)
- **Clasificación** es aprendizaje supervisado en la que el target es categórica
- **Regresión** es aprendizaje supervisado en la que el target es continua

## Requerimientos de la data en scikit-learn

1. Features y target son **objetos separados**
2. Features y target deberían ser **numeric**
3. Features y target deberían ser **NumPy arrays**
4. Features y target deberían tener **tamaños fijos y especificos**

In [None]:
# Comprobemos los tipos de las features y las respuestas
print(type(iris.data))
print(type(iris.target))

In [None]:
# Comprobemos el tamaño de las features (primera dimensión = número de observaciones, segunda dimensión = número de features)
print(iris.data.shape)

In [None]:
# La variable respuesta es un vector (array de una sola dimensión con el mismo número de observaciones)
print(iris.target.shape)

In [None]:
#Típico lenguaje en scripts de machine learning 

# Matriz de features "X"
X = iris.data

# Vectore de labels "y"
y = iris.target

## La sintaxis para hacer predicción es muy sencilla y siempre igual

### 1º Definimos un objeto del clasificador que queremos

In [None]:
from sklearn.linear_model import LogisticRegression

clf=LogisticRegression()

### 2º Hacemos fit sobre X e y para ajustar el modelo en base al input y target. Esto se hace mediante la function `fit`

In [None]:
clf.fit(X,y)

### 3º Predecimos el target sobre otros datos usando la función `predict`

In [None]:
print(clf.predict(X))

In [None]:
# Podemos comparar el output predicho con lo que sabíammos
print(sum(y==clf.predict(X))/float(len(y)))

## Referencias

- scikit-learn documentation: [Dataset loading utilities](http://scikit-learn.org/stable/datasets/)
- Jake VanderPlas: Fast Numerical Computing with NumPy ([slides](https://speakerdeck.com/jakevdp/losing-your-loops-fast-numerical-computing-with-numpy-pycon-2015), [video](https://www.youtube.com/watch?v=EEUXKG97YRw))
- Scott Shell: [An Introduction to NumPy](http://www.engr.ucsb.edu/~shell/che210d/numpy.pdf) (PDF)