## Cuaderno de Scikit-Learn


**Versiones a utilizar**

In [None]:
import sys
print("Python version: {}".format(sys.version))
import pandas as pd
print("pandas version: {}".format(pd.__version__))
import matplotlib
print("matplotlib version: {}".format(matplotlib.__version__))
import numpy as np
print("NumPy version: {}".format(np.__version__))
import scipy as sp
print("SciPy version: {}".format(sp.__version__))
import IPython
print("IPython version: {}".format(IPython.__version__))
import sklearn
print("scikit-learn version: {}".format(sklearn.__version__))

### Scikit-learn

In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
# Ejemplos
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from numpy import logical_or
from sklearn.linear_model import LogisticRegression
import sgd_separador 
import regresion 

iris = datasets.load_iris()
subconjunto = logical_or(iris.target == 0, iris.target == 1)

X = iris.data[subconjunto]
y = iris.target[subconjunto]

# Creamos el modelo
modelo = LogisticRegression()

# Fijamos el modelo
modelo.fit(X, y)
print (modelo.coef_)

In [None]:
# Para aprendizaje no supervisado
from sklearn.cluster import KMeans

# Creamos el modelo
kmeans = KMeans(n_clusters = 2)

# Fijamos el modelo
kmeans.fit(X)
print (kmeans.cluster_centers_)

In [None]:
# Reduccion de la dimension

from sklearn.decomposition import PCA

# Creamos el modelo
pca = PCA(n_components=2)

# Fijamos el modelo
pca.fit(X)
print (pca.explained_variance_)

In [None]:
# Predictores
modelo = LogisticRegression()
modelo.fit(X, y)

X_test = [[ 5.006,  3.418,  1.464,  0.244], [ 5.936,  2.77 ,  4.26 ,  1.326]]
modelo.predict(X_test)

In [None]:
print (modelo.predict_proba(X_test))

In [None]:
# Ejemplo más avanzado de SVM,  usando SVC (support vector classification)

from sklearn import svm
digitos = datasets.load_digits()
clasificador = svm.SVC(gamma=0.001, C=100.)

# Fijamos el modelo
clasificador.fit(digitos.data[:-1], digitos.target[:-1])  

# Usamos los predictores en el modelo
clasificador.predict(digitos.data[-1:])


In [None]:
# El metodo transform para aprendizaje no supervisado

pca = PCA(n_components=2)
pca.fit(X)

print (pca.transform(X)[0:5,:])

In [None]:
# El metodo fit.transform

pca = PCA(n_components=2)
print (pca.fit_transform(X)[0:5,:])


In [None]:
# Otros modelos
# Utilizamos DummyClassifier un clasificador que hace predicciones simples

from sklearn.dummy import DummyClassifier

modelo = DummyClassifier()
modelo.fit(X, y)

modelo.score(X, y)


Dos de las tareas más simples del machine learning es la de la `clasificación` y de  la `regresión`. Veamos el siguiente ejemplo:

In [None]:
%run sgd_separador.py

Otra tarea del machine learning es la de `regressión`, que es el ajuste de una línea a un conjunto de datos.

In [None]:
%run regresion.py

###  Validación de modelos


In [None]:
# Para el conjunto de datos iris, la prediccion de los datos de entrada

from sklearn.neighbors import KNeighborsClassifier
X, y = iris.data, iris.target
clf = KNeighborsClassifier(n_neighbors=1)
clf.fit(X, y)
y_pred = clf.predict(X)
print(np.all(y == y_pred))

Una forma más útil examinar los resultados es para ver la `matriz de confusión (confusión matrix)`, o la matriz que muestra la frecuencia de las entradas y salidas:

In [None]:
from sklearn.metrics import confusion_matrix
print(confusion_matrix(y, y_pred))

In [None]:
from sklearn.model_selection import train_test_split

Xentrenamiento, Xtest, yentrenamiento, ytest = train_test_split(X, y)
clf.fit(Xentrenamiento, yentrenamiento)
ypred = clf.predict(Xtest)
print(confusion_matrix(ytest, ypred))

Esto muestra verdadero rendimiento de nuestro clasificador: al parecer hay cierta confusión entre la segunda y la tercera especie, que podría anticipar dado lo que hemos visto de los datos anteriores.

Por esta razón, es muy importante utilizar  los datos de  `entrenamiento` y datos `test` en la evaluación de los  modelos. 

**Ejemplo: clasificación de iris**

1 . Conociendo los datos

In [None]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()

In [None]:
print("Informacion de los datos iris: \n{}".format(iris_dataset.keys()))

In [None]:
print(iris_dataset['DESCR'][:435] + "\n...")

In [None]:
print("Nombre de las especie objetivo: {}".format(iris_dataset['target_names']))

In [None]:
print("Nombre de caracteristicas: \n{}".format(iris_dataset['feature_names']))

In [None]:
print("Tipo de dato: {}".format(type(iris_dataset['data'])))

In [None]:
print("Forma de datos: {}".format(iris_dataset['data'].shape))

In [None]:
print("Primera cinco columnas de los datos:\n{}".format(iris_dataset['data'][:8]))

In [None]:
print("Tipo de objetivo: {}".format(type(iris_dataset['target'])))

In [None]:
print("Forma del objetivo: {}".format(iris_dataset['target'].shape))

In [None]:
print("Objetivo:\n{}".format(iris_dataset['target']))

2 . Métricas: datos de entrenamiento y prueba

In [None]:
from sklearn.model_selection import train_test_split

X_entrenamiento, X_prueba, y_entrenamiento, y_prueba = train_test_split(iris_dataset['data'], iris_dataset['target'], 
                                                                        random_state=0)

In [None]:
print("Forma de X_entrenamiento : {}".format(X_entrenamiento.shape))
print("Forma de y_entrenamiento : {}".format(y_entrenamiento.shape))

In [None]:
print("Forma de X_prueba: {}".format(X_prueba.shape))
print("Forma de y_prueba: {}".format(y_prueba.shape))

3 . Visualización

In [None]:
x_index = 0
y_index = 1

# este formateador etiquetará la barra de colores con los nombres  de los target correctos
formatter = plt.FuncFormatter(lambda i, *args: iris_dataset.target_names[int(i)])

plt.scatter(iris_dataset.data[:, x_index], iris_dataset.data[:, y_index],
            c=iris_dataset.target, cmap=plt.cm.get_cmap('RdYlBu', 3))
plt.colorbar(ticks=[0, 1, 2], format=formatter)
plt.clim(-0.5, 2.5)
plt.xlabel(iris_dataset.feature_names[x_index])
plt.ylabel(iris_dataset.feature_names[y_index]);

In [None]:
# Crea un  dataframe desde data en X_entrenamiento
# etiqueta las columnas usando las cadenas en iris_dataset.feature_names

from matplotlib.colors import ListedColormap
cm3 = ListedColormap(['#0000aa', '#ff2020', '#50ff50'])
iris_dataframe = pd.DataFrame(X_entrenamiento, columns=iris_dataset.feature_names)

# Creamos un diagrama de dispersion desde el data frame
grr = pd.plotting.scatter_matrix(iris_dataframe, c=y_entrenamiento, figsize=(15, 15), marker='o',
hist_kwds={'bins': 20}, s=60, alpha=.8, cmap=cm3)

4 . Un modelo elemental : k-NN

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)

In [None]:
knn.fit(X_entrenamiento, y_entrenamiento)

5 . Predicciones

In [None]:
X_nuevo = np.array([[5, 2.9, 1, 0.2]])
print("X_nuevo.shape: {}".format(X_nuevo.shape))

In [None]:
prediccion = knn.predict(X_nuevo)
print("Prediccion: {}".format(prediccion))
print("Nombre del objetivo predicho: {}".format( iris_dataset['target_names'][prediccion]))

6 . Evaluación de modelos

In [None]:
y_pred = knn.predict(X_prueba)
print("Predicciones del conjunto de pruebas:\n {}".format(y_pred))

In [None]:
print("Puntuacion del conjunto de pruebas: {:.2f}".format(np.mean(y_pred == y_prueba)))

In [None]:
print("Exactitud del conjunto de pruebas: {:.2f}".format(knn.score(X_prueba, y_prueba)))

#### Ejercicios de experimentación

1 . Carga el conjunto de datos ``diabetes`` usando ``sklearn.datasets.load_diabetes`` y realiza un análisis de acuerdo a las notas realizadas. Aplica ``LinearRegression``, ``Ridge`` y ``Lasso``  y visualiza los coeficientes.

In [None]:
### Tu respuesta