Clasificación de las flores IRIS (scikit-learn)
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/1-classification-2-SDG-iris.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPython-for-predictive-analytics/blob/master/1-classification-2-SDG-iris.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/readme.md)

# Definición del problema real

Se desea realizar la identificación del tipo de flor (virginica, setosa, versicolor) a partir de la medición del tamaño del sépalo y el pétalo.

<img src="images/iris.jpg" width=300>

# Definición del problema en términos de los datos

Se tienen 150 medidiciones del ancho y el largo del sépalo y el pétalo para las tres especies de la flor Iris, con 50 mediciones para cada especie. Se desea construir un clasificador que pronostique la especie de la flor a partir de dichas mediciones.

In [39]:
## los datos se encuentran disponibles directamente en scikit-learn
from sklearn import datasets
iris = datasets.load_iris()
print(iris.DESCR)

Iris Plants Database

Notes
-----
Data Set Characteristics:
    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20  0.76     0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :Date: July, 1988

This is a copy of UCI ML iris d

# Solución

In [40]:
X_iris, y_iris = iris.data, iris.target
print(X_iris.shape, y_iris.shape)

(150, 4) (150,)


In [41]:
print(iris.target_names)

['setosa' 'versicolor' 'virginica']


In [42]:
## primer ejemplo
print(X_iris[0], y_iris[0])

[5.1 3.5 1.4 0.2] 0


In [43]:
## Clases
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [44]:
iris.target_names[iris.target]

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

In [45]:
## Partición de los datos
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_iris, y_iris, test_size=0.25, random_state=33)

In [46]:
print(X_train.shape, y_train.shape)

(112, 4) (112,)


In [47]:
print(X_test.shape, y_test.shape)

(38, 4) (38,)


In [48]:
from sklearn import preprocessing
scaler = preprocessing.StandardScaler().fit(X_train)
X_train = scaler.transform(X_train)
X_test  = scaler.transform(X_test)

In [50]:
from sklearn.linear_model import SGDClassifier
clf = SGDClassifier()
clf.fit(X_train, y_train)



SGDClassifier(alpha=0.0001, average=False, class_weight=None, epsilon=0.1,
       eta0=0.0, fit_intercept=True, l1_ratio=0.15,
       learning_rate='optimal', loss='hinge', max_iter=None, n_iter=None,
       n_jobs=1, penalty='l2', power_t=0.5, random_state=None,
       shuffle=True, tol=None, verbose=0, warm_start=False)

In [51]:
print(clf.coef_)

[[-11.29982088   7.53435314 -14.70110861 -15.44227317]
 [-15.7718348  -10.10233202  22.74421027 -18.8909962 ]
 [ -0.59893044   5.11173155  28.84499521  35.7343131 ]]


In [52]:
print(clf.intercept_)

[ -9.93617637 -11.40892329 -45.04386552]


In [56]:
from sklearn import metrics
y_train_pred = clf.predict(X_train)
metrics.accuracy_score(y_train, y_train_pred)

0.9196428571428571

In [55]:
y_pred = clf.predict(X_test)
metrics.accuracy_score(y_test, y_pred)

0.8421052631578947

In [58]:
print(metrics.classification_report(y_test, y_pred, target_names=iris.target_names))

             precision    recall  f1-score   support

     setosa       1.00      1.00      1.00         8
 versicolor       0.78      0.64      0.70        11
  virginica       0.81      0.89      0.85        19

avg / total       0.84      0.84      0.84        38



In [59]:
print(metrics.confusion_matrix(y_test, y_pred))

[[ 8  0  0]
 [ 0  7  4]
 [ 0  2 17]]


In [64]:
from sklearn.cross_validation import cross_val_score, KFold
from sklearn.pipeline import Pipeline
clf = Pipeline([
    ('scaler', preprocessing.StandardScaler()),
    ('linear_model', SGDClassifier(max_iter=10, tol=None))
])


cv = KFold(X_iris.shape[0], 5, shuffle=True, random_state=33)

scores = cross_val_score(clf, X_iris, y_iris, cv=cv)
print(scores)


[0.9        0.9        0.93333333 1.         0.86666667]


In [67]:
from scipy.stats import sem
import numpy as np
def mean_score(scores):
    return ("Mean score: {0:.3f} (+/- {1:.3f})").format(np.mean(scores), sem(scores))
print(mean_score(scores))

Mean score: 0.920 (+/- 0.023)


---

Clasificación de las flores IRIS (scikit-learn)
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/1-classification-2-SDG-iris.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPython-for-predictive-analytics/blob/master/1-classification-2-SDG-iris.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/readme.md)

---

In [None]:
## Escala la matriz de datos al intervalo [0, 1]
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
wbcd_n = scaler.fit_transform(wbcd_data)
wbcd_n

In [None]:
#
# Se crean los conjuntos de entrenamiento y prueba
#
wbcd_train        = wbcd_n[0:468]
wbcd_train_labels = wbcd_diagnosis[0:468]
wbcd_test         = wbcd_n[469:]
wbcd_test_labels  = wbcd_diagnosis[469:]

In [None]:
#
# Se construye el clasificador
#
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=21)
knn.fit(wbcd_train, wbcd_train_labels)

In [None]:
#
# Predicción para el conjunto de prueba
#
wbcd_test_pred = knn.predict(wbcd_test)
wbcd_test_pred

In [None]:
#
# Métricas de desempeño
#
from sklearn.metrics import confusion_matrix
confusion_matrix(y_true = wbcd_test_labels, y_pred = wbcd_test_pred, labels=['"M"', '"B"'])

In [None]:
tn, fp, fn, tp = confusion_matrix(y_true = wbcd_test_labels, y_pred=wbcd_test_pred).ravel()
(tn, fp, fn, tp)

In [None]:
#
# Computa la tasa de éxito
#
from sklearn.metrics import accuracy_score
accuracy_score(y_true = wbcd_test_labels, y_pred = wbcd_test_pred)

In [None]:
## Tasa de error 
1 - accuracy_score(y_true = wbcd_test_labels, y_pred = wbcd_test_pred)

In [None]:
## Reporte de precisión del clasificador
from sklearn.metrics import classification_report
print(classification_report(y_true=wbcd_test_labels, y_pred=wbcd_test_pred))

In [None]:
## Similitud
from sklearn.metrics import jaccard_similarity_score
jaccard_similarity_score(y_true=wbcd_test_labels, y_pred=wbcd_test_pred)

# Ejercicio.-- Recomendación de paquetes a instalar en R

### Descripción del problema

Se desea construir un sistema de recomendación para la instalación de paquetes del lenguaje R, tal que cuando un usuario seleccione un paquete a instalar, el sistema le recomiende otros paquetes que se han instalado con el paquete seleccionado. 

### Definición del problema en términos de los datos

El archivo `installations.csv` tiene una muestra de 129324 registros de paquetes instalados por 65 usuarios. Las columnas son las siguientes:


* Package: El nombre del paquete instalado.


* User: Número entero que sirve como id del usuario.


* Installed: 1=Si, 2=No. 

In [None]:
installations = open('data/installations.csv').readlines()
installations[0:5]

Se debe construir un sistema de recomendación.

---

Clasificación de las flores IRIS (scikit-learn)
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/1-classification-2-SDG-iris.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/IPython-for-predictive-analytics/blob/master/1-classification-2-SDG-iris.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/IPython-for-predictive-analytics/blob/master/readme.md)