<a href="https://colab.research.google.com/github/raaraya1/Personal-Proyects/blob/main/Cursos/sklearn/An_Introduction_to_machine_learning_with_scikit_learn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Machine Learning**

Generalmente un problema de apredizaje considera un conjunto de muestras de datos de los cuales se intenta predecir alguna propiedad desconocida. Luego, si para una muestra de datos existe mas de una caracteristica (feature), entonces estamos hablando de un problema con una entrada multi-dimensional.

Los problemas de apendizaje los podemos dividir en las siguientes categorias:

- **Supervised learning**: Se cuenta con un atributo adicional del cual se pretende generar una prediccion.
 - **Classification**: Las muestras de datos pertenecen a dos o mas clases, entonces el objetivo es etiquetar los datos donde correspondan.
 - **Regression**: Esto si la salida consiste en una o mas variables **continuas**

- **Unsupervised learning**: Paa este tipo de aprendizaje los datos no vienen con un objetivo (**target**). De esta manera, lo que se busca es descubrir los grupos con mayores caracteristicas similares (**clustering**) o determinar la distribucion de los datos en el espacio (luego si esta distribucion se encuentra en muchas dimensiones, la podemos reducir a 2 o 3 con fin de poder visualizar los datos)

**Training set and testing set**

Machine learning va de aprender algunas propiedades de los datos y luego probar esas propiedad sobre nuevos datos nunca antes vistos. Asi, una practica comun es separar los datos disponibles en 2. Llamamos al **training set** a todos aquellos datos que utilizamos para descubrir las propiedades y llamamos al **testing set** a todos aquellos datos con los que ponemos a prueba las propiedades aprendidas.



# **Loading an example dataset**

`scikit-learn` vienen con algunos pocos set de datos estandarizados, por ahora tenemos `iris` y `digits` como bases de datos para clasificacion y la base de datos `diabetes dataset` para las regresiones.

A continuacion cargaremos las bases de datos `iris` y `digits`

In [None]:
from sklearn import datasets
iris = datasets.load_iris()
digits = datasets.load_digits()

Un dataset tiene un comportamiento similar al de un diccionario, conteniendo asi todos los datos y otras informaciones. Los datos son guardados en `.data`, el cual a su vez se encuentra estructurado como un `array` con `n_smaples` y `n_features`. Asimismo, para el caso de problemas supervisados, uno o mas variables son guardadas como objetivos en `.target`

In [None]:
digits.data

array([[ 0.,  0.,  5., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ..., 10.,  0.,  0.],
       [ 0.,  0.,  0., ..., 16.,  9.,  0.],
       ...,
       [ 0.,  0.,  1., ...,  6.,  0.,  0.],
       [ 0.,  0.,  2., ..., 12.,  0.,  0.],
       [ 0.,  0., 10., ..., 12.,  1.,  0.]])

In [None]:
digits.target

array([0, 1, 2, ..., 8, 9, 8])

**Shape of the data arrays**
 Los datos son siempre tratados con un `array` de dos dimensiones (`n_samples, n_features`) aunque los datos originales podrian haber tenido estructura. Para el caso de los digitos, cada dato originalmente correspondia a una imagen de (8 X 8) la cual se puede acceder usando:

 

In [None]:
digits.images[0]

array([[ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.],
       [ 0.,  0., 13., 15., 10., 15.,  5.,  0.],
       [ 0.,  3., 15.,  2.,  0., 11.,  8.,  0.],
       [ 0.,  4., 12.,  0.,  0.,  8.,  8.,  0.],
       [ 0.,  5.,  8.,  0.,  0.,  9.,  8.,  0.],
       [ 0.,  4., 11.,  0.,  1., 12.,  7.,  0.],
       [ 0.,  2., 14.,  5., 10., 12.,  0.,  0.],
       [ 0.,  0.,  6., 13., 10.,  0.,  0.,  0.]])

# **Learning and predicting**

Para el caso de la base de datos de numeros, la tarea es predecir el numero que se encuentra contenido en la imagen. Para esto nosotros vamos dando muestras de datos con 10 posibles clases (de 0 a 9) para asi ir ajustando (**fit**) un estimador, y que luego este sea capaz de predecir sobre muestras de datos que nunca ha visto.

En scikit-learn, un estimador para clasificacion cuenta con los metodos `fit(X, y)` y `predict(T)`.

Un ejemplo de estimador de clasificacion podria ser `sklearn.svm.SVC` (**Support Vector Machine**). Asi, para construir el estimador debemos definir los parametros del algoritmo.

Por ahora consideremos el estimador como una "caja negra".

In [None]:
from sklearn import svm
clf = svm.SVC(gamma=0.001, C=100.)

**Choosing the parameters of the model**

Para el caso anterior, se establecio el parametro gamma de manera manual. Para encontrar buenos valores en estos parametros, nosotros podriamos ocupara herramientas como `grid search` y `cross validation`.




Lo que haremos a continuacion es pasar por el calsificador, todo nuestro set de imagenes con la excepcion de la ultima, ya que esta la utilizaremos para predecir.

In [None]:
X_train = digits.data[:-1]
y_train = digits.target[:-1]
clf.fit(X_train, y_train)

SVC(C=100.0, gamma=0.001)

Lo que podemos hacer ahora es predecir el digito de la ultima imagen.

In [None]:
X_test = digits.data[-1:]
clf.predict(X_test)

array([8])

# **Conventions**


Los estimadores de sklearn siguen una serie de reglas para hacer su comportamiento mas predictivo.



**Type casting**

A menos que se especifique lo contrario, los resultados se encuentraran calculados en `float64`.

In [None]:
import numpy as np
from sklearn import random_projection

rng = np.random.RandomState(0)
X = rng.rand(10, 2000)
X = np.array(X, dtype='float32')
X.dtype

dtype('float32')

In [None]:
transformer = random_projection.GaussianRandomProjection()
X_new = transformer.fit_transform(X)
X_new.dtype

dtype('float64')

Los objetivos de una regresion son puestos en `float64` y los objetivos de algoritmos de clasificacion son mantenidos.

In [None]:
from sklearn import datasets 
from sklearn.svm import SVC 
iris = datasets.load_iris()
clf = SVC()
clf.fit(iris.data, iris.target)

SVC()

In [None]:
list(clf.predict(iris.data[:3]))

[0, 0, 0]

In [None]:
clf.fit(iris.data, iris.target_names[iris.target])
list(clf.predict(iris.data[:3]))

['setosa', 'setosa', 'setosa']

Asi, la primera vez que predijimos se obtuvo una lista con valores enteros. En cambio en la segunda vez se obtuvieron los nombres de las clasificaciones.

**Refitting and updating parametrs**

Los Hyper-parametros de un estimador pueden ser actualizados luego de que se encuentra constuido el algoritmo a traves del metodo `set_params()`. Llamando al metodo `fit()` nuevamente sobreescribira lo que fue aprendido anteriormente.

In [None]:
import numpy as np
from sklearn.datasets import load_iris 
from sklearn.svm import SVC 

X, y = load_iris(return_X_y=True)
clf = SVC()
clf.set_params(kernel='linear').fit(X, y)

SVC(kernel='linear')

In [None]:
clf.predict(X[:5])

array([0, 0, 0, 0, 0])

In [None]:
clf.set_params(kernel='rbf').fit(X, y)
clf.predict(X[:5])

array([0, 0, 0, 0, 0])

Lo que se hizo aqui fue cambiar el kernel que viene por defecto a 'linear' y luego lo volvimos a reestablecer.

**Multiclass vs. multilabel fitting**

Cuando usamos `multiclass classifiers`, el rendimiento del algoritmo dependera del formato del `target`.

In [None]:
from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier 
from sklearn.preprocessing import LabelBinarizer 

X = [[1, 2], [2, 4], [4, 5], [3, 2], [3, 1]]
y = [0, 0, 1, 1, 2]

classif = OneVsRestClassifier(estimator=SVC(random_state=0))
classif.fit(X, y).predict(X)

array([0, 0, 1, 1, 2])

En el caso anterior, el clasificador es ajustado a 1d `array` de multiples clases y el metodo `predict()` se ajusta a las categorias existentes. Tambien es posible ajustar hasta un 2d `array` con opciones binarias.

In [None]:
y = LabelBinarizer().fit_transform(y)
classif.fit(X, y).predict(X)

array([[1, 0, 0],
       [1, 0, 0],
       [0, 1, 0],
       [0, 0, 0],
       [0, 0, 0]])

Notemos que para el cuarto y quinto dato regreso el valor de 0, indicando que **no encontro relacion con ninguno de las 3 categorias presentadas**. Para salida con varias categorias, tambien es posible que **se asigne mas de una categoria**.

In [None]:
from sklearn.preprocessing import MultiLabelBinarizer
y = [[0, 1], [0, 2], [1, 3], [0, 2, 3], [2, 4]]
y = MultiLabelBinarizer().fit_transform(y)
classif.fit(X, y).predict(X)

array([[1, 1, 0, 0, 0],
       [1, 0, 1, 0, 0],
       [0, 1, 0, 1, 0],
       [1, 0, 1, 0, 0],
       [1, 0, 1, 0, 0]])