<a href="https://colab.research.google.com/github/Tavo826/UN/blob/main/Main_people_classifier.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Gaussian Naive Bayes

## sklearn.naive_bayes.GaussianNB(*, priors=None, var_smoothing=1e-09)

Puede realizar actualizaciones en línea de los parámetros del modelo a través de partial_fit

Se basa en el supuesto "ingenuo" (naive) de independencia condicional entre cada par de características dado el valor de la variable de la clase. El teorema de Bayes establece la siguiente relación

$$P(y|x_1,...,x_n) = \frac{P(y)P(x_1,...,x_n|y)}{P(x_1,...,x_n)}$$

Donde $y$ es la variable de la clase y x el vector de características.

Usando la suposición de independencia condicional ingenua

$$P(x_i|y,x_1,...,x_{i-1},x_{i+1},...,x_n) = P(x_i|y)$$

Para todos los i esto se simplifica a

$$P(y|x_1,...,x_n) = \frac{P(y)\prod_{i=1}^{n}P(x_i|y)}{P(x_1,...,x_n)}$$


Como $P(x_1,...,x_n)$ es constante, se puede considerar:

$$P(y|x_1,...,x_n) \propto P(y)\prod_{i=1}^{n}P(x_i|y)$$

Por lo tanto:

$$\hat{y} = \underset{y}{argmax} P(y)\prod_{i=1}^{n}P(x_i|y)$$

Y se puede usar la estimación del máximo A posteriori, para estimar $P(y)$ y $P(x_i|y)$.

Los diferentes clasificadores ingenuos de Bayes difieren principalmente por los supuestos que hacen con respecto a la distribución de $P(x_i|y)$

El Gaussian Naive Bayes supone que $P(x_i|y)$ es gaussiana

$$P(x_i|y) = \frac{1}{\sqrt{2\pi{{\sigma}_{y}^{2}}}} exp \left( -\frac{{(x_i-{\mu}_{y})}^{2}}{2{{\sigma}_{y}^{2}}} \right)$$

Los parámetros ${\sigma}_{y}$ y ${\mu}_{y}$ se estiman usando la máxima verosimilitud.


# Stochastic Gradient Descent

## sklearn.linear_model.SGDClassifier(loss='hinge', *, penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, tol=0.001, shuffle=True, verbose=0, epsilon=0.1, n_jobs=None, random_state=None, learning_rate='optimal', eta0=0.0, power_t=0.5, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None, warm_start=False, average=False)

Estrictamente hablando, SGD es simplemente una técnica de optimización y no corresponde a una familia específica de modelos de aprendizaje automático. Es solo una forma de entrenar a un modelo. A menudo, una instancia de SGDClassifier o SGDRegressor tendrá un estimador equivalente en la API scikit-learn, posiblemente utilizando una técnica de optimización diferente. Por ejemplo, el uso de SGDClassifier (loss = 'log') da como resultado una regresión logística, es decir, un modelo equivalente a LogisticRegression que se ajusta a través de SGD en lugar de ser ajustado por uno de los otros solucionadores en LogisticRegression. 

La clase SGDClassifier implementa una rutina de aprendizaje de descenso de gradiente estocástico simple que admite diferentes funciones de pérdida y penalizaciones para la clasificación.

El objetivo de este clasificador es aprender una fución de puntuación lineal $f(x) = w^Tx+b$ para hacer predicciones para realizar clasificación binaria. Para encontrar los parámetros del modelo, se minimiza el error de entrenamiento regularizado dado por: $$\theta^* = \frac{1}{n}\sum_{i=1}^{n}L(y_i,f(x_i)) + \alpha R(\omega)$$ donde **L** es una función de error que mide el ajuste del modelo y **R** es el término de regularización que penaliza la complejidad del modelo; **$\alpha > 0$** es un hiperparámetro que controla la fuerza de regularización.

El clasificador admite diferentes funciones de pérdida:

* Hinge: (soft-margin) linear Support Vector Machine

    Perezosa - Actualiza los parámetros de un modelo si un ejemplo viola la restricción de margen, lo que hace que el entrenamiento sea muy eficiente y puede dar como resultado modelos más dispersos (coeficientes 0), incluso usando la penalización $\ell_2$ $$L(y_i,f(x_i)) = max(0, 1 - y_if(x_i))$$

* Perceptron: $$L(y_i,f(x_i)) = max(0, - y_if(x_i))$$

* Modified Huber: smoothed hinge loss (Perezosa)
    
    $$L(y_i,f(x_i)) = \begin{cases} {max(0, 1-y_if(x_i))}^{2} \quad si \quad y_if(x_i) > 1\\
    -4y_if(x_i) \quad otherwise \end{cases}$$
    
* Log: logistic regression $$L(y_i,f(x_i)) = log(1 + exp(-y_if(x_i)))$$

* Least-Squares: Linear regression (Ridge o Lasso dependiendo del R) $$L(y_i,f(x_i)) = \frac{1}{2}{y_i-f(x_i)}^{2}$$

* Huber: menos sensitivo que Least-Squares a los valores atípicos.

    $L(y_i,f(x_i))=\begin{cases} Least-Squares \quad si \quad |y_i - f(x_i)| \leq \epsilon \\
    \epsilon|y_i-f(x_i)| - \frac{1}{2}{\epsilon}^{2} \quad otherwise \end{cases}$
    
* Epsilon-Insensitive: (soft-margin) Support Vector Regression $$L(y_i,f(x_i)) = max(0, |y_i-f(x_i)|-\epsilon)$$

Entre las opciones más escogidas para el término de regularización se encuentran:

* Norma ${\ell}_{2}: R(\omega) := \frac{1}{2}\sum_{j=1}^{m}{\omega_j}^{2} = {\|\omega\|}_{2}^{2}$
* Norma ${\ell}_{1}: R(\omega) := \sum_{j=1}^{m}|\omega_j|$, lleva a soluciones dispersas
* Elastic Net: $R(\omega) := \frac{\rho}{2}\sum_{j=1}^{n}{\omega_j}^{2} + (1-\rho)\sum_{j=1}^{m}|\omega_j|$, una combinación convexa de $\ell_2$ y $\ell_1$, donde $\rho$ está dado por 1 - l1_ratio.

SGDClassifier admite la clasificación de varias clases mediante la combinación de múltiples clasificadores binarios en un esquema "uno contra todos" (OVA). Para cada una de las clases, se aprende un clasificador binario que discrimina entre esa y todas las demás clases. En el momento de la prueba, calculamos el puntaje de confianza (es decir, las distancias firmadas al hiperplano) para cada clasificador y elegimos la clase con la mayor confianza.

# Linear Discriminant Analysis

## sklearn.discriminant_analysis.LinearDiscriminantAnalysis(*, solver='svd', shrinkage=None, priors=None, n_components=None, store_covariance=False, tol=0.0001)

Se deriva de modelos probabilísticos simples que modelan la distribución condicional de clase de los datos P(X|y). Las predicciones pueden ser obtenidas usando la regla de Bayes y se selecciona la clase que maximice esta probabilidad posterior.

Se modela la probabilidad P(x|y)como una distribución Gaussiana multivariada con densidad:

$$P(x|y) = \frac{1}{{(2\pi)}^{\frac{n}{2}}{|\sum_{y}|}^{\frac{1}{2}}} exp\left( -\frac{1}{2}{(x-\mu_y)}^{T}\sum_{y}^{-1}(x-\mu_y) \right)$$

Se asume que las las Gausianas comparten la misma matriz de covarianza. EL log-posterior queda de la forma:

$$logP(y|x) = - \frac{1}{2}{(x-\mu_y)}^{T}\sum_{y}^{-1}(x-\mu_y) + logP(y) + Cst$$

El término ${(x-\mu_y)}^{T}\sum_{y}^{-1}(x-\mu_y)$ corresponde a la distancia de Mahalanobis entre la muestra x y la media $\mu$ de la clase. En LDA se asigna la muestra x a la clase cuya media sea la más cercana en términos de la distancia de Mahalanobis, mientras que cuenta las probabilidades previas de la clase (priors).

# Quadratic Discriminant Analysis

## sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis(*, priors=None, reg_param=0.0, store_covariance=False, tol=0.0001)

Se fundamenta de la misma manera que el Linear Discriminant Analysis

$$logP(y|x) = logP(x|y) + logP(y) + Cst = -\frac{1}{2}log\left|\sum_y\right| - \frac{1}{2}{(x-\mu_y)}^{T}\sum_{y}^{-1}(x-\mu_y) + logP(y) + Cst $$

donde la constante Cst corresponde al denominador de la relación de Bayes P(x), adicionado a otras constantes de la Gaussiana. La clase predicha es la que maximiza el log-posterior

Si en este modelo se asume que las matrices de covarianza son diagonales, entonces las entradas se asumen condicionalmente independiente en cada clase, y el resultado de clasificador es equivalente al *Gaussian Naive Bayes*

# K-Neighbors Classifier

## sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, *, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None, **kwargs)

La clasificación se calcula a partir de un voto de mayoría simple de los vecinos más cercanos de cada punto: a un punto de consulta se le asigna la clase de datos que tiene la mayor cantidad de representantes dentro de los vecinos más cercanos del punto.

KNeighborsClassifier implementa el aprendizaje basado en los k vecinos más cercanos de cada punto de consulta, donde k es un valor entero especificado por el usuario.



# Logistic Regression

## sklearn.linear_model.LogisticRegression(penalty='l2', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='lbfgs', max_iter=100, multi_class='auto', verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)

En el caso de multiclase, el algoritmo de entrenamiento usa el esquema de uno contra todos (OvA) si la opción 'multi_class' está configurada en 'ovr', y usa la pérdida de entropía cruzada si la opción 'multi_class' está configurada en 'multinomial '.

Los solucionadores 'newton-cg', 'sag' y 'lbfgs' solo admiten la regularización L2 con formulación primaria, o no regularización. El solucionador "liblinear" admite la regularización de L1 y L2, con una formulación dual solo para la penalización de L2. La regularización de Elastic-Net solo es compatible con el solucionador de "saga"

Usando la penalización $\ell_2$, se optimiza la función de costo $$\underset{\omega,c}{min}\frac{1}{2}\omega^T\omega + C\sum_{i=1}^{n}log(exp(-y_i(X^T_i\omega + c))+1)$$

De manera similar, usando la penalización $\ell_2$ se resuelve el problema de optimización $$\underset{\omega,c}{min} \|\omega\|_1 + C\sum_{i=1}^{n}log(exp(-y_i(X^T_i\omega + c))+1)$$

Elastic-Net utiliza una combinación de $\ell_1$ y $\ell_2$ y la función de costo es $$\underset{\omega,c}{min} \frac{1-\rho}{2}\omega^T\omega + \rho\|\omega\|_1 + C\sum_{i=1}^{n}log(exp(-y_i(X^T_i\omega + c))+1)$$ donde $\rho$ controla la regularización.

# Support Vector Classifier

## sklearn.svm.SVC(*, C=1.0, kernel='rbf', degree=3, gamma='scale', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape='ovr', break_ties=False, random_state=None)

Una máquina de vectores de soporte construye un hiperplano o un conjunto de hiperplanos en un espacio dimensional alto o infinito, que puede usarse para clasificación, regresión u otras tareas. Intuitivamente, se logra una buena separación mediante el hiperplano que tiene la mayor distancia a los puntos de datos de entrenamiento más cercanos de cualquier clase (denominado margen funcional), ya que en general cuanto mayor es el margen, menor es el error de generalización del clasificador. 

El objetivo es encontrar $\omega$ y b tal que la predicción dada por $sign(w^T\phi(x)+b)$ sea correcta para la mayoría de las muestras

$$\underset{\omega,b,\zeta}{min}\frac{1}{2}\omega^T\omega + C\sum_{i=1}^{n}\zeta_i$$

sujeto a $\quad y_i(\omega^T\phi(x_i)+b) \geq 1 - \zeta_i, \quad \zeta_i \geq 0, \quad i=1,...,n$


Funciones kernel:

* linear: $\langle x,{x}^{'} \rangle$

* polynomial: $(\gamma\langle x,{x}^{'} \rangle + r)^d$, donde **$\gamma$** se especifica en el parámetro *gamma*, este debe ser mayor a 0. El valor de **d** se especifica en el parámetro *degree*, y **r** en *coef0*

* rbf: $exp(-\gamma{\|x-{x}^{'}\|}^{2})$

* sigmoid: $tanh(\gamma\langle x,{x}^{'} \rangle + r)$

# Random Forest Classifier

## sklearn.ensemble.RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None)

El bosque aleatorio es un tipo de algoritmo supervisado de aprendizaje automático basado en el aprendizaje conjunto, que soluciona el problema que tienen los árboles de decisión de no servir para reproducir escenarios predictivos what-if. Con Random Forest se puede conocer la importancia de cada variable.


In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

from funciones_people import pre_exploratorio, save_fig, plot_confusion_matrix, roc_multiclass, roc_auc_mc

from sklearn.impute import SimpleImputer 
from sklearn.model_selection import train_test_split, GridSearchCV,cross_val_score, cross_val_predict
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, ClassifierMixin
from sklearn.decomposition import PCA
from sklearn.externals import joblib
from sklearn.preprocessing import label_binarize
from numpy.matlib import repmat

from scipy.spatial.distance import mahalanobis
from scipy.stats import multivariate_normal as mn

#Modelos
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import SGDClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

#Base de datos
from sklearn.datasets import fetch_lfw_people

%matplotlib inline

ModuleNotFoundError: ignored

In [None]:
#Descargando base de datos 
lfwPeople = fetch_lfw_people(min_faces_per_person=70, resize=0.4)

#ejemplo imagen en base de datos
print('Dimensiones base de datos: \n',lfwPeople.images.shape)
plt.imshow(lfwPeople.images[30,:,:],cmap='gray')

print('Clases base de datos: \n',lfwPeople['target_names'])
print(lfwPeople.images[30,:,:])

NameError: ignored

In [None]:
Xdata = pd.DataFrame(lfwPeople.data)
y = lfwPeople.target

print('Tamaño dataset \nX:', Xdata.shape)
print('y: ', y.shape)

plt.imshow(np.array(Xdata.iloc[0,:]).reshape(lfwPeople.images.shape[1],lfwPeople.images.shape[2]),cmap='gray')

In [None]:
Xtrain, Xtest, ytrain, ytest = train_test_split(Xdata, y, test_size=0.3) #30% Test

Xtrain.head(10)

In [None]:
#George W Bush

print('tamaño y: ', y.shape)
print(np.where(y==0)[0].shape)
print(np.where(y==1)[0].shape)
print(np.where(y==2)[0].shape)
print(np.where(y==3)[0].shape)
print(np.where(y==4)[0].shape)
print(np.where(y==5)[0].shape)
print(np.where(y==6)[0].shape)

print('tamaño ytrain: ', ytrain.shape)
print(np.where(ytrain==0)[0].shape)
print(np.where(ytrain==1)[0].shape)
print(np.where(ytrain==2)[0].shape)
print(np.where(ytrain==3)[0].shape)
print(np.where(ytrain==4)[0].shape)
print(np.where(ytrain==5)[0].shape)
print(np.where(ytrain==6)[0].shape)

print('tamaño ytest: ', ytest.shape)
print(np.where(ytest==0)[0].shape)
print(np.where(ytest==1)[0].shape)
print(np.where(ytest==2)[0].shape)
print(np.where(ytest==3)[0].shape)
print(np.where(ytest==4)[0].shape)
print(np.where(ytest==5)[0].shape)
print(np.where(ytest==6)[0].shape)

In [None]:
print('Xtrain: ',Xtrain.shape)
img_path = 'Images/'

#Se realiza reducción de dimensión con PCA y t-SNE
pre_exploratorio(Xtrain, ytrain, img_path, 'People', lfwPeople.images.shape[1], lfwPeople.images.shape[2])

In [None]:
#Clase Bayes Classifier

class bayes_cla(BaseEstimator, ClassifierMixin):
    def __init__(self, priors=None, alpha=1e-6, tipo=None, tol= 1e-6):
        self.priors = priors
        self.alpha = alpha
        self.tipo = tipo
        self.tol = tol
        return None

    
    def cov_Reg(self, X, *_):
        mu = X.mean(axis=0)
        dimN, dimP = X.shape
        Xm = (X - repmat(mu,X.shape[0],1))/np.std(X)
        if dimP <= dimN:
            val,vec = np.linalg.eig((Xm.T).dot(Xm)+self.alpha*np.eye(dimP))
            val = np.real(val)
            ind = val > self.tol
            val = val[ind]
            vec = np.real(vec[:,ind])
            iCov = vec.dot(np.diag(val**(-1))).dot(vec.T)
        else:
            val,uec = np.linalg.eig(Xm.dot(Xm.T)+self.alpha*np.eye(dimN))
            val = np.real(val)
            ind = val > self.tol
            val = val[ind]
            uec = np.real(uec[:,ind])
            vec = (Xm.T).dot(uec).dot(np.diag(val**(-0.5)))
            iCov = vec.dot(np.diag(val**(-1))).dot(vec.T)
        detC = np.cumprod(val)[-1]
        return iCov, detC
        
    def fit(self, X, y, *_):
        self.classes = np.unique(y)
        Nc = len(self.classes)
        dimN, dimP = X.shape
        
        #media y covarianza por cada clase
        
        self.mu = np.zeros((Nc,dimP))
        self.Cov = np.zeros((Nc,dimP,dimP))
        self.var = np.zeros((Nc,dimP))
        self.priors = np.zeros(Nc)
        self.det = np.zeros(Nc)
        
        for i in self.classes:
            if self.tipo == 'Naive':
                self.priors[i] = X[y==i].shape[0]/dimN
                self.mu[i] = np.array(X[y==i,:].mean(axis=0))
                self.var[i] = np.array(X[y==i].var(axis=0))
                if np.min(self.var[i]) < self.alpha:
                    self.var[i] = self.var[i] + self.alpha
        
            elif self.tipo == 'LDA':
                self.priors[i] = X[y==i].shape[0]/dimN
                self.mu[i] = X[y==i,:].mean(axis=0)
                #self.Cov[i], self.det[i] = self.cov_Reg(X[y==i],self.alpha,self.tol)
                
                self.Xm = (X - repmat(self.mu[i],X.shape[0],1))                
                self.Cov[i] = np.cov((self.Xm[i].T).dot(self.Xm[i])+self.alpha*np.eye(dimP))
                
            elif self.tipo == 'QDA':
                self.priors[i] = X[y==i].shape[0]/dimN
                self.mu[i] = X[y==i,:].mean(axis=0) 
                #self.Cov, self.det = self.cov_Reg(X,self.alpha,self.tol)
                self.Xm = (X - repmat(self.mu[i],X.shape[0],1))                
                self.Cov[i] = np.cov((self.Xm[i].T).dot(self.Xm[i])+self.alpha*np.eye(dimP))
        
        self.det = np.linalg.det(self.Cov)
        return self

    def pdf_class_lda(self,X,mu,icovM,detC,*_):
        dimN, dimP = X.shape
        Xm = X - repmat(mu,X.shape[0],1)
        pe = np.zeros(dimN)
        for n in range(dimN):            
            pe[n]= np.exp(-0.5*Xm[n].reshape(1,-1).dot(icovM).dot(Xm[n].reshape(-1,1))) 
        return pe
    
    def pdf_class_qda(self,X,mu,icovM,detC,*_):
        dimN, dimP = X.shape
        Xm = X - repmat(mu,X.shape[0],1)
        pe = np.zeros(dimN)
        for n in range(dimN):
            
            if n==0:
                print('\nfor interno\n')
                print('pe.shape',pe.shape)
                print('pe[n].shape',pe[n].shape)
                print('Xm.shape',Xm.shape)
                print('Xm[n].shape',Xm[n].shape)
                print('Xm[n].reshape(1,-1).shape',Xm[n].reshape(1,-1).shape)
                print('icovM.shape',icovM.shape)
                print('Xm[n].reshape(-1,1).shape',Xm[n].reshape(-1,1).shape)
            
            pe[n]= np.exp(-0.5*Xm[n].reshape(1,-1).dot(icovM).dot(Xm[n].reshape(-1,1))) 
        return pe 

    def predict(self, X, *_):
        if self.tipo == 'Naive':
            Nc = len(self.classes)
            dimN = X.shape[0]
            dimP = X.shape[1]
            self.pdfT= np.zeros((Nc,dimN))
            self.pdfs = np.zeros((Nc,dimN,dimP))
            for i in self.classes:
                self.pdfs[i] = np.exp((-(X-self.mu[i])**2)/(2*self.var[i]))/(np.sqrt(2*np.pi*self.var[i]))#*(self.priors[i])
            self.pdfT= (self.pdfs).sum(axis=2)
            return np.log(self.pdfT).argmax(axis=0)
        
        elif self.tipo == 'LDA':
            Nc = len(self.classes)
            dimN, dimP = X.shape
            self.pdfs = np.zeros((dimN,Nc))
            for i in self.classes:                
                self.pdfs[:,i] = self.pdf_class_lda(X,self.mu[i],self.Cov[i],self.det[i])#*(self.priors[i])
            self.pdfs = self.pdfs/repmat(self.pdfs.sum(axis=1).reshape(-1,1),1,self.pdfs.shape[1])
            self.labels = self.pdfs.argmax(axis=1) 
            return self.labels

        elif self.tipo == 'QDA':
            Nc = len(self.classes)
            dimN, dimP = X.shape
            self.pdfs = np.zeros((dimN,Nc))
            for i in self.classes:
                
                if i == 0:
                    print('\nfor externo\n')
                    print('self.pdfs.shape', self.pdfs.shape)
                    print('self.pdfs[:,i].shape',self.pdfs[:,i].shape)
                    print('X.shape',X.shape)
                    print('self.mu.shape',self.mu.shape)
                    print('self.mu[i].shape',self.mu[i].shape)
                    print('self.Cov.shape',self.Cov.shape)
                    print('self.det.shape',self.det.shape)
                
                self.pdfs[:,i] = self.pdf_class_qda(X,self.mu[i],self.Cov,self.det)#*(self.priors[i])
            self.pdfs = self.pdfs/repmat(self.pdfs.sum(axis=1).reshape(-1,1),1,self.pdfs.shape[1])
            self.labels = self.pdfs.argmax(axis=1) 
            return self.labels


    def predict_proba(self, X,*_):
        if self.tipo == 'Naive':
            self.predict(X)
            return self.pdfT.transpose()
        if self.tipo == 'LDA':
            self.predict(X)
            return self.pdfs
        if self.tipo == 'QDA':
            self.predict(X)
            return self.pdfs

# SIN PCA

In [None]:
Xtrain = np.array(Xtrain)
ytrain = np.array(ytrain)
Xtest = np.array(Xtest)
ytest = np.array(ytest)

print('ytest: ',ytest.shape)

#Naive

#sklearn
naive_sk = GaussianNB()
naive_sk.fit(Xtrain, ytrain)
#print(naive_sk.predict(Xtest))

#Clase
naive = bayes_cla(tipo = 'Naive')
naive.fit(Xtrain, ytrain)
print(naive.predict(Xtest))
np.where(naive.predict(Xtest)==ytest)[0].shape[0]

In [None]:
#LDA

#sklearn
lda_sk = LinearDiscriminantAnalysis()
lda_sk.fit(Xtrain, ytrain)

#Clase
lda = bayes_cla(tipo = 'LDA')
lda.fit(Xtrain, ytrain)
print(lda.predict(Xtest))
np.where(lda.predict(Xtest)==ytest)[0].shape[0]

In [None]:
#QDA

#sklearn
qda_sk = QuadraticDiscriminantAnalysis()
qda_sk.fit(Xtrain, ytrain)

#Clase
qda = bayes_cla(tipo = 'QDA')
qda.fit(Xtrain, ytrain)
print(qda.predict(Xtest))
np.where(qda.predict(Xtest)==ytest)[0].shape[0]

In [None]:
# Evaluando la clase

ytest_naive = naive.predict(Xtest)
acc_naive = accuracy_score(ytest, ytest_naive)

ytest_lda = lda.predict(Xtest)
acc_lda = accuracy_score(ytest, ytest_lda)

ytest_qda = qda.predict(Xtest)
acc_qda = accuracy_score(ytest, ytest_qda)

plot_confusion_matrix(
                      ytest, ytest_naive, 
                      classes = lfwPeople.target_names,
                      normalize = True,
                      title='ACC_Naive = %.1f %%' % (100*acc_naive)
                      )

plt.ylim([0, len(lfwPeople.target_names)+0.5])                     
plt.show()

cr_naive = classification_report(
                           ytest, ytest_naive, 
                           labels=range(lfwPeople.target_names.shape[0]),
                           target_names=lfwPeople.target_names
                           )                          
print(cr_naive)

plot_confusion_matrix(
                      ytest, ytest_lda, 
                      classes = lfwPeople.target_names,
                      normalize = True,
                      title='ACC_LDA = %.1f %%' % (100*acc_lda)
                      )

plt.ylim([0, len(lfwPeople.target_names)+0.5])                     
plt.show()

cr_lda = classification_report(
                           ytest, ytest_lda, 
                           labels=range(lfwPeople.target_names.shape[0]),
                           target_names=lfwPeople.target_names
                           )
print(cr_lda)

plot_confusion_matrix(
                      ytest, ytest_qda, 
                      classes = lfwPeople.target_names,
                      normalize = True,
                      title='ACC_QDA = %.1f %%' % (100*acc_qda)
                      )

plt.ylim([0, len(lfwPeople.target_names)+0.5])                     
plt.show()

cr_qda = classification_report(
                           ytest, ytest_qda, 
                           labels=range(lfwPeople.target_names.shape[0]),
                           target_names=lfwPeople.target_names
                           )                          
print(cr_qda)

# CON PCA

In [None]:
steps_bayes = [
    
    [
        ('rep', PCA()),
        ('cla', bayes_cla(tipo = 'Naive'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', bayes_cla(tipo = 'LDA'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', bayes_cla(tipo = 'QDA'))
    ],
    
]

parameters_bayes = [
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__alpha': [0.1, 1e-3, 1e-5, 1e-9, 1e-12],
        'cla__tol': [0.1, 1e-3, 1e-5, 1e-9, 1e-12]
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__alpha': [0.1, 1e-3, 1e-5, 1e-9, 1e-12],
        'cla__tol': [0.1, 1e-3, 1e-5, 1e-9, 1e-12]
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__alpha': [0.1, 1e-3, 1e-5, 1e-9, 1e-12],
        'cla__tol': [0.1, 1e-3, 1e-5, 1e-9, 1e-12]
    }
    
]

label_models_bayes = ['Naive', 'LDA', 'QDA']

In [None]:
best_model_bayes = []
filename = 'Resultados_people_bayes'

for i in range(len(steps_bayes)):
    print('modelo %d/%d' % (i+1,len(steps_bayes)))
    grid_search = GridSearchCV(Pipeline(steps_bayes[i]), parameters_bayes[i], n_jobs=4,cv=5,
                                scoring='balanced_accuracy',verbose=5)
    grid_search.fit(Xtrain, ytrain)
    print('Score: ', grid_search.best_score_)
    
    #mejor modelo entrenado
    best_model_bayes += [grid_search.best_estimator_]
    joblib.dump(best_model_bayes,filename + ".pkl")

print('Mejores modelos:\n')
best_model_bayes

In [None]:
my_model_loaded_bayes = joblib.load(filename + ".pkl")

for i in range(len(my_model_loaded_bayes)):
    print('Evaluando modelo %d/%d' % (i+1,len(my_model_loaded_bayes)))

    ytest_e = my_model_loaded_bayes[i].predict(Xtest)
    acc = accuracy_score(ytest, ytest_e)
  
    plot_confusion_matrix(
                          ytest, ytest_e, 
                          classes = lfwPeople.target_names,
                          normalize = True,
                          title='ACC = %.1f %%' % (100*acc)
                          )
    plt.ylim([0, len(lfwPeople.target_names)+0.5])
    save_fig(img_path, label_models_bayes[i])                      
    plt.show()
    
    cr = classification_report(
                               ytest, ytest_e, 
                               labels=range(lfwPeople.target_names.shape[0]),
                               target_names=lfwPeople.target_names
                               )                          
    #support = #muestras en la clase estudiada
    print(cr)

# Train sk-learn

In [None]:
steps = [
    
    [
        ('rep', PCA()),
        ('cla', GaussianNB())
    ],
    
    [
        ('rep', PCA()),
        ('cla', SGDClassifier(loss='hinge'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', SGDClassifier(loss='log'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', SGDClassifier(loss='modified_huber'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', LinearDiscriminantAnalysis(solver='svd'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', LinearDiscriminantAnalysis(solver='eigen',
                                          shrinkage='auto'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', QuadraticDiscriminantAnalysis())
    ],
    
    [
        ('rep', PCA()),
        ('cla', KNeighborsClassifier(algorithm='auto'))
    ],
        
    [
        ('rep', PCA()),
        ('cla', KNeighborsClassifier(algorithm='ball_tree'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', LogisticRegression(solver='lbfgs'))
    ],
                                     
    
    [
        ('rep', PCA()),
        ('cla', LogisticRegression(solver='newton-cg'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', SVC(kernel='rbf'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', SVC(kernel='sigmoid',
                   decision_function_shape='ovo'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', RandomForestClassifier(max_features='auto'))
    ],
    
    [
        ('rep', PCA()),
        ('cla', RandomForestClassifier(max_features='log2'))
    ],
    
]

parameters = [
    
    {
        'rep__n_components': [0.1, 0.5, 0.9]        
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__alpha': [0.0001, 0.1, 0.5, 1]    
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__alpha': [0.0001, 0.1, 0.5, 1]    
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__alpha': [0.0001, 0.1, 0.5, 1],
        'cla__epsilon': [0.1, 0.5, 0.9]
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9]        
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9]        
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__reg_param': [0, 0.5, 1]
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__n_neighbors': [0.1, 1, 3, 5]
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__n_neighbors': [0.1, 1, 3, 5]
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__C': [0.1, 0.5, 1]
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__C': [0.1, 0.5, 1]
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__C': [0.1, 0.5, 1]
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__n_estimators': [20, 100, 300, 500]
    },
    
    {
        'rep__n_components': [0.1, 0.5, 0.9],
        'cla__n_estimators': [20, 100, 300, 500]
    },
    
]

label_models = [
    
    'Naive',
    'SGD_hinge',
    'SGD_log',
    'SGD_huber',
    'LDA_svd',
    'LDA_eigen',
    'QDA',
    'KN_auto',
    'KN_ballTree',
    'Log_lbfgs',
    'Log_newton',
    'SVC_rbf',
    'RandFo_auto',
    'RandFo_log2'    
]

In [None]:
best_model = []
filename = 'Resultados_people'

for i in range(len(steps)):
    print('modelo %d/%d' % (i+1,len(steps)))
    grid_search = GridSearchCV(Pipeline(steps[i]), parameters[i], n_jobs=4,cv=5,
                                scoring='balanced_accuracy',verbose=5)
    grid_search.fit(Xtrain, ytrain)
    print('Score: ', grid_search.best_score_)
    
    #mejor modelo entrenado
    best_model += [grid_search.best_estimator_]
    joblib.dump(best_model,filename + ".pkl")

print('Mejores modelos:\n')
best_model

In [None]:
my_model_loaded = joblib.load(filename + ".pkl")

for i in range(len(my_model_loaded)):
    print('Evaluando modelo %d/%d' % (i+1,len(my_model_loaded)))

    ytest_e = my_model_loaded[i].predict(Xtest)
    acc = accuracy_score(ytest, ytest_e)
  
    plot_confusion_matrix(
                          ytest, ytest_e, 
                          classes = lfwPeople.target_names,
                          normalize = True,
                          title='ACC = %.1f %%' % (100*acc)
                          )
    plt.ylim([0, len(lfwPeople.target_names)+0.5])
    save_fig(img_path, label_models[i])                      
    plt.show()
    
    cr = classification_report(
                               ytest, ytest_e, 
                               labels=range(lfwPeople.target_names.shape[0]),
                               target_names=lfwPeople.target_names
                               )                          
    #support = #muestras en la clase estudiada
    print(cr)

In [None]:
ytrain_b = label_binarize(ytrain, classes=range(lfwPeople.target_names.shape[0]))
ytest_b = label_binarize(ytest, classes=range(lfwPeople.target_names.shape[0]))

for i in range(len(my_model_loaded)):
    print('Evaluando ROC modelo %d/%d' % (i+1,len(my_model_loaded)))
    try: #debe calcularse la funcion de decision o el posterior de la probabilidad
        ytest_score = my_model_loaded[i].decision_function(Xtest)
    except:
        ytest_score = my_model_loaded[i].predict_proba(Xtest)
    roc_auc, fpr, tpr, n_classes = roc_multiclass(ytest_b,ytest_score)
    roc_auc_mc(roc_auc,fpr,tpr,n_classes,'ROC curve ' + label_models[i],img_path)    