# Multiple linear regression

## Import the relevant libraries

In [11]:
import numpy as np
from datetime import datetime
import time
from scipy.stats import norm
import numpy.linalg as linalg

#Para el cálculo de UCL-D
from scipy.stats import f as fisher
from scipy.stats import beta

## Load the data

In [12]:
#Generación e matriz aleatoria arbitraria
nobs=500
nvar=100
calibration_matrix=np.random.random((nobs,nvar)) #matriz de 300x112
#comprobar
print "Las dimensiones de la matriz de calibración son: ", calibration_matrix.shape


Las dimensiones de la matriz de calibración son:  (500, 100)


## Información adicional para el cálculo

In [13]:
#Configuraciones
tstsDateFormat='%Y%m%d%H%M'
model_backup_path = "data/calibration/"
datetime.strftime(datetime.now(),tstsDateFormat)

#información del yaml de configuración principal
prep=2
lv=2
phase=1
x=calibration_matrix


### Preprocesamiento de la matriz calibración

In [14]:
#preprocesamiento -->method_name = "preprocess_2D()" La variables weight de momento en estos ejemplos no la tendremos en cuenta
nanM = np.isnan(x)
anM = 1 - nanM

average = np.nanmean(x,axis=0)# array of M elements
average = average.reshape((1,average.shape[0]))# Matrix of 1xM elements
scale = np.nanstd(x,axis=0,ddof=1)

#TODO: to ask Pepe what is this :(
ind = np.nonzero(scale == 0)# # of zeroes in scale
dem = 2.0*np.sum(anM[:,ind],axis=0) - 1
scale[ind] = np.sqrt(np.ones((1,np.array(ind).size)) / dem)

scale = scale.reshape((1,scale.shape[0]))# Matrix of 1xM elements
xcs = x - np.dot(np.ones((x.shape[0],1)),average)
xcs = xcs / np.dot(np.ones((x.shape[0],1)),scale)

print "average: ", average
print ("Las dimensiones de average: ", average.shape, " Se busca el valor medio de csda")#112x1, es decir, una media por cada columna

print "scale: ", scale
print "Las dimensiones de scale son: ", scale.shape, "Se busca la desviación de cada columna para centrarla en 1"

#xcs tiene las dimensiones de la matriz original 300x112
print "xcs: ",xcs
print "Las dimensiones de xcs: ", xcs.shape
print "xcs es la matriz normalizada, con media 0 y desviación 1, paso necesario para aplicar PCA"


average:  [[0.48871138 0.50078807 0.50690502 0.51065344 0.50874669 0.48946152
  0.50980088 0.49487546 0.5108441  0.50136045 0.50134169 0.49114484
  0.52669783 0.51019645 0.49743698 0.50038884 0.49017541 0.48027746
  0.49359491 0.49130226 0.49576418 0.49794623 0.51936947 0.50829503
  0.5014895  0.50789613 0.49083259 0.49796943 0.49655537 0.48654021
  0.50474761 0.49842377 0.4975223  0.49103405 0.49844119 0.48808331
  0.49345789 0.51301596 0.51772255 0.50663727 0.50959861 0.49966073
  0.49000907 0.5113159  0.50427663 0.49784232 0.50504336 0.50088141
  0.49530099 0.49147545 0.51774671 0.50813994 0.50023683 0.50648372
  0.50439069 0.52283546 0.49519418 0.49622091 0.48673449 0.50341496
  0.52120517 0.4821559  0.51876391 0.49874233 0.48389197 0.52635353
  0.50017004 0.5103706  0.49357218 0.51052526 0.48732748 0.51014808
  0.50848585 0.50419509 0.48693157 0.52644287 0.49975255 0.51279725
  0.50983951 0.50288908 0.47350716 0.48283662 0.49525695 0.50690938
  0.51834134 0.50860574 0.49056575 0.5

### PCA

In [15]:
#PCA; La llamada de la funcion def runPCA(self, method='svd', **kwargs):
#El ejemplo lo describo con el método svd que es el usado por defecto
# Run SVD from the data matrix
data=xcs
pcs=lv

u, s, v = linalg.svd(data)

# Transform S from array to matrix with the corresponding dimensions
# in U and V
#Este punto no he conseguido obtener una comprensión profunda mas alla de lo que menciona
sdiag = np.diag(s)
s = np.zeros((u.shape[1], v.shape[0]))
s[:sdiag.shape[0], :sdiag.shape[1]] = sdiag

print "Las dimensiones de u: %s" % str(u.shape)

print "Las dimensiones de s: %s" % str(s.shape)

print "Las dimensiones de v: %s" % str(v.shape)


Las dimensiones de u: (500, 500)
Las dimensiones de s: (500, 100)
Las dimensiones de v: (100, 100)


In [16]:
t = np.dot(u, s)   #  ->u: Matriz de similaridad de fila-clase       
p = v.T         # ->v: Matriz de similaridad de columna-clase

scoresMatrix = t[:, :pcs]  # (Las dos pc's)
loadingsMatrix = p[:, :pcs] #M
model = np.dot(scoresMatrix, loadingsMatrix.T) #Matriz de 300x112
residualsMatrix = data - model #
eigengvaluesMatrix = s #¿Qué uso tiene?

print "La dimensiones de t son : %s" % str(t.shape)
print "Las dimensiones de p son: %s" % str(p.shape)
print "Las dimensiones de scoresMatrix son: %s" % str(scoresMatrix.shape)
print "Las dimensiones de loadingsMatrix son: %s" % str(loadingsMatrix.shape)
print "Las dimensiones de model son: %s" % str(model.shape)
print "Las dimensiones de residualsMatrix son: %s" % str(residualsMatrix.shape)
print "Las dimensiones de eigengvaluesMatrix son: %s" % str(eigengvaluesMatrix.shape)


La dimensiones de t son : (500, 100)
Las dimensiones de p son: (100, 100)
Las dimensiones de scoresMatrix son: (500, 2)
Las dimensiones de loadingsMatrix son: (100, 2)
Las dimensiones de model son: (500, 100)
Las dimensiones de residualsMatrix son: (500, 100)
Las dimensiones de eigengvaluesMatrix son: (500, 100)


## Calculamos los UCL's

In [17]:
#definido en model.py
alpha = 0.01


####Para el calculo de UCLD
phase=2
mspc=lv
npc=data.shape[0] #nº observaciones (300)

### UCL-D

In [18]:
####Calculo de los UCL's
#UCL-D
#Definición
#def computeUCLD(self,npc,nob,p_value,phase):
#llamada
#self._mspc.computeUCLD(self._lv, data.shape[0], self._alpha, self._phase)
'''
Parameters
        ----------
        npc: int 
            Number of PCs
        nob: int 
            Number of observations
        p_value: float 
            p-value of the test, in (0,1]
        phase: int 
            SPC phase
            1: Phase I
            2: Phase II
'''
#method_name = "computeUCLD()"
       
#importar
from scipy.stats import f as fisher

####Para el calculo de UCLD
phase=1
npc=lv
nob=data.shape[0]#nº observaciones (300)
p_value=alpha #El p_value vale 0.01 muy significativo. A más pequeño más significativo. Basicamente busca le decimos a q que busque anomalías en el p-value dado

        
if phase == 2:
   lim = (npc*(nob*nob-1.0)/(nob*(nob-npc)))*fisher.ppf(1-p_value,npc,nob-npc)
else:
   lim = (nob-1.0)**2/nob*beta.ppf(1-p_value,npc/2.0,(nob-npc-1)/2.0)
         
print "El valor de lim es: %s" %lim
   
# Check is the limit is and ndarray of [1x1] dimensions and get the float value
if isinstance(lim, np.ndarray):
   lim = lim[0,0]
            
# TODO: Sometimes after computations numpy takes UCLq as complex with 0j imaginary part
if isinstance(lim, complex):
   logging.warn("UCLd has a complex value of %s. Getting just the real part.",lim)
   lim = lim.real
            
UCLD=lim #Valor de ejemplo 9.416825881055232

print UCLD


El valor de lim es: 9.143920634316563
9.143920634316563


### UCL-Q

In [11]:
#definido en model.py
alpha = 0.01

####Para el calculo de UCLQ
res=residualsMatrix
p_value=alpha #El p_value vale 0.01 muy significativo. A más pequeño más significativo. Basicamente busca le decimos a q que busque anomalías en el p-value dado
# Rows of E matrix
N = res.shape[0] #300 observaciones
            
# rank of E
pcs_left = np.linalg.matrix_rank(res);#rango 110, este valor variará según la matriz utilizada
    
#
lambda_eig = np.linalg.eigvals((1.0/(N-1))*np.dot(res.T,res)) #Array de 112 valores, 
# Get the DESC order according to the ABS value of eigenvalues
lambda_eig = lambda_eig[np.abs(lambda_eig).argsort()[::-1]]        
    
theta1 = np.sum(lambda_eig[:pcs_left])
theta2 = np.sum(lambda_eig[:pcs_left]**2)
theta3 = np.sum(lambda_eig[:pcs_left]**3)
    
h0 = 1-((2*theta1*theta3)/(3*theta2**2))
    
z = norm.ppf(1-p_value)

UCLq = theta1*((z*np.sqrt(2*theta2*(h0**2))/theta1) + 1 + (theta2*h0*(h0-1)/(theta1**2)))**(1/h0)
#Comprobaciones para evitar errorewres
# Check is the limit is and ndarray of [1x1] dimensions and get the float value
if isinstance(UCLq, np.ndarray):
   UCLq = UCLq[0,0]
                
# TODO: Sometimes after computations numpy takes UCLq as complex with 0j imaginary part
if isinstance(UCLq, complex):
    logging.warn("UCLq has a complex value of %s. Getting just the real part.",UCLq)
    UCLq = UCLq.real

UCLQ=UCLq #valor de ejemplo 150.99231878043952

print UCLQ

8.965925860184758


## Cálculo de los estadísticos

### Q-st

In [12]:
#Comenzamos con el cálculo de Q-st
#Primero obtenemos un arry de 1x112
test=np.random.random((1,5))
#La preprocesamos, es una funcion distinta a la usada en la matriz de calibración
#Es decir media 0 y desviación 1 respecto la calibración
testMeanCenterting = test - np.dot(np.ones((test.shape[0],1)),average)
testAutoScaled = testMeanCenterting / (np.dot(np.ones((test.shape[0],1)),scale))
testcs = testAutoScaled
#Ahora comenzamos el cálculo del estadístico, ¿Qué necesitamos?
#self._mspc.computeQst(testcs, self._model.get_pca().getLoadings())
#La observación preporcesada y la matriz Loading del PCA

#def computeQst(self,testcs,P):
P=loadingsMatrix
#new scores from testcs and the loadings (Q) of the calibration model
t = np.dot(testcs,P)
# Model residuals from the observations in testcs
e = testcs - np.dot(t,np.transpose(P))
# Computes Q-statistics from the observations in testcs
Qst = np.sum(np.power(e,2),axis=1).reshape(testcs.shape[0],1);
#->Qst = 89.84502164

print Qst

[[0.51333785]]


### D-st

In [13]:
#Partiendo de las ejecuciones anteriores cn ya test definido e incluso
"""
Parameters
        ----------        
        testcs: numpy.ndarray
            [NxM] preprocessed billinear data set with the observations to be monitored.
        P: numpy.ndarray 
            [MxA] Matrix to perform the projection from the original to the latent subspace. 
            For PCA (testcs = T*P'), this is the matrix of loadings
        T: numpy.ndarray 
            [MxA] Matrix to perform the projection from the original to the latent subspace. 
            For PCA (testcs = T*P'), this is the matrix of scores
"""
testcs=testcs
P=loadingsMatrix
T=scoresMatrix
#new scores from testcs and the loadings (R) of the calibration model
t = np.dot(testcs,P)        
            
#inverse of the model calibration scores (T)
#Note: inv() method just allows at least 2D arrays 
t_cov = np.cov(T,rowvar=False)

try:
	invCT = np.linalg.inv(t_cov)
except LinAlgError:
	invCT = 1 / t_cov

#         if all(t_cov.shape):# True the shape tuple is empty
#             # When T has only one variable -> cov(T) computes the variance
#             invCT = 1 / t_cov
#         else:    
#             invCT = np.linalg.inv(t_cov)

dotAux = np.dot(t,invCT)

# Computes D-statistics from the observations in testcs
Dst = np.sum(np.multiply(dotAux,t),axis=1).reshape(testcs.shape[0],1);
            
# Check is the statistic is and ndarray of [1x1] dimensions and get the float value
if isinstance(Dst, np.ndarray):
	Dst = Dst[0,0]
            
# TODO: Sometimes after computations numpy takes UCLq as complex with 0j imaginary part
if isinstance(Dst, complex):
	logging.warn("Dst has a complex value of %s. Getting just the real part.",self._Dst)
	Dst = Dst.real
    
print Dst

2.774880354372762


En este punto tenemos calculado los UCL's correspondientes a una calibración y los estadísticos correspondientes a una observación. Para comprobar si tenermos una anomalía tan sólo debemos ver si ambos estadísticos se encuentran por debajo de sus UCL's respectivos.

## Diagnóstico

El punto ahora es poder obtener el origen de dicha anomalía para ello se aplica el método oMEDA calculando un vector de diagnóstico de la siguiente manera:

In [14]:
# Set up which observations are compared
dummy = np.zeros((1,test.shape[0]))
# We evaluate the observation 1
dummy[0,0] = 1

# Computes oMEDA
#self._mspc.computeoMEDA(testcs, dummy, self._model.get_pca().getLoadings())
if dummy.shape[0] == 1:
  dummy = dummy.T
                            
# To normalice the dummy vector [-1, 1]
if dummy[dummy > 0].size != 0:
  dummy[dummy > 0] = dummy[dummy > 0] / np.max(dummy[dummy > 0])


if dummy[dummy < 0].size != 0:
  dummy[dummy < 0] = (dummy[dummy < 0] / np.min(dummy[dummy < 0]))*(-1)
                  
xA = np.dot(np.dot(testcs,P),P.T);   
sumA = np.dot(xA.T,dummy);       
sumTotal = np.dot(testcs.T,dummy);        
            
oMEDA = ((2*sumTotal - sumA)*np.abs(sumA)) / np.sqrt(np.dot(dummy.T,dummy))

diagnosis_vec=oMEDA

diagnosis_vec

array([[-0.31102915],
       [ 0.76384637],
       [ 0.81820243],
       [ 0.31136717],
       [-1.25496098]])