### Programa de Estudios Superiores 2019-2020
### Programación I - proyecto final
#### Elaborado por <span class="alert alert-info"> ***Hugo Leonel Orellana Alfaro*** </span><br>
***
***Instrucciones generales:*** resuelve el siguiente problema de acuerdo a la especificación dada. 
- El código debe ir comentado para explicar la lógica y debe ser totalmente funcional para ser considerado correcto. De lo contrario, la calificación podrá ser subjetiva.
- Al final de la definición de la clase, obtenga una instancia y muestra que el objeto se comporta de acuerdo a las especificaciones deseadas, para poder calificarte más rápidamente.
***

# Estimador de desviación estándar *leave-one-out (LOO)* 

Considere un conjunto de datos $(x_{1i}, \ldots, x_{6i})$ y $y_i$, donde $i = 1, \ldots, n$. A partir de este conjunto, es posible estimar el modelo de regresión lineal:

$$ y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \beta_3 x_{3i}+ \beta_4 x_{4i}+ \beta_5 x_{5i}+ \beta_6 x_{6i}$$ 

el cual puede expresarse en forma matricial como $y = X\beta$, donde $\beta$ corresponde al vector de parámetros del modelo.

En cierta ocasión, un profesor de econometría se encontraba estudiando nuevas formas de obtener estimadores para la varianza de los parámetros muestrales. Después de mucho pensar, este ingenioso profesor resulta con un método de estimación denominado *leave-one-out estimator* (estimador de "deja uno afuera") que consiste en un proceso iterativo con el conjunto de datos: 

1. Para cada $i$ en el conjunto de datos:  

    - Se elimina temporalmente la observación $i$ del conjunto para obtener el conjunto "modificado" $X_{-i}$.
    
    - Se estima el modelo de regresión lineal resultante $y^* = X_{-i}\beta$
    
    - Se guarda el resultado del parámetro $\beta^{(i)}$ de interés, donde $i$ denota que $\beta$ se estimó sin la observación $i$. 
    
2. Al final del proceso iterativo, se estima la desviación estándar del conjunto $\lbrace\beta^{(1)}, ..., \beta^{(n)}\rbrace$ para obtener el estimador LOO del parámetro.

A continuación, se muestra una imagen representativa del proceso iterativo sobre el conjunto de datos. En cada iteración, se estima con las muestras en blanco y se elimina temporalmente la observación en gris.

![Leave-One-Out-Cross-Validation.png](attachment:Leave-One-Out-Cross-Validation.png) 

Después de ocurrírsele este método al profesor, se dió cuenta que no sabía cómo llevar a cabo este proceso iterativo, ya que su habitual programa (software) de trabajo no permitía este tipo de procedimientos. Sin embargo, el profesor se recordó de su brillante amigo, que ha llevado recientemente un curso de programación en Python, y decide pedirle ayuda con esta tarea. Cuando el profesor contacta a su amigo, éste le dice que está muy cansado debido al curso que recién ha tomado, sin embargo, el profesor insiste en pedir su ayuda. 

Finalmente, después de recordar viejos tiempos y la invitación a un par de cervezas, el profesor logra convencer a su amigo de que lo ayude. Para esto, su amigo piensa resolver este problema a través de la implementación de una clase de Python. 

## Descripción de la clase

El amigo del profesor va a implementar la solución a través de la clase `looEstimation` de la siguiente forma:

- Al crear un objeto de esta clase, el constructor debe recibir el conjunto de datos `data`, cuya primera columna será de unos, luego estarán las variables $x$ y finalmente, la última columna corresponde a la variable $y$.

Además, deberá implementar los siguientes métodos:

- Método `estimate`, que lleve a cabo el proceso de estimación sobre una matriz $X$ y vector $y$ para estimar todos los parámetros del modelo, los cuales devolverá como un arreglo de numpy.

- Método `looSD`, que utilizará el método anterior sobre los datos guardados en el constructor y llevará a cabo el proceso iterativo $\lbrace\beta^{(1)}, ..., \beta^{(n)}\rbrace$. Finalmente, devolverá la desviación estándar del conjunto de parámetros.
    - Se deben guardar los parámetros de cada iteración en alguna estructura (pandas o ndarray) para ser consumidos por los siguientes métodos.
    
- Método `plotDistribution`, que realizará una gráfica del histograma para cada uno de los diferentes parámetros del modelo.
    - Deberá agregar una opción booleana savePlots para escoger si guardar las gráficas en un formato de alta calidad (pdf, png).
    
- Método `getParameters`, que devolverá un `DataFrame` con los parámetros estimados en cada iteración del proceso.
    - Permite el parámetro booleano `saveCSV` para determinar si se debe guardar este `DataFrame` en un archivo CSV.

<div class="alert alert-info">
<b>Importe los paquetes que sean necesarios</b>: <br>


</div>

In [2]:
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import pandas as pd

<div class="alert alert-info">
<b>Escriba su código en la celda siguiente</b>: <br>


</div>

In [172]:
class looEstimation:
    ''' 
        Recibe el conjunto de datos `data`, cuya primera columna será 
        de unos, luego estarán las variables $x$ y finalmente, la última
        columna corresponde a la variable $y$.
    '''
    def __init__(self, data):
        self.data = np.load('data.npy')
        self.x = data[::,:7]
        igu = data[::,7]
        self.y=igu[:,None]
        
    '''
        lleve a cabo el proceso de estimación sobre una matriz $X$ y 
        vector $y$ para estimar todos los parámetros del modelo, los 
        cuales devolverá como un arreglo de numpy
    '''
    def estimate(self):
        xt=(self.x).T #Proporciona la matriz transpuesta de "x"
        xTx=xt@self.x #Realiza la operación de matriz transpuesta de "x"  por la matriz de "x"
        betas=np.linalg.inv(xTx)@xt@self.y #Devuelve los betas de la regresión lineal
        B0=betas[0]#Para fines de estética cada variable 'beta' representa el indice de la matriz de betas
        B1=betas[1]#Ejemplo betas[0] representa el B0 de la matriz de betas.
        B2=betas[2]
        B3=betas[3]
        B4=betas[4]
        B5=betas[5]
        B6=betas[6]
        #return "Los betas obtenidos son: ", betas
        return "Los betas obtenidos son: ""B0:"+str(B0)+ ",B1:"+str(B1)+ ",B2:"+str(B2)+",B3:"+str(B3)\
        +",B4:"+str(B4)+",B5:"+str(B5)+",B6:"+str(B6)\
        
       
    '''
        Utiliza el método estimate sobre los datos guardados en el constructor 
        y llevará a cabo el proceso iterativo. Se deben guardar los parámetros 
        de cada iteración en alguna estructura (pandas o ndarray) para 
        ser consumidos por los siguientes métodos.
    '''
    def looSD(self):
        self.betas=np.zeros((7,1)) #Variable que recibira los resultados de los betas en cada escenario
        estim=self.data #Variable que es una copía del archivo data recibido
        n = 0 #Variable que es un contador la cual principia en 0
        for i in range(50): # i irá tomando valores del 0 hasta el 49
            if i == 0: #Cuando i =0 no sucede nada
                pass
            elif i == 1: #Procedimiento que se ejecuta cuando i es igual a 1
                mat = estim[1:50, ]#Selecciona de la matriz data la fila 1 a la 50, excluye la fila 0
                X = mat[::,:7] #Procedimiento de estimación lineal
                I = mat[::,7]
                Y = I[:,None]
                XT = X.T
                XTX = XT@X
                BETAS = np.linalg.inv(XTX)@XT@Y
                #print(np.hstack((self.betas,BETAS))) #Anexa las betas obtenidas a la variable self.betas
                self.betas= np.vstack((self.betas, BETAS))
            elif i > 1 and i < 49: #Procedimiento que se ejecuta Cuando i va de 2 a 48
                a = estim[0:n,:] #Crea una matriz que va desde la fila 0 hasta la fila que tenga el valor de n, 
                #de la matriz data
                b = estim[i:50, ]#Crea una matriz que va desde la fila i hasta la fila 50, de la matriz data
                mat = np.vstack((a,b)) #Concatena las matrices a y b
                X = mat[::,:7]#Procedimiento de estimación lineal
                I = mat[::,7]
                Y = I[:,None]
                XT = X.T
                XTX = XT@X
                BETAS = np.linalg.inv(XTX)@XT@Y
                #print(np.hstack((self.betas,BETAS)))
                self.betas= np.vstack((self.betas, BETAS))
                n += 1
                
            elif i==49: #Cuando i vale 49 toma la matriz de data desde la fila 0 hasta la 49
                mat = estim[0:49, ]
                X = mat[::,:7]#Procedimiento de estimación lineal
                I = mat[::,7]
                Y = I[:,None]
                XT = X.T
                XTX = XT@X
                BETAS = np.linalg.inv(XTX)@XT@Y
                #print(np.hstack((self.betas,BETAS)))
                self.betas= np.vstack((self.betas, BETAS))
        return self.betas
                
        
    
    '''
        Realiza una gráfica del histograma para cada uno de los diferentes
        parámetros del modelo. La opción booleana savePlots sirve para escoger 
        si guardar las gráficas en un formato de alta calidad (pdf, png).
    '''
    def plotDistribution(self, savePlots=False):
        handler = ejer.plot.scatter('Variable X','Variable Y') #Impresión de la gráfica
        handler.get_figure().savefig('graficaplot.pdf', dpi=60)
        pass
    
    '''
        Devuelve un `DataFrame` con los parámetros estimados en cada iteración 
        del proceso. Permite el parámetro booleano `saveCSV` para determinar si 
        se debe guardar este `DataFrame` en un archivo CSV.
    '''
    def getParameters(self):
        pass

In [79]:
data = np.load('data.npy')
estim = looEstimation(data)
estim.estimate()

'Los betas obtenidos son: B0:[-0.69171456],B1:[0.28512965],B2:[0.47337168],B3:[0.67131171],B4:[2.07406304],B5:[1.52740284],B6:[1.733444]'

In [173]:
data = np.load('data.npy')
estim = looEstimation(data)
estim.looSD()

array([[ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [-0.70271448],
       [ 0.27831498],
       [ 0.47896714],
       [ 0.67569743],
       [ 2.06795334],
       [ 1.51640107],
       [ 1.73909175],
       [-0.71054513],
       [ 0.27758277],
       [ 0.48054068],
       [ 0.67450738],
       [ 2.06867815],
       [ 1.51714997],
       [ 1.74111418],
       [-0.59825725],
       [ 0.28763966],
       [ 0.4668263 ],
       [ 0.66865646],
       [ 2.073153  ],
       [ 1.50364364],
       [ 1.75229274],
       [-0.55817205],
       [ 0.2861463 ],
       [ 0.46341116],
       [ 0.6710424 ],
       [ 2.0758641 ],
       [ 1.50207449],
       [ 1.74439326],
       [-0.62296268],
       [ 0.28677022],
       [ 0.47348021],
       [ 0.66953811],
       [ 2.07667338],
       [ 1.52875381],
       [ 1.71851067],
       [-0.69181314],
       [ 0.28291406],
       [ 0.46930408],
       [ 0

***
## Área de pruebas personal

Utilice el siguiente espacio para llevar a cabo **sus** pruebas.


In [12]:
# Se proporciona el archivo de datos para trabajar
# (1's, x1, x2, x3, x4, x5, x6, y)
data = np.load('data.npy')
data.shape


(50, 8)

In [98]:
data = np.load('data.npy')
#Es importante indicar que dicho archivo de texto puede tener
#una cantidad ilimitada de filas, pero por fuerza debe tener 8 columnas.
#print("La matriz a analizar es: ")
#print(data)
x=data[::,:7] #Selecciona las primeras 6 columnas de la matriz que contiene los datos de la regresión
igu=data[::,7]#Selecciona la última columna de la regresión (igualdades), pero las regresa como fila
y=igu[:,None]#Convierte en columna los valores de "y"
xt=x.T #Proporciona la matriz transpuesta de "x"
xTx=xt@x #Realiza la operación de matriz transpuesta de "x"  por la matriz de "x"
betas=np.linalg.inv(xTx)@xt@y #Devuelve los betas de la regresión lineal
resultado_y=x@betas
print("Los betas de la regresión son: ")
print(betas)
print("La comprobación de y es: ")
print(resultado_y)

Los betas de la regresión son: 
[[-0.69171456]
 [ 0.28512965]
 [ 0.47337168]
 [ 0.67131171]
 [ 2.07406304]
 [ 1.52740284]
 [ 1.733444  ]]
La comprobación de y es: 
[[33.27187507]
 [44.98615472]
 [33.03775959]
 [37.58983614]
 [22.28292028]
 [49.38308596]
 [26.34832803]
 [31.65525816]
 [49.20190355]
 [36.14684381]
 [46.50432302]
 [39.89933946]
 [21.18261069]
 [39.26066635]
 [38.77714796]
 [41.53573603]
 [29.46655469]
 [40.11173792]
 [46.49736131]
 [15.49969015]
 [34.54016468]
 [44.74355565]
 [20.88885039]
 [30.16872714]
 [40.56437059]
 [32.26562283]
 [30.0440993 ]
 [31.65448001]
 [43.88409218]
 [27.14791531]
 [37.66582288]
 [33.76435156]
 [15.3669255 ]
 [39.59516556]
 [58.43809989]
 [42.82429854]
 [30.92851958]
 [17.60508648]
 [44.2651255 ]
 [43.6385089 ]
 [19.41793402]
 [38.51524111]
 [37.95032603]
 [40.38942921]
 [46.8962282 ]
 [24.32391754]
 [45.23620443]
 [49.73115548]
 [18.63798091]
 [56.59011585]]


In [28]:
betas=np.linalg.inv(xTx)@xt@y
betas[6]

array([1.733444])

In [109]:
data = np.load('data.npy')

print(data)

#np.delete(data,0,axis=0) #Comando que sirve para eliminar una fila entera
a = data[1:50:] 
b = data[2:50, ]
#mat = np.vstack((a,b))
print("a es")
print(a)

[[1.00000000e+00 1.60000000e+01 1.00000000e+00 3.00000000e+00
  5.71817495e+00 5.74296768e+00 3.62430396e+00 3.48212567e+01]
 [1.00000000e+00 5.00000000e+00 1.90000000e+01 0.00000000e+00
  7.21603202e+00 3.05135780e+00 9.01730965e+00 4.48058921e+01]
 [1.00000000e+00 1.10000000e+01 3.00000000e+00 5.00000000e+00
  5.35482202e+00 5.25215933e-01 8.02328755e+00 3.10873586e+01]
 [1.00000000e+00 1.90000000e+01 1.80000000e+01 0.00000000e+00
  1.50374100e+00 3.07021641e+00 9.53886385e+00 3.79931544e+01]
 [1.00000000e+00 1.90000000e+01 1.30000000e+01 0.00000000e+00
  2.81754392e+00 3.08919454e+00 4.85237186e-01 2.14124204e+01]
 [1.00000000e+00 3.00000000e+00 0.00000000e+00 1.10000000e+01
  6.93762736e+00 8.65858590e+00 8.20375946e+00 4.73197688e+01]
 [1.00000000e+00 1.30000000e+01 1.90000000e+01 3.00000000e+00
  1.52413420e+00 6.58181466e-01 4.70675807e+00 2.67119935e+01]
 [1.00000000e+00 1.30000000e+01 0.00000000e+00 0.00000000e+00
  9.66361272e+00 3.30264797e+00 2.04960263e+00 3.29510878e+01]


In [102]:
a = data[0:1:] 
b = data[2:50, ]
mat = np.vstack((a,b))
mat

array([[1.00000000e+00, 1.60000000e+01, 1.00000000e+00, 3.00000000e+00,
        5.71817495e+00, 5.74296768e+00, 3.62430396e+00, 3.48212567e+01],
       [1.00000000e+00, 1.10000000e+01, 3.00000000e+00, 5.00000000e+00,
        5.35482202e+00, 5.25215933e-01, 8.02328755e+00, 3.10873586e+01],
       [1.00000000e+00, 1.90000000e+01, 1.80000000e+01, 0.00000000e+00,
        1.50374100e+00, 3.07021641e+00, 9.53886385e+00, 3.79931544e+01],
       [1.00000000e+00, 1.90000000e+01, 1.30000000e+01, 0.00000000e+00,
        2.81754392e+00, 3.08919454e+00, 4.85237186e-01, 2.14124204e+01],
       [1.00000000e+00, 3.00000000e+00, 0.00000000e+00, 1.10000000e+01,
        6.93762736e+00, 8.65858590e+00, 8.20375946e+00, 4.73197688e+01],
       [1.00000000e+00, 1.30000000e+01, 1.90000000e+01, 3.00000000e+00,
        1.52413420e+00, 6.58181466e-01, 4.70675807e+00, 2.67119935e+01],
       [1.00000000e+00, 1.30000000e+01, 0.00000000e+00, 0.00000000e+00,
        9.66361272e+00, 3.30264797e+00, 2.04960263e+00, 3.

In [184]:
betas=np.zeros((7,1)) #Variable que recibira los resultados de los betas en cada escenario
estim=np.load('data.npy') #Variable que es una copía del archivo data recibido
n = 0 #Variable que es un contador la cual principia en 0
for i in range(50): # i irá tomando valores del 0 hasta el 49
    if i == 0: #Cuando i =0 no sucede nada
        pass
    elif i == 1: #Procedimiento que se ejecuta cuando i es igual a 1
        mat = estim[1:50, ]#Selecciona de la matriz data la fila 1 a la 50, excluye la fila 0
        X = mat[::,:7] #Procedimiento de estimación lineal
        I = mat[::,7]
        Y = I[:,None]
        XT = X.T
        XTX = XT@X
        BETAS = np.linalg.inv(XTX)@XT@Y
        betas =np.block([[betas],[BETAS]])
        #betas =np.block((betas,BETAS))
    elif i > 1 and i < 49: #Procedimiento que se ejecuta Cuando i va de 2 a 48
        a = estim[0:n,:] #Crea una matriz que va desde la fila 0 hasta la fila que tenga el valor de n, 
        #de la matriz data
        b = estim[i:50, ]#Crea una matriz que va desde la fila i hasta la fila 50, de la matriz data
        mat = np.vstack((a,b)) #Concatena las matrices a y b
        X = mat[::,:7]#Procedimiento de estimación lineal
        I = mat[::,7]
        Y = I[:,None]
        XT = X.T
        XTX = XT@X
        BETAS = np.linalg.inv(XTX)@XT@Y
        betas =np.block([[betas],[BETAS]])
        #betas =np.block((betas,BETAS))
        n +=1
    elif i==49: #Cuando i vale 49 toma la matriz de data desde la fila 0 hasta la 49
        mat = estim[0:49, ]
        X = mat[::,:7]#Procedimiento de estimación lineal
        I = mat[::,7]
        Y = I[:,None]
        XT = X.T
        XTX = XT@X
        BETAS = np.linalg.inv(XTX)@XT@Y
        betas =np.block([[betas],[BETAS]])
betas

array([[ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [-0.70271448],
       [ 0.27831498],
       [ 0.47896714],
       [ 0.67569743],
       [ 2.06795334],
       [ 1.51640107],
       [ 1.73909175],
       [-0.71054513],
       [ 0.27758277],
       [ 0.48054068],
       [ 0.67450738],
       [ 2.06867815],
       [ 1.51714997],
       [ 1.74111418],
       [-0.59825725],
       [ 0.28763966],
       [ 0.4668263 ],
       [ 0.66865646],
       [ 2.073153  ],
       [ 1.50364364],
       [ 1.75229274],
       [-0.55817205],
       [ 0.2861463 ],
       [ 0.46341116],
       [ 0.6710424 ],
       [ 2.0758641 ],
       [ 1.50207449],
       [ 1.74439326],
       [-0.62296268],
       [ 0.28677022],
       [ 0.47348021],
       [ 0.66953811],
       [ 2.07667338],
       [ 1.52875381],
       [ 1.71851067],
       [-0.69181314],
       [ 0.28291406],
       [ 0.46930408],
       [ 0

***
## Área de pruebas para calificación

Utilice el siguiente espacio para mostrarnos su implementación terminada.

<div class="alert alert-info">
<b>Pruebe el método "estimate"</b>: <br>
</div>

In [185]:
data = np.load('data.npy')
estim = looEstimation(data)
estim.estimate()

'Los betas obtenidos son: B0:[-0.69171456],B1:[0.28512965],B2:[0.47337168],B3:[0.67131171],B4:[2.07406304],B5:[1.52740284],B6:[1.733444]'

<div class="alert alert-info">
<b>Pruebe el método "looSD"</b>: <br>
</div>

In [186]:
data = np.load('data.npy')
estim = looEstimation(data)
estim.looSD()

array([[ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [-0.70271448],
       [ 0.27831498],
       [ 0.47896714],
       [ 0.67569743],
       [ 2.06795334],
       [ 1.51640107],
       [ 1.73909175],
       [-0.71054513],
       [ 0.27758277],
       [ 0.48054068],
       [ 0.67450738],
       [ 2.06867815],
       [ 1.51714997],
       [ 1.74111418],
       [-0.59825725],
       [ 0.28763966],
       [ 0.4668263 ],
       [ 0.66865646],
       [ 2.073153  ],
       [ 1.50364364],
       [ 1.75229274],
       [-0.55817205],
       [ 0.2861463 ],
       [ 0.46341116],
       [ 0.6710424 ],
       [ 2.0758641 ],
       [ 1.50207449],
       [ 1.74439326],
       [-0.62296268],
       [ 0.28677022],
       [ 0.47348021],
       [ 0.66953811],
       [ 2.07667338],
       [ 1.52875381],
       [ 1.71851067],
       [-0.69181314],
       [ 0.28291406],
       [ 0.46930408],
       [ 0

<div class="alert alert-info">
<b>Pruebe el método "plotDistribution"</b>: <br>
</div>

<div class="alert alert-info">
<b>Pruebe el método "getParameters"</b>: <br>
</div>

<div class="alert alert-info">
<b>Muestre cada uno de los atribujos del objeto utilizado en el ejemplo</b>: <br>
</div>