# Regresion multivariada

Supongamos que tenemos un conjunto de caracteristicas $X = X_1,X_2...X_j...X_n$ para realizar una  predicción $y$ con valores esperados $\hat{y}$.  

Cada X, puede ser escrito como:
 $X_1 = x_1^{(1)},x_1^{(2)}, x_1^{(3)}...x_1^{(m)}$,

 $X_2 = x_2^{(1)},x_2^{(2)}, x_2^{(3)}...x_2^{(m)}$,

 .

 .

 .

 $X_n = x_n^{(1)},x_n^{(2)}, x_n^{(3)}...x_n^{(m)}$.


Siendo n el número de caracteristicas y m el número de datos de datos,
$\hat{y} = \hat{y}_1^{(1)}, \hat{y}_1^{(2)}...\hat{y}_1^{(m)} $, el conjunto de datos etiquetados  y $y = y_1^{(1)}, y_1^{(2)}...y_1^{(m)} $ los valores predichos por un modelo




Lo anterior puede ser resumido  como:



|Training|$\hat{y}$      | X_1  | X_2  |  .  | .|. |. | X_n|
|--------|-------|------|------|-----|--|--|--|----|
|1|$\hat{y}_1^{1}$ | $x_1^{1}$|$x_2^{1}$| .  | .|. |. | $x_n^{1}$|
|2|$\hat{y}_1^{2}$ | $x_1^{2}$|$x_2^{2}$| .  | .|. |. | $x_n^{2}$|
|.|.         | .        |.| .  | .|. |. | |
|.|.         | .        |.| .  | .|. |. | |
|.|.         | .        |.| .  | .|. |. | |
|m|$\hat{y}_1^{m}$ | $x_1^{m}$  |$x_2^{m}$| .  | .|. |. | $x_n^{m}$|


y el el modelo puede ser ajustado como sigue:

Para un solo conjunto de datos de entrenamiento tentemos que:

$y = h(\theta_0,\theta_1,\theta_2,...,\theta_n ) = \theta_0 + \theta_1 x_1+\theta_2 x_2 + \theta_3 x_3 +...+ \theta_n x_n $.

$$

\begin{equation}
h_{\Theta}(x) = 
[\theta_0,\theta_1,\ldots,\theta_n]
\begin{bmatrix}
1\\
x_1\\
x_2\\
\vdots\\
x_n
\end{bmatrix}
= \Theta^T X
\end{equation}

$$

Para todo el conjunto de datos, tenemos que:

Sea $\Theta^T = [\theta_0,\theta_1,\theta_2,...,\theta_n]$ una matrix $1 \times (n+1)$ y  


\begin{equation}
X =
\begin{bmatrix}
1& 1 & 1 & .&.&.&1\\
x_1^{(1)}&x_2^{(1)} & x_3^{(1)} & .&.&.&x_m^{1}\\
.&. & . &.&.&.& .\\
.&. & . & .&.&.&.\\
.&. & . & .&.&.&.\\
x_1^{(n+1)}&x_2^{(n+1)} & x_3^{(n+1)} & .&.&.&x_m^{(n+1)}\\
\end{bmatrix}_{(n+1) \times m}
\end{equation}




luego $h = \Theta^{T} X $ con dimension $1\times m$




La anterior ecuación, es un hiperplano en $\mathbb{R}^n$. Notese que en caso de tener una sola característica, la ecuación puede ser análizada según lo visto en la sesión de regresion lineal.


Para la optimización, vamos a definir la función de coste **$J(\theta_1,\theta_2,\theta_3, ...,\theta_n )$** , como la función  asociada a la minima distancia entre dos puntos, según la metrica euclidiana.

- Metrica Eculidiana

\begin{equation}
J(\theta_1,\theta_2,\theta_3, ...,\theta_n )=\frac{1}{2m} \sum_{i=1}^m ( h_{\Theta} (X)-\hat{y}^{(i)})^2 =\frac{1}{2m} \sum_{i = 1}^m (\Theta^{T} X - \hat{y}^{(i)})^2
\end{equation}

Otras métricas pueden ser definidas como sigue en la siguiente referencia.  [Metricas](https://jmlb.github.io/flashcards/2018/04/21/list_cost_functions_fo_neuralnets/).

Nuestro objetivo será encontrar los valores mínimos
$\Theta = \theta_0,\theta_1,\theta_2,...,\theta_n$ que minimizan el error, respecto a los valores etiquetados y esperados $\hat{y}$


Para encontrar $\Theta$ optimo, se necesita  minimizar la función de coste, que permite obtener los valores más cercanos,  esta minimización podrá ser realizada a través de diferentes metodos, el más conocido es el gradiente descendente.








## Gradiente descendente

Consideremos la función de coste sin realizar el promedio  de funcion de coste:
\begin{equation}
\Lambda^T =
\begin{bmatrix}
(\theta_0 1 + \theta_1 x_1^1+\theta_2 x_2^2 + \theta_3 x_3^3 +...+ \theta_n x_n^n - \hat{y}^{1})^2 \\
(\theta_0 1+ \theta_1 x_1^1+\theta_2 x_2^2 + \theta_3 x_3^3 +...+ \theta_n x_n^n - \hat{y}^{2})^2\\
.\\
.\\
.\\
(\theta_0 1 + \theta_1 x_1^m+\theta_2 x_2^m + \theta_3 x_3^m +...+ \theta_n x_n^m - \hat{y}^{m})^2\\
\end{bmatrix}
\end{equation}

$\Lambda= [\Lambda_1,\Lambda_2, ...,\Lambda_m]$

$J = \frac{1}{2m} \sum_{i}^m \Lambda_i $

El gradiente descente, puede ser escrito como:

\begin{equation}
\Delta \vec{\Theta} =  - \alpha \nabla J(\theta_0, \theta_1,...,\theta_n)
\end{equation}

escogiendo el valor j-esimo tenemos que:

\begin{equation}
\theta_j :=  - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_j}
\end{equation}

Aplicando lo anterior a a función de coste asociada a la métrica ecuclidiana, tenemos que:

Para $j = 0$,


\begin{equation}
\theta_0 :=  - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_0} = \frac{1}{m}\alpha \sum_{i=1}^m (\theta_j X_{ji} - \hat{y}^{(i)}) 1
\end{equation}



Para $0<j<n $

\begin{equation}
\theta_j :=  - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_j} = \frac{1}{m} \alpha\sum_{i=1}^m (\theta_{j} X_{ji} - \hat{y}^{(i)}) X_j
\end{equation}

donde X_j es el vector de entrenamiento j-esimo.

Lo  anterior puede ser generalizado como siguem, teniendo presente que $X_0 = \vec{1}$


Para $0\leq j<n$,

\begin{equation}
\theta_j :=  - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_j} = \frac{1}{m} \alpha\sum_{i=1}^m (\theta_j X_{ji} - \hat{y}^{(i)}) X_j
\end{equation}



# Vectorizando el grandiente descendete, tenemos que:
\begin{equation}
\nabla J = \Lambda^T X
\end{equation}

Luego:

\begin{equation}
\Theta=\Theta-\alpha \nabla J
\end{equation}


In [22]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Laboratorio 04
Objetivo: Programar una regresión multivariada


1. Para simular un conjunto de características $x_1$ , $x_2$,..., $x_n$ trabajaremos en la primera parte con dos características de datos aleatorios que presentan un plano y mostraremos que los párametros optimizados se corresponden con el valor esperado.

- Definir la ecuación  $y = 2.1*x_1 - 3.1*x_2$, y generar números aleatorios que pertenecen al plano.

- Realizar un diagrama 3D de los puntos generados aleatoriamente.


Nuestro objetivo será encontrar los valores $\theta_0 = 0, \theta_1=2.1, \theta_1=3.1$ que mejor ajustar el plano, empleando cálculos vectorizados.


In [23]:
y = lambda x_1, x_2: 2.1*x_1 - 3.1*x_2 + np.random.normal(0, 0.1)

n = 50
# Create input values X as numpy arrays
X_1 = np.random.random(n) * 20 - 10  # Rango entre -10, 10
X_2 = np.random.random(n) * 20 - 10
X = np.column_stack([X_1, X_2])  # Stack as columns using numpy
Y = y(X_1, X_2)

# Plot generated data
fig = px.scatter_3d(x=X_1, y=X_2, z=Y, title='3D Scatter Plot of Generated Data')
fig.show()



2. Inicializar conjunto de parámetros $\Theta$ de manera aleatoria.







In [24]:
Theta = np.random.random(3)  # theta_0, theta_1, theta_2
Theta

array([0.45917029, 0.7750707 , 0.49142816])

3. Construir la matrix X con dimensiones $(n+1, m)$, m es el numero de datos de entrenamiento y (n) el número de caracteristicas.




In [36]:
X = np.array([X_1, X_2])
X = np.vstack([np.ones(X.shape[1]), X])
X.shape

(3, 100)

In [37]:
X

array([[ 1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1.        ,  1.        ,
         1.        ,  1.        ,  1.        ,  1. 

4. Calcular la función de coste(revise cuidosamente las dimensiones de cada matriz):

  - $h = \Theta^{T} X $
  - $\Lambda= (h -Y) $
  - $\Lambda*= (h -Y)^2 $
  - $\Lambda= [\Lambda_1,\Lambda_2, ...,\Lambda_m]$
  - $J = \frac{1}{2m} \sum_{i}^m \Lambda_i $



In [26]:
m = X.shape[1]       # Number of samples
h = np.dot(Theta, X) # Lineal model 
Y = Y.reshape(1, -1)  

error = h - Y
lmd = np.square(error) 
J = np.sum(lmd) / (2 * m)  # Loss function


5. Aplicar el gradiente descendente:
  - Encontrar el gradiente.
    $\nabla J = \Lambda X.T$
  
  - Actualizar los nuevos parametros:    $ \Theta_{n+1}=\Theta_{n}-\alpha\nabla J$




In [27]:
grad_J = np.array((1/m) * np.dot(error, X.T))
grad_J

array([[  3.25711496, -36.02769507, 115.51227652]])

In [28]:
alpha = 0.5
Theta = Theta - alpha*grad_J

6. Iterar para encontrar los valores $\Theta$ que se ajustan el plano.

In [29]:
Theta = np.random.random(3) * 0.1  
alpha = 0.01 # Learnigng rate


for iteration in range(100):  
    h = np.dot(Theta, X) # Linear model 
    
    # Error and loss function
    error = h - Y
    lmd_squared = np.square(error)
    J = np.sum(lmd_squared) / (2 * m)
    
    # Descending gradient
    grad_J = (1/m) * np.dot(error, X.T)
    Theta = Theta - alpha * grad_J
    
    # Break if converges
    if J < 1e-6:
        break

Theta

array([[-0.08745668,  2.10025843, -3.10041545]])

7. Reescribir su código como una clase (ver ayuda)

In [None]:
class MultilinearRegresion():
    """
    Multiple Linear Regression model using Gradient Descent
    """
    
    def __init__(self, X, Y):
        """
        Initialize the model
        
        Parameters:
        -----------
        X : numpy array, shape (n_features, m_samples)
            Input features matrix
        Y : numpy array shape (n_samples,)
            Target values
        """
        n = X.shape[0]  # number of features
        m = X.shape[1]  # number of samples

        # Add bias column. X -> shape (n+1) × m
        self.X_ = np.vstack([np.ones(m), X])
        self.Y_ = Y
        
        # Initialize parameters randomly
        self.Theta_ = np.random.random(n+1)
        
    def model(self):
        """Calculate model predictions: h = Θ.t X"""
        self.h_ = np.dot(self.Theta_, self.X_)
    
    def loss(self):
        """Calculate cost function (mse)"""
        m = self.X_.shape[1]
        self.J_ = np.sum((self.h_ - self.Y_)**2) / (2 * m)

    def upgrade_params(self, alpha):
        """
        Update parameters using gradient descent
        
        Parameters:
        -----------
        alpha : float
            Learning rate
        """
        m = self.X_.shape[1]
        error = self.h_ - self.Y_
        grad = (1/m) * np.dot(error, self.X_.T) # Calculate gradient
        self.Theta_ -= (alpha * grad)            # Update parameters
    
    def fit(self, alpha=0.5, error=1e-6, max_iter=100, verbose=False):
        """
        Train the model using gradient descent
        
        Parameters:
        -----------
        alpha : float, default=0.5
            Learning rate
        error : float, default=1e-6
            Convergence threshold
        max_iter : int, default=100
            Maximum iterations
        """
        for i in range(max_iter):
            self.model()
            self.loss()
            self.upgrade_params(alpha)

            if self.J_ < error:
                break
        if verbose:
            print(f"Training completed in {i} iterations. Final J = {self.J_:.6f}")
    
    def predict(self, x):
        """
        Make predictions for new data
        
        Parameters:
        -----------
        x : array-like, shape (n_features, n_samples) or (n_features,)
            Input data for prediction
            
        Returns:
        --------
        array
            Model predictions
        """
        
        if x.ndim == 1:                                     # Ensure correct shape
            x = x.reshape(-1, 1)
        
        x_with_bias = np.vstack([np.ones(x.shape[1]), x])   # Add bias column
        return self.Theta_ @ x_with_bias                    # Make prediction

    def get_params(self):
        """
        Get the current parameter values (Theta) of the model.

        Returns
        -------
        array
            The coefficients (including bias) learned by the model.
        """
        return self.Theta_

y = lambda x_1, x_2: 5*x_1 - 1*x_2 + np.random.normal(0, 0.1) + 2
n = 100
X_1 = np.random.random(n) * 20 - 10  
X_2 = np.random.random(n) * 20 - 10

X = np.array([X_1, X_2])
Y = y(X_1, X_2)  

model = MultilinearRegresion(X, Y)
model.fit(alpha=0.01)

Theta = model.get_params()


In [143]:
# Gráfico 3D del plano vs los puntos
import plotly.graph_objects as go

# Obtener los parámetros theta
theta_0, theta_1, theta_2 = Theta

# Crear una malla para el plano
x1_range = np.linspace(X_1.min(), X_1.max(), 20)
x2_range = np.linspace(X_2.min(), X_2.max(), 20)
X1_mesh, X2_mesh = np.meshgrid(x1_range, x2_range)

# Calcular el plano usando los parámetros theta
Y_plane = theta_0 + theta_1 * X1_mesh + theta_2 * X2_mesh

# Crear la figura 3D
fig = go.Figure()

# Agregar los puntos de datos
fig.add_trace(go.Scatter3d(
    x=X_1,
    y=X_2,
    z=Y,
    mode='markers',
    marker=dict(size=3, color='red', opacity=0.8),
    name='Datos'
))

# Agregar el plano de regresión
fig.add_trace(go.Surface(
    x=X1_mesh,
    y=X2_mesh,
    z=Y_plane,
    colorscale='Blues',
    opacity=0.6,
    name='Plano de regresión'
))

# Configurar el layout
fig.update_layout(
    title='Plano de Regresión vs Puntos de Datos',
    scene=dict(
        xaxis_title='X₁',
        yaxis_title='X₂',
        zaxis_title='Y'
    ),
    width=800,
    height=600
)

fig.show()
