<a href="https://colab.research.google.com/github/IsabeloCastillo/Regresion-lineal-multivariable-Funcion-de-coste/blob/main/M2U2_1_Funci%C3%B3n_de_coste_Isabelo_Castillo_Sanchez.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regresión lineal multivariable: Función de coste
M2U2 - Ejercicio 1

## ¿Qué vamos a hacer?
- Implementar la función de coste para regresión lineal multivariable

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

In [None]:
import numpy as np

## Tarea 1: Implementar la función de coste para regresión lineal multivariable no vectorizada

En esta tarea, debes implementar la función de coste para regresión lineal multivariable en Python. La función de coste debe seguir la función incluida en las diapositvas y en el manual del curso.

Para ello, primero rellena el código de la siguiente celda para implementar la función de coste no vectorizada.

Las diferencias entre una implementación vectorizada y no vectorizada son las siguientes:
- La vectorizada utiliza operaciones de álgebra lineal, de operaciones entre vectores/matrices.
- La no vectorizada se implementa con bucles de control for en Python, iterando entre las secuencias/listas de elementos uno a uno.
- La vectorizada utiliza Numpy, sus arrays ndarray y operaciones como np.matmul().
- La no vectorizada es menos eficiente, ya que no utiliza los métodos numéricos de Numpy sobre operaciones de C++.
- Sin embargo, la no vectorizada es bastante más sencilla de comprender en un primer momento, al ser Python puro, sin depender de otras funciones y dimensiones de vectores.

Recuerda la ecuación:

$$Y = h_\Theta(X) = X \times \Theta^T$$

$$J_\theta = \frac{1}{2m} \sum_{i = 0}^{m} (h_\theta(x^i) - y^i)^2$$

Para implementarla, sigue estos pasos:
1. Tómate un tiempo para revisar la ecuación y asegúrate que comprendes todas las operaciones matemáticas reflejadas en ella
1. Vuelve a ejercicios anteriores o revisa las diapositivas y anota en una hoja de papel (o celda auxiliar) las dimensiones de cada vector o matriz de la ecuación
1. Anota en dicho papel o celda auxiliar las operaciones de álgebra lineal paso a paso
    1. Comienza por sustituir $h_{\theta}$ en la 2ª ecuación por su valor de la 1ª
    1. La primera operación es hallar la $h_{\theta}$ o Y predicha para cada fila de X (multiplicándola por $\Theta$)
    1. La 2ª, restarle el valor de Y para dicho ejemplo/fila de X, hayando su residuo
    1. Luego elevar al cuadrado el resultado
    1. A continuación, sumar todos los cuadrados de los residuos para todos los ejemplos/filas de X
    1. Por último, dividirlos por 2 * m
1. Anota al lado de cada paso las dimensiones que debería tener su resultado. Recuerda que el resultado final de la función de coste es un escalar o número
1. Por último, piensa cómo iterar con bucles for por cada valor de X, $\Theta$ e Y para implementar la función de coste:
    1. Implementa la fórmula usando únicamente bucles for y la función sum() de la librería estándar de Python, sin usar métodos ni operadores de Numpy
    1. Itera por todas las filas o ejemplos de X (m filas)
    1. Dentro de dicho bucle, itera por las características o valores de X y $\Theta$ para calcular la Y predicha para dicho ejemplo
    1. Una vez hallados todos los residuos, halla el coste total

*Notas:*
- Los pasos mencionados son sólo una guía, una ayuda. En cada ejercicio, implementa tu código a tu manera, con el planteamiento que prefieras, utilizando el esquema de código de la celda o no
- No te preocupes demasiado por ahora por saber si funciona correctamente o no, puesto que en la siguiente tarea la comprobaremos. Si hubiera algún error, puedes volver a esta celda para corregir tu código.

# AQUI EMPEZAMOS CON LA TAREA 1 DEL EJERCICIO 1

### Paso 1: Estructura Básica de la Función

Este código establece la estructura básica de la función `cost_function_non_vectorized`:

- Define la función con los parámetros `x`, `y`, y `theta`.
- Inicializa `m` para almacenar el número de ejemplos de entrenamiento.
- Inicializa `total_error` para acumular el error total durante el cálculo.
- Prepara la función para retornar el valor promedio del error (coste) al final.

In [None]:
def calcular_costo(X, y, theta):
    """
    Calcular el costo para la regresión lineal utilizando la fórmula de la función de costo.
    Argumentos:
    X : array con forma (m x n+1), donde m es el número de ejemplos y n es el número de características.
        Se asume que la primera columna de X son unos para el término de intercepción.
    y : array con forma (m,), donde m es el número de ejemplos.
    theta : array con forma (n+1,), donde n es el número de características.
    Retorna:
    J : float, el costo.
    """
    m = len(y) # número de ejemplos de entrenamiento
    predicciones = X.dot(theta)
    errores_cuadrados = (predicciones - y) ** 2
    J = (1 / (2 * m)) * np.sum(errores_cuadrados)

    return J

# Uso del ejemplo:
# Supongamos que tenemos una característica y nuestro theta tiene dos valores (theta0 y theta1)
# X tendría la forma [m, 2] debido al término de intercepción (columna de unos)
# y tendría la forma [m,]

# Datos de ejemplo (vamos a crear algunos para la demostración)
X_ejemplo = np.array([[1, 1], [1, 2], [1, 3]])  # Añadiendo una columna de unos para el término de intercepción
y_ejemplo = np.array([2, 4, 6])
theta_ejemplo = np.array([0, 1])  # Solo un conjunto de parámetros de ejemplo

# Ahora calculamos el costo con nuestros datos de ejemplo
costo_ejemplo = calcular_costo(X_ejemplo, y_ejemplo, theta_ejemplo)
costo_ejemplo



2.333333333333333

### Paso 2: Calcular la Predicción para Cada Ejemplo

Este código añade la lógica para calcular la predicción de cada ejemplo de entrenamiento:

- Utiliza un bucle `for` para iterar sobre cada ejemplo en `x`.
- Dentro de este bucle, usa otro bucle `for` para iterar sobre cada característica y su correspondiente coeficiente en `theta`, calculando así la predicción del modelo para ese ejemplo.
- Calcula el error cuadrático para cada ejemplo y lo suma a `total_error`.


In [None]:
def cost_function_non_vectorized(x, y, theta):
    m = len(y)
    total_error = 0

    for i in range(m):  # Iterar sobre cada ejemplo de entrenamiento
        predicted_value = 0
        for j in range(len(theta)):  # Calcular la predicción para el i-ésimo ejemplo
            predicted_value += theta[j] * x[i][j]

        error = (predicted_value - y[i]) ** 2  # Calcular el error cuadrático
        total_error += error  # Sumar el error al total

    return total_error / (2 * m)


### Paso 3: Finalizar la Función y Retornar el Coste

Este código representa la función completa, incluyendo el cálculo final del coste:

- La estructura básica y el cálculo de la predicción para cada ejemplo ya están incluidos.
- La última línea calcula y retorna el coste promediado sobre todos los ejemplos.


In [None]:
def cost_function_non_vectorized(x, y, theta):
    m = len(y)
    total_error = 0

    for i in range(m):
        predicted_value = 0
        for j in range(len(theta)):
            predicted_value += theta[j] * x[i][j]

        error = (predicted_value - y[i]) ** 2
        total_error += error

    return total_error / (2 * m)


### Implementación según plantilla proporcionada

In [None]:
# TODO: Implementa la función de coste no vectorizada siguiendo la siguiente plantilla

def cost_function_non_vectorized(x, y, theta):
    """ Computa la función de coste para el dataset y coeficientes considerados.

    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n.
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)

    Devuelve:
    j -- float con el coste para dicho array theta
    """
    m = len(y)  # Número de ejemplos de entrenamiento
    total_error = 0

    # Iterar sobre cada ejemplo de entrenamiento
    for i in range(m):
        predicted_value = 0
        # Calcular la predicción para el i-ésimo ejemplo
        for j in range(len(theta)):
            predicted_value += theta[j] * x[i][j]

        # Calcular el error cuadrático para el i-ésimo ejemplo
        error = (predicted_value - y[i]) ** 2
        total_error += error

    # Calcular el coste total
    j = total_error / (2 * m)

    return j

## Tarea 2: Comprueba tu implementación

Para comprobar tu implementación, rescata tu código del notebook anterior acerca de datasets sintéticos para regresión lineal multivariable y utilízalos para generar un dataset en la siguiente celda:

# AQUI EMPEZAMOS CON LA TAREA 2 DEL EJERCICIO 1

### Generación de un Dataset Sintético para Regresión Lineal Multivariable

En esta sección, vamos a generar un dataset sintético que utilizaremos para comprobar nuestra implementación de la función de coste. El dataset incluirá un término de error para simular datos reales más de cerca.

- `m`: Número de ejemplos en el dataset.
- `n`: Número de características por ejemplo.
- `e`: Magnitud del término de error añadido a `Y`.

Usamos Numpy para generar valores aleatorios para `X` y `Theta_verd`, y luego calculamos `Y` utilizando estos valores con un término de error añadido. Finalmente, comprobamos y mostramos los valores y dimensiones de `X`, `Y` y `Theta_verd`.


In [None]:
import numpy as np

# Definir el número de ejemplos y características
m = 100  # Número de ejemplos
n = 3    # Número de características
e = 0.5  # Magnitud del término de error

# Generar valores aleatorios para X y Theta_verd
X = np.random.rand(m, n)
Theta_verd = np.random.rand(n)

# Generar valores para Y con un término de error
Y = X.dot(Theta_verd) + np.random.normal(0, e, m)

# Comprueba los valores y dimensiones (forma o "shape") de los vectores
print('Theta real a estimar:', Theta_verd)
print('\nPrimeras 10 filas y 5 columnas de X e Y:')
print('X:', X[:10, :5])
print('Y:', Y[:10])
print('\nDimensiones de X e Y:')
print('X shape:', X.shape)
print('Y shape:', Y.shape)


Theta real a estimar: [0.8849904  0.31553503 0.77674209]

Primeras 10 filas y 5 columnas de X e Y:
X: [[0.93647781 0.67629265 0.0863504 ]
 [0.17409125 0.12178217 0.29664099]
 [0.49455911 0.96336206 0.06760742]
 [0.59332632 0.18842713 0.3861471 ]
 [0.51822392 0.25150457 0.02195966]
 [0.18542588 0.30176933 0.96414522]
 [0.60160002 0.17834714 0.50661429]
 [0.54742644 0.600955   0.05313901]
 [0.43165565 0.76865501 0.5550893 ]
 [0.37249118 0.45358611 0.90094502]]
Y: [1.40984193 0.67365754 0.57925765 0.27153087 0.24617547 1.61296099
 0.83105529 1.30754864 0.64282236 1.19932497]

Dimensiones de X e Y:
X shape: (100, 3)
Y shape: (100,)


Ahora vamos a comprobar tu implementación de la función de coste en las siguientes celdas.

Recuerda que la función de coste representa el "error" de tu modelo, el sumatorio de los cuadrados de los resíduos del mismo.

Por ello, la función de coste tiene las siguientes características:
- No tiene unidades, por lo que no podemos saber si su valor es "demasiado alto o bajo", simplemente comparar los costes de dos modelos (conjuntos de $\Theta$) diferentes
- Tiene un valor de 0 para la $\Theta$ teóricamente óptima
- Sus valores siempre son positivos
- Tiene un valor más alto cuanto más se aleja la $\Theta$ utilizada de la $\Theta$ óptima
- Su valor crece con el cuadrado de los residuos del modelo

Por lo tanto, utiliza la siguiente celda para comprobar la implementación de tu función con diferentes $\Theta$, corrigiendo tu función si es necesario. Comprueba que:
1. Si la $\Theta$ es igual que la $\Theta_{verd}$ (obtenida al definir el dataset), el coste es 0
1. Si la $\Theta$ es distinta que la $\Theta_{verd}$, el coste es distinto a 0 y positivo
1. Cuanto más alejada está la $\Theta$ de la $\Theta_{verd}$, mayor es el coste (compruébalo con 3 $\Theta$ diferentes a $\Theta_{verd}$, en orden de menor a mayor)

*Nota:* Para ello, utiliza la misma celda, modificando sus variables varias veces.

### Comprobación de la Implementación de la Función de Coste

Para validar nuestra implementación de la función de coste, realizaremos pruebas con diferentes valores de `theta` y observaremos cómo varía el coste. Esto nos ayudará a confirmar si la función se comporta como se espera bajo diferentes condiciones.

- **Escenario 1:** Usamos `Theta_verd` para calcular el coste. Esperamos un valor de coste bajo, ya que `Theta_verd` fue usado para generar `Y`.
- **Escenario 2:** Modificamos ligeramente `Theta_verd` y calculamos el coste. Esperamos un valor de coste más alto que en el Escenario 1, pero aún razonablemente bajo.
- **Escenario 3:** Usamos un valor de `theta` significativamente diferente de `Theta_verd` y calculamos el coste. Aquí, esperamos un valor de coste considerablemente más alto, indicando un peor ajuste del modelo a los datos.


In [None]:
#TODO: Comprueba la implementación de tu función de coste

theta = Theta_verd    # Modifica y comprueba varios valores de theta

j = cost_function_non_vectorized(X, Y, theta)

print('Coste del modelo:')
print(j)
print('Theta comprobado y Theta real:')
print(theta)
print(Theta_verd)

Coste del modelo:
0.0877398792505858
Theta comprobado y Theta real:
[0.8849904  0.31553503 0.77674209]
[0.8849904  0.31553503 0.77674209]


In [None]:
# Escenario 1: Theta es igual a Theta_verd
theta = Theta_verd
j = cost_function_non_vectorized(X, Y, theta)
print('Coste con Theta igual a Theta_verd:', j)

# Escenario 2: Theta es ligeramente diferente de Theta_verd
theta = Theta_verd + np.array([0.1, 0, -0.1])
j = cost_function_non_vectorized(X, Y, theta)
print('Coste con Theta ligeramente diferente de Theta_verd:', j)

# Escenario 3: Theta es significativamente diferente de Theta_verd
theta = Theta_verd * 2
j = cost_function_non_vectorized(X, Y, theta)
print('Coste con Theta significativamente diferente de Theta_verd:', j)


Coste con Theta igual a Theta_verd: 0.0877398792505858
Coste con Theta ligeramente diferente de Theta_verd: 0.09060269125410927
Coste con Theta significativamente diferente de Theta_verd: 0.6735795395508286


## Tarea 3: Vectorizar la función de coste

Ahora vamos a implementar una nueva función de coste, pero en esta ocasión vectorizada.

Una función vectorizada es aquella que se realiza en base a operaciones de álgebra lineal, en lugar de p. ej. los bucles for utilizados en la primera función, y por tanto su computación es mucho más rápida y eficiente, más aún si se realiza en GPUs o procesadores especializados.

Implementa de nuevo la función de coste, pero esta vez utilizando exclusivamente las operaciones de álgebra lineal para operar con vectores/arrays de Numpy.

Consejos:
- Comprueba las dimensiones del resultado de cada operación o paso intermedio una a una si lo necesitas
- Intenta implementar la ecuación con el mínimo número de operaciones posibles, sin bucles ni iteraciones
- Utiliza funciones como [numpy.matmul()](https://numpy.org/doc/stable/reference/generated/numpy.matmul.html) o numpy.sum().
- Utiliza ndarray.reshape() para *theta* si te da algún problema en la multiplicación matricial, para conseguir un vector ndarray 2D (n+1, 1) en lugar de un 1D (n+1,)
- Asegúrate de devolver un valor *j* float, no un ndarray 2D con 1 solo elemento. Extráelo con sus índices si es necesario.

# AQUI EMPEZAMOS CON LA TAREA 3 DEL EJERCICIO 1

### Implementación de la Función de Coste Vectorizada

En esta sección, implementamos una versión vectorizada de la función de coste. A diferencia de la versión no vectorizada, esta implementación utiliza operaciones de álgebra lineal para realizar los cálculos de manera más eficiente.

- Utilizamos `np.dot()` para calcular el producto de matrices (o vectores).
- Evitamos bucles `for` y usamos operaciones sobre todo el array para calcular el coste.
- Finalmente, convertimos el resultado en un valor escalar usando `.item()`, asegurando que el valor devuelto sea de tipo `float`.

Esta versión de la función es más eficiente y es la forma preferida de implementar este tipo de cálculos en aplicaciones de aprendizaje automático, especialmente cuando se trabaja con grandes volúmenes de datos.


### Prueba de la Función de Coste No Vectorizada

Ahora que hemos implementado nuestra función de coste, es importante probarla para asegurarnos de que funciona correctamente. Para hacer esto, crearemos un pequeño conjunto de datos de prueba y utilizaremos estos datos para calcular el coste.

- **Datos de Prueba:** Crearemos un conjunto simple de datos `x_test` y `y_test`, junto con un vector inicial de coeficientes `theta_test`.
- **Llamada a la Función:** Utilizaremos estos datos de prueba para llamar a la función `cost_function_non_vectorized` y calcular el coste.
- **Resultado:** Imprimiremos el resultado para verificar si la función está calculando el coste como se espera.


In [None]:
def cost_function_vectorized(x, y, theta):
    """ Computa la función de coste para el dataset y coeficientes considerados.

    Argumentos posicionales:
    x -- array 2D de Numpy con los valores de las variables independientes de los ejemplos, de tamaño m x n
    y -- array 1D de Numpy con la variable dependiente/objetivo, de tamaño m x 1
    theta -- array 1D de Numpy con los pesos de los coeficientes del modelo, de tamaño 1 x n (vector fila)

    Devuelve:
    j -- float con el coste para dicho array theta
    """
    m = len(y)

    # Calculo de h_theta(X) = X * theta
    predictions = np.dot(x, theta)

    # Calculo del error (predicciones - y)
    error = predictions - y

    # Calculo del coste (error cuadrático)
    j = (1 / (2 * m)) * np.dot(error.T, error)

    return j.item()  # Convertir el resultado en un valor escalar (float)


In [None]:
x_test = [[1, 2], [1, 3], [1, 4], [1, 5]]  # Añadimos un 1 al inicio de cada ejemplo para el término independiente
y_test = [3, 6, 7, 10]
theta_test = [0.5, 1.5]

# Llamada a la función con datos de prueba
coste = cost_function_non_vectorized(x_test, y_test, theta_test)

# Imprimir el resultado
print("El coste calculado es:", coste)

El coste calculado es: 0.6875


Por último, vuelve a la tarea 2 y repite los mismos pasos para comprobar ahora tu función vectorizada.

### Comprobación de la Implementación de la Función de Coste Vectorizada

Al igual que en la tarea anterior, vamos a validar la implementación de nuestra función de coste vectorizada realizando pruebas con diferentes valores de `theta`. Estas comprobaciones nos ayudarán a confirmar si la función vectorizada se comporta como se espera bajo diferentes condiciones.

- **Escenario 1:** Usamos `Theta_verd` para calcular el coste con la función vectorizada. Esperamos un valor de coste bajo.
- **Escenario 2:** Modificamos ligeramente `Theta_verd` y calculamos el coste con la función vectorizada. Esperamos un valor de coste más alto que en el Escenario 1, pero aún razonablemente bajo.
- **Escenario 3:** Usamos un valor de `theta` significativamente diferente de `Theta_verd` y calculamos el coste con la función vectorizada. Aquí, esperamos un valor de coste considerablemente más alto.


In [None]:
# Escenario 1: Theta es igual a Theta_verd
theta = Theta_verd
j = cost_function_vectorized(X, Y, theta)
print('Coste con Theta igual a Theta_verd (función vectorizada):', j)

# Escenario 2: Theta es ligeramente diferente de Theta_verd
theta = Theta_verd + np.array([0.1, 0, -0.1])
j = cost_function_vectorized(X, Y, theta)
print('Coste con Theta ligeramente diferente de Theta_verd (función vectorizada):', j)

# Escenario 3: Theta es significativamente diferente de Theta_verd
theta = Theta_verd * 2
j = cost_function_vectorized(X, Y, theta)
print('Coste con Theta significativamente diferente de Theta_verd (función vectorizada):', j)


Coste con Theta igual a Theta_verd (función vectorizada): 0.08773987925058578
Coste con Theta ligeramente diferente de Theta_verd (función vectorizada): 0.09060269125410927
Coste con Theta significativamente diferente de Theta_verd (función vectorizada): 0.6735795395508284


# PRINCIPALES CONCLUSIONES


## Tarea 1: Implementación de la Función de Coste No Vectorizada

**Lo que Hicimos:**
- Implementamos una función de coste para regresión lineal multivariable utilizando bucles `for` en Python. Esta función calcula el coste o error de un conjunto de predicciones de un modelo de regresión lineal en comparación con los valores reales.

**Para Qué Sirvió:**
- Esta tarea sirvió para entender cómo se calcula el error en un modelo de regresión lineal y cómo se pueden utilizar estructuras básicas de programación (como bucles `for`) para realizar cálculos matemáticos complejos.
- Nos proporcionó una comprensión fundamental de cómo las operaciones matemáticas se traducen en código y cómo las decisiones de programación afectan el rendimiento y la claridad del código.

**Potencial Uso Futuro:**
- Esta comprensión básica es crucial para la depuración y el análisis detallado de modelos más complejos en el futuro.
- Te prepara para entender y modificar algoritmos de aprendizaje automático más avanzados, donde a menudo es necesario desglosar y entender procesos complejos.

## Tarea 2: Comprobación de la Función de Coste No Vectorizada

**Lo que Hicimos:**
- Generamos un dataset sintético y utilizamos la función de coste no vectorizada para calcular el coste con diferentes conjuntos de parámetros `theta`.
- Comprobamos cómo el coste varía en función de los cambios en los parámetros del modelo.

**Para Qué Sirvió:**
- Esta tarea nos ayudó a entender cómo los cambios en los parámetros del modelo afectan el rendimiento del modelo, medido a través del coste.
- Nos permitió ver la importancia de la selección de parámetros en los modelos de regresión y cómo un modelo bien ajustado minimiza el coste.

**Potencial Uso Futuro:**
- Las habilidades aprendidas aquí son directamente aplicables al ajuste y evaluación de modelos en aprendizaje automático.
- La capacidad de generar y trabajar con datasets sintéticos es útil para probar y validar algoritmos antes de aplicarlos a datos reales.

## Tarea 3: Implementación de la Función de Coste Vectorizada

**Lo que Hicimos:**
- Reimplementamos la función de coste utilizando operaciones de álgebra lineal de Numpy, lo que hizo que la función fuera mucho más eficiente.
- Probamos esta función vectorizada con los mismos datasets sintéticos para asegurarnos de que proporcionaba resultados consistentes.

**Para Qué Sirvió:**
- Esta tarea destacó la importancia y eficiencia de las operaciones vectorizadas en Python, especialmente cuando se trata de grandes conjuntos de datos.
- Nos mostró cómo la vectorización puede hacer que el código sea más conciso, más legible y significativamente más rápido.

**Potencial Uso Futuro:**
- Las habilidades de vectorización son esenciales en el campo del aprendizaje automático y la ciencia de datos, donde el manejo eficiente de grandes volúmenes de datos es crucial.
- Esta comprensión nos ayudará a escribir código más eficiente y a utilizar bibliotecas de Python de manera más efectiva para el análisis de datos y el aprendizaje automático.

## Conclusión General

Estas tareas nos han proporcionado una base sólida en algunos de los aspectos fundamentales del aprendizaje automático: implementación de funciones matemáticas en código, comprensión de la importancia de la eficiencia computacional y vectorización, y cómo diferentes parámetros afectan el rendimiento de un modelo. Estas habilidades son transferibles a una amplia gama de problemas en la ciencia de datos y el aprendizaje automático, y nos servirán bien en futuros proyectos y estudios en este campo.
