## Derivadas $f'(x)$


Una derivada es una medida de cómo cambia una función en respuesta a pequeños cambios en su variable independiente. En términos más simples, la derivada de una función te dice cómo cambia el valor de esa función a medida que cambia el valor de su entrada.

Para una función $f(x)$, la derivada $f'(x)$ (también escrita como $\frac{{df}}{{dx}}$) representa la tasa de cambio instantánea de $f$ con respecto a $x$. Puedes pensar en esto como la pendiente de la tangente a la curva de la función en un punto dado.

Por ejemplo, si tienes una función que representa la posición de un objeto en función del tiempo, su derivada con respecto al tiempo te daría la velocidad del objeto en cada momento dado. Si tomas la derivada de la velocidad, obtendrías la aceleración, que representa cómo cambia la velocidad en función del tiempo.

La derivada también puede interpretarse geométricamente como la pendiente de la recta tangente a la curva en un punto dado. Una derivada positiva indica que la función está aumentando en ese punto, una derivada negativa indica que está disminuyendo, y una derivada cero indica un punto estacionario o un máximo/mínimo local.

Las derivadas son fundamentales en el cálculo y tienen numerosas aplicaciones en física, ingeniería, economía y muchas otras áreas donde se estudian fenómenos que cambian continuamente.


In [10]:
import sympy as sym

x, y, z = sym.symbols('x y z')

# Define the function f
f = x**2 + 2*y**2 + 10*y*z - 5*z

derivada_x = sym.diff(f,x)
derivada_y = sym.diff(f,y)
derivada_z = sym.diff(f,z)

print(derivada_x)
print(derivada_y)
print(derivada_z)

2*x
4*y + 10*z
10*y - 5


# Gradiente $\nabla$

La "gradiente" es un concepto que se aplica específicamente a funciones de múltiples variables. Cuando trabajas con una sola variable, usas el término "derivada" para indicar cómo cambia la función con respecto a esa variable.

Derivada: Se refiere al cambio instantáneo de una función de` una sola variable` respecto a esa variable.
Gradiente: Se refiere al vector que contiene las derivadas parciales de una función de `múltiples variables` respecto a cada una de esas variables.



Encuentra el gradiente de una función de dos argumentos:



In [22]:
import sympy as sym

x, y= sym.symbols('x y')

# Define the function f
f = 2*x**2 + 3*y - 5*x + 20


derivada_x = sym.diff(f,x)
derivada_y = sym.diff(f,y)


gradiente = ([derivada_x, derivada_y])

print(gradiente)

[4*x - 5, 3]


Encuentra el gradiente de una función de tres argumentos:

In [23]:
import sympy as sym

x, y, z = sym.symbols('x y z')

f = 3*x**2 + 2*y**2 + 3*x*y -3*z


derivative_x = sym.diff(f,x)
derivative_y = sym.diff(f,y)
derivative_z = sym.diff(f,z)

print( [derivative_x,derivative_y, derivative_z])

[6*x + 3*y, 3*x + 4*y, -3]


In [25]:
import sympy as sym

x= sym.symbols('x')

# Define the function f
f = (x-5)**2


derivada_x = sym.diff(f,x)

gradiente = ([derivada_x])

print(gradiente)

[2*x - 10]


# Descenso de gradiente

El descenso de gradiente es un algoritmo de optimización utilizado para encontrar el mínimo de una función. Es particularmente útil en el contexto de problemas de optimización, como el entrenamiento de modelos de aprendizaje automático, donde queremos minimizar una función de pérdida.

El objetivo del descenso de gradiente es encontrar el mínimo local o global de una función f(x) mediante iteraciones sucesivas, donde en cada iteración ajustamos el valor de x en la dirección y magnitud adecuadas para reducir la función f(x) lo más posible.

El algoritmo funciona de la siguiente manera:

1. Comenzamos con un punto inicial $x^0$.
2. Calculamos el gradiente de la función f en el punto $x^0$, que nos indica la dirección y magnitud del mayor cambio positivo de la función en ese punto.
3. Ajustamos x^0 en la dirección opuesta al gradiente multiplicado por un tamaño de paso μ (llamado tasa de aprendizaje o tamaño de paso), para obtener el siguiente punto $x^1$.
4. Repetimos el proceso desde el paso 2 con el nuevo punto $x^1$, hasta que se cumpla algún criterio de detención, como un número máximo de iteraciones o una tolerancia en la convergencia.

La fórmula general para el descenso de gradiente es:

$x^{n+1} = x^n - \mu \nabla f(x^n)$

Donde:
- $x^n$ es el punto en la n-ésima iteración.
- $x^{n+1}$ es el punto en la (n+1)-ésima iteración.
- $\mu $ es el tamaño de paso (tasa de aprendizaje).
- $ \nabla f(x^n)$ es el gradiente de la función f evaluado en el punto x^n.

La formula de descenso de gradiente a traves de matrices es:

$\nabla ECM (Xw , y) = \frac{2}{n}X^T(Xw-y) $ 


In [5]:
import sympy as sym

x = sym.symbols('x')

f = (x-10)**2

derivative_x = sym.diff(f,x)

print( [derivative_x])


[2*x - 20]


In [3]:
# Funcion

def f(x):
    return (x-10)**2

# Derivada

def df(x):
    return 2*(x-10)

# Tamaño del paso
mu = 0.4

# Valor inicial de x
x = 0
count = 0
loss= 1

while loss > 0.00001:
    loss= f(x)
    x = x- mu * df(x)
    print(f'Iteración {count+1}: x = {x} y loss = {loss:.6f}')
    count += 1

print(f'Valor final de x:{x:.2f}')
print(f'Valor final de perdida:{loss:.10f}')
print(f'Counts:{count}')

Iteración 1: x = 8.0 y loss = 100.000000
Iteración 2: x = 9.6 y loss = 4.000000
Iteración 3: x = 9.92 y loss = 0.160000
Iteración 4: x = 9.984 y loss = 0.006400
Iteración 5: x = 9.9968 y loss = 0.000256
Iteración 6: x = 9.99936 y loss = 0.000010
Iteración 7: x = 9.999872 y loss = 0.000000
Valor final de x:10.00
Valor final de perdida:0.0000004096
Counts:7


In [28]:
# Definición de la función de pérdida
def f(x):
    return (x - 10) ** 2

# Derivada de la función de pérdida
def df(x):
    return 2 * (x - 10)

# Tamaño del paso
mu = 0.4

# Valor inicial de x
x = 0


# Iteraciones de descenso de gradiente
for i in range(4):
    # Calcula el valor de la función de pérdida
    loss = f(x)
    
    # Actualiza x utilizando el descenso de gradiente
    x = x - mu * df(x)
    
    # Imprime el valor de x y de la función de pérdida en esta iteración
    print(f"Iteración {i+1}: x = {x}, pérdida = {loss}")

# Imprime el resultado final
print("Valor final de x:", x)
print("Valor final de la función de pérdida:", f(x))


Iteración 1: x = 8.0, pérdida = 100
Iteración 2: x = 9.6, pérdida = 4.0
Iteración 3: x = 9.92, pérdida = 0.16000000000000028
Iteración 4: x = 9.984, pérdida = 0.006400000000000012
Valor final de x: 9.984
Valor final de la función de pérdida: 0.0002560000000000005


In [7]:
import sympy as sym

x, y = sym.symbols('x y')

f = (x+y-1)**2 + (x-y-2)**2

derivada_x = sym.diff(f,x)
derivada_y = sym.diff(f,y)

derivada = [derivada_x,derivada_y]

print(derivada)

[4*x - 6, 4*y + 2]


In [13]:
import numpy as np


def func(x):
    return (x[0] + x[1] - 1) ** 2 + (x[0] - x[1] - 2) ** 2


def gradient(x):
    return np.array([4 * x[0] - 6, 4* x[1] + 2])

        
print(gradient([0, 0]))
print(gradient(np.array([0.5, 0.3])))



[-6  2]
[-4.   3.2]


In [3]:
import numpy as np
import math

X = np.array([[4,5,2,3],[2,5,2,5],[2,5,7,8]])
y = np.array([0,1,0]).reshape(3,-1)
w = np.array([.6,.4,.2,.2]).reshape(4,-1)

X.T @ (X @ w -y)

array([[41.2],
       [76. ],
       [61.4],
       [83.8]])

In [40]:

X_conc = np.concatenate((np.ones((X.shape[0], 1)), X), axis=1)
    #  X = np.concatenate((np.ones((X.shape[0], 1)), X), axis=1)

X_conc




array([[1., 1., 1., 4., 5., 2., 3.],
       [1., 1., 1., 2., 5., 2., 5.],
       [1., 1., 1., 2., 5., 7., 8.]])

In [53]:
# np.concatenate(np.ones((X.shape[0],1)),X, axis=1)


nb = np.ones(((X.shape[0],1)))

X_conc = np.concatenate((nb,X),axis=1)

X_conc

np.concatenate(((np.zeros((X.shape[0],1))), X) , axis=1)

array([[0., 1., 1., 4., 5., 2., 3.],
       [0., 1., 1., 2., 5., 2., 5.],
       [0., 1., 1., 2., 5., 7., 8.]])

# Algoritmo DGE

El Descenso de Gradiente Estocástico (SGD, por sus siglas en inglés) es un algoritmo de optimización utilizado en el aprendizaje automático para entrenar modelos. Es una variante del método de descenso de gradiente clásico que utiliza una sola muestra de datos (o un pequeño lote de muestras) seleccionadas al azar en cada paso de iteración, en lugar de usar todo el conjunto de datos para calcular el gradiente.

El algoritmo SGD es útil cuando se trabaja con conjuntos de datos grandes, ya que el cálculo del gradiente en cada paso solo requiere una pequeña fracción del conjunto de datos. Además, la aleatoriedad introducida por el muestreo estocástico puede ayudar al algoritmo a escapar de mínimos locales y alcanzar mínimos globales más rápidamente.



In [None]:
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error

# Supongamos que tienes tus datos de entrenamiento en X_train y y_train,
# y los datos de prueba en X_test y y_test.

# Crear un pipeline que estandarice los datos y luego aplique SGDRegressor
model = make_pipeline(StandardScaler(), SGDRegressor(max_iter=1000, tol=1e-3))

# Entrenar el modelo
model.fit(X_train, y_train)

# Hacer predicciones
predictions_train = model.predict(X_train)
predictions_test = model.predict(X_test)

# Calcular el error cuadrático medio
mse_train = mean_squared_error(y_train, predictions_train)
mse_test = mean_squared_error(y_test, predictions_test)

print("Error cuadrático medio en conjunto de entrenamiento:", mse_train)
print("Error cuadrático medio en conjunto de prueba:", mse_test)
