Lamentablemente GitHub no soporta la sintaxis que use para escribir ecuaciones matemáticas en Markdown, así que les dejo los apuntes en Notion para que puedan visualizar las ecuaciones sin problema.
- Curso de Matemáticas para Data Science: Cálculo Básico
- 📚 Módulo 1. Introducción
- 📚 Módulo 2. Funciones y límites
- Clase 3. ¿Qué es una función?
- Clase 5. Dominio y rango de una función
- Clase 6. Cómo programar funciones algebraicas
- Clase 7. Cómo programar funciones trascendentes
- Clase 8. ¿Cómo manipular funciones?
- Clase 9. Funciones dentro de otras funciones
- Clase 10. Características de las funciones
- Clase 11. ¿Cómo se compone una neurona?
- Clase 12. Funciones de activación en una neurona
- Clase 13. Función de coste: calcula qué tan erradas son tus predicciones
- Clase 14. ¿Qué es un límite?
- 📚 Módulo 3. Cálculo diferencial
- 📚 Módulo 4. Cálculo multivariable
- 📚 Módulo 5. Proyecto: descenso del gradiente
Realizar operaciones de una manera dada para llegar a un resultado.
-
Cálculo aplicado a cantidades muy pequeñas, que son casi cero. Esto se aplica por ejemplo cuando las funciones y sus valores tienen razones de cambio que se aproximan a cero.
-
Estudia la tasa de cambio de las funciones cuando esos cambios son muy pequeños (se aproximan a cero). Su principal herramienta es la derivada. En otras palabras parte de una función y realiza una derivada.
Este rama del cálculo tiene muchas aplicaciones en Data Science.
-
Al derivar una función se obtiene una función nueva, en el cálculo integral se hace el proceso inverso para obtener la función original. En otras palabras parte de una derivada para obtener una función más una constante.
Una función es una regla en la que a cada elemento de un conjunto A se le asigna un elemento de un conjunto B.
Una función no es una relación, ya que a cada elemento de un conjunto A se le asigna un elemento de un conjunto B. Son valores exclusivos.
y = variable dependiente
x = variable independiente
⬆ A cada letra del conjunto x se le va a asignar un número diferente del conjunto y.
No se puede asignar a dos elementos del conjunto x el mismo elemento del conjunto y.
-
"A cada letra del abecedario se le asigna un número diferente".
"El precio aumenta en 2 USD por cada km recorrido".
-
Se representan los datos de x y y en una tabla:
-
ℹ Nota: se pueden ejecutar todas las celdas de un Notebook en Colab con Ctrl + F9
Son los valores que toma x y están definidos en la función f(x). En otras palabras son los valores que puede recibir la función, todos los valores de x que puede recibir la función y que respetan la regla impuesta en la misma.
Son todos los resultados que puede dar una función.
Si se ejemplificaran los conceptos anteriores con una máquina que prepara café:
Del tipo de grano de café que se ingrese a la máquina (dominio) depende el tipo de café que preparará la máquina (rango). De la misma manera la máquina sólo puede recibir café como ingrediente, si se ingresa algo diferente esta se puede estropear, esto ejemplifica el concepto de los valores posibles de x que cumplen con la regla definida en la función.
Dominio, codominio y rango Hay nombres especiales para lo que puede entrar, y también para lo que puede salir de una función:
- Lo que puede entrar en una función se llama el dominio
- Lo que es posible que salga de una función se llama el codominio
- Lo que en realidad sale de una función se llama rango o imagen
Toda función que se puede definir con una serie de polinomios o una relación de álgebra.
-
Funciones lineales
Tienen la forma
$$f(x) = mx + b$$ Donde
$m$ es la pendiente$m$ puede ser calculada como la diferencia entre$y_{2} - y_{1}$ ($y_{2}$ es un punto sobre la recta y$y_{1}$ es un punto menor) sobre la diferencia entre$x_{2}$ entre$x_{1}$ .$b$ es el punto en que la línea corta al eje$y$ . Este parámetro es opcional.$m$ y$b$ $\in R$ ($m$ y$b$ pertenecen a los números reales)ℹ Nota: imagen (
$Im$ ) es otro nombre que se puede usar para referirse al rangox = np.linspace(-10, 10, num=res)
linspace
genera una serie de puntos en un rango y los guarda en un array. El primer parámetro es el inicio, el segundo es el final y el tercero es la cantidad de elementos -
Funciones polinómicas
Son básicamente funciones que tienen la forma de un polinomio.
-
Funciones potencia
Son un caso especial de las funciones polinómicas.
-
A diferencia de las funciones algebraicas las funciones trascendentes no se pueden definir con una serie se polinomios. Algunos ejemplos de este tipo de funciones son las funciones trigonométricas, las funciones exponenciales, las funciones logarítmicas y las funciones seccionadas.
np.zeros(len(X))
Crea una lista que va contener la cantidad de ceros que se le pasen por parámetro.
Alterar los parámetros de entrada para mover la función a la derecha, a la izquierda, subirla, bajarla, hacerle una reflexión, alargarla o comprimirla.
Estos movimientos son muy útiles pues en ocasiones hay operaciones en las que se necesita normalizar datos o meterlos en un rango que por ejemplo vaya de -1 a 1 (estas 2 cosas son muy comunes en Data Science).
Gracias a esto se puede partir de una función conocida, hacerle diferentes manipulaciones y al final dar con una función que explique como se modelan determinados datos.
Composición = funciones dentro de otras funciones
Explicación con un ejemplo:
Se quiere hacer una máquina que sea capaz de hacer pasteles. La máquina funciona en 2 etapas, en la primera se elige el sabor y se crea el pan que sirve de base para el pastel, en la segunda se toma la base que se crea en el primer paso y se le agrega una cobertura y la decoración.
La composición funciona de la misma manera. Se tiene una variable x (sabor), se pasa esta variable a una función g (la máquina que hace la base) y el resultado de esta función (la base terminada) se pasa después a una función f (la máquina que hace la decoración).
La Composición es en esencia ese proceso en el que se pasa una variable a una función y lo que sale de esa función se pasa por parámetro a otra.
La composición se puede representar de las siguientes maneras.
Funciones Reales
Se llaman así porque tanto su dominio como el codominio (rango o imagen) están contenidos dentro del conjunto de los números reales, es decir el conjunto que contiene a los números racionales e irracionales. En otras palabras cualquier número que se te ocurra que no sea imaginario.
Características de las funciones Reales
-
Función par
Una función es par si cumple con la siguiente relación a lo largo de su dominio:
Esta relación dice que una función es par si es simétrica al eje vertical (eje Y). Por ejemplo, una parábola es una función es par.
-
Función impar Una función es impar si cumple la siguiente relación a lo largo de su dominio:
Esta relación indica que una función es impar si es simétrica al eje horizontal (eje X). Por ejemplo, una función cúbica es impar.
-
Función acotada
Una función es acotada si su codominio (también conocido como rango o imagen) se encuentra entre dos valores, es decir, está acotado. Esta definición se define como que hay un número m que para todo valor del dominio de la función se cumple que:
Por ejemplo, la función seno o coseno están acotadas en el intervalo [-1, 1] dentro de su co-dominio.
-
Funciones monótonas
Estas funciones son útiles de reconocer o analizar debido a que nos permiten saber si una función crece o decrece en alguno de sus intervalos. Que algo sea monótono significa que no tiene variaciones. Entonces las funciones monótonas son aquellas que dentro de un intervalo I, perteneciente a los números reales, cumple alguna de estas propiedades:
- La función es monótona y estrictamente creciente:
Si para todo x1 y x2 que pertenecen al intervalo I, tal que x1 sea menor a x2, si y solo si f(x1) sea menor a f(x2). En palabras mucho más sencillas, lo que nos dice esta definición es que x1 siempre tiene que ser menor que x2 en nuestro intervalo I, y que al evaluar x2 en la función el resultado de esto siempre será mayor que si evaluamos la función en x1. Para las siguientes tres definiciones restantes no cambia mucho la forma en la que se interpretan.
-
Funciones periódicas
Las funciones periódicas son aquellas que se repiten cada cierto periodo, este periodo se denomina con la letra T. La relación que debe cumplir la función para ser periódica es la siguiente.
Por ejemplo, la función seno y coseno son funciones periódicas con un periodo T = 2π. Es decir que si nosotros calculamos f(x) y calculamos f(x + 2π) en la función seno el valor que nos den ambas expresiones es el mismo.
-
Funciones cóncavas y convexas
La forma de demostrar la concavidad de una función se puede hacer a través del análisis de derivadas consecutivas (a través del análisis de la segunda derivada), no obstante hay un método más intuitivo que consiste en analizar la gráfica de la función.
Se dice que una función dentro de un intervalo es cóncava si la función “abre hacia arriba”. Es decir si se ve la siguiente manera:
Ahora, ¿qué sería una función convexa? Pues es lo contrario de una cóncava. Se dice que una función dentro de un intervalo es convexa si la función “abre hacia abajo”. Es decir si se ve la siguiente manera:
Una neurona es una parte fundamental de una red neuronal. Básicamente es una forma fancy de referirse a una función. Estas necesitan recibir estímulos al igual que ocurre con las neuronas biológicas. Dichos "estímulos" se usan para hacer una suma ponderada dentro de la función
Componentes de una Neurona:
Las funciones de activación se encargan de activar o desactivar las neuronas dependiendo del valor de entrada, por ejemplo si el valor es muy alto o muy bajo. Estas funciones se representan con la letra φ (fi).
Los valores de entrada pasan a la neurona y luego el resultado de esto pasa a la función de activación. Esta regresa un resultado más normalizado (0 - 1, -1 - 1, etc) dependiendo de la función de activación que se utilice.
Si se mira desde el punto de vista de las gráficas de las funciones, la neurona regresa un gráfico lineal que luego la función de activación convierte en un gráfico no lineal. Esto es útil porque en el mundo real es muy poco probable que los datos sean lineales, puesto que lo común es que estén dispersos.
Algunas funciones de activación
-
Función escalón de Heaviside: También conocida como función de paso escalonado o escalón binario.
Fórmula:
Grafica
-
Función Sigmoide: Es una función muy usada en el mundo del Data Science y el ML esto se debe que dadas sus características es muy útil en el calculo de probabilidades. La función sigmoide transforma los valores introducidos a una escala (0,1), donde los valores altos tienen de manera asintótica a 1 y los valores muy bajos tienden de manera asintótica a 0. No obstante no importa que tan grandes sean los valores, estos nunca llegaran a ser 0 ó 1 como tal. Esta función se suele representar con el símbolo
$\sigma$ (sigma)Fórmula:
Código:
import numpy as np import matplotlib.pyplot as plt import math N = 100 x = np.linspace(-10,10,num=N) z= 1/(1 + np.exp(-x)) fig, ax = plt.subplots() ax.plot(x,z) ax.axhline(y=0, color='red') ax.axvline(x=0, color='red') plt.grid()
Gráfica:
El punto del medio es exactamente 0.5.
El rango de esta función es:
$R = (0, 1)$ Los paréntesis indican un intervalo abierto es decir que el rango esta entre 0 y 1 pero nunca alcanza a ser 0 ó 1 como tal. -
Función tangente hiperbólica: Se suele representar como
$\tanh$ . Es la relación del seno hiperbólico al coseno hiperbólico:$tannhx = sinhx / cosh$ . A diferencia de la Función Sigmoide, el rango normalizado de tanh es de (−1,1) . La ventaja de tanh es que puede manejar más fácilmente los números negativos.Fórmula:
Código:
import numpy as np import matplotlib.pyplot as plt import math N = 100 x = np.linspace(-5,5,num=N) z= (np.exp(x) - np.exp(-x))/(np.exp(x) + np.exp(-x)) fig, ax = plt.subplots() ax.plot(x,z) ax.axhline(y=0, color='black') ax.axvline(x=0, color='black') plt.grid()
Gráfica:
-
Función ReLU o Rectificación lineal
(Rectified Linear Unit) Las funciones de Rectificado lineal son transformaciones que activan un nodo sólo si la entrada está por encima de una cierta cantidad. Mientras la entrada es inferior a cero, la salida es cero, pero cuando la entrada supera un cierto umbral, tiene una relación lineal con el dependiente variable. Esta función muy usada en redes convolucionales y Deep Learning.
Fórmula:
0 para
$x <= 0$ $x$ para$x > 0$ El rango de esta función es:
$R = [0, \infty)$ Código:
import numpy as np import matplotlib.pyplot as plt deff(x): y = np.zeros(len(x)) for idx,x in enumerate(x): if x >= 0: y[idx] = x return y x = np.linspace(-10, 10, num=100) y= f(x) fig, ax = plt.subplots() ax.plot(x,y) # ax.axhline(y=0, color='black') ax.axvline(x=0, color='black') ax.grid()
Gráfica:
Los puntos representan la relación entre el gasto en publicidad y las ventas en una empresa(
Para calcular que tan alejados están los datos reales de la predicción hay que calcular el error:
Para normalizar el valor del error en un número positivo y además "castigar" dicha diferencia haciendo que el error sea más pequeño si la diferencia es pequeña y viceversa se eleva la diferencia entre la predicción y los datos reales al cuadrado.
El anterior sería el valor del error en uno solo de los puntos, para calcular el error de todos los datos y condensarlo en un sólo valor se usa la siguiente fórmula:
Esta es la ecuación del Error Cuadrático Medio, una ecuación muy usada en el Data Science. Su nombre se debe a que parte desde un error, lo eleva al cuadrado y finalmente se saca un promedio. Esta es una función de coste de las más sencillas que hay, aunque no es la única función de coste que existe. Una función de coste representa que tan alejada esta la predicción con respecto a los datos reales.
El límite evaluá que pasa si se toma un punto A y se aproxima este hasta un punto B. En otras palabras los límites describen cómo se comporta una función cerca de un punto, en vez de en ese punto. Esta simple pero poderosa idea es la base de todo el cálculo.
Por ejemplo si se tiene la función
El límite de
Por ejemplo, si partimos del punto (1,3) y nos movemos en la gráfica hasta estar muy cerca de
Similarmente, si empezamos en (5,7) y nos movemos a la izquierda hasta estar muy cerca de
Por estas razones, decimos que el límite de
Tal vez te preguntes cuál es la diferencia entre el límite de
Y sí, el límite de
Tal como con
Así que el límite de
Esa es la belleza de los límites: no dependen del valor real de la función en el límite. Describen cómo se comporta la función al acercarse al límite.
Fuente de la explicación anterior ➡ https://es.khanacademy.org/math/ap-calculus-ab/ab-limits-new/ab-1-2/a/limits-intro
Ejemplo:
Si se pidiera calcular el valor de la función
Lo anterior se resuelve fácilmente debido a que el comportamiento de los polinomios es una diferencia de cuadrados.
Límites laterales:
Establecen cuál es el valor que toma una función cuando se hace una aproximación desde la izquierda o la derecha.
Se agrega el super-índice con un signo de
Es lo mismo sólo que se pone un
ℹ Nota: que pasa cuando el límite tiende a 0 de
En ese caso el límite por la derecha tienda al infinito
Entre más nos acerquemos a cero el valor crece mucho y los límites por derecha e izquierda son muy distintos. Prácticamente están tendiendo a infinito.
La derivada surge a partir de la necesidad de tener un método para calcular la tangente de una curva. Este problema ya estaba resuelto con otro tipo de figuras, pero cuando se trataba de curvas o funciones era muy difícil calcular la tangente.
La tangente es una línea recta que toca a la curva en un sólo punto.
No obstante calcular la tangente de una curva no es tan sencillo como trazar una línea que toque la curva y ya, por eso se usa a la secante como una ayuda para este proceso.
La secante es una línea recta que corta a la curva en 2 puntos.
Ahora que se tiene la secante, para calcular la tangente lo que hay que hacer es aproximar lo máximo posible el punto
Mientras más pequeña sea la diferencia entre los 2 puntos (aproximándose a 0), más se aproximará la pendiente de la recta a la pendiente de la tangente. Debido a que estos valores son muy pequeños y tienden a cero se expresan en notación de límite.
Si se sustituyen los valores:
Al usar la notación de límite para representar que la distancia se aproxima a cero:
⬆ Esta es la definición formal de la derivada.
ℹ Nota: las derivadas no se pueden calcular en todas las funciones, ya que por ejemplo en las funciones discontinuas existe un salto por lo que el limite lateral izquierdo es diferente al derecho por lo que el límite no existe y ya que las derivadas están dadas por el límite, no es posible calcular la derivada en este tipo de funciones.
Existen diferentes formas de expresar la derivada. Cada una de ellas fue propuesta por un científico diferente al momento de desarrollar los principios del cálculo.
-
Notación de Leibniz: La notación de Leibniz surge del símbolo
$dy/dx$ que representa un operador de diferenciación y no debemos confundirlo como una división.Si quisiéramos expresar una segunda derivada usando la notación de Leibniz se puede mostrar como:
Y para mostrar la n-ésima derivada se expresa de la forma:
Esta notación nos sirve para entender como la derivada puede ser expresada como los incrementos tanto de x como de y cuando el incremento de x tiende a cero.
La notación de Leibniz es útil cuando se tienen ecuaciones con más de una variable, ya que especifica con respecto a que variable se quiere derivar.
-
Notación de Lagrange: La notación más sencilla de todas es la de Lagrange. Esta notación expresa que la función es una derivada usando una comilla simple antes del argumento, llamada prima.
Esta expresión se lee como “efe prima de equis”. La cual representa la primera derivada de una función. Si deseamos expresar la segunda derivada sería:
Y para mostrar la n-ésima derivada se expresa de la forma:
-
Notación de Newton: Por último tenemos la notación de Newton. Esta notación es muy usada en campos como la física y la ingeniería debido a su simplicidad para expresar la primera y segunda derivada. Se usa sobre todo en funciones relacionadas al tiempo en campos como la mecánica. Por ejemplo, como una función que representa el movimiento de una partícula.
Su representación de la primera y segunda derivada es la siguiente:
$$ẋ ẍ$$
Todas las definiciones de las derivadas dependiendo de la función parten de la definición de límite de la derivada.
Reglas de Derivación
Permite calcular la derivada de una composición de funciones
Ejemplos:
-
Suma:
Fórmula:
$$(f+g)'(x) = f'(x) + g'(x)$$ Fórmula para calcular la derivada de
$x^n$ :$$x^n = nx^{n-1}$$
$$f(x) = x^2$$ $$g(x) = 4x^2$$ Así se resolvería directamente, sumando ambas funciones y derivando después.
$$\frac{d(5x^2)}{dx} = 5*2x = 10x$$ ⬆ Explicación:
$5x^2$ es el resultado de la suma de$x^2 + 4x^2$ .$10x$ es el resultado de aplicar la fórmula para calcular la derivada de$x^n$ .
Así se resolvería aplicando la regla de la suma en la derivación, en la que se saca la derivada de cada función y luego se suman.
$$\frac{df}{dx} = x^2 = 2x$$ $$\frac{dg}{dx} = 4x^2 = 4*2x = 8x$$ $$2x+8x=10x$$ -
Producto:
Fórmula:
$$(f*g)'(x)=f(x)g'(x)+g(x)f'(x)$$ La derivada del
$\cos$ es$-\sin(x)$ La derivada del
$\sin$ es el$\cos$
$$f(x)=\cos(x)$$ $$g(x)=\sin(x)$$ $$(f*g)(x)=\cos(x)\sin(x)$$ $$f'(x)=-\sin(x)$$ $$g'(x)=\cos(x)$$ $$(f*g)'(x)=\cos(x)\cos(x)+\sin(x)[-\sin(x)]$$ Al realizar el cálculo al final queda:
$$(f*g)'(x)=\cos^2(x)-\sin^2(x)$$ -
Composición de funciones (regla de la cadena):
Fórmula:
$$(f \circ g)'(x)=f'(g(x))*g'(x)$$ $$f(x)=\sin(x)$$ $$g(x)=x^3$$ $$f \circ g = \sin(x^3)$$ Derivadas de las funciones:
$$f'(x)=\cos(x)$$ $$g'(x)=3x^2$$ $$(f \circ g)'(x)=\cos(x^3)*3x^2$$
Algunas aplicaciones que tiene la derivada.
La derivada puede usarse para encontrar la velocidad instantánea en determinado punto. Suponiendo que se tiene una función
Para conocer la velocidad promedio en un intervalo de tiempo entre
Al realizar la resta del denominador quedaría como:
En un gráfico todo esto se vería de la siguiente forma:
⬆ La velocidad promedio es la recta que esta entre los 2 intervalos de tiempo (
Las derivadas se pueden interpretar de una forma más general, y es como la razón de cambio. Las funciones son dos cantidades que dependen una de otra y en la vida práctica ese comportamiento esta por todos lados (la cocción de un alimento depende del tiempo en que lo dejemos en el fuego, el precio de un producto depende de su demanda en el mercado, etc) por lo que se pueden usar derivadas para calcular que tanto cambia una función en un momento determinado, lo cuál brinda un mundo de posibilidades para estudiar el comportamiento de diversos datos y la “velocidad” con la que estos cambian en un sinfín de casos prácticos.
Si estudiamos las funciones como pequeños cambios tenemos que estudiar sus incrementos. Para hacer eso hay que tener presente que si tenemos la función
ℹ Nota: el símbolo delta en mayúscula sirve para indicar el cambio entre dos cantidades.
Para el cambio en y se usaría:
A la división de estos dos incrementos la llamamos razón de cambio promedio de
Las razones de cambio nos dicen qué tanto cambia una cantidad
Si nuestra derivada es muy grande significa que
Los valores máximos y mínimos de una función son los valores más altos y más bajos respectivamente.
El máximo y el mínimo de una función serían los puntos en los que la pendiente de la tangente es exactamente 0.
Cuando la derivada sea mayor a cero la pendiente estará subiendo y cuando la derivada sea menor a 0 la pendiente estará bajando.
La función completa puede tener varios máximos y mínimos, así como un máximo global, que es el valor más alto, y un mínimo global que sería el valor más bajo.
También se pueden analizar secciones específicas de una función en las que el valor más alto y más bajo se llamarían máximo local y mínimo local respectivamente.
-
Si
$f'(x)>0$ hacia la izquierda de un punto$a$ y si$f'(x)<0$ hacia la derecha del punto$a$ , entonces$f$ tiene un máximo relativo en$(a, f(a))$ -
Si
$f'(x)<0$ hacia la izquierda de un punto$a$ y si$f'(x)>0$ hacia la derecha del punto$a$ , entonces tiene un minino relativo en$(a, f(a))$ -
Si
$f'(x)$ es menor o mayor de ambos lados, no es ni un máximo ni un mínimo
-
Si
$f''(x)<0$ entonces$f$ tiene un máximo relativo en$(x, f(x))$ -
Si
$f''(x)>0$ entonces$f$ tiene un mínimo relativo en$(x, f(x))$ -
Si
$f''(x)=0$ no se puede determinar si es un máximo o un mínimo o ninguno de los dos. Se debe utilizar el teorema de la primera derivada para poder determinarlo
Problema:
Encontrar el tamaño de los muros que permita obtener la mayor área en m², o en otras palabras, encontrar el tamaño de los muros que permita tener una oficina más grande. Sólo se pueden construir 50 metros de muro.
Desarrollo:
Para calcular el área se usar la fórmula super conocida:
Para calcular el perímetro hay que sumar cada lado. En este ejemplo el perímetro total son los 50 metros de muro que se pueden construir:
A partir del punto anterior se puede despejar
Con esto ya se puede sustituir
Ahora que ya se tiene el área expresada en función de
Para optimizar la función anterior y encontrar el valor máximo se usa la derivada:
Para encontrar cuando la ecuación anterior se vuelve cero hay que despejar
Ahora hay que corroborar que
Ahora que ya se tiene el valor de
Ya con eso sabemos que para obtener el área más grande en las oficinas usando sólo los 50 metros de muro disponibles los muros deben ser de 12.5m y 25m.
A lo largo del curso se ha trabajado con funciones que sólo reciben una sola variable por parámetro (univariable). No obstante las funciones pueden tener más de una variable.
Sin importar las variables que tenga la función, al final siempre va a salir un resultado.
Este tipo de representaciones son útiles para representar múltiples datos en un espacio tridimensional. Algunos ejemplos de uso de este tipo de gráficas son la representación de alturas, temperaturas y preferencias de usuarios.
Información sobre Numpy meshgrid
Las derivadas parciales permiten encontrar la derivada en funciones de más de una variable.
Explicación de las derivadas parciales
Dato Matemático:
- El conjunto de primeras derivadas parciales se le conoce como Gradiente.
- La Matriz de segundas derivadas parciales se le comoce como Hessiana.
- El determinante de la matriz Hessiana se le conoce como Jacobiano
- El Jacobiano es útil cuando queremos hacer transformaciones. Por ejemplo: Pasar del plano cartesiano a coordenadas polares.
Herramientas para calcular la derivada parcial:
La regla de la cadena aplicada en el cálculo multivariable es muy usada en un proceso de las redes neuronales llamado Backpropagation.
la regla de la cadena para una sola variable es sencilla relativamente pues su proceso es lineal, encadenando las funciones. En el caso del cálculo multivariable esto funciona de forma diferente. Al tener más de una función, surgen divisiones en la forma en la que la variable inicial llega a la variable final. Por ejemplo si tenemos una función
La función
En el siguiente diagrama se explica cómo se relacionan estas variables desde
En el diagrama se puede apreciar como
Las derivadas de las funciones
En las relaciones que sean lineales, se multiplica siguiendo la regla de la cadena para una sola variable. Con esto se obtiene una porción de todas las relaciones, para obtener todas las relaciones y porciones hasta llegar a
La constitución de la regla de la cadena en multivariable cambia dependiendo del número de variables intermedias que pueda haber en el proceso de llegar al valor final, no obstante el principio sigue siendo el mismo.
La regla de la cadena tiene una gran importancia pues nos permite relacionar diferentes funciones que otorgan un valor final de salida contra su variable de entrada. Esto es muy útil cuando estudiamos el comportamiento, como puede ser el precio de un producto, que está determinado por diferentes factores.
Es un vector que, dependiendo de una superficie, va a establecer cuál es la forma más rápida de ascender dicha superficie. Su puede pensar en esto como una especie de brújula que muestra por donde subir una montaña más rápido.
El gradiente de una función se representa con el símbolo
Ejemplo:
El gradiente almacena toda la información de la derivadas parciales de una función multivariable. Pero es más que un simple dispositivo de almacenamiento, tiene muchas aplicaciones en muchas áreas de las ciencias. El gradiente es una función escalar multivariable que empaqueta toda la información de sus derivadas parciales en un vector.
Cabe resaltar que la forma del gradiente varia dependiendo de las coordenadas que utilicemos, tiene las misma interpretación, pero se escribe de destina manera.
El descenso del gradiente permite optimizar una función, es decir, encontrar el mínimo de una función de coste. El descenso del gradiente se puede aplicar en diferentes mediciones, no obstante en este ejemplo para fines prácticos sólo se usarán 2.
ℹ Nota: el descenso del gradiente sólo es útil en funciones que tienen un único valor mínimo. En el caso de funciones que tengan varios mínimos locales lo que hará este algoritmo es buscar el mínimo local más cercano.