TUTORIAL DE FUNDAMENTOS DE MATEMATICAS PARA MACHINE LEARNING

. - Módulo 1: Álgebra Lineal
- Lección 1: Conceptos básicos: Vectores y matrices.
- Lección 2: Operaciones con matrices y vectores.

. - Módulo 2: Cálculo
- Lección 1: Conceptos de cálculo diferencial e integral.
- Lección 2: Derivadas y gradientes.
- Lección 3: Regla de la cadena y derivadas parciales.
- Lección 4: Optimización: gradiente descendente.

. - Módulo 3: Estadística y Probabilidad
- Lección 1: Conceptos básicos de probabilidad.
- Lección 2: Variables aleatorias y distribuciones.
- Lección 3: Estadística descriptiva.
- Lección 4: Inferencia estadística.

MODULO 1. ALGEBRA LINEAL
- Lección 1: Conceptos básicos: Vectores y matrices.

Introduccion a vectores

- Definición: Un vector es una secuencia ordenada de números, que pueden representar magnitudes y direcciones en el espacio. En aprendizaje automático, los vectores se utilizan a menudo para representar datos y características.

Ejemplo en Python:

In [None]:
import numpy as np

vector_a = np.array([1, 2, 3])
vector_b = np.array([4, 5, 6])

# Suma de vectores
suma = vector_a + vector_b

suma

array([5, 7, 9])

Introducción a Matrices
- Definición: Una matriz es una disposición rectangular de números, dispuestos en filas y columnas. En ML, las matrices se utilizan para representar conjuntos de datos, donde cada fila puede ser una muestra y cada columna una característica.

In [None]:
matriz_a = np.array([[1, 2, 3], [4, 5, 6]])
matriz_b = np.array([[7, 8, 9], [10, 11, 12]])

# Multiplicación de matrices
producto = np.dot(matriz_a, matriz_b.T)  # .T para transponer matriz_b

producto

array([[ 50,  68],
       [122, 167]])

Leccion 2.- Operaciones Básicas con Vectores y Matrices
- Suma y Resta de Vectores: La suma o resta de dos vectores se realiza elemento a elemento.
- Producto Escalar: El producto escalar de dos vectores es la suma de los productos de sus elementos correspondientes.
- Multiplicación de Matrices: El producto de dos matrices es una nueva matriz donde cada elemento se calcula como el producto escalar de las filas de la primera matriz y las columnas de la segunda.

In [None]:
# Suma de vectores
suma_vectores = vector_a + vector_b

# Producto escalar
producto_escalar = np.dot(vector_a, vector_b)

# Multiplicación de matrices
producto_matrices = np.dot(matriz_a, matriz_b.T)

print(suma_vectores)
print(producto_escalar)
print(producto_matrices)

[5 7 9]
32
[[ 50  68]
 [122 167]]


Aplicaciones Prácticas de Vectores y Matrices
- Ejemplo de aplicación: Resolver un sistema de ecuaciones lineales, que es fundamental en muchos algoritmos de aprendizaje automático.

In [None]:
# Sistema de ecuaciones: Ax = b
A = np.array([[3, 1], [1, 2]])
b = np.array([9, 8])

# Resolviendo para x
x = np.linalg.solve(A, b)

x

array([2., 3.])

Módulo 2: Cálculo

- Lección 1: Conceptos de cálculo diferencial e integral.

El cálculo, tanto diferencial como integral, desempeña un papel crucial en el aprendizaje automático (ML). Aquí están los conceptos clave de cada uno:

. - Cálculo Diferencial en Machine Learning
Derivadas: Indican cómo cambia una función con respecto a sus variables. En ML, se usan para encontrar la tasa de cambio de la función de pérdida o error en relación con los parámetros del modelo.

- Regla de la Cadena: Permite calcular la derivada de funciones compuestas. Es fundamental para algoritmos como la retropropagación en redes neuronales, donde se calcula el gradiente de la función de error a través de varias capas.

- Gradiente: Es un vector que contiene todas las derivadas parciales de una función multivariable. En ML, se utiliza para guiar el proceso de optimización, especialmente en la técnica del descenso del gradiente.

- Optimización: Usando las derivadas, los algoritmos de ML buscan minimizar o maximizar alguna función objetivo, como la función de coste o pérdida.

.- Cálculo Integral en Machine Learning

- Integración: Aunque menos prominente en ML que el cálculo diferencial, la integración se utiliza en algunas áreas, como en la normalización de probabilidades en modelos probabilísticos y en algunos métodos de regularización.

- Teorema Fundamental del Cálculo: Relaciona la integración y la diferenciación. En ML, aunque indirectamente, este concepto subyace en la comprensión de cómo los cambios en las funciones (obtenidos a través de la diferenciación) se acumulan.

- Integrales en Modelos Probabilísticos: En estadísticas y ML, las integrales se usan para calcular cosas como distribuciones de probabilidad y expectativas, fundamentales en modelos como los procesos gaussianos y en métodos de inferencia bayesiana.

- Conclusión
Mientras que el cálculo diferencial es central para el entrenamiento y la optimización de modelos en ML, el cálculo integral aporta principalmente en el ámbito teórico y en ciertos modelos estadísticos y probabilísticos avanzados. Ambos forman la base matemática que sustenta muchos de los conceptos y algoritmos en ML.







In [None]:
# He calculado la integral indefinida de la funcion
# f(x)=x²
# utilizando Python con SymPy. La integral es x³ +C, donde
# C es la constante de integración. Esta función representa el área acumulada bajo
# la curva de x² desde un punto de referencia hasta x. ​
import sympy as sp

f=x**2

f_integral = sp.integrate(f, x)

f_integral

x**3/3

Lección 2: Derivadas y gradientes

.- Derivadas
Las derivadas son un concepto fundamental del cálculo que se refieren a la tasa de cambio de una función respecto a una de sus variables. La derivada de una función en un punto específico es la pendiente de la recta tangente a la función en ese punto. En términos más simples, te dice qué tan rápido está cambiando el valorde la funcion en relacion  con un cambio en su variable

Considera la función f(x) = x². La derivada de f con respecto a x se denota como f'(x) y es 2x. Esto significa que, en cualquier punto x, la tasa de cambio de x² es 2x. Por ejemplo, en x=3, la tasa de cambio es 2 x 3 = 6.


.-Gradientes
El gradiente es una generalización de la derivada para funciones de múltiples variables. Se representa como un vector que contiene todas las derivadas parciales de la función. Cada componente del gradiente indica la tasa de cambio de la función en relación con una de sus variables independientes. En el contexto del aprendizaje automático, el gradiente es crucial porque indica la dirección en la que una función está aumentando más rápidamente.



Estos conceptos son cruciales en optimización y aprendizaje automático, especialmente en técnicas como el descenso de gradiente, donde se utilizan los gradientes para iterativamente ajustar los parámetros de un modelo con el fin de minimizar una función de coste o pérdida.

In [None]:
# He calculado la derivada de la función
# f(x)=x² utilizando Python con la librería simpy

import sympy as sp

# Definir una variable simbólica
x = sp.symbols('x')

# Definir una función, por ejemplo f(x) = x^3
f = x**3

# Calcular la derivada de f respecto a x
f_prime = sp.diff(f, x)

f_prime

3*x**2

Lección 3: Regla de la cadena y derivadas parciales

.-La regla de la cadena es una fórmula para calcular la derivada de una función compuesta. En el contexto del aprendizaje automático, a menudo trabajamos con modelos que involucran varias funciones anidadas o compuestas, como en las redes neuronales.

Aplicación en Redes Neuronales: En una red neuronal, la salida de una capa se convierte en la entrada de la siguiente. Durante el entrenamiento, necesitamos calcular las derivadas de la función de pérdida respecto a los parámetros de cada capa. La regla de la cadena permite descomponer estas derivadas complejas en una serie de derivadas más simples que se pueden calcular de manera secuencial, un proceso conocido como retropropagación.

.-Derivadas Parciales
Las derivadas parciales se refieren a la tasa de cambio de una función multivariable con respecto a una de sus variables, manteniendo constantes las otras variables. Son cruciales en el aprendizaje automático para entender cómo cambia la función de pérdida o costo en relación con cada parámetro del modelo.

.- Optimización y Descenso del Gradiente: La mayoría de los algoritmos de aprendizaje automático involucran la optimización de una función de costo o pérdida respecto a los parámetros del modelo. Las derivadas parciales se utilizan para calcular el gradiente de la función de costo, un vector que indica la dirección en la que la función aumenta más rápidamente. En el descenso del gradiente, nos movemos en la dirección opuesta al gradiente para encontrar el conjunto de parámetros que minimiza la función de costo.

.- Ejemplo en Machine Learning
Considera una función de costo simple
C(w,b), donde w y b son parámetros del modelo. Las derivadas parciales
∂C/∂w y ∂C/∂b nos indican cómo el cambio en
w  y  b, respectivamente, afecta el costo. Utilizando la regla de la cadena, podemos descomponer derivadas complejas (como las que encontramos en las redes neuronales con múltiples capas) en derivadas más simples, facilitando el cálculo del gradiente y la actualización de los parámetros mediante el descenso del gradiente.

Estos conceptos son esenciales para desarrollar una comprensión profunda de cómo funcionan los algoritmos de aprendizaje automático y cómo se entrenan los modelos para realizar tareas como clasificación, regresión y más.








Lección 4: Optimización: gradiente descendente.

La optimización mediante el gradiente descendente es un método algorítmico utilizado en aprendizaje automático y estadística para minimizar una función. Especialmente útil en el entrenamiento de modelos, el objetivo es ajustar los parámetros de un modelo para minimizar el error o la función de costo.

Concepto de Gradiente Descendente
El gradiente de una función en un punto dado es un vector que señala en la dirección del mayor incremento de la función en ese punto. El gradiente descendente toma lo contrario del gradiente, moviéndose así en la dirección que más reduce la función.

El algoritmo sigue estos pasos básicos:

- Inicialización: Comienza con una estimación inicial para los parámetros del modelo.
- Cálculo del Gradiente: Calcula el gradiente de la función de costo con respecto a cada parámetro.
- Actualización de Parámetros: Ajusta los parámetros en la dirección opuesta al gradiente.
-Repetición: Repite los pasos 2 y 3 hasta alcanzar un criterio de convergencia (como un número de iteraciones o un cambio mínimo en la función de costo).

- La "tasa de aprendizaje" es un hiperparámetro clave que determina el tamaño de los pasos con los que se actualizan los parámetros. Si es demasiado grande, el algoritmo puede sobrepasar el mínimo; si es demasiado pequeño, la convergencia puede ser muy lenta.

Ejemplo Sencillo
Imagina que tienes una función de costo simple:

f(x)=x²
Quieres minimizar esta función, es decir, encontrar el valor de x que hace que f(x) sea lo más pequeño posible.

- Inicialización: Supón que inicializas
x en 10.
- Cálculo del Gradiente: El gradiente de
f(x) es 2x. En x=10, el gradiente es
2×10=20

- Actualización de Parámetros: Escoge una tasa de aprendizaje, digamos 0.1, y actualiza x restando la tasa de aprendizaje multiplicada por el gradiente: x=10−0.1×20=8.

- Repetición: Repite los pasos 2 y 3. En la siguiente iteración, x será 8, el gradiente será 16
16, y x se actualizará a
8- 0.1 x 16= 6.4
y así sucesivamente.
El proceso se repite hasta que el cambio en x es lo suficientemente pequeño, indicando que se ha alcanzado el mínimo de la función, que en este caso es x=0.

Módulo 3: Estadística y Probabilidad

.- Lección 1: Conceptos básicos de probabilidad.

1.- Probabilidad: Mide la posibilidad de que ocurra un evento. En ML, se usa para estimar la probabilidad de resultados específicos, como la clasificación de una entrada en una categoría.

2.- Variables Aleatorias: Son cantidades que toman valores según el resultado de un evento aleatorio. En ML, pueden representar características de los datos o resultados de un modelo.

3.- Distribuciones de Probabilidad:

- Discretas: Como la distribución binomial o de Poisson, usadas en modelos donde los resultados son valores discretos (e.g., número de veces que ocurre un evento).

- Continuas: Como la distribución normal (Gaussiana), importante en muchos aspectos de ML y especialmente en deep learning, donde las entradas y salidas suelen ser continuas.

4.- Función de Densidad de Probabilidad (FDP): Describe la probabilidad relativa de una variable aleatoria tomar un valor dado. En ML, se utiliza para describir la distribución de los datos o de los errores de un modelo.

5.- Teorema de Bayes: Fundamental para entender la probabilidad condicional, es decir, cómo cambia la probabilidad de un evento dado el conocimiento previo. Es la base de los modelos de ML bayesianos.

6.- Valor Esperado y Varianza:

Valor Esperado (Media): Representa el valor promedio que se espera de una variable aleatoria.
Varianza: Mide cuánto se dispersan los valores alrededor de la media. En ML, estos conceptos ayudan a comprender las características centrales de los datos y su dispersión.

7.- Independencia y Correlación: La independencia implica que el conocimiento de un evento no proporciona información sobre otro. La correlación, por otro lado, mide la relación lineal entre variables. Ambos son clave en la selección de características y en la comprensión de la estructura de los datos.

8.- Modelos Probabilísticos: Incluyen algoritmos que utilizan probabilidades para modelar relaciones en los datos, como los modelos ocultos de Markov o las redes bayesianas.

En el deep learning, estos conceptos se aplican a menudo en el contexto de redes neuronales, donde la interpretación de las neuronas como unidades que procesan señales de manera probabilística es fundamental. Además, conceptos como la función de activación softmax en las capas de salida se relacionan directamente con la probabilidad, asignando una probabilidad a cada clase en tareas de clasificación.


In [None]:
# En este caso, se ha generado un conjunto de 1000 puntos de datos que siguen una
# distribución normal con media 0 y desviación estándar 1. Luego, estos datos se
# han graficado en un histograma, donde cada barra representa la frecuencia de los
# valores dentro de un rango específico. Este tipo de gráfica es una forma común y
# sencilla de visualizar la distribución de los datos normalmente distribuidos. ​


import matplotlib.pyplot as plt
import numpy as np

# Crear un conjunto de datos siguiendo una distribución normal
datos = np.random.normal(0, 1, 1000)  # Media 0, desviación estándar 1, 1000 puntos

# Graficar los datos usando un histograma
plt.hist(datos, bins=30, density=True, alpha=0.6, color='g')

# Añadir títulos y etiquetas
plt.title('Histograma de una Distribución Normal')
plt.xlabel('Valor')
plt.ylabel('Frecuencia')

# Mostrar la gráfica
plt.show()

In [None]:
# Aquí tienes un ejemplo de la distribución de Bernoulli junto con su gráfica
# realizada mediante Matplotlib. En este ejemplo, se ha asumido una probabilidad
# de éxito p=0.7 (o 70%). La distribución de Bernoulli es una distribución de probabilidad
# discreta, que solo toma dos valores: 0 (fracaso) y 1 (éxito). En la gráfica, se
# muestra la probabilidad de cada uno de estos resultados: la probabilidad de
# fracaso (1 - p) es de 0.3 (o 30%) y la probabilidad de éxito (p) es de 0.7 (o 70%).
# Esta distribución es útil en situaciones donde hay un resultado binario,
# como sí/no, verdadero/falso, éxito/fracaso.


import matplotlib.pyplot as plt

# Datos para la Distribución Bernoulli
# En una distribución de Bernoulli, los valores solo pueden ser 0 o 1.
p = 0.7  # Probabilidad de éxito (por ejemplo, 70%)
bernoulli_data = [0, 1]

# Probabilidades
probabilidades = [(1-p), p]  # Probabilidad de fracaso (1-p) y éxito (p)

# Crear la gráfica de barras
plt.bar(bernoulli_data, probabilidades, color = 'skyblue')
plt.title('Distribución de Bernoulli')
plt.xlabel('Resultados')
plt.ylabel('Probabilidad')
plt.xticks(bernoulli_data, ['Fracaso (0)', 'Éxito (1)'])
plt.ylim(0, 1)  # Limitar el eje y para enfatizar la naturaleza de probabilidad
plt.show()

- Lección 2: Variables aleatorias y distribuciones.

Ejemplo: Encuesta de Satisfacción del Cliente
Imagina que eres un científico de datos trabajando para una empresa y se te encarga analizar los resultados de una encuesta de satisfacción del cliente. La encuesta pide a los clientes que califiquen su satisfacción en una escala del 1 al 5, donde 1 es "Muy insatisfecho" y 5 es "Muy satisfecho".

.- Variable Aleatoria
En este contexto, la variable aleatoria podría ser X, que representa la calificación de satisfacción de un cliente seleccionado al azar. Cada vez que se selecciona un cliente y se registra su calificación, se observa un valor de X.

.- Distribuciones de Probabilidad
La distribución de probabilidad de
X describe la probabilidad de cada posible calificación. Supongamos que después de analizar los datos, encuentras que las calificaciones tienen la siguiente distribución:

1 (Muy insatisfecho): 10%
2 (Insatisfecho): 15%
3 (Neutral): 25%
4 (Satisfecho): 30%
5 (Muy satisfecho): 20%
Esta distribución te da la probabilidad de cada resultado de la variable aleatoria
X.

Aplicación en Machine Learning
En un escenario de machine learning, podrías utilizar estos datos para entrenar un modelo predictivo. Por ejemplo, si tienes características adicionales de los clientes (como edad, frecuencia de compra, etc.), podrías usar un modelo de clasificación para predecir la calificación de satisfacción de un cliente basándote en estas características.

Interpretación
La variable aleatoria X representa un concepto que se puede observar y medir en un experimento o estudio.
La distribución de probabilidad muestra cómo se distribuyen las probabilidades entre los diferentes valores posibles de X.
Este tipo de análisis es fundamental en áreas como la investigación de mercado, donde comprender la distribución de las opiniones o comportamientos de los clientes puede ayudar a tomar decisiones informadas sobre estrategias de producto o servicio.


Lección 3: Estadística descriptiva.

La estadística descriptiva en el campo del machine learning y el deep learning se refiere al proceso de resumir, organizar y describir las características fundamentales de un conjunto de datos. Este análisis es crucial tanto en la fase de exploración de datos como en la interpretación de los resultados de los modelos. Aquí están los elementos clave:

1.- Medidas de Tendencia Central:

- Media (Promedio): El valor promedio de un conjunto de números.
- Mediana: El valor medio que divide el conjunto de datos en dos mitades iguales.
- Moda: El valor que aparece con mayor frecuencia en el conjunto de datos.

2.- Medidas de Dispersión:

- Rango: La diferencia entre el valor más alto y el más bajo.
- Varianza: El promedio de las diferencias al cuadrado entre cada valor y la media.
- Desviación Estándar: La raíz cuadrada de la varianza, representa la dispersión de los datos en relación a la media.
- Cuartiles y Percentiles: Indican la distribución de los datos en intervalos regulares.

3.- Análisis de Forma:

Asimetría (Skewness): Mide la simetría o la falta de simetría de la distribución de los datos.
Curtosis: Mide si los datos están concentrados o dispersos en relación con una distribución normal.

Leccion 4.- Inferencia estadistica

La inferencia estadística es un área de la estadística que se ocupa de sacar conclusiones y hacer predicciones sobre una población a partir de una muestra observada. Es fundamental en el campo del machine learning y la ciencia de datos para tomar decisiones basadas en datos. Aquí está un resumen de sus conceptos clave y algunos ejemplos:

Conceptos Clave de la Inferencia Estadística


1.- Población y Muestra:

Población: El conjunto completo de elementos o eventos que estás estudiando.
Muestra: Un subconjunto de la población utilizado para hacer inferencias sobre la población completa.

2.- Estimación de Parámetros:

Incluye estimar valores de población desconocidos, como la media o la varianza, a partir de datos de muestra.

3.- Pruebas de Hipótesis:

Se utiliza para evaluar afirmaciones o hipótesis sobre la población, basándose en la evidencia de la muestra.
Ejemplo: Probar si la media de una nueva técnica de producción es diferente de la media de la técnica actual.

4.- Intervalos de Confianza:

Proporcionan un rango estimado de valores dentro del cual se espera que se encuentre el verdadero valor de un parámetro de población, con un cierto nivel de confianza.
Ejemplo: Un intervalo de confianza del 95% para la media de ingresos de una población.

- Ejemplos de Aplicación
1.- Ensayos Clínicos:

Utilizar inferencia estadística para determinar si un nuevo medicamento es más efectivo que un placebo.

2.-Investigación de Mercado:

Realizar encuestas en una muestra de consumidores para inferir las preferencias o comportamientos de todos los consumidores.

3.-Control de Calidad:

Usar muestras de productos para hacer inferencias sobre la calidad de toda la producción.

4.-Machine Learning:

En el aprendizaje automático, la inferencia estadística se utiliza para validar modelos, como determinar si las diferencias en el rendimiento entre dos algoritmos son estadísticamente significativas.


La inferencia estadística es esencial para interpretar correctamente los datos y tomar decisiones informadas en la ciencia de datos, la investigación, la economía, la ingeniería, y muchas otras áreas.





