# Matemáticas para IA con Python.

 <p xmlns:cc="http://creativecommons.org/ns#" xmlns:dct="http://purl.org/dc/terms/"><a property="dct:title" rel="cc:attributionURL" href="https://github.com/luiggix/intro_MeIA_2023">Matemáticas para IA con Python</a> by <span property="cc:attributionName">Luis Miguel de la Cruz Salas</span> is licensed under <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/?ref=chooser-v1" target="_blank" rel="license noopener noreferrer" style="display:inline-block;">CC BY-NC-SA 4.0<img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1"></a></p> 

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import macti.visual
import matem
import sympy

# Álgebra lineal.

## Espacios vectoriales
Se denota $\mathbb{R}^n$ al espacio vectorial de $n$-dimensiones sobre el campo de los números reales.
Cada elemento de este espacio vectorial es un vector definido como $\vec{x} = (x_1, x_2, \dots, x_n)$. 

In [None]:
x = np.array([2, 3]) # Un vector de R^2
x

Cada vector se caracteriza por su módulo ($||\vec{x}|| = \sqrt{||x_1||^2 + \dots + ||x_n||^2}$) y su dirección.

In [None]:
np.linalg.norm(x)

In [None]:
matem.plot_vectors([x], w=0.020)

In [None]:
np.arctan(x[1] / x[0]) * 180 / np.pi

## Producto escalar.
$$
\langle \vec{x}, \vec{y} \rangle = \vec{y}^T \cdot \vec{x} = \sum_{i=1}^n x_i y_i
$$

**Propiedades**:
* $\langle \vec{x}, \vec{y} \rangle = 0$ si y solo si $\vec{x}$ y $\vec{y}$ son ortogonales.
* $\langle \vec{x}, \vec{y} \rangle \ge 0$, además $\langle \vec{x}, \vec{y} \rangle = 0$ si y solo si $\vec{x} = 0$
* $\langle \alpha \vec{x}, \vec{y} \rangle = \alpha \langle \vec{x}, \vec{y} \rangle$
* $\langle \vec{x}+\vec{y}, \vec{z} \rangle = \langle \vec{x}, \vec{z} \rangle + \langle \vec{y}, \vec{z} \rangle$
* $\langle \vec{x}, \vec{y} \rangle = \langle \vec{y}, \vec{x} \rangle $
* Desigualdad de Schwarz : $||\langle \vec{x}, \vec{y} \rangle|| \le ||\vec{x}|| ||\vec{y}||$

In [None]:
y = np.array([3,1])

In [None]:
suma = 0.0
for i in range(len(x)):
    suma += x[i] * y[i]
suma

In [None]:
np.dot(x,y)

In [None]:
x @ y

In [None]:
z = np.array([-3, 2])

In [None]:
x @ z

In [None]:
matem.plot_vectors([x, y, z], ['x', 'y', 'z'])

## Independencia lineal.

Los vectores $\vec{x}_1, \vec{x}_2, \dots, \vec{x}_n$ son linealmente independientes si de la ecuación:
$$
\sum_{i=1}^n \alpha_i \vec{x}_i =  0
$$

se deduce que $\alpha_i = 0$, para toda $i$. Si por lo menos una de las $\alpha_i$ es distinta de cero, entonces los vectores son **linealmente dependientes**.

En el espacio euclidiano $\mathbb{R}^n$, los vectores $\vec{e}_1 = (1,0,\dots,0)$, $\vec{e}_2 = (0,1,\dots,0), \dots, \vec{e}_n = (0,0,\dots,n)$, son linealmente independientes y representan una base ortonormal. Además, cualquier vector $\vec{x} \in \mathbb{R}^n$ se puede representar como 
$$
\vec{x} = \sum_{i=1}^n \vec{x}_i \vec{e}_i
$$

In [None]:
e1 = np.array([1, 0])
e2 = np.array([0, 1])
print(e1, e2)

In [None]:
x

In [None]:
xs = e1 * 2 + e2 * 3
xs

In [None]:
matem.plot_vectors([e1, e2, xs], ['$e_1$', '$e_2$', '$xs$'], w=0.015)

## Normas

Una función $||\cdot ||$  de vectores se denomina norma vectorial si para cualesquiera dos vectores $\vec{x}$ y $\vec{y}$ de $\mathbb{R}^n$ se satisfacen los siguiente axiomas:

* $||\vec{x} || \ge 0$
* $||\vec{x} || = 0 \iff \vec{x} = 0$
* $||a\vec{x} || = |a| || \vec{x} ||$
* $||\vec{x} + \vec{y}|| \le ||\vec{x} || + ||\vec{y}||$ (desigualdad triangular)

Sea $p \ge 1$. Las normas de Hölder, o $p$-normas, se definen por:

$$
||\vec{x}||_p = \left( \sum_{i=1}^n |x_i|^p \right)^{1/p} 
$$

* **Norma 1**:
$
||\vec{x}||_1 = \sum_{i=1}^n |x_i|
$
* **Norma 2 (Euclideana)**:
$
||\vec{x}||_2 = \left( \sum_{i=1}^n |x_i|^2 \right)^{1/2} = \langle \vec{x}, \vec{x} \rangle^{1/2} = (\vec{x}^T \cdot \vec{x})^{1/2}
$

* **Norma infinita**:
$
||\vec{x}||_\infty = \max_{i \le 1 \le n} |x_i|
$

In [None]:
print(x, y, z)

In [None]:
matem.plot_vectors([x, y, z], ['x', 'y', 'z'])

In [None]:
print(np.linalg.norm(x, 1))
print(np.linalg.norm(y, 1))
print(np.linalg.norm(z, 1))

In [None]:
print(np.linalg.norm(x, 2))
print(np.linalg.norm(y, 2))
print(np.linalg.norm(z, 2))

In [None]:
print(np.linalg.norm(x, np.infty))
print(np.linalg.norm(y, np.infty))
print(np.linalg.norm(z, np.infty))

In [None]:
print(np.linalg.norm(x, -np.infty))
print(np.linalg.norm(y, -np.infty))
print(np.linalg.norm(z, -np.infty))

## Matrices


Sea $A = a_{ij}$ una matriz de $n \times n$, donde $n$ indica la dimensión de la matriz ($n$ renglones por $n$ columnas). Los números $a_{ij}$ son los elementos de la matriz, y $i,j = 1,\dots,n$. La matriz $A^T = {a_{ji}}$ es la matriz transpuesta.

$$
A = 
\left(
\begin{array}{cccc}
a_{11} & a_{12} & \dots & a_{1n}\\
a_{21} & a_{22} & \dots & a_{2n}\\
\vdots & \vdots& \ddots & \vdots \\
a_{n1} & a_{n2} & \dots & a_{nn}\\
\end{array}
\right)
\,\,\,\,
A^T = 
\left(
\begin{array}{cccc}
a_{11} & a_{21} & \dots & a_{n1}\\
a_{12} & a_{22} & \dots & a_{n2}\\
\vdots & \vdots& \ddots & \vdots \\
a_{1n} & a_{2n} & \dots & a_{nn}\\
\end{array}
\right)
$$


In [None]:
A = np.arange(16).reshape(4,4)
A

In [None]:
A.T

Las siguiente definiciones son válidas para $a_{ij} \in \mathbb{R}^n$.

* Se denota $I$ a la matriz identidad (todas sus entradas son cero excepto en la diagonal donde sus entradas son 1).

In [None]:
I = np.eye(4)
I

* La matriz inversa de $A$ se denota por $A^{-1}$ y es tal que $A^{-1}A = I$, donde 

In [None]:
A = np.array([[2, 3, 5],
              [1, -4, 8],
              [8, 6, 3]])
Ainv = np.linalg.inv(A)
Ainv

In [None]:
np.dot(A, Ainv)

* Una matriz $A = {a_{ij}}$ se llama diagonal si $a_{ij}=0, \forall i \ne j$ y se denota por $A = \mbox{diag} ( {a_{ii}}) $.

In [None]:
np.diagonal(A)

In [None]:
np.diagonal(A, 1)

In [None]:
np.diagonal(A, -1)

* Una matriz $A = {a_{ij}}$ se llama triangular superior si $a_{ij} = 0, \forall i > j$ y triangular inferior si $a_{ij} = 0, \forall i < j$.

In [None]:
np.triu(A)

In [None]:
np.tril(A)

* Una matriz $A$ es simétrica si $A^T = A$ y antisimétrica si $A^T = -A$.

In [None]:
B = np.array([[2, 3, 5],
              [3, -4, 8],
              [5, 8, 3]])
B

In [None]:
B.T

In [None]:
def isSymmetric(mat):
    transmat = np.array(mat).transpose()
    if np.array_equal(mat, transmat):
        return True
    return False

In [None]:
isSymmetric(B)

In [None]:
isSymmetric(A)

* Una matriz $A$ es ortogonal si $A^T A = I$, o equivalentemente $A^T = A^{-1}$.

In [None]:
x = sympy.symbols('x')

# Matriz rotación
rotation = sympy.Matrix([[sympy.cos(x), -sympy.sin(x)],
                        [sympy.sin(x), sympy.cos(x)]])
rotation

In [None]:
rotation.T

In [None]:
rotation * rotation.T

In [None]:
sympy.simplify(rotation.T*rotation)

In [None]:
rotation.subs('x', np.pi * 0.5).evalf(14)

In [None]:
t1 = sympy.Matrix([3,0.5])

t2 = rotation.subs('x', np.pi * 0.5).evalf(14) * t1

print(t1)
print(t2)

In [None]:
np.array(t1, dtype=float).reshape(2,)

In [None]:
np.array(t2, dtype=float).reshape(2,)

In [None]:
matem.plot_vectors([np.array(t1, dtype=float).reshape(2,), 
                    np.array(t2, dtype=float).reshape(2,)],
                  ['t1', 't2'])

* Cada par de renglones o de columnas de una matriz ortogonal, son ortogonales entre sí. Además la longitud de cada columna o renglón es igual a 1.

In [None]:
C = np.array([[1/3, 2/3, -2/3],
              [-2/3, 2/3, 1/3],
              [2/3, 1/3, 2/3]])
C

In [None]:
np.dot(C, C.T)

In [None]:
np.dot(C[0], C[1])

In [None]:
np.dot(C[:,0], C[:,1])

In [None]:
np.linalg.norm(C[2])

In [None]:
np.linalg.norm(C[:, 2])

* Una matriz $A$ se denomina **positiva definida** si $\langle A\vec{x}, \vec{x}\rangle = \vec{x}^T A\vec{x} > 0$ para cualquier vector no nulo $\vec{x}$ de $\mathbb{R}$. La matriz se llama **positiva semidefinida** si $\vec{x}^T A\vec{x} \ge 0$ para cualquier vector $\vec{x}$ de $\mathbb{R}$. Recordemos que:
$$
\vec{x}^T A\vec{x} = \sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j
$$

### Sistema lineal

Las siguientes dos rectas se cruzan en algún punto.

$$
\begin{array}{ccc}
3x_0 + 2x_1 & = &2 \\
2x_0 + 6x_1 & = &-8
\end{array}
$$

En términos de un sistema lineal, las dos ecuaciones anteriores se escriben como sigue:

$$
\left[
\begin{array}{cc}
3 & 2 \\
2 & 6
\end{array} \right]
\left[
\begin{array}{c}
x_{0} \\
x_{1}
\end{array} \right] =
\left[
\begin{array}{c}
2 \\ 
-8
\end{array} \right]
\tag{1}
$$

Podemos calcular $\vec{x}^T A\vec{x}$ para este ejemplo como sigue:

In [None]:
x, y = sympy.symbols('x y')
X = sympy.Matrix([x, y])
A = sympy.Matrix([[3, 2], [2, 6]])
print(A, type(A))

In [None]:
pos_def = X.T @ A @ X
pos_def

In [None]:
print(pos_def, type(pos_def))

In [None]:
sympy.simplify(pos_def)

Observamos que `pos_def` es una función cuadrática (positiva) que se puede graficar como sigue:

In [None]:
sympy.plotting.plot3d(pos_def[0], (x, -3, 6), (y, -8, 6))

Tranformamos a `numpy` y `matplotlib` para mayor interactividad:

In [None]:
xg, yg = np.meshgrid(np.linspace(-3,8,15), np.linspace(-8,3,15))
g = sympy.lambdify(X, pos_def[0])
W = np.array([g(x1, y1) for x1,y1 in zip(xg,yg)])

In [None]:
matem.graf_surfi(xg, yg, W)

Se puede demostrar que la matriz $A$ es definida positiva.

Veamos ahora el siguiente ejemplo:

$$
\begin{array}{ccc}
y & = & 0.10 x + 200 \\
y & = & 0.30 x + 20
\end{array}
$$

Sistema lineal.

$$
\left[
\begin{array}{cc}
0.10 & -1 \\
0.30 & -1
\end{array} \right]
\left[
\begin{array}{c}
x \\
y
\end{array} \right] =
\left[
\begin{array}{c}
-200 \\ 
-20
\end{array} \right] \tag{2}
$$

In [None]:
Y = sympy.Matrix([x, y])
B = sympy.Matrix([[0.10, -1], [0.30, -1]])

pos_indef_B = X.T @ B @ X

sympy.plotting.plot3d(pos_indef_B[0], (x, -6000, 6000), (y, -3000, 3000))

In [None]:
xgB, ygB = np.meshgrid(np.linspace(-6000,6000,40), np.linspace(-3000,3000,40))
gB = sympy.lambdify(Y, pos_indef_B[0])
WB = np.array([gB(x1, y1) for x1,y1 in zip(xgB,ygB)])
matem.graf_surfi(xgB, ygB, WB)

### Eigenvalores y Eigenvectores

Si $A$ es una matriz cuadrada, entonces definimos el número $\lambda$ (real o complejo) como **autovalor** (**valor propio** o **eigenvalor**) de $A$ si $A\vec{u} = \lambda \vec{u}$, o equivalentemente si $det(A - \lambda I) = 0$. El vector $\vec{u}$ se llama autovector (vector propio o eigenvector) de $A$. El conjunto de todos los autovalores de la matriz $A$ se denomina espectro de $A$.

In [None]:
A

In [None]:
def eigen_land(Mat):
    # Cálculo de eigenvectores
    w, v = np.linalg.eig(Mat)  # w: eigenvalues, v: eigenvectors

    # Impresión de los eigenvalores y eigenvectores
    print('eigenvalores = {}'.format(w))
    print('eigenvectores:\n {} \n {}'.format(v[:,0], v[:,1]))

    # Cálculo del ángulo entre los vectores.
    e0 = v[:,0] / np.linalg.norm(v[:,0])
    e1 = v[:,1] / np.linalg.norm(v[:,1])
    angulo = np.arccos(np.dot(e0, e1)) * 180 / np.pi
    print('ángulo entre eigenvectores = {}'.format(angulo)) 
    
    return w, v

In [None]:
wA, vA = eigen_land(np.array(A, dtype=float))

In [None]:
B

In [None]:
wB, vB = eigen_land(np.array(B, dtype=float))

In [None]:
matem.plot_vectors([vA[:,0], vA[:,1], vB[:,0], vB[:,1]], ['$e_0^A$','$e_1^A$','$e_0^B$','$e_1^B$'])

Recordemos que: $A\vec{u} = \lambda \vec{u}$

In [None]:
u = vA[:,0]
v1 = np.array(A, dtype=float) @ u
v1

In [None]:
wA[0] * u

In [None]:
matem.plot_vectors([v1, u], ['A * u','u'])

### Forma cuadrática

Recordemos la forma cuadrática:

$ f(x) = \dfrac{1}{2} \mathbf{x}^T A \mathbf{x} - \mathbf{x}^T \mathbf{b} + c $

$
A =
\left[
\begin{array}{cc}
3 & 2 \\
2 & 6
\end{array} \right],
x =
\left[
\begin{array}{c}
x_{0} \\
x_{1}
\end{array} \right],
b =
\left[
\begin{array}{c}
2\\ -8
\end{array}
\right], 
c =
\left[
\begin{array}{c}
0\\ 0
\end{array}
\right], 
$

$ f^\prime(x) = \dfrac{1}{2} A^T \mathbf{x} + \dfrac{1}{2} A \mathbf{x} - \mathbf{b} $

- Cuando $A$ es simétrica: $ f^\prime(x) = A \mathbf{x} - \mathbf{b} $
- Entonces un punto crítico de $f(x)$ se obtiene cuando $ f^\prime(x) = A \mathbf{x} - \mathbf{b} = 0$, es decir cuando $A \mathbf{x} = \mathbf{b}$


In [None]:
b = sympy.Matrix([2, -8])
X = sympy.Matrix([x, y])

In [None]:
print(b, type(b))
print(X, type(X))

In [None]:
A

In [None]:
b

In [None]:
X

Calculando la forma cuadrática con **sympy**.

$$ 
f(x) = \dfrac{1}{2} \mathbf{x}^T A \mathbf{x} - \mathbf{x}^T \mathbf{b} + c 
$$


In [None]:
f = 0.5 * X.T @ A @ X - X.T @ b
f

In [None]:
sympy.simplify(f)

Observamos que $f$ es una función cuadrática positiva. 

In [None]:
sympy.plotting.plot3d(f[0], (x, -3, 6), (y, -8, 6))

In [None]:
xg, yg = np.meshgrid(np.linspace(-3,8,15), np.linspace(-8,3,15))
g = sympy.lambdify(X, f[0])
W = np.array([g(x1, y1) for x1,y1 in zip(xg,yg)])
matem.graf_surfi(xg, yg, W)

El gradiente de $f$ es $ f^\prime(x) = A \mathbf{x} - \mathbf{b} $

In [None]:
fp = A @ X - b
fp

In [None]:
print(fp) 
print(type(fp))

In [None]:
print(fp[0], type(fp[0]))
print(fp[1], type(fp[1]))

Otra manera de calcular el gradiente es como sigue:

In [None]:
Df = sympy.Matrix(f).jacobian(X)
Df

In [None]:
print(Df)
print(type(Df))

In [None]:
print(Df[0], type(Df[0]))
print(Df[1], type(Df[1]))

Para ver cómo se comporta el gradiente de $f$, usemos **matplotlib**:

In [None]:
f1 = sympy.lambdify(X, Df[0])
f2 = sympy.lambdify([x, y], Df[1])

U=[f1(x1, y1) for x1,y1 in zip(xg,yg)]
V=[f2(x1,y1) for x1,y1 in zip(xg,yg)]

fig = plt.figure(figsize=(6,4))
plt.quiver(xg,yg,U,V)
plt.gca().set_aspect('equal')
plt.show()

In [None]:
fig = plt.figure(figsize=(6,4))
plt.contour(xg, yg, W, levels=20, linewidths = 1.0, cmap='hot',alpha=0.5)
plt.quiver(xg, yg, U, V,zorder=5)
plt.gca().set_aspect('equal')
plt.show()

### Inversa

$$
\left[
\begin{array}{ccc}
1 & 2 & 3 \\
3 & 6 & 2 \\
2 & 0 & 1
\end{array}
\right] 
\left[ 
\begin{array}{c}
x \\ y \\ z 
\end{array}
\right]
= 
\left[ 
\begin{array}{c}
1 \\ 2 \\ 3 
\end{array}
\right]
$$

In [None]:
M = sympy.Matrix([[1, 2, 3], [3, 6, 2], [2, 0, 1]])
M

In [None]:
MI = M.inv()
MI

In [None]:
M * MI

In [None]:
b = sympy.Matrix([1, 2, 3])
b

In [None]:
sol = MI * b 
sol

In [None]:
M * sol

### Descomposición LU

In [None]:
L, U, perm = M.LUdecomposition()
L

In [None]:
U

In [None]:
perm

In [None]:
L * U

In [None]:
M

In [None]:
b

In [None]:
sol_LU = M.LUsolve(b)
sol_LU

In [None]:
M * sol_LU

In [None]:
from scipy.linalg import lu

p, l, u = lu(M)

In [None]:
p

In [None]:
l

In [None]:
u

In [None]:
l @ u

### Descomposición QR

In [None]:
Q, R = M.QRdecomposition()

In [None]:
Q

In [None]:
R

In [None]:
Q * R

In [None]:
q, r = np.linalg.qr(M)

In [None]:
q

In [None]:
r

In [None]:
q @ r

### Descomposición de Cholesky

In [None]:
L = np.linalg.cholesky(np.array(M, dtype=float))

In [None]:
A

In [None]:
L = np.linalg.cholesky(np.array(A, dtype=float))

In [None]:
L

In [None]:
L @ L.T