### Python Basico II

In [22]:
import numpy as np # alias parapoder llamarla, como una especie de apodo
import scipy as sp 
import pandas as pd 
import matplotlib.pyplot as plt 
import time 

print(np.__version__)

1.26.4


### Numpy

In [4]:
# Para trabajar con vectores y matrices
rng = np.random.default_rng(0) # Para generar números aleatorios que depende de una semilla

a = np.array([1,2,3,4,5], dtype=float) # lo transformo en vector a partir de una lista. Ya no hay comas si no puntos
print(a)
# otra forma de crear lista
b = np.arange(0,10,2) # crea un vector con los números comprendidos entre 0 y 10 saltando de 2 en 2
c = np.linspace(0,1,5) # igual, entre 0 y 1 lo divido entre 5
Z = np.zeros((3,4)) # matriz de zeros que tenga 3x4
I = np.eye(3) # matriz identidad de tamaño 3x3

print(b)
print(c)
print(Z)
print(I)

[1. 2. 3. 4. 5.]
[0 2 4 6 8]
[0.   0.25 0.5  0.75 1.  ]
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [11]:
#Como acceder a los elementos de un array
X = np.array(([1,2,3],[4,5,6],[7,8,9]))
print(X)
print(X[1,1])
print(X[1,:])
print(X[1:,1:])

mask = X%2 == 0
print("X mask:",X[mask])


[[1 2 3]
 [4 5 6]
 [7 8 9]]
5
[4 5 6]
[[5 6]
 [8 9]]
X mask: [2 4 6 8]


In [16]:
Y = rng.normal(loc=0., scale=1.0, size=(4,3))
print('Y: \n', Y)
print(Y.mean()) # el valor medio
print(Y.mean(axis=0)) # el valor medio de las columnas
print(Y.sum(axis=1)) # la suma de las filas

Y: 
 [[ 1.80163487  1.31510376  0.35738041]
 [-1.20831863 -0.00445413  0.65647494]
 [-1.28836146  0.39512206  0.42986369]
 [ 0.69604272 -1.18411797 -0.66170257]]
0.10872230761290506
[0.00024937 0.13041343 0.19550412]
[ 3.47411905 -0.55629783 -0.46337571 -1.14977781]


### Vectorización

In [None]:
## Con esto podemos operar igual que en matemáticas, de forma vectorizada
U = np.random.rand(1000000)
V = np.random.rand(1000000)

z = 0
t1 = time.time()
for u,v in zip(U,V): # para hacer bucle de matriz
    z = z + u*v # resuelve el prod. escalar
t2 = time.time()
print(f'Producto escalar {z} en tiempo: {(t2-t1)*1000} ms')

# Pero con nunpy se tarda menos, como se puede demostrar más abajo
t1 = time.time()
z = np.dot(U,V)
t2 = time.time()
print(f'Producto escalar {z} en tiempo: {(t2-t1)*1000} ms')

Producto escalar 249964.4090809382 en tiempo: 199.9797821044922 ms
Producto escalar 249964.40908094024 en tiempo: 20.44391632080078 ms


In [None]:
## Otro ejemplo de como es más rápido usar las librerias
n = 1000
A = np.random.rand(n,n)
U = np.random.rand(n)

t1 = time.time()
V = np.zeros_like(U)
for i in range(n):
    for j in range(n):
        V[i] += A[i,j]*U[j]
t2 = time.time()
print(f'Producto de AU {V[n//2]} en tiempo: {(t2-t1)*1000} ms')

t1 = time.time()
V = A@U
t2 = time.time()
print(f'Producto de AU {V[n//2]} en tiempo: {(t2-t1)*1000} ms')


Producto de AU 246.6661276990496 en tiempo: 359.74764823913574 ms
Producto de AU 246.66612769904975 en tiempo: 1.0008811950683594 ms


### Broadcasting

In [7]:
U = np.array([1,2,3,4,5])
k = 100
V = U+k
print(V)

[101 102 103 104 105]


In [12]:
A = np.reshape(range(1,7), (2,3)) # esto es para darle tamaño a la matriz
print('A',A)
B = np.array([100,200,300])
C = A+B
print('C', C)

A [[1 2 3]
 [4 5 6]]
C [[101 202 303]
 [104 205 306]]


In [None]:
# Si en vez de lo de arriba hago lo mismo pero B es de 1x2? NO, tienen que tener el mismo número de columnas
# Para arrglarlo hay que especificar si el vector es fila o columna
# Nosotros lo vamos a utilizar para matrices de datos, en muchas ocasiones se necesita que estén estandarizadas y lo que se hace es sacar la media y dividir entre la desviación típica
A = np.reshape(range(1,7), (2,3)) # esto es para darle tamaño a la matriz
print('A',A)
B = np.array([100,200]).reshape((2,1))
print(B)
C = A+B
print('C', C)

A [[1 2 3]
 [4 5 6]]
[[100]
 [200]]
C [[101 102 103]
 [204 205 206]]


In [None]:
data = rng.normal(size=(4,3))
print('Data: \n, data')

#media = np.mean(data, axis=0, keepdims=True) # Muy importante el keepdims, para que mantenga siempre las medidas
media = data.mean(axis=0).reshape(1,-1) # quiero que tenga una fila y el resto me lo organizas en esa otra variable

print(media)

data_std = (data-media)/data.std(axis=0,keepdims=True) # al ser vector fila la operación se hace correctamente. Lo del final es la desviación estandar de data
# a data le ha quitado la media de su columna y la ha dividido entre la desviación típica de esa columna para obtener los datos en estandarizados

NameError: name 'rng' is not defined