## Creando Arrays

Numpy nos da varios métodos muy eficientes para poder crear arrays desde 0. El primero es *arange*. Veamos algunos ejemplos.

In [4]:
import numpy as np

my_array = np.arange(20)
print(my_array)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


In [5]:
my_array = np.arange(10,15)
print(my_array)

[10 11 12 13 14]


In [6]:
my_array = np.arange(20,40,2)
print(my_array)

[20 22 24 26 28 30 32 34 36 38]


Si queremos un arreglo de ceros, usamos el metodo *zeros*. 

In [15]:
print(np.zeros(3))
print('')
my_array = np.zeros((3,2,1))
print(my_array)
print('la dimension del arreglo es:',my_array.ndim)

[0. 0. 0.]

[[[0.]
  [0.]]

 [[0.]
  [0.]]

 [[0.]
  [0.]]]
la dimension del arreglo es: 3


En el codigo anterior, hemos creado un tensor de dimension 3, donde hay tres grupos diferentes, y en cada grupo hay un matriz de 2x1. Igualmene, existe el metodo *ones* para crear arreglos exclusivamente con 1's.

Otro metodo muy importante es *linspace*, cuyos argumentos son un inicio, un final, y el tamaño del arreglo

In [19]:
my_array = np.linspace(0,5,11)
print(my_array)
print(f'tamaño del arreglo {my_array.shape[0]}')

[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5. ]
tamaño del arreglo 11


Para los amantes del algebra lineal, es muy util crear una matriz diagonal de solo unos

In [20]:
my_array = np.eye(4)
print(my_array)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


Para generar valores aleatorios, tenemos varias opciones

- tensores, matrices, con numeros aleatorios entre 0 y 1: rand
- enteros aleatorios, tambien matrices y tensores: randint

In [31]:
print(np.random.rand())
print('')
my_array = np.random.rand(2)
print(my_array)
my_tensor = np.random.rand(2,1,3)
print('')
print(my_tensor)

0.7050683112861855

[0.53365617 0.71963727]

[[[0.56389271 0.78953149 0.53542302]]

 [[0.17013439 0.77979397 0.32482876]]]


In [38]:
print(np.random.randint(5,10))
print('')
print('matriz')
my_array = np.random.randint(5,10,(2,2))
print(my_array)
my_tensor = np.random.randint(0,25,(3,2,1))
print('')
print('tensor')
print(my_tensor)


5

matriz
[[9 9]
 [7 9]]

tensor
[[[12]
  [17]]

 [[23]
  [ 0]]

 [[11]
  [18]]]


## Shape and Reshape

- Shape: identificar las formas de un arreglo

In [41]:
import numpy as np

my_array = np.random.randint(-5,5,(2,3))
print(my_array)
print('')
print(f'el arreglo tiene {my_array.shape[0]} filas, y {my_array.shape[1]} columnas')

[[ 1 -3 -1]
 [ 4 -1  2]]

el arreglo tiene 2 filas, y 3 columnas


- Reshape: cambiar la forma del arreglo

In [42]:
my_array = my_array.reshape(6,1)
print(my_array)

[[ 1]
 [-3]
 [-1]
 [ 4]
 [-1]
 [ 2]]


In [43]:
my_array = my_array.reshape(3,2)
print(my_array)

[[ 1 -3]
 [-1  4]
 [-1  2]]


In [46]:
my_tensor = my_array.reshape(2,3,1)
print(my_tensor)

[[[ 1]
  [-3]
  [-1]]

 [[ 4]
  [-1]
  [ 2]]]


Hay otra forma de aplicar *reshape* obteniendo el mismo resultado, pero con una sintaxis diferente

In [48]:
my_array = np.random.randint(-2,2, (4,4))
print(my_array)
print('')
np.reshape(my_array, (2,2,4))

[[ 1 -2 -1  1]
 [-1  0  1 -1]
 [-2  0 -1  1]
 [-1  0 -1  0]]



array([[[ 1, -2, -1,  1],
        [-1,  0,  1, -1]],

       [[-2,  0, -1,  1],
        [-1,  0, -1,  0]]])

Para el caso anterior, hemos aplicado a reshape a una matriz 4x4, y ahora tenemos un tensor donde hay dos grupos, y en cada grupo hay una matriz de 2x4.

Tambien es posible ver como se hace el *reshape* en otros lenguajes, veamos el caso de *C* y *Fortran* donde los hace de una manera muy distinta. ¿Ves la diferencia?

In [54]:
my_array = my_array = np.random.randint(-4,4, (2,4))
print('matriz original')
print(my_array)

print('')
print('Como lo haria C')
print(np.reshape(my_array,(4,2), 'C'))

print('')
print('Como lo hace Fortran')
print(np.reshape(my_array,(4,2), 'F'))

print('')
print('Como lo hace Python')
print(np.reshape(my_array,(4,2)))

matriz original
[[ 0  3  2  0]
 [-3 -2 -1  0]]

Como lo haria C
[[ 0  3]
 [ 2  0]
 [-3 -2]
 [-1  0]]

Como lo hace Fortran
[[ 0  2]
 [-3 -1]
 [ 3  0]
 [-2  0]]

Como lo hace Python
[[ 0  3]
 [ 2  0]
 [-3 -2]
 [-1  0]]


Además, existe la opción de hacer reshape según como esté optimizado nuestro computador. En este caso es como en C. La opcion es 'A'

In [55]:
print('matriz original')
print(my_array)

print('')
print('Como esta optimizado guardado en el PC')
print(np.reshape(my_array,(4,2), 'A'))


matriz original
[[ 0  3  2  0]
 [-3 -2 -1  0]]

Como esta optimizado guardado en el PC
[[ 0  3]
 [ 2  0]
 [-3 -2]
 [-1  0]]


## Funciones Principales de Numpy

Numpy tiene muchas funciones y a continuacion veremos las mas usadas. Para este ejemplo, usare una *funcion de probabilidad* uniforme para obtener muestras aleatorias entre 0 y 1. Aqui creo un matriz de 3x2 con dichas muestras

In [66]:
import numpy as np

# Randomo_sample 
my_array = np.random.random_sample((3,2))
print(my_array)

[[0.4443386  0.53973041]
 [0.52358638 0.36867462]
 [0.17169436 0.18104805]]


Obteniedno el maximo y minimo, con max y min

In [64]:
print('el maximo valor es:', np.max(my_array))
print('el minimo valor es:', np.min(my_array))

el maximo valor es: 0.9468757474120865
el minimo valor es: 0.5223273718830952


### Hallando maximos y minimos por columnas

Si queremos hallar dichos valores por eje o *axis*. 

#### Ejemplo:

Hallar los valores maximos y minimos de cada una da las columnas, nos retornara dos valores. 


In [73]:
print(np.max(my_array,0))
print('')

maximos = my_array.max(0)

i = 0
for valor in maximos:
    print(f'el valor maximo de la columna {i} es {valor}')
    i+=1


[0.52358638 0.53973041]

el valor maximo de la columna 0 es 0.5235863789005308
el valor maximo de la columna 1 es 0.5397304107727927


### ¿Y para saber cual es la posicion del maximo y minimo?

Suponga queremos saber en que posicion estan los maximos por fila. Primero verifiquemos cuales son los maximos. Posteriormente usaremos el metodo *argmax*. Donde primero lo encontro

In [86]:
my_array = np.random.randint(0,10,(4,5)).reshape(2,10)
print(my_array)
print('')
print(my_array.max(1))
print('')
print(my_array.argmax(1))



[[7 5 8 8 5 8 0 4 8 4]
 [9 8 5 3 7 4 6 5 2 4]]

[8 9]

[2 0]


Veamolo mas bonito

In [87]:
maximos = my_array.max(1)
arg_max_fila = my_array.argmax(1)

i=0
for valor in maximos:
    print(f'el valor maximo de la fila {i} es {valor}. Y esta en la posicion {arg_max_fila[i]}')
    i+=1

el valor maximo de la fila 0 es 8. Y esta en la posicion 2
el valor maximo de la fila 1 es 9. Y esta en la posicion 0


### Y la distancia de maximo a minimo o pico a pico

En este caso lo haremos primero de toda la matriz, y luego por columna

In [91]:
print(my_array)
print('')
print('distancia pico a pico',my_array.ptp())
print('')
print('ptp por columna',my_array.ptp(0))

[[7 5 8 8 5 8 0 4 8 4]
 [9 8 5 3 7 4 6 5 2 4]]

distancia pico a pico 9

ptp por columna [2 3 3 5 2 4 6 1 6 0]


### Funciones Estadisticas

Sea un arreglo de 30 numeros aleatorios del 50 al 70 que representan los pesos en Kg de un lote de cerdos. Generemos el arreglo y ordenemolo

In [121]:
my_array = np.random.randint(50,70,30)
my_array.sort()
print(my_array)

[51 51 53 53 54 54 55 56 57 58 58 60 60 61 61 62 62 62 62 62 64 64 65 65
 67 67 67 67 69 69]


#### Mediana

Primero manualmente, y luego con numpy. Recuerda la mediana es el valor que esta justo en la mitad. Y como es un conjunto par, es equivalente al promedio de los dos valores que estan justo en la mitad.

Ambos valores deben ser iguales

In [122]:
print(my_array[-15])
print(my_array[14])
print('')

mediana = my_array[-15], my_array[14]

print('mediana = ', np.average(mediana))


62
61

mediana =  61.5


In [123]:
np.median(my_array)

61.5

#### Desviacion estandar, Media y Varianza

In [124]:
print(f'el conjunto de datos tiene una STD de {my_array.std()} y media {my_array.mean()}')
print(f'la varianza({my_array.var()}) es el cuadrado de la STD({my_array.std()})')

el conjunto de datos tiene una STD de 5.302410353372847 y media 60.53333333333333
la varianza(28.115555555555556) es el cuadrado de la STD(5.302410353372847)


#### Cuartiles y Percentiles

Usar *percentile*:

- El percentil 50 debe coincidir con la mediana
- El percentil 25 debe coincidir con el primer cuartil(Q1)
- El percientil 75 debe coincidir con el ultimo cuartil(Q3)

No encontre una funcin especifica para los cuartiles, pero creo se puede hallar con la misma funcion

In [128]:
print(my_array)
print('')
print('percentil(50) = ', np.percentile(my_array,50))

[51 51 53 53 54 54 55 56 57 58 58 60 60 61 61 62 62 62 62 62 64 64 65 65
 67 67 67 67 69 69]

percentil(50) =  61.5


In [133]:
print(np.percentile(my_array,25))
print(np.percentile(my_array,75))


56.25
64.75


### Concatenando arreglos

In [142]:
matriz = np.array([[1,2],[3,4]])
my_array = np.array([5,6])
print(matriz)
print(my_array)

[[1 2]
 [3 4]]
[5 6]


In [143]:
np.concatenate((matriz,my_array), axis=0)

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

Acaba de generar un error porque tienen diferentes dimensiones

In [144]:
print(matriz.ndim, my_array.ndim)

2 1


Entonces llevemos al arreglo a la misma dimension

In [145]:
my_array = np.expand_dims(my_array,axis=0)
print(my_array)

[[5 6]]


In [148]:
np.concatenate((matriz, my_array), axis=0)

array([[1, 2],
       [3, 4],
       [5, 6]])

Y finalmente hemos resuelto el error y concatenado a la matriz y al vector por filas

#### Ejemplo.

Concatene el vector y la matriz anteriores pero por columnas

In [149]:
matriz = np.array([[1,2],[3,4]])
my_array = np.array([5,6])
print(matriz)
print(my_array)

[[1 2]
 [3 4]]
[5 6]


Necesitamos que el vector sea de dimensions 2x1. Asi que podemos usar el comando *reshape* pero esta vez, a modo de practica, expandamos las dimensiones.

Tambien se hubiera podido hacer con la transpuesta

In [150]:
my_array = np.expand_dims(my_array, axis=1)
print(my_array)

[[5]
 [6]]


In [151]:
np.concatenate((matriz, my_array), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])