# <span style="color:green"><center>Curso Métodos intensivos de Computación Estadística</center></span>
# <span style="color:green"><center>Big Data</center></span>

# <span style="color:red"><center>Taller de numpy</center></span>

## <span style="color:blue">Autores</span>

1. Oleg Jarma, ojarmam@unal.edu.co 

##   <span style="color:blue">Profesores</span>

2. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
3. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
4. Campo Elías Pardo Turriago, cepardot@unal.edu.co 

##   <span style="color:blue">Asesora Medios y Marketing digital</span>

5. Maria del Pilar Montenegro, pmontenegro88@gmail.com 

## **¿Qué es?**

Numpy es un paquete de python dedicado principalmente al manejo de conjuntos o "arrays". Extendiendo luego al álgebra lineal, matrices y probabilidad

### **¿Por qué  usar arrays de numpy y no listas o tuplas de python?**

Aunque python base tiene listas, el usar arrays es más rápido y consume menos memoria. Algo altamente necesario cuando se hacen operaciones de gran tamaño como puede ser el algebra matricial, por ejemplo.

In [1]:
import numpy as np

## **Creación básica de arrays**

Vamos a crear arrays de distintas dimensiones. Para esto podemos usar números, listas o tuplas.

In [2]:
a=np.array(13) #array de dimensión 0
b=np.array([1,2,3,4]) #array de dimensión 1
c=np.array([[1,2,3,4],[5,6,7,8]]) #array de dimensión 2
d=np.array([[[1,2,3,4],[5,6,7,8]],[[9,10,11,12],[13,14,15,16]]]) #array de dimensión 3

Para revisar el número de dimensiones, usamos `ndim`

In [3]:
print(a.ndim)
print(b.ndim)
print(c.ndim)
print(d.ndim)

0
1
2
3


## **Indexación básica**

el proceso de indexación en numpy es similar al de las listas en python. Cada número implica buscar la posición en cada dimensión del array

In [4]:
print(b[2])
print(c[1])
print(d[1])

3
[5 6 7 8]
[[ 9 10 11 12]
 [13 14 15 16]]


In [5]:
print(b[2])
print(c[1,2])
print(d[1,0,2])

3
7
11


similarmente podemos segmentar arrays como en el las listas de python

In [6]:
print(b[1:4])
print(c[1,1:3])

[2 3]
[6 7]


## **diferentes tipos de datos en el los arrays**

Los arrays no están limitados a números enteros. pueden también tener cadenas, booleanos, o de punto flotante.

In [7]:
frutas=np.array(['Manzana', 'Naranja', 'Uva'])
print(frutas.dtype)

<U7


Podemos manipular el tipo de los datos del array dentro de la función de creación del array, siempre y cuando el cambio sea posible. Por ejemplo podemos pasar integers a strings pero no viceversa

In [8]:
number_to_string=np.array([6,1,2,4,623,8], dtype='S')
print(number_to_string.dtype)

|S3


In [9]:
error_array = np.array(['a', '2', '3'], dtype='i')

ValueError: invalid literal for int() with base 10: 'a'

Podemos también cambiar el tipo en arrays ya existentes

In [10]:
floating_array = np.array([1.1, 2.1, 3.1])

int_array = floating_array.astype('i')
print(int_array)

[1 2 3]


## Forma de los arrays

La forma es distinta a la dimensión. Este se define como el número de elementos de la dimensión. 

In [11]:
print(a.shape)
print(b.shape)
print(c.shape)
print(d.shape)

()
(4,)
(2, 4)
(2, 2, 4)


### Reformar arrays

Podemos cambiar la forma de los arrays. Esto significa aumentar el número de dimensiones o cambiar cuantos elementos hay por dimensión

In [12]:
print(c)
c_1D=c.reshape(1,8)
print(c_1D)
c_4D=c.reshape(4,2)
print(c_4D)

[[1 2 3 4]
 [5 6 7 8]]
[[1 2 3 4 5 6 7 8]]
[[1 2]
 [3 4]
 [5 6]
 [7 8]]


¿Podemos hacer cualquier cambio en la forma? Si, mientras las que se quieren conseguir coincidan con la cantidad de elementos

In [13]:
print(d)

[[[ 1  2  3  4]
  [ 5  6  7  8]]

 [[ 9 10 11 12]
  [13 14 15 16]]]


`d` es un array con 16 elementos, así que podemos hacer reshape con tamaños por ejemplo 1x16, 4x4, 8x2, 2x4x2 Por ejemplo, no podemos hacer 3x5

In [14]:
d.reshape(3,5)

ValueError: cannot reshape array of size 16 into shape (3,5)

In [15]:
d.reshape(2,2,2,2)

array([[[[ 1,  2],
         [ 3,  4]],

        [[ 5,  6],
         [ 7,  8]]],


       [[[ 9, 10],
         [11, 12]],

        [[13, 14],
         [15, 16]]]])

### Dimensión desconocida

Podemos definir el cambio de forma con una dimensión la cual no sabemos el tamaño. Numpy se encargará de definir el tamaño que mejor se ajuste

In [16]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
arr.reshape(3,-1)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Podemos usar la dimensión desconocida para "aplanar" el array a una dimensión

In [17]:
d.reshape(-1)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

### transpuesta

Para transponer el array utilizamos `.T`

In [18]:
print(c)
print(c.T)

[[1 2 3 4]
 [5 6 7 8]]
[[1 5]
 [2 6]
 [3 7]
 [4 8]]


## Iterar arrays

Podemos usar los métodos tradicionales para iterar

In [19]:
for x in d:
    print(x)

[[1 2 3 4]
 [5 6 7 8]]
[[ 9 10 11 12]
 [13 14 15 16]]


Si queremos iterar cada elemento, necesitamos un `for` por cada dimensión

In [20]:
for x in d:
    for y in x:
        for z in y:
            print(z)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16


Esto por supuesto no es óptimo. Así que numpy tiene la función `nditer()` para estos casos

In [21]:
for x in np.nditer(d):
    print(x)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16


## Aplicar operaciones entre arrays

numpy tiene sus propias formas de aplicar operaciones

### Suma
numpy tiene dos funciones, `np.add()` y `np.sum()`. el primero se aplica entre argumentos, el segundo se aplica en n elementos

para que se haga la suma, es necesario que ambos arrays tengan la misma forma

In [22]:
arr1=np.array([[1,2,3],
               [4,5,6]])
arr2=np.array([[6,5,4],
               [3,2,1]])
np.add(arr1,arr2)

array([[7, 7, 7],
       [7, 7, 7]])

In [23]:
arr3=np.array([[1,1,1],[1,1,1]])
print(np.sum([arr1,arr2]))
print(np.sum([arr1,arr2,arr3]))

42
48


Si aplicamos un eje en `np.sum()`, se aplica la suma en ese mismo eje. Por ejemplo, con eje 0, se obtienen los mismos resultados que `np.add()`

In [24]:
np.sum([arr1,arr2, arr3],axis=0)

array([[8, 8, 8],
       [8, 8, 8]])

In [25]:
np.sum([arr1,arr2, arr3],axis=1)

array([[5, 7, 9],
       [9, 7, 5],
       [2, 2, 2]])

### Multiplicación

el primer caso de multiplicación es `np.prod()`, que funciona similar que `np.sum()`

In [26]:
print(np.prod([arr1,arr2]))
print(np.prod([arr1,arr2],axis=0))
print(np.prod([arr1,arr2],axis=1))

518400
[[ 6 10 12]
 [12 10  6]]
[[ 4 10 18]
 [18 10  4]]


Para la multiplicación de matrices usamos `np.matmul()` o `np.dot()`. hay que tener en cuenta la forma de las matrices

In [27]:
np.matmul(arr1, arr2.T)

array([[28, 10],
       [73, 28]])

In [28]:
np.dot(arr1, arr2.T)

array([[28, 10],
       [73, 28]])

Se comportan distinto con matrices de dos dimensiones, para otros casos hacen cosas distintas

In [29]:
np.dot(d,d.reshape(2,4,2))

array([[[[ 50,  60],
         [130, 140]],

        [[114, 140],
         [322, 348]]],


       [[[178, 220],
         [514, 556]],

        [[242, 300],
         [706, 764]]]])

In [30]:
np.matmul(d,d.reshape(2,4,2))

array([[[ 50,  60],
        [114, 140]],

       [[514, 556],
        [706, 764]]])