# Unidad 3 – Clase 1: Procesamiento, análisis y visualización de datos/señales

![](../imagenes/workshop_logo_300x200.png)

## Índice

* [Librerías para manipulación de datos numéricos](#Librerías-para-manipulación-de-datos-numéricos)
    * [Comenzando a usar Numpy](#Comenzando-a-usar-Numpy)
    * [Importando la libreria y creando un array](#Importando-la-libreria-y-creando-un-array)
* [Arrays de datos](#Arrays-de-datos)
    * [Listas y arrays](#Listas-y-arrays)
    * [Tipos de datos](#Tipos-de-datos)
    * [Longitud y dimensiones de un array](#Longitud-y-dimensiones-de-un-array)
    * [Indizado en arrays](#Indizado-en-arrays)
    * [Operaciones matematicas entre arrays](#Operaciones-matematicas-entre-arrays)
    * [Broadcasting](#Broadcasting)
    * [Otras formas de crear arrays](#Otras-formas-de-crear-arrays)
    * [Aplicando funciones matematicas](#Aplicando-funciones-matematicas)
* [Referencias](#Referencias)
* [Licencia](#Licencia)

## Librerías para manipulación de datos numéricos

### Comenzando a usar Numpy

Numpy es la librería dedicada a definir vectores y matrices y realizar operaciones básicas entre ellos.

El objeto principal con el que se trabaja en numpy es un **array** de una o varias dimensiones. El mismo contiene elementos, en general de formato numérico.  Se pueden definir las siguientes características para un array de numpy:

* Los elementos que lo componen son todos de un mismo tipo o formato.
* Cuenta con una longitud, igual a la cantidad de elementos que contiene por fila; y una cantidad de ejes o dimensiones, igual a la cantidad de filas que contiene.
* Cada elemento del array posee un índice que denota su ubicación dentro del mismo.

### Importando la libreria y creando un array

Para utilizar Numpy en nuestro código, primero debemos importarla utilizando el comando `import numpy`. Existen varias formas de importar librerías en  Python. La primera es ingresando `import numpy as np`, y la segunda consiste en ingresar `from numpy import * `. 
Veamos en el ejemplo, cómo ‘llamamos’ a la misma para utilizarla en nuestro código. 

Una vez importada la librería, podemos crear un array de datos. Para hacerlo, utilizamos el objeto `numpy.array` de la siguiente manera:

In [1]:
# 1° forma
import numpy

a = numpy.array([1,2,5,9])

In [2]:
# 2° forma
from numpy import *

a = array([1,2,5,9])

In [3]:
# 3° forma
import numpy as np

a = np.array([1,2,5,9])

Por convención general, se suele utilizar la tercera forma para la importación de numpy. Es una forma de abreviar el nombre de la librería, y mantener la referencia de que estamos utilizando elementos de la misma. Esto nos importa para mantener cierto orden en nuestro código, por más que parezca tedioso estar anteponiendo 'np' cada vez que creamos numpy. En los ejemplos subsiguientes, vamos a considerar que se utilizó este método.

## Arrays de datos

## Listas y arrays

Nótese que al crear arrays, ésto se hace a partir de una lista, es decir que los **datos almacenados en formato de lista se convierten automáticamente en arrays**. Para ejemplificarlo mejor: 

In [4]:
# creamos el mismo array 'a' a partir de una lista

lista = [1,2,5,9]
a = np.array(lista)

Pero, mientras en las listas se pueden incluir elementos de distinto tipo, **en el array todos deben ser un mismo tipo de datos**.

In [5]:
# otra lista con datos de distinto tipo

otra_lista = ["bla", 1, True, 3.14]

# si la intentamos convertir en array, ¿fracasamos?:

x = np.array(otra_lista)

# le pedimos a la consola que nos muestre el array
x

array(['bla', '1', 'True', '3.14'], dtype='<U4')

Vemos que el array se crea a partir de una lista con elementos de distinto tipo. Sin embargo, le asigna a todos un mismo formato, en este caso un string del tipo *Unicode* con longitud igual a 4.

## Tipos de datos

Los **argumentos** que se deben indicar para crear el array son dos: los **elementos que contendrá**, que se ingresan en forma de lista, y el **tipo de datos** que tendrá la lista. En los ejemplos anteriores no especificamos el tipo de datos, ya que éste se asigna automáticamente al crear la lista. No obstante, es recomendable indicarlo siempre ya que cada tipo de datos ocupa un espacio en memoria distinto.

Los tipos de datos que podemos utilizar dentro de un array son los siguientes:
* **Números enteros** de 8, 16, 32 y 64 bits, con signo y sin signo.
* **Números complejos** de 64 y 128 bits.
* **Números de punto flotante** de 16, 32, 64 y 128 bits
* **Booleanos** (‘True’ o ‘False’), **strings**, **bytes...**

En el caso del array 'a' que creamos anteriormente, el formato que se asigna automáticamente es un entero de 64 bits con signo (int64). Nos resulta conveniente utilizar un formato entero sin signo y de 8 bits, de acuerdo a los datos que contiene. El formato se especifica de la siguiente forma:


In [6]:
b = np.array([1,2,5,9], dtype = np.uint8)

# la consola nos muestra el array
b

array([1, 2, 5, 9], dtype=uint8)

En este caso, definimos un array 'b' con un formato adecuado. Entonces, ¿cómo elegimos un tipo de datos conveniente para nuestros arrays? En la siguiente tabla podemos ver los rangos de valores para cada tipo de dato:

| Tipo | Rango | Precisión |
| ---  | ---   | --- |
| int8 | -128 a 127 | |
| int16 | -32768 a 32767 | |
| int32 | -2147483648 a 2147483647 | |
| int64 | -9223372036854775808 a 9223372036854775807 | |
| uint8 | 0 a 255 | |
| uint16 | 0 a 65535 | |
| uint32 | 0 a 4294967295 | |
| uint64 | 0 a 18446744073709551615 | |
| float16 | ± 65504 | Hasta 3 dígitos decimales |
| float32 | ± 10^(38.53) | Hasta 6 dígitos decimales |
| float64 | ± 10^(308.25) | Hasta 16 dígitos decimales |

De todo este despliegue de números podemos extraer las siguientes premisas:

* Si utilizamos números **enteros positivos**, es conveniente usar un **formato sin signo** para aprovechar el rango de la mejor manera posible.
* Si deseamos representar valores de **números reales**, utilizamos un **formato float**.
* **Siempre debemos formatear nuestros arrays**. Si no lo especificamos, estaremos utilizando 64 bits (float o entero) para definir a cada elemento de la lista. Esto generalmente no es necesario, y es contraproducente en dos sentidos: consume excesivo espacio en memoria y afecta a la velocidad de los algoritmos, lo que se hace notable cuando trabajamos con arrays extensos (por ejemplo, un archivo wav de varios minutos).

Contamos con algunos **comandos útiles para saber el tamaño de un array y de sus elementos** (cantidad de bytes que ocupa en memoria):


In [7]:
# devuelve el número de bytes del array 'a'
bytes_array_a = a.nbytes

# devuelve el número de bytes que ocupa cada elemento de 'a'
bytes_item_a = a.itemsize

print ("El array 'a' ocupa %r bytes, y cada uno de sus elementos ocupa %r bytes. \n" 
       % (bytes_array_a, bytes_item_a))

print ("Éstos son todos los formatos que admite Numpy:")
# devuelve el número de bytes que ocupan los elementos de cada tipo de datos disponibles en Numpy
np.nbytes

El array 'a' ocupa 32 bytes, y cada uno de sus elementos ocupa 8 bytes. 

Éstos son todos los formatos que admite Numpy:


{numpy.bool_: 1,
 numpy.int8: 1,
 numpy.uint8: 1,
 numpy.int16: 2,
 numpy.uint16: 2,
 numpy.int32: 4,
 numpy.uint32: 4,
 numpy.int64: 8,
 numpy.uint64: 8,
 numpy.int64: 8,
 numpy.uint64: 8,
 numpy.float16: 2,
 numpy.float32: 4,
 numpy.float64: 8,
 numpy.float128: 16,
 numpy.complex64: 8,
 numpy.complex128: 16,
 numpy.complex256: 32,
 numpy.object_: 8,
 numpy.bytes_: 0,
 numpy.str_: 0,
 numpy.void: 0,
 numpy.datetime64: 8,
 numpy.timedelta64: 8}

## Longitud y dimensiones de un array

Los ejemplos mencionados hasta ahora han sido de arrays de una dimensión. Podemos crear **arrays de varias dimensiones** de la siguiente manera:

In [8]:
# array de dos dimensiones y longitud igual a 3
b = np.array([[1,2,3],[3,2,1]], dtype = np.uint8)

# array de tres dimensiones y longitud igual a 2
c = np.array([[1,-1],[0,1],[-5,2]], dtype = np.int8)

La **longitud** representa la cantidad de elementos que posee el array en sus filas. Su valor, y el de las dimensiones de un array, se pueden obtener de la siguiente manera: 

In [9]:
# devuelve la forma de un array, de la siguiente forma (n° de filas, n° de columnas)
(dimensiones, longitud) = b.shape

## Indizado en arrays

Los **índices** se utilizan para indicar la posición de cada elemento de un array. De esta manera, podemos acceder al valor de una posición específica o extraer el valor de un grupo de elementos. Cada elemento posee una posición *[i,j]*, donde 'i' representa el número de fila y 'j' representa el número  de columna en que se ubica.

In [10]:
# devuelve el elemento de la posición [1,2] del array 'a', igual a 2.
print(b[1,2])

# devuelve el elemento de la posición [2,0] del array 'b', igual a -5.
print(c[2,0])


1
-5


Es importante tener en cuenta que los índices que se asignan se inician desde 0, por lo que si tengo 4 elementos, sus índices irán del rango de 0 a 3.
Podemos **desplazarnos** dentro de una array, y **seleccionar** un rango de elementos utilizando la notación *[i: j: k]*, donde 'i' representa el índice a partir del cual nos desplazamos, 'j' es el índice en el cual nos detenemos y 'k' es el paso con el cual nos desplazamos a los elementos subsiguientes. 

In [11]:
fibo = np.array([0,1,1,2,3,5,8,13,21,34], dtype = np.uint8)

# desplazamiento a partir del 1° elemento, hasta el 8°, en pasos de cada 2 elementos
print (fibo[1:8:2])

# desplazamiento entre las mismas posiciones en pasos de a 1
print (fibo[1:8])

# desplazamiento desde la posición n-5 hasta la posición 9, siendo n la cantidad de elementos.
print (fibo[-5:9])

# desplazamiento desde la posición 7 hasta la posición n-8, en pasos de 1 hacia atrás
print (fibo[7:-8:-1])

# desplazamiento desde la posición 3 hasta el final del array
print (fibo[3:])

# desplazamiento desde el comienzo hasta la posición 6 en pasos de a 2
print (fibo[:6:2])

[ 1  2  5 13]
[ 1  1  2  3  5  8 13]
[ 5  8 13 21]
[13  8  5  3  2]
[ 2  3  5  8 13 21 34]
[0 1 3]


Como se puede ver en el ejemplo, tenemos varias opciones para desplazarnos de distintas maneras. Es posible ir hacia adelante, atrás e indicar las posiciones inicial y final con respecto a la longitud del array.

Para el caso de **matrices**, el desplazamiento varía un poco. Veamos algunos casos.

In [12]:
# definimos la misma secuencia, pero en forma de matriz de 3x3
fibo_mtx = np.array([[0,1,1],[2,3,5],[8,13,21]], dtype = np.uint8)

# el desplazamiento es ahora entre dimensiones, para ver las dos primeras (filas 0 y 1):
print(fibo_mtx[0:2])

# desplazamiento entre los elementos de la 2° columna 
print(fibo_mtx[...,1])

[[0 1 1]
 [2 3 5]]
[ 1  3 13]


La notación *[i , j, k]* sirve para desplazarnos entre filas de una matriz. Por otra parte, podemos acceder a todos los elementos de una columna o fila con la notación *[..., x]* o *[x, ...]* respectivamente, siendo *x* el índice de la columna o fila en la que nos desplazamos.

> **Nota:** Numpy también cuenta con el objeto matrix, que es una subclase del objeto array. La ventaja de usar este objeto es que las operaciones matemáticas son matriciales por defecto, y en un array se hacen elemento a elemento (vamos a este tema en la siguiente sección). A fines prácticos, el array también se puede implementar como matriz, teniendo en consideración lo mencionado anteriormente.

### Operaciones matematicas entre arrays

Las operaciones matemáticas entre arrays se realizan **elemento a elemento**. Esto quiere decir que si sumamos dos arrays 'a' y 'b', el elemento *a[i,j]* se suma con el elemento *b[i,j]*. Por lo tanto, debemos operar entre arrays de iguales tamaños (aunque existen excepciones, las cuales veremos en el apartado ['broadcasting'](#Broadcasting)).

In [13]:
import numpy as np

a = np.array([1,2,3,1], dtype = np.uint8)
b = np.array([2,4,2,1], dtype = np.uint8)

In [14]:
# producto por escalar
5 * a

array([ 5, 10, 15,  5], dtype=uint8)

In [15]:
# suma de arrays (la resta es igual)
a + b

array([3, 6, 5, 2], dtype=uint8)

In [16]:
# producto de arrays (elemento a elemento)
a * b

array([2, 8, 6, 1], dtype=uint8)

In [17]:
# producto matricial entre arrays
a.dot(b)

17

In [18]:
# cociente de arrays
a / b

array([0.5, 0.5, 1.5, 1. ])

In [19]:
# potencia de arrays (?)
a**b

array([ 1, 16,  9,  1], dtype=uint8)

In [20]:
# operación módulo
a % b

array([1, 2, 1, 0], dtype=uint8)

Tenemos una restricción en el caso de las potencias. **Los formatos enteros no admiten potencias negativas**, en esos casos debemos utilizar un formato float para el array de la base.

In [21]:
# si cambio un elemento de 'b' por un número negativo...
b.dtype = np.int8 # ahora necesitamos un formato CON signo para b
b[3] = -1

# aplicar la potencia de 'a elevado a la b' no me funciona
a**b

ValueError: Integers to negative integer powers are not allowed.

In [22]:
# ahora intento de nuevo convirtiendo el formato de 'a' a un float
a = np.array([1,2,3,1], dtype = np.float16)

# y entonces...
a**b

array([ 1., 16.,  9.,  1.], dtype=float16)

### Broadcasting

El término alude a cómo Numpy realiza las operaciones con arrays. En español, se podría traducir como 'expansión' ya que describe lo que sucede al operar entre arrays de distintos tamaños, donde **el array más pequeño se expande a lo largo del array más grande** para poder realizar la operación. De todas formas, hay que tener en cuenta que sólo es posible operar entre arrays bajo una de las siguientes condiciones: las longitudes de ambos son iguales o la de uno de ellos es igual  a 1 (en todos sus ejes).

In [23]:
# Veamos en detalle cómo funciona el broadcasting

# partimos de estos dos vectores
t = np.array([1,2,3,4], dtype = np.int8)
u = np.array([0,5,10], dtype = np.int8)

t.shape, u.shape

((4,), (3,))

En el ejemplo, las longitudes de a y b son distintas. A pesar de que el comando `shape` nos muestra sólo una de las longitudes, podemos trabajar considerando que son de la forma (4,1) y (3,1). Vemos que la primer longitud de ambos es distinta (4 y 3), mientras que la segunda longitud es igual (1 y 1). Ninguna operación puede hacerse bajo estas condiciones. Sin embargo, podemos manipular la forma de ellos para que sea posible operar. Si aplicamos `reshape` a 'u' para que sea de la forma (1,3), sus longitudes serán compatibles. Por un lado tendremos 4 y 1 y por el otro 3 y 1, son distintas pero una de ellas es igual a 1 por lo que se 'expande'.

In [24]:
# cambiamos la forma de 'u' para poder operar
u = u.reshape(3,1)
u

array([[ 0],
       [ 5],
       [10]], dtype=int8)

In [25]:
# ahora los vectores son compatibles
t*u

array([[ 0,  0,  0,  0],
       [ 5, 10, 15, 20],
       [10, 20, 30, 40]], dtype=int8)

In [26]:
t+u

array([[ 1,  2,  3,  4],
       [ 6,  7,  8,  9],
       [11, 12, 13, 14]], dtype=int8)

### Otras formas de crear arrays

Numpy provee funciones para crear ciertos tipos de arrays de común uso. Veamos algunos casos:

In [27]:
# creamos un array de unos
array_unos = np.ones((2,6), dtype = np.uint8)
array_unos

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]], dtype=uint8)

In [28]:
# creamos un array de ceros
np.zeros((3,3), dtype = np.uint8)

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]], dtype=uint8)

In [29]:
# creamos una secuencia creciente de números
sec_numeros = np.arange(10, dtype = np.uint8)
sec_numeros

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=uint8)

In [30]:
# otra secuencia de números
np.linspace(0,5,5, dtype=np.float16)

array([0.  , 1.25, 2.5 , 3.75, 5.  ], dtype=float16)

Podemos utilizar el comando *reshape* para crear secuencias en forma de matriz o modificar la disposición de los elementos de un array que hemos creado previamente. Esto crea un nuevo array, sin modificar o eliminar el original. 

In [31]:
# se indica el número de filas y columnas del nuevo array
sec_numeros.reshape(2,5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]], dtype=uint8)

También es posible reducir un array a una sola dimensión con el comando *ravel*.

In [32]:
np.ravel(array_unos)

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=uint8)

Veamos algunas formas de crear secuencias aleatorias:

In [33]:
# randint = enteros aleatorios - se especifica el rango de valores

rand_sec = np.random.randint(-100, 100, 8, dtype=np.int8)
print(rand_sec)

[-59  -1 -51 -48  34 -36 -45  85]


In [34]:
# rand = array con valores aleatorios entre 0 y 1 - se especifican las dimensiones y longitud del array

rand_sec = np.random.rand(2,3)
print(rand_sec)

[[0.10524048 0.09445885 0.58170041]
 [0.10743143 0.02701648 0.54091471]]


In [35]:
# ranf = floats aleatorios - se especifica la longitud

rand_sec = np.random.ranf(5)
print(rand_sec)

[0.28071245 0.84915187 0.81419045 0.59380492 0.87351174]


### Aplicando funciones matematicas

Numpy dispone de varias funciones matemáticas para aplicar sobre un simple escalar o sobre un array. En esta sección nos enfocaremos en la creación de funciones trigonométricas y logarítmicas específicamente. La lista completa de funciones matemáticas que provee Numpy puede verse haciendo [clic acá](https://docs.scipy.org/doc/numpy/reference/routines.math.html#trigonometric-functions).

Veamos algunos ejemplos:

In [36]:
# multiplico una array por el escalar pi.
x = np.array([0., 0.5, 1., 1.5], dtype = np.float16)*np.pi
x

array([0.  , 1.57, 3.14, 4.71], dtype=float16)

In [37]:
f_seno = np.sin(x)

print(f_seno)

[ 0.000e+00  1.000e+00  9.675e-04 -1.000e+00]


In [38]:
f_coseno = np.cos(x)

print(f_coseno)

[ 1.0000e+00  4.8375e-04 -1.0000e+00 -1.4515e-03]


Entonces, podemos crear arrays para representar funciones matemáticas conocidas. Primero creamos un array para definir una serie de puntos en el dominio de la función y luego aplicamos la función sobre estos puntos.

En los últimos ejemplos, podemos notar que los valores de las funciones seno y coseno se aproximaron a cero pero no fueron exactamente iguales a ese número. Esto se debe a la precisión de los formatos *float*, podemos hacer la prueba de definir *x* con floats de 32 y 64 bits y veremos que los valores se aproximan más al número deseado.

Entonces, ¿cómo podemos crear un array que represente a una función senoidal en el dominio del tiempo? Anteriormente vimos cómo crear secuencias numéricas, y una de las funciones que utilizamos fue *linspace*. Ahora vamos a aprovecharla para crear una representación de una función.

In [39]:
x = np.linspace(0, 5*np.pi, 21, dtype=np.float32)
x

array([ 0.       ,  0.7853982,  1.5707964,  2.3561945,  3.1415927,
        3.9269907,  4.712389 ,  5.497787 ,  6.2831855,  7.0685835,
        7.8539815,  8.6393795,  9.424778 , 10.210176 , 10.995574 ,
       11.7809725, 12.566371 , 13.3517685, 14.137167 , 14.922565 ,
       15.707963 ], dtype=float32)

Con *x* tenemos representados los puntos en el dominio del tiempo, ahora tenemos que generar la función trigonométrica para estos valores.

In [40]:
f_trig_1 = np.cos(x)

print (f_trig_1)

[ 1.0000000e+00  7.0710677e-01 -4.3711388e-08 -7.0710677e-01
 -1.0000000e+00 -7.0710683e-01  1.1924881e-08  7.0710665e-01
  1.0000000e+00  7.0710677e-01  1.3907092e-07 -7.0710659e-01
 -1.0000000e+00 -7.0710653e-01 -2.9006671e-07  7.0710683e-01
  1.0000000e+00  7.0710701e-01 -3.5774640e-08 -7.0710701e-01
 -1.0000000e+00]


Por último, un ejemplo de logaritmos. Nos sirve también para ver cómo utilizar `numpy.power` para aplicar potencias

In [41]:
import numpy as np

p_ref = 2*np.power(10.,-5)
p = np.linspace(p_ref, 1, 100) # la base en número float! -> 10.

p_log = 10*np.log10(p/p_ref)

In [42]:
p_log[-1]

46.98970004336019

## Referencias

 * *Numpy User Guide*, https://www.numpy.org/

 * Scott Shell, *An introduction to Numpy and Scipy*, 2014. 

## Licencia

<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Licencia de Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Este documento se destribuye con una <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">licencia Atribución CompartirIgual 4.0 Internacional de Creative Commons</a>.

© 2018. Infiniem Lab DSP. **infiniemlab.dsp@gmail.com**. Introducción informal a Python3 (CC BY-SA 4.0)