# Numpy - Arrays

Durante esta sección vamos a trabajar con el tipo de datos "array", aprendiendo como podemos generarlos, recorrerlos, consultarlos, etc. 

## Lección 1 - Creación de arrays

In [3]:
import numpy as np

Comenzamos creando distintos tipos de arrays simples

Un ***ndarray*** es un conjunto multidimensional (generalmente de tamaño fijo) de elementos del mismo tipo y tamaño. El número de dimensiones y elementos en una matriz se define por su forma, que es una tupla de N números enteros no negativos que especifican los tamaños de cada dimensión. El tipo de elementos de la matriz se especifica mediante un objeto de tipo de datos independiente (dtype), uno de los cuales está asociado con cada ndarray.

El constructor a bajo nivel de **ndarray** es *np.ndarray*, pero no se recomienda su uso. Para la creación de arrays, se recomienda usar los métodos:
- [array](https://numpy.org/doc/stable/reference/generated/numpy.array.html#numpy.array): Construye un nuevo array
- [zeros](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html#numpy.zeros): Construye un array de zeros
- [ones](https://numpy.org/doc/stable/reference/generated/numpy.ones.html#numpy.ones): Construye un array vacío

También es intesante el método *dtype*

<img src=https://numpy.org/doc/stable/_images/threefundamental.png>

Vamos a usar dichos métodos para crear nuevos arrays.

#### array

In [18]:
array1 = np.array([1,2,3,4,5,6], dtype = 'int')
print(type(array1))
array1


<class 'numpy.ndarray'>


array([1, 2, 3, 4, 5, 6])

In [27]:
array2 = np.array([[1,2,3],[4,5,6]], dtype = 'int', ndmin=2 )
array2

array([[1, 2, 3],
       [4, 5, 6]])

In [28]:
array3 = np.array([1,2,3], dtype = 'complex')
array3

array([1.+0.j, 2.+0.j, 3.+0.j])

#### zeros

In [29]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [31]:
np.zeros((5,2))

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

#### ones

In [33]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [34]:
np.ones((5,2))

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

#### range

In [37]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [42]:
a.reshape((2,5))

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

## Lección 2 - Tipos de datos

In [2]:
import numpy as np

Python define solo un tipo por cadaclase de datos en particular (solo hay un tipo de entero, un tipo de float, etc.). Esto puede tener sentido en aplicaciones que no necesitan preocuparse por las distintas formas en en que se pueden representar los datos en un ordenador. Sin embargo, cuando trabajamos con el análisis de datos, a menudo necesitamos más control. 

En NumPy, hay 24 nuevos tipos fundamentales de Python para describir diferentes tipos de escalares. Estos descriptores de tipo se basan principalmente en los tipos disponibles en el lenguaje C en el que está escrito CPython, con varios tipos adicionales compatibles con los tipos de Python.

Los diferentes tipos de datos están organizados de manera jerárquica como representa la siguiente figura:

<img src=https://numpy.org/doc/stable/_images/dtype-hierarchy.png>

In [25]:
a = np.array([1,2,3,4], dtype=np.int_)
a

array([1, 2, 3, 4])

In [34]:
bool_array = np.array([[1,0,0,1], [0,1,1,0]], dtype = np.bool)
bool_array

array([[ True, False, False,  True],
       [False,  True,  True, False]])

In [62]:
char_array = np.array(['a','b','c'], dtype = np.chararray)
char_array

array(['a', 'b', 'c'], dtype=object)

Además, cada uno de los tipos de la jerarquía que vemos arriba, poseen tipos de datos con distinto tamaño. Esto significa, capaces de almacenar un número distinto de bits. Por ejemplo: 

Para los ***int*** tenemos:
- int8 &rarr; Máximo 8 bits
- int16 &rarr; Máximo 16 bits
- int32 &rarr; Máximo 32 bits
- int64 &rarr; Máximo 64 bits

Para los ***float*** tenemos:
- float16 &rarr; Máximo 16 bits
- float32 &rarr; Máximo 32 bits
- float64 &rarr; Máximo 64 bits

Podéis encontrar todos los tipos de datos en el siguiente [enlace](https://numpy.org/doc/stable/reference/arrays.scalars.html#built-in-scalar-types)

In [28]:
from sys import getsizeof

a = np.array([1,2,3,4], dtype = np.int8)
b = np.array([1,2,3,4], dtype = np.int64)

print("A", getsizeof(a))
print("B", getsizeof(b))

A 100
B 128


Podemos consultar el tipo de datos de un array con el método *dtype*

In [35]:
print(a.dtype)
print(b.dtype)

print(bool_array.dtype)

int8
int64
bool


In [51]:
dt = np.dtype('int32')
print(dt.type)
dt.type is np.int32

<class 'numpy.int32'>


True

Además, podemos crear tipos de datos con una combinación de 'carácter' + 'nº de bytes'. Los carácter que podemos usar son:

- '?' : boolean
- 'b' : (signed) byte
- 'B' : unsigned byte
- 'i' : (signed) integer
- 'u' : unsigned integer
- 'f' : floating-point
- 'c' : complex-floating point
- 'm' : timedelta
- 'M' : datetime
- 'O' : (Python) objects
- 'S', 'a' : zero-terminated bytes (not recommended)
- 'U' : Unicode string
- 'V' : raw data (void)

In [53]:
dt = np.dtype('f8')
a = np.array([1,2,3,4], dtype = dt)
print(a)
print(a.dtype)

[1. 2. 3. 4.]
float64


In [54]:
dt = np.dtype('int32')
dt.kind

'i'

Un tipo de dato muy importante en Numpy es el NaN, o valor nulo.

In [133]:
nan = np.nan
np.isnan(nan)

True

In [134]:
x = np.array([[1., 2.], [np.nan, 3.], [np.nan, np.nan]])
x

array([[ 1.,  2.],
       [nan,  3.],
       [nan, nan]])

#### El tipo matrix

Los objetos de matriz heredan del ndarray y, por lo tanto, tienen los mismos atributos y métodos que ndarrays. Sin embargo, las matrices solo pueden tener dimensión 2. 

In [55]:
m = np.matrix('1 2 3 ; 4 5 6')
m

matrix([[1, 2, 3],
        [4, 5, 6]])

In [58]:
m = np.mat([[1,2,3], [3,4,5]], dtype = np.float16)
m

matrix([[1., 2., 3.],
        [3., 4., 5.]], dtype=float16)

In [61]:
a = np.array([[1,2,3], [3,4,5]], dtype = np.float16)
print(type(a))
m = np.asmatrix(a)
print(type(m))
m

<class 'numpy.ndarray'>
<class 'numpy.matrix'>


matrix([[1., 2., 3.],
        [3., 4., 5.]], dtype=float16)

## Leccion 3 - Indexado y recorrido de arrays

Podemos consultar un campo del array con los carácteres []. Tenemos que recordar que en python, los indices comienzan por cero, por lo que si queremos consultar el primer elemento de un array lo haríamos de la siguiente manera

In [112]:
a = np.array([0,1,2,3,4,5,6,7,8,9])
print(a[0])
print(a[9])
print(a.shape)
print(a[10])

0
9
(10,)


IndexError: index 10 is out of bounds for axis 0 with size 10

### Slicing

Podemos consultar distintos elementos del array con el slicing. En el slice tenemos que definir: *inicio:fin:paso*

In [113]:
print(a[0:9:2])
print(a[0:8:3])

[0 2 4 6 8]
[0 3 6]


Podemos recuperar los dos últimos elementos, usando valores negativos

In [87]:
a[-2:10]

array([8, 9])

También podemos recorrer los valores de mayor a menor definiendo el tamaño del paso como un nº negativo

In [119]:
a[9::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

También podemos definir solo el inicio, o el fin

In [120]:
a[:5]

array([0, 1, 2, 3, 4])

In [121]:
a[5:]

array([5, 6, 7, 8, 9])

Para los array multidimensionales funciona del mismo modo. Solo tenemos que verlos en forma de matriz, y consultar la fila y columna que deseemos.

In [143]:
a = np.array([[1,2,3], [3,4,5]], dtype = np.int8)
a

array([[1, 2, 3],
       [3, 4, 5]], dtype=int8)

In [144]:
a[1][0]

3

In [145]:
a[1,0]

3

In [146]:
a[1, 0:2]

array([3, 4], dtype=int8)

In [148]:
a[0:2, 0:2]

array([[1, 2],
       [3, 4]], dtype=int8)

Exactamente igual funciona cuando hablamos de un tipo matrix

In [126]:
print(type(m))
m

<class 'numpy.matrix'>


matrix([[1., 2., 3.],
        [3., 4., 5.]], dtype=float16)

In [127]:
m[0]

matrix([[1., 2., 3.]], dtype=float16)

In [128]:
m[0,1] + m[0,0]

3.0

En la lección anterior conocimimos el tipo nan. También podemos consultar este tipo de dato.

In [137]:
x = np.array([[4, 3], [np.nan, 2.], [np.nan, np.nan]])

print(x[np.isnan(x)])
print(x[~np.isnan(x)])

[nan nan nan]
[4. 3. 2.]


### Indexado booleano

In [151]:
a = np.array([0,1,2,3,4,5,6,7,8,9])

a > 4

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

La operación a > 4 nos devuelve un array de True y False. Este mismo array, lo podemos enviar a nuestro array para realizar una consulta.

In [153]:
a[a>4]

array([5, 6, 7, 8, 9])

Veamos otro ejemplo

In [154]:
bool_array = np.array([True, False,True, False,True, False,True, False,True, False])
a[bool_array]

array([0, 2, 4, 6, 8])

In [155]:
a % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [156]:
a[a % 2 == 0]

array([0, 2, 4, 6, 8])

También actuamos de la misma forma cuando el array es de tipo char

In [157]:
char_array = np.array(['Openwebinars', 'Machine Learning', 'Numpy'])
char_array

array(['Openwebinars', 'Machine Learning', 'Numpy'], dtype='<U16')

In [158]:
char_array[char_array == 'Numpy']

array(['Numpy'], dtype='<U16')

### Recorrido

El objeto iterador nditer, introducido en NumPy 1.6, proporciona muchas formas flexibles de visitar todos los elementos de una o más matrices de forma sistemática. Además del iterador nditer, el cual es un poco más complejo, también podemos recorrer los elementos de un array con un simple bucle for.

In [139]:
a = np.array([0,1,2,3,4,5,6,7,8,9])

for valor in a:
    print(valor)

0
1
2
3
4
5
6
7
8
9


Vamos a usar ahora el iterador *nditer*

In [140]:
for valor in np.nditer(a):
    print(valor)

0
1
2
3
4
5
6
7
8
9


## Leccion 4 - Mascaras

En muchas circunstancias, los conjuntos de datos pueden estar incompletos o contaminados por la presencia de datos no válidos. Por ejemplo, es posible que un sensor no haya podido registrar datos o haya registrado un valor no válido. El módulo numpy.ma proporciona una forma conveniente de abordar este problema mediante la introducción de matrices enmascaradas.

Una matriz enmascarada es la combinación de un *numpy.ndarray* estándar y una máscara. Cuando un elemento de la máscara es *False*, el elemento correspondiente de la matriz asociada es válido y se dice que está desenmascarado. Cuando un elemento de la máscara es *True*, se dice que el elemento correspondiente de la matriz asociada está enmascarado (no válido).

In [192]:
import numpy.ma as ma

x = np.array([1,2,3,-1,4])

# Definimos el valor negativo como invalido
mask_array = ma.masked_array(x, mask = [0,0,0,1,0])
mask_array

masked_array(data=[1, 2, 3, --, 4],
             mask=[False, False, False,  True, False],
       fill_value=999999)

In [193]:
mask_array.min()

1

También podemos definir la máscara directamente en el constructor de array del modulo ma.

In [194]:
x = ma.array([1,2,3,-1,4], mask = [0,0,0,1,0])
x

masked_array(data=[1, 2, 3, --, 4],
             mask=[False, False, False,  True, False],
       fill_value=999999)

Si queremos recuperar únicamente los valores válidos, usamos el método *compressed*

In [195]:
x.compressed()

array([1, 2, 3, 4])

Puedo enmascarar o desenmascarar todos los elementos asignando True o False a toda la máscara.

In [196]:
x.mask = True
x

masked_array(data=[--, --, --, --, --],
             mask=[ True,  True,  True,  True,  True],
       fill_value=999999,
            dtype=int64)

In [197]:
x.mask = False
x

masked_array(data=[1, 2, 3, -1, 4],
             mask=[False, False, False, False, False],
       fill_value=999999)

Volvemos a como lo teníamos antes:

In [198]:
x.mask = [0,0,0,1,0]
x

masked_array(data=[1, 2, 3, --, 4],
             mask=[False, False, False,  True, False],
       fill_value=999999)

Podemos consultar si un valor es válido con el método *ma.masked*

In [199]:
print(x[0] is ma.masked)
print(x[3] is ma.masked)

False
True


Podemos 'rellenar' los valores enmascarados con un valor concreto.

In [203]:
x.filled(0)

array([1, 2, 3, 0, 4])

Algunos métodos interesantes para la gestión de máscaras son:

In [221]:
x = np.array([1,2,3,-1,4])
x

array([ 1,  2,  3, -1,  4])

In [222]:
masked = ma.masked_equal(x, 4)
masked

masked_array(data=[1, 2, 3, -1, --],
             mask=[False, False, False, False,  True],
       fill_value=4)

In [226]:
masked = ma.masked_not_equal(x, 2)
masked

masked_array(data=[--, 2, --, --, --],
             mask=[ True, False,  True,  True,  True],
       fill_value=999999)

In [223]:
masked = ma.masked_where(x<2, x)
masked

masked_array(data=[--, 2, 3, --, 4],
             mask=[ True, False, False,  True, False],
       fill_value=999999)

In [224]:
masked = ma.masked_greater_equal(x, 2)
masked

masked_array(data=[1, --, --, -1, --],
             mask=[False,  True,  True, False,  True],
       fill_value=999999)

In [227]:
masked = ma.masked_inside(x, 1, 3)
masked

masked_array(data=[--, --, --, -1, 4],
             mask=[ True,  True,  True, False, False],
       fill_value=999999)

## Lección 5 - Trabajando con fechas

A partir de NumPy 1.7, existen tipos de datos de matriz central que admiten de forma nativa la funcionalidad de fecha y hora. El tipo de datos se llama "datetime64", así llamado porque "datetime" ya está usado por una librería nativa de Python.

La forma más básica de crear fechas y horas es a partir de cadenas en formato de fecha o fecha y hora ISO 8601.  Las unidades de fecha son años ('Y'), meses ('M'), semanas ('W') y días ('D'), mientras que las unidades de tiempo son horas ('h'), minutos ('m' ), segundos ('s'), milisegundos ('ms'). 

In [1]:
import numpy as np

In [7]:
# Orden: año - mes - dia
d = np.datetime64('2020-09-01')
d

numpy.datetime64('2020-09-01')

In [8]:
d = np.datetime64('2020-13-01')
d

ValueError: Month out of range in datetime string "2020-13-01"

In [11]:
dh = np.datetime64('2020-09-01T14:30')
dh

numpy.datetime64('2020-09-01T14:30')

Podemos crear arrays de fechas, pero debemos indicar el tipo de dato. En otro caso, aparecerá como tipo cadena.

In [16]:
np.array(['2020-07-01', '2020-08-01', '2020-09-01'])

array(['2020-07-01', '2020-08-01', '2020-09-01'], dtype='<U10')

In [17]:
np.array(['2020-07-01', '2020-08-01', '2020-09-01'], dtype='datetime64')

array(['2020-07-01', '2020-08-01', '2020-09-01'], dtype='datetime64[D]')

También podemos crear arrays de fechas con el iterador de numpy ***arange***

In [20]:
np.arange('2020-08', '2020-09', dtype='datetime64[D]')

array(['2020-08-01', '2020-08-02', '2020-08-03', '2020-08-04',
       '2020-08-05', '2020-08-06', '2020-08-07', '2020-08-08',
       '2020-08-09', '2020-08-10', '2020-08-11', '2020-08-12',
       '2020-08-13', '2020-08-14', '2020-08-15', '2020-08-16',
       '2020-08-17', '2020-08-18', '2020-08-19', '2020-08-20',
       '2020-08-21', '2020-08-22', '2020-08-23', '2020-08-24',
       '2020-08-25', '2020-08-26', '2020-08-27', '2020-08-28',
       '2020-08-29', '2020-08-30', '2020-08-31'], dtype='datetime64[D]')

In [23]:
np.arange('2020-08', '2020-09', dtype='datetime64[W]')

array(['2020-07-30', '2020-08-06', '2020-08-13', '2020-08-20'],
      dtype='datetime64[W]')

También podemos realizar comparaciones entre los tipos fechas. Si dos fechas y horas tienen unidades diferentes, es posible que sigan representando el mismo momento de tiempo, y la conversión de una unidad más grande como meses a una unidad más pequeña como días se considera un elenco "seguro" porque el momento del tiempo todavía se representa exactamente.

In [28]:
np.datetime64('2020') == np.datetime64('2020-01-01')

True

In [32]:
np.datetime64('2020-03-14T11') == np.datetime64('2020-03-14T11:00:00.00')

True

### Operaciones con fechas

NumPy permite la resta de dos valores de fecha y hora, una operación que produce un número con una unidad de tiempo. Para ello, se crea el tipo ***timedelta64***, el cual usa los mismos carácteres de 'Y', 'M', 'D', 'h', 'm', 's' para su creación

In [33]:
np.timedelta64(4, 'D')

numpy.timedelta64(4,'D')

In [34]:
np.timedelta64(10, 'h')

numpy.timedelta64(10,'h')

También podemos generar un timedelta, y luego cambiar su unidad.

In [46]:
a = np.timedelta64(8, 'D')
np.timedelta64(a, 'W')

numpy.timedelta64(1,'W')

Cuando restamos dos fechas, también obtenemos un timedelta64 como resultado

In [35]:
np.datetime64('2020-08-01') - np.datetime64('2020-07-01')

numpy.timedelta64(31,'D')

In [38]:
# Suma de dias / meses / semanas / etc. a una fecha

np.datetime64('2020-08-01') + np.timedelta64(10, 'D')

numpy.datetime64('2020-08-11')

In [39]:
np.datetime64('2020-08-01') - np.timedelta64(1, 'W')

numpy.datetime64('2020-07-25')

In [42]:
np.datetime64('2020-08-01') + np.timedelta64(48, 'h')

numpy.datetime64('2020-08-03T00','h')

También podemos realizar operaciones directamente entre dos timedeltas distintos

In [43]:
np.timedelta64(1, 'W') + np.timedelta64(4, 'D')

numpy.timedelta64(11,'D')

Hay dos unidades timedeltas ('Y', años y 'M', meses) que se tratan de manera especial, porque el tiempo que representan cambia dependiendo de cuándo se utilizan. Si bien una unidad de día timedelta equivale a 24 horas, no hay forma de convertir una unidad de mes en días, porque los diferentes meses tienen diferentes números de días.

In [47]:
a = np.timedelta64(1, 'M')
np.timedelta64(a, 'D')

TypeError: Cannot cast NumPy timedelta64 scalar from metadata [M] to [D] according to the rule 'same_kind'

### Días laborables

Para permitir que la fecha y hora se use en contextos donde solo ciertos días de la semana son válidos, NumPy incluye un conjunto de funciones de “día laborable” (día laboral). El valor predeterminado para las funciones de día laborable es que los únicos días válidos son de lunes a viernes (los días hábiles habituales). La implementación se basa en una "máscara de semana" que contiene 7 banderas booleanas para indicar días válidos

In [55]:
# 2020-09-03 --> Jueves
np.busday_offset('2020-09-03', 1)

numpy.datetime64('2020-09-04')

In [59]:
np.busday_offset('2020-09-03', 2)

numpy.datetime64('2020-09-07')

Si el día es no laborable, debemos indicar si queremos el siguiente día laborable, o el anterior. Podemos hacerlo con el parámetro *roll*

In [60]:
np.busday_offset('2020-09-05', 0)

ValueError: Non-business day date in busday_offset

In [61]:
np.busday_offset('2020-09-05', 0, roll = 'forward')

numpy.datetime64('2020-09-07')

In [62]:
np.busday_offset('2020-09-05', 0, roll = 'backward')

numpy.datetime64('2020-09-04')

Para comprobar si un día es laborable, usamos la funcion ***np.is_busday***

In [67]:
# Jueves
print(np.is_busday(np.datetime64('2020-09-03')))
# Sabado
print(np.is_busday(np.datetime64('2020-09-05')))

True
False


También podemos contar el número de días laborables en un rango de fechas

In [68]:
np.busday_count(np.datetime64('2020-09-01'), np.datetime64('2020-09-30'))

21

## Leccion 6 - Constantes

Numpy incluye algunas constantes 

In [69]:
# Valor infinito positivo
np.inf

inf

In [72]:
np.inf + np.inf

inf

In [74]:
# Valor infinitov negativo
np.NINF

-inf

In [80]:
np.isinf(np.NINF)

True

In [81]:
np.isposinf(np.NINF)

False

In [75]:
np.NINF + np.inf

nan

In [76]:
np.log(0)

  """Entry point for launching an IPython kernel.


-inf

In [73]:
# NAN - Not a Number
np.nan

nan

In [79]:
# Valor cero negativo
np.NZERO

-0.0

In [82]:
# Valor cero positivo
np.PZERO

0.0

In [84]:
# Numero e
np.e

2.718281828459045

In [85]:
np.isfinite(np.e)

True

In [86]:
np.isfinite(np.NINF)

False

In [88]:
# Numero pi
np.pi

3.141592653589793