<a href="https://colab.research.google.com/github/carlosramos1/numpy-pandas-matplotlib/blob/main/01_conceptos_basicos_de_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Conceptos básicos de *Numpy*.

[*Numpy*](http://www.numpy.org/) es un paquete de Python, el cual provee un **objeto array multidimensional** (vectores y matrices), además de una variedad de **operaciones especializada para dichos arrays** (operaciones matemáticas, lógicas, algebra líneal, etc.).

> Documentación: https://docs.scipy.org/doc/numpy/.

## Instalación e importación del paquete ```numpy```.

- Se puede instalar mediante ```pip```:


```
pip install numpy
```

- Se debe importar el paquete *NumPy* al proyecto:

In [None]:
import numpy as np
# Por convención se usa 'np' como alias de numpy

## Arreglos en *Numpy* `ndarray`.

El elemento primordial de *Numpy* es el objeto `ndarray`, Este objeto encapsula un array multidimensional de tipos de **datos homogéneos**.

Los arrays de *NumPy*:

- Son de **tamaño fijo**.
- Todos **los elementos** deben ser del **mismo tipo**.
- Son más eficientes que las secuencias estándar de Python.

In [None]:
type(np.array([]))

numpy.ndarray

### Crear arreglos *Numpy*
Existen muchas maneras para crear arreglos, la manera más usual es mediante la función:

```
np.array(<estructura del arreglo> [,dtype=<tipo>])
```

* `<estructura del arreglo>` es una **colección de datos indexables** (listas, tuplas, etc.) que pueden contener a su vez otras colecciones.

* `dtype=<tipo>` indica el **tipo de dato de los elementos del arreglo**. En caso de que no se defina, *NumPy*  tratará de deducirlo.

In [None]:
# Crear un array Numpy a partir de una lista
arr = np.array([1,2,3,4])
arr

array([1, 2, 3, 4])

In [None]:
# Crear un array Numpy a partir de tuplas
np.array(((1,2),(3,4)))

array([[1, 2],
       [3, 4]])

### Dimensión, forma y tamaño de los arreglos.

Los arreglos de *Numpy* son estructuras que a su vez pueden contener arreglos, a esto se denomina "dimensiones".

Todos los arreglos en una dimensión específica deben de contener el mismo número de elementos.

**El atributo `ndim`**

Indica el número de dimensiones del arreglo. *Retorna un número entero*.

**El atributo `shape`**

Describe el número de elementos que contiene cada dimensión. *Retorna una tupla*

```
(<n1>, <n2>, <n3> ... <nm>)
```

* Donde ```<n1>``` corresponde al número de elementos en la primera dimensión, así sucesivamente hasta la última dimensión ```<nm>```.

**El atributo `size`**

Contiene el número total de elementos del arreglo. *Retorna un número entero*.

#### Ejemplos ilustrativos

```
[1,2,3]         -> ndim:1, shape:(3,), size: 3

[[1,2,3],
 [4,5,6]]       -> ndim:2, shape:(2,3), size: 6

[[[1,2,3],
  [3,2,1]],
 [[5,6,7],
  [7,6,5]]]     -> ndim:3, shape:(2,2,3), size: 12

[[[1,2,3,4],
  [4,3,2,1]],
 [[5,6,7,8],
  [8,7,6,5]],
 [[7,8,9,0],
  [0,9,8,7]]]   -> ndim:?, shape:(?), size: ?
```

**Ejemplo**: Array de una dimensión

In [None]:
# Creando un arreglo de 1 dimensión
one_dim = np.array([1,2,3])
print(one_dim)
print(f"ndim:  \t{one_dim.ndim}")
print(f"shape: \t{one_dim.shape}")
print(f"size:  \t{one_dim.size}")

[1 2 3]
ndim:  	1
shape: 	(3,)
size:  	3


**Ejemplo**: Array de dos dimensiones

In [None]:
# Creando un arreglo de 2 dimensiones
two_dim = np.array([[1,2,3],
                    [4,5,6]])
print(two_dim)
print(f"ndim:  \t{two_dim.ndim}")
print(f"shape: \t{two_dim.shape}")
print(f"size:  \t{two_dim.size}")


[[1 2 3]
 [4 5 6]]
ndim:  	2
shape: 	(2, 3)
size:  	6


**Ejemplo:** Array de tres dimensiones

In [None]:
# Creando un array de 3 dimensiones
three_dim = np.array([[[1,2,3],
                       [3,2,1]],
                      [[5,6,7],
                       [7,6,5]]])
print(three_dim)
print(f"ndim:  \t{three_dim.ndim}")
print(f"shape: \t{three_dim.shape}")
print(f"size:  \t{three_dim.size}")

[[[1 2 3]
  [3 2 1]]

 [[5 6 7]
  [7 6 5]]]
ndim:  	3
shape: 	(2, 2, 3)
size:  	12


In [None]:
# Ejercicio. Crear el array restante del ejemplo ilustrativo


3
(3, 2, 4)
24


## Tipos de datos de *Numpy*.

*Numpy* define tipos de datos que **extienden a los tipos de datos de Python**.

Existen tipos numéricos, booleanos, strings, entre otros. Cada tipo a su vez puede subcategorizarce dependiendo del número de bits asignado.

Más info: https://numpy.org/devdocs/user/basics.types.html

### El atributo ```dtype```.

Este atributo contiene el tipo de dato de un arreglo.

In [None]:
a = np.array([[1, 2, 3],
              [4, 5, 6]])
a.dtype

dtype('int64')

### Tipos enteros.

* Es posible definir enteros de distintos tamaños como ```np.int```, ```np.int8```, ```np.int16```, ```np.int32``` y ```np.int64```, los cuales pueden ser positivos, negativos o cero.

* Es posible definir **enteros sin signo**, tales como ```np.uint```,  ```np.uint8```, ```np.uint16```, ```np.uint32``` y ```np.uint64```.

> **Nota**: Si no se define el tipo de dato, Python definirá: ```int32``` o ```int64``` dependiendo del sistema en el que se ejecute.

**Ejemplos:**

In [None]:
# por defecto
np.array(((-1, 2), (3, 4))).dtype

dtype('int64')

In [None]:
# Definiendo el tipo int16
np.array(((1, 2), (-3, -4)), dtype = np.int16).dtype

dtype('int16')

In [None]:
# Definiendo el tipo uint64 (sin signo)
np.array(((1, 2), (3, 4)), dtype = np.uint64).dtype

dtype('uint64')

### Tipos de punto flotante.

- Los tipos de punto flotante **siempre tendrán un signo** y son ```np.float``` ```np.float16```, ```np.float32```, ```np.float64```, ```np.float128```.

- Si el array contiene números enteros y flotantes, **Python convertirá** los enteros al tipo más genérico, en este caso **al tipo de punto flotante**.

> **Nota**: Si no se define el tipo de dato, Python utilizará: ```float32``` o ```float64``` dependiendo del sistema en el que se ejecute.

**Ejemplos:**

In [None]:
# por defecto
np.array([1., 2.6, 3.7]).dtype

dtype('float64')

In [None]:
# Especificando el tipo
np.array([1., 2.6, 3.7], dtype=np.float128).dtype

dtype('float128')

In [None]:
# Mezclando tipos numericos
np.array([1, 2.0, 3, 4.0]).dtype
## [1. 2. 3. 4.]

dtype('float64')

### ~~Tipos de bytes~~

~~Numpy puede gestionar arreglos de *bytes*.~~ (Deprecado) En su lugar usar `int8` o `uint8`

### Tipos complejos.

Los tipos de número complejo de *Numpy* son: ```np.complex_```, ```np.complex32```, ```np.complex128```, ```np.complex256```.

**Ejemplo:**

In [None]:
complejos = np.array([[25.6j, 11.24],
                      [-21.890-15702174.43j, 0]], dtype=np.complex_)
complejos

array([[  0.  +2.56000000e+01j,  11.24+0.00000000e+00j],
       [-21.89-1.57021744e+07j,   0.  +0.00000000e+00j]])

In [None]:
complejos.dtype

dtype('complex128')

### Tipos booleanos.

El tipo ```np.bool_``` permite crear arreglos con valores booleanos.

>**Nota** recordar que Python identfica como ```True``` a cualquier valor distinto de ```0```.

**Ejemplo:**

In [None]:
arr_booleans = np.array(((1,'Hola'),
                         (False, 0)), dtype = np.bool_)
arr_booleans

array([[ True,  True],
       [False, False]])

In [None]:
arr_booleans.dtype

dtype('bool')

### Tipos de texto.

Los textos pueden ser de tipo ```np.unicode_``` (denotado por `U`) o ```np.bytes_``` (denotado por `S`).

El tamaño de los elementos (*strings*) será definido por el elemento de texto más extenso.


**Ejemplos:**

In [None]:
# Por defecto es unicode
np.array((['Hugo', 'Paco'],
          ['Luis Ignacio albert', 'Donald'])).dtype
# el tipo es '<U19' porque el texto más largo es de tamaño 19.

dtype('<U19')

In [None]:
np.array((['Hugo', 'Paco'],['Luis Ignacio', 'Donald']), dtype = np.unicode_).dtype

dtype('<U12')

In [None]:
np.array((['Hugo', 'Paco'],['Luis Ignacio', 'Donald']), dtype = np.bytes_).dtype

dtype('S12')

Es posible definir el tamaño de los elementos a través del argumento ```dtype```:

``` python
dtype="<S<tamaño>"
dtype="<U<tamaño>"
```
> Siendo ```S``` para *string* y ```U``` para *unicode*. `<` indica que el tamaño del texto será menor o igual al número especificado.

In [None]:
np.array((['Hugo', 'Paco'],['Luis', 'Donaldo']), dtype = "<U4")

array([['Hugo', 'Paco'],
       ['Luis', 'Dona']], dtype='<U4')

### El tipo ```np.object```.

*NumPy* tiene un tipo de dato especial llamado `object` el cual "permite almacenar datos de diferentes tipos" en un array de *NumPy*

>**Nota** Se recomienda que **todos los elementos del array sean del mismo tipo** para que *NumPy* sea eficiente en términos de rendimiento y memoria.

In [None]:
mix_arr = np.array(['d', 3 , (12, 6, True)], dtype=object)
# se debe indicar obligatoriamente el tipo `object`
mix_arr.dtype

dtype('O')

## Tipos de fecha.

### El tipo ```np.datetime64```.

Permite representar una fecha y hora, además es compatible con objetos de tipo ```datetime``` de Python.

Se puede definir:

- Op. 1: a traves de un string:

```
np.datetime64('<aaaa>-<mm>-<dd>T<hh>:<mm>:<seg>')

```
- Op. 2: a traves de un objeto `datetime`


```
np.datetime64(<objeto datetime>)
```



**Ejemplo:**

In [None]:
# Op. 1
fechas = np.array([np.datetime64("2019-08-25T23:59:45.231"),
                   np.datetime64("2020-07-23")])
fechas

array(['2019-08-25T23:59:45.231', '2020-07-23T00:00:00.000'],
      dtype='datetime64[ms]')

In [None]:
# Op. 2
from datetime import datetime

fechas = np.array(
     [np.datetime64(datetime(year=2018, month=12, day=22)),
      np.datetime64("2019-03-01T11:25")])
fechas

array(['2018-12-22T00:00:00.000000', '2019-03-01T11:25:00.000000'],
      dtype='datetime64[us]')

### El tipo ```np.deltatime```.

El tipo ```np.deltatime``` es un valor numérico que corresponde a los segundos en un lapso de tiempo específico usando microsegundos como unidad de medida.

**Ejemplo:**

In [None]:
np.datetime64(datetime.now()) - fechas

array([200180138407340, 194177438407340], dtype='timedelta64[us]')

> El ejemplo anterior usa la propiedad "broadcasting" explicado mas adelante.

## Valores numéricos especiales.

*Numpy* es capaz de reconocer números indeterminados e infinitos.

### El valor ```np.nan```.

*Numpy* utiliza ```np.nan``` cuando el valor **no se trata de un número o es una indeterminación**.

### El valor ```np.inf```.

El valor ```np.inf``` representa un **número muy grande** que no puede ser calculado (infinito). Dicho valor **puede llevar signo**.

**Ejemplos:**

* La siguiente celda definirá un arreglo con valores ```np.inf```, ```np.nan```

In [None]:
np.array([[np.inf, np.nan],[1, 3]])

array([[inf, nan],
       [ 1.,  3.]])

* La siguiente celda creará un arreglo de números llamado ```numeros```.

In [None]:
numeros = np.array(([1, 0],[-1, 1]))
numeros

array([[ 1,  0],
       [-1,  1]])

* La siguiente celda dividirá entre ```0``` a cada elemento del arreglo ```numeros```. Debido a esto, es posible que el intérprete muestre algunas advertencias. Sin embargo, el resultado será un arreglo que contiene valores ```np.inf```, ```-np.inf``` y ```np.nan```.  

In [None]:
numeros / 0

  numeros / 0
  numeros / 0


array([[ inf,  nan],
       [-inf,  inf]])

* Aquí un ejemplo de cuando el número excede la capacidad del sistema, lo considera como `np.inf`.

In [None]:
np.array((1, 2.5)) ** 2654

  np.array((1, 2.5)) ** 2654


array([ 1., inf])