![](https://import.cdn.thinkific.com/220744/BExaQBPPQairRWFqxFbK_logo_mastermind_web_png)

# Qué es NumPy?

**NumPy** es una librería imprescindible para poder realizar operaciones numéricas y estadísticas con Python. Además de incluir todas las funciones que podemos necesitar, **Num**eric **Py**thon introduce un nuevo tipo de objeto: el `NumPy Array`, que veremos más adelante.

Para importar **NumPy** simplemente tenemos que ejecutar el siguiente código:

In [2]:
import numpy as np

Una vez importado, podemos usar las funciones propias de esta librería:

In [None]:
## Función de NumPy para sacar la raíz cuadrada (square root):

np.sqrt(25)

5.0

# Creando NumPy Arrays

Los `NumPy Array` son un tipo de _objeto_ en Python que nos permite almacenar valores en él. Tiene varias características importantes:
- Permiten operaciones matriciales, es decir, operar cada valor de un array por cada valor de otro
- Deben ser homogéneos, conteniendo sólo un tipo de dato en un array, aunque este tipo de dato puede ser cualquiera
- Son mucho más rápidos de operar, debido a que ocupan menos espacio en memoria y son más eficientes

Para construirlos, tenemos varias opciones:

## np.array

Con esta función podemos generar un _array_ transformando una lista normal de Python:

> np.array(*lista_de_números*)

In [None]:
a = [0, 1, 2, 3, 4, 5]

type(a)

list

In [None]:
array = np.array(a)

type(array)

numpy.ndarray

In [None]:
b = np.array([0, 4, 2])

type(b)

numpy.ndarray

In [None]:
b

array([0, 4, 2])

[np.array doc](https://numpy.org/doc/stable/reference/generated/numpy.array.html)

## np.arange

Con esta función **arange** (de *array range*) podemos crear un rango de números dentro de un array, directamente:

 > np.arange( *primer_valor*, *ultimo_valor*, *step*)

Como añadido, hay que saber que el último valor es **no inclusivo** (no se introducirá en el array), y el parámetro **step** se refiere a la distancia entre números.

In [None]:
b = np.arange(4, 24, 2)

print(b)

[ 4  6  8 10 12 14 16 18 20 22]


[np.arange doc](https://numpy.org/doc/stable/reference/generated/numpy.arange.html)

## np.linspace

**np.linspace** también crea un array con un rango de números, pero lo hace de forma diferente. En este caso, se elige el primer y último valor, y como tercer parámetro se indica la cantidad de números que queremos.

Creará un array con esos números a distancias equivalentes entre el primero y el último que hayamos indicado.

> np.linspace(*primer_valor*, *segundo_valor*, *cantidad_números*)

In [None]:
c = np.linspace(1, 244, 5)

c

array([  1.  ,  61.75, 122.5 , 183.25, 244.  ])

[np.linspace doc](https://numpy.org/doc/stable/reference/generated/numpy.linspace.html)

## np.zeros

Si queremos crear un array lleno de valores `0`, podemos usar esta función.

Por qué querríamos esto? Recordamos que los valores booleanos `True`y `False` son equivalentes a los valores `1` y `0`. Por ello, si queremos hacer un array lleno de valores `False`, podemos construir un array lleno de valores `0` y tendrá la misma utilidad.

> np.zeros(*n_valores*)

In [None]:
d = np.zeros(50)

d

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

[np.zeros doc](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html)

## np.ones

De la misma manera que `np.zeros`, podemos crear arrays con valor `1` que actuarán como `True` en caso de usarlos como variables booleanas:

> np.ones(*n_valores*)

In [None]:
e = np.ones(50)

e

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

[np.ones doc](https://numpy.org/doc/stable/reference/generated/numpy.ones.html)

# Dimensiones

Los arrays están construidos en _dimensiones_, siendo los arrays que hemos visto de **1 dimensión**. El concepto puede ser un poco confuso, pero para ayudarnos podemos pensar en:
1. Una dimensión: una lista
2. Dos dimensiones: una tabla
3. Tres dimensiones: un cubo

![](https://i.stack.imgur.com/8m2mz.png)

Tener arrays de varias dimensiones tiene sus utilidades pero no entraremos de momento. Simplemente debemos saber cómo crearlos y qué atributos tienen.

## Crear un array de varias dimensiones

Para crearlos, simplemente usaremos la misma función `np.array`, pero indicando como parámetro una lista de tantos *arrays* como dimensiones queramos:

In [None]:
array_2d = np.array([d, e])

In [None]:
array_2d

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1.]])

---
##### Ejercicio!

Crea un array de *2 dimensiones*, con las siguientes condiciones:
 - La primera dimensión estará compuesta de un array con todos los valores impares hasta el 100
 - La segunda, será un array compuesto de la cantidad de elementos del primer array, pero lleno de valores con el número `3`.

*Pista: sólo necesitas lo que has visto hasta ahora*

Resuelve en la celda indicada y cuando la tengas, presiona en 'Show solution' para desvelar la solución. Para ello, tienes que haber activado la extensión `Exercise2` de _Jupyter Notebooks_ como indicamos al inicio del curso.


---

In [None]:
# Creamos el primer array con np.arange, que nos permite 'saltarnos' los números pares y quedarnos
# sólo con los impares:

array_1 = np.arange(1, 100, 2)

# Vemos cuántos valores tiene el array_1:

len(array_1)

# Creamos un array de 50 elementos con el número 1:

array_2 = np.ones(50)

# Multiplicamos cada valor por 3:

array_2 = array_2 * 3

# Creamos el array de 2 dimensiones con los que tenemos:

array_2d = np.array([array_1, array_2])

array_2d

array([[ 1.,  3.,  5.,  7.,  9., 11., 13., 15., 17., 19., 21., 23., 25.,
        27., 29., 31., 33., 35., 37., 39., 41., 43., 45., 47., 49., 51.,
        53., 55., 57., 59., 61., 63., 65., 67., 69., 71., 73., 75., 77.,
        79., 81., 83., 85., 87., 89., 91., 93., 95., 97., 99.],
       [ 3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,
         3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,
         3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,
         3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.]])

In [None]:
## Resuelve aquí:


# Atributos de un array

Cualquier objeto en **Python** tiene *atributos*, información sobre las propiedades de este objeto que nos resulta muy útil. Podemos acceder a estos atributos de la misma manera que accedemos a un método ( como puede ser np.**array()**), pero en el caso de los _atributos_, se accede sin usar los paréntesis al final del string. Los atributos están presentes en toda clase de objetos, no sólo los _NumPy arrays_.

## array.shape

Para ver qué forma tiene un array, podemos acceder a su atributo `shape`. Éste mostrará, en forma de tupla, primero el número de dimensiones de nuestro array, y segundo el número de valores por dimensión que tenemos.

In [None]:
array_2d.shape

(2, 50)

## array.size

Este atributo muestra cuántos elementos en total tenemos en el array, independientemente de sus dimensiones.

In [None]:
array_2d.size

100

## array.ndim

En este caso, *ndim* nos mostrará únicamente qué cantidad de dimensiones tenemos en un array.

In [None]:
array_2d.ndim

2

# Operaciones con arrays

Como hemos mencionado (algunas veces ya) los *NumPy Arrays* tienen la característica de permitir operaciones matriciales y ser más rápidos que las listas de Python. Qué significa esto? Vamos a comprobarlo:

In [None]:
lista_1 = [1, 2, 3]
lista_2 = [4, 5, 6]

lista_1 * lista_2

TypeError: can't multiply sequence by non-int of type 'list'

Como vemos, si intentamos multiplicar dos listas, vemos que Python nos dice que eso no es posible. Lo mismo ocurrirá con las restas y las divisiones. Con las sumas, ¿qué sucede? Lo siguiente:

In [None]:
lista_1 + lista_2

[1, 2, 3, 4, 5, 6]

Cuando intentamos sumar dos listas, vemos que sí que funciona, pero el resultado no es exactamente el que esperamos. En este caso, Python lo que hace es **concatenar** los valores de las listas, resultando en una que contiene los valores de ambas.

Por lo tanto, no estamos operando con los valores en sí. Es por eso que **NumPy** viene al rescate:

In [None]:
array_1 = np.array(lista_1)
array_2 = np.array(lista_2)

array_1 * array_2

array([ 4, 10, 18])

En este caso, **NumPy** no tiene ningún problema al operar con estos arrays, y puede efectuar todo tipo de operaciones (_podéis probarlo editando la celda_). Pero no sólo lo hace más fácil, sinó que lo hace más rápido. Si medimos cuánto tarda en multiplicar valores en listas, en este caso usando _list comprehension_:

In [None]:
%%timeit

[ num1*num2 for num1, num2 in zip(lista_1, lista_2)]

360 ns ± 0.865 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


Vemos que tarda 360 _nanosegundos_ en realizar la operación, mientras que **NumPy** tarda 282 _nanosegundos_:

In [None]:
%%timeit

array_1 * array_2

282 ns ± 0.534 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


_nota: estos tiempos dependen de la capacidad de computación de tu ordenador_

Estos tiempos se multiplican al realizar operaciones más complejas, dando a **NumPy** una ventaja enorme!

# Funciones

**NumPy** también introduce funciones súper útiles para nuestro propósito. A continuación veremos unas pocas:

## np.reshape

Esta función nos permite cambiar la forma de un array a nuestra conveniencia, indicando cómo queremos cambiar dimensiones y valores por dimensión. **Importante**: Para funcionar requiere que el nuevo array tenga el mismo número de valores!

> np.reshape(_array_, (_dimensiones_, *n_valores*))

In [None]:
array_2d.shape

(2, 50)

In [None]:
f = np.reshape(array_2d, (10, 10))

In [None]:
f.shape

(10, 10)

[np.reshape doc](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html)

## array.T

La **T** (nota que es mayúscula) se refiere a *transposición*. Lo que hace este atributo es mostrar la versión invertida del número de valores por el número de dimensiones y viceversa. Se explica mejor con un ejemplo:

In [None]:
a = np.array([[1, 2, 3, 4, 5], [10, 20, 30, 40, 50]])

a

array([[ 1,  2,  3,  4,  5],
       [10, 20, 30, 40, 50]])

In [None]:
a.shape

(2, 5)

In [None]:
a.T

array([[ 1, 10],
       [ 2, 20],
       [ 3, 30],
       [ 4, 40],
       [ 5, 50]])

In [None]:
a.T.shape

(5, 2)

## np.random

Dentro de **NumPy**, disponemos de la librería **random**, que es un conjunto de herramientas para trabajar con valores aleatorios. En nuestro caso, nos interesa sobretodo una de sus funciones:

### np.random.randint

Esta función tiene un uso muy específico. Crea un número entero aleatorio entre el rango de números que le indiquemos (**rand**om **int**eger)

> np.random.randint(*primer_valor*, *ultimo_valor*)

In [None]:
np.random.randint(0, 1000)

906

[np.random.randint doc](https://numpy.org/doc/stable/reference/random/generated/numpy.random.randint.html)

Sólo uno? Y para qué queremos sólo uno? Bueno, podemos tener caso en que queramos generar varios de estos valores aleatorios... ¿se te ocurre alguna forma?

*************
##### ¡Ejercicio!

Crea un array de una dimensión con 96 valores aleatorios entre el 0 y el 42. ¿Por qué 96? No lo sé. **Sólo hay una condición**: Tiene que hacerse en **UNA** línea de código.

_Pista: necesitarás iterar_

Resuelve en la celda indicada y cuando la tengas, presiona en 'Show solution' para desvelar la solución. Para ello, tienes que haber activado la extensión `Exercise2` de _Jupyter Notebooks_ como indicamos al inicio del curso.


In [3]:
## Usaremos List Comprehension para iterar sobre np.random.randint 96 veces:

array = np.array([np.random.randint(0,42) for i in range(96)])

array

array([37, 37, 24,  8,  7, 34,  5, 11, 10, 15, 20, 13,  3, 10, 37, 30, 37,
       39, 18,  8, 29, 38,  9, 33,  3, 24,  4,  0, 21,  9, 13, 25, 33, 39,
       34, 22, 39, 10,  4, 23, 13, 31, 37, 12, 33, 10, 37,  1, 23,  2, 24,
       34,  9,  8,  7,  1,  5,  7, 33,  0, 12, 15, 20,  4, 41,  1, 34,  4,
        2, 21,  7, 37, 13, 10,  7, 38, 28, 34, 32, 16, 30, 31, 10, 37, 40,
       23, 14, 40, 17, 32, 15, 12, 16,  5,  3, 10])

In [4]:
len(array)

96

## np.where

Esta función sirve para encontrar valores basándonos en una condición y ejecuta dos acciones: una para los valores donde se cumple la condición y otra para los valores donde **no** se cumple:

> np.where(*condicion*, *accion_si_se_cumple*, *accion_si_no_se_cumple*)

In [None]:
array_2d

array([[ 1.,  3.,  5.,  7.,  9., 11., 13., 15., 17., 19., 21., 23., 25.,
        27., 29., 31., 33., 35., 37., 39., 41., 43., 45., 47., 49., 51.,
        53., 55., 57., 59., 61., 63., 65., 67., 69., 71., 73., 75., 77.,
        79., 81., 83., 85., 87., 89., 91., 93., 95., 97., 99.],
       [ 3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,
         3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,
         3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,
         3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.,  3.]])

In [None]:
np.where(array_2d > 50, 0 , array_2d - 5)

array([[-4., -2.,  0.,  2.,  4.,  6.,  8., 10., 12., 14., 16., 18., 20.,
        22., 24., 26., 28., 30., 32., 34., 36., 38., 40., 42., 44.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
       [-2., -2., -2., -2., -2., -2., -2., -2., -2., -2., -2., -2., -2.,
        -2., -2., -2., -2., -2., -2., -2., -2., -2., -2., -2., -2., -2.,
        -2., -2., -2., -2., -2., -2., -2., -2., -2., -2., -2., -2., -2.,
        -2., -2., -2., -2., -2., -2., -2., -2., -2., -2., -2.]])

Este código ha buscado en nuestro `array_2d` los valores superiores a `50` (_primer argumento_) y los ha transformado a `0` (_segundo argumento_). Al resto, le ha restado `5` (_tercer argumento_)

# Estadistica

En **NumPy** podemos encontrar muchísimos recursos para ayudarnos en la estadística.

En este curso no entraremos demasiado en detalle, pero sí que aprenderemos algún concepto. Como por ejemplo, el de las distribuciones estadísticas.

## Distribuciones estadísticas

Para entender qué es una distribución estadística necesitamos saber varias cosas:
1. Una distribución estadística **siempre se refiere a un grupo de valores numéricos**
2. Esta distribución indica **la frecuencia con la que** ciertos valores, o rangos de valores, **se repiten**.
3. Cuando se representan en una gráfica, **se identifican ciertos patrones**, definiendo así las diferentes distribuciones estadísticas.

Fijémonos en esta gráfica:

![density_plot.png](attachment:density_plot.png)

> Bloque con sangría



Esta gráfica representa las temperaturas medias de la ciudad de Barcelona.

Eso quiere decir que tenemos un grupo de datos: todas las temperaturas medias diarias durante un período de tiempo, y los podemos imaginar como en una lista (o array): `[12.3, 18.1, 15.0, 14.2, 13.9...]`

Si contamos cuántas veces se repite el valor, dentro de los rangos de temperatura indicados, vemos que cuanto más sube la gráfica, más se repiten estos valores. Pues bien, hemos dado con una distribución estadística.

La forma de campana de esta distribución en concreto indica que estamos ante una **distribución normal**. Y tiene varias características:
- La media es el valor que más se repite (o casi)
- La forma es simétrica
- Conforme nos acercamos a los extremos, los valores son menos frecuentes

Existen diferentes tipos de distribuciones estadísticas, pero esta **distribución normal** nos interesa porque explica muchos fenómenos muy habituales. Como por ejemplo factores biológicos en seres humanos, como puede ser el peso, la altura, el cociente intelectual, etc. Básicamente en todas las medidas donde haya una 'normalidad' y variaciones sobre ella.

Como en todo grupo de valores numéricos, tenemos varias medidas estadísticas en estas distribuciones:
- **Media**: Se obtiene sumando todos los valores y dividiendo por la cantidad de valores que tenemos
- **Mediana**: Se obtiene ordenando todos los valores y eligiendo el que está justo en la mitad.
- **Moda**: Es el valor más repetido en nuestro grupo de números
- **Desviación Estándar** (std): Se usa para calcular la distancia de la media a los extremos. _No entraremos en detalle de momento_, pero podemos decir que es una medida de **dispersión** en nuestros datos.


Y donde entra **NumPy** en todo este rollo? Fácil, nos permite crear arrays siguiendo distribuciones estadísticas concretas, encontrar la media, mediana, moda y desviación estándar de una manera facilísima:

## np.random.normal

Para generar un grupo de valores que siga una **distribución normal** (hay más distribuciones pero no las miraremos en este curso), usaremos la siguiente función, donde los parámetros seran:
- La media de nuestros datos
- La desviación estándar
- La cantidad de valores que queremos

> np.random.normal(*media*, *desviación_estandar*, *n_valores*)

In [None]:
array_normal = np.random.normal(1.75, 0.05, 1000)

Este grupo de números que simulan alturas humanas (media de 1.75m), si lo representamos en una gráfica como la de arriba, veremos que también tiene la misma forma de campana.

[np.random.normal doc](https://numpy.org/doc/stable/reference/random/generated/numpy.random.normal.html)

## np.mean

Una vez tenemos estos valores, podemos encontrar `la media` de ellos con esta función:

> np.mean(_array_)

In [None]:
np.mean(array_normal)

1.7491900574035124

Como hemos generado valores aleatorios en `array_normal`, la media de nuestros datos será _casi_ 1.75m.

[np.mean doc](https://numpy.org/doc/stable/reference/generated/numpy.mean.html)

## np.median

Para encontrar `la mediana`, prácticamente lo mismo:

> np.median(_array_)

In [None]:
np.median(array_normal)

1.749146954949008

[np.median doc](https://numpy.org/doc/stable/reference/generated/numpy.median.html)

## np.std

Lo mismo ocurre con la `desviación estándar`, se usarán las siglas _std_ de **St**andard **D**eviation:

> np.std(_array_)

In [None]:
np.std(array_normal)

0.05104637725574751

[np.std doc](https://numpy.org/doc/stable/reference/generated/numpy.std.html)

![](https://i.imgflip.com/4/aux23.jpg)

Si estáis cansad@s o agobiad@s, no os preocupéis. Iremos poco a poco asentando conceptos. En el siguiente capítulo iremos con algo más entretenido... ¡Pandas! ¡No os lo perdáis!