# Numpy, 
Numerical python. Los arreglos son más rapidos que las listas. Es de las principales librerias en ciencias de datos es base para SciPy y Pandas. 

## Arreglos
Un arreglo en Numpy se define como 
`np.array()`

In [2]:
import numpy as np
import random

In [2]:
# Ejemplo, los numeros factoriales
factorial = np.array([1,2,6,24,120,720])
factorial

array([  1,   2,   6,  24, 120, 720])

In [3]:
# tipo de objeto
type(factorial)

numpy.ndarray

In [4]:
# Arreglos multidimencionales. 
# Los corchetes definen las filas, las entradas de los corchetes definen las columas
np.array([[3,4],[6,7],[10,11]])

array([[ 3,  4],
       [ 6,  7],
       [10, 11]])

In [5]:
impares = np.array([n for n in range(1, 30,2)])

## Atributos de arreglos
Las cosas que podemos conocer de los arreglos. 

In [6]:
enteros = np.array([[9,10,11,12],[8,7,6,5]])

In [7]:
flotantes=np.array([[9**(1/2),10**(1/2),3.33,],[10/3,3.4,3.03]])

In [8]:
enteros.dtype

dtype('int32')

In [9]:
flotantes.dtype


dtype('float64')

In [10]:
# Dimensiones de un arreglo. 
enteros.ndim

2

In [11]:
# Cantidad de filas y de columnas. 
enteros.shape

(2, 4)

In [12]:
flotantes.ndim

2

In [13]:
flotantes.shape

(2, 3)

In [14]:
enteros.size

8

In [15]:
flotantes.size

6

In [16]:
# Iterar bajo arreglos. Imprimir el resultado de flotantes.
for fila in flotantes:
    for columna in fila:
        print(columna, end = ", ")
    print

3.0, 3.1622776601683795, 3.33, 3.3333333333333335, 3.4, 3.03, 

De nuesta compresion de lista tenemos por ejemplo, 

In [17]:
impares.shape

(15,)

In [18]:
impares.ndim

1

## Arreglos desde rangos
Es la función que crea arreglos de manera automática, la función es `arange()`, en este caso es con una sola `r`.

In [19]:
np.arange(8)

array([0, 1, 2, 3, 4, 5, 6, 7])

In [20]:
np.arange(3,8)

array([3, 4, 5, 6, 7])

In [21]:
np.arange(12,2, -3)

array([12,  9,  6,  3])

Vamos a cambiar de función para los decimales. Pero en este caso vamos a necsitar otra función. La función es llamada `linspace()`, el uso de esta función es un poco confuso, `num = ` indicamos la cantidad en la que el intervalo es partido pero comenzando con el numero incial, esto es `num` numericamente divide a un intervalo de valoes en `num -1 `partes, obteniendo los pasos junto al valor inicial.

In [22]:
# Ejemplo
np.linspace(0.0,1.0, num = 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

Así obtenemos 5 valores de haber dividido el intervalo  en 4 partes comenzando en cero. Así para obtner una lista de "n" entradas debemos dividir en "n-1". Vamos a ver unos métodos, `reashape` nos da la opción de organizar nuestro arreglo de manera dimensional, por ejempo `reashape(i,j)` nos da una matriz de tamaño `(i,j)`.

In [23]:
np.arange(21,1,-1).reshape(4,5)

array([[21, 20, 19, 18, 17],
       [16, 15, 14, 13, 12],
       [11, 10,  9,  8,  7],
       [ 6,  5,  4,  3,  2]])

Uno debe tener la precausión de que la cantidad de datos se ajusta a la cantidad de entradas en el `reshape`.

In [24]:
# Numpy no muestra todas las columnas, nos da solo una muestra. 
np.arange(0,100000).reshape(50,2000)

array([[    0,     1,     2, ...,  1997,  1998,  1999],
       [ 2000,  2001,  2002, ...,  3997,  3998,  3999],
       [ 4000,  4001,  4002, ...,  5997,  5998,  5999],
       ...,
       [94000, 94001, 94002, ..., 95997, 95998, 95999],
       [96000, 96001, 96002, ..., 97997, 97998, 97999],
       [98000, 98001, 98002, ..., 99997, 99998, 99999]])

In [25]:
np.arange(42,81,2).reshape(4,5)

array([[42, 44, 46, 48, 50],
       [52, 54, 56, 58, 60],
       [62, 64, 66, 68, 70],
       [72, 74, 76, 78, 80]])

## Velocidad de los arreglos
Los arreglos son como las listas, pero la razón de usar arreglos es por la rapidez de su ejecución. Vamos a medir la velocidad de un arreglo con la magia `%timeit`.

In [3]:
# Simular el lanzamiento de un dado muchas veces.
%timeit tiros = [random.randint(1,7) for i in range(0,6000000)]

6.83 s ± 61.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [27]:
%timeit tiros = np.random.randint(1,7,6000000)

59.2 ms ± 760 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [28]:
# La suma de los numeros del 1 al 9 999 999
%timeit sum([n for n in range(0,9999999)])

789 ms ± 28.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [29]:
%timeit np.arange(0,9999999).sum()

16.5 ms ± 971 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Los arreglos son más rapidos que las listas y nos las usamos en ciencia de datos para optimizar. 

## Operaciones con arreglos.
Operaciones con los arreglos, esto es muy similar al álgebra lineal. Podemos combianar con las operaciones recursivas tipo `(operacion)=`.

In [30]:
lista = np.arange(2,16,2)
lista +1

array([ 3,  5,  7,  9, 11, 13, 15])

In [31]:
lista * 3

array([ 6, 12, 18, 24, 30, 36, 42])

In [32]:
lista **(1/2) 

array([1.41421356, 2.        , 2.44948974, 2.82842712, 3.16227766,
       3.46410162, 3.74165739])

En este tipo de operaciones se realizan entrada a entrada. Sin embargo esto no modifica al arreglo original. Salvo como una redifinición.

In [33]:
lista -= 1
lista

array([ 1,  3,  5,  7,  9, 11, 13])

No solo podemos modificar un arreglo redefiniendolo de manera recursiva, tambien podemos hacer nuevos arreglos de otros arreglos. Esto es, operar entre arreglos. 

In [34]:
# Definimos las lista a usar. 
lista1 = np.arange(2,18,3)
lista2 = np.linspace(-2,20,6)


In [35]:
# Esta operación es entrada entrada. En este caso la cantidad de entradas coincide. 
lista1-lista2

array([ 4. ,  2.6,  1.2, -0.2, -1.6, -3. ])

In [36]:
# Operaciones lógicas
lista1 > lista2

array([ True,  True,  True, False, False, False])

Se realiza la comparación entrada entrada, cuando se cumple la condición nos da `True` si no `False`. 

In [37]:
lista1 == lista2

array([False, False, False, False, False, False])

In [None]:
cuadrados = arange(1,6)
cuadrados **2=  

## Métodos estadísticos
Son los métodos que vienen en Numpy para realizar ciertos calculos de estadistica descriptiva. Nota que las funciones llevan los parentesis. 

In [38]:
ventas = np.array( [[554,606,710,851],[1244,898,416,1763],[841,655,1105,1067]])

In [39]:
# Suma de los elementos en el array
ventas.sum()

10710

In [40]:
# El minimo valor en el array
ventas.min()

416

In [41]:
# La media de los datos
ventas.mean()

892.5

In [42]:
# La desviación estándar de los datos
ventas.std()

350.56656524355924

In [43]:
# La varianza de los datos
ventas.var()

122896.91666666667

También podemos hacer esto por columnas o por filas en arreglos de mayor dimensión. Recordando que Python es lenguaje de indice cero. El paràmetro `axis = `nos da si es por fila o por columnas, esto es, 0 columnas y 1 para filas. Esto se usa mucho en paqueterías como matplotlib.

In [44]:
ventas.mean(axis=0)

array([ 879.66666667,  719.66666667,  743.66666667, 1227.        ])

In [45]:
ventas.mean(axis=1)

array([ 680.25, 1080.25,  917.  ])

Las operaciones aritméticas en Numpy son de la siguiente manera. 

In [46]:
lista1 = np.arange(0,8)
lista2 = np.arange(3,11)

In [47]:
lista1

array([0, 1, 2, 3, 4, 5, 6, 7])

In [48]:
lista2

array([ 3,  4,  5,  6,  7,  8,  9, 10])

In [49]:
# Raíz de las entradas de un arreglo. 
np.sqrt(lista1)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131])

In [50]:
# Que es una función que nos devuelve la suma de dos arreglos. 
np.add(lista1,lista2)

array([ 3,  5,  7,  9, 11, 13, 15, 17])

In [51]:
# La función de multiplicación en Numpy
np.multiply(lista2,2)

array([ 6,  8, 10, 12, 14, 16, 18, 20])

In [52]:
# Multiplicaciones matriciales y entrada a entrada. 
np.multiply(lista2,2)

array([ 6,  8, 10, 12, 14, 16, 18, 20])

In [53]:
lista3 = lista2.reshape(2,4)
lista4 = np.array([2,-4,6,-8])

In [54]:
np.multiply(lista3,lista4)

array([[  6, -16,  30, -48],
       [ 14, -32,  54, -80]])

Estas son la conocidas funciones universales. 
https://numpy.org/doc/stable/reference/ufuncs.html

## Indexando, cortando arreglos.

In [55]:
ventas = np.array([[ 554, 606, 710, 851], [1244, 898, 416, 1763],[ 841, 655, 1105, 1067]])
ventas

array([[ 554,  606,  710,  851],
       [1244,  898,  416, 1763],
       [ 841,  655, 1105, 1067]])

En este caso tenemos un arreglo de 3 por 3 o sea de dimensión 2. Para extraer los datos vamos a buscarlo por los indices de dichas matrices, o sea entradas renglon columna combinado con corchetes pero como python es de indice cero vamos a tomar los valores 0, 1 y 2. Veamos como. 

In [56]:
ventas[2,1]

655

Para obtener filas debemos indicar la fila, comenzando en cero por ejemplo

In [58]:
ventas[1]

array([1244,  898,  416, 1763])

Tambien como en las listas, Python ignora el extremo derecho.

In [59]:
ventas[1:3]

array([[1244,  898,  416, 1763],
       [ 841,  655, 1105, 1067]])

Dando las filas 1 y 2. Para el caso de las columnas, las buscamos de la manera `[:,#]` `#`el numero de la fila menos uno. Por ejemplo.

In [60]:
ventas[:,0]

array([ 554, 1244,  841])

In [61]:
ventas[:,1:3]

array([[ 606,  710],
       [ 898,  416],
       [ 655, 1105]])

La primera parte indica que toda la fila con los correspondientes indices de columnas. La segunda es una serie de numeros, mientras que,

In [63]:
ventas[:,[0,2]]

array([[ 554,  710],
       [1244,  416],
       [ 841, 1105]])

indicamos explicitamente los indices. 

Los arreglos de Numpy son de forma `arrays([Elementos])`, estas son llamadas *vistas o views*  que son como copias superficiales. Un método para definirlas es por medio de `view()`.

In [64]:
impares = np.arange(3,18,2)

In [65]:
impares2=impares.view()

En python estos son dos listas distintas. Sin emgarbo las modificaciones que se hagan se verá reflejadas en la otra. 

In [None]:
impares[3]*=10

In [67]:
impares2

array([ 3,  5,  7,  9, 11, 13, 15, 17])

Son dos listas con los mismos elementos pero Pyton los tiene como cosas distintas. Esto se usa para las *Deep copies*. `copy`gnera una tal cual una copia del arreglo original. Pero ahora no tenemos modificaciones. 

In [68]:
impares = np.arange(3,18,2)

In [69]:
impares2 = impares.copy()

In [70]:
impares[1]*=100

In [71]:
impares2

array([ 3,  5,  7,  9, 11, 13, 15, 17])

Otros métodos de NumPy para los arreglos son `reshape` y `resize.` El primero es una copia superficial mientras que el segundo es una copia genuina. 

In [72]:
ventas = np.array([[ 500, 600, 550, 800], [1200, 800, 400,1000]])

In [73]:
ventas.reshape(1,8)

array([[ 500,  600,  550,  800, 1200,  800,  400, 1000]])

In [74]:
ventas

array([[ 500,  600,  550,  800],
       [1200,  800,  400, 1000]])

In [75]:
ventas.resize(1,8)

In [76]:
ventas

array([[ 500,  600,  550,  800, 1200,  800,  400, 1000]])

Para hacer los cambios de dimensionesusamos los métodos `flatten` y `ravel`.

In [78]:
ventas = np.array([[ 500, 600, 550, 800],[1200, 800, 400,1000]])

In [79]:
vector_ventas=ventas.flatten()

In [80]:
ventas

array([[ 500,  600,  550,  800],
       [1200,  800,  400, 1000]])

In [81]:
vector_ventas

array([ 500,  600,  550,  800, 1200,  800,  400, 1000])

Esta es una copia profunda, una superficial es, 

In [82]:
ventas

array([[ 500,  600,  550,  800],
       [1200,  800,  400, 1000]])

In [83]:
reacomodar_ventas = ventas.ravel()

In [84]:
reacomodar_ventas[0] =1000

In [85]:
ventas

array([[1000,  600,  550,  800],
       [1200,  800,  400, 1000]])

`ventas`y `reacomodar_ventas` comparten información. Para otras operaciones con matrices, como calcular la matriz transpuesta, lo hacemos como, 

In [86]:
ventas = np.array([[ 500, 600, 550, 800],
[1200, 800, 400,1000]])

In [87]:
ventas.T

array([[ 500, 1200],
       [ 600,  800],
       [ 550,  400],
       [ 800, 1000]])

La transpuesta no transforma los datos originales, para guardalos debemos asignalos. Veamos los métodos `vstack`y `hstack`

In [88]:
ventas2 = np.array([[1100,1000,950,1100]])

In [89]:
np.vstack((ventas,ventas2))

array([[ 500,  600,  550,  800],
       [1200,  800,  400, 1000],
       [1100, 1000,  950, 1100]])

In [90]:
ventas3 = np.array([[1100,900],[800,900]])

In [None]:
np.hstack((ventas,ventas3))

array([[ 500,  600,  550,  800, 1100,  900],
       [1200,  800,  400, 1000,  800,  900]])

Estas añaden columnas al array original. 

In [6]:
import numpy as np
import random

In [8]:
# Ejericio:Genera  12 calificaciones aleatorias, reordena en una matriz de 3 por 4. 
# Calcula el promedio de las calificaciones, luego por columas  y luego por fila
calif = np.random.randint(60,1000,12).reshape(3,4)                                

In [9]:
calif.mean()

574.9166666666666

In [10]:
calif.mean(axis = 0)

array([236.66666667, 740.33333333, 731.66666667, 591.        ])

In [11]:
calif.mean(axis = 1)

array([481.75, 639.5 , 603.5 ])

Ejercicio: Crea el arreglo

`ventas=np.array ([[ 554, 606, 710, 851],
 [1244, 898, 416, 1763],
 [ 841, 655, 1105, 1067]])`
 
 - Selecciona el item 2,1
 - Selecciona el item 1,3
 - Selecciona la fila 1

In [12]:
ventas = np.array([[ 554, 606, 710, 851],  [1244, 898, 416, 1763],  [ 841, 655, 1105, 1067]])

In [13]:
ventas[2,1]

655

In [None]:
ventas[1,3]

1763

In [17]:
ventas[0,:]

array([554, 606, 710, 851])

# Ejercicio Dado el siguiente arreglo

array([[1,2,3,4,5],
     [6,7,8,9,10],
     [11,12,13,14,15]])

- Selecciona la segunda fila
- Selecciona la primera y tercera fila
- Selecciona las tres columnas de enmedio

In [19]:
datos = np.array([[1,2,3,4,5],
     [6,7,8,9,10],
     [11,12,13,14,15]])

In [21]:
datos[1]

array([ 6,  7,  8,  9, 10])

In [22]:
datos[[0,2],]

array([[ 1,  2,  3,  4,  5],
       [11, 12, 13, 14, 15]])

In [23]:
datos[:,1:4]

array([[ 2,  3,  4],
       [ 7,  8,  9],
       [12, 13, 14]])