## ¿Por qué NumPy y Pandas?

### ¿Por qué NumPy?
Es una librería enfocada al cálculo númerico y manejo de Arrays.

Es muy veloz, hasta 50 veces más rápido que usar una lista de Python o C.
Optimiza el almacenamiento en memoria.
Además, maneja distintos tipos de datos.
Es una librería muy poderosa, se pueden crear redes neuronales desde cero.

### ¿Por qué Pandas?
Pandas está enfocada a la manipulación y análisis de datos.

Al estar construido sobre NumPy es muy veloz.
Requiere poco código para manipular los datos.
Soporta múltiples formatos de archivos.
Ordena los datos en una alineación inteligente.
Se pueden manejar grandes cantidades de datos, hacer analítica y crear dahsboards.

La forma de importar estas librerías es de la siguiente manera:



In [2]:
import numpy as np
import pandas as pd

### Construcción de arrays con NumPy

El array es el principal objeto de la librería NumPy. Representa datos de manera estructurada y se puede acceder a ellos a traves del índice, ya sea a un dato específico o un grupo de muchos datos específicos.
Un array se puede crear a partir de una lista de datos o de una matriz:

In [2]:
lista = [1, 2, 3, 4, 5, 6, 7]
lista

[1, 2, 3, 4, 5, 6, 7]

In [3]:
array_lista = np.array(lista)
array_lista

array([1, 2, 3, 4, 5, 6, 7])

In [4]:
#Matriz de 3 dimensiones
matriz = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
matriz

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [5]:
array_matriz = np.array(matriz)
array_matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

#### Indexing. 
Me permite acceder a los elementos de un array por su posición y hacerlos operables.

In [6]:
array_lista[0] #me arroja el primer elemento de la lista

1

In [7]:
array_matriz[0] #me arroja el primer elemento de la matriz que sería la primer fila

array([1, 2, 3])

In [8]:
array_lista[1] + array_lista[2] #accedí a los elementos con índice  1 y 2 de la lista (2do y 3er elemento) y los sumé

5

In [9]:
array_matriz[1] *2 #accedí al elemento con índice 1 de la matriz (2do elememento) y multipliqué todos sus componenetes por 2

array([ 8, 10, 12])

In [10]:
array_matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [11]:
array_matriz[1,2] #accedí al elemento con índice 1 de la matriz (2do elememento) y a la columna de índice 2 (tercer columna) 
#de manera que [1,2] me estaría inidicando los índices a nivel de fila y de columna respectivamente

6

#### Slicing.
Nos permite extraer varios datos, indicando el comienzo (start) y el final (stop) (separados por :) desde donde voy a extraerlos ya sea de una lista o de una matriz.
También puedo obtener elementos no consecutivos utilizando step, si step es de uno en uno puedo omitirlo
array[start : stop : step]

In [12]:
array_lista

array([1, 2, 3, 4, 5, 6, 7])

In [13]:
array_lista[0:3] #me permite extraer del array lista los elementos con índice de 0 a 2 (el 3 no está incluido en el rango de valores)

array([1, 2, 3])

In [14]:
array_lista[0:3:2]

array([1, 3])

In [15]:
#los valores negativos me permiten acceder al array contando desde el final, la primera posición del index desde el final es -1
array_lista[-3:]

array([5, 6, 7])

In [16]:
array_matriz[0:2] 

array([[1, 2, 3],
       [4, 5, 6]])

In [17]:
array_matriz[0:2,1:2] #acá especifico los elementos que quiero que me devuelva a nivel de fila y de columna

array([[2],
       [5]])

In [18]:
array_matriz[0:2,1:3]

array([[2, 3],
       [5, 6]])

#### Tipo de datos de un array
El array de NumPy sólo puede tener un único tipo de datos para poder operar sobre ellos

In [19]:
array_lista.dtype #verifico el tipo de datos de un array

dtype('int32')

In [20]:
#si quisiera construir una lista pero con tipo de datos float (este tipo de datos se usa para realizar redes neuronales con tensor flow)
#aclaro el dtype cuando construyo el array
array_lista_float = np.array([1, 2, 3, 4, 5, 6, 7], dtype= "float64") 
array_lista_float

array([1., 2., 3., 4., 5., 6., 7.])

In [21]:
array_lista.astype(np.float64) #de esta manera puedo obtener el array con datos float, tb podria hacerlo con string_ y bool_ o int8
#esta operación no cambia el tipo de datos del objeto array_lista original que era de tipo int32

array([1., 2., 3., 4., 5., 6., 7.])

In [22]:
array_lista

array([1, 2, 3, 4, 5, 6, 7])

### Dimensiones

![image.png](attachment:image.png)


scalar: dim = 0 Un solo dato o valor

In [23]:
scalar = np.array(25)
print(scalar)
scalar.ndim #me permite saber el número de dimensiones del array

25


0

vector: dim = 1 Listas de Python

In [24]:
vector = np.array([1, 2, 3, 4, 5])
print(vector)
vector.ndim

[1 2 3 4 5]


1

matriz: dim = 2 Hoja de cálculo. Las filas son ejemplos y las columnas son caracteristicas

![image.png](attachment:image.png)



In [25]:
matriz = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(matriz)
matriz.ndim

[[1 2 3]
 [4 5 6]
 [7 8 9]]


2

tensor: dim > 3 Series de tiempo o Imágenes. Tengo ejemplos, características y su comportamiento a través del tiempo.
![image-2.png](attachment:image-2.png)


In [26]:
tensor = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]], [[1, 2, 3], [4, 5, 6], [7, 8, 9]]])
print(tensor)
tensor.ndim

[[[1 2 3]
  [4 5 6]
  [7 8 9]]

 [[1 2 3]
  [4 5 6]
  [7 8 9]]]


3

![image.png](attachment:image.png)

In [29]:
tensor_4d = np.array([[[[1, 2, 3], [4, 5, 6], [7, 8, 9]], [[1, 2, 3], [4, 5, 6], [7, 8, 9]], [[1, 2, 3], [4, 5, 6], [7, 8, 9]]]])
print(tensor_4d)
tensor_4d.ndim

[[[[1 2 3]
   [4 5 6]
   [7 8 9]]

  [[1 2 3]
   [4 5 6]
   [7 8 9]]

  [[1 2 3]
   [4 5 6]
   [7 8 9]]]]


4

#### Agregar o eliminar dimensiones 

In [32]:
vector_10 = np.array([1, 2, 3, 4, 5], ndmin = 10) #con ndmin especifico el número de dimensiones que quiero en este caso 10
print(vector_10)
vector_10.ndim

[[[[[[[[[[1 2 3 4 5]]]]]]]]]]


10

In [33]:
tensor_10 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]], ndmin = 10)
print(tensor_10)
tensor_10.ndim

[[[[[[[[[[1 2 3]
         [4 5 6]
         [7 8 9]]]]]]]]]]


10

In [35]:
# otra opcion es dado un array de n dimensiones expandir el número de dimensiones en n+1
#axis=0 significa que voy a expandir una dimensión a nivel de filas
expand = np.expand_dims(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]],), axis = 0) 
expand.ndim

3

In [36]:
#para eliminar dimensiones 
#la librería squeeze comprime al menor número de dimensiones

print(vector_10, vector_10.ndim)
vector_10_reducido = np.squeeze(vector_10)
print(vector_10_reducido, vector_10_reducido.ndim)

[[[[[[[[[[1 2 3 4 5]]]]]]]]]] 10
[1 2 3 4 5] 1


#reto

definir un tensor de al menos 5D sumarle una dimensión en al menos alguno de sus ejes y eliminar las dimensiones que no se estén usando

In [37]:
tensor_5D = np.array([1,3,5,7,11,13], ndmin = 5)
print(tensor_5D, tensor_5D.ndim)

[[[[[ 1  3  5  7 11 13]]]]] 5


In [40]:
tensor_6D = np.expand_dims(np.array(tensor_5D), axis = 0)
print(tensor_6D, tensor_6D.ndim)

[[[[[[ 1  3  5  7 11 13]]]]]] 6


In [41]:
tensor_reduced = np.squeeze(tensor_5D)
print(tensor_reduced, tensor_reduced.ndim)

[ 1  3  5  7 11 13] 1


In [1]:
#creando arrays

list(range(0,10)) #creo una lista, esto no es un array

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [4]:
np.arange(0,10) #esto sí me crea un array en el rango de 0 a 10

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
np.arange(0,20,2) #(start, stop, step)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [6]:
np.zeros(10) #se crea un array de ceros

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [7]:
np.zeros((10,10)) #esto es muy útil en la creación de estructuras de base si ya conozco de antemano las dimensiones 

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [8]:
np.ones((10,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [9]:
np.linspace(0,10,100) #se crea una distribución de 100 datos que va desde 0 a 10.

array([ 0.        ,  0.1010101 ,  0.2020202 ,  0.3030303 ,  0.4040404 ,
        0.50505051,  0.60606061,  0.70707071,  0.80808081,  0.90909091,
        1.01010101,  1.11111111,  1.21212121,  1.31313131,  1.41414141,
        1.51515152,  1.61616162,  1.71717172,  1.81818182,  1.91919192,
        2.02020202,  2.12121212,  2.22222222,  2.32323232,  2.42424242,
        2.52525253,  2.62626263,  2.72727273,  2.82828283,  2.92929293,
        3.03030303,  3.13131313,  3.23232323,  3.33333333,  3.43434343,
        3.53535354,  3.63636364,  3.73737374,  3.83838384,  3.93939394,
        4.04040404,  4.14141414,  4.24242424,  4.34343434,  4.44444444,
        4.54545455,  4.64646465,  4.74747475,  4.84848485,  4.94949495,
        5.05050505,  5.15151515,  5.25252525,  5.35353535,  5.45454545,
        5.55555556,  5.65656566,  5.75757576,  5.85858586,  5.95959596,
        6.06060606,  6.16161616,  6.26262626,  6.36363636,  6.46464646,
        6.56565657,  6.66666667,  6.76767677,  6.86868687,  6.96

In [10]:
np.eye(4) #me crea una matriz con la diagonal principal con 1 y el resto de los valores 0

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [11]:
np.random.rand() #me genera un valor aleatorio entre 0 y 1

0.9589582880273471

In [12]:
np.random.rand(4) #array de 4 valores aleatorios y una unica dimensión

array([0.6632957 , 0.30195576, 0.54185227, 0.11217103])

In [13]:
np.random.rand(4,4) #matriz de valores aleatorios

array([[0.1406358 , 0.06685659, 0.31339154, 0.44825719],
       [0.71052063, 0.38454524, 0.96609924, 0.42606092],
       [0.69054316, 0.59020274, 0.07973533, 0.41575499],
       [0.52730915, 0.32382066, 0.94543544, 0.5761262 ]])

In [15]:
np.random.randint(0,10) #se obtienen valores aleatorios enteros entre 0 y 10 no es un array

6

In [16]:
 np.random.randint(1,100, (10,10)) #obtengo valores aleatorios enterops de 1 a 100 en una estructura de 10 x 10, esto sí es un array

array([[91, 54, 28, 98, 33, 17, 22, 46, 21, 51],
       [83, 42, 46, 34, 42, 77, 18, 36, 48, 95],
       [46, 32, 31, 57, 79, 99, 37, 91, 76, 59],
       [77,  5, 92, 99, 63, 95,  1, 89, 34, 56],
       [49, 35, 60, 13, 32, 56,  4,  7, 66, 31],
       [11, 73, 14, 60, 19, 59, 76, 20, 42, 18],
       [13, 55, 74, 55,  7,  1, 45, 98, 18, 55],
       [82,  5, 65, 86, 24, 79, 92, 53, 92, 12],
       [69, 61, 78, 58, 85, 49, 88,  3,  9, 71],
       [91, 23, 26, 74, 90, 44, 71,  2, 32, 60]])

Hay 2 funciones muy importantes de los arreglos (Shape y Reshape). La forma de un arreglo nos va a decir con que estructura se está trabajando.

In [5]:
arr = np.random.randint(1,10, (3,2))
print(arr)

[[1 1]
 [5 2]
 [4 6]]


In [6]:
arr.shape #nos da la forma del arreglo, 3 filas y 2 columnas

(3, 2)

In [7]:
arr.reshape(1,6) #este comando nos modifica el arreglo original que era de 3x2 a 1x6, 
#esto se puede hacer siempre y cuando se mantenga se respete el numero original de valores del array que es 6

array([[1, 1, 5, 2, 4, 6]])

In [10]:
arr.reshape(2,3) #modifica de 3x2 a 2x3

array([[1, 1, 5],
       [2, 4, 6]])

In [13]:
arr

array([[1, 1],
       [5, 2],
       [4, 6]])

In [11]:
np.reshape(arr, (2,3), "C") #utilizo el lenguaje C para el reshape, este lenguaje toma los valores del array original siguiendo el orden de las filas

array([[1, 1, 5],
       [2, 4, 6]])

In [12]:
np.reshape(arr, (2,3), "F") #utilizo el lenguaje Fortrand para el reshape, este lenguaje toma los valores del array original siguiendo el orden de las columnas

array([[1, 4, 2],
       [5, 1, 6]])

In [14]:
np.reshape(arr, (2,3), "A") #hace el reshape según como están optmizados el guardado de datos en memoria de mi computadora (me da igual que con  C)

array([[1, 1, 5],
       [2, 4, 6]])

### Funciones principales de Numpy



In [22]:
arr

array([[1, 1],
       [5, 2],
       [4, 6]])

In [15]:
arr.max()

6

In [17]:
matriz = np.random.randint(1,10, (3,3))
print(matriz)

[[8 1 9]
 [3 8 9]
 [8 3 7]]


In [18]:
matriz.max() #me da el valor maximo de la matriz

9

In [19]:
matriz.max(1) #me otorga el máximo de la matriz por fila

array([9, 9, 8])

In [20]:
matriz.max(0) #me otorga el maximo de la matriz por columna

array([8, 8, 9])

In [21]:
arr.argmax() #me da el índice del valor maximo del array

5

In [23]:
matriz.argmax() #también existe la función argmin()

2

In [24]:
arr.min()

1

In [25]:
arr.ptp() #me da la diferencia entre el pico max y el min, me da una idea de la distribución de los valores de un array

5

In [26]:
matriz.ptp(0) #me otorga la diferencia entre el pico max y el min de la matriz por columna (si reemplazo 0 por 1 obtengo la diferencia por fila)

array([5, 7, 2])

In [27]:
np.percentile(arr, 50) #es el número que se encuentra en la mitad de los valores del array (coincide con la mediana)

3.0

In [28]:
np.percentile(arr, 0) #el percentil 0 coincide con el min, el percentil 100 coincide con el max

1.0

In [31]:
arr.sort() #ordena los valores de menor a mayor de un array
arr


array([[1, 1],
       [2, 5],
       [4, 6]])

In [33]:
np.median(arr) #me da la mediana

3.0

In [34]:
np.median(matriz, 0) #mediana de la matriz por columna (si cambio 0 por 1 me da de las filas)

array([8., 3., 9.])

In [35]:
np.std(arr) #desviación estandar, este valor al cuadrado es la varianza

1.950783318453271

In [36]:
np.var(arr) #varianza

3.805555555555556

In [37]:
np.mean(arr) #media o promedio

3.1666666666666665

### Concatenar dos arrays con distintas dimensiones

In [3]:
a = np.array([[1,2], [3,4]])
b = np.array([5,6])

In [18]:
print(a)


[[1 2]
 [3 4]]


In [19]:
print(b)

[[5 6]]


In [6]:
print(a.ndim)
print(b.ndim)

2
1


In [10]:
#tengo que llevar el array b a dos dimensiones para poder concatenarlo con el a

b = np.expand_dims(np.array(b), axis = 0)
print(b, b.ndim)

[[5 6]] 2


In [11]:
np.concatenate((a,b), axis=0) #concateno el array a y b por el axis 0

array([[1, 2],
       [3, 4],
       [5, 6]])

In [15]:
a

array([[1, 2],
       [3, 4]])

In [13]:
#qué pasa si quisiera concatenerla por el axis = 1?
#en este caso debería hacer un reshape de b o bien podría hacer la traspuesta de b con b.T
b

array([[5, 6]])

In [14]:
b.T

array([[5],
       [6]])

In [16]:
np.concatenate((a,b.T), axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

### Copy 📝
.copy() nos permite copiar un array de NumPy en otra variable de tal forma que al modificar el nuevo array los cambios no se vean reflejados en array original.

In [20]:
arr = np.arange(0,11)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [21]:
part_of_arr = arr[0:6] #cuando definí este array lo hice en base al arr original, 
#por lo tanto cuando yo modifique algo de este objeto también se va a modificar el objeto padre
part_of_arr

array([0, 1, 2, 3, 4, 5])

In [22]:
#por ejemplo si quiero cambiar todos los valores a 0 de part_of_arr
part_of_arr[:] = 0
part_of_arr

array([0, 0, 0, 0, 0, 0])

In [23]:
arr #llamo al objeto padre y veo que lo que hice en part_of arr me modificó los datos originales en arr

array([ 0,  0,  0,  0,  0,  0,  6,  7,  8,  9, 10])

In [24]:
#para evitar esto existe el comando copy
arr_copy = arr.copy()
arr_copy

array([ 0,  0,  0,  0,  0,  0,  6,  7,  8,  9, 10])

In [25]:
arr_copy[:] = 0 
arr_copy

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [26]:
arr #en este caso el objeto padre no quedó afectado por los cambios en arr_copy

array([ 0,  0,  0,  0,  0,  0,  6,  7,  8,  9, 10])

### Condiciones

In [31]:
arr_ = np.linspace(1,10, 10, dtype = "int8")
arr_

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10], dtype=int8)

In [32]:
arr_mayor5 = arr_ > 5
arr_mayor5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [33]:
arr_[arr_mayor5] #me permite extraer del array los valores mayores a 5 tal como especifica la condicion

array([ 6,  7,  8,  9, 10], dtype=int8)

In [36]:
arr_[arr_ > 5] = 99  #reemplacé por 99 todos los valores del array que eran mayores a 5
arr_

array([ 1,  2,  3,  4,  5, 99, 99, 99, 99, 99], dtype=int8)

In [40]:
arr_[(arr_ > 4) & (arr_ < 9)]

array([5], dtype=int8)

### 🔣Operaciones
Existen diferentes operaciones que se pueden usar para los arrays de NumPy.



In [42]:
arr = np.arange(0,10)
arr2 = arr.copy()

In [47]:
arr2

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [46]:
arr2 * 2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [48]:
arr - arr2

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [49]:
arr + arr2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

Una operación importante es la de punto por punto, aquí dos formas de hacerla:

In [43]:
matriz = arr.reshape(2,5)
matriz2 = matriz.copy()
matriz

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [44]:
np.matmul(matriz, matriz2.T)


array([[ 30,  80],
       [ 80, 255]])

In [45]:
matriz @ matriz2.T

array([[ 30,  80],
       [ 80, 255]])