#  Numpy

Numpy (Numeric Python) es importante porque es la librería sobre la que se construye Pandas (Sin embargo, puede ser menos intuitiva ya que da a los datos un tratamiento matricial más que de base de datos). 

Es importante saber al menos un poco de numpy porque:
- Varias aplicaciones de machine  learning se hacen puramente en numpy (como Deep Learning, o aplicaciones en computer vision).  Esto se debe a que: 
    - Es muy, muy rápido y eficiente haciendo cálculos. 
    - Provee un vector multidimensional de alto rendimiento (high performance multidimensional array). 
    
Numpy puede asemejarse a las listas, pero tiene mucho mejor almacenamiento y mayor alcance en cuanto a hacer operaciones. 

Numpy se especializa  en trabajar tipos de datos numéricos. 

## Importando numpy

In [24]:
import numpy as np

### Creando arrays

Numpy tiene la facilidad de crear arrays multidimensionales. Por ejemplo: 

In [25]:
mat_1d = np.array([1,2,3]) ## array  de 1-dimensión. 

mat_2d = np.array([[1,2,3], [4,5,6]]) ## array  de 2-dimensiones. 

mat_3d = np.array([[[1,2,3], [4,5,6]], [[7, 8, 9], [10, 11, 12]]]) ## array  de 3-dimensiones. 

In [17]:
mat_1d

array([1, 2, 3])

In [18]:
mat_2d

array([[1, 2, 3],
       [4, 5, 6]])

In [19]:
mat_3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [12]:
print(mat_1d.shape) ## Tamaño de cada una de las dimensiones
print(mat_1d.ndim) ## Número de dimensiones
print(mat_1d.size) ## Tamaño total

print(mat_2d.shape)
print(mat_2d.ndim)
print(mat_2d.size)  


print(mat_3d.shape)
print(mat_3d.ndim)
print(mat_3d.size) 

(3,)
1
3
(2, 3)
2
6
(2, 2, 3)
3
12


In [31]:
# De: Data science handbook, by JVDP
np.random.seed(2)  # seed for reproducibility

x1 = np.random.randint(10, size = 6)

In [32]:
x1

array([8, 8, 6, 2, 8, 7])

In [15]:
x2 = np.random.randint(10, size=(3, 4))  # Two-dimensional array
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [28]:
x3 = np.random.randint(10, size = (3, 4, 5))  # Three-dimensional array
x3

array([[[3, 5, 2, 4, 7],
        [6, 8, 8, 1, 6],
        [7, 7, 8, 1, 5],
        [9, 8, 9, 4, 3]],

       [[0, 3, 5, 0, 2],
        [3, 8, 1, 3, 3],
        [3, 7, 0, 1, 9],
        [9, 0, 4, 7, 3]],

       [[2, 7, 2, 0, 0],
        [4, 5, 5, 6, 8],
        [4, 1, 4, 9, 8],
        [1, 1, 7, 9, 9]]])

### Cómo crear matrices como "placeholders" (o que serán llenadas/modificadas luego)

In [23]:
np.zeros((3,4)) ## np.zeros crea  una matriz de ceros

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [24]:
np.ones((2,3,4),dtype=np.int16) ## np.ones crea a una matriz de unos

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

In [34]:
d = np.arange(1,25,2) ## Crea un array con secuencia aritmética uniforme
d

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19, 21, 23])

In [26]:
np.arange(1,11) ## Crea un array con secuencia aritmética uniforme , 1-1-1

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [40]:
np.linspace(0,3,25) ## Crea un array con valores del 0 al 2, tal  que hayan 9  valores. 

array([0.   , 0.125, 0.25 , 0.375, 0.5  , 0.625, 0.75 , 0.875, 1.   ,
       1.125, 1.25 , 1.375, 1.5  , 1.625, 1.75 , 1.875, 2.   , 2.125,
       2.25 , 2.375, 2.5  , 2.625, 2.75 , 2.875, 3.   ])

In [41]:
e = np.full((2,2),7)
e ## Crea un array constante

array([[7, 7],
       [7, 7]])

In [30]:
np.eye(5) ## Crea una matrix identidad de n*n

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [42]:
 np.random.random((3,2)) # Crea array aleatorio con valores que siguen dist. normal

array([[0.33033482, 0.20464863],
       [0.61927097, 0.29965467],
       [0.26682728, 0.62113383]])

In [45]:
np.empty((3,2))  ### Pendiente

array([[0.33033482, 0.20464863],
       [0.61927097, 0.29965467],
       [0.26682728, 0.62113383]])

### Seleccionando, Indexando y Rebanando un array

In [46]:
mat_1d

array([1, 2, 3])

In [47]:
mat_1d[2]

3

In [47]:
mat_2d

array([[1, 2, 3],
       [4, 5, 6]])

In [49]:
mat_2d[1][0]

4

In [50]:
mat_2d[1][1:]

array([5, 6])

In [51]:
mat_3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [52]:
mat_3d[1,1,2]

12

In [54]:
mat_3d[1][1][2]

12

### - Indexación elegante (fancy indexing):
Numpy permite opciones mucho más amplias de indexar que trascienden a las de las listas. Consideremos el siguiente array



In [55]:
ejm_a = np.array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [56]:
ejm_a[[0, 4, 7]]

array([10, 14, 17])

In [58]:
ejm_a[np.array([[0, 4, 7], [1, 2, 3]])]

array([[10, 14, 17],
       [11, 12, 13]])

In [59]:
b = np.array([(1,2,3), (4,5,6)], dtype = float)
b

array([[1., 2., 3.],
       [4., 5., 6.]])

In [16]:
b[[1, 0, 1, 0],[0, 1, 2, 0]]

array([4., 2., 6., 1.])

In [17]:
b[[1, 0, 1, 0]][:,[0,1,2,0]]

array([[4., 5., 6., 4.],
       [1., 2., 3., 1.],
       [4., 5., 6., 4.],
       [1., 2., 3., 1.]])

### Agregaciones

In [60]:
mat_2d_n = np.array([[1,2,3], [4,5,6], [7,8,9]])
mat_2d_n

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [61]:
mat_2d_n.sum() ### Suma de todo el array

45

In [62]:
mat_2d_n.mean() ### Resta de todo el array

5.0

In [64]:
mat_2d_n.mean(axis = 1) ## Calcula promedio de las filas

array([2., 5., 8.])

In [27]:
mat_2d_n.mean(axis = 0)  ## Calcula promedio de las columnas

array([4., 5., 6.])

### Operaciones con matrices

In [65]:
a = np.arange(0,12).reshape(3,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [66]:
b = (np.arange(0,12) * 2).reshape(3,4)
b

array([[ 0,  2,  4,  6],
       [ 8, 10, 12, 14],
       [16, 18, 20, 22]])

In [67]:
a + b

array([[ 0,  3,  6,  9],
       [12, 15, 18, 21],
       [24, 27, 30, 33]])

In [37]:
a * b #### ESTA NO ES LA FORMA DE MULTIPLICACION MATRICIAL COMO APRENDEMOS EN MATE!! 

array([[  0,   2,   8,  18],
       [ 32,  50,  72,  98],
       [128, 162, 200, 242]])

In [44]:
#### ESTA ES: 
c = (np.arange(0,12) * 2).reshape(4,3)

np.dot(a,c)

array([[ 84,  96, 108],
       [228, 272, 316],
       [372, 448, 524]])

In [45]:
c

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16],
       [18, 20, 22]])

In [43]:
c.T ## Trasponer un array

array([[ 0,  6, 12, 18],
       [ 2,  8, 14, 20],
       [ 4, 10, 16, 22]])

In [5]:
## Cargando data
iris = np.loadtxt("iris.csv", skiprows=1, delimiter=",") 

In [70]:
iris

array([[5.1, 3.5, 1.4, 0.2, 1. ],
       [4.9, 3. , 1.4, 0.2, 1. ],
       [4.7, 3.2, 1.3, 0.2, 1. ],
       [4.6, 3.1, 1.5, 0.2, 1. ],
       [5. , 3.6, 1.4, 0.2, 1. ],
       [5.4, 3.9, 1.7, 0.4, 1. ],
       [4.6, 3.4, 1.4, 0.3, 1. ],
       [5. , 3.4, 1.5, 0.2, 1. ],
       [4.4, 2.9, 1.4, 0.2, 1. ],
       [4.9, 3.1, 1.5, 0.1, 1. ],
       [5.4, 3.7, 1.5, 0.2, 1. ],
       [4.8, 3.4, 1.6, 0.2, 1. ],
       [4.8, 3. , 1.4, 0.1, 1. ],
       [4.3, 3. , 1.1, 0.1, 1. ],
       [5.8, 4. , 1.2, 0.2, 1. ],
       [5.7, 4.4, 1.5, 0.4, 1. ],
       [5.4, 3.9, 1.3, 0.4, 1. ],
       [5.1, 3.5, 1.4, 0.3, 1. ],
       [5.7, 3.8, 1.7, 0.3, 1. ],
       [5.1, 3.8, 1.5, 0.3, 1. ],
       [5.4, 3.4, 1.7, 0.2, 1. ],
       [5.1, 3.7, 1.5, 0.4, 1. ],
       [4.6, 3.6, 1. , 0.2, 1. ],
       [5.1, 3.3, 1.7, 0.5, 1. ],
       [4.8, 3.4, 1.9, 0.2, 1. ],
       [5. , 3. , 1.6, 0.2, 1. ],
       [5. , 3.4, 1.6, 0.4, 1. ],
       [5.2, 3.5, 1.5, 0.2, 1. ],
       [5.2, 3.4, 1.4, 0.2, 1. ],
       [4.7, 3

In [14]:
X, Y = iris[:, 0:3], iris[:, 3]

In [20]:
xt_x_1 = np.linalg.inv(np.dot(X.T, X))


In [21]:
xty = np.dot(X.T, Y)

In [71]:
beta = np.dot(xt_x_1, xty)

In [72]:
beta

array([-0.25010419,  0.20945778,  0.53804957])

Fuentes de esta  sesión:

- Numpy cheatsheet de DataCamp:  https://datacamp-community-prod.s3.amazonaws.com/e9f83f72-a81b-42c7-af44-4e35b48b20b7
- Data science handbook by Jake Van der Plas https://jakevdp.github.io/PythonDataScienceHandbook/02.02-the-basics-of-numpy-arrays.html