## Manipulación y transformación de datos con Numpy

**Numpy:** es un paquete enfocado en el calculo numérico y el manejo de arrays (objeto principal de Numpy).
Es un muy veloz, optimiza el almacenamiento en memoria y nos permite trabajar con distintos tipos de datos.

In [1]:
# Definimos una lista vector

lista = list(range(1,10))
print(lista) 
print(type(lista)) #Objeto lista
print(len(lista))

[1, 2, 3, 4, 5, 6, 7, 8, 9]
<class 'list'>
9


In [6]:
#Definimos una lista matriz
matriz = [[1,2,3],[4,5,6],[7,8,9]]
print(type(matriz)) #Objeto lista
print(len(matriz))
print(matriz)

<class 'list'>
3
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]


In [7]:
# Importación de librerías

#pip install numpy
import numpy as np

In [8]:
# Declaramos arrays
arr = np.array(lista) # Convertimo una lista en un arreglo
matriz = np.array(matriz) # Convirtiendolo en un array

print(type(arr)) 
print(len(arr))
print(type(matriz))
print(len(matriz))
print(arr) #Vector
print(matriz) #Matriz

<class 'numpy.ndarray'>
9
<class 'numpy.ndarray'>
3
[1 2 3 4 5 6 7 8 9]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [9]:
# Indexing
# Acceder a datos específicos de vectores
print(arr)
print(arr[2])
print(arr[5])
print(arr[2]+arr[5]) #Las indexaciones son operables

[1 2 3 4 5 6 7 8 9]
3
6
9


In [10]:
# Acceder a datos de una matriz
print(matriz)
print(matriz[0]) #La primera fila
print(matriz[0,2]) # Fila 1 columna 3

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 2 3]
3


In [11]:
print(matriz)
print(matriz[:1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]]


In [12]:
# impirman el numero 6
print(matriz[1,2])
# impriman el vecto [7,8,9]
print(matriz[2])
# impriman [3,6,9]
print(matriz[:,2])

6
[7 8 9]
[3 6 9]


In [13]:
# Slicing: nos permite extraer varios datos
print(arr[::2]) #start, stop, step

print(matriz[1:,:2])

[1 3 5 7 9]
[[4 5]
 [7 8]]


In [16]:
# Tipo de datos: la optimización de numpy depende de que contenga sólo un tipo de datos

print(type(arr)) #La estructura del objeto
print(arr.dtype) #El tipo de objetos que contiene esta estructura

<class 'numpy.ndarray'>
int32


In [17]:
# cambiar el tipo de datos

arr1 = np.array([0,1,2,3,4], dtype = 'float64')
print(arr1.dtype)
print(arr1)
arr1.astype(np.bool_) # Coercionarlo

float64
[0. 1. 2. 3. 4.]


In [26]:
# Coerción de tipo de datos
print(arr)
arr[0:1] = 0 
print(arr)
arr_b = arr.astype(np.bool_)
print(arr_b)

[1 2 3 4 5 6 7 8 9]
[0 2 3 4 5 6 7 8 9]
[False  True  True  True  True  True  True  True  True]


In [32]:
# Dimensiones de los arrat
# Escalar (dim=0), vector (1), matriz (2), tensor (n>2)

escalar = np.array(5)
print(escalar)
print(escalar.ndim)

5
0


In [36]:
# métodos: astype ndim
arr.ndim, matriz.ndim

3

In [39]:
# Métodos para crear array

np.arange(10) #un vector en el intervalo especificado
np.arange(5,21)
np.arange(5,21,2.5) #Los array si soportan decimales en step

array([ 5. ,  7.5, 10. , 12.5, 15. , 17.5, 20. ])

In [41]:
x = np.linspace(0,10,12) #start, stop, num
x, len(x)

(array([ 0.        ,  0.90909091,  1.81818182,  2.72727273,  3.63636364,
         4.54545455,  5.45454545,  6.36363636,  7.27272727,  8.18181818,
         9.09090909, 10.        ]),
 12)

In [63]:
np.random.rand(4,4) #Valores aleatorios en dimensión
print(np.random.randint(1,15,[5,5])) #Valor entero

[[ 7  6 12  8  1]
 [ 6  2  8  1  5]
 [13  7 11  1  6]
 [11  6  1  3 14]
 [ 2  1  7 12  6]]


In [71]:
# Shape y Reshape
print(x)
print(x.shape)

x = x.reshape(4,3)
print(x)
print(x.shape)


[[ 0.          0.90909091  1.81818182]
 [ 2.72727273  3.63636364  4.54545455]
 [ 5.45454545  6.36363636  7.27272727]
 [ 8.18181818  9.09090909 10.        ]]
(4, 3)
[[ 0.          0.90909091  1.81818182]
 [ 2.72727273  3.63636364  4.54545455]
 [ 5.45454545  6.36363636  7.27272727]
 [ 8.18181818  9.09090909 10.        ]]
(4, 3)


In [79]:
# Creen una matriz de 10 por 10 de valores enteros aleatorios entre 0 y 20

matriz = np.random.randint(0,20,[10,10]) #Valor entero
print(matriz)

#Que modifiquen la forma o tamaño de la matriz que ahora tenga 20 filas

matriz = matriz.reshape(20,5)

[[ 6 14  3 19  4  9 17  1 11  4]
 [15  0 12  3  3  4 19 12  5  3]
 [ 0  5  1 19  7 17 15  2 15  3]
 [19 17  9 18  1  9 10  7 13 12]
 [ 2  5  1 17  7 12  1 17  2  9]
 [15  5  4 19 11 16  9 17  7 16]
 [ 5  1 13 19 19  4  5 17 17 16]
 [13 17  1  6  4 17  4  0 11  0]
 [ 7 11  2 18 15  8 11 11 10 13]
 [ 2 11  0  8 16  2 19  2 14 12]]


In [80]:
print(matriz)

[[ 6 14  3 19  4]
 [ 9 17  1 11  4]
 [15  0 12  3  3]
 [ 4 19 12  5  3]
 [ 0  5  1 19  7]
 [17 15  2 15  3]
 [19 17  9 18  1]
 [ 9 10  7 13 12]
 [ 2  5  1 17  7]
 [12  1 17  2  9]
 [15  5  4 19 11]
 [16  9 17  7 16]
 [ 5  1 13 19 19]
 [ 4  5 17 17 16]
 [13 17  1  6  4]
 [17  4  0 11  0]
 [ 7 11  2 18 15]
 [ 8 11 11 10 13]
 [ 2 11  0  8 16]
 [ 2 19  2 14 12]]


In [90]:
# Métodos numéricos para el análisis estadistico

#Métodos de rango
matriz.max()
matriz.min(0) #0: columnas y 1: filas

matriz.argmax() #Me da el indice

matriz.ptp() #Max - min = rango 


19

In [92]:
# Medidas de centralidad

print(np.median(matriz)) #Mediana (percentiles)
print(np.mean(matriz)) #Media

9.0
9.36


In [96]:
# Medidas de posición

np.percentile(matriz,25)
np.percentile(matriz,50) # Percentil 50
np.percentile(matriz,75)

15.0

In [98]:
#Medidas de dispersión

np.var(matriz)
np.std(matriz)

6.197612443514035

# Para casa
1. Cree una matriz de 8 por 8 de valores enteros aleatorios entre 0 y 20 
2. Cree un nuevo objeto que sea la misma matriz pero con 4 columnas
3. Acceda a la posición (6,4) de la matriz 1
4. Acceda a la posición (16,4) de la matriz 1
5. Acceda a la matriz subconjunto de la matriz 1 que va de la fila 5 a la 8 y de la columna 3 a la 7.
6. Cree un vector aleatorio de 60 elementos entre 0 y 100. Asuma que es un vector de edades de una muestra. Calcule la medidas de estadisticas e interprete.