# Manipulación de Datos con Numpy

# NumPy 

NumPy (o Numpy) es una biblioteca de álgebra lineal para Python, la razón por la que es tan importante para la ciencia de datos con Python es que casi todas las bibliotecas del ecosistema PyData se basan en NumPy como uno de sus principales componentes básicos.

Numpy también es increíblemente rápido, ya que tiene enlaces a bibliotecas C. Para obtener más información sobre por qué querría usar Arrays en lugar de listas, consulte esta excelente [StackOverflow post](http://stackoverflow.com/questions/993984/why-numpy-instead-of-python-lists).

Solo aprenderemos los conceptos básicos de NumPy.


## Instrucciones de instalación

**Se recomienda encarecidamente que instale Python utilizando la distribución de Anaconda para asegurarse de que todas las dependencias subyacentes (como las bibliotecas de Álgebra lineal) se sincronicen con el uso de una instalación de conda. Si tiene Anaconda, instale NumPy yendo a su terminal o símbolo del sistema y escribiendo:**
    
    conda install numpy
    
**Si no tiene Anaconda y no puede instalarlo, consulte [Numpy's official documentation on various installation instructions.](http://docs.scipy.org/doc/numpy-1.10.1/user/install.html)**


## Usando NumPy

Una vez que haya instalado NumPy, puede importarlo como una biblioteca:

Para dirigir nuestra exploración por Python, usaremos un proyecto sencillo basado en datos. Supongamos unos jóvenes de un club de tecnología les pidió ayuda para analizar datos de su venta de pasteles. 

**Lista de precios:**

El precio de venta de 3 artículos en la venta de pasteles es: 2 por un brownie, 1 por una galleta y 10 por un pastel. Asignen estos valores a una lista denominada precio.

In [1]:
precio = [2, 1, 10]
type(precio)

list

**Lista de cantidad:**

El club vende 17 brownies, 40 galletas y un pastel.  

In [2]:
cantidad = [17, 40, 1]
type(cantidad)

list

Si quisiera saber el monto total vendido, un calculo natural sería la multiplicacion del precio por la cantidad.

In [3]:
try:
    precio * cantidad
except:
    pass

Intentar multiplicar dos listas juntas da lugar a un error y revela una debilidad crítica de las listas: Las listas no pueden manejar cálculos.

In [4]:
import numpy as np

In [5]:
arreglo_precio = np.array(precio)
arreglo_cantidad = np.array(cantidad)

In [6]:
type(arreglo_precio)

numpy.ndarray

In [7]:
type(arreglo_cantidad)

numpy.ndarray

In [8]:
arreglo_precio * arreglo_cantidad

array([34, 40, 10])

In [9]:
arreglo_costo = np.array([0.25, 0.50, 5.00])

In [10]:
arreglo_ganancias = arreglo_precio - arreglo_costo
print(arreglo_ganancias)

[1.75 0.5  5.  ]


**Booleanos**

Supongamos que quieren identificar qué elementos obtuvieron un beneficio superior a $2 por elemento.  Pueden usar el siguiente código para preguntar si la declaración es True (verdadera) o False (falsa) para cada elemento en el array.

In [11]:
arreglo_ganancias > 2.00

array([False, False,  True])

**Adición**

El club también vende tartas por 7, así que debemos actualizar nuestro arreglo_precio.  De acuerdo con sus experiencias con las listas, pueden pensar que el siguiente código funcionará para incluir elementos adicionales a nuestro array:  

In [12]:
arreglo_precio = arreglo_precio + [7]
print(arreglo_precio)

[ 9  8 17]


In [13]:
# arreglando el error
arreglo_precio = arreglo_precio - [7]

In [14]:
# La manera correcta de agregar datos a un arreglo
arreglo_precio = np.append(arreglo_precio, 7)
print(arreglo_precio)

[ 2  1 10  7]


También pueden añadir múltiples valores al array en un comando.

Por ejemplo, el club quiere agregar los siguientes precios: 4,50 por dulces, 3 por una magdalena, 4 por una barra de pan de plátano.  Observen el uso de corchetes en el siguiente código que añade inmediatamente los cuatro valores al array:

In [15]:
arreglo_precio = np.append(arreglo_precio, [4.50, 3, 4])
print(arreglo_precio)

[ 2.   1.  10.   7.   4.5  3.   4. ]


In [16]:
print(arreglo_precio.dtype)

float64


**Eliminar**



Resulta que nadie planea hacer una torta, así que quieren eliminar el precio de ese elemento del array.  Usaremos el comando np.delete(), pero necesitamos indicar qué elementos eliminar.  Usaremos la indexación (es muy similar a la indexación de las listas) para indicar que queremos eliminar el elemento en el índice 7 (recuerden usar indexación cero), o como es el último elemento, podemos ir por la derecha y utilizar el elemento -1.

In [17]:
arreglo_precio = np.delete(arreglo_precio, -1)
print(arreglo_ganancias)

[1.75 0.5  5.  ]


**Reemplazar**



Después el club decide subir el precio de los pasteles de 10 a 12.  Nuevamente, tendremos que identificar el elemento usando el índice.  Los pasteles están en el índice 2.

In [18]:
arreglo_precio[2] = 12
print(arreglo_precio)

[ 2.   1.  12.   7.   4.5  3. ]


In [19]:
#crea un arreglo del 10 al 50 que van incrementando de 2 en 2
np.arange(10,51,2)

array([10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42,
       44, 46, 48, 50])

In [20]:
mi_matriz = [[1,2,3],[4,5,6],[7,8,9]]
mi_matriz

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [21]:
np.array(mi_matriz)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [22]:
#crea un arreglo de 0 a 1 de 12 numeros separados con el mismo espacio linealmente
np.linspace(0,1,12)

array([0.        , 0.09090909, 0.18181818, 0.27272727, 0.36363636,
       0.45454545, 0.54545455, 0.63636364, 0.72727273, 0.81818182,
       0.90909091, 1.        ])

In [23]:
#genera un numero aleatorio
np.random.rand(1)

array([0.04102929])

In [24]:
#genera 25 numeros aleatorios con distribucion normal estandar
np.random.randn(25)

array([ 1.84593881,  0.10944679,  0.2299307 , -0.25024766, -0.485032  ,
        2.11755481, -1.1864208 ,  1.7713679 ,  0.97214907,  0.35755429,
       -0.1621035 , -1.90870247,  1.08006771,  1.05041822, -0.55941957,
       -0.47943133, -1.65120553, -0.21019738, -0.63763447,  1.36666006,
       -0.54742916, -0.19898142,  0.34524919,  0.87707026,  0.78049208])


## Indexación y selección
La forma más sencilla de elegir uno o algunos elementos de una matriz es muy similar a las listas de Python:

In [25]:
arr_2d = np.array(([5,10,15],[20,25,30],[35,40,45]))

#Mostrar
arr_2d

array([[ 5, 10, 15],
       [20, 25, 30],
       [35, 40, 45]])

In [26]:
#Indexación de filas
arr_2d[1]


array([20, 25, 30])

In [27]:
# El formato es arr_2d [fila] [col] o arr_2d [fila, col]

# Obtener valor de elemento individual fila 2 columna 1
arr_2d[1][0]

20

In [28]:
# Obtener valor de elemento individual
arr_2d[1,0]

20

In [29]:
# Corte de matriz 2D

#Forma (2,2) desde la esquina superior derecha
arr_2d[:2,1:]

array([[10, 15],
       [25, 30]])

In [30]:
#Forma fila inferior
arr_2d[2]

array([35, 40, 45])

In [31]:
#Forma fila inferior
arr_2d[2,:]

array([35, 40, 45])

## Funciones de matriz universal

Numpy viene con muchas [funciones de matriz universales](http://docs.scipy.org/doc/numpy/reference/ufuncs.html), que son esencialmente operaciones matemáticas que puede utilizar para realizar la operación en toda la matriz. Muestremos algunos comunes:

In [32]:
# Tomando raíces cuadradas
np.sqrt(arr_2d)

array([[2.23606798, 3.16227766, 3.87298335],
       [4.47213595, 5.        , 5.47722558],
       [5.91607978, 6.32455532, 6.70820393]])

In [33]:
#Calcular exponencial (e ^)
np.exp(arr_2d)

array([[1.48413159e+02, 2.20264658e+04, 3.26901737e+06],
       [4.85165195e+08, 7.20048993e+10, 1.06864746e+13],
       [1.58601345e+15, 2.35385267e+17, 3.49342711e+19]])

In [34]:
np.max(arr_2d) #igual que arr.max()

45

In [35]:
np.sin(arr_2d)

array([[-0.95892427, -0.54402111,  0.65028784],
       [ 0.91294525, -0.13235175, -0.98803162],
       [-0.42818267,  0.74511316,  0.85090352]])

In [36]:
np.log(arr_2d)

array([[1.60943791, 2.30258509, 2.7080502 ],
       [2.99573227, 3.21887582, 3.40119738],
       [3.55534806, 3.68887945, 3.80666249]])

In [37]:
np.nan

nan

# Fin