# Capítulo 2 Handbook

En este capitulo como en el 3 se revisan tecnicas para lectura, almacenamiento y manipulación efectiva de la memoria en python. Por ejemplo, las imagenes pueden verse como un arreglo bidimencional de numeros que representan pixeles y luminocidad, mientras que los clips de sonido se puede ver como arreglos unidimensionales de intenisdad contra tiempo, etc. Sin importar el tipo de dato, el primer paso para analisarlo es llevarlo a un arreglo de numeros.


NumPy y Pandas package son herramientas especializadas de Python para el manejo de arreglos numericos. En este capítulo se vera el manejo de los NumPy (Numerical Python), este paquete ofrece una interface eficiente para el almacenamiento y operación de buffers densos de datos (data buffer is a region of a physical memory storage used to temporarily store data while it is being moved from one place to another)

In [13]:
import numpy
numpy.__version__

'1.16.4'

In [14]:
import numpy as np

Como se habia mencionad Python te permite explorar rapidamente los contenidos del paquete

In [15]:
np?

[0;31mType:[0m        module
[0;31mString form:[0m <module 'numpy' from '/Users/stefany/miniconda3/envs/analisis-env/lib/python3.7/site-packages/numpy/__init__.py'>
[0;31mFile:[0m        ~/miniconda3/envs/analisis-env/lib/python3.7/site-packages/numpy/__init__.py
[0;31mDocstring:[0m  
NumPy
=====

Provides
  1. An array object of arbitrary homogeneous items
  2. Fast mathematical operations over arrays
  3. Linear Algebra, Fourier Transforms, Random Number Generation

How to use the documentation
----------------------------
Documentation is available in two forms: docstrings provided
with the code, and a loose standing reference guide, available from
`the NumPy homepage <https://www.scipy.org>`_.

We recommend exploring the docstrings using
`IPython <https://ipython.org>`_, an advanced Python shell with
TAB-completion and introspection capabilities.  See below for further
instructions.

The docstring examples assume that `numpy` has been imported as `np`::

  >>> import numpy 

## Understanding Data Types in Python

Python tiene la propiedad de tener una escritura dinámica, mientras que en C o Java todas las variables tienen que haber sido declaradas con anterioridad Python infiere el tipo de variable que se esta maniulando

In [4]:
# Python code
result = 0
for i in range(100):
    result += i

 For C code

Otro ejemplo de como Python infiere el tipo de variable es el siguiente

In [6]:
# Python code
x = 4
x = "four"

Cambiar de esta forma el tipo de variable para python no es un problema, sin embargo en C, dependiendo del compilador, podiria llevar a un error con consecuencias inesperadas

## A Python integer is more than just an integer

La implementación estandar de Python esta escrita en C, que contiene no solo el valor, sino tambien, otro tipo de información 

In [16]:
int?

[0;31mInit signature:[0m [0mint[0m[0;34m([0m[0mself[0m[0;34m,[0m [0;34m/[0m[0;34m,[0m [0;34m*[0m[0margs[0m[0;34m,[0m [0;34m**[0m[0mkwargs[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
int([x]) -> integer
int(x, base=10) -> integer

Convert a number or string to an integer, or return 0 if no arguments
are given.  If x is a number, return x.__int__().  For floating point
numbers, this truncates towards zero.

If x is not a number or if base is given, then x must be a string,
bytes, or bytearray instance representing an integer literal in the
given base.  The literal can be preceded by '+' or '-' and be surrounded
by whitespace.  The base defaults to 10.  Valid bases are 0 and 2-36.
Base 0 means to interpret the base from the string as an integer literal.
>>> int('0b100', base=0)
4
[0;31mType:[0m           type
[0;31mSubclasses:[0m     bool, IntEnum, IntFlag, _NamedIntConstant


A diferencia de C donde un entero solo es un lugar en la memoria donde el valor del mismo esta representado por la cantidad de bytes, en Python es un apuntador a la memoria donde esta contenida toda la información.

## A Python List is more than just a list

Aqui se vera que es lo que ocurre cuando se tiene una estructura Python que contiene varios objetos Python

In [17]:
L = list(range(10))
L

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [18]:
type(L[0])

int

Can be a list of diferent things like strings

In [19]:
L2 = [str(c) for c in L]
L2

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [20]:
type(L2[0])

str

or even heterogenius

In [21]:
L3 = [True, "2", 3.0, 4]
[type(item) for item in L3]

[bool, str, float, int]

El problema será que al momento de almacenar una lista con el mismo tipo de variables la información será redundante lo que ocaciona almacenamiento desperciciado

## Fixed-Type Arrays in Python

Construir un array module puede usarse para crear un arreglo de datos uniforme denso, array provee un alacenamiento eficiente de datos en base a arreglos

In [24]:
import array
L= list(range(10))
A= array.array('i', L)
A

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Aqui el 'i' es un tipo de codigo que indica que el contenido son enteros

Un comando más util es ndarray que ofrece operaciones entre los datos de forma eficiente 



In [25]:
import numpy as np

## Creating arrays from Python list

Usando np.array se crean arreglos de una lista de Python

In [27]:
#integer array
np.array([1,4, 2, 5, 3])

array([1, 4, 2, 5, 3])

A diferencia de las listas de Python numpy solo puede realizarce con objetos del mismo tipo, en el siguiente ejemplo los enteros se convierten a float para que coincidan

In [29]:
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

Si se quiere dar un tipo de variabe especifico se usa dtype

In [31]:
np.array([1,2,3,4], dtype='float32')

array([1., 2., 3., 4.], dtype=float32)

Finalmente a diferencia de las listas de Python numpy puede hacer arreglos multidimensionales

In [36]:
# nested list result in multi-dimensional arrays

np.array([range(i,i+3) for i in [2,4,6]])


array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

## Creating Arrays form Scratch

Para arreglos grandes a veceses mas util crear arreglos desde cero usando rutinas para convertir en NumPy

In [33]:
# Create a length-10 integer array filled with zeros
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [34]:
# Creating a floating point array filled with ones 

np.ones((3,5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [37]:
# Create a 3x5 array filled with 3.14

np.full((3,5),3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [38]:
#Create an array filled with a linear sequence 
#Starting at 0, ending at 20, stepping by 2
#(This is similar to the built-in range() function)

np.arange(0,20,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [39]:
#Creating an array of five values evenly spaced between 0 and 1 

np.linspace(0,1,5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [41]:
# Create a 3x3 array of uniformly distributed
#random values between 0 and 1

np.random.random((3,3))

array([[0.06861385, 0.74319809, 0.07712435],
       [0.01869718, 0.13301893, 0.21458516],
       [0.59445095, 0.36432555, 0.87495719]])

In [43]:
# Create a 3x3 array of normally distributed random values 
# with mean 0 and standard deviation 1

np.random.normal(0,1,(3,3))

array([[ 0.89026322, -1.18858531, -0.89523761],
       [ 1.50434211,  0.7252228 , -0.78860266],
       [ 0.99103986,  0.24065464,  0.68046595]])

In [45]:
# Create a 3x3 array of random integers in the interval [0,10)

np.random.randint(0,10,(3,3))

array([[9, 1, 6],
       [8, 3, 7],
       [0, 0, 3]])

In [46]:
#Create a 3x3 identity matrix

np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [47]:
# Create an uninitialized array of three integers 
# The values will be whatever happens to already exist at the memor 

np.empty(3)

array([1., 1., 1.])

## NumPy Standard Data Types

Ya que los arreglos de numpy solo contienen valores del mismo tipo, por lo que se puede especificar que tipo de variable es ya sea por medio de strings o con su objeto numpy asociado

In [48]:
np.zeros(10, dtype='int16')

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int16)

In [49]:
np.zeros(10, dtype=np.int16)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int16)

## 2.2 The basics of numpy arrays

### Numpy array attibutes

Se muestra como arreglos de una, dos y tres dimensiones pueden establecerce usando un generador de numeros aleatorios que se le dara la semilla on un valor establecido para asegurar que el mismo arreglo random se genere cada ves que el código corre

In [51]:
import numpy as np
np.random.seed(0)                     #semilla para reproducibilidad

x1=np.random.randint(10,size=6)       # one dimensional array
x2=np.random.randint(10,size=(3,4))   # two dimensional array
x3= np.random.randint(10, size=(3,4,5)) #Three dimensional array

Cada arreglo tiene los atributos de ndim, shape(el tamaño de a cada dimension) y size(el tamaño total del arreglo)

In [52]:
print("x3 ndim:", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size:", x3.size)

x3 ndim: 3
x3 shape: (3, 4, 5)
x3 size: 60


Así como el dtype, itemsize (da la lista del tamaño en bytes de cada elemento) y nbytes (da el tamaño total en bytes del arreglo)

In [55]:
print("dtype", x3.dtype)

dtype int64


In [56]:
print("itemsize", x3.itemsize, "bytes")
print("nbytes", x3.nbytes, "bytes")

itemsize 8 bytes
nbytes 480 bytes


## Array indexing: Accessing single elements

Así como se puede accesar a un solo elemento con los parentesis cuadrados, tambien es posible accesar a subarrays por medio de (:) caracter. 

x[start:stop:step]

Si alguno de estos no es especificado, se asumen los valores default a los valores start=0, stop= size of dimension,step=1.

### One dimension subarray

In [60]:
x = np.arange(12)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [61]:
x[:5] #first five elements

array([0, 1, 2, 3, 4])

In [62]:
x[5:] #elements after index five

array([ 5,  6,  7,  8,  9, 10, 11])

In [63]:
x[4:7] #middle subarray

array([4, 5, 6])

In [65]:
x[::2] # every other element

array([ 0,  2,  4,  6,  8, 10])

In [66]:
x[1::2] # every other element, starting at index 1

array([ 1,  3,  5,  7,  9, 11])

cuando el step es negativo se invierte los defaults de start y stop

In [67]:
x[::-1] #all elements reversed

array([11, 10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0])

In [68]:
x[5::-2] #reversed every other from index 5

array([5, 3, 1])

## Multi-dimensional subarray

 Los arreglos multidimensionaes trabajan de la misma forma

In [70]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [71]:
x2[:2,:3] #two rows, three columns

array([[3, 5, 2],
       [7, 6, 8]])

In [72]:
x2[:3, ::2] #three rows, every other column

array([[3, 2],
       [7, 8],
       [1, 7]])

se puede reverstir un subarray

In [73]:
x2[::-1, ::-1]

array([[7, 7, 6, 1],
       [8, 8, 6, 7],
       [4, 2, 5, 3]])

#### Accesing array rows and columns

Para accesar auna sola fila o columna se puede combinar indexing y empty slice

In [75]:
print(x2[:,0]) # first column of x2

[3 7 1]


In [76]:
print(x2[0,:]) #first row of x2

[3 5 2 4]


en el caso de acceder a la fila, el : puede omitirse

In [78]:
print(x2[0]) #equivalent to x2[0,:]

[3 5 2 4]


### Sub arrays as no-copy views

Una cosa importante sobre los slice es que regresan views en lugar de copias de datos

In [79]:
print(x2)

[[3 5 2 4]
 [7 6 8 8]
 [1 6 7 7]]


extrayendo 2x2 subarray

In [80]:
x2_sub=x2[:2,:2]
print(x2_sub)

[[3 5]
 [7 6]]


Ahora si se modifica este arreglo se vera que el arreglo original también cambia 

In [81]:
x2_sub[0,0]=99
print(x2_sub)

[[99  5]
 [ 7  6]]


In [82]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


### Creating copies of arrays

Para copiar explicitamente un arreglo se puede usar el comando copy()

In [83]:
x2_sub_copy=x2[:2,:2].copy()
print(x2_sub_copy)

[[99  5]
 [ 7  6]]


 Ahora si modificamos esta copia el original se mantiene igual

In [85]:
x2_sub_copy[0,0]=42
print(x2_sub_copy)

[[42  5]
 [ 7  6]]


In [86]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


### Reshaping of arrays

Para reshepe un arreglo se puede usar el metodo reshepe. Por ejemplo si se quiere poner los numeros del 1 al 9 en un arreglo de 3x3 

In [87]:
grid= np.arange(1,10).reshape((3,3))
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


Siempre y cuando el arreglo previo coincida con el tamaño del nuevo. Otra forma comun es llevar un arreglo unidimensional a uno de columna o fila de una matriz

In [89]:
x= np.array([1,2,3])

#row vector via reshape
x.reshape((1,3))

array([[1, 2, 3]])

In [91]:
# row vector via newaxis
x[np.newaxis,:]

array([[1, 2, 3]])

In [92]:
#Column vector via reshape

x.reshape((3,1))

array([[1],
       [2],
       [3]])

In [93]:
# Column vestor via newaxis

x[:,np.newaxis]

array([[1],
       [2],
       [3]])

## Array concatenation and splitting

Es posible combinar multiples arreglos en uno y separar un solo arreglo en multiples arreglos

### Concatenation of arrays

La union de arreglos en numpy es posible mediante los comandos np.concatenate, np.vstack y np.hstack

In [95]:
x=np.array([1,2,3])
y=np.array([3,2,1])
np.concatenate([x,y])

array([1, 2, 3, 3, 2, 1])

Tambien se pueden unir mas de dos arreglos

In [96]:
z=[99,99,99]
print(np.concatenate([x,y,z]))

[ 1  2  3  3  2  1 99 99 99]


Tambien se puede usar para un arreglo bidimensional

In [98]:
grid=np.array([[1,2,3],[4,5,6]])

In [99]:
#concatenate along the second axis (zero-indexed)
np.concatenate([grid,grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

Si se trabaja con arreglos de diferentes dimensiones se puede usar np.vstack (vertical stack) y np.hstack (hotizontal stack)

In [100]:
x= np.array([1,2,3])
grid= np.array([[9, 8, 7],[6, 5, 4]])

#vertical stack the arrays
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [101]:
# horizontally stack the arrays

y=np.array([[99],
            [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

de la misma forma np.dstack los unira a lo largo del tercer eje 

## Splitting of arrays

Lo opuesto de concatenar es dividir, que se puede hacer mediante los comandos np.split, np.hsplit y np.vsplit

In [106]:
x= [1,2,3,99,99,3,2,1]

x1,x2,x3= np.split(x,[3,5])
print(x3)   ## tratar de entender el split

[3 2 1]


In [107]:
grid = np.arange(16).reshape((4,4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [109]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [110]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


# Computation on NumPy Arrays: Universal Functions

Para poder tener operaciones mas rapidas una forma clave es usar operaciones vectorizadas, generalmente se implementan a traves de funciones universales (ufuncs, que pueden ser usadas para hacer calculos repetidos en elementos del arreglo mucho mas eficientes.  

## The slowness of loops

In [112]:
import numpy as np
np.random.seed(0)

def compute_reciprocals(values):
    output= np.empty(len(values))
    for i in range(len(values)):
        output[i]=1.0/values[i]
    return output

values = np.random.randint(1, 10, size=5)
compute_reciprocals(values)

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

In [113]:
big_array = np.random.randint(1,100, size=1000000)
%timeit compute_reciprocals(big_array)

2.81 s ± 184 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Toma algunos segundo realizar 1000000 de operaciones, aun que los celulares pueden realizar un mayor numero por segundo, en donde el cuello de botella es el type-checking y las funciones por cada ciclo de loop. Ya que python primero examina el tipo de objetos y realiza una busqueda dinamica de la funcion correcta que debe utilizar para ese tipo de funcion.  

## Introducing UFuncs

Para muPara estos casos Python tiene una operación vectorizada. Se puede lograr por la realización en un arreglo, puede usarse para cada elemento. Esta aproximación se diseño para llevar al loop a la compilación que realiza Numpy que lleva a una compilación mucho mas rapida

In [114]:
print(compute_reciprocals(values))
print(1.0/values)

[0.16666667 1.         0.25       0.25       0.125     ]
[0.16666667 1.         0.25       0.25       0.125     ]


esta ejecucion de el arreglo grande que se tiene es mucho mas rapido que los loops de Python

In [115]:
%timeit (1.0/big_array)

3.55 ms ± 19.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
