# Curso de Machine Learning Aplicado con Python

![Machine-Learning](assets/Machine-Learning.jpg)

# Qué es y cómo se utiliza Numpy

![numpycheatsheet](assets/numpycheatsheet.jpg)

### Datos importantes:

* Numpy es una librería muy importante para el ecosistema de Python ya que es la base de todos los cálculos científicos y muchas de las librerías de Machine Learning.
* Scikit-Learn con sus modelos, cuando retorna un resultado, en general lo retorna en un formato Numpy.
* La API de Numpy tiene muchas similitudes con Pandas.
* Numpy reemplaza de forma más eficiente lo que podría ser un tipo lista. En las listas podemos tener conjuntos de elementos numéricos. Sin embargo las listas no logran manejar datos de dos dimensiones.
* Las listas no poseen métodos que son prácticos para hacer aritmética.
* Es importante saber que otros lenguajes de programación poseen librerías altamente optimizadas para hacer cálculos numéricos con vectores de datos. Numpy es esa librería para el lenguaje de programación de Python.
* np.linspace es una función que permite crear un array de una dimensión de números entre 0 y 1.
* Los array a diferencia de otros objetos en Python están fuertemente tipificados. Esta tipificación fuerte es necesaria porque es una de las cosas que permite que esta librería sea más rápida que ocupar listas, por ejemplo.



## Porque Numpy?

* `list` no tiene buen manejo para los indices cuando se trabaja con listas de datos de más de dos dimensiones.
* `list` no posee metodos de algebra lineal, ni de transformaciones de datos.
* En otros lenguajes encontramos estructuras de datos altamente optimizadas para poder hacer operaciones algebraicas sobre arrays.

###### Por sobre Numpy se erige todo un ecosistema de librerias muy utiles que iremos viendo en el recorrido de este curso.


## Crear Arrays

In [2]:
#Importar la librería
import numpy as np
print("La version de numpy es {}".format(np.__version__))

La version de numpy es 1.13.1


###### Como crear arrays

In [7]:
a1 = np.array([1,2,3])                 # con una lista
type(a1)
# Le entregamos una lista y el nos retorna un numpyarray

numpy.ndarray

In [8]:
a2 = np.arange(10)       
print(type(a2))
print(a2)
# np.arange es un metodo similar al range del tipo lista2 = np.arange(10)
# np.arange es un metodo similar al range del tipo list

<class 'numpy.ndarray'>
[0 1 2 3 4 5 6 7 8 9]


In [10]:
a3 =  np.zeros((2,3))   
# crear un lista de dos dimensiones, pre-rellenada con zeros
a4 =  np.ones((2,3))    
# crear un lista de dos dimensiones, pre-rellenada con unos

In [13]:
from IPython.display import display
print("array de ceros")
display(a3);
print("array de unos")
display(a4)
# De esta forma tambien podemos ver que tipo de objeto es

array de ceros


array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

array de unos


array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

**`np.linspace(a,b,n)` es una función que permite crear arrays de una dimensión, de largo n, y que contienen puntos entre a y b, distanciados de forma regular. La distancia entre cada punto sera de $(b−a)/(n−1).$ **

In [14]:
a5 = np.linspace(0,1,11)
print("linspace")
display(a5)

linspace


array([ 0. ,  0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9,  1. ])

In [15]:
# Dtypes
a5.dtype

dtype('float64')

## Dimensión de un Array

In [16]:
display(a1)

array([1, 2, 3])

In [17]:
a1.shape 
# Con esto podemos saber las dimensiones de nuestro array

(3,)

In [18]:
display(a3)

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [19]:
a3.shape

(2, 3)

In [20]:
a1D = np.array([1,2,3])
a2D = np.array([[1,2,3]])
display(a1D.shape)
display(a2D.shape)

(3,)

(1, 3)

In [21]:
# Son los dos arrays iguales?
np.array_equal(a1D,a2D)

False

In [23]:
# Redimensionando(Reshaping) para que sean iguales
new_dims = (1,a1D.shape[0])
a = a1D.reshape(new_dims)

In [24]:
np.array_equal(a,a2D)

True

## Acceso a elementos y Slicing

In [25]:
a = np.array([[1,0,3],[4,3,5],[6,10,-1]])
a

array([[ 1,  0,  3],
       [ 4,  3,  5],
       [ 6, 10, -1]])

In [26]:
a[2,1]
# Mirando que contiene en esa posicion

10

Para acceder a un elemento de un array de dimensión n, la síntaxis es 

**array[i1,i2,i3,...iN].**

En este curso y frecuentemente en ML trabajaremos con arrays de dimensión 1 o dimensión 2, por lo que:

* Para un array de 1D: **a[index]**

* Para un array de 2D: **a[index1,index2]**

In [27]:
a = np.arange(10)
b = np.eye(3)
display(a);display(b)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [30]:

a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [31]:
a[:5]
#Los 5 primeros elementos

array([0, 1, 2, 3, 4])

In [29]:
b

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [36]:
b[0:3,2] 
#Extraemos toda la segunda columna

array([ 0.,  0.,  1.])

In [37]:
b[2,0:3]
#Extraemos la tercera fila

array([ 0.,  0.,  1.])

In [38]:
b[:,:]
# No entrega todo el array

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

## Operaciones sobre arrays

In [42]:
# Aritmetica
a = np.arange(4)

print("a      \t=\t", a)
print("a + 5  \t=\t", a + 5)  #suma a cada elemento 5
print("a - 5  \t=\t", a - 5)  #resta a cada elemento 5
print("a * 2  \t=\t", a * 2)  #multiplica a cada elemento 2
print("a / 2  \t=\t", a / 2)  #divide a cada elemento 2 con punto flotante
print("a // 2 \t=\t", a // 2) #divide a cada elemento 2 sin punto flotante
print("-a     \t=\t", -a)     #volver negativo el vector 
print("a ** 2 \t=\t", a ** 2) #Exponer cada elemento, elevarlo a 2
print("a % 2  \t=\t", a % 2)  #Si es par o impar con modulo,(0=par,1=impar)

a      	=	 [0 1 2 3]
a + 5  	=	 [5 6 7 8]
a - 5  	=	 [-5 -4 -3 -2]
a * 2  	=	 [0 2 4 6]
a / 2  	=	 [ 0.   0.5  1.   1.5]
a // 2 	=	 [0 0 1 1]
-a     	=	 [ 0 -1 -2 -3]
a ** 2 	=	 [0 1 4 9]
a % 2  	=	 [0 1 0 1]


## Operaciones con respecto a otro vector

In [43]:
print(a+a) #suma el vector con el mismo
print(a*a) #multiplica el vector con el mismo

[0 2 4 6]
[0 1 4 9]


Operator | ufunc | 
:---: | :--- |
`+` | *np.add*
`-` | *np.subtract*
`*` | *np.multiply*


In [45]:
# Otras ufuncs interesantes
a = np.arange(4)
b = np.arange(1,5)

display(np.exp(a))         # exponencial
display(np.log(b))         # logaritmo natural
display(np.sqrt(a))        # raiz cuadrada
display(np.greater(a,b))   # superior o igual punto a punto item contra item

array([  1.        ,   2.71828183,   7.3890561 ,  20.08553692])

array([ 0.        ,  0.69314718,  1.09861229,  1.38629436])

array([ 0.        ,  1.        ,  1.41421356,  1.73205081])

array([False, False, False, False], dtype=bool)

### Rendimiento

> Las ufuncs corren a velocidad de código compilado C.
De poder utilizarse se deberían preferir a el uso de for loops.
Un código Numpy solo con funciones nativas, sin bucles, se le llama código "vectorizado". 

In [46]:
%%timeit
a = np.arange(1000000)
b = np.zeros(1000000)
i = 0
for el in a:
    b[i] = el+el
    i+=1

253 ms ± 3.21 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [47]:
%%timeit
a = np.arange(1000000)
a+a

3.29 ms ± 40.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## Con esto hemos medido el perfomance de un for loop contra las funciones compiladas en c de numpy y mientras en el for gasta 3.21 milisegundos por loop en numpy gasta 40.3 microsegundos por loop ¡Algo absolutamente abrumador!

## Estadística y aleatoridad

In [48]:
# Estadística
a = np.arange(10)

display(np.mean(a))           # promedio
display(np.median(a))         # mediana    

4.5

4.5

In [49]:


np.percentile(a,40)                  # percentil



3.6000000000000001

In [50]:
np.random.random(10) # Aleatoridad

array([ 0.29060088,  0.26802952,  0.09905195,  0.21687608,  0.01838974,
        0.70813897,  0.72302612,  0.82054207,  0.72057702,  0.54433689])