# Curso de introduccion a Python y Machine Learning


## Clase 5


#### Indice:
        Bibliotecas (library)
        Math
        Numpy 
        Pandas
        

## Bibliotecas (library)

#### Que son?
En informática, una biblioteca o librería (del inglés library) es un conjunto de implementaciones funcionales, codificadas en un lenguaje de programación, que ofrece una interfaz bien definida para la funcionalidad que se invoca.
Esto quiere decir que son un paquete de funciones ya previamente creadas para poder hacer mas sencilla la programacion en un ambito determinado.
Existen infinidad de bibliotecas, algunas colecciones de ellas pueden importarse a python con fines especificos: por ejemplo, pueden ser para programar web, otras pueden ayudarnos a crear un programa de escritorio y otras pueden hacernos mas sencillo el trabajo con los datos.

#### Como se importan?

Para importar una libreria en Python se usa la siguiente sintaxis:
    
`import libreria as alias`

Para importar una funcion en particular de un modulo o libreria, utilizamos la sintaxis:
    
`from libreria import funcion`

Como ejemplo vamos a importar la biblioteca `math`, que nos provee distintas funciones y utilidades matematicas para Python.


In [3]:
import math

Tambien podemos renombrar a la biblioteca para hacer mas facil y rapido la invocacion de la misma.

In [4]:
import math as m

Ahora que ya importamos la libreria podemos invocar algunas de sus funciones:

In [5]:
pi = m.pi
print(pi)

3.141592653589793


In [6]:
m.sqrt(49)

7.0

Es importante conocer las bibliotecas que estemos utilizando, la clave va a ser conocer la documentacion de las mismas para saber que funciones poseen y como se implementan.


Para buscar el listado de todas las funciones de las bibliotecas podemos acceder a la documentacion oficial de python (https://www.docs.python.org)

## Bibliotecas en Data Science

Python tiene implementadas muchas librerias para poder trabajar con datos. En la clase de hoy trabajaremos con dos de ellas: `Numpy` y `Pandas`.

Antes de comenzar, vamos a hablar un poco de estas dos librerias o modulos.

**Numpy** es una librería optimizada para realizar cálculos numéricos con vectores y matrices. A diferencia de otros lenguajes de programación, Python no posee en su estructura central la figura de matrices. Eso quiere decir que para poder trabajar con esta estructura de datos deberiamos trabajar con listas de listas. NumPy introduce el concepto de arrays o matrices.

Por otro lado, **Pandas** es una libreria que es una extensión de NumPy. Basicamente al utilizar `pandas`, utilizo `numpy` por debajo. 


Esta orientada a la manipulación y análisis de datos debido a que ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.

La estructura principal de `pandas` es el `DataFrame` que es muy similar a una tabla. Así también, contiene otra estrucutra denominada `Serie`.

Al ser de código abierto, `pandas` y `numpy` poseen una documentación muy amplia que es **SIEMPRE RECOMENDABLE** consultar.

- [Documentacion NumPy](https://devdocs.io/numpy/)
- [Documentacion Pandas](https://pandas.pydata.org/pandas-docs/stable/)

## Modulo 1: NumPy

Como convencion, cuando se importa `numpy` se le asigna el alias `np`. Pero esto no es obligatorio, solo me facilita muchas veces la escritura del codigo.

In [7]:
#Importar numpy 
import numpy as np

In [8]:
np.pi == m.pi

True

In [9]:
np.pi

3.141592653589793

De ahora en mas para utilizar una función de Numpy solo tengo que usar `np` y luego llamar función. Por ejemplo, si quiero llamar la función `.mean()`, debo escribir: `np.mean()`.

Comenzemos a ver que funciones se pueden utilizar en NumPy.

- `.array()`

Esta función me permite crear un array. Es posible crear arrays a partir de listas.


#### Cual es la diferencia entre un array y una lista?
Los array y las listas se usan en Python para almacenar datos, pero no sirven exactamente para los mismos propósitos. Ambos se pueden usar para almacenar cualquier tipo de datos (números reales, cadenas, etc.), y ambos se pueden indexar e iterar, pero las similitudes entre los dos no van mucho más allá. La principal diferencia entre una lista y un array son las funciones que puede realizarles. Por ejemplo, puede dividir un array por 3, y cada número en el array se dividirá por 3 y el resultado se imprimirá si lo solicita. Si intenta dividir una lista por 3, Python le dirá que no se puede hacer y se generará un error.

In [10]:
#creo un array
arr = np.array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])
type(arr)

numpy.ndarray

In [11]:
arr

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [12]:
#crea una lista llamada mi_lista que contenga 10 numeros

mi_lista = [45,123,89,3,45,2,99,56,34,10]

In [13]:
type(mi_lista)

list

In [14]:
#Ahora transforma tu lista en un array usando np.array y asignalo a la variable mi_array

mi_array = np.array(mi_lista)
#Imprimi mi_array
print(mi_array)

[ 45 123  89   3  45   2  99  56  34  10]


Podemos usar `type` para obtener el tipo de estructura de datos que estamos trabajando.

In [15]:
#Aplica type sobre mi_array para mostrar que tipo de estructura de datos es
type(mi_array)

numpy.ndarray

In [16]:
mi_lista + mi_lista

[45, 123, 89, 3, 45, 2, 99, 56, 34, 10, 45, 123, 89, 3, 45, 2, 99, 56, 34, 10]

Los arrays y las listas se comportan diferente frente operaciones matematicas con números.

In [17]:
#Corre el siguiente codigo
print(mi_lista + 2)

TypeError: can only concatenate list (not "int") to list

No es posible sumar un numero a cada uno de los elementos de una lista. Sin embargo, esto funciona distinto en Numpy.

In [18]:
#Suma 2 a cada elemento de mi_array
mi_lista2 = [i + 2 for i in mi_lista]

print(mi_lista2)

[47, 125, 91, 5, 47, 4, 101, 58, 36, 12]


El comportamiento tambien es distinto para la operacion de multiplicacion.

In [19]:
#Corre el siguiente codigo y fijate que pasa
print(mi_lista * 3) 

[45, 123, 89, 3, 45, 2, 99, 56, 34, 10, 45, 123, 89, 3, 45, 2, 99, 56, 34, 10, 45, 123, 89, 3, 45, 2, 99, 56, 34, 10]


In [20]:
#Ahora multiplica por dos cada elemento de mi_array

mi_lista3 =  [i * 2 for i in mi_lista]

print(mi_lista3)

[90, 246, 178, 6, 90, 4, 198, 112, 68, 20]


In [21]:
mi_array

array([ 45, 123,  89,   3,  45,   2,  99,  56,  34,  10])

In [22]:
mi_array * 2

array([ 90, 246, 178,   6,  90,   4, 198, 112,  68,  20])

Los arrays y las listas se comportan diferente frente a operaciones con otros arrays/listas

In [23]:
#Corre el siguiente codigo
lista1 = [1, 2, 3, 4, 5]
lista2 = [5, 4, 3, 2, 1]

arr1 = np.array(lista1)
arr2 = np.array(lista2)

In [24]:
#Concatena las dos listas
lista1 + lista2

[1, 2, 3, 4, 5, 5, 4, 3, 2, 1]

In [25]:
arr1 + arr2

array([6, 6, 6, 6, 6])

In [26]:
#Suma los elementos de los dos arrays

#lista3 = []
#for i in lista1:
#  for j in lista2:
#    lista3.append(i + j)
#print(lista3)
lista1 = [1,2,3,4]
lista2 = [9,2,3,4]

array1 = np.array(lista1)
array2 = np.array(lista2)
  
print(array1 + array2)

[10  4  6  8]


In [27]:
#Multiplica los elementos de cada array
array1*array2

array([ 9,  4,  9, 16])

In [28]:
#Resta los dos arrays
array1-array2

array([-8,  0,  0,  0])

In [29]:
#Dividi los dos arrays
array1/array2

array([0.11111111, 1.        , 1.        , 1.        ])

In [30]:
#Eleva el array1 al array2
array1**array2

array([  1,   4,  27, 256], dtype=int32)

#### Producto escalar (dot)
Es una operación algebraica que toma dos secuencias de números de igual longitud (usualmente en la forma de vectores) y retorna un único número.
No vamos a entrar en muchos detalles de algebra en este curso ya que es de caracter introductorio.

In [31]:
#
np.dot(array1, array2)

38

In [32]:
array_largo = np.array([1,2,3,4,5])
array_largo

array([1, 2, 3, 4, 5])

In [33]:
array_largo.shape

(5,)

In [34]:
array_largo * array1
# Para operar arrays tienen que tener la misma forma (misma cantidad de datos)

ValueError: operands could not be broadcast together with shapes (5,) (4,) 

In [35]:
array_largo * 5

array([ 5, 10, 15, 20, 25])

In [36]:
array1.dtype

dtype('int32')

Para acceder a los elementos de los arrays de una dimension se utilizan los indices como las listas.

In [37]:
#Corre el siguiente codigo
print(lista1[0], arr1[0]) 

1 1


In [38]:
#Obtene el 3er elemento de arr1
print(lista1[2], arr1[2])

3 3


In [39]:
#Obtene el 5to elemento de arr2
print (lista2[4], arr2[4])

IndexError: list index out of range

In [40]:
#Obtene el ultimo elemento de arr1
arr1[-1]

5

Asi tambien obtenemos una porción del array de la misma manera que obtenemos una parte de una lista. A su vez podemos reasignar nuevos valores a una porción del array.

In [41]:
array1 = np.array( [1,2,3,4,5])

In [42]:
#Corre el siguiente codigo
array1[2:5] = [22, 23, 24]

In [43]:
#Imprimi el arr1
print(array1)

[ 1  2 22 23 24]


## Arreglos multidimensionales

Las listas son cadenas unidimensionales de elementos. Los arreglos pueden ser multidimensionales. Para comprender mejor que son, miremos el siguiente ejemplo:

In [44]:
#Corre el siguiente codigo
lista = [[0, 1, 3], [3, 4, 5]]
arr2d = np.array(lista)
arr2d

array([[0, 1, 3],
       [3, 4, 5]])

In [45]:
#Veamos cuantas dimensiones tiene el array
print(arr2d.ndim)

2


In [46]:
#Veamos cuantos elementos tiene el array
print(arr2d.size)

6


In [47]:
#Arma ahora un array de 3 dimensiones.
arr3 =  [ [2,4,6,5],[1,3,5,90],[8,10,12,-8] ] 
arr3d = np.array(arr3)
arr3d

array([[ 2,  4,  6,  5],
       [ 1,  3,  5, 90],
       [ 8, 10, 12, -8]])

In [48]:
#Chequea usando ndim que efectivamente tenga tres dimensiones
print(arr3d.ndim)

2


In [49]:
arr3d.shape

(3, 4)

**¿Como accedemos entonces a un array de mas de una dimension?**

In [50]:
#definamos un nuevo array a partir de una matriz
lista2 = [[0, 1, 3], [3, 4, 5], [9, 10, 4], [2, 5, 6]]
nuevo_array = np.array(lista2)

In [51]:
#Dimensiones de nuevo_array
print(nuevo_array.ndim)

2


In [52]:
#Mostra nuevo_array
print(nuevo_array)

[[ 0  1  3]
 [ 3  4  5]
 [ 9 10  4]
 [ 2  5  6]]


Si para un array de 1 dimension, usabamos un indice, para un array de n dimensiones tenemos que usar n indices. En el caso de 2 dimensiones, usaremos 2 indices. El primero indica la fila y el segundo la columna.

In [53]:
#Corre el siguiente codigo
print(nuevo_array[0, 1])

1


In [54]:
#Accede al tercer elemento de la segunda fila de nuevo_array
print(nuevo_array[1,2])

5


In [55]:
#Accede al cuarto elemento de la tercer columna de nuevo_array
print(nuevo_array[3,2])

6


In [56]:
#Accedo a toda la segunda columna
nuevo_array[:, 1]

array([ 1,  4, 10,  5])

In [57]:
#Accede a un subarray que vaya desde el segundo elemento de la 
#primer columna hasta el cuarto elemento de la tercer 
#columna de nuevo_array
print(nuevo_array[: , 2])

[3 5 4 6]


In [58]:
#Accede a un subarray que vaya desde el primer elemento de la 
#segunda fila hasta el segundo elemento de la cuarta 
#fila de nuevo_array
nuevo_array[1:, 0:2]

array([[ 3,  4],
       [ 9, 10],
       [ 2,  5]])

In [59]:
nuevo_array

array([[ 0,  1,  3],
       [ 3,  4,  5],
       [ 9, 10,  4],
       [ 2,  5,  6]])

## Creación de arreglos

- **np.zeros(shape, dtype, order)**: Crea un array con todos ceros en sus posiciones

In [60]:
np.zeros?

In [61]:
zeros = np.zeros(shape = (2,8))

In [62]:
#Corre el siguiente codigo
print(zeros)

[[0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]]


In [63]:
zeros.ndim

2

In [64]:
zeros.shape

(2, 8)

In [65]:
zeros.size

16

#### Docstrings y comentarios

In [66]:
def mi_funcion():
  '''
  Esta es la documentaciòn de mi función con el tilde al revés
  '''
  # esto es un comentario a parte
  return True

In [67]:
mi_funcion?

- **np.ones(shape, dtype, order)**: Crea un array con todos unos en sus posiciones

In [68]:
np.ones?

In [69]:
#Corre el siguiente codigo
print(np.ones(10))

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


- **np.random.rand(d0, d1, ..., dn)**: Genera un array con valores al azar con una distribución N~(0, 1) y segun las dimensiones pasada como argumento.

In [70]:
#Genera un array con valores al azar
print(np.random.randn(10,2))

[[-0.23498651  0.38241148]
 [ 1.38128672 -1.29470894]
 [ 2.49834058 -0.79636326]
 [ 0.17526257  0.59938549]
 [ 0.92351111 -0.52304548]
 [ 0.83252771  0.53315065]
 [ 1.35227095  0.3148988 ]
 [ 0.58717617 -0.65384631]
 [ 0.1040425   1.91867104]
 [ 0.60210345  0.01284074]]


In [71]:
r = np.random.randn(1000)

In [72]:
r.ndim

1

In [73]:
r.shape

(1000,)

In [74]:
r.mean()

0.0007695073197716837

In [75]:
r.std()

1.0186200261538267

- **np.random.randint(low, high, size)**: Devuelve un array con enteros al azar. Cuando se especifica un solo entero como argumento este entero es entendido como el mayor valor que ese numero random puede tomar. Si se pasan dos, uno es el menor valor y el otro es el mayor valor. Con size se le puede decir que dimensiones tiene el array. Si no le paso ningun valor, devolvera solo un numero entero.

In [76]:
#Genera un array con enteros al azar
np.random.randint(5, 10, 4)

array([7, 7, 7, 5])

In [77]:
np.random.randint?

In [78]:
for i in range(5,10,3):
  print(i)

5
8


- **np.arange([start, ]stop, [step, ])**: Devuelve numero simetricamente distribuidos segun los valores datos. El primer valor es el comienzo, el segundo el final y el tercero representa cada cuanto queremos esos valores.

**Range + array**

In [79]:
#Corre esta linea de codigo y comprende como funciona np.arange
np.arange(2, 16, 2)

array([ 2,  4,  6,  8, 10, 12, 14])

## Funciones estadisticas

NumPy nos facilita varias funciones que nos permitiran obtener algunos parametros estadisticos de nuestros arrays. Veamos cuales son estas funciones.

In [80]:
#Volvamos a ver como era nuestro array nuevo_array
print(nuevo_array)

[[ 0  1  3]
 [ 3  4  5]
 [ 9 10  4]
 [ 2  5  6]]


In [81]:
np.mean(nuevo_array)

4.333333333333333

In [82]:
nuevo_array.mean()

4.333333333333333

In [83]:
#usa la funcion mean para obtener el promedio de los valores en nuevo_array
np.mean(nuevo_array)

4.333333333333333

- `np.var()`: Devuelve la dispersión de los valores alrededor de la media


Voy a calcular la varianza con la fórmula

$$ var = 1/n\sum_{i=0}_{n} (x_i - X)^2 $$

*   Elemento de la lista
*   Elemento de la lista



In [84]:
#usa la funcion var para obtener la varianza de los valores en nuevo_array
np.var(nuevo_array)

8.055555555555557

In [85]:
nuevo_array.std()

2.838231060987734

- `np.sum()`: devuelve la suma de todos los valores en el array. 
- `np.min()`: devuelve el menor valor en el array
- `np.max()`: devuelve el maximo valor en el array

In [86]:
nuevo_array

array([[ 0,  1,  3],
       [ 3,  4,  5],
       [ 9, 10,  4],
       [ 2,  5,  6]])

In [87]:
#Muestra la suma de los valores en nuevo_array
np.sum(nuevo_array)

52

In [88]:
nuevo_array.sum(axis=0)

array([14, 20, 18])

In [89]:
nuevo_array.sum(axis=1)

array([ 4, 12, 23, 13])

In [90]:
np.min(nuevo_array)

0

In [91]:


#Muestra el minimo y maximo valor en nuevo array


np.max(nuevo_array)

10

In [92]:
nuevo_array.min(axis=0)

array([0, 1, 3])

In [93]:
nuevo_array.max(axis=1)

array([ 3,  5, 10,  6])

# Ejercicios

1. Crear un arreglo de ceros de longitud 12
2. Crear un arreglo de longitud 10 con ceros en todas sus posiciones y un 10 en la posición número 5
3. Crear un arreglo que tenga los números del 10 al 49
4. Crear una arreglo 2d de shape (3, 3) que tenga los números del 0 al 8
5. Crear un arreglo de números aleatorios de longitud 100 y obtener su media y varianza
6. Calcular la media de un arreglo usando np.sum
7. Calcular la varianza de un arreglo usando np.sum y np.mean
8. Crear un array de números aleatorios usando np.random.randn.


In [124]:
#1
np.zeros(12)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [126]:
#2
arr10 = np.zeros(10)
arr10[4] = 10
arr10

array([ 0.,  0.,  0.,  0., 10.,  0.,  0.,  0.,  0.,  0.])

In [127]:
#3
np.arange(10, 49, 1)

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48])

In [128]:
#4
np.arange(9).reshape(3,3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [129]:
#5
ran_array = np.random.randint(0, 1000, 100)
ran_array

array([795, 558, 849, 551, 970, 709, 163, 915, 751, 376, 379, 186, 944,
       343,  44, 709,   8, 541, 902, 649, 536, 279, 505, 639, 997, 836,
       978, 802, 233, 352, 315,  31,  62,  18, 734, 420, 807, 686, 226,
       791, 358, 463,  20, 699, 829, 346, 678, 565, 817, 884, 741,   5,
       594, 508, 578, 695, 976, 361, 628, 198, 687, 409, 601, 164, 474,
       661, 798,  19, 992, 102, 269, 790, 826, 885, 445, 750, 469, 161,
       284,  68, 698, 568, 497, 407,  66,  57, 752, 685,  76, 238,  49,
       711, 679, 920, 851, 250, 254, 321, 558, 598])

In [130]:
ran_array.mean()

516.21

In [131]:
ran_array.var()

83698.3659

In [132]:
#6 
print((ran_array.sum()/ran_array.shape)[0])

516.21


7. Varianza: $S^2 = \frac{\sum{(x_i - \bar{x})^2}}{n}$

In [133]:
np.sum((ran_array - ran_array.mean())**2)/ran_array.shape

array([83698.3659])

In [134]:
#7
np.random.randn(10)

array([-0.7939583 , -0.39971584, -0.84069626,  0.17892704, -0.06139464,
       -0.67083395, -1.19843649, -2.05363489,  0.97817091,  1.9830373 ])