# Programa Mujeres en Data Science

Como dijimos en clases anteriores, Python tiene implementadas muchas librerias para poder trabajar con datos. En la clase de hoy trabajaremos con dos de ellas: `Numpy` y `Pandas`.

Antes de comenzar, vamos a hablar un poco de estas dos librerias o modulos.

**Numpy** es una librería optimizada para realizar cálculos numéricos con vectores y matrices. A diferencia de otros lenguajes de programación, Python no posee en su estructura central la figura de matrices. Eso quiere decir que para poder trabajar con esta estructura de datos deberiamos trabajar con listas de listas. NumPy introduce el concepto de arrays o matrices.

Por otro lado, **Pandas** es una libreria que es una extensión de NumPy. Basicamente al utilizar `pandas`, utilizo `numpy` por debajo. Esta orientada a la manipulación y análisis de datos debido a que ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.

La estructura principal de `pandas` es el `DataFrame` que es muy similar a una tabla. Así también, contiene otra estrucutra denominada `Serie`.

Al ser de código abierto, `pandas` y `numpy` poseen una documentación muy amplia que es **SIEMPRE RECOMENDABLE** consultar.

- [Documentacion NumPy](https://devdocs.io/numpy/)
- [Documentacion Pandas](https://pandas.pydata.org/pandas-docs/stable/)

## Clase 2: Intro a Numpy y Pandas

## Modulo 1: NumPy

NumPy no pertenece al _core_ de Python y es por eso que debemos importarlo para poder usarlo. 

Para importar una libreria en Python se usa la siguiente sintaxis:
    
`import libreria as alias`

Para importar una funcion en particular de un modulo o libreria, utilizamos la sintaxis:
    
`from libreria import funcion`

Como convencion, cuando se importa `numpy` se le asigna el alias `np`. Pero esto no es obligatorio, solo me facilita muchas veces la escritura del codigo.

In [1]:
#Importar numpy 
import numpy as np

De ahora en mas para utilizar una función de Numpy solo tengo que usar `np` y luego llamar función. Por ejemplo, si quiero llamar la función `.mean()`, debo escribir: `np.mean()`.

Comenzemos a ver que funciones se pueden utilizar en NumPy.

- `.array()`

Esta función me permite crear un array. Es posible crear arrays a partir de listas.

In [2]:
#creo un array
arr = np.array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [3]:
#crea una lista llamada mi_lista que contenga 10 numeros

mi_lista = [45,123,89,3,45,2,99,56,34,10]

#Ahora transforma tu lista en un array usando np.array y asignalo a la variable mi_array

mi_array = np.array(mi_lista)
#Imprimi mi_array
print(mi_array)

[ 45 123  89   3  45   2  99  56  34  10]


Podemos usar `type` para obtener el tipo de estructura de datos que estamos trabajando.

In [5]:
#Aplica type sobre mi_array para mostrar que tipo de estructura de datos es
print(type(mi_array))

<class 'numpy.ndarray'>


Los arrays y las listas se comportan diferente frente operaciones matematicas con números.

In [5]:
#Corre el siguiente codigo
print(mi_lista + 2)

TypeError: can only concatenate list (not "int") to list

No es posible sumar un numero a cada uno de los elementos de una lista. Sin embargo, esto funciona distinto en Numpy.

In [6]:
#Suma 2 a cada elemento de mi_array
print(mi_array + 2)

[ 47 125  91   5  47   4 101  58  36  12]


El comportamiento tambien es distinto para la operacion de multiplicacion.

In [6]:
#Corre el siguiente codigo y fijate que pasa
print(mi_lista * 2) 

[45, 123, 89, 3, 45, 2, 99, 56, 34, 10, 45, 123, 89, 3, 45, 2, 99, 56, 34, 10]


In [7]:
#Ahora multiplica por dos cada elemento de mi_array
print(mi_array * 2)

[ 90 246 178   6  90   4 198 112  68  20]


Los arrays y las listas se comportan diferente frente a operaciones con otros arrays/listas

In [8]:
#Corre el siguiente codigo
lista1 = [1, 2, 3, 4, 5]
lista2 = [5, 4, 3, 2, 1]

arr1 = np.array(lista1)
arr2 = np.array(lista2)

In [9]:
#Concatena las dos listas
print(lista1 + lista2)

[1, 2, 3, 4, 5, 5, 4, 3, 2, 1]


In [10]:
#Suma los elementos de los dos arrays
print(arr1 + arr2)

[6 6 6 6 6]


In [11]:
#Multiplica los elementos de cada arreglo
print(arr1 * arr2)

[5 8 9 8 5]


In [12]:
#Resta los dos arrays
print(arr1 - arr2)

[-4 -2  0  2  4]


In [13]:
#Dividi los dos arrays
print(arr1 / arr2)

[0.2 0.5 1.  2.  5. ]


In [14]:
#Eleva el array1 al array2
print(arr1 ** arr2)

[ 1 16 27 16  5]


Para acceder a los elementos de los arrays de una dimension se utilizan los indices como las listas.

In [15]:
#Corre el siguiente codigo
print(lista1[0], arr1[0]) 

1 1


In [16]:
#Obtene el 3er elemento de arr1
print(arr1[3])

4


In [17]:
#Obtene el 5to elemento de arr2
print(arr2[-1])

1


In [18]:
#Obtene el ultimo elemento de arr1
print(arr1[-1])

5


Asi tambien obtenemos una porción del array de la misma manera que obtenemos una parte de una lista. A su vez podemos reasignar nuevos valores a una porción del array.

In [19]:
#Corre el siguiente codigo
arr1[2:5] = [22, 23, 24]

In [20]:
#Imprimi el arr1
print(arr1)

[ 1  2 22 23 24]


## Arreglos multidimensionales

Las listas son cadenas unidimensionales de elementos. Los arreglos pueden ser multidimensionales. Para comprender mejor que son, miremos el siguiente ejemplo:

In [22]:
#Corre el siguiente codigo
lista = [[0, 1, 3], [3, 4, 5]]
arr2d = np.array(lista)
print(arr2d)

[[0 1 3]
 [3 4 5]]


In [23]:
#Veamos cuantas dimensiones tiene el array
print(arr2d.ndim)

2


In [24]:
#Veamos cuantos elementos tiene el array
print(arr2d.size)

6


In [25]:
#Arma ahora un array de 3 dimensiones.

lista = [[[0, 1, 3], [3, 4, 5]]] 
arr3d = np.array(lista)

In [26]:
#Chequea usando ndim que efectivamente tenga tres dimensiones
print(arr3d.ndim)

3


**¿Como accedemos entonces a un array de mas de una dimension?**

In [27]:
#definamos un nuevo array
lista2 = [[0, 1, 3], [3, 4, 5], [9, 10, 4], [2, 5, 6]]
nuevo_array = np.array(lista2)

¿Cuantas dimensiones tiene el array `nuevo_array`? Comprobalo usando `ndim`.

In [28]:
#Dimensiones de nuevo_array
print(nuevo_array.ndim)

2


In [29]:
#Mostra nuevo_array
print(nuevo_array)

[[ 0  1  3]
 [ 3  4  5]
 [ 9 10  4]
 [ 2  5  6]]


Si para un array de 1 dimension, usabamos un indice, para un array de n dimensiones tenemos que usar n indices. En el caso de 2 dimensiones, usaremos 2 indices. El primero indica la fila y el segundo la columna.

In [30]:
#Corre el siguiente codigo
print(nuevo_array[0, 1])

1


In [31]:
#Accede al tercer elemento de la segunda fila de nuevo_array
print(nuevo_array[3])

[2 5 6]


In [32]:
#Accede al tercer elemento de la segunda fila de nuevo_array
print(nuevo_array[3])

[2 5 6]


In [33]:
#Accede al cuarto elemento de la segunda columna de nuevo_array
print(nuevo_array[3,1])

5


In [34]:
#Accedo a toda la segunda columna
print(nuevo_array[1])

[3 4 5]


In [35]:
#Accede a un subarray que vaya desde el segundo elemento de la 
#primer columna hasta el cuarto elemento de la tercer 
#columna de nuevo_array
print(nuevo_array[[2,0,3,3]])

[[ 9 10  4]
 [ 0  1  3]
 [ 2  5  6]
 [ 2  5  6]]


In [37]:
#Accede a un subarray que vaya desde el primer elemento de la 
#segunda fila hasta el segundo elemento de la cuarta 
#fila de nuevo_array
print(nuevo_array[[2,1,1,3]])

[[ 9 10  4]
 [ 3  4  5]
 [ 3  4  5]
 [ 2  5  6]]


## Creación de arreglos

- **np.zeros(shape, dtype, order)**: Crea un array con todos ceros en sus posiciones

In [38]:
#Corre el siguiente codigo
print(np.zeros((2, 2, 2)))

[[[0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]]]


- **np.ones(shape, dtype, order)**: Crea un array con todos unos en sus posiciones

In [39]:
#Corre el siguiente codigo
print(np.ones(10))

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


- **np.random.rand(d0, d1, ..., dn)**: Genera un array con valores al azar con una distribución `[0, 1)` y segun las dimensiones pasada como argumento.

In [40]:
#Genera un array con valores al azar
print(np.random.randn(10))

[-0.1010233  -1.62579176  0.45771777 -2.10269671 -0.40699336 -1.72069138
 -1.16435014 -1.2098059   1.1690094   0.62010975]


- **np.random.randint(low, high, size)**: Devuelve un array con enteros al azar. Cuando se especifica un solo entero como argumento este entero es entendido como el mayor valor que ese numero random puede tomar. Si se pasan dos, uno es el menor valor y el otro es el mayor valor. Con size se le puede decir que dimensiones tiene el array. Si no le paso ningun valor, devolvera solo un numero entero.

In [45]:
#Genera un array con enteros al azar
print(np.random.randint(5))

4


- **np.arange([start, ]stop, [step, ])**: Devuelve numero simetricamente distribuidos segun los valores datos. El primer valor es el comienzo, el segundo el final y el tercero representa cada cuanto queremos esos valores.

In [48]:
#Corre esta linea de codigo y comprende como funciona np.arange
print(np.arange(2, 16, 2))

[ 2  4  6  8 10 12 14]


## Funciones estadisticas

NumPy nos facilita varias funciones que nos permitiran obtener algunos parametros estadisticos de nuestros arrays. Veamos cuales son estas funciones.

In [49]:
#Volvamos a ver como era nuestro array nuevo_array
print(nuevo_array)

[[ 0  1  3]
 [ 3  4  5]
 [ 9 10  4]
 [ 2  5  6]]


- `np.mean()`: Media o Promedio.

In [50]:
#usa la funcion mean para obtener el promedio de los valores en nuevo_array
print(np.mean(nuevo_array))

4.333333333333333


- `np.var()`: Devuelve la dispersión de los valores alrededor de la media

In [51]:
#usa la funcion var para obtener la varianza de los valores en nuevo_array
print(np.var(nuevo_array))

8.055555555555557


- `np.sum()`: devuelve la suma de todos los valores en el array. 
- `np.min()`: devuelve el menor valor en el array
- `np.max()`: devuelve el maximo valor en el array

In [53]:
#Muestra la suma de los valores en nuevo_array
print(np.sum(nuevo_array))

#Muestra el minimo y maximo valor en nuevo array
print(np.min(nuevo_array))
print(np.max(nuevo_array))


52
0
10


# Ejercicios

1. Crear un arreglo de ceros de longitud 12
2. Crear un arreglo de longitud 10 con ceros en todas sus posiciones y un 10 en la posición número 5
3. Crear un arreglo que tenga los números del 10 al 49
4. Crear una arreglo 2d de shape (3, 3) que tenga los números del 0 al 8
5. Crear un arreglo de números aleatorios de longitud 100 y obtener su media y varianza
6. Calcular la media de un arreglo usando np.sum
7. Calcular la varianza de un arreglo usando np.sum y np.mean
8. Crear un array de números aleatorios usando np.random.randn.


In [57]:
print(np.zeros(12))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [59]:
print(np.zeros(10))


[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
