![Banner del curso](https://docs.google.com/uc?export=download&id=1v9oXzOC5J_zT3_QLaVC47qIy67U1CO6b)

#Tutorial de como usar Colab e Repaso de Numpy y Pandas

# Como usar Colab

## Celdas - Apuntes
Un notebook es una lista de celdas. Cada celda contiene un texto explicativo o un codigo ejecutable y su salida. Dale click a una celda para seleccionarla

### Celdas de codigo
Abajo hay un código de celda. Una vez que el botón de la barra de herramientas indique CONNECTED, haga clic en la celda para seleccionarla y ejecutar los contenidos de las siguientes maneras:

* Haga clic en el **Icono de reproducción** en el canal izquierdo de la celda;
* Escriba **Cmd/Ctrl+Enter** para ejecutar la celda en su lugar;
* Escriba **Shift+Enter** para ejecutar la celda y mover el foco a la siguiente celda (agregando una si no existe ninguna); o
* Escriba **Alt+Enter** para ejecutar la celda e insertar una nueva celda de código justo debajo de ella.

Hay opciones adicionales para ejecutar algunas o todas las celdas en el menu **Entorno de ejecución**. 


#### Codigo python

In [2]:
a = 10 
b = 'algo'
a + b

TypeError: ignored

#### Codigo maquina (Linux)

In [3]:
!pwd

/content


In [4]:
!cd / #Comando que se ejecuta pero no afecta la maquina
!pwd

/content


In [5]:
#Comando que se ejecuta y afecta la maquina
%cd /
!pwd
!ls

/
/
bin	 datalab  home	 lib64	opt   run   swift	      tmp    var
boot	 dev	  lib	 media	proc  sbin  sys		      tools
content  etc	  lib32  mnt	root  srv   tensorflow-2.0.0  usr


In [6]:
%pwd

'/'

### Celdas de texto
Esta es una **celda de texto**. Puede **hacer doble clic** para editar esta celda. Las celdas de texto usan la sintaxis de markdown. Para obtener más información, consulte nuestra [Guia de Markdown](/notebooks/markdown_guide.ipynb).

También puede agregar formulas matemáticas a las celdas de texto usando [LaTeX](http://www.latex-project.org/) y ser renderizado por [MathJax] (https://www.mathjax.org). Sólo coloque la declaración dentro de un par de **\$**. Por ejemplo `$\sqrt{3x-1}+(1+x)^2$` se convierte en $\sqrt{3x-1}+(1+x)^2.$

## Trabajando con Notebooks
Colaboratory esta construido sobre [Jupyter Notebook](https://jupyter.org/). Debajo se muestran algunos ejemplos de uso de python:

En el caso de colaboratory debemos estar conectados a internet y enlazado a la maquina virtual que nos provee google con dos nucleos y 12 GB de RAM, tambien podras usar una tarjeta grafica gratis.

In [7]:
import time
print("Sleeping")
time.sleep(3) # sleep for a while; interrupt me!
print("Done Sleeping")  

Sleeping
Done Sleeping


### Autocompletacion con Ctrl + espacio o Tab

*   Elemento de lista
*   Elemento de lista

En los notebook de Colab puedes autocompletar tu codigo con Ctrl + Espacio para explorar atributos, metodos y parametros de funciones de tu codigo en Python.

In [0]:
import numpy as np

In [0]:
np.random.rand()
np.random.randint

### Restricciones de las herramientas
- Para el uso de Colab tienes una restriccion de 12 horas de uso diario.

**Nota importante:** En colab una vez la herramienta se cierre perderas las variables y archivos guardados en la maquina virtual, para eso podemos enlazar la carpeta del drive con nuestro notebook y no perder datos.

### Montar Drive en Colab
Para montar tu carpeta de Drive en Colab debes ejecutar la siguiente celda y seguir los pasos que te indica.

In [9]:
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/drive


### Cargar Datos a las Maquinas
En Colab tienes en el lado izquierdo superior una flecha que se apunta a la derecha para visualizar la tabla de contenidos del notebook, fragmentos de codigo y archivos de la maquina virtual, ahi mismo puedes subir datos sin necesidad de activar el drive.

### Escojer tipo de entorno o maquina
Para Colab puedes dirigirte en entorno de ejecucion > Cambiar tipo de entorno de ejecucion > Seleccionamos el acelerador de Hardware que puede ser GPU y TPU (Asi es, totalmente gratis :D) y listo.

**Ya con todo esto has completado el tutorial de Colab y Jupyter para trabajar con estas herramientas**

# Repaso de Numpy y Pandas

## Importacion de librerias
En esta sección importaremos las dependencias básicas de nuestro notebook.

In [0]:
import numpy as np
import pandas as pd
from IPython.display import clear_output

## Tipos de Datos de Numpy y Pandas
Estos describen como los bytes en el bloque de tamaño fijo de memoria correspondiente a un array deberia ser interpretado. Los diferentes tipos son:
- int
- float
- bool
- np.float32
- np.float64
- np.uint8
- np.int32
- np.complex128

**Actividad del estudiante**
¿Porque es importante conocer los diferentes tipos de datos que hay en los equipos?

## Creacion de matrices y arreglos de numpy

In [2]:
#Creacion manual de una matriz
a = np.array([[1,2,3,4,5],
              [5,4,3,2,1],
              [9,8,7,6,5],
              [7,6,5,6,7],
              [2,2,2,3,3],
              [4,3,4,3,4],
              [5,1,1,4,1]])
print ("Dimensiones de A", a.shape)
print ("Numero de dimensiones de A", a.ndim)
print ("Filas de A", a.shape[0])
print ("Columnas de A", a.shape[1])

v = np.array([2,3,4,5,6,7,3,12])
print ("Forma de v", v.shape)
print ("Elementos de v", v.shape[0])

#Creacion aleatoria de una matriz
b = np.ones(a.shape)
c = np.zeros((10,10,10), dtype=np.float64)
print ("Dimensiones de B", b.shape)
print ("Numero de dimensiones de B", b.ndim)
print ("Dimensiones de C", c.shape)
print ("Numero de dimensiones de C", c.ndim)

Dimensiones de A (7, 5)
Numero de dimensiones de A 2
Filas de A 7
Columnas de A 5
Forma de v (8,)
Elementos de v 8
Dimensiones de B (7, 5)
Numero de dimensiones de B 2
Dimensiones de C (10, 10, 10)
Numero de dimensiones de C 3


## Acceso a los elementos de un array de numpy
Con la notación de índices accedemos a columas o filas enteras, rangos de columnas o filas, elementos individuales o porciones de una matriz o un vector.

In [0]:
print ("una fila 2d       " ,a[2])
print ("una fila 2d       ",a[2,2:2:2])
print ("una columna 2d    ",a[:,2])
print ("un elemento 2d    ",a[2,2])
print ("varias filas 2d   \n",a[2:5])
print ("varias columnas 2d \n",a[:,1:3])
print ("una porcion 2d     \n",a[2:5,1:3])
print ("una porcion 3d    \n",c[2:5,1:3,:])

una fila 2d        [9 8 7 6 5]
una fila 2d        [9 8 7 6 5]
una columna 2d     [3 3 7 5 2 4 1]
un elemento 2d     7
varias filas 2d   
 [[9 8 7 6 5]
 [7 6 5 6 7]
 [2 2 2 3 3]]
varias columnas 2d 
 [[2 3]
 [4 3]
 [8 7]
 [6 5]
 [2 2]
 [3 4]
 [1 1]]
una porcion 2d     
 [[8 7]
 [6 5]
 [2 2]]
una porcion 3d    
 [[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

 [[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

 [[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]]


## Operaciones sobre los elementos de un array de numpy
Muchas funciones de la librería `numpy` operan sobre una matriz completa, o de forma separada por columnas o filas según el valor del argumento axis.

### Funciones tipicamente usadas de la libreria numpy

In [0]:
print ("suma total", np.sum(b))
print ("suma eje 0", np.sum(b, axis=0))
print ("suma eje 1", np.sum(b, axis=1))
print ("promedio total", np.mean(a))
print ("promedio eje 0", np.mean(a, axis=0))
print ("promedio eje 1", np.mean(a, axis=1))

suma total 35.0
suma eje 0 [7. 7. 7. 7. 7.]
suma eje 1 [5. 5. 5. 5. 5. 5. 5.]
promedio total 3.942857142857143
promedio eje 0 [4.71428571 3.71428571 3.57142857 4.         3.71428571]
promedio eje 1 [3.  3.  7.  6.2 2.4 3.6 2.4]


### Operaciones vectorizadas

In [0]:
a = np.array([[1,2,3],[4,5,6]])
b = np.array([[6,5,4],[3,2,1]])

print (a)
print (b)
print ("--")

print ("a+b\n",a+b)
print ("a**2\n", a**2)
print ("a*b\n",a*b)
print ("a x b'\n",a.dot(b.T))
print ("a' x b\n",a.T.dot(b))

[[1 2 3]
 [4 5 6]]
[[6 5 4]
 [3 2 1]]
--
a+b
 [[7 7 7]
 [7 7 7]]
a**2
 [[ 1  4  9]
 [16 25 36]]
a*b
 [[ 6 10 12]
 [12 10  6]]
a x b'
 [[28 10]
 [73 28]]
a' x b
 [[18 13  8]
 [27 20 13]
 [36 27 18]]


### Generacion de matrices y vectores con Numpy

In [0]:
print ("matrix identidad\n", np.eye(3))
print ("vector de ceros", np.zeros(4))
print ("matriz de ceros\n", np.zeros((3,2)))
print ("matriz de unos\n", np.ones((2,3)))
print ("vector rango", np.arange(10))
print ("vector rango", np.arange(5,10))
print ("vector espacio lineal", np.linspace(-10,5,7))
print ("matriz aleatoria según distribución uniforme [0,1]\n", np.random.random(size=(3,5)))
print ("vector aleatorio de enteros entre 0 y 5", np.random.randint(5, size=10))

matrix identidad
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
vector de ceros [0. 0. 0. 0.]
matriz de ceros
 [[0. 0.]
 [0. 0.]
 [0. 0.]]
matriz de unos
 [[1. 1. 1.]
 [1. 1. 1.]]
vector rango [0 1 2 3 4 5 6 7 8 9]
vector rango [5 6 7 8 9]
vector espacio lineal [-10.   -7.5  -5.   -2.5   0.    2.5   5. ]
matriz aleatoria según distribución uniforme [0,1]
 [[0.37477626 0.77279471 0.04758115 0.70178904 0.63060016]
 [0.8863465  0.31880025 0.14383698 0.37297815 0.54078226]
 [0.95281625 0.34689014 0.71815465 0.10149141 0.24637823]]
vector aleatorio de enteros entre 0 y 5 [4 1 1 4 1 1 4 3 2 0]


## Creacion de DataFrames con Pandas

### Por medio de Numpy Arrays

In [0]:
a = np.random.randint(10,size=(20,5))
a

array([[0, 1, 1, 0, 0],
       [2, 4, 1, 7, 4],
       [8, 2, 7, 7, 6],
       [5, 2, 7, 4, 5],
       [8, 6, 0, 3, 3],
       [8, 8, 7, 7, 4],
       [5, 0, 9, 7, 3],
       [7, 2, 5, 7, 5],
       [8, 5, 2, 0, 3],
       [6, 2, 6, 3, 7],
       [9, 6, 6, 9, 4],
       [6, 7, 8, 4, 5],
       [2, 8, 6, 6, 5],
       [6, 2, 6, 4, 2],
       [5, 2, 5, 8, 4],
       [6, 1, 0, 6, 0],
       [2, 8, 2, 0, 7],
       [8, 7, 8, 6, 5],
       [1, 0, 8, 6, 4],
       [0, 9, 6, 6, 8]])

In [0]:
k = pd.DataFrame(a, columns=["uno", "dos", "tres", "cuatro", "cinco"], index=range(10,10+len(a)))
k

Unnamed: 0,uno,dos,tres,cuatro,cinco
10,0,1,1,0,0
11,2,4,1,7,4
12,8,2,7,7,6
13,5,2,7,4,5
14,8,6,0,3,3
15,8,8,7,7,4
16,5,0,9,7,3
17,7,2,5,7,5
18,8,5,2,0,3
19,6,2,6,3,7


### Por medio de Datos en CSV
- Preferiblemente es mejor usar CSV aunque tambien podemos usar archivos de Excel para ser cargados por medio de Pandas

#### Descargamos los datos

In [0]:
!wget --no-check-certificate 'https://docs.google.com/uc?export=download&id=1Y1rf0rk_6xmO-OU7Jkcv5l7PXFKEZijO' -O data.csv
clear_output()

In [0]:
!wget --no-check-certificate 'https://docs.google.com/uc?export=download&id=1iStYnyyUwXPSUyIdmVRenAAkE99ZzEBb' -O data.xlsx
clear_output()

In [0]:
df_csv = pd.read_csv('data.csv')

In [0]:
df_excel = pd.read_excel('data.xlsx')

#### Inspeccion de los Datos

In [44]:
df_csv.head(2)

Unnamed: 0,Date,Unnamed: 1,Berri1,Maisonneuve_1,Maisonneuve_2,Brébeuf
0,01/01/2009,00:00,29,20,35,
1,02/01/2009,00:00,19,3,22,


In [8]:
df_excel.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,,,,
1,,,,
2,,,,
3,,,,
4,,Annual Returns on Investments in,,


In [9]:
df_csv.columns

Index(['Date', 'Unnamed: 1', 'Berri1', 'Maisonneuve_1', 'Maisonneuve_2',
       'Brébeuf'],
      dtype='object')

In [10]:
df_csv.shape

(365, 6)

#### Acceso a columnas y elementos del dataset
En el dataset que estamos trabajando tenemos algunas columnas como: "Ciclo de vida" que posee espacios y queremos acceder a todos los datos de este, para hacerlo podemos hacer lo siguiente:

##### Acceso a columnas de un dataset
- d.`<nombre_columna>`
- d`["nombre_columna"]` o d`[<lista_nombres_columna>]`
- d.at`[<nombre_columna>]`

##### Acceso a filas de un dataset
- d.loc(`<valor_indice>`)
- d.iloc(`<valor_numerico_indice>`)

##### Acceso a una celda del dataset
- d.at`[<valor_indice>,<nombre_columna>]`
- d.iloc(`<valor_numerico_indice>`)`[<nombre_columna>]`
- d.`<nombre_columna>`.iloc(`<valor_numerico_indice>`)

In [27]:
df_csv.iloc[0]["Berri1"]

29

In [0]:
type(df_csv), type(df_csv["Berri1"])

(pandas.core.frame.DataFrame, pandas.core.series.Series)

In [28]:
df_csv.iloc[100:110:2]

Unnamed: 0,Date,Unnamed: 1,Berri1,Maisonneuve_1,Maisonneuve_2,Brébeuf
100,11/04/2009,00:00,0,0,0,
102,13/04/2009,00:00,0,0,0,
104,15/04/2009,00:00,0,0,0,
106,17/04/2009,00:00,1286,820,1436,
108,19/04/2009,00:00,2131,1155,1426,


In [29]:
df_csv.index

RangeIndex(start=0, stop=365, step=1)

In [45]:
#Cambiamos los indices de los datos
df_csv.index = pd.to_datetime(df_csv.Date)
df_csv.loc["2009-10-01":"2009-10-10"]

Unnamed: 0_level_0,Date,Unnamed: 1,Berri1,Maisonneuve_1,Maisonneuve_2,Brébeuf
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2009-10-01,10/01/2009,00:00,81,45,79,
2009-10-02,10/02/2009,00:00,228,101,260,
2009-10-03,10/03/2009,00:00,366,203,354,
2009-10-04,10/04/2009,00:00,0,0,0,
2009-10-05,10/05/2009,00:00,728,362,523,
2009-10-06,10/06/2009,00:00,3460,2354,3978,
2009-10-07,10/07/2009,00:00,6274,4242,5435,7268.0
2009-10-08,10/08/2009,00:00,2999,1545,3185,4187.0
2009-10-09,10/09/2009,00:00,5496,2921,6587,6520.0
2009-10-10,10/10/2009,00:00,1407,725,1443,1003.0


In [35]:
df_csv.drop(df_csv['Berri1'], axis=1)

KeyError: ignored

In [46]:
#Elimino dos columnas que ya tengo y luego les cambio el nombre
del(df_csv["Date"])
del(df_csv["Unnamed: 1"])
df_csv.columns = ["Berri", "Mneuve1", "Mneuve2", "Brebeuf"]
df_csv.head()

Unnamed: 0_level_0,Berri,Mneuve1,Mneuve2,Brebeuf
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2009-01-01,29,20,35,
2009-02-01,19,3,22,
2009-03-01,24,12,22,
2009-04-01,24,8,15,
2009-05-01,120,111,141,


In [0]:
df_csv = df_csv.drop(columns=["Berri"], axis=1)

In [42]:
df_csv.head()

Unnamed: 0_level_0,Mneuve1,Mneuve2,Brebeuf
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2009-01-01,20,35,
2009-02-01,3,22,
2009-03-01,12,22,
2009-04-01,8,15,
2009-05-01,111,141,


#### Metodos de los Dataframes

##### Filtracion

In [47]:
df_csv[df_csv.Berri>6000]

Unnamed: 0_level_0,Berri,Mneuve1,Mneuve2,Brebeuf
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2009-05-06,6028,4120,4223,
2009-06-17,6320,3388,6047,
2009-09-07,6626,4227,5751,7575.0
2009-10-07,6274,4242,5435,7268.0
2009-07-15,6100,3767,5536,6939.0


In [0]:
df_csv[(df_csv.Berri>6000) & (df_csv.Brebeuf<7000)]

Unnamed: 0_level_0,Berri,Mneuve1,Mneuve2,Brebeuf
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2009-07-15,6100,3767,5536,6939.0


In [0]:
df_csv[df_csv.Berri>5500].sort_index(axis=0)

Unnamed: 0_level_0,Berri,Mneuve1,Mneuve2,Brebeuf
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2009-03-08,5904,3102,4853,7194.0
2009-05-06,6028,4120,4223,
2009-05-08,5611,2646,5201,7121.0
2009-05-21,5728,3693,5397,
2009-06-16,5668,3499,5609,
2009-06-17,6320,3388,6047,
2009-06-23,5799,3114,5386,
2009-07-15,6100,3767,5536,6939.0
2009-07-20,5607,3825,5092,7064.0
2009-07-21,5754,3745,5357,6996.0


##### Valores invalidos

In [51]:
df_csv.isna().sum()

Berri        0
Mneuve1      0
Mneuve2      0
Brebeuf    187
dtype: int64

In [57]:
df_csv.isna().sum().values.sum()

187

##### Agregar nuevas columnas

In [58]:
df_csv["nueva_columna"] = np.zeros(df_csv.shape[0])
df_csv.head()

Unnamed: 0_level_0,Berri,Mneuve1,Mneuve2,Brebeuf,nueva_columna
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2009-01-01,29,20,35,,0.0
2009-02-01,19,3,22,,0.0
2009-03-01,24,12,22,,0.0
2009-04-01,24,8,15,,0.0
2009-05-01,120,111,141,,0.0


##### Concatenacion de Dataframes

In [59]:
a = np.random.randint(10,size=(1500,3))
b = np.random.randint(10,size=(1500,3))
a = pd.DataFrame(a, columns=["ejemplo_1a","ejemplo_2a","ejemplo_3a"])
b = pd.DataFrame(b, columns=["ejemplo_1b","ejemplo_2b","ejemplo_3b"])
nuevo_df = pd.concat([b, a], axis=1)
nuevo_df.head()

Unnamed: 0,ejemplo_1b,ejemplo_2b,ejemplo_3b,ejemplo_1a,ejemplo_2a,ejemplo_3a
0,3,3,8,9,3,6
1,2,5,6,4,8,0
2,3,4,1,0,6,8
3,4,4,7,3,1,7
4,2,2,2,5,9,3


##### Convertir Dataframe a Numpy array

In [60]:
df_csv.values.shape

(365, 5)

##### Agrupacion sobre los dataframes

In [61]:
df_csv["month"] = [i.month for i in df_csv.index]
df_csv.head()

Unnamed: 0_level_0,Berri,Mneuve1,Mneuve2,Brebeuf,nueva_columna,month
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2009-01-01,29,20,35,,0.0,1
2009-02-01,19,3,22,,0.0,2
2009-03-01,24,12,22,,0.0,3
2009-04-01,24,8,15,,0.0,4
2009-05-01,120,111,141,,0.0,5


In [62]:
df_csv.groupby(df_csv.month == 1).count()

Unnamed: 0_level_0,Berri,Mneuve1,Mneuve2,Brebeuf,nueva_columna,month
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
False,334,334,334,173,334,334
True,31,31,31,5,31,31


In [63]:
df_csv.groupby("month").max()

Unnamed: 0_level_0,Berri,Mneuve1,Mneuve2,Brebeuf,nueva_columna
month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,5298,2796,5765,6939.0,0.0
2,5451,2868,5517,7052.0,0.0
3,5904,3523,5762,7194.0,0.0
4,5278,3499,5327,5837.0,0.0
5,6028,4120,5397,7121.0,0.0
6,6320,3499,6047,5259.0,0.0
7,6100,3825,5536,7219.0,0.0
8,5452,2865,6379,7044.0,0.0
9,6626,4227,6535,7575.0,0.0
10,6274,4242,6587,7268.0,0.0


# Referencias
- [Tutorial de Colab y Jupyter](https://colab.research.google.com/notebooks/basic_features_overview.ipynb)
- [Tutorial de Numpy](http://cs231n.github.io/python-numpy-tutorial/)
- [Tutorial de Pandas](https://pandas.pydata.org/pandas-docs/stable/tutorials.html)
- [Otro tutorial de Pandas](https://www.learnpython.org/es/Pandas%20Basics)