# Tutorial de Google Colab


---


En este tutorial veremos qué es y cómo utilizar Google Colaboratory (o simplemente "Colab"), la herramienta de Google en la nube para ejecutar código Python (y otros) y crear modelos de Machine Learning a través de la nube de Google y con la posibilidad de hacer uso de sus GPUs y TPUs. 

La principal ventaja que ofrece esta herramienta es que libera a nuestra máquina de tener que llevar a cabo un trabajo demasiado costoso tanto en tiempo como en potencia o incluso nos permite realizar ese trabajo si nuestra máquina no cuenta con recursos suficientemente potentes. Y todo de forma gratuita (pero con algunas limitaciones, por supuesto!).

Este tutorial es introductorio y se explica lo mínimo necesario para el curso. Si tenés curiosidad y querés conocer más sobre Google Colab podés acceder a los siguientes recursos (alguno de los cuales fueron aprovechados para crear este notebook.):

- [¿Qué es Colaboratory? (Notebook)](https://colab.research.google.com/notebooks/intro.ipynb). Una gran cantidad de recursos disponibles en la página oficial de Google Colaboratory.
- [Google Colab Tutorial 2020 Español (Video)](https://youtu.be/0mOV4plF2Xo). Tutorial elaborado por [Codificando Bits](https://github.com/codificandobits), donde explica las características y ventajas que tienen las GPUs y TPUs que ofrece Colab. Además presenta un ejemplo de cómo implementar una Red Convolucional en Google Colab.
- [Google Colab: Python y Machine Learning en la nube (Artículo)](https://www.adictosaltrabajo.com/2019/06/04/google-colab-python-y-machine-learning-en-la-nube/). Un tutorial con las características más relevantes de Colab.

---

Por último antes de empezar, si notas que el notebook tiene algún error (de cualquier tipo) no dejes de avisar! 

Muchas gracias y que disfrutes el tutorial.

## Notebooks

El documento que estás leyendo es un [notebook de Jupyter](https://jupyter.org/) alojado en Colab. Un notebook no es una página web convencional, sino un entorno interactivo que te permite escribir y ejecutar código en Python y en otros lenguajes. 

> **NOTA**: Cuando creamos un nuevo notebook o accedemos a uno, este es estático, es decir, vemos solo su contenido, pero no estamos conectados a ningún entorno de ejecución. En Colab, nuestro notebook se conecta a una *VM de Google Compute Engine* (la infraestructura de máquinas virtuales de Google en la nube) cuando pulsamos sobre el botón de **Conectar**. El notebook toma un momento en conectarse y luego muestra la cantidad de RAM y disco que se están utilizando. Cada máquina cuenta con aproximadamente 12 GB de RAM y varios GB de almancenamiento en disco disponibles para su uso.

![](https://www.adictosaltrabajo.com/wp-content/uploads/2019/05/connect-colab.png)



### Celdas de código

Un notebook de Jupyter contiene **celdas de código**. Una celda de código es la unidad mínima de ejecución, es decir, es donde incluís tu código y lo ejecutás. Para ejecutar una celda podés pulsar el botón con el icono **Play** que se encuentra arriba a la izquierda de cada celda de código, o directamente pulsar `Ctrl+Enter` (ejecutar celda). Tras la ejecución, debajo de la celda se va a visualizar el resultado (si es que la celda produce algún resultado).

A continuación te vas a encontar con la primer celda de código de este notebook! En esta celda primero se importa la librería `datatime` y luego almacena la fecha de hoy en una variable, pero no produce ninguna salida.

In [None]:
import datetime
year = datetime.date.today()

> **NOTA**: Si todavía no conectaste el notebook vas a notar que se demora un poco la ejecución de la celda cuando haces click en el ícono Play (o presionas `Ctrl+Enter`). Esto se debe a que Colab conecta el notebook por vos. 

> **IMPORTANTE**: el tiempo máximo que podemos estar conectados a una máquina virtual desde un notebook en actividad es de **12 horas** (si, a las 12 horas se desconecta la máquina, por más que se esté corriendo cualquier proceso!!). Además hay que tener ciertos cuidados. Si pasamos más de **90 minutos** sin utilizar un notebook el entorno se desconecta. Para que no se desconecte basta con dejar la ventana del navegador abierta o celdas ejecutándose. Una buena noticia es que si dejamos una celda ejecutándose y cerramos el navegador, la ejecución continuará y si posteriormente abrimos el navegador tendremos nuestro resultado (pero recuerden que a als 12 horas se desconceta la máquina si o si!).

Ahora si, cuando ejecutamos la segunda celda de código se produce como salida que consta del mensaje `"¡Hola! Bienvenido a Visión por Computadora"` seguido de la fecha almacenada en la variable `year` de la celda anterior. Es importante destacar que las **celdas de código comparten información de las variables** creadas y/o modificadas a lo largo del notebook.

In [None]:
print("¡Hola! Bienvenido a Visión por Computadora", year)

En la parte izquierda de una celda ejecutada podés observar un **número entre corchetes**. Este número indica el orden en el que se ha ejecutado cada celda. Si pasamos el cursor por esta parte izquierda de la celda también podemos ver información sobre quién ejecutó la celda, en qué momento y cuánto tardó la ejecución.

Podemos **cambiar el orden de las celdas** con las flechas de la parte superior derecha que se muestran cuando seleccionamos la celda, hacia arriba (también con el atajo `Ctrl+M K`) o hacia abajo (`Ctrl+M J`), modificarlas, duplicarlas, borrarlas (`Ctrl+M D`), añadir comentarios (muy útil para el desarrollo grupal colaborativo) y hasta copiar el enlace de la celda.

Además, desde los botones que aparecen cuando pasas el cursos entro dos celdas, o desde en el menú **Insertar**, podés añadir nuevas celdas, tanto específicas para código como para texto. La distinción que hace Colab sobre ellas es que las **celdas de código son ejecutables**, mientras que las **celdas de texto solo muestran el texto que incluyamos**.

### Celdas de texto

Las **celdas de texto** pueden ser formateadas usando el lenguaje [Markdown](https://daringfireball.net/projects/markdown/syntax) (seguir el link para consultar la sintaxis del lenguaje). Podés ver y editar el código fuente de Markdown haciendo doble click sobre una celda de texto. A la deracha de la celda de edición vas a poder ver la vista previa del texto que vas creando. 

Además de Markdown, también podés usar la barra de herramientas de las celdas de texto de formato para formatear tu texto. 

A continuación te mostramos algunos ejemplos de código Markdown (hacé doble clik sobre la celda para ver el código fuente!).

##### Este texto es tratado como un h5 porque tiene 5 numerales al comienzo

*cursiva* o _cursiva_

**negrita**

~~tachado~~

Sin sangría
>Un tab
>>Dos tabs

Viñetas:
* One
* Two
* Three

Viñetas numéricas:
1. One
1. Two
1. Three

Un link: https://google.com

Una texto con un link: [Colaboratory](https://research.google.com/colaboratory)

Un gif incrustado en el texto: 

![Rafa](https://media0.giphy.com/media/ASd0Ukj0y3qMM/giphy.gif)

Ecuaciones:

$y=x^2$

$e^{i\pi} + 1 = 0$

$e^x=\sum_{i=0}^\infty \frac{1}{i!}x^i$

$\frac{n!}{k!(n-k)!} = {n \choose k}$

$A_{m,n} =
 \begin{pmatrix}
  a_{1,1} & a_{1,2} & \cdots & a_{1,n} \\
  a_{2,1} & a_{2,2} & \cdots & a_{2,n} \\
  \vdots  & \vdots  & \ddots & \vdots  \\
  a_{m,1} & a_{m,2} & \cdots & a_{m,n}
 \end{pmatrix}$

Tablas:

Primera columna | Segunda columna 
--- | ---
Fila 1, Col 1 | Fila 1, Col 2
Fila 2, Col 1 | Fila 2, Col 2

Linea continua hecha con tres guiones:

---

Hasta acá hemos visto que los notebooks no sólo son scripts ejecutables, sino también una conjunción de texto y código que permite acompañar a los bloques de código con fórmulas, guías, imágenes, tutoriales, comentarios y todo lo que se te ocurra. Ahora vamos a revisar cómo se comporta un notebook durante una sesión de ejecución de código.

### El entorno de ejecución

La ejecución de cada celda de código es independiente del resto, es decir cada celda ejecuta el código que contiene de forma completa pero no puede ejecutar otras celdas. Sin embargo todas las celdas en un notebook utilizan el mismo **kernel**, es decir, el motor que se encarga de ejecutar tu código y devolver el resultado para mostrarlo en la celda. El estado del kernel persiste durante el tiempo, y esto implica que las **variables declaradas en una celda se pueden utilizar en las demás celdas**.

Normalmente, el flujo de ejecución de las celdas será de arriba hacia abajo, el orden natural en el que están creadas, pero es posible que en algún momento quieras ejecutar o cambiar algo en una celda anterior. Esto se puede hacer sin problema, sin embargo esto puede producir resultados inesperados. Por ello es útil el número que aparece a la izquierda que, como hemos comentado antes, indica el orden de ejecución de las celdas de código.

A continuación se presenta un ejemplo de 3 celdas que al ejecutarlas en secuencia se imprime el resultado correcto. Sin embargo, si se vuelve a ejecutar la segunda celda, se imprime un resultado incorrecto, ya que la variable `y` fue reasignada con el valor 10 en la tercera celda.





In [None]:
import numpy as np

def elevarAlCuadrado(x):
  return x*x

x = np.random.randint(1,10)
y = elevarAlCuadrado(x)

In [None]:
print(x," al cuadrado es ", y)

In [None]:
y=10

> **NOTA**: Si en algún momento no están obteniendo los resutlados esperados, sobre todo luego de modificar y ejecutar celdas a lo largo del notebook, se recomienda reiniciar el entorno de ejecución. Desde el menú de **Entorno de ejecución** se puede reiniciar el entorno (`Ctrl+M .`), interrumpir cualquier ejecución lanzada (`Ctrl+M I`), y lanzar diferentes ejecuciones sobre las celdas.

### Uso de GPU y TPU

Por defecto, el entorno al que se conecta Colab utiliza un kernel con **Python 3** y no permite la ejecución con GPU. No obstante, si querés cambiar la versión de Python una vez creado el notebook o utilizar la GPU/TPU en lugar de la CPU (que es la que se usa por defecto) para realizar ejecuciones más potentes (por ejemplo deep learning), Colab nos permite cambiar los ajustes del entorno para utilizar una GPU de forma gratuita. Para ello, tenés que ir al menú **Entorno de ejecución** y seleccionar **Cambiar tipo de entorno de ejecución**.

![configuracionEntorno](https://www.adictosaltrabajo.com/wp-content/uploads/2019/05/change-gpu.png)

Es posible que por una limitación de recursos no puedas conectar a una máquina con GPU. Esto puede ocurrir si hay demasiados usuarios al mismo tiempo solicitando GPU. Además, Google limita el uso que podes hacer de estas GPU/TPU para evitar que, por ejemplo, se minen criptomonedas. Por esto, puede pasar que si estás realizando una ejecución muy prolongada y muy potente, el entorno lamentablemente se desconecte.

Para comprobar si estás conectado a un GPU, podés ejecutar la siguiente celda. Si te da una error y querés usar GPU, tenesque hacer lo que indica el párrafo anterior.



In [None]:
import tensorflow as tf

device_name = tf.test.gpu_device_name()

if device_name != '/device:GPU:0':
  raise SystemError('GPU no encontrada')
  
print('GPU encontrada: {}'.format(device_name))

##Panel Lateral
En la parte lateral izquierda podes encontrar un menú bastante útil que tiene tres pestañas: **Índice**, **Buscar y Reemplazar**, **Fragmentos de código** y **Archivos**.

- La primera pestaña, de **Índice**, sirve como tal para los notebooks que tengan capítulos y secciones, dado que, como hemos comentado antes, las celdas de texto permiten convertir tu notebook en documento con texto e información de todo tipo.

- La pestaña de **Buscar y Reemplazar** es básicamente eso, buscar y reemplazar palabras en el notebook.

- La pestaña de **Fragmentos de código** contiene muchos ejemplos de código que te pueden servir para trabajar con Colab (por ejemplo, cómo capturar contenido de una webcam y tratarlo en tiempo de ejecución). Además, permite tanto ver el código en un notebook separado como insertar los fragmentos en nuestro propio notebook.

- Y por último, la pestaña de **Archivos**, que tiene la función de permitirnos acceder al sistema de archivos de la máquina que estamos usando, pero también nos permite acceder a nuestro Google Drive, donde podemos tener almacenado los datos con los que vamos a trabajar en el notebook, algo que es muy conveniente, ya que los **archivos que subamos a la máquina virtual se pierden cuando la máquina se desconecta**.

##Comandos bash

Las máquinas virtuales de Colab corren Linux como sistemas operativos. Por lo tanto, Colab te permite ejecutar [comandos **bash**](https://es.wikipedia.org/wiki/Comandos_Bash) en tu entorno de ejecución como si estuvieras ejecutando comandos desde una terminal de Linux. Para eso, basta con añadir el signo de exclamación `!` delante del comando que querés ejecutar y Colab va a entender que querés ejecutar un comando.

La siguiente celda de código muestra la información del sistema operativo haciendo uso del comando bash `cat`.

In [None]:
!cat /etc/*release

La posibilidad de usar bash es realmente una gran ventaja, ya que nos permite realizar muchas tareas sobre el sistema operativo directamente desde las celdas del notebook. 

La siguiente celda muestra la ruta del directorio actual, lista su contenido, crea el directorio `miDirectorio` y vuelve a mostrar el contenido del directorio actual.

In [None]:
print("- Muestra la ruta de directorios donde estamos parados")
!pwd

print("- Muestra el contenido del directorio actual")
!ls

print("- Crear el directorio miDirectorio")
!mkdir miDirectorio

print("- Muestra nuevamente el contenido del directorio actual")
!ls

Por lo tanto esta función es fundamental para manipular (hasta cierto punto) el entorno de tu notebook, ya que entre otras cosas también nos **permite instalar software y paquetes que se ajusten a tus necesidades**. 

**IMPORANTE**: Tal como sucede con los archivos que subamos o creamos a la máquina virtual, siempre hay que tener en cuenta que todo lo que se instale también **es volátil**, es decir, si te desconectas y te volves a conectar posteriormente vas a tener que instalar todo nuevamente.

## Manejo de Archivos Externos

### Desde máquina local
Para subir un archivo desde local basta con ejecutar el siguiente fragmento de código, que hace uso de la librería `google.colab`.

Al ejecutarlo, aparecerá el típico botón de subida de archivos que abrirá una ventana para seleccionar los archivos que querés subir de tu sistema. También tenés la opción de ir al menú lateral y en la pestaña de **Archivos** pulsar el botón de **Subir**.

In [None]:
from google.colab import files
files.upload()  

De la misma forma que subís archivos, podés descargarlos de la máquina remota con:

In [None]:
files.download("sample_data/anscombe.json")

### Desde Google Drive

Esta opción nos permite utilizar archivos que tengas almacenados en tu cuenta de Google Drive. Existen varias opciones, cómo utilizar la API REST de Drive o la librería de Python PyDrive, pero sin duda la que más te facilita la vida es montar tu Google Drive localmente en la máquina.

La ventaja de usar esta opción no es únicamente que podes tener tus archivos alojados en Google Drive y acceder fácilmente a ellos. Cuando trabajas en workflows de machine learning o ciencia de datos, en la mayoría de ocasiones contas con archivos enormes de datos. Si cada vez que te conectas a un entorno distinto tenes que subir estos archivos, perdes demasiado tiempo. Por ello, si tenes estos archivos alojados en Drive y montas Drive en la máquina, podes acceder a ellos como si estuvieran en local.

En la siguiente celda de código va a poder montar tu Google Drive en el directorio `/content/drive`. Ejecutá la celda y seguí las intrucciones que se muestran.

In [None]:
from google.colab import drive
 
drive.mount('/content/drive')  

Una vez el proceso termina, tu Drive se ha montado dónde le indicaste y podes acceder tranquilamente a tus archivos. El siguiente código crea un archivo de texto en la raíz de tu Drive.

In [None]:
# Crea un archivo de texto pruebaDrive.txt en la raíz de Drive y lista archivos .txt
!echo "Un archivo de prueba" > drive/My\ Drive/pruebaDrive.txt
!ls drive/My\ Drive/*.txt

Ahora podes ir a Google Drive y verificar que este archivo efectivamente existe. Luego podes ejecutar la siguiente celda para borrar el archivo.

In [None]:
# Borra el archivo de texto pruebaDrive.txt y lista archivos .txt
!rm drive/My\ Drive/pruebaDrive.txt

## Formularios interactivos

Los formularios proporcionan una forma sencilla de parametrizar el código de tus celdas. Desde una celda de código, seleccione **Insertar** y luego **Agregar campo de formulario**. De esta manera, cuando se cambia el valor en el formulario, el valor correspondiente en el código cambiará. Ahora vamos a ejemplificar el uso y utilidad de los formularios. 

Primero vamos a definir una función que aplica un efecto de difuminado a una imagen dada (según lo parámetros que recibe) y mostrando el antes y el después.

In [None]:
import cv2
from skimage import io
def aplicarFiltro(urlImagen, ksize):
  image = io.imread(urlImagen)
  image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
  # apply the 3x3 median filter on the image
  processed_image = cv2.medianBlur(image, ksize)
  return image, processed_image

Para probarlo tenés que llamar a la función asignándole valores a sus parámetros. 

In [None]:
from google.colab.patches import cv2_imshow
url = 'https://tinyurl.com/yy7jf3zq'
ksize = 5 
antes, despues = aplicarFiltro(url,ksize)
cv2_imshow(antes)
cv2_imshow(despues)

Si quisieras probar con otra imagen, tenés que modificar el código para cambiar el valor de la variable `url`. Esto puede llegar a ser bastante tedioso, más aún cuando se están probando algoritmos de visión computacional que dependen mucho de los valores que se le asignen a los parámetros. 

Para resolver esto, Colab te permite crear los **formularios interactivos** declarando variables que son parámetros de entrada del código. De esta manera, podes cambiar sus valores sin tener que tocar el código.

A continuación, se muestra como usar estos formularios para mejorar la usabilidad del código de aplicar filtro.

In [None]:
#@title Aplicar Filtro{ run: "auto" }

#@markdown _Ingrese la url de la imagen que desea filtrar_
url = 'https://tinyurl.com/yy7jf3zq' #@param ["https://tinyurl.com/yyr8et9y","https://tinyurl.com/yy7jf3zq"]{allow-input: true}

#@markdown _Ingrese el tamaño de apertura lineal del medianblur_
ksize = 5 #@param {type:"slider", min:1, max:15, step:2}

antes, despues = aplicarFiltro(url,ksize)
cv2_imshow(antes)
cv2_imshow(despues)

Podés notar que cada vez que cambiabas el valor de uno de los parámetros, el código se **ejecuta automáticamente**. Esto se debe a la anotación `{run: "auto"}` dentro del título del formulario.

Además, se puede agregar una pequeña explicación del parámetro utilizando la etiqueta `@markdown`. 

A continuación hay varios ejemplos que muestran los tipos de parámetros aceptados por los formularios interactivo de Colab. Para más ejemplos, dirigirse [aquí](https://colab.research.google.com/notebooks/forms.ipynb#scrollTo=h9aZYKhly2h_)

In [None]:
#@title Example form fields

#@markdown Forms support many types of fields.

no_type_checking = ''  #@param
string_type = 'example'  #@param {type: "string"}
slider_value = 151  #@param {type: "slider", min: 100, max: 200}
number = 102  #@param {type: "number"}
date = '2010-11-05'  #@param {type: "date"}
pick_me = "monday"  #@param ['monday', 'tuesday', 'wednesday', 'thursday']
select_or_input = "gvgjhfc" #@param ["apples", "bananas", "oranges"] {allow-input: true}

##Diseño de las Salidas
Colab te permite redirigir la salida futura a un lugar particular en un layout en lugar de requerir que los usuarios proporcionen html preconstruido. Además, también proporciona un protocolo simple para actualizar y borrar salidas dinámicamente. Para esto tenés que importar el paquete `widgets` de Colab.



In [None]:
from google.colab import widgets

###Grillas
El mostrar salidas en las celdas de una grilla te permite elegir la forma en que vas a reportar los resultados en tu notebook de manera de que sean lo más entendibles posible. Además, cada celda puede ser poblada dinámicamente a medida que se van obteniendo los resultados.

A continuación utilizamos grillas para ordenar mejor lor resultados de aplicar filtro.

In [None]:
#@title Aplicar Filtro con grillas { run: "auto" }

#@markdown _Ingrese la url de la imagen que desea filtrar_
url = 'https://tinyurl.com/yy7jf3zq' #@param ["https://tinyurl.com/yyr8et9y","https://tinyurl.com/yy7jf3zq"]{allow-input: true}

#@markdown _Ingrese el tamaño de apertura lineal del medianblur_
ksize = 3 #@param {type:"slider", min:1, max:15, step:2}

antes, despues = aplicarFiltro(url,ksize)

#creamos la grilla
grid = widgets.Grid(2, 2)

#ahora rellenamos las celdas
with grid.output_to(0, 0):
  print("Antes")
  
with grid.output_to(0, 1):
  print("Después")

with grid.output_to(1, 0):
  cv2_imshow(antes)
  
with grid.output_to(1, 1):
  cv2_imshow(despues)

Incluso podés borrar el contenido de una celda a medida que va llegando nueva información. El siguiente código deja fija la imagen original y va cambiando las salidas a medida que se calculan nuevas modificando el parámetro ksize.

In [None]:
import time
url = 'https://tinyurl.com/yy7jf3zq'
antes = io.imread(url)
antes = cv2.cvtColor(antes, cv2.COLOR_RGB2BGR)

#creamos la grilla
grid = widgets.Grid(2, 2)

#ahora rellenamos las celdas
with grid.output_to(0, 0):
  print("Antes")
  
with grid.output_to(0, 1):
  print("Después")
  
with grid.output_to(1, 0):
  cv2_imshow(antes)
  
for ksize in [1,3,5,7,9,11,13,15]:
  antes, despues = aplicarFiltro(url,ksize)
  with grid.output_to(1, 1):
    grid.clear_cell()
    cv2_imshow(despues)
  time.sleep(2) 

###Pestañas
Esta es otra opción que ofrece Colab para organizar tus salidas. Consiste en una interfaz con pestañas que sireve para mostrar una salida mientras escondes las otras. 

El siguiente código crea una barra con pestañas mediante el método `TabBar` de `widgets`. Este método necesita un arreglo de nombres para las pestañas y un string que indique la posición de las pestañas con respecto a la salida ('`start`', '`bottom`', '`end`' o '`top`'). Para este caso en particular, quiero que cada pestaña muestre una imagen del vector que pasé como tercer argumento.

In [None]:
def create_tab(names, location, outputs):
  tb = widgets.TabBar(names, location=location)
  for i in range(len(names)):
    with tb.output_to(names[i]):
      cv2_imshow(outputs[i])

Una vez definida la función, el siguiente código la va a llamar  creando un tabBar para cada imagen y cada pestaña contendrá una salida generada con un ksize diferente.

In [None]:
urls = ["https://tinyurl.com/yyr8et9y","https://tinyurl.com/yy7jf3zq"]
ksizes = [1,3,5,7,9]

#creamos el vector con los nombres de las pestañas
names = []
for indx, i in enumerate(ksizes):
    names.append(str(i))
    
#obtenemos las imagenes filtradas
outputs = []
for url in urls:
  for ksize in ksizes:
    antes, despues = aplicarFiltro(url,ksize)
    outputs.append(despues)
  create_tab(names,"top",outputs)
  outputs.clear()

Incluso, podrías combinar las pestañas con las grillas para tener una presentación aún mejor.

In [None]:
#obtenemos las imagenes filtradas
outputs = []

#creamos la grilla
grid = widgets.Grid(2, 2)

#ahora rellenamos las celdas
with grid.output_to(0, 0):
  print("Antes")

with grid.output_to(0, 1):
  print("Después")

with grid.output_to(1, 0):
  cv2_imshow(antes)

for ksize in ksizes:
  antes, despues = aplicarFiltro(url,ksize)
  outputs.append(despues)

with grid.output_to(1,1):
  create_tab(names,"bottom",outputs)

--- 

# THE END

Y llegamos al final de este tutorial! Cualquier comentario no dudes es escribirme. 

**Saludos y gracias por tu tiempo!!**