# Google Colab


Google Colab es una herramienta online gratuita basada en la nube que permite desplegar modelos de aprendizaje automático de forma remota en **CPUs y GPUs**

Se basa en la tecnología de código abierto **Jupyter**, con la que se puede crear un cuaderno **Ipython**. El cuaderno Ipython no sólo te ofrece la posibilidad de escribir código, sino también de *contar una historia* a través de él.

Puedes ejecutar código, crear visualizaciones dedatos, y escribir sobre cada paso que se haga en texto plano o markdown. Esto hace que el código incluya explicaciones y visualizaciones de lo que hace.

¿Que recursos ofrece Colab?


- Uso de Disco

In [1]:
!df -h

Filesystem      Size  Used Avail Use% Mounted on
overlay         108G   42G   67G  39% /
tmpfs            64M     0   64M   0% /dev
shm             5.8G     0  5.8G   0% /dev/shm
/dev/root       2.0G  1.2G  820M  59% /usr/sbin/docker-init
tmpfs           6.4G   60K  6.4G   1% /var/colab
/dev/sda1        77G   57G   20G  75% /etc/hosts
tmpfs           6.4G     0  6.4G   0% /proc/acpi
tmpfs           6.4G     0  6.4G   0% /proc/scsi
tmpfs           6.4G     0  6.4G   0% /sys/firmware


- CPU's

In [2]:
!cat /proc/cpuinfo | grep "model name"

model name	: Intel(R) Xeon(R) CPU @ 2.20GHz
model name	: Intel(R) Xeon(R) CPU @ 2.20GHz


* Memoria

In [3]:
!cat /proc/meminfo | grep "Mem"*

MemTotal:       13290460 kB
MemFree:         8124020 kB
MemAvailable:   12209084 kB


* GPU

Si activamos el soporte GPU entonces podremos obtener información sobre la misma
Información sobre la GPU disponible

`nvidia-smi -L` solo lista el nombre

`nvidia-smi -q ` mucha más información disponible

In [4]:
!nvidia-smi

/bin/bash: line 1: nvidia-smi: command not found


In [5]:
!nvcc --version

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Tue_Aug_15_22:02:13_PDT_2023
Cuda compilation tools, release 12.2, V12.2.140
Build cuda_12.2.r12.2/compiler.33191640_0


In [None]:
!cat /proc/driver/nvidia/gpus/0000:00:04.0/information

# Hadoop

Hadoop es un marco de programación basado en Java que permite procesar y almacenar conjuntos de datos extremadamente grandes en un clúster de máquinas de bajo coste. Fue el primer gran proyecto de código abierto en el ámbito del Big Data y está patrocinado por la Apache Software Foundation.

## Instalación de Hadoop

* bajar la distribución correspondiente

In [8]:
!wget https://downloads.apache.org/hadoop/common/hadoop-3.4.1/hadoop-3.4.1.tar.gz

--2024-11-07 17:33:46--  https://downloads.apache.org/hadoop/common/hadoop-3.4.1/hadoop-3.4.1.tar.gz
Resolving downloads.apache.org (downloads.apache.org)... 135.181.214.104, 88.99.208.237, 2a01:4f9:3a:2c57::2, ...
Connecting to downloads.apache.org (downloads.apache.org)|135.181.214.104|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 974002355 (929M) [application/x-gzip]
Saving to: ‘hadoop-3.4.1.tar.gz’


2024-11-07 17:34:20 (27.4 MB/s) - ‘hadoop-3.4.1.tar.gz’ saved [974002355/974002355]



* extraerla en el sistema de archivos de colab

In [9]:
!tar -xzf hadoop-3.4.1.tar.gz

* mover la distribución de hadoop  /usr/local

In [10]:
!mv  hadoop-3.4.1/ /usr/local/

## Configuración

* actualizamos variables de entorno (JAVA_HOME, PATH)

In [11]:
import os
os.environ["JAVA_HOME"]="/usr/lib/jvm/java-11-openjdk-amd64"
os.environ["PATH"] = os.environ["PATH"] + ":" + "/usr/local/hadoop-3.4.1/bin"

* comprobamos instalación

In [12]:
!hadoop version

Hadoop 3.4.1
Source code repository https://github.com/apache/hadoop.git -r 4d7825309348956336b8f06a08322b78422849b1
Compiled by mthakur on 2024-10-09T14:57Z
Compiled on platform linux-x86_64
Compiled with protoc 3.23.4
From source with checksum 7292fe9dba5e2e44e3a9f763fce3e680
This command was run using /usr/local/hadoop-3.4.1/share/hadoop/common/hadoop-common-3.4.1.jar


## Ejecución de ejemplos

Una de las formas tradicionales de asegurarnos que un ambiente de Hadoop recién instalado funciona correctamente, es ejecutando el *jar* de ejemplos *map-reduce* incluido con toda instalación de hadoop (*hadoop-mapreduce-examples.jar*).

[Hadoop Map Reduce Examples](http://svn.apache.org/viewvc/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/)

1. Creamos un directorio de ficheros en los que volquemos los xml de hadoop

In [14]:
%%bash
mkdir ~/input
cp /usr/local/hadoop-3.4.1/etc/hadoop/*.xml ~/input
ls ~/input

capacity-scheduler.xml
core-site.xml
hadoop-policy.xml
hdfs-rbf-site.xml
hdfs-site.xml
httpfs-site.xml
kms-acls.xml
kms-site.xml
mapred-site.xml
yarn-site.xml


mkdir: cannot create directory ‘/root/input’: File exists


2. Ejecutamos hadoop jar con el fin de ejecutar uno de los ejemplos por defecto, en este caso el grep que busca expresiones regulares dentro de los ficheros que le especifiquemos.

In [16]:
%%bash
hadoop jar \
  /usr/local/hadoop-3.4.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.1.jar \
  grep ~/input ~/grep_example 'allowed[.]*'

2024-11-07 17:40:47,449 INFO impl.MetricsConfig: Loaded properties from hadoop-metrics2.properties
2024-11-07 17:40:47,763 INFO impl.MetricsSystemImpl: Scheduled Metric snapshot period at 10 second(s).
2024-11-07 17:40:47,764 INFO impl.MetricsSystemImpl: JobTracker metrics system started
2024-11-07 17:40:48,283 INFO input.FileInputFormat: Total input files to process : 10
2024-11-07 17:40:48,352 INFO mapreduce.JobSubmitter: number of splits:10
2024-11-07 17:40:48,902 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_local1475880293_0001
2024-11-07 17:40:48,903 INFO mapreduce.JobSubmitter: Executing with tokens: []
2024-11-07 17:40:49,191 INFO mapreduce.Job: The url to track the job: http://localhost:8080/
2024-11-07 17:40:49,192 INFO mapreduce.Job: Running job: job_local1475880293_0001
2024-11-07 17:40:49,201 INFO mapred.LocalJobRunner: OutputCommitter set in config null
2024-11-07 17:40:49,214 INFO output.PathOutputCommitterFactory: No output committer factory defined, defau

In [17]:
!cat ~/grep_example/*

27	allowed.
1	allowed


# HDFS


Las siguientes sentencias únicamente sirven para probar comandos básicos de HDFS no para gestionar una Infraestructura que en Google Colab no existe, en este caso el sistema de archivos HDFS es el mismo que el local

* Crear el directorio *prueba*

In [18]:
!hdfs dfs -mkdir prueba

- Crear un fichero local :

In [19]:
%%bash
echo "Ejemplo de HDFS" > user.txt
echo `date` >> user.txt
cat user.txt

Ejemplo de HDFS
Thu Nov 7 05:41:24 PM UTC 2024


In [20]:
!hdfs dfs -put user.txt prueba/
!hdfs dfs -ls prueba

Found 1 items
-rw-r--r--   1 root root         47 2024-11-07 17:41 prueba/user.txt


- Mostrar su contenido

In [21]:
!hdfs dfs -cat prueba/user.txt

Ejemplo de HDFS
Thu Nov 7 05:41:24 PM UTC 2024


In [22]:
%%bash
hdfs dfs -tail prueba/user.txt

Ejemplo de HDFS
Thu Nov 7 05:41:24 PM UTC 2024
