# Google Colab


Google Colab es una herramienta online gratuita basada en la nube que permite desplegar modelos de aprendizaje automático de forma remota en **CPUs y GPUs**

Se basa en la tecnología de código abierto **Jupyter**, con la que se puede crear un cuaderno **Ipython**. El cuaderno Ipython no sólo te ofrece la posibilidad de escribir código, sino también de *contar una historia* a través de él.

Puedes ejecutar código, crear visualizaciones dedatos, y escribir sobre cada paso que se haga en texto plano o markdown. Esto hace que el código incluya explicaciones y visualizaciones de lo que hace.

# Hadoop

Hadoop es un marco de programación basado en Java que permite procesar y almacenar conjuntos de datos extremadamente grandes en un clúster de máquinas de bajo coste. Fue el primer gran proyecto de código abierto en el ámbito del Big Data y está patrocinado por la Apache Software Foundation.

## Instalación de Hadoop

* bajar la distribución correspondiente

In [None]:
!wget https://downloads.apache.org/hadoop/common/hadoop-3.4.1/hadoop-3.4.1.tar.gz

--2023-11-24 20:21:40--  https://downloads.apache.org/hadoop/common/hadoop-3.3.2/hadoop-3.3.2.tar.gz
Resolving downloads.apache.org (downloads.apache.org)... 88.99.95.219, 135.181.214.104, 2a01:4f9:3a:2c57::2, ...
Connecting to downloads.apache.org (downloads.apache.org)|88.99.95.219|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 638660563 (609M) [application/x-gzip]
Saving to: ‘hadoop-3.3.2.tar.gz’


2023-11-24 20:22:03 (27.4 MB/s) - ‘hadoop-3.3.2.tar.gz’ saved [638660563/638660563]



* extraerla en el sistema de archivos de colab

In [None]:
!tar -xzf hadoop-3.3.2.tar.gz

* mover la distribución de hadoop  /usr/local

In [None]:
!mv  hadoop-3.3.2/ /usr/local/

## Configuración

* actualizamos variables de entorno (JAVA_HOME, PATH)

In [None]:
import os
os.environ["JAVA_HOME"]="/usr/lib/jvm/java-11-openjdk-amd64"
os.environ["PATH"] = os.environ["PATH"] + ":" + "/usr/local/hadoop-3.3.2/bin"

* comprobamos instalación

In [None]:
!hadoop version

Hadoop 3.3.2
Source code repository git@github.com:apache/hadoop.git -r 0bcb014209e219273cb6fd4152df7df713cbac61
Compiled by chao on 2022-02-21T18:39Z
Compiled with protoc 3.7.1
From source with checksum 4b40fff8bb27201ba07b6fa5651217fb
This command was run using /usr/local/hadoop-3.3.2/share/hadoop/common/hadoop-common-3.3.2.jar


## Ejecución de ejemplos

Una de las formas tradicionales de asegurarnos que un ambiente de Hadoop recién instalado funciona correctamente, es ejecutando el *jar* de ejemplos *map-reduce* incluido con toda instalación de hadoop (*hadoop-mapreduce-examples.jar*).

[Hadoop Map Reduce Examples](http://svn.apache.org/viewvc/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/)

1. Creamos un directorio de ficheros en los que volquemos los xml de hadoop

In [None]:
%%bash
mkdir ~/input
cp /usr/local/hadoop-3.3.2/etc/hadoop/*.xml ~/input
ls ~/input

capacity-scheduler.xml
core-site.xml
hadoop-policy.xml
hdfs-rbf-site.xml
hdfs-site.xml
httpfs-site.xml
kms-acls.xml
kms-site.xml
mapred-site.xml
yarn-site.xml


mkdir: cannot create directory ‘/root/input’: File exists


2. Ejecutamos hadoop jar con el fin de ejecutar uno de los ejemplos por defecto, en este caso el grep que busca expresiones regulares dentro de los ficheros que le especifiquemos.

In [None]:
%%bash
hadoop jar \
  /usr/local/hadoop-3.3.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.2.jar \
  grep ~/input ~/grep_example 'allowed[.]*'

2023-11-24 20:22:39,352 INFO impl.MetricsConfig: Loaded properties from hadoop-metrics2.properties
2023-11-24 20:22:39,609 INFO impl.MetricsSystemImpl: Scheduled Metric snapshot period at 10 second(s).
2023-11-24 20:22:39,610 INFO impl.MetricsSystemImpl: JobTracker metrics system started
2023-11-24 20:22:39,898 INFO input.FileInputFormat: Total input files to process : 10
2023-11-24 20:22:39,943 INFO mapreduce.JobSubmitter: number of splits:10
2023-11-24 20:22:40,404 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_local186942624_0001
2023-11-24 20:22:40,404 INFO mapreduce.JobSubmitter: Executing with tokens: []
2023-11-24 20:22:40,674 INFO mapreduce.Job: The url to track the job: http://localhost:8080/
2023-11-24 20:22:40,674 INFO mapreduce.Job: Running job: job_local186942624_0001
2023-11-24 20:22:40,684 INFO mapred.LocalJobRunner: OutputCommitter set in config null
2023-11-24 20:22:40,693 INFO output.FileOutputCommitter: File Output Committer Algorithm version is 2
2023-1

In [None]:
!cat ~/grep_example/*

22	allowed.
1	allowed


# HDFS


Las siguientes sentencias únicamente sirven para probar comandos básicos de HDFS no para gestionar una Infraestructura que en Google Colab no existe, en este caso el sistema de archivos HDFS es el mismo que el local

* Crear el directorio *prueba*

In [None]:
!hdfs dfs -mkdir prueba

- Crear un fichero local :

In [None]:
%%bash
echo "Ejemplo de HDFS" > user.txt
echo `date` >> user.txt
cat user.txt

Ejemplo de HDFS
Wed Mar 16 11:36:08 UTC 2022


In [None]:
!hdfs dfs -put user.txt prueba/
!hdfs dfs -ls prueba

put: `prueba/user.txt': File exists
Found 1 items
-rw-r--r--   1 root root         45 2022-03-16 11:37 prueba/user.txt


- Mostrar su contenido

In [None]:
!hdfs dfs -cat prueba/user.txt

Ejemplo de HDFS
Wed Mar 16 11:36:08 UTC 2022


In [None]:
%%bash
hdfs dfs -tail prueba/user.txt

Ejemplo de HDFS
Wed Mar 16 11:36:08 UTC 2022


## **Ejecute los comandos utilizados en la tarea de "Comandos HDFS" en Google Colab**