# Google Colab


Google Colab es una herramienta online gratuita basada en la nube que permite desplegar modelos de aprendizaje automático de forma remota en **CPUs y GPUs**

Se basa en la tecnología de código abierto **Jupyter**, con la que se puede crear un cuaderno **Ipython**. El cuaderno Ipython no sólo te ofrece la posibilidad de escribir código, sino también de *contar una historia* a través de él.

Puedes ejecutar código, crear visualizaciones dedatos, y escribir sobre cada paso que se haga en texto plano o markdown. Esto hace que el código incluya explicaciones y visualizaciones de lo que hace.

¿Que recursos ofrece Colab?


- Uso de Disco

In [None]:
!df -h

Filesystem      Size  Used Avail Use% Mounted on
overlay         108G   33G   76G  31% /
tmpfs            64M     0   64M   0% /dev
shm             5.8G     0  5.8G   0% /dev/shm
/dev/root       2.0G  1.1G  841M  58% /usr/sbin/docker-init
tmpfs           6.4G   36K  6.4G   1% /var/colab
/dev/sda1        70G   43G   27G  62% /etc/hosts
tmpfs           6.4G     0  6.4G   0% /proc/acpi
tmpfs           6.4G     0  6.4G   0% /proc/scsi
tmpfs           6.4G     0  6.4G   0% /sys/firmware


- CPU's

In [None]:
!cat /proc/cpuinfo | grep "model name"

model name	: AMD EPYC 7B12
model name	: AMD EPYC 7B12


* Memoria

In [None]:
!cat /proc/meminfo | grep "Mem"*

MemTotal:       13297192 kB
MemFree:         8540096 kB
MemAvailable:   12485348 kB


* GPU 

Si activamos el soporte GPU entonces podremos obtener información sobre la misma
Información sobre la GPU disponible 

`nvidia-smi -L` solo lista el nombre

`nvidia-smi -q ` mucha más información disponible

In [None]:
!nvidia-smi

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.



In [None]:
!nvcc --version

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Tue_Mar__8_18:18:20_PST_2022
Cuda compilation tools, release 11.6, V11.6.124
Build cuda_11.6.r11.6/compiler.31057947_0


In [None]:
!cat /proc/driver/nvidia/gpus/0000:00:04.0/information

cat: /proc/driver/nvidia/gpus: No such file or directory


# Hadoop

Hadoop es un marco de programación basado en Java que permite procesar y almacenar conjuntos de datos extremadamente grandes en un clúster de máquinas de bajo coste. Fue el primer gran proyecto de código abierto en el ámbito del Big Data y está patrocinado por la Apache Software Foundation.

## Instalación de Hadoop

* bajar la distribución correspondiente

In [None]:
!wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

--2023-02-24 16:52:46--  https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
Resolving downloads.apache.org (downloads.apache.org)... 135.181.214.104, 88.99.95.219, 2a01:4f9:3a:2c57::2, ...
Connecting to downloads.apache.org (downloads.apache.org)|135.181.214.104|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 695457782 (663M) [application/x-gzip]
Saving to: ‘hadoop-3.3.4.tar.gz’


2023-02-24 16:53:16 (22.5 MB/s) - ‘hadoop-3.3.4.tar.gz’ saved [695457782/695457782]



* extraerla en el sistema de archivos de colab

In [None]:
!tar -xzf hadoop-3.3.4.tar.gz

* mover la distribución de hadoop  /usr/local

In [None]:
!mv  hadoop-3.3.4/ /usr/local/

## Configuración

* actualizamos variables de entorno (JAVA_HOME, PATH)

In [None]:
import os
os.environ["JAVA_HOME"]="/usr/lib/jvm/java-11-openjdk-amd64"
os.environ["PATH"] = os.environ["PATH"] + ":" + "/usr/local/hadoop-3.3.4/bin"

* comprobamos instalación

In [None]:
!hadoop version

Hadoop 3.3.4
Source code repository https://github.com/apache/hadoop.git -r a585a73c3e02ac62350c136643a5e7f6095a3dbb
Compiled by stevel on 2022-07-29T12:32Z
Compiled with protoc 3.7.1
From source with checksum fb9dd8918a7b8a5b430d61af858f6ec
This command was run using /usr/local/hadoop-3.3.4/share/hadoop/common/hadoop-common-3.3.4.jar


## Ejecución de ejemplos

Una de las formas tradicionales de asegurarnos que un ambiente de Hadoop recién instalado funciona correctamente, es ejecutando el *jar* de ejemplos *map-reduce* incluido con toda instalación de hadoop (*hadoop-mapreduce-examples.jar*).

[Hadoop Map Reduce Examples](http://svn.apache.org/viewvc/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/)

1. Creamos un directorio de ficheros en los que volquemos los xml de hadoop

In [None]:
%%bash
mkdir ~/input
cp /usr/local/hadoop-3.3.4/etc/hadoop/*.xml ~/input
ls ~/input

capacity-scheduler.xml
core-site.xml
hadoop-policy.xml
hdfs-rbf-site.xml
hdfs-site.xml
httpfs-site.xml
kms-acls.xml
kms-site.xml
mapred-site.xml
yarn-site.xml


2. Ejecutamos hadoop jar con el fin de ejecutar uno de los ejemplos por defecto, en este caso el grep que busca expresiones regulares dentro de los ficheros que le especifiquemos.

In [None]:
%%bash
hadoop jar \
  /usr/local/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar \
  grep ~/input ~/grep_example 'allowed[.]*'

2023-02-24 16:53:30,919 INFO impl.MetricsConfig: Loaded properties from hadoop-metrics2.properties
2023-02-24 16:53:31,126 INFO impl.MetricsSystemImpl: Scheduled Metric snapshot period at 10 second(s).
2023-02-24 16:53:31,126 INFO impl.MetricsSystemImpl: JobTracker metrics system started
2023-02-24 16:53:31,600 INFO input.FileInputFormat: Total input files to process : 10
2023-02-24 16:53:31,625 INFO mapreduce.JobSubmitter: number of splits:10
2023-02-24 16:53:31,945 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_local1093092602_0001
2023-02-24 16:53:31,945 INFO mapreduce.JobSubmitter: Executing with tokens: []
2023-02-24 16:53:32,146 INFO mapreduce.Job: The url to track the job: http://localhost:8080/
2023-02-24 16:53:32,147 INFO mapreduce.Job: Running job: job_local1093092602_0001
2023-02-24 16:53:32,158 INFO mapred.LocalJobRunner: OutputCommitter set in config null
2023-02-24 16:53:32,166 INFO output.FileOutputCommitter: File Output Committer Algorithm version is 2
2023

In [None]:
!cat ~/grep_example/*

22	allowed.
1	allowed


# HDFS


Las siguientes sentencias únicamente sirven para probar comandos básicos de HDFS no para gestionar una Infraestructura que en Google Colab no existe, en este caso el sistema de archivos HDFS es el mismo que el local

* Crear el directorio *prueba*

In [None]:
!hdfs dfs -mkdir prueba

- Crear un fichero local :

In [None]:
%%bash
echo "Ejemplo de HDFS" > user.txt
echo `date` >> user.txt 
cat user.txt

Ejemplo de HDFS
Fri 24 Feb 2023 04:53:40 PM UTC


In [None]:
!hdfs dfs -put user.txt prueba/
!hdfs dfs -ls prueba

Found 1 items
-rw-r--r--   1 root root         48 2023-02-24 16:53 prueba/user.txt


- Mostrar su contenido

In [None]:
!hdfs dfs -cat prueba/user.txt

Ejemplo de HDFS
Fri 24 Feb 2023 04:53:40 PM UTC


In [None]:
%%bash
hdfs dfs -tail prueba/user.txt 

Ejemplo de HDFS
Fri 24 Feb 2023 04:53:40 PM UTC


# SPARK

- [Apache Spark](https://spark.apache.org) se lanzó por primera vez en 2014. 
- Fue desarrollado originalmente por [Matei Zaharia](http://people.csail.mit.edu/matei) como un proyecto de clase, y más tarde una tesis doctoral, en la Universidad de California, Berkeley.
- Spark está escrito en [Scala](https://www.scala-lang.org).
- Todas las imágenes proceden de [Databricks](https://databricks.com/product/getting-started-guide).
- Apache Spark es un sistema de computación en clúster rápido y de propósito general. 
- Proporciona API de alto nivel en Java, Scala, Python y R, y un motor optimizado que soporta gráficos de ejecución general.
- Spark puede gestionar colecciones de "big data" con un pequeño conjunto de primitivas de alto nivel como `map`, `filter`, `groupby` y `join`.  Con estos patrones comunes a menudo podemos manejar cálculos que son más complejos que map, pero siguen siendo estructurados.
- También es compatible con un amplio conjunto de herramientas de alto nivel, como [Spark SQL](https://spark.apache.org/docs/latest/sql-programming-guide.html) para SQL y el procesamiento de datos estructurados, [MLlib](https://spark.apache.org/docs/latest/ml-guide.html) para el aprendizaje automático, [GraphX](https://spark.apache.org/docs/latest/graphx-programming-guide.html) para el procesamiento de gráficos y Spark Streaming.

## Ciclo de vida de un programa Spark

1. Crea algunos RDD de entrada a partir de datos externos o paraleliza una colección en tu programa controlador.
2. Transformarlos perezosamente para definir nuevos RDDs usando transformaciones como `filter()` o `map()`.
3. Pedir a Spark que almacene en caché() cualquier RDD intermedio que deba ser reutilizado.
4. Lanzar acciones como count() y collect() para iniciar un cálculo paralelo, que luego es optimizado y ejecutado por Spark.


## Operaciones con datos distribuidos

- Dos tipos de operaciones: **transformaciones** y **acciones**.
- Las transformaciones son *lazy* (no se calculan inmediatamente) 
- Las transformaciones se ejecutan cuando se ejecuta una acción

## [Transformaciones](https://spark.apache.org/docs/latest/rdd-programming-guide.html#transformations) (lazy)

```
map() flatMap()
filter() 
mapPartitions() mapPartitionsWithIndex() 
sample()
union() intersection() distinct()
groupBy() groupByKey()
reduceBy() reduceByKey()
sortBy() sortByKey()
join()
cogroup()
cartesian()
pipe()
coalesce()
repartition()
partitionBy()
...
```

## [Acciones](https://spark.apache.org/docs/latest/rdd-programming-guide.html#actions)

```
reduce()
collect()
count()
first()
take()
takeSample()
saveToCassandra()
takeOrdered()
saveAsTextFile()
saveAsSequenceFile()
saveAsObjectFile()
countByKey()
foreach()
```

## Python API

PySpark utiliza Py4J, que permite a los programas Python acceder dinámicamente a objetos Java.

![picture](https://drive.google.com/uc?export=view&id=1Llin_Zd-11YhHrRds6l_M3GAJWU3x2Ly)


## La clase SparkContext

- Cuando trabajamos con Apache Spark invocamos métodos sobre un objeto que es una instancia del contexto `pyspark.SparkContext`.

- Típicamente, una instancia de este objeto se crea automáticamente y se asigna a la variable `sc`.

- El método `parallelize` de `SparkContext` se puede utilizar para convertir cualquier colección ordinaria de Python en un RDD;
    - normalmente crearíamos un RDD a partir de un archivo grande o una tabla HBase.

## Instalación

En primer lugar instalamos y configuramos todas las dependencias de Spark para Python. De esta forma enlazaremos nuestro entorno con el servidor de Spark. Además configuraremos el entorno Spark con las variables que sean necesarias. 



**NOTA:**

1. **la última versión de PySpark es la 3.3.2 [link](https://pypi.org/project/pyspark/#history)**

2. **Puede tardar un poco tiempo en hacer todos los procesos de descarga de datos pyspark tardar en descargar en su entorno virtual**


* Descargamos y comprimimos la instalación de Spark


In [None]:
# Install spark-related dependencies
!wget -q http://apache.osuosl.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz
!tar xf spark-3.3.2-bin-hadoop3.tgz



In [None]:
!pip install -q findspark
!pip install pyspark


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


* Configurar las variables de entorno

In [None]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.3.2-bin-hadoop3"

Vamos a verificar que el entorno Spark está bien creado

In [None]:
os.environ["SPARK_HOME"]

'/content/spark-3.3.2-bin-hadoop3'

Vamos a iniciar uan sesión de spark simple para testear nuestra instalación

1. Ejecutamos findspark.init() para hacer que pyspark sea importable como una biblioteca normal

In [None]:
import findspark
findspark.init()

2. Crear un contexto Spark para ejecutar la aplicación

> NOTA: Un SparkContext representa la conexión al cluster de Spark, y puede utilizarse para crear RDDs y otros elementos. **Sólo puede haber un SparkContext activo**. Se debe detener (*stop()*) el SparkContext activo antes de crear uno nuevo. 

In [None]:
import pyspark
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark import SparkContext, SparkConf

In [None]:
conf = SparkConf()
conf.set("spark.ui.port", "4050")
conf.set("spark.appName", "Pi")
# create the context
sc = pyspark.SparkContext(conf=conf)
spark = SparkSession.builder.getOrCreate()
sc


3. Plantear el problema a resolver. En este caso la aproximación de Pi por el método de Montecarlo [enlace](https://www.geogebra.org/m/cF7RwK3H)


In [None]:
import random
num_samples = 1000000
def inside(p):     
  x, y = random.random(), random.random()
  return x*x + y*y < 1



4. Paralelizar el cálculo con **parallelize**: Este método se utiliza para distribuir la colección de elementos del mismo tipo (datos u operaciones) para poder funcionar en paralelo. 

In [None]:
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
count


784985

5. Obtenemos el resultado final

In [None]:
pi = 4 * count / num_samples
print(pi)


3.13994


6. Paramos el SparkContext

In [None]:
sc.stop()