# Instalación de Hadoop

In [None]:
# Descargar Hadoop 3.4.2 desde el sitio oficial de Apache
!wget https://downloads.apache.org/hadoop/common/hadoop-3.4.2/hadoop-3.4.2.tar.gz

# Descomprimir el archivo tar.gz descargado
!tar -xzf hadoop-3.4.2.tar.gz

# Mover la carpeta descomprimida a /usr/local/hadoop
!mv hadoop-3.4.2/ /usr/local/hadoop

# Establecer la variable de entorno JAVA_HOME para apuntar a la instalación de Java 11
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-17-openjdk-amd64"


# Agregar el directorio bin de Hadoop al PATH para que los comandos de Hadoop estén disponibles globalmente
os.environ["HADOOP_HOME"] = "/usr/local/hadoop"
os.environ["PATH"] += f":{os.environ['HADOOP_HOME']}/bin:{os.environ['HADOOP_HOME']}/sbin"

# Verificar la versión de Hadoop instalada
!hadoop version

--2026-01-12 11:27:44--  https://downloads.apache.org/hadoop/common/hadoop-3.4.2/hadoop-3.4.2.tar.gz
Resolving downloads.apache.org (downloads.apache.org)... 88.99.208.237, 135.181.214.104, 2a01:4f8:10a:39da::2, ...
Connecting to downloads.apache.org (downloads.apache.org)|88.99.208.237|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1065831750 (1016M) [application/x-gzip]
Saving to: ‘hadoop-3.4.2.tar.gz’


2026-01-12 11:28:40 (18.6 MB/s) - ‘hadoop-3.4.2.tar.gz’ saved [1065831750/1065831750]

Hadoop 3.4.2
Source code repository https://github.com/apache/hadoop.git -r 84e8b89ee2ebe6923691205b9e171badde7a495c
Compiled by ahmarsu on 2025-08-20T10:30Z
Compiled on platform linux-x86_64
Compiled with protoc 3.23.4
From source with checksum fa94c67d4b4be021b9e9515c9b0f7b6
This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-3.4.2.jar


# SPARK

- [Apache Spark](https://spark.apache.org) se lanzó por primera vez en 2014.
- Fue desarrollado originalmente por [Matei Zaharia](http://people.csail.mit.edu/matei) como un proyecto de clase, y más tarde una tesis doctoral, en la Universidad de California, Berkeley.
- Spark está escrito en [Scala](https://www.scala-lang.org).
- Todas las imágenes proceden de [Databricks](https://databricks.com/product/getting-started-guide).
- Apache Spark es un sistema de computación en clúster rápido y de propósito general.
- Proporciona API de alto nivel en Java, Scala, Python y R, y un motor optimizado que soporta gráficos de ejecución general.
- Spark puede gestionar colecciones de "big data" con un pequeño conjunto de primitivas de alto nivel como `map`, `filter`, `groupby` y `join`.  Con estos patrones comunes a menudo podemos manejar cálculos que son más complejos que map, pero siguen siendo estructurados.
- También es compatible con un amplio conjunto de herramientas de alto nivel, como [Spark SQL](https://spark.apache.org/docs/latest/sql-programming-guide.html) para SQL y el procesamiento de datos estructurados, [MLlib](https://spark.apache.org/docs/latest/ml-guide.html) para el aprendizaje automático, [GraphX](https://spark.apache.org/docs/latest/graphx-programming-guide.html) para el procesamiento de gráficos y Spark Streaming.

## Ciclo de vida de un programa Spark

1. Crea algunos RDD de entrada a partir de datos externos o paraleliza una colección en tu programa controlador.
2. Transformarlos perezosamente para definir nuevos RDDs usando transformaciones como `filter()` o `map()`.
3. Pedir a Spark que almacene en caché() cualquier RDD intermedio que deba ser reutilizado.
4. Lanzar acciones como count() y collect() para iniciar un cálculo paralelo, que luego es optimizado y ejecutado por Spark.


## Operaciones con datos distribuidos

- Dos tipos de operaciones: **transformaciones** y **acciones**.
- Las transformaciones son *lazy* (no se calculan inmediatamente)
- Las transformaciones se ejecutan cuando se ejecuta una acción

## [Transformaciones](https://spark.apache.org/docs/latest/rdd-programming-guide.html#transformations) (lazy)

```
map() flatMap()
filter()
mapPartitions() mapPartitionsWithIndex()
sample()
union() intersection() distinct()
groupBy() groupByKey()
reduceBy() reduceByKey()
sortBy() sortByKey()
join()
cogroup()
cartesian()
pipe()
coalesce()
repartition()
partitionBy()
...
```

## [Acciones](https://spark.apache.org/docs/latest/rdd-programming-guide.html#actions)

```
reduce()
collect()
count()
first()
take()
takeSample()
saveToCassandra()
takeOrdered()
saveAsTextFile()
saveAsSequenceFile()
saveAsObjectFile()
countByKey()
foreach()
```

## Python API

PySpark utiliza Py4J, que permite a los programas Python acceder dinámicamente a objetos Java.

![picture](https://drive.google.com/uc?export=view&id=1Llin_Zd-11YhHrRds6l_M3GAJWU3x2Ly)


## La clase SparkContext

- Cuando trabajamos con Apache Spark invocamos métodos sobre un objeto que es una instancia del contexto `pyspark.SparkContext`.

- Típicamente, una instancia de este objeto se crea automáticamente y se asigna a la variable `sc`.

- El método `parallelize` de `SparkContext` se puede utilizar para convertir cualquier colección ordinaria de Python en un RDD;
    - normalmente crearíamos un RDD a partir de un archivo grande o una tabla HBase.

## Instalación

En primer lugar instalamos y configuramos todas las dependencias de Spark para Python. De esta forma enlazaremos nuestro entorno con el servidor de Spark. Además configuraremos el entorno Spark con las variables que sean necesarias.



**NOTA:**

1. **la última versión de PySpark es la 4.4.1 [link](https://pypi.org/project/pyspark/#history)**

2. **Puede tardar un poco tiempo en hacer todos los procesos de descarga de datos pyspark tardar en descargar en su entorno virtual**


* Descargamos y comprimimos la instalación de Spark


In [None]:
# Install spark-related dependencies
!wget -q https://dlcdn.apache.org/spark/spark-4.1.1/spark-4.1.1-bin-hadoop3.tgz
!tar xf spark-4.1.1-bin-hadoop3.tgz



In [None]:
!pip install -q findspark
!pip install pyspark




* Configurar las variables de entorno

In [None]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-17-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-4.1.1-bin-hadoop3"

Vamos a verificar que el entorno Spark está bien creado

In [None]:
os.environ["SPARK_HOME"]

'/content/spark-4.1.1-bin-hadoop3'

Vamos a iniciar uan sesión de spark simple para testear nuestra instalación

1. Ejecutamos findspark.init() para hacer que pyspark sea importable como una biblioteca normal

In [None]:
import findspark
findspark.init()

2. Crear un contexto Spark para ejecutar la aplicación

> NOTA: Un SparkContext representa la conexión al cluster de Spark, y puede utilizarse para crear RDDs y otros elementos. **Sólo puede haber un SparkContext activo**. Se debe detener (*stop()*) el SparkContext activo antes de crear uno nuevo.

In [None]:
import pyspark # Importa la librería principal de PySpark para trabajar con Spark.
from pyspark.sql import *  # Importa todas las clases y funciones del módulo pyspark.sql para trabajar con DataFrames.
from pyspark.sql.functions import * # Importa todas las funciones de manipulación de DataFrames, como agregaciones, filtros, etc.
from pyspark import SparkContext, SparkConf # Importa las clases SparkContext y SparkConf para configurar y crear un contexto de Spark.

In [None]:
conf = SparkConf() # Crea una instancia de la clase SparkConf para configurar el contexto de Spark.
conf.set("spark.ui.port", "4050") # Establece el puerto para la interfaz de usuario de Spark en 4050.
conf.set("spark.appName", "Pi") # Establece el nombre de la aplicación Spark como "Pi".
# Crea el contexto
sc = pyspark.SparkContext(conf=conf) # Crea un SparkContext utilizando la configuración especificada en 'conf'.
spark = SparkSession.builder.getOrCreate() # Crea o obtiene una sesión Spark, que es el punto de entrada para usar DataFrames y SQL.
sc # Devuelve el SparkContext creado.


3. Plantear el problema a resolver. En este caso la aproximación de Pi por el método de Montecarlo [enlace](https://www.geogebra.org/m/cF7RwK3H)


In [None]:
import random # Importa la librería 'random' para generar números aleatorios.
num_samples = 1000000 # Define el número de muestras a utilizar en la simulación de Monte Carlo.
def inside(p): # Define una función llamada 'inside' que determina si un punto está dentro del círculo unitario.
  x, y = random.random(), random.random() # Genera dos números aleatorios entre 0 y 1, representando las coordenadas x e y de un punto.
  return x*x + y*y < 1 # Devuelve True si el punto está dentro del círculo (x^2 + y^2 < 1), False en caso contrario.




4. Paralelizar el cálculo con **parallelize**: Este método se utiliza para distribuir la colección de elementos del mismo tipo (datos u operaciones) para poder funcionar en paralelo.

In [None]:
# Paralelizar el cálculo con parallelize: Este método se utiliza para distribuir la colección de elementos del mismo tipo (datos u operaciones) para poder funcionar en paralelo.
count = sc.parallelize(range(0, num_samples)).filter(inside).count() # Crea un RDD con un rango de números, filtra los que están dentro del círculo y cuenta cuántos hay.
count


785348

5. Obtenemos el resultado final

In [None]:
pi = 4 * count / num_samples # Calcula una aproximación de pi utilizando la fórmula: 4 * (puntos dentro del círculo) / (total de puntos).
print(pi) # Imprime el valor aproximado de pi.


3.141392


6. Paramos el SparkContext

In [None]:
sc.stop() # Detiene el contexto de Spark, liberando los recursos utilizados.

---

# Tarea de refuerzo

---

Estudia prueba y guarda los siguientes comandos de Pyspark:
https://github.com/joeyism/Commonly-Used-Pyspark-Commands

Seguro que te serán útilies en el futuro.