# 0 - Ejemplo inicial Spark (pyspark)

## 1. Importar pyspark, crear una sesión nueva

Configuramos la variable `JAVA_HOME`, que indica a Spark dónde encontrar la JVM contra la que ejecutar su código Scala.

In [1]:
import os

# En nuestro ordenador personal, si no esta definida la variable JAVA_HOME, deberemos indicarla
# os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-17-openjdk-amd64"

# En los laboratorios docentes, sera necesario utilizar la siguiente
# os.environ["JAVA_HOME"] = "/usr/"

os.environ["JAVA_HOME"]

'/usr/lib/jvm/java-17-openjdk-amd64/'

Comprobamos que el sistema base sigue utilizando otra versión de Java (si es que hay una más moderna instalada).

In [2]:
%%bash
java -version

openjdk version "17.0.13" 2024-10-15
OpenJDK Runtime Environment (build 17.0.13+11-Ubuntu-2ubuntu122.04)
OpenJDK 64-Bit Server VM (build 17.0.13+11-Ubuntu-2ubuntu122.04, mixed mode, sharing)


In [3]:
import pyspark

In [4]:
print(pyspark.__version__)

3.5.3


In [5]:
# Si aparecen varios WARNING pero ningún error, los ignoramos.
# Si ejecutamos sucesivas veces el notebook no vuelven a aparecer.

from pyspark.sql import SparkSession

# Open new SparkSession
spark = (SparkSession
        .builder
        .appName("Python-Spark-SQL")
        .getOrCreate()
        )

24/11/13 16:53:10 WARN Utils: Your hostname, maes resolves to a loopback address: 127.0.1.1; using 10.0.78.133 instead (on interface wlp0s20f3)
24/11/13 16:53:10 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/11/13 16:53:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [6]:
spark

## 2. Ejemplo: cálculo de pi aproximado

In [7]:
sc = spark.sparkContext  # Get sparkContext object

In [8]:
import random

NUM_SAMPLES = 1000000

def inside(p):
    x, y = random.random(), random.random()
    return x*x + y*y < 1

count = sc.parallelize(range(0, NUM_SAMPLES)) \
             .filter(inside).count()
print("Pi is roughly ", (4.0 * count / NUM_SAMPLES))

[Stage 0:>                                                          (0 + 8) / 8]

Pi is roughly  3.138292


                                                                                

## 2. Detener SparkSession

In [9]:
spark.stop()