
## Inicialización de PySpark en Jupyter Notebook

Para usar PySpark dentro de Jupyter Notebook, primero es necesario localizar e inicializar la instalación de Spark en tu máquina. Esto se puede lograr utilizando el paquete `findspark`.

### Código:

In [4]:
!pip install findspark


zsh:1: /Users/ivanozono/Proyects/spark_leccions/env/bin/pip: bad interpreter: /Users/ivanozono/Proyects/spark_juegos_olimpicos/env/bin/python3: no such file or directory


## Instalación del Paquete `findspark`

El paquete `findspark` es esencial cuando trabajas con PySpark en entornos como Jupyter Notebook. Permite inicializar Spark de manera que pueda ser usado dentro de estos entornos.

### Explicación:

- **`!pip install findspark`**:
    - Este comando se utiliza para instalar el paquete `findspark` utilizando el administrador de paquetes de Python, `pip`.
    ```python
    !pip install findspark
    ```
    - El signo de exclamación (`!`) al inicio del comando indica que se está ejecutando un comando del sistema desde dentro de Jupyter Notebook. En este caso, estamos ejecutando un comando `pip`.
    - `pip` es el administrador de paquetes predeterminado para Python. Se utiliza para instalar y administrar paquetes adicionales que no están incluidos en la biblioteca estándar de Python.
    - `install findspark`: Esta es la instrucción que le dice a `pip` que instale el paquete `findspark`.

Una vez que se ha ejecutado este comando, el paquete `findspark` estará disponible en tu entorno y podrás importarlo y usarlo en tu código para inicializar y trabajar con PySpark en Jupyter Notebook.


In [5]:
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName("SparkInJupyter").getOrCreate()

23/09/21 16:10:44 WARN Utils: Your hostname, MacBook-Air-de-Ivan.local resolves to a loopback address: 127.0.0.1; using 192.168.0.2 instead (on interface en0)
23/09/21 16:10:44 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/09/21 16:10:45 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
23/09/21 16:10:46 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
23/09/21 16:10:46 WARN Utils: Service 'SparkUI' could not bind on port 4041. Attempting port 4042.


## Inicialización y Configuración de PySpark en Jupyter Notebook

Para trabajar con PySpark dentro de Jupyter Notebook, es esencial inicializar y configurar correctamente la sesión de Spark. En el código proporcionado, se demuestra cómo hacerlo.

### Explicación:

- **Inicialización de Spark**:
    - Antes de usar PySpark, debemos localizar e inicializar la instalación de Spark en la máquina. Esto se hace con la ayuda del paquete `findspark`.
    ```python
    import findspark
    findspark.init()
    ```
    - `import findspark`: Importamos el módulo `findspark`.
    - `findspark.init()`: Con este método, localizamos e inicializamos la instalación de Spark, permitiendo que Jupyter Notebook acceda a las funcionalidades de Spark.

- **Creación de la Sesión de Spark**:
    - Una vez inicializado Spark, es necesario crear una sesión para trabajar con él. La sesión se crea y configura usando la clase `SparkSession`.
    ```python
    from pyspark.sql import SparkSession
    spark = SparkSession.builder.master("local[*]").appName("SparkInJupyter").getOrCreate()
    ```
    - `from pyspark.sql import SparkSession`: Importamos la clase `SparkSession`, que es el punto de entrada para cualquier funcionalidad relacionada con DataFrame en Spark.
    - `spark = SparkSession.builder`: Accedemos al constructor de `SparkSession`.
    - `.master("local[*]")`: Configuramos Spark para que se ejecute localmente en la máquina usando todos los núcleos disponibles. Aquí, `[*]` indica que se deben usar todos los núcleos.
    - `.appName("SparkInJupyter")`: Definimos el nombre de la aplicación Spark para identificación en el Spark UI.
    - `.getOrCreate()`: Finalmente, creamos una nueva sesión Spark si no existe ninguna o recuperamos una ya existente.

Una vez ejecutado este código, tendrás una instancia activa de Spark, llamada `spark`, lista para trabajar con DataFrames y otras características de PySpark directamente en Jupyter Notebook.


In [7]:
data = [("Alice", 1), ("Bob", 2), ("Charlie", 3)]
df = spark.createDataFrame(data, ["name", "value"])
df.show()


+-------+-----+
|   name|value|
+-------+-----+
|  Alice|    1|
|    Bob|    2|
|Charlie|    3|
+-------+-----+



## Creación y Visualización de un DataFrame en PySpark

En el código proporcionado, estamos creando un DataFrame en PySpark utilizando datos de ejemplo y luego mostrando su contenido.

### Explicación:

- **`data = [("Alice", 1), ("Bob", 2), ("Charlie", 3)]`**:
    - Aquí, estamos definiendo una lista de tuplas. Cada tupla representa una fila del DataFrame que queremos crear. La primera entrada de cada tupla es una cadena que representa un nombre, y la segunda entrada es un número entero.

- **`df = spark.createDataFrame(data, ["name", "value"])`**:
    - Usamos el método `createDataFrame` del objeto `spark` (que es una instancia de `SparkSession`) para crear un DataFrame.
    - El primer argumento (`data`) es la lista de tuplas que definimos anteriormente.
    - El segundo argumento (`["name", "value"]`) es una lista de cadenas que define los nombres de las columnas del DataFrame.

- **`df.show()`**:
    - Este método muestra las primeras filas del DataFrame en una tabla. Por defecto, muestra las primeras 20 filas, pero puedes pasar un número específico como argumento si deseas ver un número diferente de filas.
    - Es útil para obtener una vista rápida del contenido del DataFrame después de crearlo o realizar operaciones sobre él.

Después de ejecutar el código, deberías ver una tabla con tres filas y dos columnas, mostrando los datos que definimos en la lista `data`.


In [8]:
spark.stop()

## Detener la Sesión de Spark

En PySpark, es importante liberar recursos cuando ya no se necesitan. Una de las formas de hacerlo es deteniendo la sesión de Spark que se está utilizando.

### Explicación:

- **`spark.stop()`**:
    - Este método se utiliza para detener una sesión de Spark en ejecución.
    ```python
    spark.stop()
    ```
    - Al ejecutar `spark.stop()`, se liberan todos los recursos asociados con la sesión de Spark actual. Esto incluye la terminación de cualquier tarea en ejecución y la liberación de memoria y otros recursos utilizados por la sesión.
    - Es una buena práctica detener la sesión de Spark cuando hayas terminado de trabajar con ella, especialmente si estás trabajando en un entorno con recursos limitados o compartidos.

Después de ejecutar este código, la instancia de Spark que estabas utilizando será detenida, y deberás crear una nueva sesión si deseas continuar trabajando con PySpark.
