# Instalación de Spark en Windows

## Instalar Java

PySpark requiere Java 17/21.

1. Verificar en `cmd` si se tiene instalado Java con el comando `java --version`.
2. Si no se tiene instalado, descargar el instalador de la version 17.0.14 de Java (JDK 17) en [https://www.oracle.com/java/technologies/javase/jdk17-0-13-later-archive-downloads.html#license-lightbox](https://www.oracle.com/java/technologies/javase/jdk17-0-13-later-archive-downloads.html#license-lightbox)
3. Descargar el instalador `Windows x64 MSI Installer` de la versión 17.0.14.
4. Instala Java 17 y guarda, antes de instalar, la ruta donde se va a instalar Java pues nos servirá luego. Debe tener permisos de administrador. Por defecto lo instala en la ruta `C:\Program Files\Java\jdk-17`.


## Instalar Python 3.11.9

En este caso, para comandar Spark, utilizaremos la API de Spark con Python.

1. Verificar en `cmd` si se tiene instalado Python con el comando `python --version`.
2. Si no se tiene instalado, descargar el instalador de la version de Python 3.11.9 en [https://www.python.org/ftp/python/3.11.9/python-3.11.9-amd64.exe](https://www.python.org/ftp/python/3.11.9/python-3.11.9-amd64.exe)
3. Ejecuta el instalador de Python 3.11.9
4. Selecciona la opción `Customize installation`.
5. Deben estar seleccionadas todas las casillas de `Optional Features`.
6. Si en `Advanced Options` no se tiene seleccionada la opción `Add Python to environment variables`, selecciona esta opción y presiona `Install` (Ten en cuenta que debes tener permisos de administrador).
7. Espera a que termine la instalación y da clic en `Close`.

## Instalar Spark 3.5.7

1. Ve a la página [https://spark.apache.org/downloads.html](https://spark.apache.org/downloads.html).
2. Deja en la primera lista desplegable (Choose a Spark release) seleccionar la versión 3.5.7 del 24 de septiembre del 2025.
3. Selecciona en la segunda lista desplegable (Choose a package type) la opción `Pre-built for Apache Hadoop 3.3 and later`.
4. Da clic en el enlace que se encuentra en el paso 3 (Download Spark) para comenzar a descargar el archivo comprimido de Spark.
5. Se direccionará a otra página, la cual dará diferentes enlaces para realizar la descarga. Se debe seleccionar el primer enlace y la descarga iniciará.
6. En la carpeta de descargas, descomprima el archivo de spark (`spark-3.5.7-bin-hadoop3.tgz`) con la opción "Extraer todo" en la misma carpeta de descargas.
7. En la carpeta de descargas aparecerá una carpeta nombrada con el mismo nombre del archivo comprimido (`spark-3.5.7-bin-hadoop3`), dentro de ella encontrarás una carpeta con el mismo nombre, entra en ella y copia todos los archivos que se encuentran dentro.
8. Abre una ventana del Explorador de archivos y entra en la unidad `C:`.
9. Crea una carpeta en la unidad `C:` llamada `spark`.
10. Pege en la carpeta `spark` todos los archivos copiados anteriormente.


## Winutils para Hadoop 3.3

Para comandar Hadoop desde Spark en Windows, debemos descargar un archivo ejecutable que nos ayudará con esto.

1. Descarga `winutils.exe` en el repositorio [https://github.com/cdarlint/winutils/blob/master/hadoop-3.3.6/bin/winutils.exe](https://github.com/cdarlint/winutils/blob/master/hadoop-3.3.6/bin/winutils.exe).
2. Crea una carpeta en la unidad `C:` llamada `hadoop`.
3. Dentro de la carpeta `hadoop` crea una carpeta llamada `bin`.
4. Dentro de la carpeta `bin`, pega el archivo ejecutable que descargaste llamado `winutils.exe`.


## Configurar variables de entorno

Se deben configurar las variables de entorno para ejecutar Hadoop, Spark y Java.

1. Escriba en el buscador de la barra de tareas "variables de entorno" y seleccione la opción "Editar las variables de entorno del sistema".
2. En la ventana que se abre, dar clic en el botón "Variables de entorno".
3. En el recuadro de "Variables del sistema", dar clic en el botón "Nueva..."
4. En "Nombre de la variable" escribe `JAVA_HOME` y en "Valor de la variable" escribe la ruta de instalación de Java `C:\Program Files\Java\jdk-17` o da clic en "Examinar directorio" y selecciona la carpeta de instalación de Java. Para finalizar da clic en el botón "Aceptar".
5. Repite los pasos 3 y 4 con la siguiente información:
    - `SPARK_HOME` y `C:\spark`.
    - `HADOOP_HOME` y `C:\hadoop`.
6. Selecciona en el listado de variables del sistema la variable `Path`, luego da clic en el botón "Editar...".
7. En la ventana que se abre, da clic en el botón "Nuevo" y escribe `%JAVA_HOME%\bin`. Luego presiona "Enter".
8. Repite el paso 7 pero con la siguiente información:
    - `%SPARK_HOME%\bin`.
    - `%HADOOP_HOME%\bin`.
9. Al finalizar de introducir las rutas en la variable "Path", da clic en el botón "Aceptar".
10. En la ventana de variables del sistema da clic en el botón "Aceptar".



# Verificar instalación de Spark

1. Abre una terminal (`cmd`).
2. Escribe `pyspark` y presiona "Enter".
3. Se iniciará la sesión de Spark en la terminal.
4. Para salir, escribe `quit()` y presiona "Enter".

# Crear carpeta de proyecto

En la ubicación que desee cree una carpeta con el nombre `ml_pyspark`. Ingrese y cree una carpeta llamada `sesion1`

# Instalar VSC

Diríjase a la url [https://code.visualstudio.com/Download](https://code.visualstudio.com/Download). Descargue y ejecute el instalador para Windows.

Luego siga las indicaciones de configuración que dará el profesor.

# Crear ambiente de programación

En la terminal de VSC, corra la siguiente línea de código: `python -m venv venv`.

# Instalar librerías en el ambiente

Luego de crearse el ambiente de programación, corra la siguiente línea de código: `venv\Scripts\activate`. A continuación copie y pegue en la carpeta del proyecto el archivo requirements.txt que se encontrará en la carpeta del curso.

Seguido a esto, corra la siguiente línea de código: `pip install -r requirements.txt`.

# Crear sesión en jupyter

In [1]:
import os
import sys
from pyspark.sql import SparkSession

# Forzar a Spark a usar el Python de tu venv
os.environ["PYSPARK_PYTHON"] = sys.executable
os.environ["PYSPARK_DRIVER_PYTHON"] = sys.executable


spark = SparkSession.builder \
    .appName("Test") \
    .master("local[*]") \
    .getOrCreate()

# Verificar host

In [2]:
spark

# Verificar versión de Python en jupyter y de Spark

In [3]:
print("Python del notebook:", sys.executable)
print("Versión Spark:", spark.version)

Python del notebook: c:\diplomado\ml_pyspark\venv\Scripts\python.exe
Versión Spark: 3.5.7


# Verificar versión de Java en la sesión

In [4]:
print(spark._jvm.java.lang.System.getProperty("java.version"))
print(spark._jvm.java.lang.System.getProperty("java.vendor"))
print(spark._jvm.java.lang.System.getProperty("java.home"))


17.0.14
Oracle Corporation
C:\Program Files\Java\jdk-17


# Verificar creando un dataframe

In [5]:
data = [
    (1, "Ana", 25),
    (2, "Luis", 30),
    (3, "Marta", 28)
    ]
df = spark.createDataFrame(data, ["id", "nombre", "edad"])

df.show()

+---+------+----+
| id|nombre|edad|
+---+------+----+
|  1|   Ana|  25|
|  2|  Luis|  30|
|  3| Marta|  28|
+---+------+----+



# Prueba de exportar el dataframe a pandas

In [6]:
import pandas as pd

df.toPandas()

Unnamed: 0,id,nombre,edad
0,1,Ana,25
1,2,Luis,30
2,3,Marta,28


# Cerrar la sesión

In [7]:
spark.stop()