## 1. Configuración del entorno Python

In [1]:
import os
import sys

# Configurar Python ejecutable para Spark (importante en Windows)
os.environ['PYSPARK_PYTHON'] = sys.executable
os.environ['PYSPARK_DRIVER_PYTHON'] = sys.executable

print(f"Python ejecutable: {sys.executable}")
print(f"Versión Python: {sys.version}")

Python ejecutable: c:\Users\2012m\Desktop\Spark-Kmeans-Scalability\.venv\Scripts\python.exe
Versión Python: 3.11.14 (main, Dec  9 2025, 18:59:10) [MSC v.1944 64 bit (AMD64)]


## 2. Crear SparkSession

In [2]:
from pyspark.sql import SparkSession

# Crear Spark session
spark = SparkSession.builder \
    .appName("PySpark Test") \
    .master("local[*]") \
    .config("spark.driver.memory", "2g") \
    .getOrCreate()

print("✓ SparkSession creada exitosamente")
print(f"Versión Spark: {spark.version}")
print(f"Master: {spark.sparkContext.master}")

✓ SparkSession creada exitosamente
Versión Spark: 3.5.7
Master: local[*]


## 3. Prueba básica con DataFrame

In [3]:
# Crear un DataFrame simple
data = [
    ("Alice", 25, "Ingeniera"),
    ("Bob", 30, "Científico de Datos"),
    ("Charlie", 35, "Analista"),
    ("Diana", 28, "Desarrolladora"),
    ("Eve", 32, "Arquitecta")
]

df = spark.createDataFrame(data, ["nombre", "edad", "profesion"])

print("✓ DataFrame creado")
df.show()

✓ DataFrame creado
+-------+----+-------------------+
| nombre|edad|          profesion|
+-------+----+-------------------+
|  Alice|  25|          Ingeniera|
|    Bob|  30|Científico de Datos|
|Charlie|  35|           Analista|
|  Diana|  28|     Desarrolladora|
|    Eve|  32|         Arquitecta|
+-------+----+-------------------+



## 4. Operaciones básicas

In [4]:
# Contar registros
count = df.count()
print(f"Total de registros: {count}")

# Mostrar esquema
print("\nEsquema:")
df.printSchema()

Total de registros: 5

Esquema:
root
 |-- nombre: string (nullable = true)
 |-- edad: long (nullable = true)
 |-- profesion: string (nullable = true)



In [5]:
# Filtrar por edad
print("Personas mayores de 30 años:")
df.filter(df.edad > 30).show()

Personas mayores de 30 años:
+-------+----+----------+
| nombre|edad| profesion|
+-------+----+----------+
|Charlie|  35|  Analista|
|    Eve|  32|Arquitecta|
+-------+----+----------+



In [6]:
# Estadísticas descriptivas
print("Estadísticas de edad:")
df.describe(["edad"]).show()

Estadísticas de edad:
+-------+------------------+
|summary|              edad|
+-------+------------------+
|  count|                 5|
|   mean|              30.0|
| stddev|3.8078865529319543|
|    min|                25|
|    max|                35|
+-------+------------------+



## 5. Prueba con datos más grandes

In [7]:
# Crear un RDD con números del 1 al 1000
rdd = spark.sparkContext.parallelize(range(1, 1001))

# Operaciones RDD
suma = rdd.sum()
promedio = rdd.mean()
maximo = rdd.max()
minimo = rdd.min()

print(f"Suma: {suma}")
print(f"Promedio: {promedio}")
print(f"Máximo: {maximo}")
print(f"Mínimo: {minimo}")
print("\n✓ Operaciones RDD completadas exitosamente")

Suma: 500500
Promedio: 500.5
Máximo: 1000
Mínimo: 1

✓ Operaciones RDD completadas exitosamente


## 6. Prueba con SQL

In [8]:
# Registrar DataFrame como tabla temporal
df.createOrReplaceTempView("personas")

# Ejecutar consulta SQL
resultado = spark.sql("""
    SELECT profesion, AVG(edad) as edad_promedio
    FROM personas
    GROUP BY profesion
    ORDER BY edad_promedio DESC
""")

print("Edad promedio por profesión:")
resultado.show()

Edad promedio por profesión:
+-------------------+-------------+
|          profesion|edad_promedio|
+-------------------+-------------+
|           Analista|         35.0|
|         Arquitecta|         32.0|
|Científico de Datos|         30.0|
|     Desarrolladora|         28.0|
|          Ingeniera|         25.0|
+-------------------+-------------+



## 7. Convertir a Pandas (para visualización)

In [10]:
# Convertir DataFrame de Spark a Pandas
pandas_df = df.toPandas()

print("DataFrame convertido a Pandas:")
print(pandas_df)
print("\n✓ Conversión a Pandas exitosa")

DataFrame convertido a Pandas:
    nombre  edad            profesion
0    Alice    25            Ingeniera
1      Bob    30  Científico de Datos
2  Charlie    35             Analista
3    Diana    28       Desarrolladora
4      Eve    32           Arquitecta

✓ Conversión a Pandas exitosa


## 8. Información del cluster

In [11]:
# Información del contexto Spark
sc = spark.sparkContext

print(f"Application ID: {sc.applicationId}")
print(f"Default Parallelism: {sc.defaultParallelism}")
print(f"Spark Version: {sc.version}")
print(f"Python Version: {sc.pythonVer}")

Application ID: local-1767347729336
Default Parallelism: 24
Spark Version: 3.5.7
Python Version: 3.11


## 9. Limpieza

In [12]:
# Detener Spark session (opcional - solo si quieres liberar recursos)
# spark.stop()
# print("✓ SparkSession detenida")

print("\n" + "="*50)
print("✓ TODAS LAS PRUEBAS COMPLETADAS EXITOSAMENTE")
print("="*50)


✓ TODAS LAS PRUEBAS COMPLETADAS EXITOSAMENTE
