<a href="https://colab.research.google.com/github/apchavezr/-Analisis_Grandes_Volumenes_Datos/blob/main/actividad_spark_memoria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🔬 Actividad práctica: Introducción a Apache Spark y procesamiento en memoria


## Objetivo

Aplicar operaciones básicas utilizando PySpark para comprender el modelo de programación distribuida en memoria, comparando sus ventajas frente al enfoque tradicional basado en disco.

---

### ✅ Requisitos previos
Ejecutar en consola:
```bash
pip install pyspark findspark jupyterlab
```

In [None]:
pip install pyspark findspark jupyterlab

In [2]:
import findspark
findspark.init()

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("ActividadSparkRDDyDataFrame") \
    .master("local[*]") \
    .getOrCreate()

spark

### 🔹 Paso 1: Crear un RDD desde una lista de Python

In [3]:
rdd = spark.sparkContext.parallelize(["dato1", "dato2", "dato3", "dato4", "dato5"])
rdd.map(lambda x: (x, 1)).collect()

[('dato1', 1), ('dato2', 1), ('dato3', 1), ('dato4', 1), ('dato5', 1)]

### 🔹 Paso 2: Crear un DataFrame con datos estructurados y aplicar transformaciones

In [4]:
from pyspark.sql import Row

datos = [
    Row(nombre="Carla", edad=23, ciudad="Bogotá"),
    Row(nombre="Luis", edad=35, ciudad="Cali"),
    Row(nombre="Sofía", edad=29, ciudad="Medellín"),
    Row(nombre="Julián", edad=41, ciudad="Barranquilla"),
]

df = spark.createDataFrame(datos)
df.show()

+------+----+------------+
|nombre|edad|      ciudad|
+------+----+------------+
| Carla|  23|      Bogotá|
|  Luis|  35|        Cali|
| Sofía|  29|    Medellín|
|Julián|  41|Barranquilla|
+------+----+------------+



### 🔹 Paso 3: Aplicar una transformación y una agregación

In [5]:
# Filtrar personas mayores de 30 años
df_mayores_30 = df.filter(df.edad > 30)
df_mayores_30.show()

+------+----+------------+
|nombre|edad|      ciudad|
+------+----+------------+
|  Luis|  35|        Cali|
|Julián|  41|Barranquilla|
+------+----+------------+



In [6]:
# Calcular edad promedio
from pyspark.sql.functions import avg
df.select(avg("edad")).show()

+---------+
|avg(edad)|
+---------+
|     32.0|
+---------+



### 🔹 Paso 4: Guardar los resultados en disco

In [7]:
df_mayores_30.write.csv("resultado_mayores_30.csv", header=True)

### 🧠 Pregunta de reflexión

> ¿Qué impacto tiene mantener los datos en memoria en este tipo de operaciones? ¿Cómo afectaría si los datos intermedios se escribieran en disco?

In [8]:
spark.stop()