# RDDs vs DataFrames


Apache Spark ofrece dos principales abstracciones para trabajar con datos:

- **RDD (Resilient Distributed Dataset)**: una colección inmutable de objetos distribuidos. Proporciona control total sobre el procesamiento, pero requiere más código y no aprovecha optimizaciones automáticas.
- **DataFrame**: colección distribuida de datos estructurados con nombres de columnas. Más fácil de usar, permite usar SQL y se beneficia del optimizador Catalyst.
    

## Crear un RDD

In [None]:
from pyspark.sql import SparkSession

# Crear la sesión de Spark
spark = SparkSession.builder.appName("PySpark02").getOrCreate()

In [None]:
rdd = spark.sparkContext.parallelize([("Alice", 34), ("Bob", 45), ("Cathy", 29)])
print(rdd.collect())

## Crear un DataFrame

In [None]:
from pyspark.sql import Row

df = spark.createDataFrame([Row(name="Alice", age=34), Row(name="Bob", age=45), Row(name="Cathy", age=29)])
df.show()

## Operaciones con RDDs

In [None]:
rdd_filtered = rdd.filter(lambda x: x[1] > 30)
print(rdd_filtered.collect())

## Operaciones con DataFrames

In [None]:
df_filtered = df.filter(df.age > 30)
df_filtered.show()

## Comparación clave


| Característica        | RDD                         | DataFrame                     |
|-----------------------|-----------------------------|-------------------------------|
| Tipo de datos         | Objetos Scala/Python        | Estructurado (columnas)       |
| Interfaz              | Funciones lambda            | DSL + SQL                     |
| Optimización          | Manual                      | Catalyst Optimizer            |
| Seguridad de tipos    | Baja                        | Alta                          |
| Rendimiento           | Medio                       | Alto                          |
    

## ¿Cuándo usar cada uno?


- Usa **RDDs** si necesitas manipular datos no estructurados, realizar operaciones complejas de bajo nivel, o si estás migrando código legacy.
- Usa **DataFrames** para análisis estructurados, transformaciones SQL-like, y cuando priorizas rendimiento.
    

In [None]:
spark.stop()