In [1]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!pip install -q pyspark

# Clase 1: Creando y entendiendo RDD y DataFrames

## ¿Qué son los objetos RDD?

- **RDD (Resilient Distributed Dataset)** es la unidad básica de datos en Apache Spark.
- Son **estructuras inmutables** y **distribuidas** que permiten realizar transformaciones y acciones en grandes conjuntos de datos.
- Soportan **tolerancia a fallos** mediante linaje (registro de operaciones).
- Dos tipos de operaciones principales:
  - **Transformaciones** (lazy): `map()`, `filter()`, `flatMap()`, etc.
  - **Acciones** (trigger ejecución): `collect()`, `count()`, `take()`, etc.
- Ideal cuando necesitas **control fino** del procesamiento o trabajar con estructuras no estructuradas.



In [2]:
from pyspark import SparkContext
sc = SparkContext()

rdd = sc.parallelize([1, 2, 3, 4, 5])
squared = rdd.map(lambda x: x ** 2)
print(squared.collect())

[1, 4, 9, 16, 25]


## ¿Qué son los objetos DataFrames?

**DataFrame** es una colección distribuida de datos **organizados en columnas**, similar a una tabla de una base de datos o un DataFrame de Pandas.

- Internamente se basa en **RDD**, pero proporciona una **API más expresiva y optimizada**.
- Permite realizar **consultas SQL** y aplicar operaciones de transformación con mayor facilidad.
- Se pueden crear desde diversas fuentes: **JSON, CSV, Parquet, bases de datos**, entre otros.


In [3]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Ejemplo").getOrCreate()

data = [("Juan", 30), ("Ana", 25), ("Pedro", 40)]
df = spark.createDataFrame(data, ["Nombre", "Edad"])
df.show()


+------+----+
|Nombre|Edad|
+------+----+
|  Juan|  30|
|   Ana|  25|
| Pedro|  40|
+------+----+



## Comparación entre RDDs y DataFrames

| Característica       | RDD                             | DataFrame                          |
|----------------------|----------------------------------|------------------------------------|
| Nivel de abstracción | Bajo                             | Alto                               |
| Tipo de datos        | Objetos de Python, Java, etc.    | Columnas con esquema estructurado  |
| Optimización         | Manual                           | Automática (Catalyst Optimizer)    |
| API                  | Funcional (`map`, `filter`)      | Declarativa (`select`, `groupBy`)  |
| Soporte para SQL     | No                               | Sí                                 |
| Rendimiento          | Generalmente menor               | Generalmente mayor                 |
| Legibilidad del código | Menor                          | Mayor                              |
| Interoperabilidad    | Limitada                         | Alta (con BI, SQL, ML, etc.)       |

> ✅ **Conclusión:** Para análisis estructurado, usa DataFrames. Usa RDD solo si necesitas bajo nivel o control total de las transformaciones.


## ¿Cuándo usar RDD?

- Necesitas **control de bajo nivel** del procesamiento.
- Realizas **operaciones complejas** que no están disponibles en DataFrame.
- Trabajas con **datos no estructurados** o con lógica de transformación personalizada.
- Prefieres un enfoque **funcional** tipo Scala o Python usando `map`, `reduce`, etc.

---

## ¿Cuándo usar DataFrames?

- Cuando trabajas con **datos estructurados** (columnas definidas).
- Requieres **consultas SQL** o análisis de datos tabulares.
- Buscas **mejor rendimiento** gracias a optimizaciones internas como **Catalyst**.
- Quieres aprovechar **integración con herramientas de BI** (Power BI, Tableau, etc.).
- Deseas escribir **menos código** y que sea más **legible**.
