<a href="https://colab.research.google.com/github/apchavezr/-Analisis_Grandes_Volumenes_Datos/blob/main/Ejemplos_PySpark_RDD_DataFrame_SQL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Manejo de datos con PySpark: RDDs, DataFrames y consultas SQL distribuidas

Este cuaderno presenta ejemplos ejecutables en PySpark para ilustrar el uso de Resilient Distributed Datasets (RDDs), DataFrames y Spark SQL. Está diseñado para que el estudiante pueda explorar y comparar estas tres formas de procesamiento de datos distribuidos en Apache Spark.


In [1]:
!pip install pyspark



In [2]:
from pyspark.sql import SparkSession

# Crear una sesión de Spark
spark = SparkSession.builder     .appName("Ejemplos PySpark")     .getOrCreate()

sc = spark.sparkContext


In [3]:
# Ejemplo 1: RDD - Conteo de palabras

texto = "big data requiere procesamiento distribuido y spark acelera procesos big data big spark"
palabras = sc.parallelize(texto.split())

conteo = palabras.map(lambda palabra: (palabra, 1)).reduceByKey(lambda a, b: a + b)
print("Resultado usando RDD:")
for palabra, cuenta in conteo.collect():
    print(f"{palabra}: {cuenta}")


Resultado usando RDD:
big: 3
requiere: 1
procesamiento: 1
distribuido: 1
data: 2
y: 1
spark: 2
acelera: 1
procesos: 1


In [4]:
# Ejemplo 2: DataFrame - Creación desde lista de tuplas

datos = [("Ana", 30), ("Luis", 25), ("Carlos", 40)]
columnas = ["nombre", "edad"]

df = spark.createDataFrame(datos, columnas)
df.show()


+------+----+
|nombre|edad|
+------+----+
|   Ana|  30|
|  Luis|  25|
|Carlos|  40|
+------+----+



In [5]:
# Ejemplo 3: Consultas SQL distribuidas

df.createOrReplaceTempView("personas")

resultado = spark.sql("SELECT nombre, edad FROM personas WHERE edad > 30")
resultado.show()


+------+----+
|nombre|edad|
+------+----+
|Carlos|  40|
+------+----+



# Reflexión

- ¿Qué diferencias notó entre trabajar con RDDs y DataFrames?
- ¿Cuál estructura considera más apropiada para un conjunto de datos grande con múltiples columnas?
- ¿Qué ventajas aporta el uso de SQL para el análisis exploratorio en entornos distribuidos?

Puede documentar sus respuestas al final de este cuaderno.
