<a href="https://colab.research.google.com/github/santiagoErne/RDD-Conjunto-de-Datos-Distribuidos/blob/main/ejemplo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from pyspark.context import SparkContext


In [None]:
from pyspark.context import SparkContext

# Instead of creating a new SparkContext, get the existing one or create if none exists
sc = SparkContext.getOrCreate()

rdd = sc.parallelize([1, 2, 3, 4, 5])
count = rdd.count()
print(count)  # Output: 5

5


In [None]:
# Importar PySpark
from pyspark import SparkContext

# Inicializar SparkContext
sc = SparkContext.getOrCreate()

# Crear un RDD de ejemplo
rdd = sc.parallelize([1, 2, 3, 4, 5])

# 1. `count` - Devuelve el número de elementos en el RDD.
count = rdd.count()
print("Count:", count)  # Output: 5

# 2. `first` - Devuelve el primer elemento del RDD.
first_element = rdd.first()
print("First element:", first_element)  # Output: 1

# 3. `take(n)` - Devuelve los primeros `n` elementos del RDD.
first_three = rdd.take(3)
print("First three elements:", first_three)  # Output: [1, 2, 3]

# 4. `saveAsTextFile(path)` - Guarda el RDD en un archivo de texto.
# NOTA: Guardará el archivo en la carpeta de trabajo de Colab
rdd.saveAsTextFile("/content/output_rdd")

# 5. `max` y `min` - Devuelve el valor máximo o mínimo del RDD.
max_value = rdd.max()
min_value = rdd.min()
print("Max value:", max_value)  # Output: 5
print("Min value:", min_value)  # Output: 1

# 6. `countByKey` - Contar las veces que aparece cada clave en un RDD de pares clave-valor.
# Crear un RDD de pares clave-valor
rdd_pairs = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
count_by_key = rdd_pairs.countByKey()
print("Count by key:", dict(count_by_key))  # Output: {'a': 2, 'b': 1}

# 7. `foreach` - Aplica una función a cada elemento del RDD (normalmente para efectos secundarios como imprimir).
def print_element(x):
    print("Element:", x)

rdd.foreach(print_element)


Count: 5
First element: 1
First three elements: [1, 2, 3]
Max value: 5
Min value: 1
Count by key: {'a': 2, 'b': 1}


# Sección nueva

In [None]:
from pyspark import SparkContext

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

In [None]:
# Inicializar SparkContext
ejemplo = SparkContext.getOrCreate()

In [None]:
rdd = ejemplo.parallelize(["b", "a", "c"])
sorted(rdd.map(lambda x: (x, 1)).collect())

[('a', 1), ('b', 1), ('c', 1)]

In [None]:
rdd = ejemplo.parallelize([1, 2, 3, 4, 5])
rdd.filter(lambda x: x % 2 == 0).collect()

[2, 4]

In [None]:
rdd = ejemplo.parallelize([2, 3, 4])
sorted(rdd.flatMap(lambda x: range(1, x)).collect())
[1, 1, 1, 2, 2, 3]
sorted(rdd.flatMap(lambda x: [(x, x), (x, x)]).collect())

[(2, 2), (2, 2), (3, 3), (3, 3), (4, 4), (4, 4)]

In [None]:
rdd = ejemplo.parallelize([1, 1, 2, 3])
rdd.union(rdd).collect()

[1, 1, 2, 3, 1, 1, 2, 3]

In [None]:
# Creamos un RDD con una lista de frases
rdd = ejemplo.parallelize(["Hola mundo", "aprendiendo Spark", "con flatMap"])

# Usamos flatMap para dividir cada frase en palabras
resultado = rdd.flatMap(lambda frase: frase.split(" ")).collect()

print(resultado)


['Hola', 'mundo', 'aprendiendo', 'Spark', 'con', 'flatMap']


In [None]:
rdd1 = ejemplo.parallelize([1, 10, 2, 3, 4, 5])
rdd2 = ejemplo.parallelize([1, 6, 2, 3, 7, 8])
rdd1.intersection(rdd2).collect()

[1, 2, 3]

In [None]:
sorted(ejemplo.parallelize([1, 1, 2, 3]).distinct().collect())

[1, 2, 3]

In [None]:
rdd = ejemplo.parallelize([("a", 1), ("b", 1), ("a", 1)])
sorted(rdd.groupByKey().mapValues(len).collect())

[('a', 2), ('b', 1)]

In [None]:
sorted(rdd.groupByKey().mapValues(list).collect())

[('a', [1, 1]), ('b', [1])]