# Uso avanzado de RDDs

En Big Data √© habitual traballar con datos en formato **clave‚Äìvalor**.  
Por este motivo, Spark ofrece transformaci√≥ns e acci√≥ns espec√≠ficas dese√±adas para operar eficientemente con este tipo de datos.


In [1]:
# Inicializamos SparkSession y SparkContext
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("02-rdd2") \
    .getOrCreate()

sc = spark.sparkContext
print(spark.version)  # Verifica la versi√≥n de Spark




:: loading settings :: url = jar:file:/opt/spark/jars/ivy-2.5.1.jar!/org/apache/ivy/core/settings/ivysettings.xml


Ivy Default Cache set to: /home/hadoop/.ivy2/cache
The jars for the packages stored in: /home/hadoop/.ivy2/jars
io.delta#delta-spark_2.12 added as a dependency
org.apache.spark#spark-sql-kafka-0-10_2.12 added as a dependency
org.apache.kafka#kafka-clients added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-1583e940-cd56-479d-8587-2537b6c2d9e7;1.0
	confs: [default]
	found io.delta#delta-spark_2.12;3.1.0 in central
	found io.delta#delta-storage;3.1.0 in central
	found org.antlr#antlr4-runtime;4.9.3 in central
	found org.apache.spark#spark-sql-kafka-0-10_2.12;3.5.7 in central
	found org.apache.spark#spark-token-provider-kafka-0-10_2.12;3.5.7 in central
	found org.apache.hadoop#hadoop-client-runtime;3.3.4 in central
	found org.apache.hadoop#hadoop-client-api;3.3.4 in central
	found org.xerial.snappy#snappy-java;1.1.10.5 in central
	found org.slf4j#slf4j-api;2.0.7 in central
	found commons-logging#commons-logging;1.1.3 in central
	found com.google.code.fi

3.5.7


In [None]:
# Exemplo: creamos RDD de pares a partir de lista de tuplas
rdd_pares1 = sc.parallelize([('a', 1), ('b', 1), ('c', 1)])
print ("RDD de pares 1: ",rdd_pares1.collect())

# Exemplo 2: creamos RDD de pares a partir dun RDD simple con map
rdd_st = sc.parallelize ("Big Data aplicado. Curso de especializaci√≥n de Inteligencia Artificial y Big Data".split())
rdd_pares2 = rdd_st.map(lambda palabra: (palabra,1))
print ("RDD de pares 2: ",rdd_pares2.collect())

> O interesante dos RDD's de pares clave-valor √© que presentan unha serie de transformaci√≥ns e acci√≥ns adicionais.

## Operaci√≥ns clave-valor b√°sicas
### keyBy
Transformaci√≥n que converte un RDD de elementos nun RDD de pares (clave, valor), xerando a clave a partir de cada elemento mediante unha funci√≥n.

In [None]:
# Exemplo 1: A clave √© a inicial de cada palabra
rdd_pares = rdd_st.keyBy(lambda palabra: palabra[0])
print("Palabras por inicial: ",rdd_pares.collect())

# Exemplo 2: A clave √© a lonxitude da palabra
rdd_pares2 = rdd_st.keyBy (lambda palabra: len(palabra))
print("Palabras por lonxitude: ",rdd_pares2.collect())

# Exemplo 3: A clave √© o feito de se o elemento √© par ou non
rdd_int = sc.parallelize(range(10))
rdd_pares3 = rdd_int.keyBy(lambda x: x%2 )
print ("N√∫meros por ser par ou non: ", rdd_pares3.collect())

`keyBy` √© moi √∫til para preparar RDD's para as seguintes operaci√≥ns:
- `groupByKey`
- `reduceByKey`
- `countByKey`
- `join`
- `partitionBy`

Xa que estas operaci√≥ns s√≥ funcionan con RDD's tipo (k,v).

### mapValues
Realiza una operaci√≥n map s√≥ sobre os valores do RDD, deixando a clave tal como est√°.

In [None]:
# Exemplo 1: pasomos o valores a mai√∫sculas, sen tocar a clave
print ( "Palabras por inicial en mai√∫sculas: ", rdd_pares.mapValues( lambda x: x.upper()).collect())

# Exemplo 2: Operaci√≥n matem√°tica sobre os valores sen modificar as claves
rdd_x10 = rdd_pares3.mapValues(lambda x: x*10)
print ("N√∫meros multiplicados por 10: ", rdd_x10.collect())


`mapValues` √© util cando:
- Temos unha clave que nos interesa conservar.
- Queremos facer operaci√≥ns sobre os valores.

**Exemplos reais**:
- Despois dun `reduceByKey`, para escalar ou normalizar os resultados.
- Trasformar listas, estat√≠sticas ou estruturas asociadas a unha clave.
- Prepara datos para un join mantendo unha clave com√∫n.

**Diferencia con map**
- A funci√≥n especificada en `map` apl√≠case tanto √° clave como ao valor:



In [None]:
# Exemplo: pasamos todo a mai√∫sculas
print ( "Palabras por inicial en mai√∫sculas: ", rdd_pares.map( lambda par: (par[0].upper(), par[1].upper())).collect())

### keys
Transformaci√≥n que devolve un RDD formado s√≥ polas claves dun RDD de pares (K, V), eliminando os valores.

In [None]:
# Exemplo: Creamos un RDD s√≥ coas claves
print("RDD de claves: ", rdd_pares.keys().collect())

`keys()` √© √∫til cando queres traballar s√≥ coas claves, por exemplo:
- ver que tipos de claves hai
- facer un `distinct()` para obter claves √∫nicas
- contar cantas claves hai ou analizar a s√∫a distribuci√≥n
- cruzalo con outro RDD ou facer operaci√≥ns de filtrado

En realidade, p√≥dese facer unha transformaci√≥n equivalente empregando `map`.

In [None]:
print("S√≥ claves (map): ", rdd_pares.map(lambda par: par[0]).collect())

### values
Transformaci√≥n que devolve un RDD formado s√≥ polos valores dun RDD de pares (K, V), eliminando as claves.

In [None]:
# Exemplo: Creamos un RDD formado s√≥ polos valores
print("RDD de valores: ",rdd_pares.values().collect())

`values` √© √∫til cando:
- s√≥ interesa o dato asociado √° clave.
- qu√©rense facer operaci√≥ns estat√≠sticas sobre os valores.

En realidade, ao igual que con `keys`, p√≥dese facer unha transformaci√≥n equivalente empregando `map`.

In [None]:
# Exemplo: qudearse s√≥ cos valores mediante map
print("S√≥ valores (map): ", rdd_pares.map(lambda par: par[1]).collect())

### lookup
`lookup()` √© unha acci√≥n dispo√±ible s√≥ para **Pair RDDs** (RDDs de pares `(K, V)`), que permite recuperar todos os valores asociados a unha clave concreta.

- **Entrada:** un `RDD[(K, V)]`
- **Sa√≠da:** unha lista de valores `List[V]` (en PySpark, unha lista Python)
- **Comportamento:** devolve *t√≥dolos valores* que te√±an exactamente esa clave (poden ser varios)

**Transformaci√≥n conceptual:**

`RDD[(K, V)] ‚Üí lookup(k) ‚Üí List[V]`


In [None]:
# Exemplo: obtemos todos os elementos coa clave "B"
print("Palabras que empezan por B: ",rdd_pares.lookup('B'))

`lookup` √© √∫til:
- Cando se quere obter rapidamente os valores dun elemento concreto sen facer un `filter()` + `collect()`.
### sampleByKey
`sampleByKey()` √© unha transformaci√≥n dispo√±ible para **Pair RDDs** (RDDs de pares `(K, V)`) que permite obter unha mostra (sample) dos elementos, pero **facendo a mostra por clave**.

√â dicir: en lugar de mostrear todo o RDD ao azar, **Spark aplica unha fracci√≥n de mostra diferente para cada clave**, mantendo as√≠ un control por grupos.

- **Entrada:** `RDD[(K, V)]`
- **Sa√≠da:** outro `RDD[(K, V)]` cun subconxunto dos pares orixinais
- **Idea:** ‚ÄúColler unha mostra estratificada por clave‚Äù

---

#### Par√°metros
- `withReplacement` (`bool`)
  - `False`: selecci√≥n sen reposici√≥n (un elemento s√≥ pode aparecer unha vez)
  - `True`: selecci√≥n con reposici√≥n (pode repetirse)
- `fractions` (`dict`)
  - Un dicionario co formato `{clave: fracci√≥n}`
  - A fracci√≥n indica a proporci√≥n aproximada de elementos que se seleccionan para esa clave (0.0 ‚Üí 0%, 1.0 ‚Üí 100%)
- `seed` (opcional)
  - Semente para reproducibilidade no proceso aleatorio

---


In [None]:
# Exemplo: mostras proporcionadas.

rdd = sc.parallelize([
    ("A", 1), ("A", 2), ("A", 3), ("A", 4),
    ("B", 10), ("B", 20), ("B", 30),
    ("C", 100), ("C", 200)
])

# De A collemos apr√≥ximadamente 0 50% dos elementos. De B todos (100%) e d e C ning√∫n (0%).
fractions = {"A": 0.5, "B": 1.0, "C": 0.0}

sample = rdd.sampleByKey(withReplacement=False, fractions=fractions, seed=42)

print(sample.collect())

`sampleByKey` server para:
- facer mostras mantendo a proporci√≥n por grupos/claves
- equilibrar datasets (ex.: coller menos exemplos dunha clase maioritaria)
- crear subconxuntos para test/validaci√≥n mantendo distribuci√≥n por clave

## Agregaci√≥ns
### groupByKey
`groupByKey()` √© unha transformaci√≥n dispo√±ible para **Pair RDDs** (RDDs de pares `(K, V)`) que agrupa todos os valores que te√±en a mesma clave, devolvendo un RDD onde cada clave queda asociada a unha colecci√≥n (iterable) de valores.

- **Entrada:** `RDD[(K, V)]`
- **Sa√≠da:** `RDD[(K, Iterable[V])]`
- **Idea:** ‚ÄúPara cada clave, xunta todos os valores nunha lista/iterable‚Äù

**Transformaci√≥n conceptual**:
`RDD[(K, V)] ‚Üí RDD[(K, Iterable[V])]`

In [None]:
# Exemplo: Agrupamos palabras por inicial:
for key, values_iterable in rdd_pares.groupByKey().collect():
    # Convertir el iterable de resultados a una lista
    values_list = list(values_iterable)
    # Imprimir la clave y los valores
    print(f"Clave: {key}, Valores: {values_list}")

`groupByKey` √© √∫til cando se necesita:
- Obter todos os valores dunha clave e procesalos como xunto.
- Aplicar operaci√≥ns complexas por grupo.

**Advertencia importante (rendemento)**

En moitos casos `groupByKey()` **non √© a mellor opci√≥n**, porque:

- obriga a mover moitos datos pola rede (**shuffle**)
- garda todos os valores dunha clave na memoria (pode causar **OutOfMemoryError**)

Se o que se quere √© **agregar** (sumar, contar, m√°ximo, m√≠nimo...), √© mellor usar:

- `reduceByKey()`
- `aggregateByKey()`
- `combineByKey()`
- 
### reduceByKey
`reduceByKey()` √© unha transformaci√≥n dispo√±ible para **Pair RDDs** (RDDs de pares `(K, V)`) que combina os valores que comparten a mesma clave aplicando unha funci√≥n de reduci√≥n (por exemplo suma, m√°ximo, concatenaci√≥n, etc.).

A diferenza de `groupByKey()`, **non crea unha lista con todos os valores**, sen√≥n que os vai combinando de forma incremental, o que o fai moito m√°is eficiente.

- **Entrada:** `RDD[(K, V)]`
- **Sa√≠da:** `RDD[(K, V)]`
- **Requisito:** a funci√≥n debe ser do tipo `(V, V) ‚Üí V` (mesmo tipo de entrada e sa√≠da)

**Transformaci√≥n conceptual**:

`RDD[(K, V)] ‚Üí RDD[(K, V)]`


In [None]:
rdd_pares.reduceByKey(lambda x,y:len(x)+len(y)).collect()

`reduceBykey` serve para:
- sumar valores por clave (contaxes, totais‚Ä¶)
- obter m√°ximos ou m√≠nimos por clave
- combinar valores reducindo (p.ex. concatenar cadeas)
- facer agregaci√≥ns eficientes a gran escala

> Sempre que a operaci√≥n sexa reducible, d√©bese priorizar `reduceByKey()` fronte a `groupByKey()`.

### sortByKey
`sortByKey()` √© unha transformaci√≥n dispo√±ible para **Pair RDDs** (RDDs de pares `(K, V)`) que ordena os elementos do RDD **segundo a clave**.

- **Entrada:** `RDD[(K, V)]`
- **Sa√≠da:** `RDD[(K, V)]` cos pares ordenados pola clave
- **Idea:** ‚ÄúOrdenar o RDD polo primeiro elemento do par (a clave)‚Äù

üìå Transformaci√≥n conceptual:
`RDD[(K, V)] ‚Üí RDD[(K, V)] (ordenado por K)`

#### Par√°metros:
- `ascending`: orde ascendente ou descentente (por defecto `True`).
- `nunPartitions`: n√∫mero de partici√≥ns do RDD resultante (√∫til para controlar o paralelismo).
- `keyfunc`: Permite aplicar unha funci√≥n √° clave antes de ordenar.

**Recom√©ndase usar**:
- s√≥ cando realmente se precise ordenaci√≥n total
- con datasets xa reducidos/agruapados.

In [None]:
# Exemplo: Ordenar por clave descendentemente
print("Por clave descendente: ", rdd_pares3.sortByKey(ascending=False).collect())

### countByKey
`countByKey()` √© unha **acci√≥n** dispo√±ible para **Pair RDDs** (RDDs de pares `(K, V)`) que conta cantos elementos hai para cada clave, devolvendo un dicionario co n√∫mero de aparici√≥ns de cada clave.

- **Entrada:** `RDD[(K, V)]`
- **Sa√≠da:** `dict` (en Python) co formato `{clave: n√∫mero_de_elementos}`
- **Idea:** ‚ÄúCantas veces aparece cada clave?‚Äù

Transformaci√≥n conceptual:

`RDD[(K, V)] ‚Üí dict(K ‚Üí count)`


In [None]:
# Exemplo: contar as ocorrencias de cada clave

rdd_pares.countByKey()

`countByKey` √© √∫til cando se quere:
- Saber a distribuci√≥n de elementos por clave.
- Facer unha an√°lise r√°pida de claves.
- Validar datos (ver se hai claves con poucos elementos).

**Advertencia**
Como `countByKey` √© unha acci√≥n, trae o resultado ao *driver*. Se o dicionario √© demasiado grande pode xerar problemas de memoria.

### aggregate
`aggregate()` √© unha **acci√≥n** que permite reducir un RDD a un √∫nico resultado, aplicando:

- unha funci√≥n para combinar elementos dentro de cada partici√≥n (`seqOp`)
- outra funci√≥n para combinar resultados entre partici√≥ns (`combOp`)
- partindo dun valor inicial (`zeroValue`)

√â m√°is flexible que `reduce()`, porque:
- o valor acumulado pode ser dun tipo distinto ao do RDD
- permite definir unha l√≥xica diferente para o c√°lculo local e global

#### Par√°metros
- `zeroValue`: valor inicial do acumulador
- `seqOp(acc, x)`: como se acumula un elemento `x` no acumulador dentro dunha partici√≥n
- `combOp(acc1, acc2)`: como se combinan acumuladores de distintas partici√≥ns



In [None]:
# Exemplo: c√°lculo da media
rdd = sc.parallelize([10, 20, 30, 40])

# Establecemos o valor inicial
zero = (0, 0)  # (suma, conta)

# Definimos a operaci√≥n de acumulaci√≥n
seqOp = lambda acc, x: (acc[0] + x, acc[1] + 1)

# Definimos a operaci√≥n de combinaci√≥n
combOp = lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1])

# Obtemos a suma total e o n√∫mero de elementos
suma, conta = rdd.aggregate(zero, seqOp, combOp)

# Xa no driver, calculamos e amosamos a media.
media = suma / conta
print(media)

In [None]:
# Exemplo: C√°lculo de m√°ximo e suma simult√°neamente

# Creamos un RDD con 4 elementos e 2 partici√≥ns
rdd_pruebas = sc.parallelize([1, 2, 3, 4], 2)

# glom() agrupa os elementos de cada partici√≥n nunha lista
# collect() tr√°eo ao driver para poder velo
print(rdd_pruebas.glom().collect())

# seqOp (funci√≥n de secuencia): comb√≠na un acumulador coa seguinte entrada do RDD
# acumulador x = (suma_parcial, contador_parcial)
# elemento y = valor do RDD
seqOp = lambda x, y: (x[0] + y, x[1] + 1)

# combOp (funci√≥n de combinaci√≥n): combina dous acumuladores (de partici√≥ns distintas)
# x e y son acumuladores: (suma, contador)
combOp = lambda x, y: (x[0] + y[0], x[1] + y[1])

# zero √© o valor inicial
zero = (0,0)

# aggregate(zeroValue, seqOp, combOp)
# zeroValue = (0,0) √© o acumulador inicial
# Resultado: (suma_total, conta_total)
resultado = rdd_pruebas.aggregate(zero, seqOp, combOp)

print("(suma, conteo): ", resultado)


In [None]:
# Exemplo: c√°lculo do produto e do n√∫mero de elementos

# Definimos a seqOp
# calc√∫lanse pares coa seguinte forma (produto_parcial, contador_parcial)
seqOp = (lambda x,y: (x[0] * y, x[1]+1))

# Definimos a CombOp
# Multiplicamos os produtos e sumamos os contadores
combO = (lambda x,y: (x[0] * y[0], x[1]+y[1]))

# Definimos o zero
# Hai que ter en conta que o valor neutro do produto e o 1.
zero = (1,0)

# Calculamos o resultado final
mult, count = rdd_pruebas.aggregate(zero,seqOp, combOp)
print ("Produto: ", mult,", Conteo: ",count)

**`aggregate` √∫sase...**
- Cando s necesita m√°is dunha m√©trica.
- Cando se pretende empregar acumuladores m√°is complexos.
- Cando `reduceByKey` non √© suficiente, xa que o resultado ten que ser do mesmo tipo que o orixinal.

> √â moito m√°is eficiente que usar `gropByKey` + c√°lculo

### aggregateByKey
aggregateByKey()` √© unha transformaci√≥n dispo√±ible para **Pair RDDs** (RDDs de pares `(K, V)`) que permite combinar os valores asociados a cada clave usando un acumulador, de forma similar a `aggregate()`, pero **aplicado por clave**.

- **Entrada:** `RDD[(K, V)]`
- **Sa√≠da:** `RDD[(K, U)]` onde `U` √© o tipo do acumulador
- **Idea:** ‚ÄúPara cada clave, acumular e combinar valores usando un valor inicial e d√∫as funci√≥ns (local e global)‚Äù

üìå Transformaci√≥n conceptual:
`RDD[(K, V)] ‚Üí RDD[(K, U)]`

---

#### Par√°metros
- `zeroValue`
  - valor inicial do acumulador **para cada clave** en cada partici√≥n
  - debe ser un valor neutro (por exemplo `(0,0)` para suma+conta)
- `seqOp(acc, v)`
  - combina o acumulador `acc` cun valor `v` dentro dunha partici√≥n
- `combOp(acc1, acc2)`
  - combina dous acumuladores parciais (de partici√≥ns distintas)


In [None]:
# Exemplo: suma e conteo por clave

# Creamos un RDD de pares (k,v)
rdd = sc.parallelize([
    ("a", 10), ("a", 20),
    ("b", 5), ("b", 15), ("b", 10)
])

# Definimos o valor zero
zero = (0, 0)  # (suma, conta)

# Definimos a SecOp
seqOp = lambda acc, v: (acc[0] + v, acc[1] + 1)

# Definimos a combOp
combOp = lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1])

# Obtemos e amosamos o resultado
res = rdd.aggregateByKey(zero, seqOp, combOp)

print("Resultado: ",res.collect())

# Calculamos as medias:
medias = res.mapValues(lambda sc: sc[0] /sc[1])
print("Medias: ",medias.collect())


**`aggregateByKey` √∫sase...**
- Cando se necesita obter varias m√©tricas por clave.
- Cando se necesitan acumuladores complexos (tuplas, listas, conxuntos...).
- Cando `reduceByKey` non √© suficiente.

### combineByKey
`combineByKey()` √© unha transformaci√≥n dispo√±ible para **Pair RDDs** (RDDs de pares `(K, V)`) que permite crear e combinar acumuladores por clave de forma totalmente flexible.

√â a operaci√≥n m√°is xeral de agregaci√≥n por clave en Spark e serve de base para outras funci√≥ns como:
- `reduceByKey()`
- `aggregateByKey()`

**Transformaci√≥n conceptual**:

`RDD[(K, V)] ‚Üí RDD[(K, C)]`  
onde `C` √© o tipo do acumulador (combiner).

---

#### Como funciona?
Para cada clave, Spark:
1. **Crea un acumulador inicial** a partir do primeiro valor que aparece para esa clave (`createCombiner`)
2. Vai engadindo novos valores a ese acumulador dentro da mesma partici√≥n (`mergeValue`)
3. Combina acumuladores parciais de partici√≥ns distintas (`mergeCombiners`)

---

#### Par√°metros
- `createCombiner(v)`
  - transforma un primeiro valor `v` nun acumulador inicial
- `mergeValue(acc, v)`
  - engade un valor `v` ao acumulador `acc` dentro da mesma partici√≥n
- `mergeCombiners(acc1, acc2)`
  - combina dous acumuladores procedentes de partici√≥ns diferentes

---

In [None]:
# Exemplo: Calcular a media de valores por clave usando combineByKey (sen groupByKey)

# Creamos un RDD de pares (k, v) con varias entradas para as claves "a" e "b"
rdd = sc.parallelize([
    ("a", 10), ("a", 20),
    ("b", 5), ("b", 15), ("b", 10)
])

# Definimos como crear o acumulador inicial a partir do primeiro valor dunha clave
# Neste caso o acumulador ser√° unha tupla (suma, conta)
createCombiner = lambda v: (v, 1)

# Definimos como engadir un novo valor ao acumulador dentro da mesma partici√≥n
# Engadimos o valor √° suma e incrementamos o contador
mergeValue = lambda acc, v: (acc[0] + v, acc[1] + 1)

# Definimos como combinar acumuladores de partici√≥ns distintas (durante o shuffle)
# Sumamos as sumas parciais e tam√©n os contadores parciais
mergeCombiners = lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1])

# Aplicamos combineByKey para obter, para cada clave, a tupla (suma_total, conta_total)
sum_count = rdd.combineByKey(createCombiner, mergeValue, mergeCombiners)

# Calculamos a media por clave dividindo suma_total entre conta_total
medias = sum_count.mapValues(lambda sc: sc[0] / sc[1])

# Amosamos o resultado final: media dos valores asociados a cada clave
print("Medias por clave: ", medias.collect())


**`combineByKey` √∫sase...**
- Cando se necesita control total sobre como se crea e combina o acumulador.
- Cando se quere transformar o tipo de acumuladro.
- Cando se queren implementar agregaci√≥ns avanzadas.

#### Por que √© importante?

`combineByKey()` √© a funci√≥n m√°is potente para agregaci√≥n por clave.  
As demais son versi√≥ns simplificadas:

##### `reduceByKey(func)` equivale a:
```python
createCombiner = lambda v: v
mergeValue = func
mergeCombiners = func
```
##### `aggregateByKey(func)` equivale a:
```python
createCombiner = lambda v: seqOp(zero, v)
mergeValue = seqOp
mergeCombiners = combOp
```

### foldByKey
`foldByKey()` √© unha transformaci√≥n dispo√±ible para **Pair RDDs** (RDDs de pares `(K, V)`) que combina os valores asociados a cada clave aplicando unha funci√≥n de reduci√≥n, partindo dun valor inicial com√∫n (`zeroValue`).

√â moi semellante a `reduceByKey()`, pero coa diferenza de que:
- usa un **valor inicial (`zeroValue`)**
- este valor inicial debe ser **neutro** respecto da funci√≥n de combinaci√≥n
- a funci√≥n `func` debe ser do tipo `(V, V) -> V` (mesmo tipo de entrada e sa√≠da)

üìå Transformaci√≥n conceptual:
`RDD[(K, V)] ‚Üí RDD[(K, V)]`

---

#### Par√°metros
- `zeroValue`
  - valor inicial que se aplica para cada clave en cada partici√≥n
  - debe ser un elemento neutro (por exemplo `0` para suma, `1` para multiplicaci√≥n)
- `func(x, y)`
  - funci√≥n que combina dous valores do mesmo tipo
  - debe ser asociativa e conmutativa para garantir resultados consistentes

---

In [None]:
# Exemplo: Sumar os valores por clave usando foldByKey cun valor inicial neutro (0)

# Creamos un RDD de pares (k, v) con varias entradas por clave
rdd = sc.parallelize([
    ("a", 10), ("a", 20),
    ("b", 5), ("b", 15), ("b", 10)
])

# Aplicamos foldByKey usando 0 como valor inicial (neutro para a suma)
# A funci√≥n combina os valores asociados √° mesma clave sum√°ndoos
resultado = rdd.foldByKey(0, lambda x, y: x + y)

# Amosamos o resultado final: suma total dos valores por clave
print("Suma por clave: ", resultado.collect())


In [None]:
# Exemplo: Calcular o produto dos valores por clave usando foldByKey cun valor inicial neutro (1)

# Creamos un RDD de pares (k, v) con varias entradas por clave
rdd = sc.parallelize([
    ("a", 2), ("a", 3),
    ("b", 4), ("b", 5)
])

# Aplicamos foldByKey usando 1 como valor inicial (neutro para o produto)
# A funci√≥n combina os valores asociados √° mesma clave multiplic√°ndoos
resultado = rdd.foldByKey(1, lambda x, y: x * y)

# Amosamos o resultado final: produto total dos valores por clave
print("Produto por clave: ", resultado.collect())


**`foldByKey` √∫sase...**
- Cando se quere facer unha reduci√≥n por clave que precisa un valor inicial.
- Cando o operador ten un elemento neutro natural.
- Cando se quere unha alternativa m√°is expl√≠cita a `reduceByKey`.

< **Advertencia**: Se o `zeroValue` non √© neutro apl√≠case en cada partici√≥n.

### coGroup
`cogroup()` √© unha transformaci√≥n dispo√±ible para **Pair RDDs** (RDDs de pares `(K, V)`) que permite agrupar dous (ou m√°is) RDDs **pola mesma clave**, devolvendo para cada clave unha parella de colecci√≥ns:  
- os valores desa clave no primeiro RDD
- os valores desa clave no segundo RDD

√â √∫til para comparar ou combinar datos por clave cando **non se quere facer un `join` directo**, xa que `cogroup()` conserva **t√≥dolos valores** en cada lado.

- **Entrada:** `RDD[(K, V)]` e outro `RDD[(K, W)]`
- **Sa√≠da:** `RDD[(K, (Iterable[V], Iterable[W]))]`

üìå Transformaci√≥n conceptual:
`RDD[(K, V)]` + `RDD[(K, W)] ‚Üí RDD[(K, (Iterable[V], Iterable[W]))]`

---


In [None]:
# Exemplo: Agrupar dous RDDs pola mesma clave usando cogroup

# Creamos o primeiro RDD de pares (k, v)
rdd1 = sc.parallelize([
    ("a", 1), ("b", 2), ("a", 3)
])

# Creamos o segundo RDD de pares (k, w)
rdd2 = sc.parallelize([
    ("a", 10), ("b", 20), ("b", 30)
])

# Aplicamos cogroup para agrupar por clave os valores de ambos RDDs
resultado = rdd1.cogroup(rdd2)

# Convertimos os iterables a listas s√≥ para poder visualizar mellor o contido
resultado_listas = resultado.mapValues(lambda x: (list(x[0]), list(x[1])))

# Amosamos o resultado final: para cada clave, lista de valores do rdd1 e lista de valores do rdd2
print("Valores agrupados por clave en ambos RDDs: ", resultado_listas.collect())

In [None]:
import random
distinctChars = rdd_st.flatMap(lambda word: word.lower()).distinct()
charRDD = distinctChars.map(lambda c: (c, random.random()))
charRDD2 = distinctChars.map(lambda c: (c, random.random()))
resultado = charRDD.cogroup(charRDD2).take(5)

for clave, valores in resultado:
    print("Clave:", clave)
    print("Valores de charRDD:", list(valores[0]))  # Convertimos el iterable de valores a lista
    print("Valores de charRDD2:", list(valores[1])) # Convertimos el iterable de valores a lista

**`cogroup()` √© √∫til cando se quere**
- agrupar dous datasets pola mesma clave mantendo todos os valores de cada lado
- comparar listas de valores por clave (por exemplo, elementos presentes nun dataset e non noutro)
- preparar operaci√≥ns personalizadas onde un join non encaixa ben

## Joins en Pair RDDs (RDDs de pares)

En Spark existen varios tipos de **join** para combinar dous **Pair RDDs** (`RDD[(K, V)]`) usando a **clave K** como criterio de uni√≥n.

Todos os joins devolven un RDD onde cada elemento ten a forma:
`(K, (V, W))` (ou variantes con `None` no caso de outer joins)

---

### 1) `join()` ‚Äî Inner join
Combina s√≥ as claves que aparecen en **ambos RDDs**.

- **Entrada:** `RDD[(K, V)]` e `RDD[(K, W)]`
- **Sa√≠da:** `RDD[(K, (V, W))]`
- S√≥ devolve claves com√∫ns.

> √ötil cando se quere a intersecci√≥n de claves.

---

### 2) `fullOuterJoin()` ‚Äî Full outer join
Combina claves de **ambos RDDs**, mesmo se s√≥ aparecen nun deles.

- **Sa√≠da:** `RDD[(K, (Optional[V], Optional[W]))]`
- Se falta un valor nun lado, aparece como `None`.

> √ötil cando se quere manter toda a informaci√≥n posible.

---

### 3) `leftOuterJoin()` ‚Äî Left outer join
Mant√©n todas as claves do **RDD esquerdo**, e s√≥ combina as que existan no dereito.

- **Sa√≠da:** `RDD[(K, (V, Optional[W]))]`
- Se unha clave non existe no dereito, o valor dereito ser√° `None`.

>  √ötil cando se quere manter todo o dataset principal (esquerdo).

---

### 4) `rightOuterJoin()` ‚Äî Right outer join
Mant√©n todas as claves do **RDD dereito**, e s√≥ combina as que existan no esquerdo.

- **Sa√≠da:** `RDD[(K, (Optional[V], W))]`
- Se unha clave non existe no esquerdo, o valor esquerdo ser√° `None`.

>  √ötil cando o dataset principal √© o dereito.

---

### 5) `cartesian()` ‚Äî Produto cartesiano (non recomendado)
Xera todas as combinaci√≥ns posibles entre os elementos de dous RDDs:

- **Entrada:** `RDD[A]` e `RDD[B]`
- **Sa√≠da:** `RDD[(A, B)]`
- Non usa claves: combina todo con todo.

**Non se recomenda o seu uso**, porque:
- pode xerar un n√∫mero enorme de combinaci√≥ns (`n * m`)
- require moitos recursos e pode facer fallar o proceso por falta de memoria

> S√≥ ten sentido en casos moi controlados ou con datasets moi pequenos.

---

In [None]:
# Exemplo: Comparar distintos tipos de join entre dous Pair RDDs (inner, outer e cartesian)

# Creamos o primeiro RDD de pares (k, v) que actuar√° como RDD esquerdo nos joins
rdd1 = sc.parallelize([('a', 1), ('b', 2), ('c', 3), ('d', 4)])

# Creamos o segundo RDD de pares (k, v) que actuar√° como RDD dereito nos joins
rdd2 = sc.parallelize([('a', 4), ('b', 5), ('c', 6), ('e', 5)])

# Realizamos un inner join: devolve s√≥ as claves que existen en ambos RDDs ("a", "b" e "c")
rdd3 = rdd1.join(rdd2)

# Amosamos o resultado do inner join: (clave, (valor_rdd1, valor_rdd2))
print("Inner join:")
print("Resultado do inner join: ", rdd3.collect())


# Realizamos un full outer join: devolve todas as claves de ambos RDDs ("a", "b", "c", "d" e "e")
# Se unha clave non existe nun dos lados, o valor aparece como None
rdd4 = rdd1.fullOuterJoin(rdd2)

# Amosamos o resultado do full outer join: (clave, (valor_ou_None, valor_ou_None))
print("Full Outer join:")
print("Resultado do full outer join: ", rdd4.collect())


# Realizamos un left outer join: devolve todas as claves do RDD esquerdo (rdd1)
# Para claves que non existen no dereito, o valor dereito ser√° None (por exemplo, "d")
rdd5 = rdd1.leftOuterJoin(rdd2)

# Amosamos o resultado do left outer join: (clave, (valor_rdd1, valor_rdd2_ou_None))
print("Left Outer join:")
print("Resultado do left outer join: ", rdd5.collect())


# Realizamos un right outer join: devolve todas as claves do RDD dereito (rdd2)
# Para claves que non existen no esquerdo, o valor esquerdo ser√° None (por exemplo, "e")
rdd6 = rdd1.rightOuterJoin(rdd2)

# Amosamos o resultado do right outer join: (clave, (valor_rdd1_ou_None, valor_rdd2))
print("Right Outer join:")
print("Resultado do right outer join: ", rdd6.collect())


# Realizamos un produto cartesiano: combina todos os elementos de rdd1 con todos os elementos de rdd2
# O resultado ter√° tama√±o len(rdd1) * len(rdd2) (neste caso 4 * 4 = 16 pares)
# Non se recomenda para datasets grandes porque pode xerar un n√∫mero enorme de combinaci√≥ns
rdd7 = rdd1.cartesian(rdd2)

# Amosamos o resultado do cartesian: ((k1, v1), (k2, v2))
print("Cartesian:")
print("Resultado do produto cartesiano: ", rdd7.collect())


### union
`union()` √© unha transformaci√≥n que permite unir dous RDDs nun √∫nico RDD, concatenando os seus elementos.

- **Entrada:** dous RDDs do mesmo tipo (`RDD[T]` + `RDD[T]`)
- **Sa√≠da:** un novo `RDD[T]` con todos os elementos dos dous RDDs
- **Comportamento:** non elimina duplicados, simplemente xunta contidos

üìå Transformaci√≥n conceptual:
`RDD[T] + RDD[T] ‚Üí RDD[T]`

---

In [None]:
# Exemplo: Unir dous RDDs de n√∫meros usando union()

# Creamos o primeiro RDD de n√∫meros
rdd1 = sc.parallelize([1, 2, 3])

# Creamos o segundo RDD de n√∫meros
rdd2 = sc.parallelize([3, 4, 5])

# Aplicamos union para unir ambos RDDs
resultado = rdd1.union(rdd2)

# Amosamos o resultado final: cont√©n todos os elementos dos dous RDDs (inclu√≠ndo duplicados)
print("Uni√≥n dos dous RDDs: ", resultado.collect())

In [None]:
# Exemplo: Unir dous Pair RDDs usando union()

# Creamos o primeiro Pair RDD
rdd1 = sc.parallelize([("a", 1), ("b", 2)])

# Creamos o segundo Pair RDD
rdd2 = sc.parallelize([("b", 3), ("c", 4)])

# Aplicamos union para unir ambos Pair RDDs
resultado_pair = rdd1.union(rdd2)

# Amosamos o resultado final: cont√©n todos os pares, inclu√≠ndo claves repetidas
print("Uni√≥n de dous Pair RDDs: ", resultado_pair.collect())


**`union()` √© √∫til cando se quere**:
- combinar datasets que te√±en o mesmo esquema/tipo
- xuntar datos de varias fontes
- constru√≠r un dataset maior a partir de varios RDDs

> `union` non elimina duplicados. Para facelo pode empregarse `distinct`

In [None]:
print("Union de dous RDD sen duplicados: ", resultado.distinct().collect())

### zip
`zip()` √© unha transformaci√≥n que permite combinar dous RDDs elemento a elemento, formando pares cos elementos da mesma posici√≥n.

- **Entrada:** dous RDDs `RDD[A]` e `RDD[B]`
- **Sa√≠da:** `RDD[(A, B)]`
- **Comportamento:** o elemento `i` do primeiro RDD comb√≠nase co elemento `i` do segundo RDD

**Transformaci√≥n conceptual**:

`RDD[A] + RDD[B] ‚Üí RDD[(A, B)]`

---

#### Requisitos importantes
Para que `zip()` funcione, ambos RDDs deben cumprir:

- ter o **mesmo n√∫mero de elementos**
- ter o **mesmo n√∫mero de partici√≥ns**
- ter o **mesmo n√∫mero de elementos en cada partici√≥n**

> Se non se cumpre alg√∫n destes requisitos, Spark lanza un erro.


In [None]:
# Exemplo: Combinar dous RDDs elemento a elemento usando zip()

# Creamos o primeiro RDD de n√∫meros
rdd1 = sc.parallelize([1, 2, 3, 4], 2)

# Creamos o segundo RDD de letras co mesmo n√∫mero de elementos e partici√≥ns
rdd2 = sc.parallelize(["a", "b", "c", "d"], 2)

# Aplicamos zip para combinar elemento a elemento
resultado = rdd1.zip(rdd2)

# Amosamos o resultado final: cada n√∫mero queda emparellado coa letra da mesma posici√≥n
print("RDD combinado con zip(): ", resultado.collect())

## Controlando partici√≥ns en RDDs

A API de RDDs permite controlar como se distrib√∫en fisicamente os datos a trav√©s do cl√∫ster. O n√∫mero de partici√≥ns infl√∫e directamente no paralelismo e no rendemento: pode axudar a repartir mellor a carga de traballo, pero tam√©n pode provocar sobrecarga se hai demasiadas partici√≥ns ou custes elevados de shuffle se hai demasiada redistribuci√≥n.

### `coalesce(numPartitions, shuffle=False)`
`coalesce()` permite reducir o n√∫mero de partici√≥ns colapsando partici√≥ns existentes, normalmente sen mover datos entre nodos. Por defecto non realiza shuffle (`shuffle=False`), polo que √© unha opci√≥n eficiente cando se quere diminu√≠r partici√≥ns despois de filtros ou operaci√≥ns que deixan poucos datos. Se se usa `shuffle=True`, ent√≥n si pode redistribu√≠r datos e o custo aumenta.

In [None]:
# Exemplo: Reducir o n√∫mero de partici√≥ns dun RDD usando coalesce()

rdd_st = sc.parallelize ("Big Data aplicado. Curso de especializaci√≥n de Inteligencia Artificial y Big Data".split(), 4)

print("N√∫mero inicial de partici√≥ns: ", rdd_st.getNumPartitions())

# Reducimos o n√∫mero de partici√≥ns a 2 sen shuffle (por defecto)
rdd2 = rdd_st.coalesce(2)

# Amosamos o n√∫mero final de partici√≥ns
print("N√∫mero de partici√≥ns tras coalesce(2): ", rdd2.getNumPartitions())

### `repartition(numPartitions)`
`repartition()` permite modificar o n√∫mero de partici√≥ns dun RDD, pero sempre realiza un shuffle completo. Isto implica mover datos entre nodos para equilibrar e repartir de novo a carga. √â √∫til cando se quere aumentar o paralelismo ou cando as partici√≥ns quedaron descompensadas, pero √© m√°is custoso que `coalesce()`.


In [None]:
# Exemplo: Modificar o n√∫mero de partici√≥ns dun RDD usando repartition()

# Supo√±emos un RDD chamado rdd_st
rdd4 = rdd_st.repartition(4)

# Amosamos o n√∫mero final de partici√≥ns
print("N√∫mero de partici√≥ns tras repartition(4): ", rdd4.getNumPartitions())


### `repartitionAndSortWithinPartitions(numPartitions=None, partitionFunc=None, ascending=True, keyfunc=None)`
`repartitionAndSortWithinPartitions()` permite reparticionar os datos (shuffle) e, ademais, ordenar os elementos dentro de cada partici√≥n segundo a clave. Isto resulta √∫til cando se quere un reparto controlado por clave e se pretende preparar o dataset para operaci√≥ns posteriores que se benefician de datos xa ordenados dentro de cada partici√≥n.

Par√°metros:
- `numPartitions` (opcional): n√∫mero de partici√≥ns do resultado.
- `partitionFunc` (opcional): funci√≥n que determina o √≠ndice da partici√≥n a partir da clave.
- `ascending` (opcional): ordenaci√≥n ascendente (`True`, por defecto) ou descendente (`False`).
- `keyfunc` (opcional): funci√≥n para transformar a clave antes de ordenar.



In [None]:

# Exemplo: Reparticionar e ordenar dentro de cada partici√≥n usando repartitionAndSortWithinPartitions()

# Creamos un Pair RDD (clave, valor)
rdd = sc.parallelize([(0, 5), (3, 8), (2, 6), (0, 8), (3, 8), (1, 3)])

# Aplicamos repartitionAndSortWithinPartitions con 2 partici√≥ns
# A funci√≥n de particionamento asigna partici√≥n segundo a paridade da clave (x % 2)
# O ordenamento ser√° ascendente dentro de cada partici√≥n
rdd2 = rdd.repartitionAndSortWithinPartitions(
    numPartitions=2,
    partitionFunc=lambda x: x % 2,
    ascending=True
)

# Amosamos o contido de cada partici√≥n como listas para observar o reparto e a orde interna
resultado = rdd2.glom().collect()

print("RDD reparticionado e ordenado dentro das partici√≥ns: ", resultado)

