In [12]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

In [13]:
# Crear contexto
sc = spark.sparkContext

In [14]:
# Crear RDD con datos numericos
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9])
rdd.collect()

[1, 2, 3, 4, 5]

In [15]:
# Crear RDD con datos de texto
rdd_texto = sc.parallelize(['jose', 'juan', 'lucia'])

### Transformaciones: funcion **map**

In [16]:
# Resta con lambda
rdd_resta = rdd.map(lambda x: x - 1)
rdd_resta.collect()

                                                                                

[0, 1, 2, 3, 4]

In [17]:
# Validar si el numero es par
rdd_par = rdd.map(lambda x: x % 2 == 0)
rdd_par.collect()

[False, True, False, True, False]

In [18]:
# Version de RDD texto en mayusculas
rdd_mayuscula = rdd_texto.map(lambda x: x.upper())
rdd_mayuscula.collect()

['JOSE', 'JUAN', 'LUCIA']

In [19]:
# RDD texto saludo Hola
rdd_hola = rdd_texto.map(lambda x: 'Hola ' + x)

rdd_hola.collect()

['Hola jose', 'Hola juan', 'Hola lucia']

### Transformaciones: funcion **flatMap**

In [23]:
# cordenadas exponente 2
rdd_cuadrado = rdd.map(lambda x: (x, x ** 2,(x*3,x*4)))

rdd_cuadrado.collect()

[(1, 1, (3, 4)),
 (2, 4, (6, 8)),
 (3, 9, (9, 12)),
 (4, 16, (12, 16)),
 (5, 25, (15, 20))]

In [24]:
# Aplanar datos (retornar en una lista): solo sube un nivel 
rdd_cuadrado_flat = rdd.flatMap(lambda x: (x, x ** 2,(x*3,x*4)))
rdd_cuadrado_flat.collect()

[1, 1, (3, 4), 2, 4, (6, 8), 3, 9, (9, 12), 4, 16, (12, 16), 5, 25, (15, 20)]

In [25]:
# Ejemplo en texto
rdd_texto = sc.parallelize(['jose', 'juan', 'lucia'])

rdd_mayuscula = rdd_texto.flatMap(lambda x: (x, x.upper()))

rdd_mayuscula.collect()

['jose', 'JOSE', 'juan', 'JUAN', 'lucia', 'LUCIA']

### Transformaciones: funcion **filter**

In [28]:
# Extraer los numeros pares
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9])

rdd_par = rdd.filter(lambda x: x % 2 == 0)

rdd_par.collect()

[2, 4, 6, 8]

In [29]:
# Extraer numeros impares

rdd_impar = rdd.filter(lambda x: x % 2 != 0)

rdd_impar.collect()

                                                                                

[1, 3, 5, 7, 9]

In [31]:
# Extraer solo nombres con la inicial k
rdd_texto = sc.parallelize(
    ['jose', 'juaquin', 'juan', 'lucia', 'karla', 'katia'])

# rdd_k = rdd_texto.filter(lambda x: x[0] == 'k')
rdd_k = rdd_texto.filter(lambda x: x.startswith('k'))

rdd_k.collect()

['karla', 'katia']

In [36]:
# Extraer nombres con la inicial j y que la segunda letra sea una u
# rdd_filtro = rdd_texto.filter(lambda x: x[0] == 'j' and x[1] == 'u')
rdd_filtro = rdd_texto.filter(lambda x: x.startswith('j') and x.find('u') == 1)

rdd_filtro.collect()


['juaquin', 'juan']

### Transformaciones: funcion **coalesce**

In [11]:
spark.stop()