<a href="https://colab.research.google.com/github/JhonatanWalterSen/spark-in-colab/blob/main/Transformaciones.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalaciones

In [4]:
# Instalar Java 8 scas
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

In [5]:
# Descargar Spark
!wget -q http://apache.osuosl.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz

In [6]:
# Descomprimir Spart
!tar xf spark-3.3.1-bin-hadoop3.tgz

In [7]:
# Establecer las variables de Entorno
import os 
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.3.1-bin-hadoop3"

In [8]:
# Instalar FindSpark en el sistema
!pip install -q findspark

In [9]:
import findspark

In [10]:
findspark.init()

In [11]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Transformaciones').master('local[*]').getOrCreate()

In [12]:
spark


In [13]:
sc = spark.sparkContext

# MAP

In [11]:
rdd = sc.parallelize([1,2,3,4,5])

In [12]:
rdd_resta = rdd.map(lambda x: x-1)
rdd_resta.collect()

[0, 1, 2, 3, 4]

In [13]:
rdd_par = rdd.map(lambda x: x%2==0)
rdd_par.collect()

[False, True, False, True, False]

In [14]:
rdd_texto = sc.parallelize(['Jhon','Juan','Lucas'])

In [15]:
rdd_masyuscula = rdd_texto.map(lambda x : x.upper())
rdd_masyuscula.collect()

['JHON', 'JUAN', 'LUCAS']

In [16]:
rdd_saludo = rdd_texto.map(lambda x: "Hola "+x)
rdd_saludo.collect()

['Hola Jhon', 'Hola Juan', 'Hola Lucas']

# FLAT MAP

In [17]:
rdd_cuadrado = rdd.map(lambda x: (x,x**2))
rdd_cuadrado.collect()

[(1, 1), (2, 4), (3, 9), (4, 16), (5, 25)]

In [18]:
rdd_cuadrado_flat = rdd.flatMap(lambda x: (x,x**2))
rdd_cuadrado_flat.collect()

[1, 1, 2, 4, 3, 9, 4, 16, 5, 25]

In [19]:
rdd_mayuscula_flat = rdd_texto.flatMap(lambda x: (x,x.upper()))
rdd_mayuscula_flat.collect()

['Jhon', 'JHON', 'Juan', 'JUAN', 'Lucas', 'LUCAS']

# FILTER

In [20]:
rdd_nuevo = sc.parallelize([1,2,3,4,5,6,7,8,9])
rdd_pares = rdd_nuevo.filter(lambda x:x%2==0)
rdd_pares.collect()

[2, 4, 6, 8]

In [30]:
rdd_nombres = sc.parallelize(['jose','juanquin','juan','lucia','karla','karma'])
rdd_k = rdd_nombres.filter(lambda x: x.startswith('k'))


In [32]:
rdd_k.collect()

['karla', 'karma']

In [33]:
rdd_filtro = rdd_nombres.filter(lambda x: x.startswith('j') and x.find('u') == 1)
rdd_filtro.collect()

['juanquin', 'juan']

# COALESCE

In [34]:
rdd = sc.parallelize([1,2,3,4,5],10)
rdd.getNumPartitions()

10

In [36]:
rdd5 = rdd.coalesce(5)
rdd5.getNumPartitions()

5

# REPARTITION

In [37]:
rdd3 = sc.parallelize([1,2,3],3)
rdd3.getNumPartitions()

3

In [38]:
rdd7 = rdd3.repartition(7)
rdd7.getNumPartitions()

7

# REDUCE BY KEY

In [39]:
rdd_palabras = sc.parallelize([('casa',2),('parque',1),('que',5),('casa',1),('escuela',2),('casa',1),('que',1)])


In [40]:
rdd_reducido = rdd_palabras.reduceByKey(lambda x,y: x+y)
rdd_reducido.collect()

[('parque', 1), ('que', 6), ('casa', 4), ('escuela', 2)]

# EJERCICIOS TRANSFORMACIONES



1.   Cree un RDD llamado lenguajes que contenga los siguientes lenguajes de programación: Python, R, C, Scala, Rugby y SQL.

  a. Obtenga un nuevo RDD a partir del RDD lenguajes donde todos los lenguajes de programación estén en mayúsculas.

  b. Obtenga un nuevo RDD a partir del RDD lenguajes donde todos los lenguajes de programación estén en minúsculas.

  c. Cree un nuevo RDD que solo contenga aquellos lenguajes de programación que comiencen con la letra R.

2.   Cree un RDD llamado pares que contenga los números pares existentes en el intervalo [20;30].

  a. Cree el RDD llamado sqrt, este debe contener la raíz cuadrada de los elementos que componen el RDD pares.

  b. Obtenga una lista compuesta por los números pares en el intervalo [20;30] y sus respectivas raíces cuadradas. Un ejemplo del resultado deseado para el intervalo [50;60] sería la lista [50, 7.0710678118654755, 52, 7.211102550927978, 54, 7.3484692283495345, 56, 7.483314773547883, 58, 7.615773105863909, 60, 7.745966692414834].

  c. Eleve el número de particiones del RDD sqrt a 20.

  d. Si tuviera que disminuir el número de particiones luego de haberlo establecido en 20, ¿qué función utilizaría para hacer más eficiente su código?

3. Cree un RDD del tipo clave valor a partir de los datos adjuntos como recurso a esta lección. Tenga en cuenta que deberá procesar el RDD leído para obtener el resultado solicitado. Supongamos que el RDD resultante de tipo clave valor refleja las transacciones realizadas por número de cuentas. Obtenga el monto total por cada cuenta.

**1**

In [15]:
rdd_lenguajes = sc.parallelize(['Pythom','R','C','Scala','Ruby','Sql'])

In [42]:
rdd_lgs_mayusculas = rdd_lenguajes.map(lambda x: x.upper())
rdd_lgs_mayusculas.collect()

['PYTHOM', 'R', 'C', 'SCALA', 'RUBY', 'SQL']

In [43]:
rdd_lgs_min = rdd_lenguajes.map(lambda x: x.lower())
rdd_lgs_min.collect()

['pythom', 'r', 'c', 'scala', 'ruby', 'sql']

In [16]:
rdd_r = rdd_lenguajes.filter(lambda x: x.startswith('R'))
rdd_r.collect()

['R', 'Ruby']

**2**

In [18]:
rdd_pares = sc.parallelize([20,22,24,226,28,30])

In [19]:
import math
rdd_sqrt = rdd_pares.map(lambda x: math.sqrt(x))
rdd_sqrt.collect()

[4.47213595499958,
 4.69041575982343,
 4.898979485566356,
 15.033296378372908,
 5.291502622129181,
 5.477225575051661]

In [23]:
lista = rdd_pares.flatMap(lambda x: (x,math.sqrt(x))).collect()
print(lista)

[20, 4.47213595499958, 22, 4.69041575982343, 24, 4.898979485566356, 226, 15.033296378372908, 28, 5.291502622129181, 30, 5.477225575051661]


In [24]:
rdd_20 = rdd_sqrt.repartition(20)
rdd_20.getNumPartitions()

20

In [25]:
rdd_20_a_5 = rdd_20.coalesce(5)
rdd_20_a_5.getNumPartitions()

5

In [26]:
rdd_tra = sc.textFile('./transacciones')
rdd_tra.collect()

['(1001, 52.3)',
 '(1005, 20.8)',
 '(1001, 10.1)',
 '(1004, 52.7)',
 '(1005, 20.7)',
 '(1002, 85.3)',
 '(1004, 20.9)']

In [27]:
def proceso(s):
  return (tuple(s.replace('(','').replace(')','').split(', ')))

In [29]:
rdd_llave_valor = rdd_tra.map(proceso)
rdd_llave_valor.collect()

[('1001', '52.3'),
 ('1005', '20.8'),
 ('1001', '10.1'),
 ('1004', '52.7'),
 ('1005', '20.7'),
 ('1002', '85.3'),
 ('1004', '20.9')]

In [30]:
rdd_llave_valor.reduceByKey(lambda x,y: float(x) + float(y)).collect()

[('1002', '85.3'), ('1001', 62.4), ('1005', 41.5), ('1004', 73.6)]