<a href="https://colab.research.google.com/github/SnakeWithGlasses/Spark-practicas/blob/main/Procesamiento_de_datos_con_Spark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Conectado el notebook a Google Colab

In [1]:
from google.colab import drive
drive.mount('/content/drive')

MessageError: Error: credential propagation was unsuccessful

Instalamos y configuramos PySpark

In [9]:
# Instalar Apache Spark y Java
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://downloads.apache.org/spark/spark-3.5.5/spark-3.5.5-bin-hadoop3.tgz
!tar xf spark-3.5.5-bin-hadoop3.tgz

In [10]:
!pip install -q findspark

Configuramos la variables de entorno

In [12]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.5-bin-hadoop3"

In [13]:
import findspark
findspark.init()

Importamos Spark y creamos una sesión llamada 'Practica_Spark'

In [14]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").appName("Practica_Spark").getOrCreate()
sc = spark.sparkContext

Ejercicio 1. Arquitectura Big Data. Apache Spark.

1.   Generar un RDD que contenga los valores [74,22, 6,0,22, 10, 5, 10, 12]
2.   Mostrar los valores máximos y mínimos del RDD.
3.   Calcular la suma de todos los valores.
4.   Generar un nuevo RDD fruto de sumar diez unidades a cada elemento.
5.   Generar un nuevo RDD que contenga los valores únicos del RDD original.

In [15]:
# Creamos el RDD con la lista de valores
numeros = [74, 22, -6, 0, 22, 10, 5, 10, 12]
rdd = sc.parallelize(numeros)

# Mostramos los elemento de la lista del RDD
print("Los valores del RDD: ", rdd.collect())

Los valores del RDD:  [74, 22, -6, 0, 22, 10, 5, 10, 12]


In [16]:
# Mostramos el valor mínimo y máximo del RDD
print(f"El valor mínimo es {rdd.min()}")
print(f"El valor máximo es {rdd.max()}")

El valor mínimo es -6
El valor máximo es 74


In [17]:
# Procedemos con el calculo de todos los valores de la lista
print(f"La suma de todos los valores es {rdd.sum()}")

La suma de todos los valores es 149


In [18]:
# Generamos un nuevo RDD sumando diez unidades a cada elemento
rdd_sumado = rdd.map(lambda x: x + 10)
print(f"El nuevo RDD es {rdd_sumado.collect()}")

El nuevo RDD es [84, 32, 4, 10, 32, 20, 15, 20, 22]


In [19]:
# Obtenemos los valores únicos del RDD
rdd_unicos = rdd.distinct()
print(f"El nuevo RDD es {rdd_unicos.collect()}")

El nuevo RDD es [74, 22, -6, 0, 10, 12, 5]


Ejercicio 2. Arquitectura Big Data. Apache Spark
Usando Google Colab, implementaremos el código pyspark necesario para
1. Generar un cuenta palabra que calcule el número de veces que aparece cada una en el fichero
loremipsum.txt
2. Mostrar el conteo de palabras de forma descendente, de manera que en primer lugar se encuentre aquella
con mayor número de apariciones
3. Usando el RDD anterior, debemos generar uno nuevo que contenga solo aquellas palabras con tamaño mayor
o igual a 7
4. Representar este último RDD en mayúscula.

In [27]:
# Cargar el archivo en un RDD
rdd_texto = sc.textFile("/content/loremipsum.txt")

# Separar las palabras usando flatMap y hacer el conteo
rdd_palabras = rdd_texto.flatMap(lambda linea: linea.split(" "))
rdd_conteo = rdd_palabras.map(lambda palabra: (palabra, 1)).reduceByKey(lambda a, b: a + b)

# Mostrar el conteo de palabras
print("Conteo de palabras:", rdd_conteo.collect())

Conteo de palabras: [('Lorem', 1), ('dolor', 3), ('adipiscing', 1), ('Nunc', 1), ('non', 4), ('libero.', 1), ('Donec', 4), ('at', 3), ('commodo,', 1), ('lorem', 3), ('vitae,', 1), ('nisi', 2), ('at,', 1), ('sagittis,', 1), ('nec', 3), ('Ut', 5), ('elementum', 3), ('et', 4), ('semper,', 2), ('turpis', 1), ('Aliquam', 1), ('nisl', 2), ('cursus', 1), ('ut,', 1), ('ante.', 1), ('Duis', 3), ('ut', 2), ('efficitur', 2), ('rhoncus.', 1), ('luctus', 4), ('turpis.', 3), ('dui,', 1), ('quis', 5), ('nec,', 1), ('nibh.', 1), ('Suspendisse', 1), ('fringilla', 1), ('neque', 2), ('vehicula,', 1), ('sagittis', 3), ('nulla', 1), ('Nam', 2), ('enim', 2), ('posuere', 1), ('massa.', 1), ('Cras', 1), ('erat.', 2), ('sed', 5), ('sapien,', 2), ('porttitor', 1), ('Curabitur', 1), ('magna', 1), ('ac', 2), ('lectus,', 1), ('odio.', 1), ('quis,', 1), ('Mauris', 1), ('ante', 3), ('ultricies.', 1), ('lectus', 1), ('tristique.', 1), ('mollis', 2), ('tortor.', 1), ('Vivamus', 1), ('lacus,', 1), ('molestie', 1), ('mi

In [28]:
# Mostramos el conteo de palabras en formato descentente
rdd_orden = rdd_conteo.sortBy(lambda x: x[1], ascending = False)
print("El conteo de palabras en formato descendente es: ", rdd_orden.collect())

El conteo de palabras en formato descendente es:  [('a', 6), ('Ut', 5), ('quis', 5), ('sed', 5), ('sit', 5), ('eu', 5), ('vitae', 5), ('non', 4), ('Donec', 4), ('et', 4), ('luctus', 4), ('gravida', 4), ('amet', 4), ('dolor', 3), ('at', 3), ('lorem', 3), ('nec', 3), ('elementum', 3), ('Duis', 3), ('turpis.', 3), ('sagittis', 3), ('ante', 3), ('in', 3), ('mauris', 3), ('Sed', 3), ('erat', 3), ('nisi', 2), ('semper,', 2), ('nisl', 2), ('ut', 2), ('efficitur', 2), ('neque', 2), ('Nam', 2), ('enim', 2), ('erat.', 2), ('sapien,', 2), ('ac', 2), ('mollis', 2), ('leo', 2), ('ipsum.', 2), ('sodales', 2), ('Nulla', 2), ('massa', 2), ('ipsum', 2), ('consectetur', 2), ('varius', 2), ('iaculis', 2), ('malesuada', 2), ('fermentum', 2), ('quam', 2), ('libero', 2), ('ullamcorper', 2), ('augue', 2), ('dictum', 2), ('orci', 2), ('tempor', 2), ('congue', 2), ('venenatis', 2), ('eros', 2), ('purus', 2), ('tempus,', 2), ('Lorem', 1), ('adipiscing', 1), ('Nunc', 1), ('libero.', 1), ('commodo,', 1), ('vitae,

In [30]:
# Creamos un nuevo RDD con aquellas palabras con un tamaño >= 7
rdd_filtrado = rdd_orden.filter(lambda x: len(x[0]) >= 7)
print("El nuevo RDD con palabras de tamaño >= 7 es: ", rdd_filtrado.collect())

El nuevo RDD con palabras de tamaño >= 7 es:  [('gravida', 4), ('elementum', 3), ('turpis.', 3), ('sagittis', 3), ('semper,', 2), ('efficitur', 2), ('sapien,', 2), ('sodales', 2), ('consectetur', 2), ('iaculis', 2), ('malesuada', 2), ('fermentum', 2), ('ullamcorper', 2), ('venenatis', 2), ('tempus,', 2), ('adipiscing', 1), ('libero.', 1), ('commodo,', 1), ('sagittis,', 1), ('Aliquam', 1), ('rhoncus.', 1), ('Suspendisse', 1), ('fringilla', 1), ('vehicula,', 1), ('posuere', 1), ('porttitor', 1), ('Curabitur', 1), ('lectus,', 1), ('ultricies.', 1), ('tristique.', 1), ('tortor.', 1), ('Vivamus', 1), ('molestie', 1), ('interdum,', 1), ('penatibus', 1), ('nascetur', 1), ('consequat', 1), ('sapien.', 1), ('iaculis,', 1), ('rhoncus', 1), ('interdum', 1), ('pharetra', 1), ('suscipit', 1), ('vestibulum.', 1), ('cursus.', 1), ('tellus,', 1), ('tristique', 1), ('maximus,', 1), ('Vestibulum', 1), ('euismod.', 1), ('Quisque', 1), ('condimentum', 1), ('aliquam', 1), ('aliquet', 1), ('convallis', 1), 

In [31]:
# Mostramos el RDD en mayúsculas
rdd_upper = rdd_filtrado.map(lambda x: (x[0].upper(), x[1]))
print("RDD con las palabras en mayúsculas:", rdd_upper.collect())

RDD con las palabras en mayúsculas: [('GRAVIDA', 4), ('ELEMENTUM', 3), ('TURPIS.', 3), ('SAGITTIS', 3), ('SEMPER,', 2), ('EFFICITUR', 2), ('SAPIEN,', 2), ('SODALES', 2), ('CONSECTETUR', 2), ('IACULIS', 2), ('MALESUADA', 2), ('FERMENTUM', 2), ('ULLAMCORPER', 2), ('VENENATIS', 2), ('TEMPUS,', 2), ('ADIPISCING', 1), ('LIBERO.', 1), ('COMMODO,', 1), ('SAGITTIS,', 1), ('ALIQUAM', 1), ('RHONCUS.', 1), ('SUSPENDISSE', 1), ('FRINGILLA', 1), ('VEHICULA,', 1), ('POSUERE', 1), ('PORTTITOR', 1), ('CURABITUR', 1), ('LECTUS,', 1), ('ULTRICIES.', 1), ('TRISTIQUE.', 1), ('TORTOR.', 1), ('VIVAMUS', 1), ('MOLESTIE', 1), ('INTERDUM,', 1), ('PENATIBUS', 1), ('NASCETUR', 1), ('CONSEQUAT', 1), ('SAPIEN.', 1), ('IACULIS,', 1), ('RHONCUS', 1), ('INTERDUM', 1), ('PHARETRA', 1), ('SUSCIPIT', 1), ('VESTIBULUM.', 1), ('CURSUS.', 1), ('TELLUS,', 1), ('TRISTIQUE', 1), ('MAXIMUS,', 1), ('VESTIBULUM', 1), ('EUISMOD.', 1), ('QUISQUE', 1), ('CONDIMENTUM', 1), ('ALIQUAM', 1), ('ALIQUET', 1), ('CONVALLIS', 1), ('MAURIS,'