En el siguiente notebook vamos a trabajar con PySpark. En él, vamos a usar las transformaciones y las acciones para analizar un pequeño conjunto de datos.

El primer paso que debemos dar es conectar Google Colab con nuestro Google Drive. Para ello, lanzaremos el siguiente trozo de código.

In [4]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [5]:
!ls

drive  sample_data


Una vez hemos conectado Google Drive, pasamos a instalar Apache Spark en nuestro notebook. En concreto, vamos a trabajar con la versión 3.0.3.

In [6]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

In [7]:
!wget -q http://apache.mirrors.pair.com/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz

In [8]:
!ls


drive  sample_data  spark-3.5.0-bin-hadoop3.tgz


In [9]:
!tar xf spark-3.5.0-bin-hadoop3.tgz

Además de la instalación habitual, hay un paso más que debemos dar, y es la instalación de la librería *findspark*. Esta librería nos permitirá encontrar la instalación de Apache Spark en nuestro sistema.

Establecemos también un par de variables de entorno.

In [10]:
!pip install -q findspark

In [11]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.0-bin-hadoop3"

In [12]:
import findspark
findspark.init()

In [13]:
findspark.find()

'/content/spark-3.5.0-bin-hadoop3'

Para trabajar con los RDDs vamos a usar el objeto SparkContext

In [14]:
from pyspark import SparkContext

sc = SparkContext(master="local[*]", appName="FirstExample")
sc.setLogLevel("ERROR")

In [15]:
sc

Por último, y para terminar con la configuración, podemos desplegar una interfaz de usuario donde ver los jobs que se van ejecutando. Solo necesitamos lanzar el siguiente código.

Una vez ejecutado, podemos encontrar la interfaz en la URL pública que vemos al final.

### Ejercicio 1

creo una lista

In [None]:
list([74,22,-6,0,22, 10, -5, 10, 12])

[74, 22, -6, 0, 22, 10, -5, 10, 12]

creo un rdd a través de la lista

In [None]:
data = list([74,22,-6,0,22, 10, -5, 10, 12])
rdd = sc.parallelize(data)
rdd

ParallelCollectionRDD[0] at readRDDFromFile at PythonRDD.scala:289

muestro el rdd

In [None]:
rdd.collect()

[74, 22, -6, 0, 22, 10, -5, 10, 12]

hayo el máximo del rdd

In [None]:
rdd.max()

74

hayo el mínimo del rdd

In [None]:
rdd.min()

-6

hayo la suma de los números que componene el rdd

In [None]:
tSum = rdd.reduce(lambda x,y: x+y)
print (tSum)

139


cada número del rdd le sumo 10 unidades y lo muestro

In [None]:
rdd2 = rdd.map(lambda x: x+10)
rdd2.collect()

[84, 32, 4, 10, 32, 20, 5, 20, 22]

filtro los componenetes únicos del rdd

In [None]:
unicos = rdd.distinct()
unicos.collect()

[74, 22, -6, 0, 10, 12, -5]

# EJERCICIO 2

subimos el texto y lo hacemos visible

In [18]:

data_path = '/content/drive/MyDrive/TokioSchool/'

fichero = sc.textFile(data_path + 'loremipsum.txt')
fichero.collect()


['Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nunc non gravida libero. Donec at dolor commodo, varius lorem vitae, consectetur lorem. Donec arcu purus, pharetra in nisi at, suscipit iaculis neque. Nullam malesuada tellus at mauris sagittis, nec fermentum quam vestibulum. Ut elementum libero et quam semper, a ullamcorper turpis cursus. Aliquam nisl tellus, cursus a augue ut, tristique dictum ante. Duis ornare orci ut ipsum efficitur rhoncus. Sed eu orci maximus, luctus nisi et, iaculis turpis. Vestibulum metus dui, elementum quis tempor nec, dictum in nibh. Suspendisse fringilla neque eu diam vehicula, quis sagittis nulla euismod. Nam non lacus vitae enim congue posuere at et massa. Cras vitae venenatis erat.',
 'Quisque sed efficitur sapien, sed congue turpis. Ut porttitor vitae dolor quis porta. Curabitur sed libero nec magna gravida condimentum non ac dolor. Ut a aliquam lectus, a aliquet odio. Sed eros elit, tempus vitae mauris quis, sagittis malesuada purus. Mauris gra

 separo cada palabra del RDD llamado fichero, para crear un RDD con las palabras separadas que se llama fichero2 todo en mayúsculas para que cuente todos los elementos

In [38]:
fichero2 =fichero.flatMap(lambda x: str.upper(x.replace('.', '').replace(',','')).split(" "))
for element in fichero2.collect():
    print(element)


LOREM
IPSUM
DOLOR
SIT
AMET
CONSECTETUR
ADIPISCING
ELIT
NUNC
NON
GRAVIDA
LIBERO
DONEC
AT
DOLOR
COMMODO
VARIUS
LOREM
VITAE
CONSECTETUR
LOREM
DONEC
ARCU
PURUS
PHARETRA
IN
NISI
AT
SUSCIPIT
IACULIS
NEQUE
NULLAM
MALESUADA
TELLUS
AT
MAURIS
SAGITTIS
NEC
FERMENTUM
QUAM
VESTIBULUM
UT
ELEMENTUM
LIBERO
ET
QUAM
SEMPER
A
ULLAMCORPER
TURPIS
CURSUS
ALIQUAM
NISL
TELLUS
CURSUS
A
AUGUE
UT
TRISTIQUE
DICTUM
ANTE
DUIS
ORNARE
ORCI
UT
IPSUM
EFFICITUR
RHONCUS
SED
EU
ORCI
MAXIMUS
LUCTUS
NISI
ET
IACULIS
TURPIS
VESTIBULUM
METUS
DUI
ELEMENTUM
QUIS
TEMPOR
NEC
DICTUM
IN
NIBH
SUSPENDISSE
FRINGILLA
NEQUE
EU
DIAM
VEHICULA
QUIS
SAGITTIS
NULLA
EUISMOD
NAM
NON
LACUS
VITAE
ENIM
CONGUE
POSUERE
AT
ET
MASSA
CRAS
VITAE
VENENATIS
ERAT
QUISQUE
SED
EFFICITUR
SAPIEN
SED
CONGUE
TURPIS
UT
PORTTITOR
VITAE
DOLOR
QUIS
PORTA
CURABITUR
SED
LIBERO
NEC
MAGNA
GRAVIDA
CONDIMENTUM
NON
AC
DOLOR
UT
A
ALIQUAM
LECTUS
A
ALIQUET
ODIO
SED
EROS
ELIT
TEMPUS
VITAE
MAURIS
QUIS
SAGITTIS
MALESUADA
PURUS
MAURIS
GRAVIDA
CONVALLIS
MAURIS
SIT
AMET
TEMPOR
ANTE

 Mostrar el conteo de palabras de forma descendente, de manera que en primer lugar se encuentre aquella con mayor número de apariciones.

In [39]:
fichero2.count()

282

In [40]:
fichero2.take(1)

['LOREM']

Creo una tupla para que cada palabra tenga un 1

In [41]:
conteo = fichero2.map(lambda x : (x,1))
conteo.collect()

[('LOREM', 1),
 ('IPSUM', 1),
 ('DOLOR', 1),
 ('SIT', 1),
 ('AMET', 1),
 ('CONSECTETUR', 1),
 ('ADIPISCING', 1),
 ('ELIT', 1),
 ('NUNC', 1),
 ('NON', 1),
 ('GRAVIDA', 1),
 ('LIBERO', 1),
 ('DONEC', 1),
 ('AT', 1),
 ('DOLOR', 1),
 ('COMMODO', 1),
 ('VARIUS', 1),
 ('LOREM', 1),
 ('VITAE', 1),
 ('CONSECTETUR', 1),
 ('LOREM', 1),
 ('DONEC', 1),
 ('ARCU', 1),
 ('PURUS', 1),
 ('PHARETRA', 1),
 ('IN', 1),
 ('NISI', 1),
 ('AT', 1),
 ('SUSCIPIT', 1),
 ('IACULIS', 1),
 ('NEQUE', 1),
 ('NULLAM', 1),
 ('MALESUADA', 1),
 ('TELLUS', 1),
 ('AT', 1),
 ('MAURIS', 1),
 ('SAGITTIS', 1),
 ('NEC', 1),
 ('FERMENTUM', 1),
 ('QUAM', 1),
 ('VESTIBULUM', 1),
 ('UT', 1),
 ('ELEMENTUM', 1),
 ('LIBERO', 1),
 ('ET', 1),
 ('QUAM', 1),
 ('SEMPER', 1),
 ('A', 1),
 ('ULLAMCORPER', 1),
 ('TURPIS', 1),
 ('CURSUS', 1),
 ('ALIQUAM', 1),
 ('NISL', 1),
 ('TELLUS', 1),
 ('CURSUS', 1),
 ('A', 1),
 ('AUGUE', 1),
 ('UT', 1),
 ('TRISTIQUE', 1),
 ('DICTUM', 1),
 ('ANTE', 1),
 ('DUIS', 1),
 ('ORNARE', 1),
 ('ORCI', 1),
 ('UT', 1),


recuento las veces que aparece cada palabra

In [42]:
recuento = conteo.reduceByKey(lambda x, y : x+y)
recuento.collect()

[('DOLOR', 4),
 ('CONSECTETUR', 2),
 ('ADIPISCING', 1),
 ('ELIT', 2),
 ('NUNC', 1),
 ('LIBERO', 3),
 ('COMMODO', 1),
 ('VITAE', 6),
 ('ARCU', 1),
 ('PURUS', 4),
 ('PHARETRA', 1),
 ('IACULIS', 3),
 ('NULLAM', 1),
 ('MALESUADA', 2),
 ('TELLUS', 2),
 ('SAGITTIS', 4),
 ('FERMENTUM', 2),
 ('VESTIBULUM', 2),
 ('ET', 5),
 ('SEMPER', 2),
 ('ULLAMCORPER', 2),
 ('CURSUS', 2),
 ('NISL', 2),
 ('AUGUE', 2),
 ('TRISTIQUE', 2),
 ('DICTUM', 2),
 ('ORNARE', 1),
 ('EFFICITUR', 2),
 ('RHONCUS', 2),
 ('EU', 5),
 ('MAXIMUS', 1),
 ('DUI', 1),
 ('QUIS', 6),
 ('TEMPOR', 2),
 ('SUSPENDISSE', 1),
 ('NULLA', 3),
 ('EUISMOD', 2),
 ('CONGUE', 2),
 ('POSUERE', 1),
 ('MASSA', 3),
 ('CRAS', 1),
 ('VENENATIS', 2),
 ('QUISQUE', 1),
 ('SAPIEN', 4),
 ('PORTTITOR', 1),
 ('CURABITUR', 1),
 ('MAGNA', 1),
 ('CONDIMENTUM', 1),
 ('AC', 2),
 ('LECTUS', 2),
 ('EROS', 2),
 ('TEMPUS', 3),
 ('SCELERISQUE', 1),
 ('BLANDIT', 1),
 ('MOLLIS', 2),
 ('TORTOR', 2),
 ('VIVAMUS', 1),
 ('MOLESTIE', 2),
 ('VEL', 2),
 ('FINIBUS', 1),
 ('SEM', 

recuento las tuplas que se han formado

In [43]:
recuento.count()


125

ordeno en orden descendente los 174 resultados

In [44]:
recuento.takeOrdered (174, key = lambda x: -x[1])


[('UT', 8),
 ('SED', 8),
 ('VITAE', 6),
 ('QUIS', 6),
 ('A', 6),
 ('ET', 5),
 ('EU', 5),
 ('LOREM', 5),
 ('SIT', 5),
 ('AMET', 5),
 ('MAURIS', 5),
 ('ERAT', 5),
 ('DOLOR', 4),
 ('PURUS', 4),
 ('SAGITTIS', 4),
 ('SAPIEN', 4),
 ('IPSUM', 4),
 ('NON', 4),
 ('GRAVIDA', 4),
 ('DONEC', 4),
 ('AT', 4),
 ('NEQUE', 4),
 ('NEC', 4),
 ('TURPIS', 4),
 ('ANTE', 4),
 ('LUCTUS', 4),
 ('LIBERO', 3),
 ('IACULIS', 3),
 ('NULLA', 3),
 ('MASSA', 3),
 ('TEMPUS', 3),
 ('IN', 3),
 ('NISI', 3),
 ('ELEMENTUM', 3),
 ('DUIS', 3),
 ('ORCI', 3),
 ('CONSECTETUR', 2),
 ('ELIT', 2),
 ('MALESUADA', 2),
 ('TELLUS', 2),
 ('FERMENTUM', 2),
 ('VESTIBULUM', 2),
 ('SEMPER', 2),
 ('ULLAMCORPER', 2),
 ('CURSUS', 2),
 ('NISL', 2),
 ('AUGUE', 2),
 ('TRISTIQUE', 2),
 ('DICTUM', 2),
 ('EFFICITUR', 2),
 ('RHONCUS', 2),
 ('TEMPOR', 2),
 ('EUISMOD', 2),
 ('CONGUE', 2),
 ('VENENATIS', 2),
 ('AC', 2),
 ('LECTUS', 2),
 ('EROS', 2),
 ('MOLLIS', 2),
 ('TORTOR', 2),
 ('MOLESTIE', 2),
 ('VEL', 2),
 ('EX', 2),
 ('CONSEQUAT', 2),
 ('VARIUS',

Genero un nuevo RDD con tamaño igual o mayor que 7 caracteres

In [45]:
rddmayor = recuento.filter(lambda x: (len(x[0])>7)).collect()
print (rddmayor)

[('CONSECTETUR', 2), ('ADIPISCING', 1), ('PHARETRA', 1), ('MALESUADA', 2), ('SAGITTIS', 4), ('FERMENTUM', 2), ('VESTIBULUM', 2), ('ULLAMCORPER', 2), ('TRISTIQUE', 2), ('EFFICITUR', 2), ('SUSPENDISSE', 1), ('VENENATIS', 2), ('PORTTITOR', 1), ('CURABITUR', 1), ('CONDIMENTUM', 1), ('SCELERISQUE', 1), ('MOLESTIE', 2), ('FACILISIS', 1), ('PENATIBUS', 1), ('PARTURIENT', 1), ('NASCETUR', 1), ('RIDICULUS', 1), ('CONSEQUAT', 2), ('FACILISI', 1), ('SUSCIPIT', 1), ('ELEMENTUM', 3), ('FRINGILLA', 1), ('VEHICULA', 1), ('CONVALLIS', 1), ('ULTRICIES', 1), ('INTERDUM', 2)]
