Connecting Google Drive File Directory

In [31]:
from google.colab import drive
drive.mount('/content.drive')

Mounted at /content.drive


In [32]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/ull
!wget -q  https://archive.apache.org/dist/spark/spark-3.2.3/spark-3.2.3-bin-hadoop3.2.tgz

In [33]:
# Unzip Spark Version
!tar xf spark-3.2.3-bin-hadoop3.2.tgz

Spark Environment SetUp

In [34]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.2.3-bin-hadoop3.2"
!pip install -q findspark
!pip install -q pyspark

Starting Spark Session

In [35]:
import findspark
findspark.init()
from pyspark.sql import SparkSession

In [36]:
# Starting Spark Session called cap2 that included all available cores
cap2 = SparkSession.builder.master("local[*]").getOrCreate()

In [37]:
# Re-Creating cap2 Spark Session because we are including appName
cap2 = SparkSession.builder.master("local[*]").appName('Task1 Pyspark').getOrCreate()

Importing Libraries to create RDD

In [38]:
import findspark
findspark.init()
from pyspark.sql import SparkSession

In [39]:
# We first need to initialize SparkContext
sc = cap2.sparkContext

In [40]:
# Creating Empty RDD with no Partitions
rdd_zero = sc.emptyRDD

In [41]:
# Creating Empty RDD with 5 Partitions
rdd_one = sc.parallelize([],5)

# Validating
rdd_one.getNumPartitions()

5

Creating a RDD that contains the Prime Numbers from 1-20

In [42]:
number = int(input("Input the Prime Range : "))
primenumbers =[] # Creating an empty list that will contain the Prime numbers that will be used to create the RDD

for x in range(2,number): # We start from 1 not 0
    for i in range(2,x):
        if (x%i==0):
            break
    else:
        print(x)
        primenumbers.append(x)

print(primenumbers)

Input the Prime Range : 20
2
3
5
7
11
13
17
19
[2, 3, 5, 7, 11, 13, 17, 19]


In [43]:
# RDD Prime & Validation
rdd_prime = sc.parallelize(primenumbers)

rdd_prime.collect()

[2, 3, 5, 7, 11, 13, 17, 19]

Create a RDD Based Out of the Previous RDD (rdd_prime) but that only
contains the Prime Numbers that are greater than 10

In [44]:
# This is just a logical test
def rddfunprime(pn):

  a = 0

  for a in range(len(pn)):
    if pn[a] > 10:
      print(pn[a])
      a = a + 1
    else:
      a = a + 1
      pass

rddfunprime(primenumbers)

11
13
17
19


In [45]:
rdd_g10 = rdd_prime.filter(lambda x : x > 10) # New RDD based out of rdd_prime that contains the prime numebers greater than 10
rdd_g10.collect()

[11, 13, 17, 19]

Create a RDD Based Out of a File Where All of the File Content is Stored in a Single Record

In [46]:
rdd_file1 = sc.wholeTextFiles("/content.drive/MyDrive/Python Data Engineer/el_valor_del_big_data.txt")

In [47]:
'''
  In this block of Code, my objective is to obtain the FilePath of the File that was used to create the
  RDD_File1.

  The WholeTextFiles() Function saves the data as a List of Tuple: [(String, String)]
  ---> Where String1 is the File Path
        And String2 is the Entire content of the File

  My objective is to only grab String1
'''

# Grabbing the List of Tuple and save it to the stated variable
rdd_list_filepath = rdd_file1.collect()

# Grabbing Touple that's positioned in Index0 from the List and save it to stated variable
path = rdd_list_filepath[0]

# Print String Index0 of the Touple which in this case would be the FilePath
print(path[0])

file:/content.drive/MyDrive/Python Data Engineer/el_valor_del_big_data.txt


Create a RDD that contains a record per each line of the text file

In [48]:
'''
  In this block of Code I'm reading and extracting
  each line of the file and saving it into the file_data variable

  The Type is a List

  Using the List I can create a RDD
'''
file = open("/content.drive/MyDrive/Python Data Engineer/el_valor_del_big_data.txt")
file_data = file.readlines()
file.close()
print(file_data)
type(file_data)
len(file_data)

['El valor y la realidad de big data\n', 'En los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?\n', '\n', 'Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.\n', '\n', 'Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.\n', '\n', 'Identificar el valor del big data no pasa solo por a

8

In [50]:
rdd_textline = sc.parallelize(file_data)
rdd_textline.collect()


['El valor y la realidad de big data\n',
 'En los últimos años, han surgido otras "dos V": valor y veracidad. Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto puede confiar en ellos?\n',
 '\n',
 'Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos, que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos productos.\n',
 '\n',
 'Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar decisiones empresariales más acertadas y precisas.\n',
 '\n',
 'Identificar el valor del big data no pasa sol

In [51]:
rdd_textline.getNumPartitions()

2