# First RDD ✨

In [1]:
# Import to "find" spark, as the name suggests

import findspark
findspark.init()

In [2]:
# To use RDD we must first create a Spark session and Spark context

from pyspark.sql import SparkSession
from pyspark.conf import SparkConf

In [3]:
# Creating a Spark Session

spark = SparkSession.builder \
.master("local[4]") \
.appName("WordCount_RDD") \
.getOrCreate()

In [4]:
# Creating a Spark Context

sc = spark.sparkContext

In [5]:
# Define your path and read the txt

path = "C:\\Users\\seman\\Desktop\\PySpark\\Pyspark_WordCount_RDD\\omer_seyfettin_forsa_hikaye.txt"
story_rdd = sc.textFile(path)

In [6]:
# Returns the number of rows in the document

story_rdd.count()

103

In [7]:
# Brings first 5 rows of the document

story_rdd.take(5)

['Ömer Seyfettin - Forsa',
 '',
 'Akdeniz’in, kahramanlık yuvası sonsuz ufuklarına bakan küçük tepe, minimini bir çiçek ormanı gibiydi. İnce uzun dallı badem ağaçlarının alaca gölgeleri sahile inen keçiyoluna düşüyor, ilkbaharın tatlı rüzgârıyla sarhoş olan martılar, çılgın bağrışlarıyla havayı çınlatıyordu. Badem bahçesinin yanı geniş bir bağdı. Beyaz taşlardan yapılmış kısa bir duvarın ötesindeki harabe vadiye kadar iniyordu. Bağın ortasındaki yıkık kulübenin kapısız girişinden bir ihtiyar çıktı. Saçı sakalı bembeyazdı. Kamburunu düzeltmek istiyormuş gibi gerindi. Elleri, ayakları titriyordu. Gök kadar boş, gök kadar sakin duran denize baktı, baktı.',
 '',
 '– Hayırdır inşallah! dedi.']

In [8]:
# flatMap performs defined peration on each row in the document

words = story_rdd.flatMap(lambda row: row.split(" ")) # split according to space

In [9]:
# Let's take a look at words

words.take(10)

['Ömer',
 'Seyfettin',
 '-',
 'Forsa',
 '',
 'Akdeniz’in,',
 'kahramanlık',
 'yuvası',
 'sonsuz',
 'ufuklarına']

In [14]:
# To count words, we will start by appending 1 next to each and making them a tuple

word_count = words.map(lambda word: (word,1))

In [15]:
type(words)

pyspark.rdd.PipelinedRDD

In [16]:
word_count.take(5)

[('Ömer', 1), ('Seyfettin', 1), ('-', 1), ('Forsa', 1), ('', 1)]

In [17]:
# Now we will reduce them by key - meaning : keys will be words and values will be number of times it occurs in the document

word_count_RBK = word_count.reduceByKey(lambda x,y: x+y)

In [18]:
word_count_RBK.take(5)

[('Ömer', 1), ('Seyfettin', 1), ('Forsa', 1), ('', 59), ('Akdeniz’in,', 1)]

In [19]:
# Now let's take the numbers as first element in tuple

word_count_RBK2 = word_count_RBK.map(lambda x: (x[1],x[0]))

In [20]:
word_count_RBK2.take(5)

[(1, 'Ömer'), (1, 'Seyfettin'), (1, 'Forsa'), (59, ''), (1, 'Akdeniz’in,')]

In [21]:
# Now let's sort them in descending order
# 10 most common words are listed 

word_count_RBK2.sortByKey(False).take(10)

[(59, ''),
 (33, 'bir'),
 (31, '–'),
 (8, 'yıl'),
 (6, 'diye'),
 (5, 'Türk'),
 (5, 'dedi.'),
 (5, 'onun'),
 (5, 'doğru'),
 (5, 'Kırk')]