In [1]:
import findspark
findspark.init()

In [2]:
from pyspark.conf import SparkConf
from pyspark import SparkContext

In [3]:
conf = SparkConf() \
.setMaster("local[4]") \
.setAppName("RDD_Tekrar") \
.setExecutorEnv("spark.executor.memory","4g") \
.setExecutorEnv("spark.driver.memory","2g")

In [4]:
sc = SparkContext(conf = conf)

In [5]:
rdd = sc.parallelize([10,46,56])

# RDD Basic Transformations

In [6]:
rddMap = rdd.map(lambda x: x*x) # Map(Her bir elemente bir fonksiyon uygular ve yeni RDD dönderir)

In [7]:
rddMap.collect()

[100, 2116, 3136]

In [8]:
rddFilter = rdd.filter(lambda x: x > 45) # Filter(Bir fonksiyon alıp filtreden geçirip yeni RDD dönderir.)

In [9]:
rddFilter.collect()

[46, 56]

In [10]:
rdd2 = sc.parallelize("Murat eve gel")

In [11]:
rddFlatMap = rdd2.flatMap(lambda x : x.split(" ")).map(lambda x: x.upper()) # FlatMap(Map'in yaptığı işi her bir elemana uygular)

In [12]:
deneme = rddFlatMap.collect()

In [13]:
for eleman in deneme:
    print(eleman)

M
U
R
A
T


E
V
E


G
E
L


In [14]:
rdd3 = sc.parallelize(deneme)

In [15]:
rddDistinct = rdd3.distinct() # Distinct(Tekrarlanan elemanları çıkarır.)

In [16]:
rddDistinct.collect()

['', 'L', 'M', 'U', 'A', 'T', 'R', 'E', 'V', 'G']

# Two RDD Basic Transformations

In [25]:
rddUnion = rdd3.union(rddDistinct) # Union(Her iki RDD ye ait elemanlardan oluşan bir RDD döner.)

In [18]:
rddUnion.collect()

['M',
 'U',
 'R',
 'A',
 'T',
 '',
 '',
 'E',
 'V',
 'E',
 '',
 '',
 'G',
 'E',
 'L',
 '',
 'L',
 'M',
 'U',
 'A',
 'T',
 'R',
 'E',
 'V',
 'G']

In [28]:
rdd = sc.parallelize([1,2,9,4,5,36])
rdd2 = sc.parallelize([1,4,9,16,25,36])

In [26]:
rddInterSection = rdd.intersection(rdd2) # InterSection(Her iki RDD ye ait ortak elemanlardan oluşan RDD döner.)

In [24]:
rddInterSection.collect() 

[1, 9, 4, 36]

In [34]:
rddSubt = rdd.subtract(rdd2) # Subtract(Diğer RDD olmayan elemanlardan oluşan RDD döner.)

In [33]:
rddSubt.collect()

[2, 5]

In [35]:
rddCartesian = rdd.cartesian(rdd2) # Cartesian(İki RDD arasında kartezyen çarpıma ait çiftlerden oluşan RDD döner.)

In [36]:
rddCartesian.collect()

[(1, 1),
 (1, 4),
 (1, 9),
 (1, 16),
 (1, 25),
 (1, 36),
 (2, 1),
 (9, 1),
 (2, 4),
 (2, 9),
 (9, 4),
 (9, 9),
 (2, 16),
 (9, 16),
 (2, 25),
 (2, 36),
 (9, 25),
 (9, 36),
 (4, 1),
 (4, 4),
 (4, 9),
 (4, 16),
 (4, 25),
 (4, 36),
 (5, 1),
 (36, 1),
 (5, 4),
 (5, 9),
 (36, 4),
 (36, 9),
 (5, 16),
 (36, 16),
 (5, 25),
 (5, 36),
 (36, 25),
 (36, 36)]

# RDD Basic Actions(collect,count,countByValue,take,takeOrdered,reduce)

In [38]:
rdd.collect() # Tüm elemanları döner.

[1, 2, 9, 4, 5, 36]

In [39]:
rdd.count() # RDD'deki elaman sayısını döner

6

In [40]:
rdd.countByValue() # Her bir elemanın RDD içinde kaç kez tekrarlandığını hesaplar ve tuple döner

defaultdict(int, {1: 1, 2: 1, 9: 1, 4: 1, 5: 1, 36: 1})

In [41]:
rdd.take(3) # Verilen parametre sayısına göre RDD eleman çeker

[1, 2, 9]

In [42]:
rdd.top(3) # RDD içinden istenen sayıda en üstten eleman döner.

[36, 9, 5]

In [44]:
rdd.takeOrdered(4) # RDD içindeki elemanları sıralayarak istenen sayıda eleman döner

[1, 2, 4, 5]

In [46]:
rdd.reduce(lambda x,y : x+y) #Belirlenen fonksiyonu RDD elemanlarına uygulayıp sonucu döner

57

In [47]:
sc.stop()