In [12]:
import findspark
findspark.init()

In [27]:
from pyspark.sql import SparkSession
from pyspark.conf import SparkConf
from pyspark import SparkContext


### SparkContext oluşturma yöntem-1: SparkSession

In [None]:
pyspark = SparkSession.builder \
# sparkın çalışma modu local, yarn, kubernetes. İçine yazılan 4 işlemcinin 4 çekirdeğini kullanabilirsin demek, (*) hepsini kullan
.master("local[4]") \
.appName("rdd-ollusturma") \
# spark conf ile yapılan işlemler burada elle yapılıyor,
#1- işçi sunucular
.config("spark.executor.memory", "4g")\
# 2- driver'ı ayarla: kullanıcının sonuçlarının döndüğü yer, bazen sonuçlar buna sığmaz o zmn bunu ayarlamak gerekir
.config("spark.driver.memory","2g")\
# böyle bir spark session varsa getir yoksa oluştur
.getOrCreate()

In [43]:
pyspark = SparkSession.builder \
.master("local[4]") \
.appName("rdd-ollusturma") \
.config("spark.executor.memory", "4g")\
.config("spark.driver.memory","2g")\
.getOrCreate()

In [44]:
sc = pyspark.sparkContext

In [18]:
sc.stop()

### SparkContext oluşturma yöntem-2 : Spark Session ve SparkConf

In [20]:
conf = SparkConf() \
.setMaster("local[4]") \
.setAppName("RDD_olusturma")\
.setExecutorEnv("spark.executorç.memory", "4g") \
.setExecutorEnv("spark.driver.memory", "4g")

pyspark = SparkSession.builder\
.config(conf=conf) \
.getOrCreate()

In [22]:
sc = pyspark.sparkContext

In [25]:
sc.stop()

### SparkContext oluşturma yöntem-3 : Spark Context ve SparkConf

In [28]:
conf = SparkConf() \
.setMaster("local[4]") \
.setAppName("RDD_olusturma")\
.setExecutorEnv("spark.executorç.memory", "4g") \
.setExecutorEnv("spark.driver.memory", "4g")

In [29]:
sc = SparkContext(conf=conf)

In [41]:
sc.stop()

# Python listelerinden RDD oluşturmak

In [30]:
rdd1 = sc.parallelize([("Ahmet", 25), ("Cemal", 29),("İnci", 38),("Burcu", 33)])

In [31]:
rdd1.take(3)

[('Ahmet', 25), ('Cemal', 29), ('İnci', 38)]

In [33]:
rdd2 = sc.parallelize([["Ahmet", 25], ["Cemal", 29],["İnci", 38],["Burcu", 33]])

In [34]:
rdd2.take(2)

[['Ahmet', 25], ['Cemal', 29]]

In [35]:
rdd2.count()

4

# Python dict'ten RDD oluşturmak

In [45]:
my_dict = {
     "ogrenci" : ['ali', "ayse", "mehmet"],
     "notlar": [70,90,80]
}

In [46]:
import pandas as pd

In [47]:
pdDF = pd.DataFrame(my_dict)

In [48]:
pdDF.head()

Unnamed: 0,ogrenci,notlar
0,ali,70
1,ayse,90
2,mehmet,80


In [49]:
rdd_from_pandasDF = pyspark.createDataFrame(pdDF)

In [50]:
rdd_from_pandasDF.show()

+-------+------+
|ogrenci|notlar|
+-------+------+
|    ali|    70|
|   ayse|    90|
| mehmet|    80|
+-------+------+



In [51]:
rdd_from_pandas = rdd_from_pandasDF.rdd

In [52]:
rdd_from_pandas.take(3)

[Row(ogrenci='ali', notlar=70),
 Row(ogrenci='ayse', notlar=90),
 Row(ogrenci='mehmet', notlar=80)]

# Metin dosyasından RDD oluşturmak

In [53]:
metin = sc.textFile('OnlineRetail.csv')

In [54]:
metin.take(10)

['InvoiceNo;StockCode;Description;Quantity;InvoiceDate;UnitPrice;CustomerID;Country',
 '536365;85123A;WHITE HANGING HEART T-LIGHT HOLDER;6;1.12.2010 08:26;2,55;17850;United Kingdom',
 '536365;71053;WHITE METAL LANTERN;6;1.12.2010 08:26;3,39;17850;United Kingdom',
 '536365;84406B;CREAM CUPID HEARTS COAT HANGER;8;1.12.2010 08:26;2,75;17850;United Kingdom',
 '536365;84029G;KNITTED UNION FLAG HOT WATER BOTTLE;6;1.12.2010 08:26;3,39;17850;United Kingdom',
 '536365;84029E;RED WOOLLY HOTTIE WHITE HEART.;6;1.12.2010 08:26;3,39;17850;United Kingdom',
 '536365;22752;SET 7 BABUSHKA NESTING BOXES;2;1.12.2010 08:26;7,65;17850;United Kingdom',
 '536365;21730;GLASS STAR FROSTED T-LIGHT HOLDER;6;1.12.2010 08:26;4,25;17850;United Kingdom',
 '536366;22633;HAND WARMER UNION JACK;6;1.12.2010 08:28;1,85;17850;United Kingdom',
 '536366;22632;HAND WARMER RED POLKA DOT;6;1.12.2010 08:28;1,85;17850;United Kingdom']