# PySpark modunda çalışma ve SparkSession Başlatma

In [1]:
## Burada hata alırsanız komut satırından "pip install findspark" komutunu çalıştırarak findspark'ı yüklemeyi unutmayın.
import findspark
findspark.init()
import pyspark # only run after findspark.init()

### SparkContex oluşturma yöntem-1: SparkSession

In [2]:
from pyspark.sql import SparkSession
from pyspark.conf import SparkConf

spark = SparkSession.builder \
.master("local[4]") \
.appName("RDD-Olusturmak") \
.config("spark.executor.memory","4g") \
.config("spark.driver.memory","2g") \
.getOrCreate()

# sparkContext'i kısaltmada tut
sc = spark.sparkContext

# Python listelerinden RDD oluşturmak

In [3]:
rdd1 = sc.parallelize([('Ahmet',25),('Cemal',29),('İnci',38),('Burcu',33)])

In [4]:
rdd1.take(4)

[('Ahmet', 25), ('Cemal', 29), ('İnci', 38), ('Burcu', 33)]

In [5]:
rdd2 = sc.parallelize([['Ahmet',25],['Cemal',29],['İnci',38],['Burcu',33]])

In [6]:
rdd2.take(4)

[['Ahmet', 25], ['Cemal', 29], ['İnci', 38], ['Burcu', 33]]

In [7]:
rdd2.count()

4

In [8]:
sayilar = sc.parallelize((1,2,3,4,5,6,7,8))

In [9]:
sayilar.take(3)

[1, 2, 3]

In [10]:
sayilarRDD = sc.parallelize([[1,2,3],[4,5,6]])

# Python sözlükten (dictionary) RDD oluşturmak

In [11]:
# Sözlük oluşturma
my_dict ={
    "Ogrenci":['Ali','Mehmet'],
    "Notlar":[70,80]
}

In [12]:
# Sözlüğü önce pandas dataframe'e çevirelim
import pandas as pd
pdDF = pd.DataFrame(my_dict)

In [13]:
# Oluşan Pandas Dataframe'e göz atalım
pdDF.head()

Unnamed: 0,Ogrenci,Notlar
0,Ali,70
1,Mehmet,80


In [14]:
# spark.createDataFrame'e pandas dataframe'i parametre vererek spark dataframe oluşturalım ve onuda sonunda rdd'ye çevirelim
rdd_from_pddf = spark.createDataFrame(pdDF).rdd

In [15]:
# Oluşturduğumuz rdd'nin iki elemanına göz atalım (sıralı gelmez ise endişeye gerek yok bu normal)
rdd_from_pddf.take(2)

[Row(Ogrenci='Ali', Notlar=70), Row(Ogrenci='Mehmet', Notlar=80)]

In [16]:
# # Oluşturduğumuz rdd'nin bir elemanına göz atalım (sıralı gelmez ise endişeye gerek yok bu normal)
rdd_from_pddf.take(1)

[Row(Ogrenci='Ali', Notlar=70)]

# Metin dosyalarından RDD oluşturmak

In [17]:
## os.chdir() alternatifi olarak herseferinde uzun yolu yazmamak adına çalışma ortamına kadar olan you bir string içinde tutalım
data_path = "C:/Users/toshiba/SkyDrive/veribilimi.co/Datasets/"

In [18]:
# Yukarıda verdiğim linkten indirilen ve 7zip ile açılan dosyayı okuyalım
rdd_metin = sc.textFile(data_path + "OnlineRetail.csv")

In [19]:
# rdd içinde kaç satı var sayalım
rdd_metin.count()

541910

In [21]:
# rdd içinden bir kayıt seçip bakalım
rdd_metin.take(2)

['InvoiceNo;StockCode;Description;Quantity;InvoiceDate;UnitPrice;CustomerID;Country',
 '536365;85123A;WHITE HANGING HEART T-LIGHT HOLDER;6;1.12.2010 08:26;2,55;17850;United Kingdom']