# PySpark modunda çalışma ve SparkSession Başlatma

In [1]:
## Burada hata alırsanız komut satırından "pip install findspark" komutunu çalıştırarak findspark'ı yüklemeyi unutmayın.
import findspark
findspark.init()
import pyspark # only run after findspark.init()

In [2]:
from pyspark.sql import SparkSession
from pyspark.conf import SparkConf

spark = SparkSession.builder \
.master("local[4]") \
.appName("RDD-Olusturmak") \
.config("spark.executor.memory","16g") \
.config("spark.driver.memory","4g") \
.getOrCreate()

# sparkContext'i kısaltmada tut
sc = spark.sparkContext

# Python listelerinden RDD oluşturmak

In [3]:
rdd1 = sc.parallelize([('Ahmet',25),('Cemal',29),('İnci',38),('Burcu',33)])

In [4]:
rdd1.take(4)

[('Ahmet', 25), ('Cemal', 29), ('İnci', 38), ('Burcu', 33)]

In [5]:
rdd2 = sc.parallelize([['Ahmet',25],['Cemal',29],['İnci',38],['Burcu',33]])

In [6]:
rdd2.take(4)

[['Ahmet', 25], ['Cemal', 29], ['İnci', 38], ['Burcu', 33]]

In [7]:
rdd2.count()

4

In [8]:
sayilar = sc.parallelize((1,2,3,4,5,6,7,8))

In [9]:
sayilar.take(3)

[1, 2, 3]

In [10]:
sayilarRDD = sc.parallelize([[1,2,3],[4,5,6]])

# Python sözlükten (dictionary) RDD oluşturmak

In [11]:
# Sözlük oluşturma
my_dict ={
    "Ogrenci":['Ali','Mehmet'],
    "Notlar":[70,80]
}

In [19]:
# Sözlüğü önce pandas dataframe'e çevirelim
import pandas as pd
pdDF = pd.DataFrame(my_dict)

In [20]:
# Oluşan Pandas Dataframe'e göz atalım
pdDF.head()

Unnamed: 0,Notlar,Ogrenci
0,70,Ali
1,80,Mehmet


In [16]:
# spark.createDataFrame'e pandas dataframe'i parametre vererek spark dataframe oluşturalım ve onuda sonunda rdd'ye çevirelim
rdd_from_pddf = spark.createDataFrame(pdDF).rdd

In [17]:
# Oluşturduğumuz rdd'nin iki elemanına göz atalım (sıralı gelmez ise endişeye gerek yok bu normal)
rdd_from_pddf.take(2)

[Row(Notlar=70, Ogrenci='Ali'), Row(Notlar=80, Ogrenci='Mehmet')]

In [18]:
# # Oluşturduğumuz rdd'nin bir elemanına göz atalım (sıralı gelmez ise endişeye gerek yok bu normal)
rdd_from_pddf.take(1)

[Row(Notlar=70, Ogrenci='Ali')]

# Metin dosyalarından RDD oluşturmak

Veri kaynağı: ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/DVS/mortality/mort2014us.zip
Veriyi 7 zip ile açtıktan sonra okuyoruz.

In [32]:
## os.chdir() alternatifi olarak herseferinde uzun yolu yazmamak adına çalışma ortamına kadar olan you bir string içinde tutalım
path_initial = "C:/Users/toshiba/SkyDrive/veribilimi.co/udemy-apache-spark/"

In [33]:
# Yukarıda verdiğim linkten indirilen ve 7zip ile açılan dosyayı okuyalım
rdd_metin = sc.textFile(path_initial + "data/VS14MORT.DUSMCPUB")

In [34]:
# rdd içinde kaç satı var sayalım
rdd_metin.count()

2631171

In [35]:
# rdd içinden bir kayıt seçip bakalım
rdd_metin.take(1)

['                   1                                          2101  M1087 432311  4M4                2014U7CN                                    I64 238 070   24 0111I64                                                                                                                                                                           01 I64                                                                                                  01  11                                 100 601']