In [2]:
import findspark
findspark.init()
 
# spark 객체 생성    
from pyspark.sql import SparkSession

spark = SparkSession\
        .builder\
        .appName('Python Spark SQL basic example')\
        .config('spark.some.config.option', 'some-value')\
        .getOrCreate()

spark

### Create json file using spark

In [6]:
# sparkContext로 객체 생성
sc = spark.sparkContext

# json file 읽어들이기
path ='people.json'
peopleDF = spark.read.json(path)

# printSchema()로 json파일의 스키마 형태 볼 수 있음
peopleDF.printSchema()
peopleDF.show()

root
 |-- age: long (nullable = true)
 |-- name: string (nullable = true)

+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+



In [5]:
# 데이터프레임을 사용하는 임시의 view(가상의 테이블) 생성
peopleDF.createOrReplaceTempView("people")

# spark에서 제공하는 sql 메소드를 이용해 쿼리 날리기
# 쿼리문에서 people 테이블은 위에서 만들었던 view 테이블!
teenagerNameDF = spark.sql("SELECT name FROM people WHERE age BETWEEN 13 AND 19")
teenagerNameDF.show()

+------+
|  name|
+------+
|Justin|
+------+



In [7]:
# json 파일 읽어들이기
path = 'people.json'
df = spark.read.json(path)

# Global Temporary View 생성
df.createOrReplaceGlobalTempView('people')

# 'global_temp' 키워드를 사용해야 모든 SparkSession들 간에 View를 공유가능
sqlDF = spark.sql('SELECT * FROM global_temp.people')
sqlDF.show()

+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+



In [11]:
# 데이터프레임은 RDD[String] 자료구조를 이용해서 json 데이터셋을
# 데이터 프레임으로 생성 가능
jsonStrings = ['{"name": "Yin", "address":{"city":"Columbus", "state":"Ohio"}}']

# json --> RDD형식으로 만들기
otherPeopleRDD = sc.parallelize(jsonStrings)

# json파일 읽어오기
otherPeople = spark.read.json(otherPeopleRDD)
otherPeople.printSchema()
otherPeople.show()

root
 |-- address: struct (nullable = true)
 |    |-- city: string (nullable = true)
 |    |-- state: string (nullable = true)
 |-- name: string (nullable = true)

+----------------+----+
|         address|name|
+----------------+----+
|{Columbus, Ohio}| Yin|
+----------------+----+



In [21]:
# Spark 내부에서의 Dataset과 Dataframe의 차이
# Dataset : 받아오는 데이터의 형태를 미리 정의해 놓음
# DataFrame : 프로그램이 데이터의 형태를 추측함

# DataFrame의 칼럼에 접근하기 위한 방법 2가지 : df.column, df\['column''\]

# json 파일 읽어들이기
path = 'people.json'
df = spark.read.json(path)

# name 칼럼 select해서 살펴보기
df.select('name').show()

# name 칼럼 + 1
df.select(df['name'], df['age'] + 1).show()

# age가 20보다 큰 데이터만 추출
df.filter(df['age'] > 20).show()

# age 칼럼으로 grouping 데이터의 개수를 집계
df.groupBy('age').count().show()

+-------+
|   name|
+-------+
|Michael|
|   Andy|
| Justin|
+-------+

+-------+---------+
|   name|(age + 1)|
+-------+---------+
|Michael|     null|
|   Andy|       31|
| Justin|       20|
+-------+---------+

+---+----+
|age|name|
+---+----+
| 30|Andy|
+---+----+

+----+-----+
| age|count|
+----+-----+
|  19|    1|
|null|    1|
|  30|    1|
+----+-----+



In [22]:
from pyspark.sql.types import *

# SparkContext 객체 생성
sc = spark.sparkContext

# txt file 읽기
lines = sc.textFile('people.txt')
parts = lines.map(lambda x: x.split(','))

## step 1 ## --> value 처리
# 각 라인을 tuple( , ) 형태로 convert
people = parts.map(lambda y: (y[0], y[1].strip())) # name에서 공백 strip

## step 2 ## --> Schema들 처리
# 문자열로 인코딩된 스키마
schemaString = "name age"

# schemaString 요소를 loop돌면서 StructField로 만들기
fields = [StructField(field_name, StringType(), True) for field_name in schemaString.split()]

# StructField 여러 개가 있는 리스트를 StructType으로 만들기
schema = StructType(fields)

## step 3 ## --> value와 schema 활용해 DataFrame 생성
# 위에서 만든 schema를 RDD의 schema로 적용
schemaPeople = spark.createDataFrame(people, schema)

# View Table 생성해 쿼리 날려서 데이터 추출해보기
schemaPeople.createOrReplaceTempView('people')
results = spark.sql("SELECT * FROM people")
results.show()

+------+---+
|  name|age|
+------+---+
|Michel| 29|
|  Andy| 30|
|Juston| 19|
+------+---+

