# 스키마와 데이터 프레임 만들기
- 스키마는 데이터프레임을 위해 칼럼 이름과 연관된 데이터 타입을 정의한 것이다.

<br>

- 외부 데이터 소스에서 구조화된 데이터를 읽을 때 스키마를 가져오는 방식과 달리 스키마를 정의하는 것은 세가지 장점이 있다.
> 스파크가 데이터 타입을 추축해야 하는 책임을 덜어 준다.<br>
> 스파크가 스키마를 확정하기 위해 파일의 많은 부분을 읽어 들이려고 별도의 잡을 만드는 것을 방지한다. 데이터 파일이 큰 경우, 이는 비용과 시간이 많이 드는 작업이다.<br>
> 데이터가 스키마와 맞지 않는 경우, 조기에 문제를 발견할 수 있다.

<br>

- 따라서 데이터 소스에서 큰 파일을 읽어야 한다면 가능한 한 반드시 스키마를 미리 지정해 두기를 권장한다.

프로그래밍 스타일로 스키마 정의

In [1]:
from pyspark.sql.types import *
schema = StructType([StructField('author', StringType(), False),
                    StructField('title', StringType(), False),
                    StructField('pages', IntegerType(), False)])

DDL을 사용한 스키마 정의

In [2]:
schema = 'author STRING, title STRING, pages INT'

스키마를 정의하여 데이터프레임 생성

In [3]:
from pyspark.sql.types import *
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

# define schema for our data
# 프로그래밍 스타일로 스키마 정의
schema = StructType([
   StructField("Id", IntegerType(), False),
   StructField("First", StringType(), False),
   StructField("Last", StringType(), False),
   StructField("Url", StringType(), False),
   StructField("Published", StringType(), False),
   StructField("Hits", IntegerType(), False),
   StructField("Campaigns", ArrayType(StringType()), False)])

# DDL로 스키마 정의
# schema = "'Id' INT, 'First' STRING, 'Last' STRING, 'Url' STRING, \
#     'Published' STRING, 'Hits' INT, 'Campaigns' ARRAY<STRING>"

#create our data
data = [[1, "Jules", "Damji", "https://tinyurl.1", "1/4/2016", 4535, 
         ["twitter", "LinkedIn"]],
       [2, "Brooke","Wenig","https://tinyurl.2", "5/5/2018", 8908, 
        ["twitter", "LinkedIn"]],
       [3, "Denny", "Lee", "https://tinyurl.3","6/7/2019",7659, ["web", "twitter", "FB", "LinkedIn"]],
       [4, "Tathagata", "Das","https://tinyurl.4", "5/12/2018", 10568, 
        ["twitter", "FB"]],
       [5, "Matei","Zaharia", "https://tinyurl.5", "5/14/2014", 40578, 
        ["web", "twitter", "FB", "LinkedIn"]],
       [6, "Reynold", "Xin", "https://tinyurl.6", "3/2/2015", 25568, 
        ["twitter", "LinkedIn"]]
      ]
# main program
if __name__ == "__main__":
   #create a SparkSession
   spark = (SparkSession
       .builder
       .appName("Example-3_6")
       .getOrCreate())
   # create a DataFrame using the schema defined above
   blogs_df = spark.createDataFrame(data, schema)
   # show the DataFrame; it should reflect our table above
   blogs_df.show()
   
# 에러발생
# 오류의 원인을 모르겠음.
# 데이터프레임을 만들고 show하면 에러발생
# read로 데이터를 읽어 show하면 에러가 발생하지 않음
# ubuntu 환경에서 오류해결

23/09/06 16:32:45 WARN Utils: Your hostname, minseok-VirtualBox resolves to a loopback address: 127.0.1.1; using 10.0.2.15 instead (on interface enp0s3)
23/09/06 16:32:45 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/09/06 16:32:46 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
                                                                                

+---+---------+-------+-----------------+---------+-----+--------------------+
| Id|    First|   Last|              Url|Published| Hits|           Campaigns|
+---+---------+-------+-----------------+---------+-----+--------------------+
|  1|    Jules|  Damji|https://tinyurl.1| 1/4/2016| 4535| [twitter, LinkedIn]|
|  2|   Brooke|  Wenig|https://tinyurl.2| 5/5/2018| 8908| [twitter, LinkedIn]|
|  3|    Denny|    Lee|https://tinyurl.3| 6/7/2019| 7659|[web, twitter, FB...|
|  4|Tathagata|    Das|https://tinyurl.4|5/12/2018|10568|       [twitter, FB]|
|  5|    Matei|Zaharia|https://tinyurl.5|5/14/2014|40578|[web, twitter, FB...|
|  6|  Reynold|    Xin|https://tinyurl.6| 3/2/2015|25568| [twitter, LinkedIn]|
+---+---------+-------+-----------------+---------+-----+--------------------+



In [4]:
# print the schema used by Spark to process the DataFrame
print(blogs_df.printSchema())

# schema: 스키마 정의를 보여줌
# 정의한 스키마를 복붙할 때 사용하기 좋음
print(blogs_df.schema)

root
 |-- Id: integer (nullable = false)
 |-- First: string (nullable = false)
 |-- Last: string (nullable = false)
 |-- Url: string (nullable = false)
 |-- Published: string (nullable = false)
 |-- Hits: integer (nullable = false)
 |-- Campaigns: array (nullable = false)
 |    |-- element: string (containsNull = true)

None
StructType([StructField('Id', IntegerType(), False), StructField('First', StringType(), False), StructField('Last', StringType(), False), StructField('Url', StringType(), False), StructField('Published', StringType(), False), StructField('Hits', IntegerType(), False), StructField('Campaigns', ArrayType(StringType(), True), False)])


스키마를 미리 정의하고, 정의한대로 JSON파일 읽기

In [5]:
from pyspark.sql.types import *
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

# 프로그래밍 스타일로 스키마 정의
# schema = StructType([
#    StructField("Id", IntegerType(), False),
#    StructField("First", StringType(), False),
#    StructField("Last", StringType(), False),
#    StructField("Url", StringType(), False),
#    StructField("Published", StringType(), False),
#    StructField("Hits", IntegerType(), False),
#    StructField("Campaigns", ArrayType(StringType()), False)])

# DDL로 스키마 정의
schema = "Id INT, First STRING, Last STRING, Url STRING, \
    Published STRING, Hits INT, Campaigns ARRAY<STRING>"

# 지정한 스키마가 저장되어있는 변수를 넣어준다.
blog_df = spark.read.schema(schema).json('blogs.json')
blog_df.show()

# 역시나 파일을 읽어보고 show하는것은 에러나지 않는다.

+---+---------+-------+-----------------+---------+-----+--------------------+
| Id|    First|   Last|              Url|Published| Hits|           Campaigns|
+---+---------+-------+-----------------+---------+-----+--------------------+
|  1|    Jules|  Damji|https://tinyurl.1| 1/4/2016| 4535| [twitter, LinkedIn]|
|  2|   Brooke|  Wenig|https://tinyurl.2| 5/5/2018| 8908| [twitter, LinkedIn]|
|  3|    Denny|    Lee|https://tinyurl.3| 6/7/2019| 7659|[web, twitter, FB...|
|  4|Tathagata|    Das|https://tinyurl.4|5/12/2018|10568|       [twitter, FB]|
|  5|    Matei|Zaharia|https://tinyurl.5|5/14/2014|40578|[web, twitter, FB...|
|  6|  Reynold|    Xin|https://tinyurl.6| 3/2/2015|25568| [twitter, LinkedIn]|
+---+---------+-------+-----------------+---------+-----+--------------------+



In [6]:
print(blog_df.printSchema())
blog_df.schema

root
 |-- Id: integer (nullable = true)
 |-- First: string (nullable = true)
 |-- Last: string (nullable = true)
 |-- Url: string (nullable = true)
 |-- Published: string (nullable = true)
 |-- Hits: integer (nullable = true)
 |-- Campaigns: array (nullable = true)
 |    |-- element: string (containsNull = true)

None


StructType([StructField('Id', IntegerType(), True), StructField('First', StringType(), True), StructField('Last', StringType(), True), StructField('Url', StringType(), True), StructField('Published', StringType(), True), StructField('Hits', IntegerType(), True), StructField('Campaigns', ArrayType(StringType(), True), True)])

# 컬럼

In [13]:
from pyspark.sql.functions import *
blog_df.columns

['Id', 'First', 'Last', 'Url', 'Published', 'Hits', 'Campaigns']

In [60]:
# 값 계산을 위한 표현식 사용
blog_df.select(expr('Hits * 2')).show(2)

+----------+
|(Hits * 2)|
+----------+
|      9070|
|     17816|
+----------+
only showing top 2 rows



In [61]:
# col을 이용한 계산
blog_df.select(col('Hits') * 2).show(2)

# 결과는 동일하다.

+----------+
|(Hits * 2)|
+----------+
|      9070|
|     17816|
+----------+
only showing top 2 rows



In [63]:
# 결과가 동일한 다른 표현
blog_df.select(blog_df['Hits'] * 2).show(2)

+----------+
|(Hits * 2)|
+----------+
|      9070|
|     17816|
+----------+
only showing top 2 rows



In [64]:
# 새로운 컬럼 생성
blog_df.withColumn('Big Hitters', (expr('Hits > 10000'))).show()

# (expr('Hits > 10000') 표현식에 맞는 값을 'Big Hitters'라는 새로운 컬럼으로 생성

+---+---------+-------+-----------------+---------+-----+--------------------+-----------+
| Id|    First|   Last|              Url|Published| Hits|           Campaigns|Big Hitters|
+---+---------+-------+-----------------+---------+-----+--------------------+-----------+
|  1|    Jules|  Damji|https://tinyurl.1| 1/4/2016| 4535| [twitter, LinkedIn]|      false|
|  2|   Brooke|  Wenig|https://tinyurl.2| 5/5/2018| 8908| [twitter, LinkedIn]|      false|
|  3|    Denny|    Lee|https://tinyurl.3| 6/7/2019| 7659|[web, twitter, FB...|      false|
|  4|Tathagata|    Das|https://tinyurl.4|5/12/2018|10568|       [twitter, FB]|       true|
|  5|    Matei|Zaharia|https://tinyurl.5|5/14/2014|40578|[web, twitter, FB...|       true|
|  6|  Reynold|    Xin|https://tinyurl.6| 3/2/2015|25568| [twitter, LinkedIn]|       true|
+---+---------+-------+-----------------+---------+-----+--------------------+-----------+



In [71]:
# 다른 표현식
(blog_df.withColumn('AuthorsId', (concat(expr('First'), expr('Last'), expr('Id'))))
 .select(col('AuthorsId'))
 .show(4))

+-------------+
|    AuthorsId|
+-------------+
|  JulesDamji1|
| BrookeWenig2|
|    DennyLee3|
|TathagataDas4|
+-------------+
only showing top 4 rows



In [72]:
# 모두 같은 결과를 보여주는 표현
blog_df.select(expr('Hits')).show(2)
blog_df.select(col('Hits')).show(2)
blog_df.select('Hits').show(2)

+----+
|Hits|
+----+
|4535|
|8908|
+----+
only showing top 2 rows



In [79]:
# 'Id' 컬럼값에 따라 역순으로 정렬
blog_df.sort(col('Id').desc()).show()
blog_df.orderBy(blog_df['Id'].desc()).show()

+---+---------+-------+-----------------+---------+-----+--------------------+
| Id|    First|   Last|              Url|Published| Hits|           Campaigns|
+---+---------+-------+-----------------+---------+-----+--------------------+
|  6|  Reynold|    Xin|https://tinyurl.6| 3/2/2015|25568| [twitter, LinkedIn]|
|  5|    Matei|Zaharia|https://tinyurl.5|5/14/2014|40578|[web, twitter, FB...|
|  4|Tathagata|    Das|https://tinyurl.4|5/12/2018|10568|       [twitter, FB]|
|  3|    Denny|    Lee|https://tinyurl.3| 6/7/2019| 7659|[web, twitter, FB...|
|  2|   Brooke|  Wenig|https://tinyurl.2| 5/5/2018| 8908| [twitter, LinkedIn]|
|  1|    Jules|  Damji|https://tinyurl.1| 1/4/2016| 4535| [twitter, LinkedIn]|
+---+---------+-------+-----------------+---------+-----+--------------------+

+---+---------+-------+-----------------+---------+-----+--------------------+
| Id|    First|   Last|              Url|Published| Hits|           Campaigns|
+---+---------+-------+-----------------+---------+