In [1]:
from pyspark import SparkConf, SparkContext

In [45]:
#singleton pattern object builder

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("FirstSparkSessionApp").getOrCreate()

24/12/06 15:05:31 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


In [6]:
myRange = spark.range(1000)

In [7]:
myRange

DataFrame[id: bigint]

In [8]:
myRange.show(10)

[Stage 0:>                                                          (0 + 1) / 1]

+---+
| id|
+---+
|  0|
|  1|
|  2|
|  3|
|  4|
|  5|
|  6|
|  7|
|  8|
|  9|
+---+
only showing top 10 rows



                                                                                

교재 46, 52페이지

In [9]:
data = [
    ("Brook", 20),
    ("Denny", 31),
    ("Jules", 30),
]

In [16]:
data_frame = spark.createDataFrame(data)
data_frame

DataFrame[_1: string, _2: bigint]

In [11]:
data_frame.show()

[Stage 1:>                                                          (0 + 1) / 1]

+-----+---+
|   _1| _2|
+-----+---+
|Brook| 20|
|Denny| 31|
|Jules| 30|
+-----+---+



                                                                                

In [12]:
data_frame.printSchema()

root
 |-- _1: string (nullable = true)
 |-- _2: long (nullable = true)



In [13]:
data_frame.createOrReplaceTempView("people") #임시뷰

In [15]:
#sql 문 작성
result = spark.sql("select _1, _2 from people where _2 > 30")
result.show()

+-----+---+
|   _1| _2|
+-----+---+
|Denny| 31|
+-----+---+



In [None]:
# StructType으로 구조 정의 52페이지

In [18]:
from pyspark.sql.types import *

In [24]:
schema = StructType(
    [
        StructField("Author", StringType(), False),
        StructField("age", IntegerType(), False)
    ]
)

In [25]:
schema

StructType(List(StructField(Author,StringType,false),StructField(age,IntegerType,false)))

In [27]:
a_df = spark.createDataFrame(data, schema)

In [29]:
a_df.printSchema()

root
 |-- Author: string (nullable = false)
 |-- age: integer (nullable = false)



In [28]:
a_df.show()

+------+---+
|Author|age|
+------+---+
| Brook| 20|
| Denny| 31|
| Jules| 30|
+------+---+



In [None]:
# DDL 로 구조 정의 52페이지

In [46]:
schema1 = """
    ID INT, 
    First STRING, 
    Last STRING, 
    Url STRING, 
    Published STRING, 
    Hits INT, 
    Campaigns ARRAY<STRING>
"""

In [47]:
# define schema for our data
schema = StructType([
   StructField("Id", IntegerType(), False),
   StructField("First", StringType(), False),
   StructField("Last", StringType(), False),
   StructField("Url", StringType(), False),
   StructField("Published", StringType(), False),
   StructField("Hits", IntegerType(), False),
   StructField("Campaigns", ArrayType(StringType()), False)])

#create our data
data = [[1, "Jules", "Damji", "https://tinyurl.1", "1/4/2016", 4535, ["twitter", "LinkedIn"]],
       [2, "Brooke","Wenig","https://tinyurl.2", "5/5/2018", 8908, ["twitter", "LinkedIn"]],
       [3, "Denny", "Lee", "https://tinyurl.3","6/7/2019",7659, ["web", "twitter", "FB", "LinkedIn"]],
       [4, "Tathagata", "Das","https://tinyurl.4", "5/12/2018", 10568, ["twitter", "FB"]],
       [5, "Matei","Zaharia", "https://tinyurl.5", "5/14/2014", 40578, ["web", "twitter", "FB", "LinkedIn"]],
       [6, "Reynold", "Xin", "https://tinyurl.6", "3/2/2015", 25568, ["twitter", "LinkedIn"]]
      ]

In [31]:
b_df = spark.createDataFrame(data, schema)

In [49]:
b_df1 = spark.createDataFrame(data, schema1)

In [50]:
b_df1.printSchema()

root
 |-- ID: integer (nullable = true)
 |-- First: string (nullable = true)
 |-- Last: string (nullable = true)
 |-- Url: string (nullable = true)
 |-- Published: string (nullable = true)
 |-- Hits: integer (nullable = true)
 |-- Campaigns: array (nullable = true)
 |    |-- element: string (containsNull = true)



In [32]:
b_df.printSchema()

root
 |-- Id: integer (nullable = false)
 |-- First: string (nullable = false)
 |-- Last: string (nullable = false)
 |-- Url: string (nullable = false)
 |-- Published: string (nullable = false)
 |-- Hits: integer (nullable = false)
 |-- Campaigns: array (nullable = false)
 |    |-- element: string (containsNull = true)



In [34]:
#column 별로 추출
b_df.select("Id").show(2) #projection

+---+
| Id|
+---+
|  1|
|  2|
+---+
only showing top 2 rows



In [36]:
from pyspark.sql.functions import *

In [38]:
b_df.select( expr("Hits")*2 ).show(10)

+----------+
|(Hits * 2)|
+----------+
|      9070|
|     17816|
|     15318|
|     21136|
|     81156|
|     51136|
+----------+



In [51]:
spark.stop()

# ➕ 데이터프레임과 임시뷰의 차이

## 데이터프레임(DataFrame)
데이터프레임은 일종의 표 같은 데이터 구조입니다. 행과 열로 구성되어 있으며, 스프레드시트나 데이터베이스 테이블과 비슷합니다. 데이터프레임을 사용하면 데이터를 쉽게 읽고, 변환하고, 분석할 수 있습니다.

### 예시:
```python
data = [("Brook", 20), ("Denny", 31), ("Jules", 30)]
data_frame = spark.createDataFrame(data)
data_frame.show()
여기서 data_frame은 이름과 나이 데이터를 포함하는 표처럼 생긴 구조입니다.

## 임시뷰(Temporary View)
임시뷰는 데이터프레임을 SQL 쿼리에서 사용할 수 있도록 임시로 만든 테이블입니다.
SQL을 사용하여 데이터프레임의 데이터를 조회하고 조작할 수 있게 해줍니다.

### 예시:
python
data_frame.createOrReplaceTempView("people")
result = spark.sql("SELECT * FROM people")
result.show()
이 코드에서 createOrReplaceTempView("people")는 data_frame을 "people"이라는 이름의 임시 테이블로 만들어 줍니다.  
그 후, SQL 쿼리를 사용하여 이 임시 테이블에서 데이터를 조회할 수 있습니다.

## 차이점 정리
데이터프레임: 데이터를 표 형태로 저장하여 분석하고 조작할 수 있는 구조입니다. 주로 파이썬 코드에서 사용됩니다.

임시뷰: 데이터프레임을 SQL 쿼리에서 사용할 수 있도록 임시로 만든 테이블입니다. 주로 SQL을 사용하여 데이터를 조회하고 분석할 때 사용됩니다.

## 왜 임시뷰를 사용하는가?
간편한 SQL 쿼리 작성:

임시뷰를 생성하면 SQL 쿼리를 더 간편하게 작성할 수 있습니다. 데이터프레임을 직접 사용하면 파이썬 코드와 혼합되어 복잡해질 수 있지만, 임시뷰를 사용하면 순수 SQL 쿼리만으로도 데이터를 조회하고 조작할 수 있습니다.

복잡한 쿼리 재사용:

임시뷰를 사용하면 복잡한 쿼리나 변환을 여러 번 재사용할 수 있습니다. 예를 들어, 여러 SQL 쿼리에서 동일한 데이터를 반복해서 조회해야 하는 경우, 임시뷰를 만들어두면 코드가 더 깔끔하고 가독성이 좋아집니다.

SQL 친화적인 인터페이스:

SQL에 익숙한 사용자에게는 임시뷰가 더 직관적이고 사용하기 편리할 수 있습니다. 데이터프레임 API보다는 SQL 쿼리를 통해 데이터를 조작하는 것이 더 자연스러운 경우가 많습니다.

데이터 분석 도구와의 호환성:

임시뷰를 생성하면 다른 데이터 분석 도구와 쉽게 연동할 수 있습니다. 예를 들어, JDBC를 사용하여 SQL 쿼리를 실행하거나, SQL 기반의 데이터 시각화 도구를 사용할 때 유용합니다.

## 예시
임시뷰를 사용하지 않고 데이터프레임을 직접 SQL 쿼리에서 사용하는 경우, 파이썬 코드와 SQL 코드가 혼합되어 복잡할 수 있습니다:

python
data_frame.selectExpr("name", "age").where("age > 25").show()
임시뷰를 사용하면 SQL 쿼리만으로 데이터를 조회할 수 있습니다:

python
data_frame.createOrReplaceTempView("people")
result = spark.sql("SELECT name, age FROM people WHERE age > 25")
result.show()

## 요약
데이터프레임: 파이썬 코드 내에서 데이터를 다룰 때 유용합니다.

임시뷰: SQL 쿼리를 사용하여 데이터를 다룰 때 유용합니다. 코드 가독성을 높이고, 복잡한 쿼리 재사용이 쉽습니다.

# ➕ PySpark에서 STRUCTURE TYPE과 DDL 사용 비교
## STRUCTURE TYPE으로 구조 정의
STRUCTURE TYPE은 PySpark에서 StructType과 StructField를 사용하여 데이터프레임의 스키마를 정의하는 방법입니다. 이는 데이터의 구조를 명시적으로 정의할 수 있게 해줍니다.

### 예시: PySpark의 StructType

```
python
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# SparkSession 생성
spark = SparkSession.builder.appName("ExampleApp").getOrCreate()

# STRUCTURE TYPE 정의
schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)
])

# 데이터프레임 생성
data = [("Alice", 30), ("Bob", 25)]
data_frame = spark.createDataFrame(data, schema)

# 데이터프레임 출력
data_frame.show()
이 예시에서는 StructType과 StructField를 사용하여 데이터프레임의 스키마를 정의합니다. name과 age 필드를 포함한 스키마를 정의하고, 이를 사용하여 데이터프레임을 생성합니다.
```
## DDL로 구조 정의
DDL(Data Definition Language)은 SQL 문법을 사용하여 테이블 등의 구조를 정의하는 것입니다. PySpark에서도 SQL 쿼리를 사용하여 테이블을 생성하고 데이터를 조작할 수 있습니다.

### 예시: PySpark SQL DDL
```
python
from pyspark.sql import SparkSession

# SparkSession 생성
spark = SparkSession.builder.appName("ExampleApp").getOrCreate()

# DDL을 사용하여 테이블 생성
spark.sql("""
CREATE TABLE Person (
    name STRING,
    age INT
)
""")

# 데이터 삽입
spark.sql("""
INSERT INTO Person VALUES ('Alice', 30), ('Bob', 25)
""")

# 데이터 조회
result = spark.sql("SELECT * FROM Person")
result.show()
이 예시에서는 SQL DDL을 사용하여 Person 테이블을 생성하고 데이터를 삽입한 후, 조회하는 과정을 보여줍니다.
```
## 차이점 요약
### STRUCTURE TYPE:

PySpark의 StructType과 StructField를 사용하여 데이터프레임의 스키마를 정의합니다.

데이터프레임 생성 시 명시적인 스키마를 정의하여 사용합니다.

### DDL:

SQL 문법을 사용하여 테이블 등의 구조를 정의합니다.

SQL 쿼리를 통해 테이블을 생성, 수정, 삭제합니다.

## 왜 STRUCTURE TYPE 또는 DDL을 사용하는가?
### STRUCTURE TYPE:

데이터프레임을 직접 다룰 때 유용합니다.

스키마를 명시적으로 정의하여 데이터의 구조를 명확하게 할 수 있습니다.

### DDL:

SQL 쿼리를 사용하여 테이블을 정의하고 조작할 때 유용합니다.

SQL에 익숙한 사용자에게 편리하며, 테이블 기반의 데이터 조작이 필요할 때 사용합니다.