In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [2]:
from datetime import date, datetime
from pyspark.sql import *
from pyspark.sql.types import *
from pyspark.sql.functions import *


## select()

In [3]:
# DataFrame.select(*cols)[source]
# Parameters
# cols : str, Column, or list
# column names (string) or expressions (Column). 
#If one of the column names is ‘*’, that column is expanded to include all columns in the current DataFrame.
class_df = spark.read.csv('/dataframe/a_class_info.csv', header=True)
class_df.show(3)

[Stage 1:>                                                          (0 + 1) / 1]

+--------+------+-------------+--------+-----------+-------------+
|class_cd|school|class_std_cnt|     loc|school_type|teaching_type|
+--------+------+-------------+--------+-----------+-------------+
|     6OL| ANKYI|           20|   Urban| Non-public|     Standard|
|     ZNS| ANKYI|           21|   Urban| Non-public|     Standard|
|     2B1| CCAAW|           18|Suburban| Non-public| Experimental|
+--------+------+-------------+--------+-----------+-------------+
only showing top 3 rows



                                                                                

In [12]:
# str
df_spark = class_df.select('school','loc','teaching_type')
df_spark.show(3)

# *
df_spark = class_df.select('*')
df_spark.show(3)

# list
df_spark = class_df.select(['class_cd','school'])
df_spark.show(3)

+------+--------+-------------+
|school|     loc|teaching_type|
+------+--------+-------------+
| ANKYI|   Urban|     Standard|
| ANKYI|   Urban|     Standard|
| CCAAW|Suburban| Experimental|
+------+--------+-------------+
only showing top 3 rows

+--------+------+-------------+--------+-----------+-------------+
|class_cd|school|class_std_cnt|     loc|school_type|teaching_type|
+--------+------+-------------+--------+-----------+-------------+
|     6OL| ANKYI|           20|   Urban| Non-public|     Standard|
|     ZNS| ANKYI|           21|   Urban| Non-public|     Standard|
|     2B1| CCAAW|           18|Suburban| Non-public| Experimental|
+--------+------+-------------+--------+-----------+-------------+
only showing top 3 rows

+--------+------+
|class_cd|school|
+--------+------+
|     6OL| ANKYI|
|     ZNS| ANKYI|
|     2B1| CCAAW|
+--------+------+
only showing top 3 rows



#### Column 

In [17]:
# Column : 내부에 DataFrame 연산을 위한 Expression을 가지고 있는 객체
col('school')

# 데이터프레임에서 원하는 컬럼을 반환
class_df.school

class_df.colRegex("`^school.*`")

lit('school')

Column<'school'>

Column<'school'>

Column<'unresolvedregex()'>

Column<'school'>

In [21]:
df_spark = class_df.select(col('school'))
df_spark.show(3)

df_spark = class_df.select(class_df.school)
df_spark.show(3)

df_spark = class_df.select(class_df.colRegex("`^school.*`"))
df_spark.show(3)

#df_spark = class_df.select(lit('school'))
#df_spark.show(3)

+------+
|school|
+------+
| ANKYI|
| ANKYI|
| CCAAW|
+------+
only showing top 3 rows

+------+
|school|
+------+
| ANKYI|
| ANKYI|
| CCAAW|
+------+
only showing top 3 rows

+------+-----------+
|school|school_type|
+------+-----------+
| ANKYI| Non-public|
| ANKYI| Non-public|
| CCAAW| Non-public|
+------+-----------+
only showing top 3 rows

+------+
|school|
+------+
|school|
|school|
|school|
+------+
only showing top 3 rows



#### Column 연산

- 산술연산 :  +  -  *  /  %
- 비교연산 : <  >  <=  >=  ==  !=
- 논리연산 : &  |




![op-overloading](./img/op_overloading.png)

In [33]:
class_df.class_std_cnt + 100
class_df.class_std_cnt - 100
class_df.class_std_cnt / 100
class_df.class_std_cnt % 100
class_df.class_std_cnt < 100
class_df.class_std_cnt > 100
class_df.class_std_cnt <= 100
class_df.class_std_cnt >= 100
(class_df.class_std_cnt >= 100) & (class_df.class_std_cnt < 1000)

# DataFrame의 select메서드에 새로운 컬럼을 전달인자로 보낼 경우 해당 컬럼이 추가된 새로운 DataFrame이 생성된다.
class_df.select(class_df.school, class_df.class_cd, (class_df.class_std_cnt >= 10) & (class_df.class_std_cnt < 20)).show(3)

col_is_big = ((class_df.class_std_cnt >= 10) & (class_df.class_std_cnt < 20)).alias('is_big')
class_df.select(class_df.school
                , class_df.class_cd
                , col_is_big).show(3)

Column<'(class_std_cnt + 100)'>

Column<'(class_std_cnt - 100)'>

Column<'(class_std_cnt / 100)'>

Column<'(class_std_cnt % 100)'>

Column<'(class_std_cnt < 100)'>

Column<'(class_std_cnt > 100)'>

Column<'(class_std_cnt <= 100)'>

Column<'(class_std_cnt >= 100)'>

Column<'((class_std_cnt >= 100) AND (class_std_cnt < 1000))'>

+------+--------+------------------------------------------------+
|school|class_cd|((class_std_cnt >= 10) AND (class_std_cnt < 20))|
+------+--------+------------------------------------------------+
| ANKYI|     6OL|                                           false|
| ANKYI|     ZNS|                                           false|
| CCAAW|     2B1|                                            true|
+------+--------+------------------------------------------------+
only showing top 3 rows

+------+--------+------+
|school|class_cd|is_big|
+------+--------+------+
| ANKYI|     6OL| false|
| ANKYI|     ZNS| false|
| CCAAW|     2B1|  true|
+------+--------+------+
only showing top 3 rows




#### Column 메서드

In [43]:
class_df = spark.read.csv('/dataframe/a_class_info.csv', header=True)
class_df.show(3)

school = class_df.school
class_cd = class_df.class_cd
std_cnt = class_df.class_std_cnt

std_cnt.asc()
class_df.select(class_df.school, class_cd, class_df.class_std_cnt).sort(std_cnt.desc()).show(100)


+--------+------+-------------+--------+-----------+-------------+
|class_cd|school|class_std_cnt|     loc|school_type|teaching_type|
+--------+------+-------------+--------+-----------+-------------+
|     6OL| ANKYI|           20|   Urban| Non-public|     Standard|
|     ZNS| ANKYI|           21|   Urban| Non-public|     Standard|
|     2B1| CCAAW|           18|Suburban| Non-public| Experimental|
+--------+------+-------------+--------+-----------+-------------+
only showing top 3 rows



Column<'class_std_cnt ASC NULLS FIRST'>

+------+--------+-------------+
|school|class_cd|class_std_cnt|
+------+--------+-------------+
| GOOBU|     18K|           31|
| VVTVA|     A93|           30|
| VVTVA|     YTB|           30|
| ZOWMK|     Q0E|           30|
| ZOWMK|     QA2|           30|
| ZOWMK|     ZBH|           30|
| VVTVA|     7BL|           29|
| CUQAM|     1Q1|           28|
| QOQTS|     0N7|           28|
| CUQAM|     OMI|           28|
| DNQDD|     ROP|           28|
| GOOBU|     HKF|           28|
| QOQTS|     SUR|           28|
| GJJHK|     NOR|           27|
| GJJHK|     ZDT|           27|
| KFZMY|     1VD|           27|
| ZOWMK|     CII|           27|
| CUQAM|     BFY|           27|
| DNQDD|     XXJ|           27|
| DNQDD|     2AP|           27|
| GOOBU|     W8A|           26|
| UKPGS|     9AW|           25|
| VVTVA|     TB5|           25|
| GOOBU|     U6J|           25|
| KFZMY|     21Q|           25|
| QOQTS|     X2O|           25|
| GOOBU|     PBA|           24|
| CUQAM|     X6Z|           24|
| GOOBU|

## select 연습

DataFrame은 class_df 를 사용합니다

1. 모든 row의  class_cd, school, loc, school_type, teaching_type을 출력하시오.  
   school_type의 컬럼명은 '공립/사립여부' 로 표시합니다.
   
   
2. class_cd, school, scale 을 출력하시오.   
   scale 컬럼은 반의 인원수가 15명 미만이면 small, 15명 이상 25명 미만이면 middle, 25명 이상이면 big 값을 가집니다.
   
   
3. class_cd, school, class_std_cnt를 출력하시오  
   class_std_cnt 컬럼의 값들은 string타입으로 형변환합니다.

In [55]:
# 모든 row의 class_cd, school, loc, school_type, teaching_type을 출력하시오.
# school_type의 컬럼명은 '공립/사립여부' 로 표시합니다.
# hint : pyspark.sql.Column.alias()
class_df.select('class_cd', 'school', 'loc', class_df.school_type.alias('공립/사립여부') , 'teaching_type').show(3)

# class_cd, school, scale 을 출력하시오.
# scale 컬럼은 반의 인원수가 15명 미만이면 small, 15명 이상 25명 미만이면 middle, 25명 이상이면 big 값을 가집니다.
# hint : pyspark.sql.functions.when()
class_df.printSchema()
class_df.select('class_cd', 'school', (when(class_df.class_std_cnt < 15, 'small')
                                            .when((class_df.class_std_cnt >= 15) & (class_df.class_std_cnt < 25), 'middle')
                                            .otherwise('big')).alias('scale')).show(3)

# class_cd, school, class_std_cnt를 출력하시오
# class_std_cnt 컬럼의 값들은 string타입으로 형변환합니다.
# hint : pyspark.sql.Column.cast()
class_df.select('class_cd', 'school', class_df.class_std_cnt.cast('int')).printSchema()




+--------+------+--------+-------------+-------------+
|class_cd|school|     loc|공립/사립여부|teaching_type|
+--------+------+--------+-------------+-------------+
|     6OL| ANKYI|   Urban|   Non-public|     Standard|
|     ZNS| ANKYI|   Urban|   Non-public|     Standard|
|     2B1| CCAAW|Suburban|   Non-public| Experimental|
+--------+------+--------+-------------+-------------+
only showing top 3 rows

root
 |-- class_cd: string (nullable = true)
 |-- school: string (nullable = true)
 |-- class_std_cnt: string (nullable = true)
 |-- loc: string (nullable = true)
 |-- school_type: string (nullable = true)
 |-- teaching_type: string (nullable = true)

+--------+------+------+
|class_cd|school| scale|
+--------+------+------+
|     6OL| ANKYI|middle|
|     ZNS| ANKYI|middle|
|     2B1| CCAAW|middle|
+--------+------+------+
only showing top 3 rows

root
 |-- class_cd: string (nullable = true)
 |-- school: string (nullable = true)
 |-- class_std_cnt: integer (nullable = true)



### sql

In [62]:
# sql을 사용해 같은 결과를 받아보기
# dataFrame을 테이블로 등록
class_df.createOrReplaceTempView('class')

# 모든 row의 class_cd, school, loc, school_type, teaching_type을 출력하시오.
# school_type의 컬럼명은 '공립/사립여부' 로 표시합니다.
# alias 지정시 `` (백틱) 사용
spark.sql('''
    select class_cd, school, loc, school_type as `공립/사립여부`, teaching_type from class
''').show(3)

# class_cd, school, scale 을 출력하시오.
# scale 컬럼은 반의 인원수가 15명 미만이면 small, 15명 이상 25명 미만이면 middle, 25명 이상이면 big 값을 가집니다.
spark.sql('''
    select class_cd, school, 
            case when class_std_cnt < 15 then 'small'
                   when class_std_cnt >= 15 and  class_std_cnt < 25 then 'middle'
                   else 'big'
           end as scale
    from class        
''').show(3)

# class_cd, school, class_std_cnt를 출력하시오
# class_std_cnt 컬럼의 값들은 string타입으로 형변환합니다.
# spark built-in-fnc 의 cast()
spark.sql('''
    select class_cd, school, cast(class_std_cnt as string) from class
''').printSchema()






+--------+------+--------+-------------+-------------+
|class_cd|school|     loc|공립/사립여부|teaching_type|
+--------+------+--------+-------------+-------------+
|     6OL| ANKYI|   Urban|   Non-public|     Standard|
|     ZNS| ANKYI|   Urban|   Non-public|     Standard|
|     2B1| CCAAW|Suburban|   Non-public| Experimental|
+--------+------+--------+-------------+-------------+
only showing top 3 rows

+--------+------+------+
|class_cd|school| scale|
+--------+------+------+
|     6OL| ANKYI|middle|
|     ZNS| ANKYI|middle|
|     2B1| CCAAW|middle|
+--------+------+------+
only showing top 3 rows

root
 |-- class_cd: string (nullable = true)
 |-- school: string (nullable = true)
 |-- class_std_cnt: string (nullable = true)



## where(), filter()

1. 공립이면서 교육방식이 전문인 데이터를 출력하시오

2. 사립이면서 교육방식이 표준인 데이터를 출력하시오

3. 학교 이름이 V로 시작하는 데이터를 출력하시오

4. 학교 이름이 M로 끝나는 데이터를 출력하시오

5. 학교 이름에 NKY가 포함된 데이터를 출력하시오

6. 반의 학생 수가 15명 이상 24명 이하인 데이터를 출력하시오

7. 학교 이름이 입력되지 않은 데이터들을 출력하시오


In [12]:
class_df.printSchema()

print('공립이면서 교육방식이 전문인 데이터를 출력하시오.')
class_df.select('*') \
            .where((class_df.school_type == 'Public') 
            & (class_df.teaching_type == 'Experimental')) \
            .show(3)

print('사립이면서 교육방식이 표준 데이터를 출력하시오.')
class_df.select('*') \
        .where((class_df.school_type == 'Non-public') & (class_df.teaching_type == 'Standard')) \
        .show(3)

print('학교 이름이 V로 시작하는 데이터를 출력하시오.')
class_df.select('*') \
        .where(class_df.school.startswith('V')) \
        .show(3)

print('학교 이름이 M로 끝하는 데이터를 출력하시오.')
class_df.select('*') \
        .where(class_df.school.endswith('M')) \
        .show(3)

print('학교 이름에 NKY가 들어가는 데이터를 출력하시오.')
class_df.select('*') \
        .where(class_df.school.contains('NKY')) \
        .show(3)

print('반의 학생 수가 15명 이상 24명 이하인 데이터를 출력하시오.')
class_df.select('*') \
        .where(class_df.class_std_cnt.between(15, 24)) \
        .show(3)

print('학교 이름이 입력되지 않은 데이터들을 출력하시오')
class_df.select('*') \
        .where(class_df.school.isNull()) \
        .show(3)


root
 |-- class_cd: string (nullable = true)
 |-- school: string (nullable = true)
 |-- class_std_cnt: string (nullable = true)
 |-- loc: string (nullable = true)
 |-- school_type: string (nullable = true)
 |-- teaching_type: string (nullable = true)

공립이면서 교육방식이 전문인 데이터를 출력하시오.
+--------+------+-------------+--------+-----------+-------------+
|class_cd|school|class_std_cnt|     loc|school_type|teaching_type|
+--------+------+-------------+--------+-----------+-------------+
|     X6Z| CUQAM|           24|   Urban|     Public| Experimental|
|     PW5| DNQDD|           20|Suburban|     Public| Experimental|
|     ROP| DNQDD|           28|Suburban|     Public| Experimental|
+--------+------+-------------+--------+-----------+-------------+
only showing top 3 rows

사립이면서 교육방식이 표준 데이터를 출력하시오.
+--------+------+-------------+--------+-----------+-------------+
|class_cd|school|class_std_cnt|     loc|school_type|teaching_type|
+--------+------+-------------+--------+-----------+-------------

[Stage 23:>                                                         (0 + 1) / 1]                                                                                

#### sql

In [4]:
class_df.printSchema()

print('공립이면서 교육방식이 전문인 데이터를 출력하시오')
spark.sql('''
    select * from class where school_type = 'Public' and teaching_type = 'Experimental'
''').show(3)

print('사립이면서 교육방식이 표준인 데이터를 출력하시오')
spark.sql('''
    select * from class 
    where school_type = 'Non-public' and teaching_type = 'Standard'
''').show(3)

print('학교 이름이 V로 시작하는 데이터를 출력하시오')
spark.sql('''
    select * from class 
    where school like 'V%'
''').show(3)

print('학교 이름이 M로 끝나는 데이터를 출력하시오')
spark.sql('''
    select * from class 
    where school like '%M'
''').show(3)

print('학교 이름에 NKY가 포함된 데이터를 출력하시오')
spark.sql('''
    select * from class 
    where school like '%NKY%'
''').show(3)

print('반의 학생 수가 15명 이상 24명 이하인 데이터를 출력하시오')
spark.sql('''
    select * from class
    where class_std_cnt between 15 and 24
''').show(3)

print('학교 이름이 입력되지 않은 데이터들을 출력하시오')
spark.sql('''
    select * from class
    where school is null
''').show(3)


root
 |-- class_cd: string (nullable = true)
 |-- school: string (nullable = true)
 |-- class_std_cnt: string (nullable = true)
 |-- loc: string (nullable = true)
 |-- school_type: string (nullable = true)
 |-- teaching_type: string (nullable = true)

공립이면서 교육방식이 전문인 데이터를 출력하시오


AnalysisException: Table or view not found: class; line 2 pos 18;
'Project [*]
+- 'Filter (('school_type = Public) AND ('teaching_type = Experimental))
   +- 'UnresolvedRelation [class], [], false
