## groupBy()

- groupBy  : 집계함수를 가지고 있는 GroupData 객체를 반환한다.  

- GrouopData객체의 집계함수들을 사용해 grouping 된 데이터들의 집계결과를 저장하고 있는 DataFrame을 반환 받을 수 있다.

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [2]:
from datetime import date, datetime
from pyspark.sql import *
from pyspark.sql.types import *
from pyspark.sql.functions import *
from pyspark.sql import functions as F

In [4]:
cdf = spark.read.csv('/dataframe/a_class_info.csv', header=True)
cdf.printSchema()

root
 |-- class_cd: string (nullable = true)
 |-- school: string (nullable = true)
 |-- class_std_cnt: string (nullable = true)
 |-- loc: string (nullable = true)
 |-- school_type: string (nullable = true)
 |-- teaching_type: string (nullable = true)



In [9]:
# 지역별 교육타입별 학생 숫자를 구해보자.
# cdf.groupby(cdf.loc, cdf.teaching_type).sum('class_std_cnt').show()
# AnalysisException: "class_std_cnt" is not a numeric column.
# class_std_cnt가 문자열이라 문제가 된다.
# 스키마를 적용해서 해결 해보자

In [5]:
# 스키마 설정
schema = StructType([
    StructField('class_cd', StringType()),
    StructField('school', StringType()),
    StructField('class_std_cnt', IntegerType()),
    StructField('loc', StringType()),
    StructField('school_type', StringType()),
    StructField('teaching_type', StringType()),
])

In [7]:
cdf = spark.read.csv('/dataframe/a_class_info.csv', header=True, schema=schema)
cdf.printSchema()

root
 |-- class_cd: string (nullable = true)
 |-- school: string (nullable = true)
 |-- class_std_cnt: integer (nullable = true)
 |-- loc: string (nullable = true)
 |-- school_type: string (nullable = true)
 |-- teaching_type: string (nullable = true)



In [14]:
# 지역별 교육타입별 학생 숫자를 구해보자.
cdf.groupby(cdf.loc, cdf.teaching_type).sum('class_std_cnt').show()

# null이 출력되는데 groupby의 집계만 이용해서는 배제할 수가 없다.
# 그 전에 필터링 걸어야함

+--------+-------------+------------------+
|     loc|teaching_type|sum(class_std_cnt)|
+--------+-------------+------------------+
|   Rural| Experimental|               211|
|    NULL|         NULL|              NULL|
|   Urban|     Standard|               631|
|Suburban|     Standard|               433|
|   Rural|     Standard|               327|
|Suburban| Experimental|               284|
|   Urban| Experimental|               275|
+--------+-------------+------------------+



                                                                                

- sql.df.where('조건문자열' or 조건표현식)

In [15]:
print('1. 지역별 class 숫자를 계산해보자. 단 지역정보가 없는 데이터는 제외한다.')
cdf.where(cdf.loc.isNotNull())\
    .groupby(cdf.loc)\
    .count().show() # count: group dataset 객체 내 집계함수로 그룹별 레코드를 계수함. null값 포함 확률O

cdf.where(cdf.loc.isNotNull())\
    .groupby(cdf.loc)\
    .agg(count("class_cd")).show() # count: sql.function의 count집계 함수

1. 지역별 class 숫자를 계산해보자. 단 지역정보가 없는 데이터는 제외한다.
+--------+-----+
|     loc|count|
+--------+-----+
|   Urban|   37|
|Suburban|   34|
|   Rural|   28|
+--------+-----+

+--------+---------------+
|     loc|count(class_cd)|
+--------+---------------+
|   Urban|             37|
|Suburban|             34|
|   Rural|             28|
+--------+---------------+



In [21]:
print('2. 지역별 교육타입별 학생 숫자와 평균을 구해보자. 단 전체 학생 수가 300명 미만인 데이터는 제외한다.')
cdf.groupby(cdf.loc, cdf.teaching_type)\
    .agg(sum('class_std_cnt'), avg('class_std_cnt'))\
    .where(sum('class_std_cnt') >= 300).show()
    #df에 바로 연결하는게 아니니까 컬럼명 문자열로 전달해야함.

# 또는 컬럼객체를 만들어 활용하기 위해 아래와 같은 코드로 작성할 수도 있다.
cdf.groupby(cdf.loc, cdf.teaching_type)\
    .agg(sum('class_std_cnt'), avg('class_std_cnt'))\
    .where(col('sum(class_std_cnt)') >= 300).show()

2. 지역별 교육타입별 학생 숫자와 평균을 구해보자. 단 전체 학생 수가 300명 미만인 데이터는 제외한다.
+--------+-------------+------------------+------------------+
|     loc|teaching_type|sum(class_std_cnt)|avg(class_std_cnt)|
+--------+-------------+------------------+------------------+
|   Urban|     Standard|               631| 24.26923076923077|
|Suburban|     Standard|               433|             21.65|
|   Rural|     Standard|               327|           20.4375|
+--------+-------------+------------------+------------------+

+--------+-------------+------------------+------------------+
|     loc|teaching_type|sum(class_std_cnt)|avg(class_std_cnt)|
+--------+-------------+------------------+------------------+
|   Urban|     Standard|               631| 24.26923076923077|
|Suburban|     Standard|               433|             21.65|
|   Rural|     Standard|               327|           20.4375|
+--------+-------------+------------------+------------------+



In [23]:
print('컬럼명이 sum(class_std_cnt) 이라니 너무 이상하다. 집계함수를 수행하고 별칭을 붙여보자')
cdf.groupby(cdf.loc, cdf.teaching_type)\
    .agg(sum('class_std_cnt').alias('total'), avg('class_std_cnt').alias('avg'))\
    .where(sum('class_std_cnt') >= 300).show()

컬럼명이 sum(class_std_cnt) 이라니 너무 이상하다. 집계함수를 수행하고 별칭을 붙여보자
+--------+-------------+-----+-----------------+
|     loc|teaching_type|total|              avg|
+--------+-------------+-----+-----------------+
|   Urban|     Standard|  631|24.26923076923077|
|Suburban|     Standard|  433|            21.65|
|   Rural|     Standard|  327|          20.4375|
+--------+-------------+-----+-----------------+



In [32]:
# 학교가 가장 많이 위치한 지역의 학생 수 총합과, 가장 적게 위치한 지역의 학생 수 총 합 간의 차이를 구해보자
# 1. 지역으로 그룹
# 2. 지역에 학교가 몇개나 있는지 계수
cdf.groupby(cdf.loc)\
    .agg(count('school'), sum('class_std_cnt').alias('tot'))\
    .where(cdf.loc.isNotNull())\
    .show()

# 지역별 총 학생수를 구하고 학생이 제일 많은 지역과 제일 적은 지역의 학생수 차이를 확인
cdf.groupby(cdf.loc)\
    .agg(count('school'), sum('class_std_cnt').alias('tot'))\
    .where(cdf.loc.isNotNull())\
    .select((max(col('tot')) - min(col('tot'))).alias("지역별 최대-최소 학생수"))\
    .show()

                                                                                

+--------+-------------+---+
|     loc|count(school)|tot|
+--------+-------------+---+
|   Urban|           37|906|
|Suburban|           34|717|
|   Rural|           26|538|
+--------+-------------+---+

+-----------------------+
|지역별 최대-최소 학생수|
+-----------------------+
|                    368|
+-----------------------+



#### sql

In [33]:
# dataFrame을 테이블로 등록
cdf.createOrReplaceTempView('classV')

In [38]:
print('1. 지역별 class 숫자를 계산해보자. 단 지역정보가 없는 데이터는 제외한다.')
spark.sql('''
    select loc, count('*')
    from classV
    group by loc
    having loc is not null
''').show()

# count('컬럼'): 특정 컬럼의 값을 계수, null제외
##코드 작성 다시 보기
spark.sql('''
    select loc, count('class_cd')
    from classV
    where loc is not null
    group by loc
''').show()

# 1번코드는 그룹으로 묶어놓고 null 제외, 2번코드는 전체 데이터에서 null 제외하고 그룹화

1. 지역별 class 숫자를 계산해보자. 단 지역정보가 없는 데이터는 제외한다.
+--------+--------+
|     loc|count(*)|
+--------+--------+
|   Urban|      37|
|Suburban|      34|
|   Rural|      28|
+--------+--------+

+--------+---------------+
|     loc|count(class_cd)|
+--------+---------------+
|   Urban|             37|
|Suburban|             34|
|   Rural|             28|
+--------+---------------+



In [36]:
print('2. 지역내 교육타입별 전체 학생 숫자와 평균을 구해보자. \
단, 지역내 교육타입별 학생 숫자의 총 합이 300미만인 데이터는 제외한다.')
# group data에 대한 조건 확인이 필요함 ==> where절 사용할 수 없고 having절 사용해야함

spark.sql('''
    select loc, teaching_type, sum(class_std_cnt), avg(class_std_cnt)
    from classV
    group by loc, teaching_type
    having sum(class_std_cnt) >= 300
''').show()
    # where절 사용할 수 없고 having절 사용해야함

2. 지역내 교육타입별 전체 학생 숫자와 평균을 구해보자. 단, 지역내 교육타입별 학생 숫자의 총 합이 300미만인 데이터는 제외한다.
+--------+-------------+------------------+------------------+
|     loc|teaching_type|sum(class_std_cnt)|avg(class_std_cnt)|
+--------+-------------+------------------+------------------+
|   Urban|     Standard|               631| 24.26923076923077|
|Suburban|     Standard|               433|             21.65|
|   Rural|     Standard|               327|           20.4375|
+--------+-------------+------------------+------------------+



In [43]:
print('3. 컬럼명이 sum(class_std_cnt) 이라니 너무 이상하다. 집계함수를 수행하고 별칭을 붙여보자')
spark.sql('''
    select loc, teaching_type, sum(class_std_cnt) as `전체 학생 수`, avg(class_std_cnt) as avg
    from classV
    group by loc, teaching_type
    having sum(class_std_cnt) >= 300
''').show()

3. 컬럼명이 sum(class_std_cnt) 이라니 너무 이상하다. 집계함수를 수행하고 별칭을 붙여보자
+--------+-------------+------------+-----------------+
|     loc|teaching_type|전체 학생 수|              avg|
+--------+-------------+------------+-----------------+
|   Urban|     Standard|         631|24.26923076923077|
|Suburban|     Standard|         433|            21.65|
|   Rural|     Standard|         327|          20.4375|
+--------+-------------+------------+-----------------+



## orderBy()

In [47]:
print('반 학생 숫자를 기준으로 내림차순 정렬하라')
cdf.orderBy(cdf.class_std_cnt.desc()).show(3)

print('loc를 기준으로 오름차순 정렬하라, 이때 같은 지역끼리는 학교이름을 기준으로 내림차순 정렬하라')
cdf.orderBy(cdf.loc.asc(), cdf.school.desc()).show(3)

반 학생 숫자를 기준으로 내림차순 정렬하라
+--------+------+-------------+-----+-----------+-------------+
|class_cd|school|class_std_cnt|  loc|school_type|teaching_type|
+--------+------+-------------+-----+-----------+-------------+
|     18K| GOOBU|           31|Urban|     Public|     Standard|
|     Q0E| ZOWMK|           30|Urban|     Public| Experimental|
|     A93| VVTVA|           30|Urban|     Public| Experimental|
+--------+------+-------------+-----+-----------+-------------+
only showing top 3 rows

loc를 기준으로 오름차순 정렬하라, 이때 같은 지역끼리는 학교이름을 기준으로 내림차순 정렬하라
+--------+------+-------------+----+-----------+-------------+
|class_cd|school|class_std_cnt| loc|school_type|teaching_type|
+--------+------+-------------+----+-----------+-------------+
|     5SD|  NULL|         NULL|NULL|       NULL|         NULL|
|     6PP|  NULL|         NULL|NULL|       NULL|         NULL|
|     4SZ|  NULL|         NULL|NULL|       NULL|         NULL|
+--------+------+-------------+----+-----------+-------------+
only sho

In [55]:
# 연습
# 오름차순 정렬일 경우 null을 가장 적은 값으로 본다.
print('학교 종류를 기준으로 오름차순 정렬하라, 만약 school_type이 null인 행이 있다면 제일 위로 오게 하라')
cdf.orderBy(cdf.school_type.asc()).show(5)
# asc_nulls_first()쓸 수도 있긴한데 뭐..

print('학교 종류를 기준으로 내림차순 정렬하라, 만약 school_type이 null인 행이 있다면 제일 위로 오게 하라')
cdf.orderBy(cdf.school_type.desc()).show(3)
cdf.orderBy(cdf.school_type.desc_nulls_first()).show(3)

학교 종류를 기준으로 오름차순 정렬하라, 만약 school_type이 null인 행이 있다면 제일 위로 오게 하라
+--------+------+-------------+-----+-----------+-------------+
|class_cd|school|class_std_cnt|  loc|school_type|teaching_type|
+--------+------+-------------+-----+-----------+-------------+
|     6PP|  NULL|         NULL| NULL|       NULL|         NULL|
|     4SZ|  NULL|         NULL| NULL|       NULL|         NULL|
|     5SD|  NULL|         NULL| NULL|       NULL|         NULL|
|     6OL| ANKYI|           20|Urban| Non-public|     Standard|
|     ZNS| ANKYI|           21|Urban| Non-public|     Standard|
+--------+------+-------------+-----+-----------+-------------+
only showing top 5 rows

학교 종류를 기준으로 내림차순 정렬하라, 만약 school_type이 null인 행이 있다면 제일 위로 오게 하라
+--------+------+-------------+-----+-----------+-------------+
|class_cd|school|class_std_cnt|  loc|school_type|teaching_type|
+--------+------+-------------+-----+-----------+-------------+
|     1Q1| CUQAM|           28|Urban|     Public|     Standard|
|     X6Z| CUQA

#### sql

In [None]:
print('반 학생 숫자를 기준으로 내림차순 정렬하라')
spark.sql('''
    select * from classV order by class_std_cnt desc
''').show()

print('loc를 기준으로 오름차순 정렬하라, 이때 같은 지역끼리는 학교이름을 기준으로 내림차순 정렬하라')
spark.sql('''
    select * from classV order by loc asc, school desc
''').show()

In [54]:
# 연습
print('학교 종류를 기준으로 오름차순 정렬하라, 만약 school_type이 null인 행이 있다면 제일 위로 오게 하라')
spark.sql('''
    select * from classV order by school_type asc
''').show(5)

print('학교 종류를 기준으로 내림차순 정렬하라, 만약 school_type이 null인 행이 있다면 제일 위로 오게 하라')
spark.sql('''
    select * from classV order by school_type desc nulls first
''').show(5)

학교 종류를 기준으로 오름차순 정렬하라, 만약 school_type이 null인 행이 있다면 제일 위로 오게 하라
+--------+------+-------------+-----+-----------+-------------+
|class_cd|school|class_std_cnt|  loc|school_type|teaching_type|
+--------+------+-------------+-----+-----------+-------------+
|     6PP|  NULL|         NULL| NULL|       NULL|         NULL|
|     4SZ|  NULL|         NULL| NULL|       NULL|         NULL|
|     5SD|  NULL|         NULL| NULL|       NULL|         NULL|
|     6OL| ANKYI|           20|Urban| Non-public|     Standard|
|     ZNS| ANKYI|           21|Urban| Non-public|     Standard|
+--------+------+-------------+-----+-----------+-------------+
only showing top 5 rows

학교 종류를 기준으로 내림차순 정렬하라, 만약 school_type이 null인 행이 있다면 제일 위로 오게 하라
+--------+------+-------------+--------+-----------+-------------+
|class_cd|school|class_std_cnt|     loc|school_type|teaching_type|
+--------+------+-------------+--------+-----------+-------------+
|     6PP|  NULL|         NULL|    NULL|       NULL|         NULL|
|  