In [1]:
from pyspark.sql import  SQLContext, Row
from pyspark import SparkContext,SparkConf
import pandas as pd
from pyspark.sql.functions import regexp_extract, regexp_replace, when,udf,col

In [2]:
sc = SparkContext('local')
sqlCtx = SQLContext( sc )

In [3]:
emp =[('홍길동',1),('이순신',2), 
      ('임꺽정',3),('김철수',3),('김철수1',5)]
dept = [('개발',1), ('연구',2),
        ('영업',3),('기획',4) ]

# 분산 데이터프레임으로 만듬
empA=sqlCtx.createDataFrame( emp, ['name','deptid'] )
deptB=sqlCtx.createDataFrame( dept,['deptname','deptid'] )

In [5]:
empA.show()

+-------+------+
|   name|deptid|
+-------+------+
| 홍길동|     1|
| 이순신|     2|
| 임꺽정|     3|
| 김철수|     3|
|김철수1|     5|
+-------+------+



In [6]:
deptB.show()

+--------+------+
|deptname|deptid|
+--------+------+
|    개발|     1|
|    연구|     2|
|    영업|     3|
|    기획|     4|
+--------+------+



### join
- how = 'inner' : 지정 컬럼 한 컬럼의 값을 가지는 데이터만 결합

In [12]:
# how의 고정값은 inner
# 두 테이블간에 있는 데이터만 출력
empA.join(deptB, on=['deptid'], how='inner').show()

+------+------+--------+
|deptid|  name|deptname|
+------+------+--------+
|     1|홍길동|    개발|
|     3|임꺽정|    영업|
|     3|김철수|    영업|
|     2|이순신|    연구|
+------+------+--------+



In [15]:
# left : 왼쪽 데이터가 다 나오도록 함
# empA 데이터가 다 나옴
empA.join(deptB, on=['deptid'], how = 'left').show()

+------+-------+--------+
|deptid|   name|deptname|
+------+-------+--------+
|     5|김철수1|    null|
|     1| 홍길동|    개발|
|     3| 임꺽정|    영업|
|     3| 김철수|    영업|
|     2| 이순신|    연구|
+------+-------+--------+



In [16]:
# right : 오른쪽 데이터가 다 나오도록 함
# deptB 데이터가 다 나옴
empA.join(deptB, on=['deptid'], how = 'right').show()

+------+------+--------+
|deptid|  name|deptname|
+------+------+--------+
|     1|홍길동|    개발|
|     3|임꺽정|    영업|
|     3|김철수|    영업|
|     2|이순신|    연구|
|     4|  null|    기획|
+------+------+--------+



In [17]:
# full : 두 테이블 데이터가 다 나오도록 함
empA.join(deptB, on=['deptid'], how = 'full').show()

+------+-------+--------+
|deptid|   name|deptname|
+------+-------+--------+
|     5|김철수1|    null|
|     1| 홍길동|    개발|
|     3| 임꺽정|    영업|
|     3| 김철수|    영업|
|     2| 이순신|    연구|
|     4|   null|    기획|
+------+-------+--------+



In [18]:
testA = [('A',1),('B',2),('C',3),('D',4)]
testB = [('E',1),('A',2),('C',3),('F',4)]
testAA = sqlCtx.createDataFrame( testA, ['name','id'] )
testBB = sqlCtx.createDataFrame( testB,['name', 'myid'] )

In [19]:
testAA.show()
testBB.show()

+----+---+
|name| id|
+----+---+
|   A|  1|
|   B|  2|
|   C|  3|
|   D|  4|
+----+---+

+----+----+
|name|myid|
+----+----+
|   E|   1|
|   A|   2|
|   C|   3|
|   F|   4|
+----+----+



In [25]:
testAA.join(testBB, on=['name'],how='inner').show()

+----+---+----+
|name| id|myid|
+----+---+----+
|   C|  3|   3|
|   A|  1|   2|
+----+---+----+



In [22]:
testAA.join(testBB, on=['name'],how='left').show()

+----+---+----+
|name| id|myid|
+----+---+----+
|   B|  2|null|
|   D|  4|null|
|   C|  3|   3|
|   A|  1|   2|
+----+---+----+



In [23]:
testAA.join(testBB, on=['name'],how='right').show()

+----+----+----+
|name|  id|myid|
+----+----+----+
|   F|null|   4|
|   E|null|   1|
|   C|   3|   3|
|   A|   1|   2|
+----+----+----+



In [24]:
testAA.join(testBB, on=['name'],how='full').show()

+----+----+----+
|name|  id|myid|
+----+----+----+
|   F|null|   4|
|   E|null|   1|
|   B|   2|null|
|   D|   4|null|
|   C|   3|   3|
|   A|   1|   2|
+----+----+----+



In [32]:
dd = testAA.join(testBB, on=['name'],how='full')
dd.show()

+----+----+----+
|name|  id|myid|
+----+----+----+
|   F|null|   4|
|   E|null|   1|
|   B|   2|null|
|   D|   4|null|
|   C|   3|   3|
|   A|   1|   2|
+----+----+----+



### Null 제거하기

In [29]:
# dropna : null값이 속한 데이터 제거
dd = dd.dropna()
dd.show()

+----+---+----+
|name| id|myid|
+----+---+----+
|   C|  3|   3|
|   A|  1|   2|
+----+---+----+



In [31]:
# dropna : null값이 속한 데이터 제거
# subset : 해당 컬럼의 null 데이터만 삭제
dd = dd.dropna(subset = ['id'])
dd.show()

+----+---+----+
|name| id|myid|
+----+---+----+
|   B|  2|null|
|   D|  4|null|
|   C|  3|   3|
|   A|  1|   2|
+----+---+----+



### Null 채우기

In [33]:
dd = dd.fillna({'id':100, 'myid':200})
dd.show()

+----+---+----+
|name| id|myid|
+----+---+----+
|   F|100|   4|
|   E|100|   1|
|   B|  2| 200|
|   D|  4| 200|
|   C|  3|   3|
|   A|  1|   2|
+----+---+----+



### unionAll
- 행으로 붙이기

In [34]:
testAA.unionAll(testBB).show()

+----+---+
|name| id|
+----+---+
|   A|  1|
|   B|  2|
|   C|  3|
|   D|  4|
|   E|  1|
|   A|  2|
|   C|  3|
|   F|  4|
+----+---+



In [35]:
sc.stop()