## DataFrame
- 참조 변수에 저장을 해야 메모리가 유지된다.
- 그렇지 않으면, 일시적이므로 데이터는 날아간다.

In [None]:
from pyspark import SparkContext
from pyspark.sql import SQLContext, Row
import pandas as pd

In [None]:
sc= SparkContext('local')
sqlCtx= SQLContext(sc)

In [None]:
df=sqlCtx.read.csv('data/crime_in_Seoul.csv', encoding= 'euc-kr',
                  header= True, inferSchema= True)
df

DataFrame[관서명: string, 살인 발생: int, 살인 검거: int, 강도 발생: int, 강도 검거: int, 강간 발생: int, 강간 검거: int, 절도 발생: string, 절도 검거: string, 폭력 발생: string, 폭력 검거: string]

In [None]:
df.show()

+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|폭력 발생|폭력 검거|
+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  중부서|        2|        2|        3|        2|      105|       65|    1,395|      477|    1,355|    1,170|
|  종로서|        3|        3|        6|        5|      115|       98|    1,070|      413|    1,278|    1,070|
|남대문서|        1|        0|        6|        4|       65|       46|    1,153|      382|      869|      794|
|서대문서|        2|        2|        5|        4|      154|      124|    1,812|      738|    2,056|    1,711|
|  혜화서|        3|        2|        5|        4|       96|       63|    1,114|      424|    1,015|      861|
|  용산서|        5|        5|       14|       14|      194|      173|    1,557|      587|    2,050|    1,704|
|  성북서|        2|        2|        2|        1|       86|       

In [None]:
df.printSchema()

root
 |-- 관서명: string (nullable = true)
 |-- 살인 발생: integer (nullable = true)
 |-- 살인 검거: integer (nullable = true)
 |-- 강도 발생: integer (nullable = true)
 |-- 강도 검거: integer (nullable = true)
 |-- 강간 발생: integer (nullable = true)
 |-- 강간 검거: integer (nullable = true)
 |-- 절도 발생: string (nullable = true)
 |-- 절도 검거: string (nullable = true)
 |-- 폭력 발생: string (nullable = true)
 |-- 폭력 검거: string (nullable = true)



In [None]:
type(df)

pyspark.sql.dataframe.DataFrame

In [None]:
df.head(5)

[Row(관서명='중부서', 살인 발생=2, 살인 검거=2, 강도 발생=3, 강도 검거=2, 강간 발생=105, 강간 검거=65, 절도 발생='1,395', 절도 검거='477', 폭력 발생='1,355', 폭력 검거='1,170'),
 Row(관서명='종로서', 살인 발생=3, 살인 검거=3, 강도 발생=6, 강도 검거=5, 강간 발생=115, 강간 검거=98, 절도 발생='1,070', 절도 검거='413', 폭력 발생='1,278', 폭력 검거='1,070'),
 Row(관서명='남대문서', 살인 발생=1, 살인 검거=0, 강도 발생=6, 강도 검거=4, 강간 발생=65, 강간 검거=46, 절도 발생='1,153', 절도 검거='382', 폭력 발생='869', 폭력 검거='794'),
 Row(관서명='서대문서', 살인 발생=2, 살인 검거=2, 강도 발생=5, 강도 검거=4, 강간 발생=154, 강간 검거=124, 절도 발생='1,812', 절도 검거='738', 폭력 발생='2,056', 폭력 검거='1,711'),
 Row(관서명='혜화서', 살인 발생=3, 살인 검거=2, 강도 발생=5, 강도 검거=4, 강간 발생=96, 강간 검거=63, 절도 발생='1,114', 절도 검거='424', 폭력 발생='1,015', 폭력 검거='861')]

### shape 비교
- shape 함수는 없다.
- 전체 row의 개수 : .count()
- 전체 column의 개수 : len(df.columns)

In [None]:
# 전체 row의 개수
df.count()

31

In [None]:
# 전체 column의 개수
len(df.columns), df.columns

(11,
 ['관서명',
  '살인 발생',
  '살인 검거',
  '강도 발생',
  '강도 검거',
  '강간 발생',
  '강간 검거',
  '절도 발생',
  '절도 검거',
  '폭력 발생',
  '폭력 검거'])

### toPandas( )
- 함수 순서의 차이는 리소스 차이를 만들어낸다.

In [None]:
df.describe()

DataFrame[summary: string, 관서명: string, 살인 발생: string, 살인 검거: string, 강도 발생: string, 강도 검거: string, 강간 발생: string, 강간 검거: string, 절도 발생: string, 절도 검거: string, 폭력 발생: string, 폭력 검거: string]

In [None]:
df.describe().toPandas()

Unnamed: 0,summary,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,count,31,31.0,31.0,31.0,31.0,31.0,31.0,31.0,31.0,31.0,31.0
1,mean,,5.258064516129032,4.935483870967742,8.903225806451612,8.161290322580646,175.7741935483871,131.96774193548387,814.25,638.1428571428571,708.0,746.5
2,stddev,,3.6052530372174414,3.203492717550306,4.93528005763724,5.710205916856522,85.58025850136987,56.59003673849767,123.27577485729572,224.73963771863825,227.6883835420683,172.61614447476612
3,min,강남서,1.0,0.0,1.0,1.0,59.0,46.0,1063.0,1129.0,1015.0,1015.0
4,max,혜화서,14.0,12.0,22.0,26.0,334.0,247.0,953.0,984.0,869.0,861.0


In [None]:
df.toPandas().describe()

Unnamed: 0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거
count,31.0,31.0,31.0,31.0,31.0,31.0
mean,5.258065,4.935484,8.903226,8.16129,175.774194,131.967742
std,3.605253,3.203493,4.93528,5.710206,85.580259,56.590037
min,1.0,0.0,1.0,1.0,59.0,46.0
25%,3.0,2.5,6.0,4.0,103.5,90.0
50%,4.0,4.0,8.0,7.0,154.0,124.0
75%,7.5,7.5,13.0,11.5,251.0,175.5
max,14.0,12.0,22.0,26.0,334.0,247.0


#### .select('컬럼 명') 

In [None]:
df.select('관서명', '강도 발생')

DataFrame[관서명: string, 강도 발생: int]

In [None]:
df.select('관서명', '강도 발생').show()

+--------+---------+
|  관서명|강도 발생|
+--------+---------+
|  중부서|        3|
|  종로서|        6|
|남대문서|        6|
|서대문서|        5|
|  혜화서|        5|
|  용산서|       14|
|  성북서|        2|
|동대문서|       13|
|  마포서|       14|
|영등포서|       22|
|  성동서|        9|
|  동작서|        9|
|  광진서|       14|
|  서부서|        2|
|  강북서|       14|
|  금천서|        6|
|  중랑서|       11|
|  강남서|       15|
|  관악서|       12|
|  강서서|       13|
+--------+---------+
only showing top 20 rows



In [None]:
type(df.관서명)

pyspark.sql.column.Column

#### .orderBy('컬럼 명')

In [None]:
df.orderBy('관서명')

DataFrame[관서명: string, 살인 발생: int, 살인 검거: int, 강도 발생: int, 강도 검거: int, 강간 발생: int, 강간 검거: int, 절도 발생: string, 절도 검거: string, 폭력 발생: string, 폭력 검거: string]

In [None]:
df.orderBy('관서명').show(df.count()) # default=20d이기에 

+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|폭력 발생|폭력 검거|
+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  강남서|        3|        3|       15|       12|      300|      225|    2,411|      984|    2,465|    2,146|
|  강동서|        4|        3|        6|        8|      156|      123|    2,366|      789|    2,712|    2,248|
|  강북서|        7|        8|       14|       13|      153|      126|    1,434|      618|    2,649|    2,348|
|  강서서|        7|        8|       13|       13|      262|      191|    2,096|    1,260|    3,207|    2,718|
|  관악서|        9|        8|       12|       14|      320|      221|    2,706|      827|    3,298|    2,642|
|  광진서|        4|        4|       14|       26|      240|      220|    3,026|    1,277|    2,625|    2,180|
|  구로서|        8|        6|       15|       11|      281|     

#### .show(전체 데이터)
- .count()가 전체 row를 의미하기 때문에

In [None]:
df.select('관서명', '강도 발생').orderBy('관서명').show(df.count())

+--------+---------+
|  관서명|강도 발생|
+--------+---------+
|  강남서|       15|
|  강동서|        6|
|  강북서|       14|
|  강서서|       13|
|  관악서|       12|
|  광진서|       14|
|  구로서|       15|
|  금천서|        6|
|남대문서|        6|
|  노원서|        7|
|  도봉서|        9|
|동대문서|       13|
|  동작서|        9|
|  마포서|       14|
|  방배서|        1|
|서대문서|        5|
|  서부서|        2|
|  서초서|        8|
|  성동서|        9|
|  성북서|        2|
|  송파서|       13|
|  수서서|        6|
|  양천서|        6|
|영등포서|       22|
|  용산서|       14|
|  은평서|        7|
|  종로서|        6|
|  종암서|        3|
|  중랑서|       11|
|  중부서|        3|
|  혜화서|        5|
+--------+---------+



#### .where("컬럼 명= 값 또는 조건")
- 한글 컬럼은 `` 필수

In [None]:
df.where("`관서명`='`강북서`'")

DataFrame[관서명: string, 살인 발생: int, 살인 검거: int, 강도 발생: int, 강도 검거: int, 강간 발생: int, 강간 검거: int, 절도 발생: string, 절도 검거: string, 폭력 발생: string, 폭력 검거: string]

In [None]:
df.where("`관서명`='강북서'").show()

+------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|폭력 발생|폭력 검거|
+------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|강북서|        7|        8|       14|       13|      153|      126|    1,434|      618|    2,649|    2,348|
+------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+



In [None]:
df.where("`관서명`='강북서'").toPandas()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,강북서,7,8,14,13,153,126,1434,618,2649,2348


In [None]:
df.where('`살인 발생`> 5').show()

+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|폭력 발생|폭력 검거|
+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  마포서|        8|        8|       14|       10|      294|      247|    2,555|      813|    2,983|    2,519|
|영등포서|       14|       12|       22|       20|      295|      183|    2,964|      978|    3,572|    2,961|
|  강북서|        7|        8|       14|       13|      153|      126|    1,434|      618|    2,649|    2,348|
|  중랑서|       13|       12|       11|        9|      187|      148|    2,135|      829|    2,847|    2,407|
|  관악서|        9|        8|       12|       14|      320|      221|    2,706|      827|    3,298|    2,642|
|  강서서|        7|        8|       13|       13|      262|      191|    2,096|    1,260|    3,207|    2,718|
|  구로서|        8|        6|       15|       11|      281|      

## 퀴즈

- 1. 살인 발생이 10건 이상인 관서명, 살인 발생, 살인 검거를 출력

In [None]:
df.where('`살인 발생`>= 10').select('관서명', '살인 발생', '살인 검거').show()

+--------+---------+---------+
|  관서명|살인 발생|살인 검거|
+--------+---------+---------+
|영등포서|       14|       12|
|  중랑서|       13|       12|
|  송파서|       11|       10|
|  노원서|       10|       10|
|  수서서|       10|        7|
+--------+---------+---------+



- 2. 중부서, 종로서

In [None]:
df.where("`관서명` in('중부서', '종로서')").show()

+------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|폭력 발생|폭력 검거|
+------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|중부서|        2|        2|        3|        2|      105|       65|    1,395|      477|    1,355|    1,170|
|종로서|        3|        3|        6|        5|      115|       98|    1,070|      413|    1,278|    1,070|
+------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+



- 3. 살인 발생이 5 ~ 10인 경찰서

In [None]:
df.where('`살인 발생` between 5 and 10').show()

+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|폭력 발생|폭력 검거|
+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  용산서|        5|        5|       14|       14|      194|      173|    1,557|      587|    2,050|    1,704|
|동대문서|        5|        5|       13|       13|      173|      146|    1,981|      814|    2,548|    2,227|
|  마포서|        8|        8|       14|       10|      294|      247|    2,555|      813|    2,983|    2,519|
|  동작서|        5|        5|        9|        5|      285|      139|    1,865|      661|    1,910|    1,587|
|  강북서|        7|        8|       14|       13|      153|      126|    1,434|      618|    2,649|    2,348|
|  관악서|        9|        8|       12|       14|      320|      221|    2,706|      827|    3,298|    2,642|
|  강서서|        7|        8|       13|       13|      262|      

#### .drop('컬럼 명')
- 컬럼 버리기

In [None]:
df.drop('폭력 발생', '폭력 검거').show()

+--------+---------+---------+---------+---------+---------+---------+---------+---------+
|  관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|
+--------+---------+---------+---------+---------+---------+---------+---------+---------+
|  중부서|        2|        2|        3|        2|      105|       65|    1,395|      477|
|  종로서|        3|        3|        6|        5|      115|       98|    1,070|      413|
|남대문서|        1|        0|        6|        4|       65|       46|    1,153|      382|
|서대문서|        2|        2|        5|        4|      154|      124|    1,812|      738|
|  혜화서|        3|        2|        5|        4|       96|       63|    1,114|      424|
|  용산서|        5|        5|       14|       14|      194|      173|    1,557|      587|
|  성북서|        2|        2|        2|        1|       86|       71|      953|      409|
|동대문서|        5|        5|       13|       13|      173|      146|    1,981|      814|
|  마포서|        8|        8|       14|       10|      294|    

#### withColumn('컬럼 명', 값)
- 새로운 컬럼에 데이터 추가

In [None]:
df.withColumn('test', df['폭력 발생'])

DataFrame[관서명: string, 살인 발생: int, 살인 검거: int, 강도 발생: int, 강도 검거: int, 강간 발생: int, 강간 검거: int, 절도 발생: string, 절도 검거: string, 폭력 발생: string, 폭력 검거: string, test: string]

In [None]:
df.withColumn('test', df['폭력 발생']).toPandas()
#df.withColumn('test', df['폭력 발생']).show()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,test
0,중부서,2,2,3,2,105,65,1395,477,1355,1170,1355
1,종로서,3,3,6,5,115,98,1070,413,1278,1070,1278
2,남대문서,1,0,6,4,65,46,1153,382,869,794,869
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711,2056
4,혜화서,3,2,5,4,96,63,1114,424,1015,861,1015
5,용산서,5,5,14,14,194,173,1557,587,2050,1704,2050
6,성북서,2,2,2,1,86,71,953,409,1194,1015,1194
7,동대문서,5,5,13,13,173,146,1981,814,2548,2227,2548
8,마포서,8,8,14,10,294,247,2555,813,2983,2519,2983
9,영등포서,14,12,22,20,295,183,2964,978,3572,2961,3572


In [None]:
from pyspark.sql.functions import when, udf, col, regexp_replace
from pyspark.sql.types import DoubleType,IntegerType, StringType

#### .when(조건)
- apply(lambda or function) 함수와 유사
- when().when() ~ .otherwise()

In [None]:
df.withColumn('살인 정도',
              when(df['살인 발생']>=10, '많음').when(df['살인 발생']>= 5, '보통').
              otherwise('적음')).toPandas()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,살인 정도
0,중부서,2,2,3,2,105,65,1395,477,1355,1170,적음
1,종로서,3,3,6,5,115,98,1070,413,1278,1070,적음
2,남대문서,1,0,6,4,65,46,1153,382,869,794,적음
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711,적음
4,혜화서,3,2,5,4,96,63,1114,424,1015,861,적음
5,용산서,5,5,14,14,194,173,1557,587,2050,1704,보통
6,성북서,2,2,2,1,86,71,953,409,1194,1015,적음
7,동대문서,5,5,13,13,173,146,1981,814,2548,2227,보통
8,마포서,8,8,14,10,294,247,2555,813,2983,2519,보통
9,영등포서,14,12,22,20,295,183,2964,978,3572,2961,많음


#### .udf(lambda or func)
- User Defined Functions

In [None]:
a= udf(lambda v: '많음' if v>=10 else '적음')
df.withColumn('살인 정도', a(df['살인 발생'])).toPandas()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,살인 정도
0,중부서,2,2,3,2,105,65,1395,477,1355,1170,적음
1,종로서,3,3,6,5,115,98,1070,413,1278,1070,적음
2,남대문서,1,0,6,4,65,46,1153,382,869,794,적음
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711,적음
4,혜화서,3,2,5,4,96,63,1114,424,1015,861,적음
5,용산서,5,5,14,14,194,173,1557,587,2050,1704,적음
6,성북서,2,2,2,1,86,71,953,409,1194,1015,적음
7,동대문서,5,5,13,13,173,146,1981,814,2548,2227,적음
8,마포서,8,8,14,10,294,247,2555,813,2983,2519,적음
9,영등포서,14,12,22,20,295,183,2964,978,3572,2961,많음


#### .regexp_replace(컬럼 명, '변환 전', '변환 후')
- replace와 유사
- 해당 컬럼의 데이터를 변환

In [None]:
df.withColumn('절도 발생1', regexp_replace('절도 발생', ',', '')).toPandas()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,절도 발생1
0,중부서,2,2,3,2,105,65,1395,477,1355,1170,1395
1,종로서,3,3,6,5,115,98,1070,413,1278,1070,1070
2,남대문서,1,0,6,4,65,46,1153,382,869,794,1153
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711,1812
4,혜화서,3,2,5,4,96,63,1114,424,1015,861,1114
5,용산서,5,5,14,14,194,173,1557,587,2050,1704,1557
6,성북서,2,2,2,1,86,71,953,409,1194,1015,953
7,동대문서,5,5,13,13,173,146,1981,814,2548,2227,1981
8,마포서,8,8,14,10,294,247,2555,813,2983,2519,2555
9,영등포서,14,12,22,20,295,183,2964,978,3572,2961,2964


#### .cast( )
- 형 변환

In [None]:
df.withColumn('절도 발생1', regexp_replace('절도 발생', ',', '')).printSchema()

root
 |-- 관서명: string (nullable = true)
 |-- 살인 발생: integer (nullable = true)
 |-- 살인 검거: integer (nullable = true)
 |-- 강도 발생: integer (nullable = true)
 |-- 강도 검거: integer (nullable = true)
 |-- 강간 발생: integer (nullable = true)
 |-- 강간 검거: integer (nullable = true)
 |-- 절도 발생: string (nullable = true)
 |-- 절도 검거: string (nullable = true)
 |-- 폭력 발생: string (nullable = true)
 |-- 폭력 검거: string (nullable = true)
 |-- 절도 발생1: string (nullable = true)



In [None]:
df = df.withColumn('절도 발생', regexp_replace('절도 발생', ',', ''))\
.withColumn('절도 검거', regexp_replace('절도 검거', ',', ''))\
.withColumn('폭력 발생', regexp_replace('폭력 발생', ',', ''))\
.withColumn('폭력 검거', regexp_replace('폭력 검거', ',', ''))

In [None]:
df.withColumn('절도 발생', df['절도 발생'].cast(IntegerType()))\
.withColumn('절도 검거', df['절도 검거'].cast(IntegerType()))\
.withColumn('폭력 발생', df['폭력 발생'].cast(IntegerType()))\
.withColumn('폭력 검거', df['폭력 검거'].cast(IntegerType())).printSchema()

root
 |-- 관서명: string (nullable = true)
 |-- 살인 발생: integer (nullable = true)
 |-- 살인 검거: integer (nullable = true)
 |-- 강도 발생: integer (nullable = true)
 |-- 강도 검거: integer (nullable = true)
 |-- 강간 발생: integer (nullable = true)
 |-- 강간 검거: integer (nullable = true)
 |-- 절도 발생: integer (nullable = true)
 |-- 절도 검거: integer (nullable = true)
 |-- 폭력 발생: integer (nullable = true)
 |-- 폭력 검거: integer (nullable = true)



## 메모리 회수

In [None]:
sc.stop()