In [1]:
from pyspark import SparkContext
from pyspark.sql import SQLContext, Row
import pandas as pd
import numpy as np

# sql 함수 사용
from pyspark.sql.functions import when, udf, col, regexp_replace
# sql 타입변경
from pyspark.sql.types import DoubleType,IntegerType, StringType

In [2]:
sc = SparkContext('local') # 'spark://ip:7070'
sqlCtx = SQLContext( sc )

In [3]:
df = sqlCtx.read.option("header","true").option("encoding","euc-kr").csv(r'c:\data\crime_in_Seoul.csv',inferSchema=True)
df

DataFrame[관서명: string, 살인 발생: int, 살인 검거: int, 강도 발생: int, 강도 검거: int, 강간 발생: int, 강간 검거: int, 절도 발생: string, 절도 검거: string, 폭력 발생: string, 폭력 검거: string]

In [4]:
df.head(5)

[Row(관서명='중부서', 살인 발생=2, 살인 검거=2, 강도 발생=3, 강도 검거=2, 강간 발생=105, 강간 검거=65, 절도 발생='1,395', 절도 검거='477', 폭력 발생='1,355', 폭력 검거='1,170'),
 Row(관서명='종로서', 살인 발생=3, 살인 검거=3, 강도 발생=6, 강도 검거=5, 강간 발생=115, 강간 검거=98, 절도 발생='1,070', 절도 검거='413', 폭력 발생='1,278', 폭력 검거='1,070'),
 Row(관서명='남대문서', 살인 발생=1, 살인 검거=0, 강도 발생=6, 강도 검거=4, 강간 발생=65, 강간 검거=46, 절도 발생='1,153', 절도 검거='382', 폭력 발생='869', 폭력 검거='794'),
 Row(관서명='서대문서', 살인 발생=2, 살인 검거=2, 강도 발생=5, 강도 검거=4, 강간 발생=154, 강간 검거=124, 절도 발생='1,812', 절도 검거='738', 폭력 발생='2,056', 폭력 검거='1,711'),
 Row(관서명='혜화서', 살인 발생=3, 살인 검거=2, 강도 발생=5, 강도 검거=4, 강간 발생=96, 강간 검거=63, 절도 발생='1,114', 절도 검거='424', 폭력 발생='1,015', 폭력 검거='861')]

In [5]:
# Row 클래스
r = Row(aa=10, bb=20, cc=30)
print(type(r)) 
print(r)
print(r['aa'])

<class 'pyspark.sql.types.Row'>
Row(aa=10, bb=20, cc=30)
10


In [6]:
for r in df.head(5):
    print(r['관서명'], r['살인 발생'])

중부서 2
종로서 3
남대문서 1
서대문서 2
혜화서 3


In [7]:
# 전체 데이터 확인
df.show((df.count()))

+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|폭력 발생|폭력 검거|
+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  중부서|        2|        2|        3|        2|      105|       65|    1,395|      477|    1,355|    1,170|
|  종로서|        3|        3|        6|        5|      115|       98|    1,070|      413|    1,278|    1,070|
|남대문서|        1|        0|        6|        4|       65|       46|    1,153|      382|      869|      794|
|서대문서|        2|        2|        5|        4|      154|      124|    1,812|      738|    2,056|    1,711|
|  혜화서|        3|        2|        5|        4|       96|       63|    1,114|      424|    1,015|      861|
|  용산서|        5|        5|       14|       14|      194|      173|    1,557|      587|    2,050|    1,704|
|  성북서|        2|        2|        2|        1|       86|       

In [8]:
# describe를 데이터 프레임 형태로 출력
df.describe().toPandas()

Unnamed: 0,summary,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,count,31,31.0,31.0,31.0,31.0,31.0,31.0,31.0,31.0,31.0,31.0
1,mean,,5.258064516129032,4.935483870967742,8.903225806451612,8.161290322580646,175.7741935483871,131.96774193548387,814.25,638.1428571428571,708.0,746.5
2,stddev,,3.6052530372174414,3.203492717550306,4.93528005763724,5.710205916856522,85.58025850136987,56.59003673849767,123.27577485729572,224.73963771863825,227.6883835420683,172.61614447476612
3,min,강남서,1.0,0.0,1.0,1.0,59.0,46.0,1063.0,1129.0,1015.0,1015.0
4,max,혜화서,14.0,12.0,22.0,26.0,334.0,247.0,953.0,984.0,869.0,861.0


In [9]:
# 컬럼 지정
df.select('관서명','강도 발생').show()

+--------+---------+
|  관서명|강도 발생|
+--------+---------+
|  중부서|        3|
|  종로서|        6|
|남대문서|        6|
|서대문서|        5|
|  혜화서|        5|
|  용산서|       14|
|  성북서|        2|
|동대문서|       13|
|  마포서|       14|
|영등포서|       22|
|  성동서|        9|
|  동작서|        9|
|  광진서|       14|
|  서부서|        2|
|  강북서|       14|
|  금천서|        6|
|  중랑서|       11|
|  강남서|       15|
|  관악서|       12|
|  강서서|       13|
+--------+---------+
only showing top 20 rows



In [10]:
# 조건에 맞는 값 가져오기
df.where('`살인 발생` > 5').show()

+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|폭력 발생|폭력 검거|
+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  마포서|        8|        8|       14|       10|      294|      247|    2,555|      813|    2,983|    2,519|
|영등포서|       14|       12|       22|       20|      295|      183|    2,964|      978|    3,572|    2,961|
|  강북서|        7|        8|       14|       13|      153|      126|    1,434|      618|    2,649|    2,348|
|  중랑서|       13|       12|       11|        9|      187|      148|    2,135|      829|    2,847|    2,407|
|  관악서|        9|        8|       12|       14|      320|      221|    2,706|      827|    3,298|    2,642|
|  강서서|        7|        8|       13|       13|      262|      191|    2,096|    1,260|    3,207|    2,718|
|  구로서|        8|        6|       15|       11|      281|      

In [11]:
# 살인 발생이 5건 이상인 관서명과 살인발생 살인 검거를 구하시요..

In [12]:
df.where( "`관서명`=='마포서' or `관서명`=='노원서'").show()

+------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|폭력 발생|폭력 검거|
+------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|마포서|        8|        8|       14|       10|      294|      247|    2,555|      813|    2,983|    2,519|
|노원서|       10|       10|        7|        7|      197|      121|    2,193|      801|    2,723|    2,329|
+------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+



In [28]:
df.where("`관서명` in ('중부서','종로서')").toPandas()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,중부서,2,2,3,2,105,65,1395,477,1355,1170
1,종로서,3,3,6,5,115,98,1070,413,1278,1070


In [30]:
# 변수를 선언하기 포맷스트링이용
a = 2
b = 7
#df.where("`살인 발생` >= 2 and `살인 발생` <= 7").toPandas()
df.where( f"`살인 발생` >={a} and `살인 발생` <={b}").show()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,중부서,2,2,3,2,105,65,1395,477,1355,1170
1,종로서,3,3,6,5,115,98,1070,413,1278,1070
2,서대문서,2,2,5,4,154,124,1812,738,2056,1711
3,혜화서,3,2,5,4,96,63,1114,424,1015,861
4,용산서,5,5,14,14,194,173,1557,587,2050,1704
5,성북서,2,2,2,1,86,71,953,409,1194,1015
6,동대문서,5,5,13,13,173,146,1981,814,2548,2227
7,성동서,4,4,9,8,126,119,1607,597,1612,1395
8,동작서,5,5,9,5,285,139,1865,661,1910,1587
9,광진서,4,4,14,26,240,220,3026,1277,2625,2180


In [21]:
df.where("`살인 발생` between 2 and 7").show()

+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|폭력 발생|폭력 검거|
+--------+---------+---------+---------+---------+---------+---------+---------+---------+---------+---------+
|  중부서|        2|        2|        3|        2|      105|       65|    1,395|      477|    1,355|    1,170|
|  종로서|        3|        3|        6|        5|      115|       98|    1,070|      413|    1,278|    1,070|
|서대문서|        2|        2|        5|        4|      154|      124|    1,812|      738|    2,056|    1,711|
|  혜화서|        3|        2|        5|        4|       96|       63|    1,114|      424|    1,015|      861|
|  용산서|        5|        5|       14|       14|      194|      173|    1,557|      587|    2,050|    1,704|
|  성북서|        2|        2|        2|        1|       86|       71|      953|      409|    1,194|    1,015|
|동대문서|        5|        5|       13|       13|      173|      1

In [20]:
df.drop('폭력 발생','폭력 검거').show()

+--------+---------+---------+---------+---------+---------+---------+---------+---------+
|  관서명|살인 발생|살인 검거|강도 발생|강도 검거|강간 발생|강간 검거|절도 발생|절도 검거|
+--------+---------+---------+---------+---------+---------+---------+---------+---------+
|  중부서|        2|        2|        3|        2|      105|       65|    1,395|      477|
|  종로서|        3|        3|        6|        5|      115|       98|    1,070|      413|
|남대문서|        1|        0|        6|        4|       65|       46|    1,153|      382|
|서대문서|        2|        2|        5|        4|      154|      124|    1,812|      738|
|  혜화서|        3|        2|        5|        4|       96|       63|    1,114|      424|
|  용산서|        5|        5|       14|       14|      194|      173|    1,557|      587|
|  성북서|        2|        2|        2|        1|       86|       71|      953|      409|
|동대문서|        5|        5|       13|       13|      173|      146|    1,981|      814|
|  마포서|        8|        8|       14|       10|      294|    

In [19]:
# 컬럼 객체로 출력
c = df['폭력 검거']
print(type(c))

<class 'pyspark.sql.column.Column'>


In [18]:
# test 컬럼이 있으면 수정, 없으면 추가
df.withColumn('test', df['강도 검거']*2).toPandas()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,test
0,중부서,2,2,3,2,105,65,1395,477,1355,1170,4
1,종로서,3,3,6,5,115,98,1070,413,1278,1070,10
2,남대문서,1,0,6,4,65,46,1153,382,869,794,8
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711,8
4,혜화서,3,2,5,4,96,63,1114,424,1015,861,8
5,용산서,5,5,14,14,194,173,1557,587,2050,1704,28
6,성북서,2,2,2,1,86,71,953,409,1194,1015,2
7,동대문서,5,5,13,13,173,146,1981,814,2548,2227,26
8,마포서,8,8,14,10,294,247,2555,813,2983,2519,20
9,영등포서,14,12,22,20,295,183,2964,978,3572,2961,40


In [17]:
# 컬럼 함수를 이용시 타입은 컬럼으로
c = col('강도 검거')
print(type(c))

<class 'pyspark.sql.column.Column'>


In [16]:
# when (조건, 값)
df.withColumn('정도',
            when(df['살인 발생']>=10, '많음').\
            when(df['살인 발생']>=5, '보통').\
            otherwise('적음')  
             ).toPandas()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,정도
0,중부서,2,2,3,2,105,65,1395,477,1355,1170,적음
1,종로서,3,3,6,5,115,98,1070,413,1278,1070,적음
2,남대문서,1,0,6,4,65,46,1153,382,869,794,적음
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711,적음
4,혜화서,3,2,5,4,96,63,1114,424,1015,861,적음
5,용산서,5,5,14,14,194,173,1557,587,2050,1704,보통
6,성북서,2,2,2,1,86,71,953,409,1194,1015,적음
7,동대문서,5,5,13,13,173,146,1981,814,2548,2227,보통
8,마포서,8,8,14,10,294,247,2555,813,2983,2519,보통
9,영등포서,14,12,22,20,295,183,2964,978,3572,2961,많음


### 함수 적용 udf

In [26]:
ft = udf(lambda v : '많음' if v >=10 else '적음')
df.withColumn('정도1',ft(df['살인 발생'])).toPandas()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,정도1
0,중부서,2,2,3,2,105,65,1395,477,1355,1170,적음
1,종로서,3,3,6,5,115,98,1070,413,1278,1070,적음
2,남대문서,1,0,6,4,65,46,1153,382,869,794,적음
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711,적음
4,혜화서,3,2,5,4,96,63,1114,424,1015,861,적음
5,용산서,5,5,14,14,194,173,1557,587,2050,1704,적음
6,성북서,2,2,2,1,86,71,953,409,1194,1015,적음
7,동대문서,5,5,13,13,173,146,1981,814,2548,2227,적음
8,마포서,8,8,14,10,294,247,2555,813,2983,2519,적음
9,영등포서,14,12,22,20,295,183,2964,978,3572,2961,많음


In [38]:
# regexp_replace : 특정 패턴을 원하는 패턴으로 변경 가능
# 타입은 변하지 않음
df = df.withColumn('폭력 발생', regexp_replace('폭력 발생',',',''))
df.toPandas()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,중부서,2,2,3,2,105,65,1355,477,1355,1170
1,종로서,3,3,6,5,115,98,1278,413,1278,1070
2,남대문서,1,0,6,4,65,46,869,382,869,794
3,서대문서,2,2,5,4,154,124,2056,738,2056,1711
4,혜화서,3,2,5,4,96,63,1015,424,1015,861
5,용산서,5,5,14,14,194,173,2050,587,2050,1704
6,성북서,2,2,2,1,86,71,1194,409,1194,1015
7,동대문서,5,5,13,13,173,146,2548,814,2548,2227
8,마포서,8,8,14,10,294,247,2983,813,2983,2519
9,영등포서,14,12,22,20,295,183,3572,978,3572,2961


In [40]:
# 타입 변경
df = df.withColumn('절도 발생',df['절도 발생'].cast(IntegerType()))
df.printSchema()

root
 |-- 관서명: string (nullable = true)
 |-- 살인 발생: integer (nullable = true)
 |-- 살인 검거: integer (nullable = true)
 |-- 강도 발생: integer (nullable = true)
 |-- 강도 검거: integer (nullable = true)
 |-- 강간 발생: integer (nullable = true)
 |-- 강간 검거: integer (nullable = true)
 |-- 절도 발생: integer (nullable = true)
 |-- 절도 검거: string (nullable = true)
 |-- 폭력 발생: string (nullable = true)
 |-- 폭력 검거: string (nullable = true)



In [None]:
sc.stop()