### 서울시 범죄 현황 분석

[학습목표]
1. 서울시 경찰서별(구별) 범죄 발생과 검거율 데이터 분석 
2. pandas pivot_table() 사용법 학습
3. Google map API 사용법 -> 지도 검색
4. 고급 시각화 : seaborn


In [1]:
# 라이브러리 임포트
import numpy as np
import pandas as pd

In [2]:
# csv 파일 => 데이터프레임 생성

crime_anal_police = pd.read_csv( # return DataFrame
    './data/02. crime_in_Seoul.csv'
    , encoding='euc-kr'
    , thousands=',' # 천자리 구분자 지정, 콤마 제외, 정수 변환 역할
)

crime_anal_police.head()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,중부서,2,2,3,2,105,65,1395,477,1355,1170
1,종로서,3,3,6,5,115,98,1070,413,1278,1070
2,남대문서,1,0,6,4,65,46,1153,382,869,794
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711
4,혜화서,3,2,5,4,96,63,1114,424,1015,861


In [3]:
crime_anal_police.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   관서명     31 non-null     object
 1   살인 발생   31 non-null     int64 
 2   살인 검거   31 non-null     int64 
 3   강도 발생   31 non-null     int64 
 4   강도 검거   31 non-null     int64 
 5   강간 발생   31 non-null     int64 
 6   강간 검거   31 non-null     int64 
 7   절도 발생   31 non-null     int64 
 8   절도 검거   31 non-null     int64 
 9   폭력 발생   31 non-null     int64 
 10  폭력 검거   31 non-null     int64 
dtypes: int64(10), object(1)
memory usage: 2.8+ KB


In [4]:
crime_anal_police.head()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,중부서,2,2,3,2,105,65,1395,477,1355,1170
1,종로서,3,3,6,5,115,98,1070,413,1278,1070
2,남대문서,1,0,6,4,65,46,1153,382,869,794
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711
4,혜화서,3,2,5,4,96,63,1114,424,1015,861


---
#### 구글 맵 API 사용해서 경찰서의 위치 정보 받아오기
---

In [5]:
crime_anal_police['관서명'] # 시리즈 오브젝트다

0      중부서
1      종로서
2     남대문서
3     서대문서
4      혜화서
5      용산서
6      성북서
7     동대문서
8      마포서
9     영등포서
10     성동서
11     동작서
12     광진서
13     서부서
14     강북서
15     금천서
16     중랑서
17     강남서
18     관악서
19     강서서
20     강동서
21     종암서
22     구로서
23     서초서
24     양천서
25     송파서
26     노원서
27     방배서
28     은평서
29     도봉서
30     수서서
Name: 관서명, dtype: object

In [6]:
# 구글맵 
# 구글 서버에 접속(key필요)해서 데이터 요청할 수 있는 클라이언트 생성 처리
import googlemaps

In [7]:
# AIzaSyCRxIgstOs32GDCO9t3CzdfaLAnb5tu0fI
# 클라이언트 생성만 한 것이다.
gmaps_key = 'AIzaSyCRxIgstOs32GDCO9t3CzdfaLAnb5tu0fI'
gmaps = googlemaps.Client(key=gmaps_key)

In [8]:
# 서울중부경찰서 검색해서 주소 정보 추출
addr_list = gmaps.geocode(
    '서울중부경찰서'  # 지도 검색할 문자열
    , language='ko' # 한글로 검색 나온다
)
addr_list

[{'address_components': [{'long_name': '67',
    'short_name': '67',
    'types': ['premise']},
   {'long_name': '퇴계로',
    'short_name': '퇴계로',
    'types': ['political', 'sublocality', 'sublocality_level_4']},
   {'long_name': '중구',
    'short_name': '중구',
    'types': ['political', 'sublocality', 'sublocality_level_1']},
   {'long_name': '서울특별시',
    'short_name': '서울특별시',
    'types': ['administrative_area_level_1', 'political']},
   {'long_name': '대한민국',
    'short_name': 'KR',
    'types': ['country', 'political']},
   {'long_name': '04529', 'short_name': '04529', 'types': ['postal_code']}],
  'formatted_address': '대한민국 서울특별시 중구 퇴계로 67',
  'geometry': {'location': {'lat': 37.55990389999999, 'lng': 126.9794911},
   'location_type': 'ROOFTOP',
   'viewport': {'northeast': {'lat': 37.5612528802915,
     'lng': 126.9808400802915},
    'southwest': {'lat': 37.5585549197085, 'lng': 126.9781421197085}}},
  'place_id': 'ChIJc-9q5uSifDURLhQmr5wkXmc',
  'plus_code': {'compound_code': 'HX5H

In [9]:
addr_list[0]

{'address_components': [{'long_name': '67',
   'short_name': '67',
   'types': ['premise']},
  {'long_name': '퇴계로',
   'short_name': '퇴계로',
   'types': ['political', 'sublocality', 'sublocality_level_4']},
  {'long_name': '중구',
   'short_name': '중구',
   'types': ['political', 'sublocality', 'sublocality_level_1']},
  {'long_name': '서울특별시',
   'short_name': '서울특별시',
   'types': ['administrative_area_level_1', 'political']},
  {'long_name': '대한민국', 'short_name': 'KR', 'types': ['country', 'political']},
  {'long_name': '04529', 'short_name': '04529', 'types': ['postal_code']}],
 'formatted_address': '대한민국 서울특별시 중구 퇴계로 67',
 'geometry': {'location': {'lat': 37.55990389999999, 'lng': 126.9794911},
  'location_type': 'ROOFTOP',
  'viewport': {'northeast': {'lat': 37.5612528802915,
    'lng': 126.9808400802915},
   'southwest': {'lat': 37.5585549197085, 'lng': 126.9781421197085}}},
 'place_id': 'ChIJc-9q5uSifDURLhQmr5wkXmc',
 'plus_code': {'compound_code': 'HX5H+XQ 대한민국 서울특별시',
  'global_cod

In [10]:
# 위 딕셔너리에서 전체 주소 추출
addr_list[0].get('formatted_address')

'대한민국 서울특별시 중구 퇴계로 67'

In [11]:
# 위도, 경도 정보 추출
addr_list[0].get('geometry')

{'location': {'lat': 37.55990389999999, 'lng': 126.9794911},
 'location_type': 'ROOFTOP',
 'viewport': {'northeast': {'lat': 37.5612528802915, 'lng': 126.9808400802915},
  'southwest': {'lat': 37.5585549197085, 'lng': 126.9781421197085}}}

In [12]:
addr_list[0].get('geometry')['location']

{'lat': 37.55990389999999, 'lng': 126.9794911}

In [13]:
addr_list[0].get('geometry')['location']['lat']

37.55990389999999

In [14]:
addr_list[0].get('geometry')['location']['lng']

126.9794911

In [15]:
# 관서명 : 31개 , 서울중부경찰서 <= 중부서
name = '중부서'
print(name[:-1])
print('서울'+ name[:-1] + '경찰서')

중부
서울중부경찰서


In [16]:
# 1. 기존 관서명(중부서) => 서울중부경찰서 변경
station_name = [] # 변경된 관서명 저장하는 리스트

for name in crime_anal_police['관서명']:
    station_name.append('서울'+ str(name[:-1]) + '경찰서')

station_name

['서울중부경찰서',
 '서울종로경찰서',
 '서울남대문경찰서',
 '서울서대문경찰서',
 '서울혜화경찰서',
 '서울용산경찰서',
 '서울성북경찰서',
 '서울동대문경찰서',
 '서울마포경찰서',
 '서울영등포경찰서',
 '서울성동경찰서',
 '서울동작경찰서',
 '서울광진경찰서',
 '서울서부경찰서',
 '서울강북경찰서',
 '서울금천경찰서',
 '서울중랑경찰서',
 '서울강남경찰서',
 '서울관악경찰서',
 '서울강서경찰서',
 '서울강동경찰서',
 '서울종암경찰서',
 '서울구로경찰서',
 '서울서초경찰서',
 '서울양천경찰서',
 '서울송파경찰서',
 '서울노원경찰서',
 '서울방배경찰서',
 '서울은평경찰서',
 '서울도봉경찰서',
 '서울수서경찰서']

In [17]:
# 구글맵에서 3개 지도 정부 추출
# 전체주소, 위도, 경도
# 위 정보를 저장하는 저장소 : 리스트
station_address = []
station_lat = []
station_lng = []

for name in station_name: # name : 서울중부경찰서, 경찰서명이 31번 반복
    # 구글 지도 서버에 경찰서명 보내서 지도정보를 받는다
    tmp = gmaps.geocode(
        name            # 경찰서명
        , language='ko' # 한글 처리
    )
    # 전체 추출해서 station_address 에 추가
    station_address.append(tmp[0].get('formatted_address'))
    # lat, lng 추출
    tmp_loc = tmp[0].get('geometry')
    station_lat.append(tmp_loc['location']['lat'])
    station_lng.append(tmp_loc['location']['lng'])
    
    # 경찰서명, 전체 주소 출력
    print(name + '----> ' + tmp[0].get('formatted_address'))

서울중부경찰서----> 대한민국 서울특별시 중구 퇴계로 67
서울종로경찰서----> 대한민국 서울특별시 종로구 인사동5길 41
서울남대문경찰서----> 대한민국 서울특별시 중구 한강대로 410
서울서대문경찰서----> 대한민국 서울특별시 서대문구 충정로 13
서울혜화경찰서----> 대한민국 서울특별시 종로구 창경궁로 112-16
서울용산경찰서----> 대한민국 서울특별시 용산구 백범로 329
서울성북경찰서----> 대한민국 서울특별시 성북구 보문로 170
서울동대문경찰서----> 대한민국 서울특별시 동대문구 약령시로21길 29
서울마포경찰서----> 대한민국 서울특별시 마포구 마포대로 183
서울영등포경찰서----> 대한민국 서울특별시 영등포구 국회대로 608
서울성동경찰서----> 대한민국 서울특별시 성동구 왕십리광장로 9
서울동작경찰서----> 대한민국 서울특별시 동작구 노량진로 148
서울광진경찰서----> 대한민국 서울특별시 광진구 자양로 167
서울서부경찰서----> 대한민국 서울특별시 은평구 진흥로 58
서울강북경찰서----> 대한민국 서울특별시 강북구 오패산로 406
서울금천경찰서----> 대한민국 서울특별시 금천구 시흥대로73길 50
서울중랑경찰서----> 대한민국 서울특별시 중랑구 묵제2동 249-2
서울강남경찰서----> 대한민국 서울특별시 강남구 테헤란로114길 11
서울관악경찰서----> 대한민국 서울특별시 관악구 관악로5길 33
서울강서경찰서----> 대한민국 서울특별시 강서구 화곡로 308
서울강동경찰서----> 대한민국 서울특별시 강동구 성내로 57
서울종암경찰서----> 대한민국 서울특별시 성북구 화랑로7길 32
서울구로경찰서----> 대한민국 서울특별시 구로구 새말로 97 신도림테크노마트 5층
서울서초경찰서----> 대한민국 서울특별시 서초구 반포대로 179
서울양천경찰서----> 대한민국 서울특별시 양천구 목동동로 99
서울송파경찰서----> 대한민국 서울특별시 송파구 중대로 221
서울노원경찰서----> 대한민국 서울특별시 노

In [22]:
# 데이터 확인 : 리스트 확인
station_lng[:3]


[126.9794911, 126.9841533, 126.9734981]

In [23]:
import pickle

with open('./data/station_address.pickle', 'wb') as f:
    pickle.dump(station_address,f)

with open('./data/station_lat.pickle', 'wb') as f:
    pickle.dump(station_lat,f)
    
with open('./data/station_lng.pickle','wb') as f:
    pickle.dump(station_lng, f)

In [26]:
# 전체 주소에서 '구' 추출
gu = '대한민국 서울특별시 강남구 개포로 617'
print(gu.split()) # 전체 주소를 공백으로 분리 리스트 반환

for addr in gu.split():
    if addr[-1] == '구':
        print(addr)

['대한민국', '서울특별시', '강남구', '개포로', '617']
강남구


In [29]:
# 31개 전체 주소에서 '구' 추출해서 리스트에서 추가(append)
gu_names = []

for addr in station_address: # 31개 전체 주소에서 한개씩 추출해서 addr에 준다
    addr_split = addr.split() # 리스트 나온다
    
    for gu in addr_split: # ['대한민국', '서울특별시', '강남구', '개포로', '617']
        if gu[-1] == '구':
            gu_names.append(gu)
        

In [30]:
gu_names

['중구',
 '종로구',
 '중구',
 '서대문구',
 '종로구',
 '용산구',
 '성북구',
 '동대문구',
 '마포구',
 '영등포구',
 '성동구',
 '동작구',
 '광진구',
 '은평구',
 '강북구',
 '금천구',
 '중랑구',
 '강남구',
 '관악구',
 '강서구',
 '강동구',
 '성북구',
 '구로구',
 '서초구',
 '양천구',
 '송파구',
 '노원구',
 '서초구',
 '은평구',
 '도봉구',
 '강남구']

In [32]:
# '구별' 컬럼을 생성하고 gu_names 데이터 추가해서 컬럼 추가
crime_anal_police['구별'] = gu_names 
crime_anal_police.head()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,구별
0,중부서,2,2,3,2,105,65,1395,477,1355,1170,중구
1,종로서,3,3,6,5,115,98,1070,413,1278,1070,종로구
2,남대문서,1,0,6,4,65,46,1153,382,869,794,중구
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711,서대문구
4,혜화서,3,2,5,4,96,63,1114,424,1015,861,종로구


In [33]:
# 현재가지 처리한 결과를 파일에 저장, csv file
crime_anal_police.to_csv(
    './data/02. crime_in_Seoul_include_gu_name.csv' # 저장할 경로와 파일명 지정
    , sep=','   # 파일 저장시 데이터 구분 무엇으로 할 것인지 지정
    , encoding='utf-8' # 표준
)


---
#### 판단스 pivot_table() 사용
---

In [35]:
# 데이터 읽기
df = pd.read_excel(
    './data/02. sales-funnel.xlsx'
)
df.head()

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
0,714466,Trantow-Barrows,Craig Booker,Debra Henley,CPU,1,30000,presented
1,714466,Trantow-Barrows,Craig Booker,Debra Henley,Software,1,10000,presented
2,714466,Trantow-Barrows,Craig Booker,Debra Henley,Maintenance,2,5000,pending
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined
4,146832,Kiehn-Spinka,Daniel Hilton,Debra Henley,CPU,2,65000,won


In [36]:
# 예제 데이터 
# 예제 데이터 생성
data = {
    '날짜': ['2024-03-01', '2024-03-01', '2024-03-02', '2024-03-02', '2024-03-03'],
    '도시': ['서울', '부산', '서울', '부산', '서울'],
    '판매량': [100, 200, 150, 250, 300],
    '매출': [1000, 2000, 1500, 2500, 3000]
}

df = pd.DataFrame(data)

In [37]:
df

Unnamed: 0,날짜,도시,판매량,매출
0,2024-03-01,서울,100,1000
1,2024-03-01,부산,200,2000
2,2024-03-02,서울,150,1500
3,2024-03-02,부산,250,2500
4,2024-03-03,서울,300,3000


In [38]:
# pivot_table() 주요 매개변수 설명
# 데이터 그룹화하고 특정 컬럼을 기준으로 집계하여 
# 새로운 형태의 데이터프레임을 생성
# pd.pivot_table(data,                  DataFrame object
#                values=None,           집계할 컬럼 지정(여러개 지정 가능)
#                index=None,            행 인덱스로 사용할 컬럼 지정
#                columns=None,          컬럼으로 사용할 컬럼 지정
#                aggfunc='mean',        적용할 집계 함수(기본값:mean(평균)), sum, count, max, min, lambda
#                fill_value=None,       결측값(NaN)을 대체할 값 지정
#                margins=False,         총합/평균 등의 요약 행과 열 추가
#                margins_name='All',    추가된 이름 부여
#                dropna=True)           NaN 값이 들어있는 컬럼 삭제 여부 지정

In [40]:
# 예제 : 날짜를 기준으로 도시별 매출 합계를 피벗 테이블로 생성
pivot = pd.pivot_table(
    data=df
    , values='매출' # 매출 컬럼을 계산 
    , index='날짜'
    , columns='도시'
    , aggfunc='sum'
    , fill_value=0 # NaN 인 값을 0으로 바꾼다
)
pivot

도시,부산,서울
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-03-01,2000,1000
2024-03-02,2500,1500
2024-03-03,0,3000


In [41]:
# 예제 : 날짜를 기준으로 도시별 판매량 합계, 매출 평균를 피벗 테이블로 생성
#       날짜	도시	판매량	매출
# 0	2024-03-01	서울	100	    1000
# 1	2024-03-01	부산	200	    2000
# 2	2024-03-02	서울	150	    1500
# 3	2024-03-02	부산	250	    2500
# 4	2024-03-03	서울	300	    3000
pivot_multi = pd.pivot_table(
    data=df
    , values=['판매량','매출']
    , index='날짜'
    , columns='도시'
    , aggfunc={'판매량':'sum', '매출':'mean'}
    , fill_value=0
)
pivot_multi

Unnamed: 0_level_0,매출,매출,판매량,판매량
도시,부산,서울,부산,서울
날짜,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2024-03-01,2000.0,1000.0,200,100
2024-03-02,2500.0,1500.0,250,150
2024-03-03,0.0,3000.0,0,300


In [44]:
# 예제 : 날짜별(index),도시별(columns) 매출(values) 합계(aggfunc) 구하고, 
# 총계(margin) 표시
pivot_margin = pd.pivot_table(
    data=df
    , values='매출'
    , index='날짜'
    , columns='도시'
    , aggfunc='sum'
    , fill_value=0
    , margins=True # 총합 추가할 때 사용
    , margins_name='총계'
)
pivot_margin

도시,부산,서울,총계
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-03-01,2000,1000,3000
2024-03-02,2500,1500,4000
2024-03-03,0,3000,3000
총계,4500,5500,10000


In [45]:
# 예제 : 날짜별(index),도시별(index) 매출(values) 합계(aggfunc)
# 다중 인덱스 처리
pivot_multi_index = pd.pivot_table(
    data=df
    , values='매출'
    , index=['날짜','도시'] # 날짜별 도시별
    , aggfunc='sum'
)
pivot_multi_index

Unnamed: 0_level_0,Unnamed: 1_level_0,매출
날짜,도시,Unnamed: 2_level_1
2024-03-01,부산,2000
2024-03-01,서울,1000
2024-03-02,부산,2500
2024-03-02,서울,1500
2024-03-03,서울,3000


In [None]:
# sum, count, max, min 만들어져 있는 함수
# lambda 사용하겠다라는 의미 새로운 함수 생성
# 예제 : 도시별(인덱스) 판매량의 중간값(numpy median()) 적용
import warnings
warnings.filterwarnings('ignore')

pivot_custom_func = pd.pivot_table(
    data=df
    , values='판매량'
    , index='도시'
    # , aggfunc=np.median
    # , aggfunc='sum' 내장함수 sum
    , aggfunc=lambda x:x.sum() # x? 
)
pivot_custom_func
#       날짜	도시	판매량	매출
# 0	2024-03-01	서울	100	    1000
# 1	2024-03-01	부산	200	    2000
# 2	2024-03-02	서울	150	    1500
# 3	2024-03-02	부산	250	    2500
# 4	2024-03-03	서울	300	    3000

Unnamed: 0_level_0,판매량
도시,Unnamed: 1_level_1
부산,450
서울,550


In [None]:
# sum, count, max, min 만들어져 있는 함수
# lambda 사용하겠다라는 의미 새로운 함수 생성
# 예제 : 도시별(인덱스) 판매량의 중간값(numpy median()) 적용
# 예제 : 도시별(인덱스) 판매량의 합(numpy sum()) 적용
import warnings
warnings.filterwarnings('ignore')

pivot_custom_func = pd.pivot_table(
    data=df
    , values='판매량'
    , index='도시' # 도시별 => 서울별, 부산별
    # , aggfunc=np.median
    # , aggfunc='sum' 내장함수 sum
    # , aggfunc=np.sum numpy sum
    , aggfunc=lambda x:x.sum() # x? 넘파이 데이터 타입, ndarray
    # 서울별 = [100,150,300] => x
    # 부산별 = [200,250] => x
)
pivot_custom_func
#       날짜	도시	판매량	매출
# 0	2024-03-01	서울	100	    1000
# 1	2024-03-01	부산	200	    2000
# 2	2024-03-02	서울	150	    1500
# 3	2024-03-02	부산	250	    2500
# 4	2024-03-03	서울	300	    3000

Unnamed: 0_level_0,판매량
도시,Unnamed: 1_level_1
부산,450
서울,550


In [None]:
# 예제 : 날짜별(index) 도시별(col) 매출(values) 합(sum)
pivot_test = pd.pivot_table(
    data=df
    , values='매출'
    , index='날짜'
    , columns='도시'
    , aggfunc=np.sum
    , dropna=True # 
)
pivot_test

도시,부산,서울
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-03-01,2000.0,1000.0
2024-03-02,2500.0,1500.0
2024-03-03,,3000.0


In [61]:
# 데이터 생성
data = {
    '날짜': ['2024-03-01', '2024-03-01', '2024-03-02', '2024-03-02', '2024-03-03', '2024-03-03'],
    '도시': ['서울', '부산', '서울', '부산', '서울', '부산'],
    '판매량': [100, 200, 150, 250, 300, 100],
    '매출': [1000, 2000, 1500, 2500, 3000, 800]
}

df = pd.DataFrame(data)
df

Unnamed: 0,날짜,도시,판매량,매출
0,2024-03-01,서울,100,1000
1,2024-03-01,부산,200,2000
2,2024-03-02,서울,150,1500
3,2024-03-02,부산,250,2500
4,2024-03-03,서울,300,3000
5,2024-03-03,부산,100,800


In [62]:
# aggfunc 적용시 여러 개의 집계 함수 사용
# 예제 : 도시별(index) 판매량(values)의 합계, 평균, 개수, 
# 매출(values_의 합계(sum), 최대(max), 최소(min)
pivot_multi_agg = pd.pivot_table(
    data=df
    , values=['판매량','매출']
    , index='도시'
    , aggfunc={
        '판매량' : ['sum','mean','count']
        , '매출' : ['sum','max','min']
    }
)
pivot_multi_agg


Unnamed: 0_level_0,매출,매출,매출,판매량,판매량,판매량
Unnamed: 0_level_1,max,min,sum,count,mean,sum
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
부산,2500,800,5300,3,183.333333,550
서울,3000,1000,5500,3,183.333333,550


In [73]:
# groupby() function
# 도시별 매출 합
# 피봇
p_a = pd.pivot_table(
    data=df
    , values='매출'
    , index='도시'
    , aggfunc='sum'
)
print('피봇 결과 \n', p_a)
# 피봇 : 컬럼 지정 가능, 데이터프레임 반환

# groupby()
# 그룹핑 컬럼이 인덱스로 간다. 시리즈 반환
p_b = df.groupby(['도시'])['매출'].sum()
print('그룹 결과 \n', p_b)

# 서울 데이터 추출
print(df.groupby(['도시'])['매출'].sum()['서울'])
# 부산산 데이터 추출
print(df.groupby(['도시'])['매출'].sum()['부산'])

피봇 결과 
       매출
도시      
부산  5300
서울  5500
그룹 결과 
 도시
부산    5300
서울    5500
Name: 매출, dtype: int64
5500
5300


In [71]:
type(p_b)

pandas.core.series.Series

In [67]:
# df.groupby('그룹핑할 [컬럼들] 지정') return
df.groupby(['도시'])['매출'].sum()

도시
부산    5300
서울    5500
Name: 매출, dtype: int64

In [65]:
df

Unnamed: 0,날짜,도시,판매량,매출
0,2024-03-01,서울,100,1000
1,2024-03-01,부산,200,2000
2,2024-03-02,서울,150,1500
3,2024-03-02,부산,250,2500
4,2024-03-03,서울,300,3000
5,2024-03-03,부산,100,800


---
#### 범죄 현황 데이터 구별로 통합 처리
---

In [76]:
# 읽기
crime_anal_raw = pd.read_csv(
    './data/02. crime_in_Seoul_include_gu_name.csv'
    , encoding='utf-8'
    , index_col=0
)
crime_anal_raw.head()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,구별
0,중부서,2,2,3,2,105,65,1395,477,1355,1170,중구
1,종로서,3,3,6,5,115,98,1070,413,1278,1070,종로구
2,남대문서,1,0,6,4,65,46,1153,382,869,794,중구
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711,서대문구
4,혜화서,3,2,5,4,96,63,1114,424,1015,861,종로구


In [77]:
crime_anal = pd.pivot_table(
    data=crime_anal_raw
    # , values= 컬럼 전체 다 가져와라 
    , index='구별' # 인덱스 가고, 키
    , aggfunc=np.sum
)
crime_anal.head()

Unnamed: 0_level_0,강간 검거,강간 발생,강도 검거,강도 발생,관서명,살인 검거,살인 발생,절도 검거,절도 발생,폭력 검거,폭력 발생
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
강남구,349,449,18,21,강남서수서서,10,13,1650,3850,3705,4284
강동구,123,156,8,6,강동서,3,4,789,2366,2248,2712
강북구,126,153,13,14,강북서,8,7,618,1434,2348,2649
강서구,191,262,13,13,강서서,8,7,1260,2096,2718,3207
관악구,221,320,14,12,관악서,8,9,827,2706,2642,3298


In [78]:
# 검거율 구하기 : 구별 비교를 위해
crime_anal['강간검거율'] = crime_anal['강간 검거'] / crime_anal['강간 발생'] * 100
crime_anal['강도검거율'] = crime_anal['강도 검거'] / crime_anal['강도 발생'] * 100
crime_anal['살인검거율'] = crime_anal['살인 검거'] / crime_anal['살인 발생'] * 100
crime_anal['절도검거율'] = crime_anal['절도 검거'] / crime_anal['절도 발생'] * 100
crime_anal['폭력검거율'] = crime_anal['폭력 검거'] / crime_anal['폭력 발생'] * 100

In [79]:
crime_anal.head()

Unnamed: 0_level_0,강간 검거,강간 발생,강도 검거,강도 발생,관서명,살인 검거,살인 발생,절도 검거,절도 발생,폭력 검거,폭력 발생,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
강남구,349,449,18,21,강남서수서서,10,13,1650,3850,3705,4284,77.728285,85.714286,76.923077,42.857143,86.484594
강동구,123,156,8,6,강동서,3,4,789,2366,2248,2712,78.846154,133.333333,75.0,33.347422,82.890855
강북구,126,153,13,14,강북서,8,7,618,1434,2348,2649,82.352941,92.857143,114.285714,43.096234,88.637222
강서구,191,262,13,13,강서서,8,7,1260,2096,2718,3207,72.900763,100.0,114.285714,60.114504,84.752105
관악구,221,320,14,12,관악서,8,9,827,2706,2642,3298,69.0625,116.666667,88.888889,30.561715,80.109157


In [80]:
# 검거 데이터 삭제
del crime_anal['강간 검거']
del crime_anal['강도 검거']
del crime_anal['살인 검거']
del crime_anal['절도 검거']
del crime_anal['폭력 검거']
crime_anal.head()

Unnamed: 0_level_0,강간 발생,강도 발생,관서명,살인 발생,절도 발생,폭력 발생,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
강남구,449,21,강남서수서서,13,3850,4284,77.728285,85.714286,76.923077,42.857143,86.484594
강동구,156,6,강동서,4,2366,2712,78.846154,133.333333,75.0,33.347422,82.890855
강북구,153,14,강북서,7,1434,2649,82.352941,92.857143,114.285714,43.096234,88.637222
강서구,262,13,강서서,7,2096,3207,72.900763,100.0,114.285714,60.114504,84.752105
관악구,320,12,관악서,9,2706,3298,69.0625,116.666667,88.888889,30.561715,80.109157


In [81]:
# 관서명 삭제
del crime_anal['관서명']
crime_anal.head()

Unnamed: 0_level_0,강간 발생,강도 발생,살인 발생,절도 발생,폭력 발생,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
강남구,449,21,13,3850,4284,77.728285,85.714286,76.923077,42.857143,86.484594
강동구,156,6,4,2366,2712,78.846154,133.333333,75.0,33.347422,82.890855
강북구,153,14,7,1434,2649,82.352941,92.857143,114.285714,43.096234,88.637222
강서구,262,13,7,2096,3207,72.900763,100.0,114.285714,60.114504,84.752105
관악구,320,12,9,2706,3298,69.0625,116.666667,88.888889,30.561715,80.109157


In [82]:
crime_anal.columns

Index(['강간 발생', '강도 발생', '살인 발생', '절도 발생', '폭력 발생', '강간검거율', '강도검거율', '살인검거율',
       '절도검거율', '폭력검거율'],
      dtype='object')

In [84]:
con_list = ['강간검거율', '강도검거율', '살인검거율','절도검거율', '폭력검거율']

# loc[행, 열]
for col in con_list:
    crime_anal.loc[crime_anal[col]>100,col] = 100
    
crime_anal.head()

Unnamed: 0_level_0,강간 발생,강도 발생,살인 발생,절도 발생,폭력 발생,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
강남구,449,21,13,3850,4284,77.728285,85.714286,76.923077,42.857143,86.484594
강동구,156,6,4,2366,2712,78.846154,100.0,75.0,33.347422,82.890855
강북구,153,14,7,1434,2649,82.352941,92.857143,100.0,43.096234,88.637222
강서구,262,13,7,2096,3207,72.900763,100.0,100.0,60.114504,84.752105
관악구,320,12,9,2706,3298,69.0625,100.0,88.888889,30.561715,80.109157


In [85]:
crime_anal.columns

Index(['강간 발생', '강도 발생', '살인 발생', '절도 발생', '폭력 발생', '강간검거율', '강도검거율', '살인검거율',
       '절도검거율', '폭력검거율'],
      dtype='object')

In [86]:
# 컬럼명을 변경
crime_anal.rename(
    columns={
        '강간 발생':'강간'
        , '강도 발생':'강도'
        , '살인 발생':'살인'
        , '절도 발생':'절도'
        , '폭력 발생':'폭력'
    }
    , inplace=True
)
crime_anal.head()

Unnamed: 0_level_0,강간,강도,살인,절도,폭력,강간검거율,강도검거율,살인검거율,절도검거율,폭력검거율
구별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
강남구,449,21,13,3850,4284,77.728285,85.714286,76.923077,42.857143,86.484594
강동구,156,6,4,2366,2712,78.846154,100.0,75.0,33.347422,82.890855
강북구,153,14,7,1434,2649,82.352941,92.857143,100.0,43.096234,88.637222
강서구,262,13,7,2096,3207,72.900763,100.0,100.0,60.114504,84.752105
관악구,320,12,9,2706,3298,69.0625,100.0,88.888889,30.561715,80.109157


In [87]:
# 지금까지 처리 내용 파일에 저장
crime_anal.to_csv(
    './data/02. crime_in_Seoul_include_gu_name_IN32.csv'
    , encoding='utf-8'
)