# Python 프로그래밍 Pandas
## 데이터프레임 Dataframe

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

## Pandas 란
- 다른 Dataframe이나 고차원 객체로부터 컬럼을 추가 삭제
- group by함수
- 라벨 등을 이용한 데이터 부분 집합 추출
- 데이터 세로 가로 합치기
- 외부 데이터 연동의 견고함(CSV, Excel, databases, HDF5지원)
- missing data(NaN) 처리

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
%matplotlib inline
plt.rcParams['font.family'] = 'Malgun Gothic'

In [3]:
data = pd.read_csv('../data/2012_2014_교통사망사고정보.csv', encoding='euc-kr')
data.columns

Index(['발생년', '발생년월일시', '발생분', '주야', '요일', '사망자수', '사상자수', '중상자수', '경상자수',
       '부상신고자수', '발생지시도', '발생지시군구', '사고유형_대분류', '사고유형_중분류', '사고유형', '법규위반_대분류',
       '법규위반', '도로형태_대분류', '도로형태', '당사자종별_1당_대분류', '당사자종별_1당', '당사자종별_2당_대분류',
       '당사자종별_2당', '발생위치X_UTMK', '발생위치Y_UTMK', '경도', '위도'],
      dtype='object')

In [4]:
data = data[['발생년월일시', '주야', '요일', '사망자수', '사상자수', '중상자수', '경상자수',
              '부상신고자수', '발생지시도', '사고유형_대분류', '사고유형_중분류']]
data.head()

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌
4,2012-06-18 4:00,야간,월,1,1,0,0,0,전남,차대차,추돌


## loc, iloc - 두 개 이상의 연속된 컬럼 선택
- loc은 Index가 가지고 있는 값을 기준으로 동작
- iloc은 index의 위치 기준으로 동작합니다.(정수만 사용)

In [5]:
data.columns
data.iloc[:, [5,9]].head()
data.iloc[:, 5:9].head()
data.loc[:, '사망자수':'부상신고자수'].head()

Index(['발생년월일시', '주야', '요일', '사망자수', '사상자수', '중상자수', '경상자수', '부상신고자수', '발생지시도',
       '사고유형_대분류', '사고유형_중분류'],
      dtype='object')

Unnamed: 0,중상자수,사고유형_대분류
0,0,차대차
1,0,차대차
2,1,차대차
3,0,차대차
4,0,차대차


Unnamed: 0,중상자수,경상자수,부상신고자수,발생지시도
0,0,0,0,경남
1,0,0,0,경기
2,1,0,0,경북
3,0,0,0,경기
4,0,0,0,전남


Unnamed: 0,사망자수,사상자수,중상자수,경상자수,부상신고자수
0,1,1,0,0,0
1,1,1,0,0,0
2,1,2,1,0,0
3,1,1,0,0,0
4,1,1,0,0,0


## 조건과 함께 컬럼 선택

In [None]:
data[data.사상자수 > 4].head()

In [7]:
data.loc[data.사상자수 > 4, '발생지시도']

5        전남
8        경남
10       대구
19       전북
36       경남
         ..
14491    강원
14554    대구
14591    경기
14620    전북
14621    경북
Name: 발생지시도, Length: 610, dtype: object

In [6]:
data[data.사상자수 > 4].중상자수.head()
data[data.사상자수 > 4][['중상자수', '경상자수']].head()

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
5,2012-07-15 8:00,주간,일,1,5,0,4,0,전남,차량단독,전도전복
8,2012-10-01 2:00,야간,월,1,5,1,3,0,경남,차대차,측면직각충돌
10,2012-08-30 8:00,주간,목,1,5,1,3,0,대구,차대차,추돌
19,2012-01-01 1:00,야간,일,1,6,5,0,0,전북,차대차,정면충돌
36,2012-02-10 0:00,야간,금,1,5,3,1,0,경남,차대차,기타


5     0
8     1
10    1
19    5
36    3
Name: 중상자수, dtype: int64

5     0
8     1
10    1
19    5
36    3
Name: 중상자수, dtype: int64

Unnamed: 0,중상자수,경상자수
5,0,4
8,1,3
10,1,3
19,5,0
36,3,1


# <font color='red'>데이터 selct - 조건, very useful </font>

## 부상신고자가 3이상인 사고인지 여부(Boolean)를 list로 만들기

In [7]:
hurts=[]

for hurt in data.부상신고자수 :
    if hurt >= 3 :
        hurts.append(True)
    if hurt < 3 :
        hurts.append(False)
        
len(hurts)
True in hurts, False in hurts
hurts[:10]

14624

(True, True)

[False, False, False, False, False, False, False, False, False, False]

## Boolean 값이 참인 것만 가져오기

In [8]:
lots_of_hurts = pd.Series(hurts)
data[lots_of_hurts].head(3)

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
203,2012-09-04 16:00,주간,화,1,8,0,3,4,전북,차대차,기타
209,2012-11-03 2:00,야간,토,1,22,6,12,3,경북,차대차,추돌
340,2012-12-11 5:00,야간,화,1,7,0,0,6,경기,차대차,추돌


## list comprehension 활용

In [9]:
lots_of_hurts2 = [ hurt >= 3 for hurt in data.부상신고자수]
data[lots_of_hurts2].head(3)

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
203,2012-09-04 16:00,주간,화,1,8,0,3,4,전북,차대차,기타
209,2012-11-03 2:00,야간,토,1,22,6,12,3,경북,차대차,추돌
340,2012-12-11 5:00,야간,화,1,7,0,0,6,경기,차대차,추돌


In [10]:
lots_of_hurts3 = data.부상신고자수 >= 3
data[lots_of_hurts3].head(3)

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
203,2012-09-04 16:00,주간,화,1,8,0,3,4,전북,차대차,기타
209,2012-11-03 2:00,야간,토,1,22,6,12,3,경북,차대차,추돌
340,2012-12-11 5:00,야간,화,1,7,0,0,6,경기,차대차,추돌


## 단순 조건문

In [11]:
data[data.부상신고자수 >= 3]['사상자수']
data.loc[data.부상신고자수 >= 3, '사상자수']

203        8
209       22
340        7
589        7
774       10
883       25
1571     100
2233       6
2237      20
2364       7
2670       6
2998      10
3751      12
4275      25
5523       9
6602      13
8441      47
8729      34
10258      7
10595     22
10919     20
11850      8
12646     18
13204     19
13207      6
13216      4
13514      5
13837     15
14440      6
14591     10
Name: 사상자수, dtype: int64

203        8
209       22
340        7
589        7
774       10
883       25
1571     100
2233       6
2237      20
2364       7
2670       6
2998      10
3751      12
4275      25
5523       9
6602      13
8441      47
8729      34
10258      7
10595     22
10919     20
11850      8
12646     18
13204     19
13207      6
13216      4
13514      5
13837     15
14440      6
14591     10
Name: 사상자수, dtype: int64

## 복합 조건문

In [12]:
data[(data.부상신고자수 >= 8) & (data.사상자수 >= 4)]

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
1571,2012-02-24 15:00,주간,금,4,100,6,23,67,강원,차대차,추돌
4275,2013-09-12 19:00,야간,목,2,25,3,4,16,경기,차대차,추돌
6602,2013-10-23 16:00,주간,수,1,13,3,0,9,경기,차대차,기타
8729,2014-12-31 19:00,야간,수,1,34,3,0,30,경기,차대차,기타
10919,2014-11-04 7:00,주간,화,3,20,3,0,14,제주,차대차,정면충돌


In [8]:
(data.부상신고자수 >= 8) | (data.사상자수 >= 30)

0        False
1        False
2        False
3        False
4        False
         ...  
14619    False
14620    False
14621    False
14622    False
14623    False
Length: 14624, dtype: bool

In [13]:
data[(data.부상신고자수 >= 8) | (data.사상자수 >= 30)]

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
407,2012-10-17 21:00,야간,수,3,35,26,6,0,대구,차대차,측면직각충돌
742,2012-05-10 10:00,주간,목,1,37,7,29,0,제주,차대차,측면직각충돌
1571,2012-02-24 15:00,주간,금,4,100,6,23,67,강원,차대차,추돌
2290,2013-12-18 6:00,주간,수,4,36,25,7,0,강원,차대차,추돌
3341,2013-03-31 20:00,야간,일,1,57,45,10,1,전북,차대차,기타
4159,2013-11-10 11:00,주간,일,1,43,14,28,0,충남,차대차,추돌
4275,2013-09-12 19:00,야간,목,2,25,3,4,16,경기,차대차,추돌
6602,2013-10-23 16:00,주간,수,1,13,3,0,9,경기,차대차,기타
8441,2013-09-05 9:00,주간,목,1,47,28,11,7,인천,차대차,추돌
8729,2014-12-31 19:00,야간,수,1,34,3,0,30,경기,차대차,기타


In [14]:
data[(data.부상신고자수 == 8) | (data.부상신고자수 == 9)]

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
6602,2013-10-23 16:00,주간,수,1,13,3,0,9,경기,차대차,기타


## 복합 조건문 isin 사용

In [9]:
data.rename(columns = {'부상신고자수' : '부상자수'}, inplace = True)

In [16]:
data[data.부상자수.isin([8,9])]

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류
6602,2013-10-23 16:00,주간,수,1,13,3,0,9,경기,차대차,기타


## 값에 특정 문자가 포함되어 있는지 조건으로 활용

In [17]:
data.columns

Index(['발생년월일시', '주야', '요일', '사망자수', '사상자수', '중상자수', '경상자수', '부상자수', '발생지시도',
       '사고유형_대분류', '사고유형_중분류'],
      dtype='object')

In [18]:
data.columns.str.replace('사고유형_', '')
data.columns = data.columns.str.replace('사고유형_', '')

Index(['발생년월일시', '주야', '요일', '사망자수', '사상자수', '중상자수', '경상자수', '부상자수', '발생지시도',
       '대분류', '중분류'],
      dtype='object')

In [19]:
data.중분류.str.contains('충돌').head()
data[data.중분류.str.contains('충돌')].head()

0    False
1    False
2     True
3    False
4    False
Name: 중분류, dtype: bool

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌
7,2012-09-17 14:00,주간,월,1,1,0,0,0,충남,차량단독,공작물충돌
8,2012-10-01 2:00,야간,월,1,5,1,3,0,경남,차대차,측면직각충돌
16,2012-11-06 1:00,야간,화,1,1,0,0,0,경남,차량단독,공작물충돌
19,2012-01-01 1:00,야간,일,1,6,5,0,0,전북,차대차,정면충돌


## 데이터 Select - loc, iloc

In [20]:
data.loc[0, :]
data.loc[[0,1,2], :]
data.loc[0:3, :]
data.loc[:, ['발생지시도', '대분류']]

발생년월일시    2012-05-09 1:00
주야                     야간
요일                      수
사망자수                    1
사상자수                    1
중상자수                    0
경상자수                    0
부상자수                    0
발생지시도                  경남
대분류                   차대차
중분류                    추돌
Name: 0, dtype: object

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌


Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌


Unnamed: 0,발생지시도,대분류
0,경남,차대차
1,경기,차대차
2,경북,차대차
3,경기,차대차
4,전남,차대차
...,...,...
14619,경북,차대사람
14620,전북,차대차
14621,경북,차대차
14622,경남,차대차


In [21]:
data

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌
4,2012-06-18 4:00,야간,월,1,1,0,0,0,전남,차대차,추돌
...,...,...,...,...,...,...,...,...,...,...,...
14619,2014-07-05 16:00,주간,토,1,1,0,0,0,경북,차대사람,기타
14620,2014-07-12 18:00,야간,토,1,8,2,5,0,전북,차대차,측면직각충돌
14621,2014-07-15 4:00,야간,화,2,6,2,2,0,경북,차대차,기타
14622,2014-07-10 20:00,야간,목,1,3,0,2,0,경남,차대차,추돌


In [18]:
data.head(2)

Unnamed: 0,발생년월일시,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류
0,2012-05-09 1:00,수,1,1,0,0,0,경남,차대차,추돌
1,2012-03-30 13:00,금,1,1,0,0,0,경기,차대차,추돌


In [17]:
del data['주야']

In [15]:
data.drop(['주야', '요일'], axis=1)

Unnamed: 0,발생년월일시,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류
0,2012-05-09 1:00,1,1,0,0,0,경남,차대차,추돌
1,2012-03-30 13:00,1,1,0,0,0,경기,차대차,추돌
2,2012-10-26 20:00,1,2,1,0,0,경북,차대차,측면직각충돌
3,2012-06-28 14:00,1,1,0,0,0,경기,차대차,추돌
4,2012-06-18 4:00,1,1,0,0,0,전남,차대차,추돌
...,...,...,...,...,...,...,...,...,...
14619,2014-07-05 16:00,1,1,0,0,0,경북,차대사람,기타
14620,2014-07-12 18:00,1,8,2,5,0,전북,차대차,측면직각충돌
14621,2014-07-15 4:00,2,6,2,2,0,경북,차대차,기타
14622,2014-07-10 20:00,1,3,0,2,0,경남,차대차,추돌


In [22]:
data.drop(['주야', '발생년월일시', '대분류'], axis=1).head()

Unnamed: 0,발생년월일시,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류
0,2012-05-09 1:00,수,1,1,0,0,0,경남,차대차,추돌
1,2012-03-30 13:00,금,1,1,0,0,0,경기,차대차,추돌
2,2012-10-26 20:00,금,1,2,1,0,0,경북,차대차,측면직각충돌
3,2012-06-28 14:00,목,1,1,0,0,0,경기,차대차,추돌
4,2012-06-18 4:00,월,1,1,0,0,0,전남,차대차,추돌


Unnamed: 0,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,중분류
0,수,1,1,0,0,0,경남,추돌
1,금,1,1,0,0,0,경기,추돌
2,금,1,2,1,0,0,경북,측면직각충돌
3,목,1,1,0,0,0,경기,추돌
4,월,1,1,0,0,0,전남,추돌


In [23]:
from faker import Faker
fake = Faker('ko_KR')

In [24]:
import warnings
warnings.filterwarnings('ignore')
data['가상주소'] = [fake.address() for i in range(len(data))]

In [25]:
data

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,충청북도 천안시 서북구 개포40로 (예원김마을)
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌,경기도 안양시 역삼길
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌,인천광역시 송파구 역삼가
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌,강원도 단양군 봉은사52거리 (하은박면)
4,2012-06-18 4:00,야간,월,1,1,0,0,0,전남,차대차,추돌,서울특별시 구로구 개포길 (진호김마을)
...,...,...,...,...,...,...,...,...,...,...,...,...
14619,2014-07-05 16:00,주간,토,1,1,0,0,0,경북,차대사람,기타,강원도 금산군 봉은사로 (경자이면)
14620,2014-07-12 18:00,야간,토,1,8,2,5,0,전북,차대차,측면직각충돌,대전광역시 중구 서초중앙가
14621,2014-07-15 4:00,야간,화,2,6,2,2,0,경북,차대차,기타,인천광역시 도봉구 잠실길
14622,2014-07-10 20:00,야간,목,1,3,0,2,0,경남,차대차,추돌,전라남도 양평군 영동대길


In [26]:
data[data.사망자수 >= 5].가상주소
data.loc[data.사망자수 >= 5, '가상주소']

137      경상북도 성남시 수정구 논현937길 (상훈양김리)
151            강원도 광명시 개포88가 (수진김심동)
3741          대전광역시 강서구 논현5길 (영숙심마을)
3975           충청북도 의정부시 테헤란로 (혜진이리)
6740                충청북도 양주시 서초중앙7거리
7908                  전라북도 양평군 테헤란거리
11717          강원도 광주시 서초대1길 (광수송김면)
14290              울산광역시 성북구 삼성028거리
Name: 가상주소, dtype: object

137      경상북도 성남시 수정구 논현937길 (상훈양김리)
151            강원도 광명시 개포88가 (수진김심동)
3741          대전광역시 강서구 논현5길 (영숙심마을)
3975           충청북도 의정부시 테헤란로 (혜진이리)
6740                충청북도 양주시 서초중앙7거리
7908                  전라북도 양평군 테헤란거리
11717          강원도 광주시 서초대1길 (광수송김면)
14290              울산광역시 성북구 삼성028거리
Name: 가상주소, dtype: object

## iloc => numpy array slicing과 유사

In [27]:
data.iloc[:, 0:4].head()
data.iloc[0:3, :]
data[0:3]

Unnamed: 0,발생년월일시,주야,요일,사망자수
0,2012-05-09 1:00,야간,수,1
1,2012-03-30 13:00,주간,금,1
2,2012-10-26 20:00,야간,금,1
3,2012-06-28 14:00,주간,목,1
4,2012-06-18 4:00,야간,월,1


Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,충청북도 천안시 서북구 개포40로 (예원김마을)
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌,경기도 안양시 역삼길
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌,인천광역시 송파구 역삼가


Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,충청북도 천안시 서북구 개포40로 (예원김마을)
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌,경기도 안양시 역삼길
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌,인천광역시 송파구 역삼가


## 조건에 맞는 행의 index를 list로

In [28]:
data.index
data.index[data.사망자수 >= 5].tolist()
select_row = data.index[data.사망자수 >= 5].tolist()
data.loc[select_row]

RangeIndex(start=0, stop=14624, step=1)

[137, 151, 3741, 3975, 6740, 7908, 11717, 14290]

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소
137,2012-11-24 4:00,야간,토,5,6,1,0,0,경기,차대차,추돌,경상북도 성남시 수정구 논현937길 (상훈양김리)
151,2012-07-05 9:00,주간,목,5,10,3,2,0,경기,차대차,추돌,강원도 광명시 개포88가 (수진김심동)
3741,2013-12-14 13:00,주간,토,6,10,4,0,0,울산,차대차,추돌,대전광역시 강서구 논현5길 (영숙심마을)
3975,2012-12-19 1:00,야간,수,5,5,0,0,0,강원,차대차,정면충돌,충청북도 의정부시 테헤란로 (혜진이리)
6740,2013-11-09 18:00,야간,토,5,7,1,1,0,전남,차대차,기타,충청북도 양주시 서초중앙7거리
7908,2013-11-27 17:00,주간,수,6,24,0,18,0,충남,차대차,기타,전라북도 양평군 테헤란거리
11717,2014-11-30 0:00,야간,일,5,5,0,0,0,경기,차대차,추돌,강원도 광주시 서초대1길 (광수송김면)
14290,2014-10-28 8:00,주간,화,5,5,0,0,0,전북,차대차,추돌,울산광역시 성북구 삼성028거리


# End 