# Python 프로그래밍 Pandas
## 데이터프레임 Dataframe

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

## Pandas 란
- 다른 Dataframe이나 고차원 객체로부터 컬럼을 추가 삭제
- group by함수
- 라벨 등을 이용한 데이터 부분 집합 추출
- 데이터 세로 가로 합치기
- 외부 데이터 연동의 견고함(CSV, Excel, databases, HDF5지원)
- missing data(NaN) 처리

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pylab as plt

In [14]:
data = pd.read_pickle('./traffic.pkl')
data.columns

Index(['발생년', '발생년월일시', '주야', '요일', '사망자수', '부상자수', '중상자수', '경상자수', '부상신고자수',
       '발생지시도', '발생지시군구', '사고유형_대분류', '사고유형_중분류', '사고유형', '가해자법규위반',
       '도로형태_대분류', '도로형태', '가해자_당사자종별', '피해자_당사자종별', '발생위치X_UTMK',
       '발생위치Y_UTMK', '경도', '위도', '발생위치X(UTMK)', '발생위치Y(UTMK)'],
      dtype='object')

In [15]:
data = data[['발생년월일시', '주야', '요일', '사망자수', '중상자수', '경상자수',
              '부상신고자수', '발생지시도', '사고유형_대분류', '사고유형_중분류']]
data.head()

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
0,2022-01-01 10:00,주,토,1,0,0,0,전남,차량단독,공작물충돌
1,2022-01-01 14:00,주,토,1,0,0,0,전북,차대차,추돌
2,2022-01-01 17:00,주,토,1,0,0,0,경기,차량단독,도로이탈
3,2022-01-01 20:00,야,토,1,0,0,0,부산,차대차,기타
4,2022-01-02 06:00,주,일,1,0,0,0,서울,차대사람,횡단중


## loc, iloc - 두 개 이상의 연속된 컬럼 선택
- loc은 Index가 가지고 있는 값을 기준으로 동작
- iloc은 index의 위치 기준으로 동작합니다.(정수만 사용)

In [16]:
data.columns
data.iloc[:, [5,9]].head()
data.iloc[:, 5:9].head()
data.loc[:, '사망자수':'부상신고자수'].head()

Index(['발생년월일시', '주야', '요일', '사망자수', '중상자수', '경상자수', '부상신고자수', '발생지시도',
       '사고유형_대분류', '사고유형_중분류'],
      dtype='object')

Unnamed: 0,경상자수,사고유형_중분류
0,0,공작물충돌
1,0,추돌
2,0,도로이탈
3,0,기타
4,0,횡단중


Unnamed: 0,경상자수,부상신고자수,발생지시도,사고유형_대분류
0,0,0,전남,차량단독
1,0,0,전북,차대차
2,0,0,경기,차량단독
3,0,0,부산,차대차
4,0,0,서울,차대사람


Unnamed: 0,사망자수,중상자수,경상자수,부상신고자수
0,1,0,0,0
1,1,0,0,0
2,1,0,0,0
3,1,0,0,0
4,1,0,0,0


## 조건과 함께 컬럼 선택

In [17]:
data[data.사망자수 > 4].head()

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
196,2021-02-01 08:00,주,월,7,5,0,0,세종,차량단독,전복
699,2021-04-15 00:00,야,목,5,0,0,0,충남,차량단독,도로이탈
1168,2021-06-18 04:00,야,금,5,2,0,0,전남,차대차,정면충돌
1405,2021-07-20 08:00,주,화,5,1,13,0,전남,차대사람,횡단중
3072,2019-12-14 04,야,토,6,13,12,0,경북,차대차,기타


In [19]:
data.loc[data.사망자수 > 4, '발생지시도']

196     세종
699     충남
1168    전남
1405    전남
3072    경북
Name: 발생지시도, dtype: object

In [20]:
data[data.사망자수 > 4].중상자수.head()
data[data.사망자수 > 4][['중상자수', '경상자수']].head()

196      5
699      0
1168     2
1405     1
3072    13
Name: 중상자수, dtype: int64

Unnamed: 0,중상자수,경상자수
196,5,0
699,0,0
1168,2,0
1405,1,13
3072,13,12


# <font color='red'>데이터 selct - 조건, very useful </font>

## 부상신고자가 3이상인 사고인지 여부(Boolean)를 list로 만들기

In [21]:
hurts=[]

for hurt in data.부상신고자수 :
    if hurt >= 3 :
        hurts.append(True)
    if hurt < 3 :
        hurts.append(False)

len(hurts)
True in hurts, False in hurts
hurts[:10]

8707

(True, True)

[False, False, False, False, False, False, False, False, False, False]

## Boolean 값이 참인 것만 가져오기

In [22]:
lots_of_hurts = pd.Series(hurts)
data[lots_of_hurts].head(3)

  data[lots_of_hurts].head(3)


Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
993,2022-06-05 16:00,주,일,2,0,0,6,경기,차량단독,공작물충돌
1271,2022-07-12 11:00,주,화,2,2,3,3,제주,차대차,정면충돌
2114,2022-10-25 10:00,주,화,1,5,2,8,경남,차대차,추돌


## list comprehension 활용

In [23]:
lots_of_hurts2 = [ hurt >= 3 for hurt in data.부상신고자수]
data[lots_of_hurts2].head(3)

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
993,2022-06-05 16:00,주,일,2,0,0,6,경기,차량단독,공작물충돌
1271,2022-07-12 11:00,주,화,2,2,3,3,제주,차대차,정면충돌
2114,2022-10-25 10:00,주,화,1,5,2,8,경남,차대차,추돌


In [24]:
lots_of_hurts3 = data.부상신고자수 >= 3
data[lots_of_hurts3].head(3)

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
993,2022-06-05 16:00,주,일,2,0,0,6,경기,차량단독,공작물충돌
1271,2022-07-12 11:00,주,화,2,2,3,3,제주,차대차,정면충돌
2114,2022-10-25 10:00,주,화,1,5,2,8,경남,차대차,추돌


## 단순 조건문

In [26]:
data[data.부상신고자수 >= 3]['사망자수']
data.loc[data.부상신고자수 >= 3, '사망자수']

993     2
1271    2
2114    1
2429    1
734     1
2282    1
2575    1
661     1
672     1
707     1
718     1
780     1
1454    1
1828    1
2268    1
2354    1
2389    1
2433    2
2561    1
3019    1
Name: 사망자수, dtype: int64

993     2
1271    2
2114    1
2429    1
734     1
2282    1
2575    1
661     1
672     1
707     1
718     1
780     1
1454    1
1828    1
2268    1
2354    1
2389    1
2433    2
2561    1
3019    1
Name: 사망자수, dtype: int64

## 복합 조건문

In [29]:
data[(data.부상신고자수 >= 2) & (data.사망자수 >= 2)]

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
993,2022-06-05 16:00,주,일,2,0,0,6,경기,차량단독,공작물충돌
1271,2022-07-12 11:00,주,화,2,2,3,3,제주,차대차,정면충돌
2776,2021-12-27 20:00,야,월,3,0,0,2,충남,차대차,기타
2433,2019-10-12 13,주,토,2,4,5,4,경기,차대차,추돌
2600,2019-10-28 02,야,월,2,1,0,2,울산,차량단독,기타


In [30]:
(data.부상신고자수 >= 8) | (data.사망자수 >= 30)

0       False
1       False
2       False
3       False
4       False
        ...  
3228    False
3229    False
3230    False
3231    False
3232    False
Length: 8707, dtype: bool

In [31]:
data[(data.부상신고자수 >= 8) | (data.사망자수 >= 30)]

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
2114,2022-10-25 10:00,주,화,1,5,2,8,경남,차대차,추돌
780,2019-04-05 14,주,금,1,0,1,15,경기,차대차,기타
2354,2019-10-03 23,야,목,1,4,20,10,경기,차대차,측면충돌


In [32]:
data[(data.부상신고자수 == 8) | (data.부상신고자수 == 9)]

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
2114,2022-10-25 10:00,주,화,1,5,2,8,경남,차대차,추돌


## 복합 조건문 isin 사용

In [33]:
data.rename(columns = {'부상신고자수' : '부상자수'}, inplace = True)

In [34]:
data[data.부상자수.isin([8,9])]

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류
2114,2022-10-25 10:00,주,화,1,5,2,8,경남,차대차,추돌


## 값에 특정 문자가 포함되어 있는지 조건으로 활용

In [35]:
data.columns

Index(['발생년월일시', '주야', '요일', '사망자수', '중상자수', '경상자수', '부상자수', '발생지시도',
       '사고유형_대분류', '사고유형_중분류'],
      dtype='object')

In [36]:
data.columns.str.replace('사고유형_', '')
data.columns = data.columns.str.replace('사고유형_', '')

Index(['발생년월일시', '주야', '요일', '사망자수', '중상자수', '경상자수', '부상자수', '발생지시도', '대분류',
       '중분류'],
      dtype='object')

In [37]:
data.중분류.str.contains('충돌').head()
data[data.중분류.str.contains('충돌')].head()

0     True
1    False
2    False
3    False
4    False
Name: 중분류, dtype: bool

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류
0,2022-01-01 10:00,주,토,1,0,0,0,전남,차량단독,공작물충돌
5,2022-01-02 20:00,야,일,1,0,0,0,부산,차대차,측면충돌
14,2022-01-04 15:00,주,화,1,0,0,0,전남,차량단독,공작물충돌
18,2022-01-04 19:00,야,화,1,2,0,0,경기,차대차,정면충돌
26,2022-01-06 01:00,야,목,1,0,0,0,경기,차량단독,공작물충돌


## 데이터 Select - loc, iloc

In [39]:
data.loc[0, :]
data.loc[[0,1,2], :]

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류
0,2022-01-01 10:00,주,토,1,0,0,0,전남,차량단독,공작물충돌
0,2021-01-01 03:00,야,금,1,0,3,0,경북,차대차,추돌
0,2019-01-01 00,야,화,1,0,0,0,부산,차대사람,기타


Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류
0,2022-01-01 10:00,주,토,1,0,0,0,전남,차량단독,공작물충돌
0,2021-01-01 03:00,야,금,1,0,3,0,경북,차대차,추돌
0,2019-01-01 00,야,화,1,0,0,0,부산,차대사람,기타
1,2022-01-01 14:00,주,토,1,0,0,0,전북,차대차,추돌
1,2021-01-01 09:00,주,금,1,0,0,0,충남,차량단독,공작물충돌
1,2019-01-01 03,야,화,1,0,0,0,경기,차대차,정면충돌
2,2022-01-01 17:00,주,토,1,0,0,0,경기,차량단독,도로이탈
2,2021-01-01 15:00,주,금,1,0,0,0,강원,차대차,측면충돌
2,2019-01-01 16,주,화,1,0,0,0,경북,차대차,측면충돌


In [40]:
data.head(2)

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류
0,2022-01-01 10:00,주,토,1,0,0,0,전남,차량단독,공작물충돌
1,2022-01-01 14:00,주,토,1,0,0,0,전북,차대차,추돌


In [41]:
data.drop(['주야', '요일'], axis=1)

Unnamed: 0,발생년월일시,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류
0,2022-01-01 10:00,1,0,0,0,전남,차량단독,공작물충돌
1,2022-01-01 14:00,1,0,0,0,전북,차대차,추돌
2,2022-01-01 17:00,1,0,0,0,경기,차량단독,도로이탈
3,2022-01-01 20:00,1,0,0,0,부산,차대차,기타
4,2022-01-02 06:00,1,0,0,0,서울,차대사람,횡단중
...,...,...,...,...,...,...,...,...
3228,2019-12-31 05,1,0,0,0,서울,차대사람,차도통행중
3229,2019-12-31 08,1,0,1,0,강원,차대차,추돌
3230,2019-12-31 12,1,0,0,1,경북,차량단독,공작물충돌
3231,2019-12-31 12,1,0,1,0,울산,차대사람,횡단중


In [42]:
data.drop(['주야', '발생년월일시', '대분류'], axis=1).head()

Unnamed: 0,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,중분류
0,토,1,0,0,0,전남,공작물충돌
1,토,1,0,0,0,전북,추돌
2,토,1,0,0,0,경기,도로이탈
3,토,1,0,0,0,부산,기타
4,일,1,0,0,0,서울,횡단중


In [43]:
! pip install faker

Collecting faker
  Downloading Faker-25.0.1-py3-none-any.whl (1.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m9.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: faker
Successfully installed faker-25.0.1


In [44]:
from faker import Faker
fake = Faker('ko_KR')

In [45]:
import warnings
warnings.filterwarnings('ignore')
data['가상주소'] = [fake.address() for i in range(len(data))]

In [46]:
data

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소
0,2022-01-01 10:00,주,토,1,0,0,0,전남,차량단독,공작물충돌,대전광역시 은평구 압구정가 (지민김동)
1,2022-01-01 14:00,주,토,1,0,0,0,전북,차대차,추돌,충청남도 여주시 학동75가
2,2022-01-01 17:00,주,토,1,0,0,0,경기,차량단독,도로이탈,충청남도 연천군 논현가 (준혁김동)
3,2022-01-01 20:00,야,토,1,0,0,0,부산,차대차,기타,강원도 태안군 석촌호수가 (민준권마을)
4,2022-01-02 06:00,주,일,1,0,0,0,서울,차대사람,횡단중,대전광역시 동구 영동대길
...,...,...,...,...,...,...,...,...,...,...,...
3228,2019-12-31 05,야,화,1,0,0,0,서울,차대사람,차도통행중,경상남도 연천군 도산대거리
3229,2019-12-31 08,주,화,1,0,1,0,강원,차대차,추돌,강원도 부천시 소사구 잠실46로
3230,2019-12-31 12,주,화,1,0,0,1,경북,차량단독,공작물충돌,경기도 안산시 서초대187길
3231,2019-12-31 12,주,화,1,0,1,0,울산,차대사람,횡단중,대전광역시 노원구 삼성0거리


In [47]:
data[data.사망자수 >= 5].가상주소
data.loc[data.사망자수 >= 5, '가상주소']

196              세종특별자치시 중랑구 오금가
699     인천광역시 마포구 강남대5로 (영진이이마을)
1168       광주광역시 금천구 언주8로 (도윤강리)
1405                경상북도 양양군 오금길
3072             인천광역시 남구 압구정57로
Name: 가상주소, dtype: object

196              세종특별자치시 중랑구 오금가
699     인천광역시 마포구 강남대5로 (영진이이마을)
1168       광주광역시 금천구 언주8로 (도윤강리)
1405                경상북도 양양군 오금길
3072             인천광역시 남구 압구정57로
Name: 가상주소, dtype: object

## iloc => numpy array slicing과 유사

In [48]:
data.iloc[:, 0:4].head()
data.iloc[0:3, :]
data[0:3]

Unnamed: 0,발생년월일시,주야,요일,사망자수
0,2022-01-01 10:00,주,토,1
1,2022-01-01 14:00,주,토,1
2,2022-01-01 17:00,주,토,1
3,2022-01-01 20:00,야,토,1
4,2022-01-02 06:00,주,일,1


Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소
0,2022-01-01 10:00,주,토,1,0,0,0,전남,차량단독,공작물충돌,대전광역시 은평구 압구정가 (지민김동)
1,2022-01-01 14:00,주,토,1,0,0,0,전북,차대차,추돌,충청남도 여주시 학동75가
2,2022-01-01 17:00,주,토,1,0,0,0,경기,차량단독,도로이탈,충청남도 연천군 논현가 (준혁김동)


Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소
0,2022-01-01 10:00,주,토,1,0,0,0,전남,차량단독,공작물충돌,대전광역시 은평구 압구정가 (지민김동)
1,2022-01-01 14:00,주,토,1,0,0,0,전북,차대차,추돌,충청남도 여주시 학동75가
2,2022-01-01 17:00,주,토,1,0,0,0,경기,차량단독,도로이탈,충청남도 연천군 논현가 (준혁김동)


## 조건에 맞는 행의 index를 list로

In [49]:
data.index
data.index[data.사망자수 >= 5].tolist()
select_row = data.index[data.사망자수 >= 5].tolist()
data.loc[select_row]

Index([   0,    1,    2,    3,    4,    5,    6,    7,    8,    9,
       ...
       3223, 3224, 3225, 3226, 3227, 3228, 3229, 3230, 3231, 3232],
      dtype='int64', length=8707)

[196, 699, 1168, 1405, 3072]

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소
196,2022-02-04 00:00,야,금,1,1,1,0,경기,차대차,정면충돌,서울특별시 동대문구 반포대8로
196,2021-02-01 08:00,주,월,7,5,0,0,세종,차량단독,전복,세종특별자치시 중랑구 오금가
196,2019-01-23 16,주,수,1,0,0,0,강원,차대차,측면충돌,경기도 안산시 영동대거리
699,2022-04-27 12:00,주,수,1,0,0,0,경북,차대사람,길가장자리구역통행중,대구광역시 종로구 역삼4로
699,2021-04-15 00:00,야,목,5,0,0,0,충남,차량단독,도로이탈,인천광역시 마포구 강남대5로 (영진이이마을)
699,2019-03-28 03,야,목,1,4,0,1,경남,차대사람,보도통행중,충청북도 금산군 서초중앙가
1168,2022-06-29 09:00,주,수,1,0,0,0,광주,차대사람,기타,충청북도 가평군 오금거리
1168,2021-06-18 04:00,야,금,5,2,0,0,전남,차대차,정면충돌,광주광역시 금천구 언주8로 (도윤강리)
1168,2019-05-15 13,주,수,1,0,1,0,전남,차대차,정면충돌,울산광역시 양천구 논현거리
1405,2022-07-30 19:00,야,토,1,0,0,0,경남,차량단독,공작물충돌,강원도 안성시 논현가


In [50]:
data.가상주소.str.replace('충청남도', '충남')

0       대전광역시 은평구 압구정가 (지민김동)
1                충남 여주시 학동75가
2           충남 연천군 논현가 (준혁김동)
3       강원도 태안군 석촌호수가 (민준권마을)
4               대전광역시 동구 영동대길
                ...          
3228           경상남도 연천군 도산대거리
3229        강원도 부천시 소사구 잠실46로
3230          경기도 안산시 서초대187길
3231          대전광역시 노원구 삼성0거리
3232         울산광역시 금천구 역삼754길
Name: 가상주소, Length: 8707, dtype: object

In [52]:
data[data.duplicated()]

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소


In [55]:
data.iloc[0, :]

발생년월일시         2022-01-01 10:00
주야                            주
요일                            토
사망자수                          1
중상자수                          0
경상자수                          0
부상자수                          0
발생지시도                        전남
대분류                        차량단독
중분류                       공작물충돌
가상주소      대전광역시 은평구 압구정가 (지민김동)
Name: 0, dtype: object

In [57]:
# To append the last row to the DataFrame
data = pd.concat([data, data.iloc[-1:]])
data.tail()

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소
3229,2019-12-31 08,주,화,1,0,1,0,강원,차대차,추돌,강원도 부천시 소사구 잠실46로
3230,2019-12-31 12,주,화,1,0,0,1,경북,차량단독,공작물충돌,경기도 안산시 서초대187길
3231,2019-12-31 12,주,화,1,0,1,0,울산,차대사람,횡단중,대전광역시 노원구 삼성0거리
3232,2019-12-31 16,주,화,1,0,0,0,경남,차대차,기타,울산광역시 금천구 역삼754길
3232,2019-12-31 16,주,화,1,0,0,0,경남,차대차,기타,울산광역시 금천구 역삼754길


In [58]:
data[data.duplicated()]

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소
3232,2019-12-31 16,주,화,1,0,0,0,경남,차대차,기타,울산광역시 금천구 역삼754길


In [59]:
data.drop_duplicates() # inplace = True를 Key 인자로

Unnamed: 0,발생년월일시,주야,요일,사망자수,중상자수,경상자수,부상자수,발생지시도,대분류,중분류,가상주소
0,2022-01-01 10:00,주,토,1,0,0,0,전남,차량단독,공작물충돌,대전광역시 은평구 압구정가 (지민김동)
1,2022-01-01 14:00,주,토,1,0,0,0,전북,차대차,추돌,충청남도 여주시 학동75가
2,2022-01-01 17:00,주,토,1,0,0,0,경기,차량단독,도로이탈,충청남도 연천군 논현가 (준혁김동)
3,2022-01-01 20:00,야,토,1,0,0,0,부산,차대차,기타,강원도 태안군 석촌호수가 (민준권마을)
4,2022-01-02 06:00,주,일,1,0,0,0,서울,차대사람,횡단중,대전광역시 동구 영동대길
...,...,...,...,...,...,...,...,...,...,...,...
3228,2019-12-31 05,야,화,1,0,0,0,서울,차대사람,차도통행중,경상남도 연천군 도산대거리
3229,2019-12-31 08,주,화,1,0,1,0,강원,차대차,추돌,강원도 부천시 소사구 잠실46로
3230,2019-12-31 12,주,화,1,0,0,1,경북,차량단독,공작물충돌,경기도 안산시 서초대187길
3231,2019-12-31 12,주,화,1,0,1,0,울산,차대사람,횡단중,대전광역시 노원구 삼성0거리


# End