# Python 프로그래밍 Pandas
## 데이터프레임 Dataframe

In [26]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'
import warnings
warnings.filterwarnings('ignore')

## Pandas 란
- 다른 Dataframe이나 고차원 객체로부터 컬럼을 추가 삭제
- group by함수
- 라벨 등을 이용한 데이터 부분 집합 추출
- 데이터 세로 가로 합치기
- 외부 데이터 연동의 견고함(CSV, Excel, databases, HDF5지원)
- missing data(NaN) 처리

https://pandas.pydata.org/pandas-docs/stable/

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
%matplotlib inline
plt.rcParams['font.family'] = 'Malgun Gothic'

In [2]:
data = pd.read_csv('../data/2012_2014_교통사망사고정보.csv', encoding='euc-kr')

In [3]:
data = data[['발생년월일시', '주야', '요일', '사망자수', '사상자수', '중상자수', '경상자수',
              '부상신고자수', '발생지시도', '사고유형_대분류', '사고유형_중분류']]
data.head()

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌
4,2012-06-18 4:00,야간,월,1,1,0,0,0,전남,차대차,추돌


## 데이터 Select - query, sample

In [4]:
data.columns
data.head()

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상신고자수,발생지시도,사고유형_대분류,사고유형_중분류
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌
4,2012-06-18 4:00,야간,월,1,1,0,0,0,전남,차대차,추돌


In [5]:
data.rename(columns = {'부상신고자수' : '부상자수'}, inplace = True)

## query에 의한 선택

In [6]:
data.query('사망자수 > 3')[[ '경상자수', '부상자수']]

Unnamed: 0,경상자수,부상자수
137,0,0
151,2,0
153,0,0
189,0,0
315,8,1
502,7,0
573,1,0
1571,23,67
1796,0,0
2248,0,0


In [9]:
tf = data.sample(frac = 0.1)

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류
66,2012-06-01 23:00,야간,금,1,1,0,0,0,경기,차대사람,차도통행중
3910,2013-10-27 10:00,주간,일,1,1,0,0,0,전남,차대사람,기타
9598,2012-04-12 10:00,주간,목,1,1,0,0,0,전남,차대사람,횡단중
2631,2012-12-21 18:00,야간,금,1,1,0,0,0,경북,차대사람,기타
6982,2013-12-31 9:00,주간,화,1,1,0,0,0,충남,차량단독,공작물충돌
...,...,...,...,...,...,...,...,...,...,...,...
2048,2013-08-29 5:00,야간,목,1,3,1,1,0,충남,차대차,기타
1595,2012-02-09 20:00,야간,목,1,1,0,0,0,전남,차대사람,횡단중
9512,2013-04-14 2:00,야간,일,1,1,0,0,0,경남,차대사람,차도통행중
11084,2014-10-03 18:00,야간,금,1,1,0,0,0,전북,차대사람,기타


In [10]:
data.sample(n=500)

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류
7842,2013-08-28 19:00,야간,수,1,1,0,0,0,경북,차대차,기타
10648,2014-02-02 18:00,야간,일,1,1,0,0,0,전남,차대사람,횡단중
12677,2014-09-19 23:00,야간,금,1,1,0,0,0,경기,차대사람,보도통행중
5814,2013-08-14 17:00,주간,수,1,1,0,0,0,경기,차대차,추돌
2002,2012-02-17 12:00,주간,금,1,1,0,0,0,전남,차량단독,기타
...,...,...,...,...,...,...,...,...,...,...,...
403,2012-06-26 14:00,주간,화,2,2,0,0,0,광주,차량단독,공작물충돌
8602,2013-09-21 11:00,주간,토,1,2,1,0,0,전남,차대차,측면직각충돌
8872,2013-03-28 7:00,주간,목,1,1,0,0,0,경북,차대차,기타
11143,2014-04-23 21:00,야간,수,1,2,1,0,0,경기,차량단독,전도전복


## DataFrame 모양바꾸기 - 값 바꾸기

## 값 하나로 모든 row의 값 추가

In [34]:
data.head()

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌
4,2012-06-18 4:00,야간,월,1,1,0,0,0,전남,차대차,추돌


# <font color='red'>DataFrame 모양바꾸기 - column 변환/추가</font>

## 중복해서 값을 변경 - replace 두번 사용

In [13]:
from faker import Faker
fake = Faker('ko_KR')
data['사고지역위치명'] = [fake.address() for i in range(len(data))]
data.head()

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,충청남도 수원시 반포대16로
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌,서울특별시 관악구 석촌호수53길 (상훈박김읍)
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌,충청북도 안양시 삼성65가
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌,광주광역시 성동구 역삼로 (준혁허마을)
4,2012-06-18 4:00,야간,월,1,1,0,0,0,전남,차대차,추돌,인천광역시 은평구 잠실0거리


In [15]:
data.사고지역위치명.str.replace('충청남도', '충남')

0                    충남 수원시 반포대16로
1        서울특별시 관악구 석촌호수53길 (상훈박김읍)
2                   충청북도 안양시 삼성65가
3            광주광역시 성동구 역삼로 (준혁허마을)
4                  인천광역시 은평구 잠실0거리
                   ...            
14619    대전광역시 관악구 서초중앙463로 (윤서강리)
14620        강원도 괴산군 오금5거리 (은경류이동)
14621        광주광역시 서구 백제고분길 (지민유동)
14622       강원도 파주시 강남대45거리 (진우김면)
14623     제주특별자치도 군포시 서초중앙길 (준영성읍)
Name: 사고지역위치명, Length: 14624, dtype: object

In [37]:
data.사고지역위치명.str.replace('서울', '').replace('종로', '종철이').head(3)
data.head(3)
data.사고지역위치명 = data.사고지역위치명.str.replace('서울', '').replace('종로', '종철이')
data.head(3)

0    전라남도 고성군 서초대70가 (광수이이면)
1           전라남도 용인시 수지구 잠실로
2           경상북도 부천시 소사구 오금가
Name: 사고지역위치명, dtype: object

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,전라남도 고성군 서초대70가 (광수이이면)
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌,전라남도 용인시 수지구 잠실로
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌,경상북도 부천시 소사구 오금가


Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,전라남도 고성군 서초대70가 (광수이이면)
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌,전라남도 용인시 수지구 잠실로
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌,경상북도 부천시 소사구 오금가


In [38]:
data.사고유형_대분류.value_counts()

차대사람    5687
차대차     5636
차량단독    3297
건널목        4
Name: 사고유형_대분류, dtype: int64

In [39]:
data.사고유형_중분류.str.replace('진행|추돌', '파송송').value_counts() 
# '진행' or '추돌'을 파송송으로 변경하기

기타            3985
횡단중           2791
측면직각충돌        1848
공작물충돌         1555
파송송           1520
정면충돌           784
전도전복           728
도로이탈           490
차도통행중          477
길가장자리구역통행중     252
보도통행중          183
주/정차차량 충돌        8
직전파송송            1
경보기무시            1
차단기돌파            1
Name: 사고유형_중분류, dtype: int64

## 사고유형별 Max 발생건 수

In [40]:
data_tmp= data.sort_values(['사상자수', '사망자수'], ascending=[True, False])
data_tmp.head(5)

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,전라남도 고성군 서초대70가 (광수이이면)
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌,전라남도 용인시 수지구 잠실로
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌,부산광역시 강동구 백제고분거리
4,2012-06-18 4:00,야간,월,1,1,0,0,0,전남,차대차,추돌,대구광역시 동작구 봉은사3거리 (수진우이면)
7,2012-09-17 14:00,주간,월,1,1,0,0,0,충남,차량단독,공작물충돌,대전광역시 중구 가락48거리 (민서조읍)


In [41]:
for i, j in data_tmp.groupby('사고유형_대분류') :
    i
    j.head(3)

'건널목'

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
182,2012-01-11 23:00,야간,수,1,1,0,0,0,부산,건널목,경보기무시,광주광역시 남구 잠실1길 (유진김읍)
9800,2013-06-21 22:00,야간,금,1,1,0,0,0,경북,건널목,기타,제주특별자치도 부천시 원미구 선릉72가 (정자박이면)
1019,2012-04-06 18:00,야간,금,2,3,1,0,0,전북,건널목,차단기돌파,충청북도 용인시 처인구 잠실가 (예은이이동)


'차대사람'

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
15,2012-11-11 10:00,주간,일,1,1,0,0,0,경남,차대사람,기타,전라남도 수원시 권선구 오금965거리
20,2012-01-01 4:00,야간,일,1,1,0,0,0,경기,차대사람,차도통행중,충청남도 보은군 언주203로
22,2012-01-01 3:00,야간,일,1,1,0,0,0,광주,차대사람,횡단중,경상북도 괴산군 봉은사로 (경숙이읍)


'차대차'

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,전라남도 고성군 서초대70가 (광수이이면)
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌,전라남도 용인시 수지구 잠실로
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌,부산광역시 강동구 백제고분거리


'차량단독'

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
7,2012-09-17 14:00,주간,월,1,1,0,0,0,충남,차량단독,공작물충돌,대전광역시 중구 가락48거리 (민서조읍)
9,2012-08-16 12:00,주간,목,1,1,0,0,0,전북,차량단독,전도전복,인천광역시 강남구 학동길 (미영우김읍)
16,2012-11-06 1:00,야간,화,1,1,0,0,0,경남,차량단독,공작물충돌,전라남도 청주시 흥덕구 논현가


In [42]:
data_tmp.columns

Index(['발생년월일시', '주야', '요일', '사망자수', '사상자수', '중상자수', '경상자수', '부상자수', '발생지시도',
       '사고유형_대분류', '사고유형_중분류', '사고지역위치명'],
      dtype='object')

In [43]:
data_tmp

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,전라남도 고성군 서초대70가 (광수이이면)
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌,전라남도 용인시 수지구 잠실로
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌,부산광역시 강동구 백제고분거리
4,2012-06-18 4:00,야간,월,1,1,0,0,0,전남,차대차,추돌,대구광역시 동작구 봉은사3거리 (수진우이면)
7,2012-09-17 14:00,주간,월,1,1,0,0,0,충남,차량단독,공작물충돌,대전광역시 중구 가락48거리 (민서조읍)
...,...,...,...,...,...,...,...,...,...,...,...,...
10473,2012-10-30 13:00,주간,화,1,40,6,33,0,강원,차대차,정면충돌,인천광역시 강서구 삼성695길
4159,2013-11-10 11:00,주간,일,1,43,14,28,0,충남,차대차,추돌,강원도 단양군 언주로 (지원최김면)
8441,2013-09-05 9:00,주간,목,1,47,28,11,7,인천,차대차,추돌,전라남도 과천시 삼성8거리 (시우윤홍읍)
3341,2013-03-31 20:00,야간,일,1,57,45,10,1,전북,차대차,기타,전라남도 청주시 서원구 봉은사로 (하은문안읍)


In [46]:
data_tmp[data_tmp.groupby('사고유형_중분류').cumcount()==0] # 사고유형 분분류별로 처음 사고가 난 instance

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,전라남도 고성군 서초대70가 (광수이이면)
7,2012-09-17 14:00,주간,월,1,1,0,0,0,충남,차량단독,공작물충돌,대전광역시 중구 가락48거리 (민서조읍)
9,2012-08-16 12:00,주간,목,1,1,0,0,0,전북,차량단독,전도전복,인천광역시 강남구 학동길 (미영우김읍)
15,2012-11-11 10:00,주간,일,1,1,0,0,0,경남,차대사람,기타,전라남도 수원시 권선구 오금965거리
20,2012-01-01 4:00,야간,일,1,1,0,0,0,경기,차대사람,차도통행중,충청남도 보은군 언주203로
22,2012-01-01 3:00,야간,일,1,1,0,0,0,광주,차대사람,횡단중,경상북도 괴산군 봉은사로 (경숙이읍)
23,2012-01-04 16:00,주간,수,1,1,0,0,0,경남,차대차,측면직각충돌,경상북도 수원시 영통구 서초대804거리
33,2012-01-10 16:00,주간,화,1,1,0,0,0,인천,차대차,정면충돌,충청남도 고양시 일산동구 영동대가 (영환양김동)
35,2012-03-05 15:00,주간,월,1,1,0,0,0,경기,차량단독,도로이탈,세종특별자치시 양천구 학동0가 (영수이면)
45,2012-01-05 7:00,주간,목,1,1,0,0,0,충남,차대사람,길가장자리구역통행중,충청북도 양주시 가락거리


In [18]:
data_tmp[data_tmp.groupby('사고유형_중분류').cumcount()==0][['사고유형_대분류', '사상자수']] # cumcount()로 하였기에 

Unnamed: 0,사고유형_대분류,사상자수
0,차대차,1
7,차량단독,1
9,차량단독,1
15,차대사람,1
20,차대사람,1
22,차대사람,1
23,차대차,1
33,차대차,1
35,차량단독,1
45,차대사람,1


## 컬럼명을 특정 명기준으로 순서배열 할 떄

In [24]:
data.columns
len(data.columns)

Index(['발생년월일시', '주야', '요일', '사망자수', '사상자수', '중상자수', '경상자수', '부상자수', '발생지시도',
       '사고유형_대분류', '사고유형_중분류', '사고지역위치명'],
      dtype='object')

12

In [25]:
data.columns.difference(['요일'])

Index(['경상자수', '발생년월일시', '발생지시도', '부상자수', '사고유형_대분류', '사고유형_중분류', '사고지역위치명',
       '사망자수', '사상자수', '주야', '중상자수'],
      dtype='object')

In [23]:
data.head()

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,대구광역시 종로구 역삼8가 (현우이면)
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌,제주특별자치도 동두천시 삼성가 (지영배우리)
2,2012-10-26 20:00,야간,금,1,2,1,0,0,경북,차대차,측면직각충돌,경상북도 부여군 학동거리
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌,광주광역시 남구 잠실로 (서윤이리)
4,2012-06-18 4:00,야간,월,1,1,0,0,0,전남,차대차,추돌,전라북도 안산시 단원구 강남대가


In [22]:
len(data.columns.difference(['요일']))
data.loc[:, data.columns.difference(['요일'])].head()

11

Unnamed: 0,경상자수,발생년월일시,발생지시도,부상자수,사고유형_대분류,사고유형_중분류,사고지역위치명,사망자수,사상자수,주야,중상자수
0,0,2012-05-09 1:00,경남,0,차대차,추돌,대구광역시 종로구 역삼8가 (현우이면),1,1,야간,0
1,0,2012-03-30 13:00,경기,0,차대차,추돌,제주특별자치도 동두천시 삼성가 (지영배우리),1,1,주간,0
2,0,2012-10-26 20:00,경북,0,차대차,측면직각충돌,경상북도 부여군 학동거리,1,2,야간,1
3,0,2012-06-28 14:00,경기,0,차대차,추돌,광주광역시 남구 잠실로 (서윤이리),1,1,주간,0
4,0,2012-06-18 4:00,전남,0,차대차,추돌,전라북도 안산시 단원구 강남대가,1,1,야간,0


## 행 , record 제거

In [21]:
data.drop(2, axis =0).head(3)

Unnamed: 0,발생년월일시,주야,요일,사망자수,사상자수,중상자수,경상자수,부상자수,발생지시도,사고유형_대분류,사고유형_중분류,사고지역위치명
0,2012-05-09 1:00,야간,수,1,1,0,0,0,경남,차대차,추돌,대구광역시 노원구 압구정가
1,2012-03-30 13:00,주간,금,1,1,0,0,0,경기,차대차,추돌,충청북도 동해시 언주3거리 (옥순이최리)
3,2012-06-28 14:00,주간,목,1,1,0,0,0,경기,차대차,추돌,강원도 용인시 수지구 양재천83로


## 숫자와 문자가 같이 있는 데이터 문자 제거 후 숫자만 활용

In [65]:
df = pd.DataFrame({'월' : range(1,6),
                   '학생':np.random.choice(np.arange(10,20), 5, replace=False),
                   '국어':np.random.randint(70,101,5),
                   '수학': np.random.randint(60, 101, 5),
                   '윤리': [i+'점' for i in (np.random.randint(30,101,5).astype(str))]})
df
df.국어.mean()
df.윤리.str.replace('점', '').astype(int).mean()

Unnamed: 0,월,학생,국어,수학,윤리
0,1,15,71,83,42점
1,2,16,77,99,55점
2,3,14,84,88,80점
3,4,17,88,65,79점
4,5,18,84,67,33점


80.8

57.8

In [66]:
df['시간'] = [-1,6,10,20, 15]
df
df.info()

Unnamed: 0,월,학생,국어,수학,윤리,시간
0,1,15,71,83,42점,-1
1,2,16,77,99,55점,6
2,3,14,84,88,80점,10
3,4,17,88,65,79점,20
4,5,18,84,67,33점,15


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   월       5 non-null      int64 
 1   학생      5 non-null      int32 
 2   국어      5 non-null      int32 
 3   수학      5 non-null      int32 
 4   윤리      5 non-null      object
 5   시간      5 non-null      int64 
dtypes: int32(3), int64(2), object(1)
memory usage: 308.0+ bytes


 ## 시간을 '새벽', '아침' 등 변경
 실수 값을 카테고리 값으로 변환

In [67]:
df['언제'] = pd.cut(df['시간'], [-2, 10, 20], labels =['새벽', '오전'])
df
df['언제'] = pd.cut(df['시간'], [-1, 10, 20], labels =['새벽', '오전'])
df

Unnamed: 0,월,학생,국어,수학,윤리,시간,언제
0,1,15,71,83,42점,-1,새벽
1,2,16,77,99,55점,6,새벽
2,3,14,84,88,80점,10,새벽
3,4,17,88,65,79점,20,오전
4,5,18,84,67,33점,15,오전


Unnamed: 0,월,학생,국어,수학,윤리,시간,언제
0,1,15,71,83,42점,-1,
1,2,16,77,99,55점,6,새벽
2,3,14,84,88,80점,10,새벽
3,4,17,88,65,79점,20,오전
4,5,18,84,67,33점,15,오전


In [68]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]
bins = [1, 15, 25, 35, 60, 99]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

## 기타 함수들

In [69]:
df
df.국어.shift(1)

Unnamed: 0,월,학생,국어,수학,윤리,시간,언제
0,1,15,71,83,42점,-1,
1,2,16,77,99,55점,6,새벽
2,3,14,84,88,80점,10,새벽
3,4,17,88,65,79점,20,오전
4,5,18,84,67,33점,15,오전


0     NaN
1    71.0
2    77.0
3    84.0
4    88.0
Name: 국어, dtype: float64

In [70]:
df.국어.shift(-1)

0    77.0
1    84.0
2    88.0
3    84.0
4     NaN
Name: 국어, dtype: float64

In [71]:
df.국어.diff() # 후행과 선행 원소값의 차이

0    NaN
1    6.0
2    7.0
3    4.0
4   -4.0
Name: 국어, dtype: float64

In [72]:
df.국어.cumsum()

0     71
1    148
2    232
3    320
4    404
Name: 국어, dtype: int32

## cumcount(), groupby, 그룹에서 국어 점수 max 값

In [73]:
df['그룹'] = ['a', 'b', 'b', 'a', 'a']
df= df.sort_values(['국어', '수학'], ascending=[False, True]) # 국어점수 내림차순
df

Unnamed: 0,월,학생,국어,수학,윤리,시간,언제,그룹
3,4,17,88,65,79점,20,오전,a
4,5,18,84,67,33점,15,오전,a
2,3,14,84,88,80점,10,새벽,b
1,2,16,77,99,55점,6,새벽,b
0,1,15,71,83,42점,-1,,a


In [74]:
for i, j in df.groupby('그룹'):
    i
    j

'a'

Unnamed: 0,월,학생,국어,수학,윤리,시간,언제,그룹
3,4,17,88,65,79점,20,오전,a
4,5,18,84,67,33점,15,오전,a
0,1,15,71,83,42점,-1,,a


'b'

Unnamed: 0,월,학생,국어,수학,윤리,시간,언제,그룹
2,3,14,84,88,80점,10,새벽,b
1,2,16,77,99,55점,6,새벽,b


In [75]:
df

Unnamed: 0,월,학생,국어,수학,윤리,시간,언제,그룹
3,4,17,88,65,79점,20,오전,a
4,5,18,84,67,33점,15,오전,a
2,3,14,84,88,80점,10,새벽,b
1,2,16,77,99,55점,6,새벽,b
0,1,15,71,83,42점,-1,,a


In [76]:
df.groupby('그룹').cumcount()
df[df.groupby('그룹').cumcount()==0]

3    0
4    1
2    0
1    1
0    2
dtype: int64

Unnamed: 0,월,학생,국어,수학,윤리,시간,언제,그룹
3,4,17,88,65,79점,20,오전,a
2,3,14,84,88,80점,10,새벽,b


다른 기능으로 그룹별로 최고 점수를 찾는 것은 코딩이 길어짐

In [77]:
df.loc[df['국어'] == df['국어'].max(), :]
df.loc[df['국어'] == df['국어'].max(), :]

Unnamed: 0,월,학생,국어,수학,윤리,시간,언제,그룹
3,4,17,88,65,79점,20,오전,a


Unnamed: 0,월,학생,국어,수학,윤리,시간,언제,그룹
3,4,17,88,65,79점,20,오전,a


## Dataframe 모양바꾸기 - melt, pivot

In [78]:
df =pd.DataFrame({'A':['a', 'b', 'c'],
                  'B':[1, 2, 3],
                  'C':[4, 5, 6]})
df

Unnamed: 0,A,B,C
0,a,1,4
1,b,2,5
2,c,3,6


## 분해하기

In [79]:
df = pd.melt(df, id_vars=['A'], value_vars=['B', 'C'])
df

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,2
2,c,B,3
3,a,C,4
4,b,C,5
5,c,C,6


## 조립하기

In [80]:
df.pivot(index='A', columns='variable', values='value')

variable,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1,4
b,2,5
c,3,6


In [81]:
df.reset_index()

Unnamed: 0,index,A,variable,value
0,0,a,B,1
1,1,b,B,2
2,2,c,B,3
3,3,a,C,4
4,4,b,C,5
5,5,c,C,6


# End 