In [1]:
# 데이터 만들기

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [5]:
df = \
pd.DataFrame(
    {'a':[4,5,6,7],
    'b':[8,9,10,11],
    'c':[12,13,14,15]},
     index=[1,2,3,4]
)

df

Unnamed: 0,a,b,c
1,4,8,12
2,5,9,13
3,6,10,14
4,7,11,15


In [8]:
df = \
pd.DataFrame(
    [[4,5,6,7],
    [8,9,10,11],
    [12,13,14,15]],
     index=[1,2,3],
    columns=['a','b','c','d']
)

df

Unnamed: 0,a,b,c,d
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [10]:
# 멀티인덱스 생성(x)

df = \
pd.DataFrame(
    {'a':[4,5,6,7],
    'b':[8,9,10,11],
    'c':[12,13,14,15]},
    index=pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',1),('e',2)]
    )
)

df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [11]:
# 데이터 정렬하기

df.sort_values('a') # 오름차순 정렬

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [12]:
df.sort_values('a', ascending=False) # 내림차순 정렬

Unnamed: 0,Unnamed: 1,a,b,c
e,2,7,11,15
e,1,6,10,14
d,2,5,9,13
d,1,4,8,12


In [13]:
# 열 이름 변경하기

df.rename(columns={'c':'d'})

Unnamed: 0,Unnamed: 1,a,b,d
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [14]:
# 인덱스(index) 값 초기화

df.reset_index()

Unnamed: 0,level_0,level_1,a,b,c
0,d,1,4,8,12
1,d,2,5,9,13
2,e,1,6,10,14
3,e,2,7,11,15


In [15]:
# 인덱스(index) 순서대로 정렬하기

df.sort_index()

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [16]:
# 특정 열 제거하기

df.drop(columns=['a','b'])

Unnamed: 0,Unnamed: 1,c
d,1,12
d,2,13
e,1,14
e,2,15


In [17]:
# 행 추출하기

df.head(2)

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13


In [20]:
df.tail(2)

Unnamed: 0,Unnamed: 1,a,b,c
e,1,6,10,14
e,2,7,11,15


In [22]:
# 행 추출하기

df[df['a'] > 4]

Unnamed: 0,Unnamed: 1,a,b,c
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [24]:
# 특정 열에 특정 값이 있을 경우 추출하기

df[df['a'] == 6]

Unnamed: 0,Unnamed: 1,a,b,c
e,1,6,10,14


In [25]:
# 특정 열에 특정 값이 없는 경우 추출하기

df[df['a'] != 5]

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
e,1,6,10,14
e,2,7,11,15


In [26]:
# 특정 열에 특정 숫자가 있는지 확인

df[df['a'].isin([4])]

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12


In [27]:
# 특정 비율로 데이터 샘플링

df.sample(frac=0.70)

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
e,1,6,10,14
d,2,5,9,13


In [28]:
# 특정 개수만큼 데이터 샘플링 하기

df.sample(n=3)

Unnamed: 0,Unnamed: 1,a,b,c
e,1,6,10,14
d,2,5,9,13
e,2,7,11,15


In [29]:
# 특정 열에서 큰 순서대로 불러오기(x)

df.nlargest(3,'a')

Unnamed: 0,Unnamed: 1,a,b,c
e,2,7,11,15
e,1,6,10,14
d,2,5,9,13


In [30]:
# 특정 열에서 작은 순서대로 불러오기(x)

df.nsmallest(3,'a')

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14


In [31]:
# 열 추출하기

# 인덱스 범위 설정해서 불러오기

df.iloc[1:4]

Unnamed: 0,Unnamed: 1,a,b,c
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [32]:
# 첫 인덱스 지정해서 불러오기

df.iloc[2:]

Unnamed: 0,Unnamed: 1,a,b,c
e,1,6,10,14
e,2,7,11,15


In [33]:
# 마지막 인덱스 지정해서 불러오기

df.iloc[:3]

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14


In [34]:
# 모든 인덱스 불러오기

df.iloc[:]

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [35]:
# 특정 열 지정해서 가져오기

df[['a','b']]

Unnamed: 0,Unnamed: 1,a,b
d,1,4,8
d,2,5,9
e,1,6,10
e,2,7,11


In [36]:
# 조건을 만족하는 열 가져오기(x)

df.filter(regex='c')

Unnamed: 0,Unnamed: 1,c
d,1,12
d,2,13
e,1,14
e,2,15


In [37]:
# 특정 문자가 포함되지 않은 열 가져오기(x)
# 열 이름에 c라는 문자가 포함되어 있지 않으면 출력
df.filter(regex='^(?!c$).*')
# ^: 문자열 시작 cf.[^ ]: 제외하다
# (?!c$) 바로 뒤의 문자열이 'c'로 끝나지 않아야 한다
# .* 어떤 문자이든지 0번 이상 반복

Unnamed: 0,Unnamed: 1,a,b
d,1,4,8
d,2,5,9
e,1,6,10
e,2,7,11


In [38]:
# 특정 행과 열 지정해서 가져오기

df.loc[:,'a':'c']

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [39]:
# 인덱스로 특정 행과 열 가져오기

df.iloc[0:3,[0,2]]

Unnamed: 0,Unnamed: 1,a,c
d,1,4,12
d,2,5,13
e,1,6,14


In [40]:
# 특정 열에서 조건을 만족하는 행과 열 가져오기

df.loc[df['a']>5, ['a','c']]

Unnamed: 0,Unnamed: 1,a,c
e,1,6,14
e,2,7,15


In [41]:
# index 활용, 특정 조건을 만족하는 값 가져오기
df.iat[1,2]
# 1 번째 index 에서 2 번째 열 값 가져오기

13

In [44]:
# 중복 데이터 다루기

# 멀티인덱스 생성

df = \
pd.DataFrame(
    {'a':[4,5,6,7,7],
     'b':[8,9,10,11,11],
     'c':[12,13,14,15,15]},
    index=pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',1),('e',2),('e',3)]
    )
)


df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15
e,3,7,11,15


In [49]:
# 특정 열에 어떤 값이 몇개 들어있는지 확인
df['a'].value_counts()

a
7    2
4    1
5    1
6    1
Name: count, dtype: int64

In [47]:
# 데이터 프레임의 행이 몇 개인지 세어보기

len(df)

5

In [48]:
# 데이터 프레임에 행과 열이 몇 개인지 세어보기

df.shape

(5, 3)

In [50]:
# 특정 열에  unique 한 값이 몇 개 있는지 세어보기
df['a'].nunique()

4

In [51]:
# 데이터 프레임의 형태 한 눈에 보기(요약통계량)
df.describe()

Unnamed: 0,a,b,c
count,5.0,5.0,5.0
mean,5.8,9.8,13.8
std,1.30384,1.30384,1.30384
min,4.0,8.0,12.0
25%,5.0,9.0,13.0
50%,6.0,10.0,14.0
75%,7.0,11.0,15.0
max,7.0,11.0,15.0


In [52]:
# 중복된 값 제거

df = df.drop_duplicates()
df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [53]:
# 데이터 파악하기

# 각 열의 합 보기
df.sum()

a    22
b    38
c    54
dtype: int64

In [54]:
# 각 열의 값이 모두 몇 개인지 확인

df.count()

a    4
b    4
c    4
dtype: int64

In [55]:
# 각 열의 중위수(중간값) 확인

df.median()

a     5.5
b     9.5
c    13.5
dtype: float64

In [57]:
# 특정 열의 평균값 보기

df['b'].mean()

9.5

In [58]:
# 각 열의 25%, 75% 해당하는 수 보기(x)

df.quantile([0.25,0.75])

Unnamed: 0,a,b,c
0.25,4.75,8.75,12.75
0.75,6.25,10.25,14.25


In [59]:
# 각 열의 최소값 보기

df.min()

a     4
b     8
c    12
dtype: int64

In [60]:
# 각 열의 최대값 보기

df.max()

a     7
b    11
c    15
dtype: int64

In [61]:
# 각 열의 표준편차 보기

df.std()
# std : standard deviation

a    1.290994
b    1.290994
c    1.290994
dtype: float64

In [62]:
# 데이터 프레임 각 값에 일괄적으로 특정 함수 적용(apply)하기

df.apply(np.sqrt) # 제곱근 구하기

Unnamed: 0,Unnamed: 1,a,b,c
d,1,2.0,2.828427,3.464102
d,2,2.236068,3.0,3.605551
e,1,2.44949,3.162278,3.741657
e,2,2.645751,3.316625,3.872983


In [63]:
# 결측치 다루기

# 중복 데이터 다루기

# 멀티인덱스 생성

df = \
pd.DataFrame(
    {'a':[4,5,6,np.nan],
     'b':[7,8,np.nan,9],
     'c':[10,np.nan,11,12]},
    index=pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',1),('e',2)]
    )
)


df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4.0,7.0,10.0
d,2,5.0,8.0,
e,1,6.0,,11.0
e,2,,9.0,12.0


In [64]:
# null 값 유무 확인

pd.isnull(df)

Unnamed: 0,Unnamed: 1,a,b,c
d,1,False,False,False
d,2,False,False,True
e,1,False,True,False
e,2,True,False,False


In [65]:
df.isnull().sum()

a    1
b    1
c    1
dtype: int64

In [66]:
pd.notnull(df)

Unnamed: 0,Unnamed: 1,a,b,c
d,1,True,True,True
d,2,True,True,False
e,1,True,False,True
e,2,False,True,True


In [68]:
# null 값 있는 행 삭제

df.dropna()

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4.0,7.0,10.0


In [69]:
df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4.0,7.0,10.0
d,2,5.0,8.0,
e,1,6.0,,11.0
e,2,,9.0,12.0


In [71]:
# null 값을 특정 값으로 대체

df.fillna(0)

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4.0,7.0,10.0
d,2,5.0,8.0,0.0
e,1,6.0,0.0,11.0
e,2,0.0,9.0,12.0


In [72]:
# null 값은 특정 계산 결과 대체하기

# 평균값으로 대체하고파

df['a'].mean()

5.0

In [73]:
df.fillna(df['a'].mean())

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4.0,7.0,10.0
d,2,5.0,8.0,5.0
e,1,6.0,5.0,11.0
e,2,5.0,9.0,12.0


In [74]:
# 새로운 열 만들기
df = \
pd.DataFrame(
    {'a':[4,5,6,7],
     'b':[8,9,10,11],
     'c':[12,13,14,15]},
    index=pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',1),('e',2)]
    )
)


df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [75]:
# 조건에 맞는 새 열 만들기

df['sum']= df['a'] + df['b'] + df['c']
df

Unnamed: 0,Unnamed: 1,a,b,c,sum
d,1,4,8,12,24
d,2,5,9,13,27
e,1,6,10,14,30
e,2,7,11,15,33


In [76]:
# assign() 이용, 조건에 맞는 새열 만들기 (x)

# a열, b열, c열 값을 모두 더해서 d열 생성

df = df.assign(multipy= lambda df: df['a']*df['b']*df['c'])
df

Unnamed: 0,Unnamed: 1,a,b,c,sum,multipy
d,1,4,8,12,24,384
d,2,5,9,13,27,585
e,1,6,10,14,30,840
e,2,7,11,15,33,1155


In [79]:
# 숫자형 데이터 구간 나누기

# a 열을 두개로 나누어 각각 새롭게 레이블 만드는 법

df['qcut'] = pd.qcut(df['a'], 2, labels=['600이하', '600이상'])
df

Unnamed: 0,Unnamed: 1,a,b,c,sum,multipy,qcut
d,1,4,8,12,24,384,600이하
d,2,5,9,13,27,585,600이하
e,1,6,10,14,30,840,600이상
e,2,7,11,15,33,1155,600이상


In [80]:
# 기준 값 이하와 이상을 모두 통일 시키기 (x)

# a열에서 5이하는 모두 5로, 6이상은 모두 6으로 변환

df['clip'] = df['a'].clip(lower=5, upper=6)
df

Unnamed: 0,Unnamed: 1,a,b,c,sum,multipy,qcut,clip
d,1,4,8,12,24,384,600이하,5
d,2,5,9,13,27,585,600이하,5
e,1,6,10,14,30,840,600이상,6
e,2,7,11,15,33,1155,600이상,6


In [81]:
# 최대값 불러오기

df.max(axis=0)
# 서로 다른 행과 행 비교 (열방향)

a              7
b             11
c             15
sum           33
multipy     1155
qcut       600이상
clip           6
dtype: object

In [84]:
df = df.drop(columns=['qcut'])
df

Unnamed: 0,Unnamed: 1,a,b,c,sum,multipy,clip
d,1,4,8,12,24,384,5
d,2,5,9,13,27,585,5
e,1,6,10,14,30,840,6
e,2,7,11,15,33,1155,6


In [85]:
df.max(axis=1)
# 서로 다른 열과 열 비교 (행방향)

d  1     384
   2     585
e  1     840
   2    1155
dtype: int64

In [86]:
# 최소값 불러오기
df.min(axis=0)

a            4
b            8
c           12
sum         24
multipy    384
clip         5
dtype: int64

In [87]:
df.min(axis=1)

d  1    4
   2    5
e  1    6
   2    6
dtype: int64

In [88]:
# 행과 열 변환

df = pd.DataFrame({'A':{0:'a',1:'b',2:'c'},
              'B':{0:1,1:3,2:5},
              'C':{0:2,1:4,2:6}})
df

Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6


In [89]:
# 열을 행으로 melt
pd.melt(df)

Unnamed: 0,variable,value
0,A,a
1,A,b
2,A,c
3,B,1
4,B,3
5,B,5
6,C,2
7,C,4
8,C,6


In [90]:
df

Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6


In [91]:
# 하나의 열만 행으로 이동시키기

pd.melt(df, id_vars=['A'], value_vars=['B'])
# A열만 그대로, B열은 행으로 이동

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5


In [92]:
# 여러 개 열을 행으로 이동시키기
# A열은 고정, 나머지 B와 C열은 행으로 이동

df_melt = pd.melt(df, id_vars=['A'], value_vars=['B','C'])
df_melt

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5
3,a,C,2
4,b,C,4
5,c,C,6


In [94]:
# 특정 열의 값을 기준, 새로운 열 만들기

df_pivot = df_melt.pivot(index='A', columns='variable', values='value')
df_pivot

variable,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1,2
b,3,4
c,5,6


In [98]:
# 원래 데이터 형태로 복원(x)

df_pivot.reset_index()
df_origin = df_pivot.reset_index()
df_origin.columns.name=None
df_origin

Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6


In [99]:
# Series 로 데이터 연결하기

pd.Series(['a','b'])

0    a
1    b
dtype: object

In [100]:
s1 = pd.Series(['a','b'])
s2 = pd.Series(['c','d'])

In [101]:
# Series 데이터 합치기

pd.concat([s1,s2])

0    a
1    b
0    c
1    d
dtype: object

In [102]:
pd.concat([s1,s2], ignore_index=True)

0    a
1    b
2    c
3    d
dtype: object

In [104]:
# 계층적으로 인덱스 추가, 열 이름 지정(x)

pd.concat([s1,s2],
          keys=['s1','s2'],
          names=['Series name','Row index'])

Series name  Row index
s1           0            a
             1            b
s2           0            c
             1            d
dtype: object

In [106]:
# 데이터 프레임 연결하기

df1 = \
pd.DataFrame([['a',1],
              ['b',2]],
             columns=['letter','number'])

df1

Unnamed: 0,letter,number
0,a,1
1,b,2


In [107]:
df2 = \
pd.DataFrame([['c',3],
              ['d',4]],
             columns=['letter','number'])

df2

Unnamed: 0,letter,number
0,c,3
1,d,4


In [109]:
df3 = \
pd.DataFrame([['c',3,'cat'],
              ['d',4,'dog']],
             columns=['letter','number','animal'])

df3

Unnamed: 0,letter,number,animal
0,c,3,cat
1,d,4,dog


In [110]:
df4 = \
pd.DataFrame([['brid','polly'],
              ['monkey','george']],
             columns=['animal','name'])

df4

Unnamed: 0,animal,name
0,brid,polly
1,monkey,george


In [112]:
df1

Unnamed: 0,letter,number
0,a,1
1,b,2


In [113]:
df2

Unnamed: 0,letter,number
0,c,3
1,d,4


In [114]:
df3

Unnamed: 0,letter,number,animal
0,c,3,cat
1,d,4,dog


In [119]:
df4

Unnamed: 0,animal,name
0,brid,polly
1,monkey,george


In [111]:
# 데이터 프레임 합치기 (concat)

pd.concat([df1,df2])

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [116]:
pd.concat([df1,df3]) # axis=0 (defalut)

Unnamed: 0,letter,number,animal
0,a,1,
1,b,2,
0,c,3,cat
1,d,4,dog


In [117]:
pd.concat([df1,df3],axis=1)

Unnamed: 0,letter,number,letter.1,number.1,animal
0,a,1,c,3,cat
1,b,2,d,4,dog


In [118]:
# 함께 공유하는 열만 합치기
pd.concat([df1,df3], join='inner')

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [120]:
pd.concat([df1,df4], axis=1)

Unnamed: 0,letter,number,animal,name
0,a,1,brid,polly
1,b,2,monkey,george


In [133]:
# 데이터 병합 (merge)

df1 = pd.DataFrame({
    'x1': ['a', 'b', 'c'],
    'x2': [1, 2, 3]
})

df1

Unnamed: 0,x1,x2
0,a,1
1,b,2
2,c,3


In [134]:
df2 = pd.DataFrame({
    'x1': ['a', 'b', 'd'],
    'x3': ['T','F','T']
})

df2

Unnamed: 0,x1,x3
0,a,T
1,b,F
2,d,T


In [135]:
df3 = pd.DataFrame({
    'x1': ['b', 'c', 'd'],
    'x2': [2,3,4]
})

df3

Unnamed: 0,x1,x2
0,b,2
1,c,3
2,d,4


In [136]:
# 왼쪽 열을 축으로 병합(merge)

pd.merge(df1, df2, how='left', on='x1')

Unnamed: 0,x1,x2,x3
0,a,1,T
1,b,2,F
2,c,3,


In [137]:
# 오른쪽 열을 축으로 병합

pd.merge(df1, df2, how='right', on='x1')

Unnamed: 0,x1,x2,x3
0,a,1.0,T
1,b,2.0,F
2,d,,T


In [138]:
# 공통 값만 병합(merge)
pd.merge(df1, df3, how='inner', on='x1')

Unnamed: 0,x1,x2_x,x2_y
0,b,2,2
1,c,3,3


In [139]:
# 모든 값만 병합(merge)

pd.merge(df1, df3, how='outer', on='x1')

Unnamed: 0,x1,x2_x,x2_y
0,a,1.0,
1,b,2.0,2.0
2,c,3.0,3.0
3,d,,4.0


In [141]:
# 특정 열 비교, 공통값이 존재하는 경우만 가져오기

df1[df1.x1.isin(df2.x1)]

Unnamed: 0,x1,x2
0,a,1
1,b,2


In [142]:
# 특정 열 비교, 공통값이 존재하는 경우, 해당 값 제외하고 병합

df1[~df1.x1.isin(df2.x1)]

Unnamed: 0,x1,x2
2,c,3


In [143]:
# 공통 값이 있는 것만 병합

pd.merge(df1, df3) # inner join(defaul)

Unnamed: 0,x1,x2
0,b,2
1,c,3


In [144]:
# 모두 병합

pd.merge(df1, df3, how='outer')

Unnamed: 0,x1,x2
0,a,1
1,b,2
2,c,3
3,d,4


In [147]:
# 어디서 병합되었는지 원천(source) 표기하기(x)

pd.merge(df1, df3, how='outer', indicator=True)

Unnamed: 0,x1,x2,_merge
0,a,1,left_only
1,b,2,both
2,c,3,both
3,d,4,right_only


In [149]:
# 원하는 병합만 남기기 (x)
pd.merge(df1, df3, how='outer', indicator=True).query('_merge=="left_only"')

Unnamed: 0,x1,x2,_merge
0,a,1,left_only


In [150]:
# merge 컬럼 없애기
pd.merge(df1, df3, how='outer', indicator=True).query('_merge=="left_only"').drop(columns=['_merge'])

Unnamed: 0,x1,x2
0,a,1


In [153]:
# 데이터 가공하기

df = pd.DataFrame({
    'a': [4, 5, 6, 7],
    'b': [8, 9, 10, 11],
    'c': [12, 13, 14, 15]
}, index=[1, 2, 3, 4])

df

Unnamed: 0,a,b,c
1,4,8,12
2,5,9,13
3,6,10,14
4,7,11,15


In [155]:
# 행 전체를 한 칸 아래로 이동
df.shift(1)

Unnamed: 0,a,b,c
1,,,
2,4.0,8.0,12.0
3,5.0,9.0,13.0
4,6.0,10.0,14.0


In [156]:
# 행 전체를 한 칸 위로 이동
df.shift(-1)

Unnamed: 0,a,b,c
1,5.0,9.0,13.0
2,6.0,10.0,14.0
3,7.0,11.0,15.0
4,,,


In [157]:
# 첫 행부터 누적해서 더하기

df

Unnamed: 0,a,b,c
1,4,8,12
2,5,9,13
3,6,10,14
4,7,11,15


In [158]:
df.cumsum()

Unnamed: 0,a,b,c
1,4,8,12
2,9,17,25
3,15,27,39
4,22,38,54


In [159]:
# 새 행과 이전 행 비교, 최대값 출력(x)
df.cummax()

Unnamed: 0,a,b,c
1,4,8,12
2,5,9,13
3,6,10,14
4,7,11,15


In [160]:
# 새 행과 이전 행 비교, 최소값 출력(x)
df.cummin()

Unnamed: 0,a,b,c
1,4,8,12
2,4,8,12
3,4,8,12
4,4,8,12


In [161]:
# 첫 행부터 누적해서 곱하기
df.cumprod()

Unnamed: 0,a,b,c
1,4,8,12
2,20,72,156
3,120,720,2184
4,840,7920,32760


In [162]:
# 그룹별 집계하기

!git clone https://github.com/taehojo/data.git

Cloning into 'data'...
remote: Enumerating objects: 29, done.[K
remote: Counting objects: 100% (29/29), done.[K
remote: Compressing objects: 100% (26/26), done.[K
remote: Total 29 (delta 6), reused 19 (delta 2), pack-reused 0[K
Receiving objects: 100% (29/29), 467.72 KiB | 6.78 MiB/s, done.
Resolving deltas: 100% (6/6), done.


In [164]:
path = '/content/data/house_train.csv'
pd.read_csv(path)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2010,WD,Normal,142125


In [166]:
df = pd.read_csv(path)
df.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [167]:
df.columns

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
       'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
       'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
       'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
       'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
       'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
       'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
       'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
       'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
       'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
       'GarageCond', 'PavedDrive

In [168]:
# 그룹 지정, 그룹별 데이터 수 표시
df.groupby(by='YrSold').size()

YrSold
2006    314
2007    329
2008    304
2009    338
2010    175
dtype: int64

In [170]:
# 그룹 지정 후 원하는 컬럼 표시

# 각 그룹별(팔린 연도별) 주차장 넓이 표시

df.groupby(by='YrSold')['LotArea'].mean()

YrSold
2006    10489.458599
2007    10863.686930
2008    10587.687500
2009    10294.248521
2010    10220.645714
Name: LotArea, dtype: float64

In [172]:
# 그룹별 집계 (x)

# 밀집도 기준, 순위 부여

df['SalePrice'].rank(method='dense')

0       413.0
1       340.0
2       443.0
3       195.0
4       495.0
        ...  
1455    315.0
1456    416.0
1457    528.0
1458    200.0
1459    222.0
Name: SalePrice, Length: 1460, dtype: float64

In [173]:
# 최저값(min) 기준으로 순위 부여(x)
df['SalePrice'].rank(method='min')

0       1072.0
1        909.0
2       1135.0
3        490.0
4       1236.0
         ...  
1455     828.0
1456    1076.0
1457    1285.0
1458     524.0
1459     591.0
Name: SalePrice, Length: 1460, dtype: float64

In [174]:
# 순위를 비율로 표시하기(x)
# 집 값의 순위 비율 표시 (0: 가장 싼 집, 1: 가장 비싼 집)
df['SalePrice'].rank(pct=True) # pct : percent

0       0.734247
1       0.622603
2       0.777740
3       0.342123
4       0.848973
          ...   
1455    0.569863
1456    0.738356
1457    0.880137
1458    0.358904
1459    0.404795
Name: SalePrice, Length: 1460, dtype: float64

In [175]:
# 동일 순위에 대한 처리방법 정하기(x)
df['SalePrice'].rank(method='first')
# 순서가 가장 빠른 사람을 상위로 처리

0       1072.0
1        909.0
2       1135.0
3        490.0
4       1236.0
         ...  
1455     836.0
1456    1080.0
1457    1285.0
1458     524.0
1459     591.0
Name: SalePrice, Length: 1460, dtype: float64