## 데이터 만들기

In [114]:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


In [115]:
df = \
pd.DataFrame(
    {'a' : [4,5,6,7],
     'b' : [8,9,10,11],
     'c' : [12,13,14,15]},
     index = [1,2,3,4]
)

df

Unnamed: 0,a,b,c
1,4,8,12
2,5,9,13
3,6,10,14
4,7,11,15


In [116]:
df = \
pd.DataFrame(
    [[4,5,6,7],
    [8,9,10,11],
    [12,13,14,15]],
    index = [1,2,3], columns=['a','b','c','d']
)

df

Unnamed: 0,a,b,c,d
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [117]:
# 멀티인덱스 생성  v

df = \
pd.DataFrame(
    {'a' : [4,5,6,7],
     'b' : [8,9,10,11],
     'c' : [12,13,14,15]},
     index = pd.MultiIndex.from_tuples(
         [('d',1),('d',2),('e',1),('e',2)]
     )
)

df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


## 데이터 정렬하기

In [118]:

print(df.sort_values('a')) #오름차순
print()
print(df.sort_values('a', ascending=False)) #내림차순

     a   b   c
d 1  4   8  12
  2  5   9  13
e 1  6  10  14
  2  7  11  15

     a   b   c
e 2  7  11  15
  1  6  10  14
d 2  5   9  13
  1  4   8  12


In [119]:
#열 이름 변경하기

df.rename(columns={'c' : 'd'}) #열 c 를 d로 이름변경

Unnamed: 0,Unnamed: 1,a,b,d
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [120]:
#인덱스(index) 값 초기화
df.reset_index()

Unnamed: 0,level_0,level_1,a,b,c
0,d,1,4,8,12
1,d,2,5,9,13
2,e,1,6,10,14
3,e,2,7,11,15


In [121]:
# 인덱스 순서대로 정렬하기

df.sort_index()

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [122]:
#특정 열 제거하기

df.drop(columns=['a', 'b'])

Unnamed: 0,Unnamed: 1,c
d,1,12
d,2,13
e,1,14
e,2,15


## 행 추출하기

In [123]:

df.head(2)

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13


In [124]:
df.tail(2)

Unnamed: 0,Unnamed: 1,a,b,c
e,1,6,10,14
e,2,7,11,15


In [125]:
#행 추출하기

df[df['a'] > 4 ]

Unnamed: 0,Unnamed: 1,a,b,c
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [126]:
#특정 열에 특정 값이 있을 경우 추출

df[df['a'] == 6]

Unnamed: 0,Unnamed: 1,a,b,c
e,1,6,10,14


In [127]:
#특정 열에 특정 값이 없을 경우 추출
df[df['a'] != 5]


Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
e,1,6,10,14
e,2,7,11,15


In [128]:
#특정 열에 특정 숫자가 있는지 확인

df[df['a'].isin([4,5])]

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13


In [129]:
#특정 비율로 데이터 샘플링
df.sample(frac=0.7)

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14


In [130]:
#특정 개수만큼 데이터 샘플링 하기

df.sample(n=3)

Unnamed: 0,Unnamed: 1,a,b,c
d,2,5,9,13
d,1,4,8,12
e,1,6,10,14


In [131]:
#특정 열에서 큰 순서대로 불러오기

df.nlargest(3,'a')

Unnamed: 0,Unnamed: 1,a,b,c
e,2,7,11,15
e,1,6,10,14
d,2,5,9,13


In [132]:
#특정 열에서 작은 순서대로 불러오기

df.nsmallest(3,'a')

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14


## 열 추출하기

In [133]:
#인덱스 범위 설정해서 불러오기

df.iloc[1:4]

Unnamed: 0,Unnamed: 1,a,b,c
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [134]:
# 첫 인덱스 지정해서 불러오기
df.iloc[2:]

Unnamed: 0,Unnamed: 1,a,b,c
e,1,6,10,14
e,2,7,11,15


In [135]:
# 마지막 인덱스 지정해서 불러오기
df.iloc[:3]

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14


In [136]:
#모든 인덱스 불러오기
df.iloc[:]

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [137]:
#특정 열 지정해서 가져오기

df[['a','b']]

Unnamed: 0,Unnamed: 1,a,b
d,1,4,8
d,2,5,9
e,1,6,10
e,2,7,11


In [138]:
#조건을 만족하는 열 가져오기  v

df.filter(regex='c')

Unnamed: 0,Unnamed: 1,c
d,1,12
d,2,13
e,1,14
e,2,15


In [139]:
# 특정 문자가 포함되지 않은 열 가져오기
# 열 이름에 c라는 문자가 포함되어 있지 않으면 출력 v

df.filter(regex='^(?!c$).*')

# ^:  시작하다 cf.[^ ] : 제외하다
# (?!c$) 바로 뒤의 문자열이 'c'로 끝나지 않아야 한다.
# .* 어떤 문자이든지 0번이상 반복

Unnamed: 0,Unnamed: 1,a,b
d,1,4,8
d,2,5,9
e,1,6,10
e,2,7,11


## 행과 열 추출하기

In [140]:
#특정 행과 열 지정해서 가져오기

df.loc[:, 'a':'c']

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [141]:
# 인덱스로 특정 행과 열 가져오기

df.iloc[0:3, [0,2]]

Unnamed: 0,Unnamed: 1,a,c
d,1,4,12
d,2,5,13
e,1,6,14


In [142]:
#특정 열에서 조건을 만족하는 행과 열 가져오기

df.loc[df['a'] > 5, ['a','c']]

Unnamed: 0,Unnamed: 1,a,c
e,1,6,14
e,2,7,15


In [143]:
df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [144]:
#index 활용한 특정 조건을 만족하는 값 가져오기 v

df.iat[1,2]

# 1번째 인덱스의 2번째 열 값

13

## 중복 데이터 다루기

In [145]:
df = \
pd.DataFrame(
    {'a' : [4,5,6,7,7],
     'b' : [8,9,10,11,11],
     'c' : [12,13,14,15,15]},
     index = pd.MultiIndex.from_tuples(
         [('d',1),('d',2),('e',1),('e',2),('e',3)]
     )
)

df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15
e,3,7,11,15


In [146]:
#특정 열에 어떤 값이 몇 개 들어있는지 확인

df['a'].value_counts()

a
7    2
4    1
5    1
6    1
Name: count, dtype: int64

In [147]:
# 데이터 프레임의 행이 몇 개인지 세기

len(df)

5

In [148]:
#데이터 프레임에 행과 열이 몇개인지 세어보기
df.shape

(5, 3)

In [149]:
# 특정 열에 unique 한 값이 몇개 있는지 세기

df['a'].nunique()

4

In [150]:
# 데이터 프레임의 형태 한 눈에 보기(요약통계량)
df.describe()

Unnamed: 0,a,b,c
count,5.0,5.0,5.0
mean,5.8,9.8,13.8
std,1.30384,1.30384,1.30384
min,4.0,8.0,12.0
25%,5.0,9.0,13.0
50%,6.0,10.0,14.0
75%,7.0,11.0,15.0
max,7.0,11.0,15.0


In [151]:
# 중복된 값 제거

df = df.drop_duplicates()
df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


## 데이터 파악하기

In [152]:


df.sum()

a    22
b    38
c    54
dtype: int64

In [153]:
#각 열의 값이 모두 몇 개인지 확인
df.count()

a    4
b    4
c    4
dtype: int64

In [154]:
# 각 열의 중위수(중간값) 확인
df.median()

a     5.5
b     9.5
c    13.5
dtype: float64

In [155]:
# 특정 열의 평균값
df['b'].mean()

9.5

In [156]:
# 각 열의 25%, 75% 해당하는 수 보기 v
df.quantile([0.25,0.75])

Unnamed: 0,a,b,c
0.25,4.75,8.75,12.75
0.75,6.25,10.25,14.25


In [157]:
# 각 열의 최소값 보기
df.min()

a     4
b     8
c    12
dtype: int64

In [158]:
# 각 열의 최대값 보기
df.max()

a     7
b    11
c    15
dtype: int64

In [159]:
# 각 열의 표준편차 보기
df.std()

a    1.290994
b    1.290994
c    1.290994
dtype: float64

In [160]:
# 데이터 프레임 각 값에 일괄적으로 특정 함수 적용하기

df.apply(np.sqrt) # 제곱근 구하기 v

Unnamed: 0,Unnamed: 1,a,b,c
d,1,2.0,2.828427,3.464102
d,2,2.236068,3.0,3.605551
e,1,2.44949,3.162278,3.741657
e,2,2.645751,3.316625,3.872983


## 결측치 다루기

In [161]:
df = \
pd.DataFrame(
    {'a' : [4,5,6, np.nan],
     'b' : [7,8,np.nan,9],
     'c' : [10,np.nan,11,12]},
     index = pd.MultiIndex.from_tuples(
         [('d',1),('d',2),('e',1),('e',2)]
     )
)

df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4.0,7.0,10.0
d,2,5.0,8.0,
e,1,6.0,,11.0
e,2,,9.0,12.0


In [162]:
# null 값 유무확인
pd.isna(df)

Unnamed: 0,Unnamed: 1,a,b,c
d,1,False,False,False
d,2,False,False,True
e,1,False,True,False
e,2,True,False,False


In [163]:
df.isna().sum()

a    1
b    1
c    1
dtype: int64

In [164]:
pd.notnull(df)

Unnamed: 0,Unnamed: 1,a,b,c
d,1,True,True,True
d,2,True,True,False
e,1,True,False,True
e,2,False,True,True


In [165]:
# null 값 있는 행 삭제

df.dropna()

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4.0,7.0,10.0


In [166]:
# null 값을 특정 값으로 대체
df.fillna(0)

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4.0,7.0,10.0
d,2,5.0,8.0,0.0
e,1,6.0,0.0,11.0
e,2,0.0,9.0,12.0


In [167]:
# null 값은 특정 계산 결과 대체하기

#평균값으로 대체하기

df.fillna(df['a'].mean()) #평균대치

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4.0,7.0,10.0
d,2,5.0,8.0,5.0
e,1,6.0,5.0,11.0
e,2,5.0,9.0,12.0


## 새로운 열 만들기

In [168]:
df = \
pd.DataFrame(
    {'a' : [4,5,6,7],
     'b' : [8,9,10,11],
     'c' : [12,13,14,15]},
     index = pd.MultiIndex.from_tuples(
         [('d',1),('d',2),('e',1),('e',2)]
     )
)

df

Unnamed: 0,Unnamed: 1,a,b,c
d,1,4,8,12
d,2,5,9,13
e,1,6,10,14
e,2,7,11,15


In [169]:
# 조건에 맞는 새 열 만들기

df['sum'] = df['a'] + df['b'] + df['c']
df

Unnamed: 0,Unnamed: 1,a,b,c,sum
d,1,4,8,12,24
d,2,5,9,13,27
e,1,6,10,14,30
e,2,7,11,15,33


In [170]:
#assign() 이용, 조건에 맞는 새열 만들기

# a열, b열, c열 값을 모두 곱해서 d열 생성 v

df = df.assign(multiply= lambda df : df['a'] * df['b'] * df['c'])
df

Unnamed: 0,Unnamed: 1,a,b,c,sum,multiply
d,1,4,8,12,24,384
d,2,5,9,13,27,585
e,1,6,10,14,30,840
e,2,7,11,15,33,1155


In [171]:
# 숫자형 데이터를 구간 나누기
# a 열을 두개로 나누어 각각 새롭게 레이블 만드는 방법 v

df['qcut'] = pd.qcut(df['a'], 2, labels=['600이하', '600이상'])
df

Unnamed: 0,Unnamed: 1,a,b,c,sum,multiply,qcut
d,1,4,8,12,24,384,600이하
d,2,5,9,13,27,585,600이하
e,1,6,10,14,30,840,600이상
e,2,7,11,15,33,1155,600이상


In [172]:
# 기준 값 이하와 이상을 모두 통일 시키기
# a 열에서 5이하는 모두 5로 6이상은 모두 6으로 변환 v

df['clip'] = df['a'].clip(lower= 5, upper=6)
df

Unnamed: 0,Unnamed: 1,a,b,c,sum,multiply,qcut,clip
d,1,4,8,12,24,384,600이하,5
d,2,5,9,13,27,585,600이하,5
e,1,6,10,14,30,840,600이상,6
e,2,7,11,15,33,1155,600이상,6


In [173]:
# 최대값 불러오기
df.max(axis=0)
# 행끼리 비교 (열방향)

a               7
b              11
c              15
sum            33
multiply     1155
qcut        600이상
clip            6
dtype: object

In [174]:
df.drop(columns='qcut', inplace=True)

In [175]:
df.max(axis=1)
# 열끼리 비교 (행방향)

d  1     384
   2     585
e  1     840
   2    1155
dtype: int64

In [176]:
# 최소값 불러오기
df.min(axis=0)

a             4
b             8
c            12
sum          24
multiply    384
clip          5
dtype: int64

In [177]:
df.min(axis=1)

d  1    4
   2    5
e  1    6
   2    6
dtype: int64

## 행과 열 변환

In [178]:

df= \
pd.DataFrame({'A' : {0:'a', 1:'b', 2:'c'},
            'B' : {0:1, 1:3, 2:5},
            'C' : {0:2, 1:4, 2:6}})

df

Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6


In [179]:
#모든 열을 행으로 변환 v
pd.melt(df)

Unnamed: 0,variable,value
0,A,a
1,A,b
2,A,c
3,B,1
4,B,3
5,B,5
6,C,2
7,C,4
8,C,6


In [180]:
# 하나의 열만 행으로 이동시키기 v

pd.melt(df, id_vars=['A'], value_vars=['B'])
#A열만 그대로, B열은 행으로 이동

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5


In [181]:
# 여러개 열을 행으로 이동시키기
#A열은 고정, 나머지 B와 C열은 행으로 이동

df_melt = pd.melt(df, id_vars=['A'], value_vars=['B','C'])
df_melt

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5
3,a,C,2
4,b,C,4
5,c,C,6


In [182]:
# 특정 열의 값을 기준, 새로운 열 만들기

df_pivot = df_melt.pivot(index='A', columns='variable', values='value')
df_pivot

variable,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1,2
b,3,4
c,5,6


In [183]:
# 원래 데이터 형태로 복원 v

df_origin = df_pivot.reset_index()
df_origin.columns.name = None
df_origin


Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6


## K 시리즈 데이터 연결하기

In [184]:
# Series로 데이터 연결하기
pd.Series(['a','b'])

0    a
1    b
dtype: object

In [185]:
s1 = pd.Series(['a','b'])
s2 = pd.Series(['c','d'])

In [186]:
#Series 데이터 합치기
pd.concat([s1, s2], ignore_index=True)

0    a
1    b
2    c
3    d
dtype: object

In [187]:
#계층적 인덱스 추가, 열 이름 지정
pd.concat([s1, s2],
          keys=['s1','s2'],
          names=['Series name', 'Row index'])

Series name  Row index
s1           0            a
             1            b
s2           0            c
             1            d
dtype: object

##L 데이터 프레임 연결하기

In [188]:
# 데이터 프레임 연결하기
df1 = \
pd.DataFrame([['a', 1],
            ['b',2]],
              columns=['letter','number'])

df1

Unnamed: 0,letter,number
0,a,1
1,b,2


In [189]:
df2 = \
pd.DataFrame([['c', 3],
            ['d',4]],
              columns=['letter','number'])

df2

Unnamed: 0,letter,number
0,c,3
1,d,4


In [190]:
df3 = \
pd.DataFrame([['c', 3,'cat'],
            ['d',4, 'dog']],
              columns=['letter','number','animal'])

df3

Unnamed: 0,letter,number,animal
0,c,3,cat
1,d,4,dog


In [191]:
df4 = \
pd.DataFrame([['bird','polly'],
             ['monkey','george']],
             columns=['animal','name'])

df4

Unnamed: 0,animal,name
0,bird,polly
1,monkey,george


## 데이터 병합하기

In [192]:
#데이터 프레임 합치기
pd.concat([df1, df2])

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [193]:
pd.concat([df1, df3]) # axis=0 (default)

Unnamed: 0,letter,number,animal
0,a,1,
1,b,2,
0,c,3,cat
1,d,4,dog


In [194]:
pd.concat([df1, df3], axis=1)

Unnamed: 0,letter,number,letter.1,number.1,animal
0,a,1,c,3,cat
1,b,2,d,4,dog


In [195]:
# 함꼐 공유하는 열만 합치기
pd.concat([df1, df3], join='inner')

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [196]:
# 열이 다른 데이터 합치기

pd.concat([df1,df4], axis=1)

Unnamed: 0,letter,number,animal,name
0,a,1,bird,polly
1,b,2,monkey,george


In [197]:
# 데이터 병햡 (merge)

df1 = pd.DataFrame( {'x1' : ['a','b','c'],
                    'x2' : [1,2,3]})

df1

Unnamed: 0,x1,x2
0,a,1
1,b,2
2,c,3


In [198]:
df2 = pd.DataFrame( {'x1' : ['a','b','d'],
                    'x3' : ['T','F','T']})

df2

Unnamed: 0,x1,x3
0,a,T
1,b,F
2,d,T


In [199]:
df3 = pd.DataFrame( {'x1' : ['b','c','d'],
                    'x2' : [2,3,4]})

df3

Unnamed: 0,x1,x2
0,b,2
1,c,3
2,d,4


In [200]:
#왼쪽 열을 축으로 병합
# x1을 키로 하여 df1을 기준으로

pd.merge(df1, df2, how='left',on='x1')

Unnamed: 0,x1,x2,x3
0,a,1,T
1,b,2,F
2,c,3,


In [201]:
#오른쪽 열을 축으로 병합
# x1을 키로 하여 df2을 기준으로

pd.merge(df1, df2, how='right',on='x1')

Unnamed: 0,x1,x2,x3
0,a,1.0,T
1,b,2.0,F
2,d,,T


In [202]:
#공통 값만 병합
pd.merge(df1, df2, how='inner',on='x1')

Unnamed: 0,x1,x2,x3
0,a,1,T
1,b,2,F


In [203]:
# 모든 값만 병합
pd.merge(df1, df2, how='outer',on='x1')

Unnamed: 0,x1,x2,x3
0,a,1.0,T
1,b,2.0,F
2,c,3.0,
3,d,,T


In [204]:
#특정한 열을 비교해서 공통 값이 존재하는 경우만 가져오기

df1[df1.x1.isin(df2.x1)]

Unnamed: 0,x1,x2
0,a,1
1,b,2


In [205]:
# 공통값 제외하고 병합하기
df1[~df1.x1.isin(df2.x1)]

Unnamed: 0,x1,x2
2,c,3


In [206]:
print(df1)
print()
print(df3)


  x1  x2
0  a   1
1  b   2
2  c   3

  x1  x2
0  b   2
1  c   3
2  d   4


In [207]:
#df1, df3 병합
pd.merge(df1, df3)

Unnamed: 0,x1,x2
0,b,2
1,c,3


In [208]:
# 모두 병합
pd.merge(df1, df3, how='outer')

Unnamed: 0,x1,x2
0,a,1
1,b,2
2,c,3
3,d,4


In [209]:
# 어디서 병합 되었는지 표시
pd.merge(df1, df3, how='outer', indicator=True)

Unnamed: 0,x1,x2,_merge
0,a,1,left_only
1,b,2,both
2,c,3,both
3,d,4,right_only


In [210]:
#원하는 병합만 가져오기
pd.merge(df1, df3, how='outer', indicator=True).query(' _merge == "left_only"')


Unnamed: 0,x1,x2,_merge
0,a,1,left_only


In [211]:
# _merge 삭제
pd.merge(df1, df3, how='outer', indicator=True).query(' _merge == "left_only"').drop(columns='_merge')


Unnamed: 0,x1,x2
0,a,1


## N 데이터 가공

In [212]:
df = \
pd.DataFrame(
    {'a': [4,5,6,7],
     'b': [8,9,10,11],
     'c': [12,13,14,15]},
    index = [1,2,3,4])

df

Unnamed: 0,a,b,c
1,4,8,12
2,5,9,13
3,6,10,14
4,7,11,15


In [213]:
#행 전체를 한칸 아래로 이동하기
df.shift(1)

Unnamed: 0,a,b,c
1,,,
2,4.0,8.0,12.0
3,5.0,9.0,13.0
4,6.0,10.0,14.0


In [214]:
#행 전체를 한칸 위로 이동하기
df.shift(-1)

Unnamed: 0,a,b,c
1,5.0,9.0,13.0
2,6.0,10.0,14.0
3,7.0,11.0,15.0
4,,,


In [215]:
#첫 행부터 누적해서 더하기

df.cumsum()

Unnamed: 0,a,b,c
1,4,8,12
2,9,17,25
3,15,27,39
4,22,38,54


In [216]:
# 새 행과 이전 행 비교, 최대값 출력
df.cummax()

Unnamed: 0,a,b,c
1,4,8,12
2,5,9,13
3,6,10,14
4,7,11,15


In [217]:
# 새 행과 이전 행 비교, 최소값 출력
df.cummin()

Unnamed: 0,a,b,c
1,4,8,12
2,4,8,12
3,4,8,12
4,4,8,12


In [218]:
# 첫 행부터 누적해서 곱하기
df.cumprod()

Unnamed: 0,a,b,c
1,4,8,12
2,20,72,156
3,120,720,2184
4,840,7920,32760


## 그룹별로 집계하기

In [221]:
!git clone https://github.com/taehojo/data.git


fatal: destination path 'data' already exists and is not an empty directory.


In [222]:
df = pd.read_csv('/content/data/house_train.csv')

In [224]:
df.columns

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
       'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
       'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
       'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
       'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
       'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
       'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
       'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
       'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
       'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
       'GarageCond', 'PavedDrive

In [223]:
#그룹 지정 및 그룹별 데이터 수 표시
df.groupby('YrSold').size()

YrSold
2006    314
2007    329
2008    304
2009    338
2010    175
dtype: int64

In [226]:
# 팔린 연도별 주차장의 평균 넓이
df.groupby('YrSold')['LotArea'].mean()

YrSold
2006    10489.458599
2007    10863.686930
2008    10587.687500
2009    10294.248521
2010    10220.645714
Name: LotArea, dtype: float64

In [227]:
# 밀집도 기준으로 순위 부여하기
df['SalePrice'].rank(method='dense')
# 각 집 값은 밀집도를 기준으로 몇번째인가

0       413.0
1       340.0
2       443.0
3       195.0
4       495.0
        ...  
1455    315.0
1456    416.0
1457    528.0
1458    200.0
1459    222.0
Name: SalePrice, Length: 1460, dtype: float64

In [228]:
#최젓값을 기준으로
df['SalePrice'].rank(method='min')

0       1072.0
1        909.0
2       1135.0
3        490.0
4       1236.0
         ...  
1455     828.0
1456    1076.0
1457    1285.0
1458     524.0
1459     591.0
Name: SalePrice, Length: 1460, dtype: float64

In [229]:
#순위를 비율로 표시
df['SalePrice'].rank(pct=True)

0       0.734247
1       0.622603
2       0.777740
3       0.342123
4       0.848973
          ...   
1455    0.569863
1456    0.738356
1457    0.880137
1458    0.358904
1459    0.404795
Name: SalePrice, Length: 1460, dtype: float64

In [230]:
#동일 순위에 대한 처리 방법 정하기
df['SalePrice'].rank(method='first')

0       1072.0
1        909.0
2       1135.0
3        490.0
4       1236.0
         ...  
1455     836.0
1456    1080.0
1457    1285.0
1458     524.0
1459     591.0
Name: SalePrice, Length: 1460, dtype: float64