# Pandas를 활용한 데이터핸들링
<hr/>

파이썬을 학습하면서 필수로 활용하는 패키지인 Pandas패키지에 대해서 자주 쓰이는 함수를 소개하고자 한다.  
본인의 데이터핸들링 스킬을 향상시키기 위해서는 필수로 거쳐가야하는 관문이다. R에 익숙하다면 비교적 금방 이해할 수 있을것이다.
<hr/>

### 1. 데이터 불러오기

데이터를 불러오는 함수는 R과 유사한 read_csv, read_table로 불러올 수 있다.  
경로에 한글이 있으면 실행이 잘 안되는 경우가 있으니 지양하도록 한다. 옵션에서 **encoding = 'utf-8', sep = ','** 는 습관적으로 적어주도록 하자

In [1]:
import pandas as pd

#데이터 불러오기(read_csv) *text파일은 read_table
#경로가 한글일 경우 불러오기가 안되므로 최대한 한글을 지양하도록 하자

path = "C:/Users/DS-18-D3-001/Desktop/my/data/insure1.csv"
csv_test = pd.read_csv(path, sep = ',', index_col = "CUST_ID", encoding = "utf-8")

#데이터구조 확인하기(shape)
csv_test.shape

(122, 10)

In [2]:
#데이터 부분적으로 확인(head(), tail())

csv_test.head(10)

Unnamed: 0_level_0,BIRTH,GENDER,GU,HOUSE,MARITAL,RELIGION,CHILDREN,INCOME,DEPOSIT,TRANSFER
CUST_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
C1000000,640530,여자,중구,기타자가,기혼,무종교,0,3000000,1500000,20140329
C1000001,640403,여자,서대문구,본인자가,기혼,기독교,2,3500000,1800000,20140330
C1000002,660806,여자,노원구,본인자가,기혼,무종교,0,2500000,350000,20140210
C1000003,700912,여자,동작구,본인자가,기타,무종교,0,2000000,800000,20140325
C1000004,710430,남자,서대문구,본인자가,기혼,무종교,2,3000000,1000000,20140311
C1000005,630219,여자,광진구,본인자가,기혼,기독교,2,750000,100000,20140311
C1000006,640107,여자,송파구,본인자가,기혼,불교,2,15000000,7000000,20140211
C1000007,630626,여자,성북구,본인자가,,무종교,2,5000000,1500000,20140316
C1000008,640518,여자,용산구,기타자가,기혼,무종교,2,3000000,1500000,20140331
C1000009,690307,여자,동대문구,기타,기혼,무종교,1,4000000,1500000,20140331


In [3]:
# 데이터정보 확인(info()) r에서 str함수와 유사

csv_test.info()

<class 'pandas.core.frame.DataFrame'>
Index: 122 entries, C1000000 to C1000121
Data columns (total 10 columns):
BIRTH       122 non-null int64
GENDER      122 non-null object
GU          122 non-null object
HOUSE       122 non-null object
MARITAL     122 non-null object
RELIGION    122 non-null object
CHILDREN    122 non-null int64
INCOME      122 non-null int64
DEPOSIT     122 non-null int64
TRANSFER    122 non-null int64
dtypes: int64(5), object(5)
memory usage: 10.5+ KB


<hr/>
### 2. 데이터프레임 생성하기

이제 간단한 데이터프레임을 생성해보도록 한다.  
먼저 데이터의 형태를 만든 후, 변수명을 지정하는 방법이다.  
R과 달리 Python에서는 index가 0으로 시작한다. 따라서 변수명을 지정할때(특히 Row index) 가장 첫번째 행이 1이 아닌 0으로 명시해줄것.  


In [4]:
import pandas as pd
import numpy as np
from pandas import DataFrame as df

# 맨 앞에 data를 입력한 후, index name, column name, data type을 지정한다. 
df_1 = df(data = np.arange(9).reshape(3,3),
          index = ['ID_0','ID_1','ID_2'],
          columns = ['var0','var1','var2'],
          dtype = 'int',
          copy = False)
df_1

Unnamed: 0,var0,var1,var2
ID_0,0,1,2
ID_1,3,4,5
ID_2,6,7,8


두번째 방법으로는 변수명과 데이터를 한번에 지정하는 방법이다. 이 방법이 직관적으로 이해하기가 쉽다.

In [5]:
# 반드시 {}를 써줄것.
df_2 = df({"급여" : np.random.uniform(low = 1000, high = 5000, size = 5),
           "급여상승율" : np.random.randn(5),
           "성별" : ['남','여','남','남','여']},
           index = ['ID_0','ID_1','ID_2','ID_3','ID_4'])
df_2

Unnamed: 0,급여,급여상승율,성별
ID_0,4413.664312,-0.686596,남
ID_1,3098.755433,-1.213814,여
ID_2,4045.230816,0.831688,남
ID_3,1658.816101,1.689566,남
ID_4,4745.186679,-0.516547,여


In [6]:
# 데이터 변수 타입보기(dtypes)
df_2.dtypes

급여       float64
급여상승율    float64
성별        object
dtype: object

In [7]:
# 데이터프레임 안에 입력되어있는 관측치 갯수(size)
df_2.size

15

In [8]:
# 각 변수에 입력되어있는 관측치 갯수(count())
df_2.count()

급여       5
급여상승율    5
성별       5
dtype: int64

In [9]:
# 연속형 변수의 기술통계량 정보(describe()) 모든 변수에 대해서 확인하려면 df_2.describe()
df_2.급여.describe()

count       5.000000
mean     3592.330668
std      1244.073910
min      1658.816101
25%      3098.755433
50%      4045.230816
75%      4413.664312
max      4745.186679
Name: 급여, dtype: float64

<hr/>
###  3. 행, 열 선택(Select)

간단하게 행(Row)를 뽑는 방법을 살펴보도록 한다. 결과값을 보며 어떤 차이가 있는지 확인하도록 하자

In [82]:
#행 추출 함수(ix) 첫번째부터 마지막까지 **index가 0부터 시작함을 유의하도록 한다.**
df_2.ix[0:]

Unnamed: 0,D,E,F,ID
0,D0,E0,F0,Z01
1,D1,E1,F1,Z02
2,D2,E2,F2,Z03
4,D3,E3,F3,Z05


In [90]:
# 0번째부터 3개 추출(row index 0,1,2) 
df_2.ix[0:2]

Unnamed: 0,D,E,F,ID
0,D0,E0,F0,Z01
1,D1,E1,F1,Z02
2,D2,E2,F2,Z03


In [12]:
# 3번째 행의 변수과 값을 출력
df_2.ix[2]

급여        4045.23
급여상승율    0.831688
성별              남
Name: ID_2, dtype: object

In [13]:
# rowindex가 'ID_3'인 행을 출력
df_2.ix['ID_3']

급여       1658.82
급여상승율    1.68957
성별             남
Name: ID_3, dtype: object

이번에는 columns을 추출하는 방법을 살펴본다.

In [14]:
# 변수명이 '급여'인 column을 추출
df_2["급여"]

ID_0    4413.664312
ID_1    3098.755433
ID_2    4045.230816
ID_3    1658.816101
ID_4    4745.186679
Name: 급여, dtype: float64

In [15]:
# 여러개의 column을 추출하고 싶으면 튜플형태로 추출한다.
df_2[["급여","급여상승율"]]

Unnamed: 0,급여,급여상승율
ID_0,4413.664312,-0.686596
ID_1,3098.755433,-1.213814
ID_2,4045.230816,0.831688
ID_3,1658.816101,1.689566
ID_4,4745.186679,-0.516547


<hr/>
### 4. 데이터 프레임 합치기

데이터프레임을 합치는 방법은 2가지 방법이 있다.  
> 1. 기존 데이터 테이블의 행 또는 열에 합치는 방법(R에서는 cbind, rbind).
> 2. Key값을 이용하여 테이블간 JOIN을 하는 방법(R에서는 merge).  

데이터 핸들링을 함에있어서 가장 중요한부분이니 잘 학습해두도록 하자.

In [16]:
# 행 또는 열에 합치기(concat())

import pandas as pd
from pandas import DataFrame as df

# 예제용 데이터 프레임 생성
df_1 = df({"A" : ['A0','A1','A2'],
           "B" : ['B0','B1','B2'],
           "C" : ['C0','C1','C2'],
           "D" : ['D0','D1','D2']}, index = [0,1,2])

df_2 = df({"A" : ['A3','A4','A5'],
           "B" : ['B3','B4','B5'],
           "C" : ['C3','C4','C5'],
           "D" : ['D3','D4','D5']}, index = [3,4,5])

# 행으로 붙이기(R에서는 rbind)
pd.concat([df_1, df_2], axis = 0) #axis = 0 -> 행으로 붙이기

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5


In [17]:
# 열로 붙이기(R에서는 cbind)
pd.concat([df_1, df_2], axis = 1) #axis = 1 -> 열로 붙이기

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,,,,
1,A1,B1,C1,D1,,,,
2,A2,B2,C2,D2,,,,
3,,,,,A3,B3,C3,D3
4,,,,,A4,B4,C4,D4
5,,,,,A5,B5,C5,D5


두 데이터프레임의 Row index가 맞지않는 부분은 NaN값으로 처리가 된다.  
row index에 따른 다음 몇가지 상황을 살펴보자.

In [18]:
df_2 = df({"A" : ['A3','A4','A5'],
           "B" : ['B3','B4','B5'],
           "C" : ['C3','C4','C5'],
           "D" : ['D3','D4','D5']}, index = [0,1,2])

pd.concat([df_1, df_2], axis = 1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A3,B3,C3,D3
1,A1,B1,C1,D1,A4,B4,C4,D4
2,A2,B2,C2,D2,A5,B5,C5,D5


In [19]:
df_2 = df({"A" : ['A3','A4','A5'],
           "B" : ['B3','B4','B5'],
           "C" : ['C3','C4','C5'],
           "D" : ['D3','D4','D5']}, index = [0,2,5])

pd.concat([df_1, df_2], axis = 1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A3,B3,C3,D3
1,A1,B1,C1,D1,,,,
2,A2,B2,C2,D2,A4,B4,C4,D4
5,,,,,A5,B5,C5,D5


concat 함수는 두 데이터프레임이 모든 행을 출력하도록 기본 설정이 되어있다. 만약 두 테이블의 곂치는 부분만을 출력하고 싶으면 옵션을 따로 설정한다.

In [20]:
df_2 = df({"A" : ['A3','A4','A5'],
           "B" : ['B3','B4','B5'],
           "C" : ['C3','C4','C5'],
           "D" : ['D3','D4','D5']}, index = [0,2,5])

pd.concat([df_1, df_2], axis = 1, join = 'inner') # 디폴트 join 옵션 : outer

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A3,B3,C3,D3
2,A2,B2,C2,D2,A4,B4,C4,D4


concat함수는 계층적으로 데이터를 합치는것도 가능하다. 테이블간의 비교를 할때 유용하게 사용할 수 있다.

In [21]:
df_3 = df({"E" : ['A6','A7','A8'],
           "F" : ['B6','B7','B8'],
           "G" : ['C6','C7','C8'],
           "H" : ['D6','D7','D8']}, index = [1,2,4])

# 계층적 Index만들고 이름부여하기
# keys에 unique한 테이블명, names 옵션을 통해 index명을 설정
pd.concat([df_1, df_3], keys = ['df_1','df_2'], names = ['df_name','row_number'])

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D,E,F,G,H
df_name,row_number,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
df_1,0,A0,B0,C0,D0,,,,
df_1,1,A1,B1,C1,D1,,,,
df_1,2,A2,B2,C2,D2,,,,
df_2,1,,,,,A6,B6,C6,D6
df_2,2,,,,,A7,B7,C7,D7
df_2,4,,,,,A8,B8,C8,D8


데이터프레임 합치기 두번째 방법인 Key를 이용한 join을 알아보도록 한다.  
> 1. how = join방법(left, right, inner, outer)
> 2. on = key 변수

In [22]:
df_1 = df({"A" : ['A0','A1','A2','A3'],
           "B" : ['B0','B1','B2','B3'],
           "C" : ['C0','C1','C2','C3'],
           "ID" : ['Z01','Z02','Z03','Z04']}, index = [0,1,3,4])

df_2 = df({'D' : ['D0','D1','D2','D3'],
           'E' : ['E0','E1','E2','E3'],
           'F' : ['F0','F1','F2','F3'],
           'ID' : ['Z01','Z02','Z03','Z05']}, index = [0,1,2,4])

# inner join
pd.merge(left = df_1, right = df_2, how = 'inner', on = "ID")


Unnamed: 0,A,B,C,ID,D,E,F
0,A0,B0,C0,Z01,D0,E0,F0
1,A1,B1,C1,Z02,D1,E1,F1
2,A2,B2,C2,Z03,D2,E2,F2


In [23]:
# outer join
df_3 = pd.merge(left = df_1, right = df_2, how = 'outer', on = 'ID')
df_3

Unnamed: 0,A,B,C,ID,D,E,F
0,A0,B0,C0,Z01,D0,E0,F0
1,A1,B1,C1,Z02,D1,E1,F1
2,A2,B2,C2,Z03,D2,E2,F2
3,A3,B3,C3,Z04,,,
4,,,,Z05,D3,E3,F3


<hr/>
###  5. 결측치 확인

데이터 수집을 할때 결측값이 생길 수 있으며, 이는 반드시 확인을 하고 넘어가야한다.  
pandas에서는 결측값을 'NaN'으로 표기하며, 'None' 또한 결측값으로 인식한다.  

위에서 merge를 통해 만들었던 데이터 프레임을 활용해보자

In [24]:
# NaN을 확인하는 함수(isnull())
df_3.isnull() # 또는 pd.isnull(df_3)

Unnamed: 0,A,B,C,ID,D,E,F
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,True,True,True
4,True,True,True,False,False,False,False


In [25]:
# NaN을 확인하는 함수(notnull())
df_3.notnull() # 또는 pd.notnull(df_3)

Unnamed: 0,A,B,C,ID,D,E,F
0,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True
3,True,True,True,True,False,False,False
4,False,False,False,True,True,True,True


isnull() 메소드는 결측치를 True로 반환한다. 반대로 notnull() 메소드는 결측치를 False로 반환한다.

때로는 특정 값을 결측치로 바꾸어야 할 때가 있다. 이럴때는 행과 열을 지정해주어서 'None' 또는 np.nan 을 입력한다.

In [26]:
df_3.ix[[0,2],['A','F']] = np.nan
df_3

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,ID,D,E,F
0,,B0,C0,Z01,D0,E0,
1,A1,B1,C1,Z02,D1,E1,F1
2,,B2,C2,Z03,D2,E2,
3,A3,B3,C3,Z04,,,
4,,,,Z05,D3,E3,F3


각 열에 결측값이 몇개씩 있는지 확인해 보도록 한다.

In [27]:
df_3.isnull().sum()

A     3
B     1
C     1
ID    0
D     1
E     1
F     3
dtype: int64

특정 열에 결측치를 확인하고 싶으면 아래처럼 튜플형태로 추출한다.

In [28]:
df_3[['A','B']].isnull().sum()

A    3
B    1
dtype: int64

각 행에 결측값이 몇개있는지 확인해 보려면 sum(1)을 입력한다.

In [29]:
df_3['NaN_Cnt'] = df_3.isnull().sum(1)
df_3

Unnamed: 0,A,B,C,ID,D,E,F,NaN_Cnt
0,,B0,C0,Z01,D0,E0,,2
1,A1,B1,C1,Z02,D1,E1,F1,0
2,,B2,C2,Z03,D2,E2,,2
3,A3,B3,C3,Z04,,,,3
4,,,,Z05,D3,E3,F3,3


결측치가 포함되어있는 데이터를 연산할때는 약간의 문제가 발생한다.  
합계나 평균,표준편차와 같은 통계량을 구할때 결측치가 포함되면 값에 외곡이 많이 생기기 때문이다.  
하지만 걱정할 필요없다. Python의 메소드는 이러한 결측치를 자동으로 제외하여 연산을 해준다.

In [30]:
import numpy as np
import pandas as pd
from pandas import DataFrame as df

df = df(np. arange(10).reshape(5,2),
       index = ['a','b','c','d','e'],
       columns = ['C1','C2'])
df

Unnamed: 0,C1,C2
a,0,1
b,2,3
c,4,5
d,6,7
e,8,9


In [31]:
df.ix[['b','e'],['C1']] = np.nan
df.ix[['b','c'],['C2']] = np.nan
df

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,C1,C2
a,0.0,1.0
b,,
c,4.0,
d,6.0,7.0
e,,9.0


sum 또는 cumsum 메소드는 결측치를 자동으로 0으로 처리하여 합계를 계산한다.

In [32]:
df.sum()

C1    10.0
C2    17.0
dtype: float64

In [33]:
df['C1'].cumsum()

a     0.0
b     NaN
c     4.0
d    10.0
e     NaN
Name: C1, dtype: float64

평균, 표준편차와 같은 통계량을 계산할때는 결측치를 자동으로 제외한다.

In [34]:
df.mean()

C1    3.333333
C2    5.666667
dtype: float64

In [35]:
df.mean()['C1']

3.3333333333333335

In [36]:
df.mean(1)

a    0.5
b    NaN
c    4.0
d    6.5
e    9.0
dtype: float64

In [37]:
df.std()

C1    3.055050
C2    4.163332
dtype: float64

데이터프레임내 열끼리 연산을 할때 결측치가 있는 행은 NaN을 반환합니다.

In [38]:
df['C1'] + df['C2']

a     1.0
b     NaN
c     NaN
d    13.0
e     NaN
dtype: float64

결측치 확인을 한 후에는 해당 값을 삭제할것인지, 다른 값으로 대체할것인지를 정해야한다.  
다른 값으로 대체를 하는 경우의 몇가지 방법을 살펴보도록 한다.

In [39]:
# 결측치를 가진 데이터프레임 생성
import numpy as np
import pandas as pd
from pandas import DataFrame as df

df = df(np. arange(10).reshape(5,2),
       index = ['a','b','c','d','e'],
       columns = ['C1','C2'])


In [40]:
df.ix[['a','b'],'C1'] = np.nan
df.ix[['b','e'],'C2'] = np.nan

df

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,C1,C2
a,,1.0
b,,
c,4.0,5.0
d,6.0,7.0
e,8.0,


In [41]:
df.fillna(0)

Unnamed: 0,C1,C2
a,0.0,1.0
b,0.0,0.0
c,4.0,5.0
d,6.0,7.0
e,8.0,0.0


In [42]:
# String으로 대체하기
df.fillna("Missing")

Unnamed: 0,C1,C2
a,Missing,1
b,Missing,Missing
c,4,5
d,6,7
e,8,Missing


In [43]:
# 평균으로 대체하기
df.fillna(df.mean()['C2'])

Unnamed: 0,C1,C2
a,4.333333,1.0
b,4.333333,4.333333
c,4.0,5.0
d,6.0,7.0
e,8.0,4.333333


In [44]:
# C1열은 C1의 평균으로, C2열은 C2의 평균으로 대체
df.fillna(df.mean()["C1":"C2"])

Unnamed: 0,C1,C2
a,6.0,1.0
b,6.0,4.333333
c,4.0,5.0
d,6.0,7.0
e,8.0,4.333333


다른값으로 대체하는것이 아닌 결측치 자체를 제거해야할 경우도 있다.  
하지만 결측치를 제거할때는 행 또는 열이 전체가 제거되는 경우도 있으니 전처리에 각별히 주의해야한다.

In [45]:
# 결측치를 가진 데이터프레임 생성
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(5, 4),
                 columns = ['C1','C2','C3','C4'])
df.ix[[0,3],['C1','C4']] = np.nan
df.ix[[2],['C2']] = np.nan
df

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  import sys


Unnamed: 0,C1,C2,C3,C4
0,,1.569597,1.173448,
1,0.80018,-0.016985,0.350398,-0.514378
2,-1.037187,,0.667552,-0.021242
3,,-0.468486,0.057842,
4,0.124376,-1.105294,1.067853,-0.839447


In [46]:
# 결측치 제거 method(dropna())

df.dropna(axis = 0) #결측치가 있는 행 삭제

Unnamed: 0,C1,C2,C3,C4
1,0.80018,-0.016985,0.350398,-0.514378
4,0.124376,-1.105294,1.067853,-0.839447


In [47]:
df.dropna(axis = 1) #결측치가 있는 열 삭제

Unnamed: 0,C3
0,1.173448
1,0.350398
2,0.667552
3,0.057842
4,1.067853


In [48]:
df['C1'].dropna() # 사용자가 지정한 열에서 결측치가 있는 행 삭제

1    0.800180
2   -1.037187
4    0.124376
Name: C1, dtype: float64

In [49]:
df[['C1','C2']].dropna() # 사용자가 지정한 열에서 결측치가 있는 행 삭제

Unnamed: 0,C1,C2
1,0.80018,-0.016985
4,0.124376,-1.105294


마지막으로 선형보간법 및 시계열날짜를 기준으로 결측치를 보간하는 방법을 알아보도록 한다.

In [50]:
# 시계열 생성

import numpy as np
import pandas as pd
from pandas import DataFrame, Series
from datetime import datetime


datestr = ['07/1/2018','07/8/2018','07/9/2018','07/13/2018']
dates = pd.to_datetime(datestr)
dates

DatetimeIndex(['2018-07-01', '2018-07-08', '2018-07-09', '2018-07-13'], dtype='datetime64[ns]', freq=None)

In [51]:
# 시계열 자료 생성
ts = Series([1, np.nan, np.nan, 10], index = dates)
ts

2018-07-01     1.0
2018-07-08     NaN
2018-07-09     NaN
2018-07-13    10.0
dtype: float64

In [52]:
# 선형보간법(interpolate() default는 선형보간법)
ts_intp_linear = ts.interpolate() 
ts_intp_linear

2018-07-01     1.0
2018-07-08     4.0
2018-07-09     7.0
2018-07-13    10.0
dtype: float64

In [53]:
ts_intp_time = ts.interpolate(method = "time")
ts_intp_time

2018-07-01     1.00
2018-07-08     6.25
2018-07-09     7.00
2018-07-13    10.00
dtype: float64

<hr/>
### 6. 유일값 찾기

데이터를 전처리하고 탐색적 자료분석을 진행할때 중복된 값을 제외한 유일한 값을 찾아야하는 경우가 자주발생한다.

In [54]:
# 중복된 값이 있는 데이터 프레임 생성

import pandas as pd
from pandas import DataFrame as df

df = df({'A' : ['A1','A1','A2','A3'],
         'B' : ['B1','B2','NaN','B2'],
         'C' : [1,1,3,4]})
df

Unnamed: 0,A,B,C
0,A1,B1,1
1,A1,B2,1
2,A2,,3
3,A3,B2,4


In [55]:
df['A'].unique()

array(['A1', 'A2', 'A3'], dtype=object)

In [56]:
df['B'].unique()

array(['B1', 'B2', 'NaN'], dtype=object)

In [57]:
df['C'].unique()

array([1, 3, 4], dtype=int64)

유일한 값별로 개수를 집계해야 하는경우도 많다. R에서는 table함수와 같다.

In [58]:
# 유일값 세기(value_counts())
df['A'].value_counts()

A1    2
A2    1
A3    1
Name: A, dtype: int64

In [59]:
# 지정 열의 비율을 알아보기(value_counts(normalize = True))
df['A'].value_counts(normalize = True)

A1    0.50
A2    0.25
A3    0.25
Name: A, dtype: float64

In [60]:
# 지정 열을 정렬하기(value_counts(sort = True, ascending = True))
df['C'].value_counts(sort = True, ascending = True)

4    1
3    1
1    2
Name: C, dtype: int64

<hr/>