# Chapter 5. Pandas Tutorial

https://github.com/adeshpande3/Pandas-Tutorial/blob/master/Pandas%20Tutorial.ipynb 의 자료를 기반으로 작성함.

Panel data analysis 혹은 python data analysis의 약자
- “관계형”, 혹은 “테이블 형＂데이터를 만들고 조작하기 위한 파이썬 라이브러리
- NumPy 라이브러리 기반으로 구축
- 오픈소스(http://pandas.pydata.org)

Pandas의 장점
- CSV, 엑셀, Database(SQL), Json 등 다양한 소스에서 데이터를 가져오고 또한 해당 형식으로 데이터를 내보낼 수 있는 입출력 기능.
- 데이터의 삽입, 삭제, 병합, 결합, 슬라이싱, 인덱싱, 등 데이터를 필요한 대로 조작(manipulation)할 수 있다.
- 누락 데이터 처리가 용이(무시하거나, 0으로 변환하거나, 평균값에 맞추거나.. 등등)
- 통계분석이나 머신 러닝 분석이 가능하도록 연구모델을 설정할 수 있음.
- Statsmodel, SciPy 등 다양한 데이터 분석 패키지와 쉽게 연동되어 사용할 수 있음.
- NumPy처럼 빠른 속도로 데이터를 처리할 수 있음.

다음과 같이 import해서 쓴다.

In [1]:
import pandas as pd

### 1. 시리즈(Series)와 데이터프레임(data frame)

- Series: 인덱스(index)가 있는 1차원 배열
- 리스트로부터 생성 가능
- 인덱스를 부여하지 않으면 자동으로 0부터 정수를 인덱스로 부여 - 리스트와 유사

In [2]:
s = pd.Series([1, 3, 5, 7, 9])
print(s)
print(s[2]) #indexing

0    1
1    3
2    5
3    7
4    9
dtype: int64
5


In [3]:
s[:3]

0    1
1    3
2    5
dtype: int64

In [4]:
# dictionary를 이용해 만들기
dic = {'a':1, 'b':3, 'c':5}
s = pd.Series(dic)
print(s)
print(s['b']) #indexing

a    1
b    3
c    5
dtype: int64
3


Series의 두 속성: index, values

In [5]:
print(s.values)
print(s.index)

[1 3 5]
Index(['a', 'b', 'c'], dtype='object')


index를 부여하는 다른 방법
- 딕셔너리와 다른 점: 순서가 있다!

In [6]:
s = pd.Series([1,3,5,7,9], index=['LGT','DOO','HWE','LOT','SKW'])
print(s)

LGT    1
DOO    3
HWE    5
LOT    7
SKW    9
dtype: int64


In [7]:
print(s['LOT'])

7


In [8]:
print(s[:'LOT']) # 슬라이싱에서 어디까지 나오는지 주목

LGT    1
DOO    3
HWE    5
LOT    7
dtype: int64


In [9]:
# 시리즈를 딕셔너리로 변환
d = s.to_dict()
print(type(d), d)

<class 'dict'> {'LGT': 1, 'DOO': 3, 'HWE': 5, 'LOT': 7, 'SKW': 9}


#### 데이터 프레임
- 데이터 프레임은 우리에게 친숙한 2차원 표와 같은 형태로 생각하면 된다. 
- 행(row)과 열(column)으로 이루어져 있으며, 각 열에는 name이 있고 행에는 index가 있다.

In [10]:
score={'학번':[201700013,201600023,201600033],
       '이름':['변사또','이몽룡','성춘향'],
       '퀴즈':[15,20,10],
       '중간고사':[20,20,15]}

score_df= pd.DataFrame(score)
score_df

Unnamed: 0,학번,이름,퀴즈,중간고사
0,201700013,변사또,15,20
1,201600023,이몽룡,20,20
2,201600033,성춘향,10,15


하나의 열은 Series이며 따라서 데이터 프레임은 index를 공유하는 열 혹은 Series의 집합이라고 생각할 수 있다.

In [11]:
print(type(score_df['학번']))
score_df['학번']

<class 'pandas.core.series.Series'>


0    201700013
1    201600023
2    201600033
Name: 학번, dtype: int64

In [12]:
score_df['학번'].values

array([201700013, 201600023, 201600033], dtype=int64)

In [13]:
score_df.loc[0]

학번      201700013
이름            변사또
퀴즈             15
중간고사           20
Name: 0, dtype: object

In [14]:
score_df.loc[2]

학번      201600033
이름            성춘향
퀴즈             10
중간고사           15
Name: 2, dtype: object

#### 행 추가하거나 덮어쓰기
- loc를 이용해서 추가가 가능<br>
- 단 행의 인덱스가 0부터 시작해서 순차적으로 더해진 경우에 아래와 같이 할 수 있음<br>

In [15]:
print(len(score_df))
score_df.loc[len(score_df)] = [201700002, '허생', 17, 17]
score_df

3


Unnamed: 0,학번,이름,퀴즈,중간고사
0,201700013,변사또,15,20
1,201600023,이몽룡,20,20
2,201600033,성춘향,10,15
3,201700002,허생,17,17


- 행의 인덱스 라벨을 원하는 값으로 지정하면서 추가할 수 있음

In [16]:
score_df.loc[7] = [201800009, '홍길동', 16, 19]
score_df

Unnamed: 0,학번,이름,퀴즈,중간고사
0,201700013,변사또,15,20
1,201600023,이몽룡,20,20
2,201600033,성춘향,10,15
3,201700002,허생,17,17
7,201800009,홍길동,16,19


- 현재 인덱스 최대값의 다음 값으로 추가하고 싶다면?

In [17]:
score_df.index

Index([0, 1, 2, 3, 7], dtype='int64')

In [18]:
score_df.index.max()

7

In [19]:
score_df.loc[score_df.index.max()+1] = [201900077, '전우치', 16, 19]
score_df

Unnamed: 0,학번,이름,퀴즈,중간고사
0,201700013,변사또,15,20
1,201600023,이몽룡,20,20
2,201600033,성춘향,10,15
3,201700002,허생,17,17
7,201800009,홍길동,16,19
8,201900077,전우치,16,19


In [20]:
score_df.loc[1]

학번      201600023
이름            이몽룡
퀴즈             20
중간고사           20
Name: 1, dtype: object

- 인덱스를 이용해 행의 내용을 덮어쓰기

In [21]:
score_df.loc[1] = [201600024, '방자', 14, 17]
score_df

Unnamed: 0,학번,이름,퀴즈,중간고사
0,201700013,변사또,15,20
1,201600024,방자,14,17
2,201600033,성춘향,10,15
3,201700002,허생,17,17
7,201800009,홍길동,16,19
8,201900077,전우치,16,19


#### 행이나 열 삭제하기
- 특정 행이나 열을 삭제하고 싶을 때: drop() 사용

In [22]:
# 행 삭제하기
score_df.drop(index=3)

Unnamed: 0,학번,이름,퀴즈,중간고사
0,201700013,변사또,15,20
1,201600024,방자,14,17
2,201600033,성춘향,10,15
7,201800009,홍길동,16,19
8,201900077,전우치,16,19


In [23]:
# 둘 이상의 행을 삭제
score_df.drop(index=[0, 2])

Unnamed: 0,학번,이름,퀴즈,중간고사
1,201600024,방자,14,17
3,201700002,허생,17,17
7,201800009,홍길동,16,19
8,201900077,전우치,16,19


In [24]:
# 열 삭제하기
score_df.drop(columns='퀴즈')

Unnamed: 0,학번,이름,중간고사
0,201700013,변사또,20
1,201600024,방자,17
2,201600033,성춘향,15
3,201700002,허생,17
7,201800009,홍길동,19
8,201900077,전우치,19


In [25]:
# 둘 이상의 열 삭제
score_df.drop(columns=['퀴즈', '중간고사'])

Unnamed: 0,학번,이름
0,201700013,변사또
1,201600024,방자
2,201600033,성춘향
3,201700002,허생
7,201800009,홍길동
8,201900077,전우치


In [26]:
dff = score_df.drop(columns=['퀴즈', '중간고사'])

In [27]:
dff

Unnamed: 0,학번,이름
0,201700013,변사또
1,201600024,방자
2,201600033,성춘향
3,201700002,허생
7,201800009,홍길동
8,201900077,전우치


#### 이상한 점?
- 왜 삭제를 했는데 다음 라인에서는 다시 살아나는가?
- 답: drop함수는 score_df에서 함수를 적용한 결과를 반환, 원본인 score_df를 바꾸지 않음
- 원본은 바꾸고 싶으면 어떻게 해야 하나?

In [28]:
# drop한 결과를 자신에게 저장
score_df = score_df.drop(index=3)
score_df

Unnamed: 0,학번,이름,퀴즈,중간고사
0,201700013,변사또,15,20
1,201600024,방자,14,17
2,201600033,성춘향,10,15
7,201800009,홍길동,16,19
8,201900077,전우치,16,19


In [29]:
# inplace=True 를 추가하면 결과를 자신에 저장
score_df.drop(columns='퀴즈', inplace=True)
score_df

Unnamed: 0,학번,이름,중간고사
0,201700013,변사또,20
1,201600024,방자,17
2,201600033,성춘향,15
7,201800009,홍길동,19
8,201900077,전우치,19


### 2. 데이터 프레임 다루기
- 특정 열(들) 추출

In [30]:
d = {
    'Name':['Alisa','Bobby','Cathrine','Madonna','Rocky','Sebastian','Jaqluine',
   'Rahul','David','Andrew','Ajay','Teresa'],
   'Age':[26,27,25,34,31,27,25,33,42,32,51,47],
   'Score':[89,87,67,55,55,72,76,79,44,92,89,69]}
 
df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,34,55
4,Rocky,31,55
5,Sebastian,27,72
6,Jaqluine,25,76
7,Rahul,33,79
8,David,42,44
9,Andrew,32,92


In [31]:
# Age 열만 추출
type(df['Age'])

pandas.core.series.Series

두 개 이상의 열을 반환하고 싶으면 아래와 같이 리스트 형태로 인덱싱을 한다.

In [32]:
df[['Name', 'Age']]

Unnamed: 0,Name,Age
0,Alisa,26
1,Bobby,27
2,Cathrine,25
3,Madonna,34
4,Rocky,31
5,Sebastian,27
6,Jaqluine,25
7,Rahul,33
8,David,42
9,Andrew,32


인덱싱을 할 **[]** 안에 하나의 값을 쓰느냐, 아니면 리스트 형태를 쓰느냐에 따라 반환되는 값의 타입이 달라진다. 하나의 값을 쓰는 경우는 시리즈를, 리스트 형태를 쓰면 데이터프레임을 반환한다.

In [33]:
df['Name']

0         Alisa
1         Bobby
2      Cathrine
3       Madonna
4         Rocky
5     Sebastian
6      Jaqluine
7         Rahul
8         David
9        Andrew
10         Ajay
11       Teresa
Name: Name, dtype: object

In [34]:
df[['Name']]

Unnamed: 0,Name
0,Alisa
1,Bobby
2,Cathrine
3,Madonna
4,Rocky
5,Sebastian
6,Jaqluine
7,Rahul
8,David
9,Andrew


**[]** 안에 열의 이름이 아닌 숫자를 쓰면 행을 반환하는 것이 가능하다. 단 이 경우는 슬라이싱만 가능하다.

In [35]:
df[5:10]  #df[2]는 에러 발생

Unnamed: 0,Name,Age,Score
5,Sebastian,27,72
6,Jaqluine,25,76
7,Rahul,33,79
8,David,42,44
9,Andrew,32,92


### 3. loc, iloc을 이용한 인덱싱과 슬라이싱
- loc과 iloc 모두 행(row)이나 열(column)을 인덱싱하기 위한 함수이다.<br>
- iloc은 numpy의 인덱싱과 유사하게 작동한다. 저장된 순서에 따라 0부터 정수로 인덱싱, 슬라이싱이 가능하다.<br>
- iloc[4]와 같이 값을 하나만 주는 경우에는 행을 대상으로 작동하고, iloc[:, 3]와 같이 사용하면 열에 대해 인덱싱이 가능하다.<br>
- loc은 데이터 프레임에 정의된 index label에 대해 인덱싱이 작동한다. <br>
- 슬라이싱의 경우 loc은 index label 값의 크기와 무관하게 순서에 따라 슬라이싱이 작동한다.
- **iloc** 과 **loc**의 차이를 더 자세히 보고 싶으면 다음을 참조: http://stackoverflow.com/questions/31593201/pandas-iloc-vs-ix-vs-loc-explanation. 
- **iloc은 위치(정수 인덱스)를 사용하고 loc은 인덱스 라벨을 사용**. 

#### reindex(재색인)
- 새로운 색인 순서로 재배열
- (색인, 값)의 쌍은 바뀌지 않음. 즉 값에 대해 인덱스를 변경하는 것이 아니라, 행의 순서를 바꿈

In [36]:
df = df.reindex([1,4,6,2,3,5,9,8,0,7,11,10]) # 일부러 순차가 아닌 인덱스를 부여
# 이렇게 하면 인덱스 라벨의 순서와 정수 인덱스의 순서가 일치하지 않음
df

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,55
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,34,55
5,Sebastian,27,72
9,Andrew,32,92
8,David,42,44
0,Alisa,26,89
7,Rahul,33,79


In [37]:
# columns 매개변수를 이용해 열에 대한 reindex(재색인)도 가능
df.reindex(columns=["Age", "Score", "Name"])

Unnamed: 0,Age,Score,Name
1,27,87,Bobby
4,31,55,Rocky
6,25,76,Jaqluine
2,25,67,Cathrine
3,34,55,Madonna
5,27,72,Sebastian
9,32,92,Andrew
8,42,44,David
0,26,89,Alisa
7,33,79,Rahul


In [38]:
# 새로 부여한 index label을 기준으로 슬라이싱을 수행
df.loc[4:5]

Unnamed: 0,Name,Age,Score
4,Rocky,31,55
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,34,55
5,Sebastian,27,72


왜 index label이 2, 3, 5인 행은 결과에 포함되지 않았을까?
- label의 값에 대한 범위 지정이 아닌 것에 유의
- index label 6까지의 행(6을 포함)을 **현재 순서**대로 반환
- **iloc**과 **loc**의 중요한 차이점 하나는, loc은 인덱싱하는 값을 포함하여 결과를 반환한다는 것이다.

In [39]:
df.loc[6:3] #정수 인덱스가 6인 행 이전까지를 반환

Unnamed: 0,Name,Age,Score
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,34,55


In [40]:
# 인덱스의 순서에 따라 데이터프레임을 정렬
df1 = df.sort_index()
df1

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,34,55
4,Rocky,31,55
5,Sebastian,27,72
6,Jaqluine,25,76
7,Rahul,33,79
8,David,42,44
9,Andrew,32,92


In [41]:
df1.loc[:6]

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,34,55
4,Rocky,31,55
5,Sebastian,27,72
6,Jaqluine,25,76


In [42]:
df1.iloc[:6]

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,34,55
4,Rocky,31,55
5,Sebastian,27,72


In [43]:
# 인덱스 역순으로 데이터프레임 정렬
df2=df.sort_index(ascending=False)
df2

Unnamed: 0,Name,Age,Score
11,Teresa,47,69
10,Ajay,51,89
9,Andrew,32,92
8,David,42,44
7,Rahul,33,79
6,Jaqluine,25,76
5,Sebastian,27,72
4,Rocky,31,55
3,Madonna,34,55
2,Cathrine,25,67


#### loc와 iloc을 이용해 열(column) 추출하기

In [44]:
df2.iloc[3:7, 0] #열의 위치에 숫자를 쓰면 순서를 지정

8        David
7        Rahul
6     Jaqluine
5    Sebastian
Name: Name, dtype: object

In [45]:
df2.loc[9:5, ['Name', 'Score']] #열의 위치에 열 이름을 리스트 형태로 사용할 수 있음

Unnamed: 0,Name,Score
9,Andrew,92
8,David,44
7,Rahul,79
6,Jaqluine,76
5,Sebastian,72


In [46]:
df2.iloc[:, :2] #숫자를 이용한 순서를 사용하면서 슬라이싱이 가능

Unnamed: 0,Name,Age
11,Teresa,47
10,Ajay,51
9,Andrew,32
8,David,42
7,Rahul,33
6,Jaqluine,25
5,Sebastian,27
4,Rocky,31
3,Madonna,34
2,Cathrine,25


In [47]:
df2.loc[:, :'Age'] #열의 이름을 이용한 슬라이싱도 가능

Unnamed: 0,Name,Age
11,Teresa,47
10,Ajay,51
9,Andrew,32
8,David,42
7,Rahul,33
6,Jaqluine,25
5,Sebastian,27
4,Rocky,31
3,Madonna,34
2,Cathrine,25


### 4. 데이터 프레임 기본 함수
- 위 예에서 df는 데이터프레임을 가리키는 변수이다. 
- 데이터프레임은 보통 많은 수의 행을 갖고 있으므로, 간단하게 첫 몇 줄(보통은 다섯 줄)만 보고 싶다면 **head()** 함수 사용
- 마지막 몇 줄을 보고 싶다면 **tail()** 함수를 사용
- 괄호 안에 숫자를 쓰면 그 수만큼 행이 반환된다.

In [48]:
df

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,55
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,34,55
5,Sebastian,27,72
9,Andrew,32,92
8,David,42,44
0,Alisa,26,89
7,Rahul,33,79


In [49]:
df.head(10)

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,55
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,34,55
5,Sebastian,27,72
9,Andrew,32,92
8,David,42,44
0,Alisa,26,89
7,Rahul,33,79


In [50]:
df.tail(3)

Unnamed: 0,Name,Age,Score
7,Rahul,33,79
11,Teresa,47,69
10,Ajay,51,89


데이터프레임의 **shape** 속성은 행과 열의 수를 나타낸다.

In [51]:
df.shape

(12, 3)

**columns** 속성과 **tolist()** 함수를 이용하면 열의 이름들을 리스트로 반환할 수 있다.

In [52]:
df.columns.tolist()

['Name', 'Age', 'Score']

In [53]:
column_names = df.columns.tolist()

각 열에 대해 평균, 최소값 등의 다양한 통계량을 보고 싶다면 **describe()** 함수를 사용한다.

In [54]:
df.describe()

Unnamed: 0,Age,Score
count,12.0,12.0
mean,33.333333,72.833333
std,8.814588,15.537833
min,25.0,44.0
25%,26.75,64.0
50%,31.5,74.0
75%,36.0,87.5
max,51.0,92.0


#### 다양한 함수들
- **count()**: 값의 개수
- **min(), max()**: 원하는 열이나 전체 열의 최소값(최대값) 반환
- **sum()**: 합계
- **mean()**: 평균
- **median()**: 중앙값
- **var()**: 분산
- **std()**: 표준편차
- **argmin(), argmax()**: 최소값과 최대값이 있는 행의 정수 인덱스를 반환
- **idxmin(), idxmax()**: 최소값과 최대값이 있는 행의 인덱스 라벨을 반환


In [55]:
df.count()

Name     12
Age      12
Score    12
dtype: int64

In [56]:
df.min()

Name     Ajay
Age        25
Score      44
dtype: object

In [57]:
df.max() #각 열에 대해 최대값 반환

Name     Teresa
Age          51
Score        92
dtype: object

In [58]:
df['Age'].max() #Age 최대값

51

In [59]:
df['Score'].mean() #진 팀의 점수(Lscore) 평균

72.83333333333333

In [60]:
df

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,55
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,34,55
5,Sebastian,27,72
9,Andrew,32,92
8,David,42,44
0,Alisa,26,89
7,Rahul,33,79


나이가 최대인 행의 위치(index)를 알고 싶다면 아래와 같이 **argmax()** 혹은 **idxmax()** 함수를 사용한다.

In [61]:
print(df['Age'].argmax()) #나이가 가장 많은 사람의 정수 index
print(df['Age'].idxmax()) #나이가 가장 많은 사람의 index label

11
10


In [62]:
print(df['Age'].argmin()) 
print(df['Age'].idxmin()) 

2
6


In [63]:
df[df['Age'] == df['Age'].min()]

Unnamed: 0,Name,Age,Score
6,Jaqluine,25,76
2,Cathrine,25,67


In [64]:
df.loc[10] #반환된 index 값을 이용해 행 전체 값을 출력

Name     Ajay
Age        51
Score      89
Name: 10, dtype: object

In [65]:
df.loc[11] #argmax는 11, idxmax는 10, 즉 idxmax는 loc을 기준으로

Name     Teresa
Age          47
Score        69
Name: 11, dtype: object

In [66]:
df.iloc[11] #argmax는 iloc에 따라서

Name     Ajay
Age        51
Score      89
Name: 10, dtype: object

In [67]:
df.loc[df['Age'].idxmax()] #위 과정을 하나로 합침
# 즉 이긴 팀의 점수가 최대인 행의 내용

Name     Ajay
Age        51
Score      89
Name: 10, dtype: object

In [68]:
df['Age'].unique() #중복을 제거하고 유일한 값만 반환

array([27, 31, 25, 34, 32, 42, 26, 33, 47, 51], dtype=int64)

In [69]:
df.iloc[df['Age'].argmax()]

Name     Ajay
Age        51
Score      89
Name: 10, dtype: object

**value_counts()**: 매우 빈번하고 유용하게 쓰이는 함수
- 특정 열에 사용된 값들에 대해 횟수를 계산하여 보여준다. 
- 아래 예에서는 나이 별로 개수를 세서 나이와 도수(개수)로 보여준다.
- 도수 역순으로 정렬

In [70]:
df['Age'].value_counts() #연도별 행(게임)의 수

Age
27    2
25    2
31    1
34    1
32    1
42    1
26    1
33    1
47    1
51    1
Name: count, dtype: int64

### 5. 데이터프레임 값 추출의 다양한 방법

데이터프레임 변수에 열의 이름을 이용하여 인덱싱을 하면 특정 열의 값만을 추출할 수 있다. 이긴 팀의 점수만을 추출하고 싶다면 아래와 같이 인덱싱을 한다.

In [71]:
score = df['Score']
score.head() #갯수가 너무 많으므로 뒤에 head()함수를 써서 앞부분만 추출

1    87
4    55
6    76
2    67
3    55
Name: Score, dtype: int64

In [72]:
df.loc[[df['Score'].idxmax()]] # loc 안에 리스트 형태로 값을 줌

Unnamed: 0,Name,Age,Score
9,Andrew,32,92


위 결과와 아래 결과의 차이를 비교.

In [73]:
df.loc[df['Score'].idxmax()]

Name     Andrew
Age          32
Score        92
Name: 9, dtype: object

위 예에서 좀 더 나아가, 점수가 가장 사람의 나이를 알고 싶다면 아래와 같이 쓴다.

In [74]:
df.loc[df['Score'].idxmax()]

Name     Andrew
Age          32
Score        92
Name: 9, dtype: object

In [75]:
df.loc[df['Score'].idxmax()]['Name']

'Andrew'

아래와 같이 loc에 행과 열을 동시에 인덱싱하는 것도 가능하다.

In [76]:
df.loc[df['Score'].idxmax(), 'Name']

'Andrew'

- 출력되는 모양을 보면 데이터프레임인지 아니면 시리즈인지 알 수 있다. 
- 보다 명확하게 데이터형을 알고 싶다면 **type()** 함수를 써서 확인한다.

In [77]:
type(df.loc[[df['Score'].idxmax()]]['Age'])

pandas.core.series.Series

In [78]:
type(df.loc[[df['Score'].idxmax()]])

pandas.core.frame.DataFrame

### 정렬(Sorting)

- 점수에 따라 오름차순으로 정렬하고 싶다면 아래와 같이 **sort_values()** 함수를 사용한다.
- by 매개변수에 정렬 기준으로 사용할 열을 지정. 여러 개의 열을 지정할 수도 있음

In [79]:
df.sort_values(by='Score').head()

Unnamed: 0,Name,Age,Score
8,David,42,44
4,Rocky,31,55
3,Madonna,34,55
2,Cathrine,25,67
11,Teresa,47,69


In [80]:
df.sort_values(by=['Score', 'Age']).head()

Unnamed: 0,Name,Age,Score
8,David,42,44
4,Rocky,31,55
3,Madonna,34,55
2,Cathrine,25,67
11,Teresa,47,69


In [81]:
# 내림차순 정렬
df.sort_values(by='Score', ascending=False).head()

Unnamed: 0,Name,Age,Score
9,Andrew,32,92
0,Alisa,26,89
10,Ajay,51,89
1,Bobby,27,87
7,Rahul,33,79


### 6. 불리안 인덱싱을 이용한 추출
- 시리즈를 대상으로 불리언 벡터를 생성하는 연산 사용
- 불리안 인덱싱: 불리언 벡터를 이용한 인덱싱

점수가 80점 이상인 행만 추출하기 위한 두 단계

1. 먼저 df['Score'] >= 80 는 각 행에 대해 Score가 70보다 큰 지의 여부를 True/False Series로 반환한다.
2. 이 Series를 이용하여 df를 다음과 같이 인덱싱하면 시리즈에서 True인 행들만 추출할 수 있다: <br>
   **df[df['Score'] >= 80]**.

In [82]:
result = (df['Score'] >= 80)
print(type(result)) # 시리즈로 반환되는지 확인
result

<class 'pandas.core.series.Series'>


1      True
4     False
6     False
2     False
3     False
5     False
9      True
8     False
0      True
7     False
11    False
10     True
Name: Score, dtype: bool

In [83]:
df['Score'] >= 80

1      True
4     False
6     False
2     False
3     False
5     False
9      True
8     False
0      True
7     False
11    False
10     True
Name: Score, dtype: bool

In [84]:
df[result] #불리안 인덱싱을 이용해 True인 행만 추출

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
9,Andrew,32,92
0,Alisa,26,89
10,Ajay,51,89


In [85]:
df[df['Score'] >= 80] # 위 두 단계를 한번에 실행

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
9,Andrew,32,92
0,Alisa,26,89
10,Ajay,51,89


두가지 이상의 조건을 결합하여 부여할 수 있다.
- and: &
- or: |

In [86]:
df[(df['Score'] >= 80) & (df['Age'] < 30)]

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
0,Alisa,26,89


Alisa와 Bobby의 나이와 점수를 보고 싶다면?
- 시리즈의 isin() 함수를 사용

In [87]:
df[df['Name'].isin(['Alisa', 'Bobby']) ]

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
0,Alisa,26,89


### 기타 참고 사이트

* http://pandas.pydata.org/pandas-docs/stable/10min.html
* https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python
* http://www.gregreda.com/2013/10/26/intro-to-pandas-data-structures/
* https://www.dataquest.io/blog/pandas-python-tutorial/
* https://drive.google.com/file/d/0ByIrJAE4KMTtTUtiVExiUGVkRkE/view
* https://www.youtube.com/playlist?list=PL5-da3qGB5ICCsgW1MxlZ0Hq8LL5U3u9y