Source : 파이썬 머신러닝 완벽 가이드(권철민, 위키북스)

# Data Handling - Pandas  
> **Pandas**  
파이썬에서 데이터 핸들링을 가능하게 해주는 가장 인기 있는 라이브러리

> **DataFrame**  
DataFrame은 Pandas의 핵심 객체, DataFrame은 여러 개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체

> **Index**  
RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key 값

> **Series**  
칼럼이 하나뿐인 데이터 구조체  
(cf) DataFrame은 칼럼이 여러 개인 데이터 구조체

## 5. Data Selection & Filtering  


### 5-1. DataFrame의 [] 연산자  
- **DataFrame[]에 있는 []는 칼럼만 지정할 수 있는 '칼럼 지정 연산자'**  
- DataFrame[] 안에 숫자 index는 KeyError 오류 발생  
- DataFrame[] 안에 슬라이싱 표현 가능  
단, 사용을 권장하지는 않음  
- **DataFrame[] 안에 불린 인덱싱 표현 가능**  


In [None]:
# DataFrame 다시 로드
import pandas as pd

titanic_df = pd.read_csv('titanic_train.csv')

# DataFrame['칼럼명'] : 단일 칼럼 데이터 추출
print('단일 칼럼 데이터 추출:\n', titanic_df['Pclass'].head(3))

# DataFrame[['칼럼명1', '칼럼명2', ...]] : 여러 칼럼 데이터 추출
print('\n여러 칼럼 데이터 추출:\n', titanic_df[['Survived', 'Pclass']].head(3))

# DataFame[] 안에 숫자 index는 KeyError 오류 발생
#titanic_df[0]

단일 칼럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

여러 칼럼 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3


In [None]:
# DataFrame[] 안에 슬라이싱 표현 가능
titanic_df[0:3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [None]:
# DataFrame[] 안에 불린 인덱싱 표현 가능
# Pclass 칼럼 값이 3인 데이터 3개 추출
titanic_df[titanic_df['Pclass'] == 3].head(3) 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### 5-2. DataFrame의 ix[ ] 연산자  
ix[] 연산자는 칼럼 명칭(label) 기반 인덱싱과 칼럼 위치(position) 기반 인덱싱 기능을 모두 제공하면서 코드가 혼돈을 주거나 가독성이 떨어지면서 현재는 Pandas에서 사라지게(deprecated) 됨



### 5-3. 명칭(label) 기반 인덱싱과 위치(position) 기반 인덱싱의 구분  
- 명칭(label) 기반 인덱싱 : 칼럼의 명칭을 기반으로 위치를 지정하는 방식  
- 위치(position) 기반 인덱싱 : 0을 출발점으로 하는 가로축, 세로축 좌표 기반의 행과 열 위치를 기반으로 데이터를 지정하는 방식, 행과 열 값으로 정수가 입력됨  

- **DataFrame의 인덱스값은 명칭 기반 인덱싱이라고 간주**

### 5-4. DataFrame iloc[] 연산자  
- **iloc[]은 위치 기반 인덱싱만 허용**  
: 행과 열 값으로 integer 또는 integer 형의 슬라이싱, 팬시 리스트 값을 입력  

*불린 인덱싱은 제공하지 않음*

In [None]:
# 간단한 DataFrame 생성
data = {'Name': ['Chulmin', 'Eunkyung', 'Jinwoong', 'Soobeom'],
        'Year': [2011, 2016, 2015, 2015],
        'Gender': ['Male', 'Female', 'Male', 'Male']
       }
data_df = pd.DataFrame(data, index=['one', 'two', 'three', 'four'])
data_df

Unnamed: 0,Name,Year,Gender
one,Chulmin,2011,Male
two,Eunkyung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


In [None]:
# data_df에 reset_index()로 새로운 숫자형 인덱스를 생성
data_df_reset = data_df.reset_index()
data_df_reset = data_df_reset.rename(columns={'index':'old_index'})
data_df_reset

Unnamed: 0,old_index,Name,Year,Gender
0,one,Chulmin,2011,Male
1,two,Eunkyung,2016,Female
2,three,Jinwoong,2015,Male
3,four,Soobeom,2015,Male


In [None]:
# 인덱스 값에 1을 더해서 1부터 시작하는 새로운 인덱스값 생성
data_df_reset.index = data_df_reset.index + 1
data_df_reset

Unnamed: 0,old_index,Name,Year,Gender
1,one,Chulmin,2011,Male
2,two,Eunkyung,2016,Female
3,three,Jinwoong,2015,Male
4,four,Soobeom,2015,Male


In [None]:
# data_df의 첫 번째 행, 첫 번째 열의 데이터를 추출
data_df.iloc[0, 0]

'Chulmin'

In [None]:
# iloc[]에 위치 인덱싱이 아닌 명칭을 입력하면 오류 발생
#data_df.iloc[0, 'Name']
#data_df.iloc['one', 0]

In [None]:
# data_df_reset의 첫 번째 행, 두 번째 열의 데이터를 추출
data_df_reset.iloc[0, 1]

'Chulmin'

### 5-5. DataFrame loc[] 연산자  
- **loc[]은 명칭 기반으로 데이터를 추출**  
: 행 위치에는 DataFrame index 값을, 열 위치에는 칼럼 명을 입력  

***loc[]에 슬라이싱 기호 `:`를 적용하여 `시작 값:종료 값`을 입력하면 시작 값부터 종료 값을 포함한 위치에 있는 데이터를 반환함***  
: 명칭 기반 인덱싱의 특성 때문(명칭은 숫자 형이 아닐 수도 있기 때문에 -1을 할 수가 없음)

In [None]:
# 인덱스 값이 'one'인 행의 칼럼 명이 'Name'인 데이터 추출
data_df.loc['one', 'Name']

'Chulmin'

In [None]:
# data_df_reset에 인덱스 값이 1인 행의 칼럼 명이 'Name'인 데이터 추출
data_df_reset.loc[1, 'Name']

'Chulmin'

In [None]:
# data_df_reset의 인덱스 값에 0을 입력하면 오류 발생
#data_df_reset.loc[0, 'Name']

In [None]:
# 명칭 기반 인덱싱과 위치 기반 인덱싱에서 슬라이싱을 적용할 때의 차이
print('위치 기반 iloc slicing:\n', data_df.iloc[0:1, 0], '\n')
print('명칭 기반 loc slicing:\n', data_df.loc['one':'two', 'Name'])

위치 기반 iloc slicing:
 one    Chulmin
Name: Name, dtype: object 

명칭 기반 loc slicing:
 one     Chulmin
two    Eunkyung
Name: Name, dtype: object


In [None]:
# DataFrame의 인덱스가 정수형이면 loc[]를 이용할 때 조심해야 함
data_df_reset.loc[1:2, 'Name']

1     Chulmin
2    Eunkyung
Name: Name, dtype: object

### 5-6. 불린 인덱싱  
불린 인덱싱으로 가져올 값을 조건으로 입력하면 자동으로 원하는 값을 필터링함  
[], ix[], loc[]에서 지원  

- 여러 개의 복합 조건을 결합해 적용하기  
1. and 조건일 때는 &  
2. or 조건일 때는 |  
3. Not 조건일 때는 ~  


In [None]:
# 타이타닉 데이터 세트를 DataFrame으로 로드하고, 승객 중 나이(Age)가 60세 이상인 데이터 추출
titanic_df = pd.read_csv("titanic_train.csv")
titanic_boolean = titanic_df[titanic_df['Age'] >= 60]
print(type(titanic_boolean))
titanic_boolean

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. William Thomas",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
366,367,1,1,"Warren, Mrs. Frank Manley (Anna Sophia Atkinson)",female,60.0,1,0,110813,75.25,D37,C


In [None]:
# 60세 이상인 승객의 이름과 나이만 추출
titanic_df[titanic_df['Age'] >= 60][['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0


In [None]:
# loc을 이용해 동일한 결과 출력
titanic_df.loc[titanic_df['Age'] >= 60, ['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0


In [None]:
# 나이가 60세 이상이고, 선실 등급이 1등급이며, 성별이 여성인 승객 추출 : 개별 조건을 ()로 묶고, 복합 조건 연산자를 사용
titanic_df[(titanic_df['Age'] >= 60) & (titanic_df['Pclass'] == 1) & (titanic_df['Sex'] == 'female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
366,367,1,1,"Warren, Mrs. Frank Manley (Anna Sophia Atkinson)",female,60.0,1,0,110813,75.25,D37,C
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


In [None]:
# 개별 조건을 변수에 할당하고 이들 변수를 결합해서 불린 인덱싱 수행하기
cond1 = titanic_df['Age'] >= 60
cond2 = titanic_df['Pclass'] == 1
cond3 = titanic_df['Sex'] == 'female'

titanic_df[cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
366,367,1,1,"Warren, Mrs. Frank Manley (Anna Sophia Atkinson)",female,60.0,1,0,110813,75.25,D37,C
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,
