Source : 파이썬 머신러닝 완벽 가이드(권철민, 위키북스)

# Data Handling - Pandas  
> **Pandas**  
파이썬에서 데이터 핸들링을 가능하게 해주는 가장 인기 있는 라이브러리

> **DataFrame**  
DataFrame은 Pandas의 핵심 객체, DataFrame은 여러 개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체

> **Index**  
RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key 값

> **Series**  
칼럼이 하나뿐인 데이터 구조체  
(cf) DataFrame은 칼럼이 여러 개인 데이터 구조체

## 3. DataFrame의 칼럼 데이터 세트 생성과 수정  

- **DataFrame['칼럼명']**  
: Series 형태로 특정 칼럼 데이터 세트가 반환됨  

*DataFrame['칼럼명']=0과 같이 Series에 상숫값을 할당하면 Series의 모든 데이터 세트에 일괄적으로 적용됨*. 

In [None]:
# Titanic DataFrame 준비
import pandas as pd
import numpy as np

titanic_df = pd.read_csv('titanic_train.csv')

# 새로운 칼럼 Age_0을 추가하고 일괄적으로 0 값을 할당하기
titanic_df['Age_0'] = 0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [None]:
# 기존 칼럼 Series를 가공해 새로운 칼럼 Series인 Age_by_10과 Family_No를 추가하기
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [None]:
# 기존 칼럼 'Age_by_10'값을 일괄적으로 기존 값 + 100으로 업데이트하기
titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


## 4. DataFrame 데이터 삭제 

- **DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')**  

  *가장 중요한 파라미터 : labels, axis, inplace*  
  - **axis=0 : 로우 방향 축**  
  - **axis=1 : 칼럼 방향 축**  
(예) drop('칼럼명', axis=1) : 지정된 칼럼을 드롭  
주로 칼럼을 드롭하므로 axis=1로 설정함  
(예) drop(index, axis=0) : 로우 레벨로 삭제, axis=0으로 설정하면 labels에 오는 값을 인덱스로 간주함  
이상치 데이터를 삭제하는 경우에 주로 사용  
  - **inplace=False** : Default값, 원본 DataFrame의 데이터는 삭제하지 않으며, 삭제된 결과 DataFrame을 반환  
  - **inplace=True** : 원본 DataFrame의 데이터를 삭제하고 drop된 결과를 적용함, 단, 반환 값은 None이므로 반환 값을 다시 자신의 DataFrame 객체로 할당하면 안 됨!  
  - **labels** : 여러 개의 칼럼 삭제 시 삭제하고 싶은 칼럼명을 리스트 형태로 입력하고 labels 파라미터로 입력함  

In [None]:
# Age_0 칼럼을 삭제
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [None]:
# 원본 DataFrame 확인
titanic_df.head(3) 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


In [None]:
# 'Age_0', 'Age_by_10', 'Family_No' 3개의 칼럼 삭제하기
drop_titanic_df = titanic_df.drop(['Age_0', 'Age_by_10', 'Family_No'], axis=1, inplace=True)
print('inplace=True로 drop 후 반환된 값: ', drop_titanic_df)

inplace=True로 drop 후 반환된 값:  None


In [None]:
# 원본 DataFrame 확인
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [None]:
# axis=0으로 설정해 index 0, 1, 2(맨 앞 3개 데이터) 로우 삭제하기
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)

print('###before axis 0 drop###')
print(titanic_df.head(3))

# axis 0 drop
titanic_df.drop([0,1,2], axis=0, inplace=True) 

print('### after axis 0 drop###')
print(titanic_df.head(3))

###before axis 0 drop###
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S

[3 rows x 12 columns]
### after axis 0 drop###
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S
5            6         0       3  ...   8.4583   NaN         Q

[3 rows x 12 columns]
