Source : 파이썬 머신러닝 완벽 가이드(권철민, 위키북스)

# Data Handling - Pandas  
> **Pandas**  
파이썬에서 데이터 핸들링을 가능하게 해주는 가장 인기 있는 라이브러리

> **DataFrame**  
DataFrame은 Pandas의 핵심 객체, DataFrame은 여러 개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체

> **Index**  
RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key 값

> **Series**  
칼럼이 하나뿐인 데이터 구조체  
(cf) DataFrame은 칼럼이 여러 개인 데이터 구조체

## 5. Index 객체  
DataFrame, Series에서 레코드를 고유하게 식별하는 객체  
식별성 데이터를 1차원 array로 가지고 있음  
인덱싱, 슬라이싱은 가능하지만 Index는 오직 식별용으로만 사용되기 때문에 객체의 값을 변경할 수 없고, 연산 함수를 적용할 때 연산에서 제외됨


- **DataFrame.index**  
: DataFrame의 index 객체만 추출   

- **Series.index**  
: Series의 index 객체만 추출  

- **DataFrame.reset_index()**  
: 새롭게 인덱스를 연속 숫자형으로 할당함, 기존 인덱스는 'index'라는 새로운 칼럼 명으로 추가함  

- **Series.reset_index()**  
: 기존 index가 칼럼으로 추가돼 칼럼이 2개가 되므로 Series가 아닌 DataFrame이 반환됨   

*reset_index의 파라미터 중 drop=True로 설정하면 기존 인덱스는 새로운 칼럼으로 추가되지 않고 삭제(drop)됨*  
*reset_index()는 인덱스가 연속된 int 숫자형 데이터가 아닐 경우에 다시 이를 연속 int 숫자형 데이터로 만들 때 주로 사용함*  


In [None]:
import pandas as pd

#원본 파일 다시 로딩
titanic_df = pd.read_csv('titanic_train.csv')

#index 객체 추출
indexes = titanic_df.index
print(indexes)

#index 객체를 실제 값 array로 변환
print('Index 객체 array값:\n', indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232

In [None]:
# Index 객체는 식별성 데이터를 1차원 array로 갖고 있으므로 ndarray와 유사한 기능을 제공함
print(type(indexes.values))
print(indexes.values.shape)

# 슬라이싱 가능
print(indexes[:5].values)
print(indexes.values[:5])

# 인덱싱 가능
print(indexes[6]) 

# indexes[0]=5 에러 발생 : 한 번 만들어진 Index 객체는 함부로 변경할 수 없음

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [None]:
# Series 객체에 연산 함수를 적용할 때 Index는 연산에서 제외됨, Index는 오직 식별용으로만 사용됨
series_fair = titanic_df['Fare']
print('Fair Series max값: ', series_fair.max())
print('Fair Series sum값: ', series_fair.sum())
print('sum() Fair Series: ', sum(series_fair))
print('Fair Series + 3:\n', (series_fair+3).head(3))

Fair Series max값:  512.3292
Fair Series sum값:  28693.9493
sum() Fair Series:  28693.949299999967
Fair Series + 3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


In [None]:
# reset_index() : 새롭게 인덱스를 연속 숫자 형으로 할당
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [None]:
# Pclass 칼럼 Series의 value_counts() 수행 시 'Pclass' 고유 값이 식별자 인덱스 역할을 함, 이를 연속 숫자형 인덱스로 만들기 위해 reset_index() 사용
print('###before reset_index###')
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)
print('value_counts 객체 변수 타입: ', type(value_counts))

new_value_counts = value_counts.reset_index(inplace=False)
print('###after reset_index###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입: ', type(new_value_counts))

###before reset_index###
3    491
1    216
2    184
Name: Pclass, dtype: int64
value_counts 객체 변수 타입:  <class 'pandas.core.series.Series'>
###after reset_index###
   index  Pclass
0      3     491
1      1     216
2      2     184
new_value_counts 객체 변수 타입:  <class 'pandas.core.frame.DataFrame'>
