# Index 객체
- 한 번 만들어진 DF 및 Series의 Index 객체는 함부로 변경 불가
- Series 객체는 Index 객체를 포함하지만 Series 객체에 연산 함수를 적용할 때 Index는 연산에서 제외됌
- Index는 오직 식별용으로만 사용된다

In [1]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv(r'C:\Users\Administrator\DS_Python\data\titanic\train.csv')

In [4]:
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [6]:
indexes = df.index # 인덱스 객체 추출
print(indexes)
print('Index 객체 array값:\n', indexes.values)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232

In [8]:
print(type(indexes.values))
print(indexes.values.shape)
print(indexes[:5].values)
print(indexes.values[:5])
print(indexes[6])

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [9]:
series_fair = df['Fare']
print('Fair Series max 값:', series_fair.max())
print('Fair Series sum 값:', series_fair.sum())
print('sum() Fair Series:', sum(series_fair))
print('Fair Series + 3:\n', (series_fair + 3).head(3))

Fair Series max 값: 512.3292
Fair Series sum 값: 28693.9493
sum() Fair Series: 28693.949299999967
Fair Series + 3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


- reset_index() 메서드를 수행하면 새롭게 인덱스를 연속 숫자형으로 할당하며 기존 인덱스는 'index'라는 새로운 컬럼명으로 추가함
- 인덱스가 연속된 int 숫자형 데이터가 아닐 경우에 주로 사용
- reset_index()의 파라메터 중 drop=True로 설정하면 기존 인덱스는 신규 컬럼으로 추가되지 않고 drop 됌
  > 이 경우 새로운 컬럼으로 추가되지 않으므로 그대로 Series로 유지
- 주의 : Series에 reset_index()를 적용하면 Series가 아닌 DataFrame이 반환되니 주의

In [13]:
reset_df = df.reset_index(inplace=False)
reset_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [16]:
print('### before reset_index ###')
value_counts = df['Pclass'].value_counts()
print(value_counts)
print('value_counts 객체 변수 타입:', type(value_counts))
new_value_counts = value_counts.reset_index(inplace=False)    

print('\n### After reset_index ###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입:', type(new_value_counts))

### before reset_index ###
3    491
1    216
2    184
Name: Pclass, dtype: int64
value_counts 객체 변수 타입: <class 'pandas.core.series.Series'>

### After reset_index ###
   index  Pclass
0      3     491
1      1     216
2      2     184
new_value_counts 객체 변수 타입: <class 'pandas.core.frame.DataFrame'>


## 데이터 셀렉션 및 필터링
- Pandas vs Numpy 헷갈리므로 주의
  - Numpy : [] 연산자 내 단일 값 추출, 슬라이싱, 팬시 인덱싱, 불린 인덱싱을 통해 데이터 추출
  - Pandas : ix[], iloc[], loc[] 연산자를 통해 동일 작업 수행

In [17]:
print('단일 컬럼 데이터 추출:\n', df['Pclass'].head(3))

단일 컬럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64


In [19]:
print('여러 컬럼의 데이터 추출:\n', df[['Survived','Pclass']].head(3))

여러 컬럼의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3


In [20]:
print('[]안에 숫자 index는 keyError 오류 발생:\n', df[0])

KeyError: 0

In [21]:
# 단일 숫자는 안되지만 Pandas의 인덱스 형태로 변환 가능한 표현식은 []에 입력 가능
df[0:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [22]:
# [] 내 불린 인덱싱 기능은 사용 가능
df[df['Pclass'] == 3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### DataFrame[ ] 혼돈 방지 가이드
- DF 바로 뒤의 []연산자는 numpy[]와 Series[]가 다르다.
- DF 바로 뒤의 [] 내 입력값은 컬럼명 or 컬럼의 리스트를 지정해 사용하거나 불린 인덱스 용도로만 사용해야함
- DataFrame[0:3]과 같은 슬라이싱 연산으로 데이터를 추출하는 방법은 비추

- loc[] : 컬럼 명칭 기반 인덱싱 연산자
- iloc[] : 컬럼 위치 기반 인덱싱 연산자