# ch06. 인덱스 정렬

- 복수의 Series나 DataFrame이 어떤 방식으로 병합되면 연산이 일어나기 전에 먼저 데이터의 각 차원은 축을 따라 자동으로 정렬된다.
- 축에 대한 이 묵시적이고 자동적인 정렬은 초보자들에게는 많은 혼란을 줄 수 있지만, 숙련자에게는 커다란 유연성을 부여한다.
- 이 장에서는 자동 정렬의 장점에 대해 알아보기 전에 인덱스 객체에 대해 알아본다.

In [2]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

## 1.인덱스 객체 조사

- Series와 DataFrame의 각 축은 데이터의 값 값에 레이블을 부여하는 인덱스 객체를 갖고 있다.
- 인덱스 객체에는 여러 형식이 있지만 모두 동일하게 작동한다.
- 특별한 다중 인덱스를 제외한 모든 인덱스 객체는 파이썬의 집합과 NumPy ndarray의 기능이 합쳐져 있는 단일 차원 데이터 구조를 가진다.

- 대학 데이터셋을 읽어 들인 후 col 인덱스를 변수에 대합하고 값을 출력해본자.

In [3]:
college = pd.read_csv('../data/college.csv')

In [6]:
columns = college.columns

In [7]:
columns

Index(['INSTNM', 'CITY', 'STABBR', 'HBCU', 'MENONLY', 'WOMENONLY', 'RELAFFIL',
       'SATVRMID', 'SATMTMID', 'DISTANCEONLY', 'UGDS', 'UGDS_WHITE',
       'UGDS_BLACK', 'UGDS_HISP', 'UGDS_ASIAN', 'UGDS_AIAN', 'UGDS_NHPI',
       'UGDS_2MOR', 'UGDS_NRA', 'UGDS_UNKN', 'PPTUG_EF', 'CURROPER', 'PCTPELL',
       'PCTFLOAN', 'UG25ABV', 'MD_EARN_WNE_P10', 'GRAD_DEBT_MDN_SUPP'],
      dtype='object')

In [8]:
columns.values

array(['INSTNM', 'CITY', 'STABBR', 'HBCU', 'MENONLY', 'WOMENONLY',
       'RELAFFIL', 'SATVRMID', 'SATMTMID', 'DISTANCEONLY', 'UGDS',
       'UGDS_WHITE', 'UGDS_BLACK', 'UGDS_HISP', 'UGDS_ASIAN', 'UGDS_AIAN',
       'UGDS_NHPI', 'UGDS_2MOR', 'UGDS_NRA', 'UGDS_UNKN', 'PPTUG_EF',
       'CURROPER', 'PCTPELL', 'PCTFLOAN', 'UG25ABV', 'MD_EARN_WNE_P10',
       'GRAD_DEBT_MDN_SUPP'], dtype=object)

In [9]:
columns[5]

'WOMENONLY'

In [10]:
columns[[1, 2, 3, 10]]

Index(['CITY', 'STABBR', 'HBCU', 'UGDS'], dtype='object')

In [11]:
columns[-3:-1]

Index(['UG25ABV', 'MD_EARN_WNE_P10'], dtype='object')

- 인덱스에는 Series와 DataFrame에 있는 많은 메서드가 그대로 구현되어 있다.

In [12]:
columns.min()

'CITY'

In [13]:
columns.max()

'WOMENONLY'

In [14]:
columns.isnull().sum()

0

- 기본적인 산술 계산과 비교 연산을 Index 객체에 바로 사용할 수 있다.

In [15]:
columns + '_A'

Index(['INSTNM_A', 'CITY_A', 'STABBR_A', 'HBCU_A', 'MENONLY_A', 'WOMENONLY_A',
       'RELAFFIL_A', 'SATVRMID_A', 'SATMTMID_A', 'DISTANCEONLY_A', 'UGDS_A',
       'UGDS_WHITE_A', 'UGDS_BLACK_A', 'UGDS_HISP_A', 'UGDS_ASIAN_A',
       'UGDS_AIAN_A', 'UGDS_NHPI_A', 'UGDS_2MOR_A', 'UGDS_NRA_A',
       'UGDS_UNKN_A', 'PPTUG_EF_A', 'CURROPER_A', 'PCTPELL_A', 'PCTFLOAN_A',
       'UG25ABV_A', 'MD_EARN_WNE_P10_A', 'GRAD_DEBT_MDN_SUPP_A'],
      dtype='object')

In [16]:
columns > 'G'

array([ True, False,  True,  True,  True,  True,  True,  True,  True,
       False,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True, False,  True,  True,  True,  True,  True])

- Index는 불변 객체다.

In [18]:
# columns[1] = 'INDEX'
# TypeError: Index does not support mutable operations


## 2.카티션 곱 생성
## 3.인덱스 폭발
## 4.서로 다른 인덱스에 값 채우기
## 5.다른 DataFrame의 col 추가
## 6.각 col로부터 최대값 하이라이트
## 7.메서드 체인을 활용한 idxmax 복제
## 8.가장 보편적인 최대값 검색