### 인덱싱
- 특정 요소 또는 열/행 선택 `df['열이름'], df.loc[행, 열], df.iloc[행, 열]`
- 인덱스 또는 라벨 기반
- 반환값 : 단일 값 또는 시리즈/데이터프레임


1. 열 인덱싱
- 단일 열 선택 : df['열이름']
- 여러 열 선택 : df['열1', '열2']

In [None]:
import pandas as pd

In [None]:
dict_data = {
    '산업군': ['제조업', '금융업', '의료업', '물류업', '교육업'],
    '기업수': [1200, 850, 430, 670, 310],
    '투자액': [3.2, 5.5, 4.1, 2.8, 1.9]
}
df = pd.DataFrame(dict_data)
df

Unnamed: 0,산업군,기업수,투자액
0,제조업,1200,3.2
1,금융업,850,5.5
2,의료업,430,4.1
3,물류업,670,2.8
4,교육업,310,1.9


In [None]:
# 데이터프레임에서 [] 는 열(column)을 가져오려는 동작
df['산업군']

Unnamed: 0,산업군
0,제조업
1,금융업
2,의료업
3,물류업
4,교육업


In [None]:
# 1개 열 인덱싱 결과
df_1 = df['산업군']
type(df_1)
# pandas.core.series.Series

In [None]:
# 열 다중 선택
df[['산업군', '투자액']]

Unnamed: 0,산업군,투자액
0,제조업,3.2
1,금융업,5.5
2,의료업,4.1
3,물류업,2.8
4,교육업,1.9


2. 행 인덱싱
- .loc[] : 라벨 기반 인덱싱(행, 컬럼의 이름으로 가져오기)
- .iloc[] : 정수 위치 기반 인덱싱(행, 컬럼의 인덱스로 가져오기)

In [None]:
# 인덱스 라벨 순서
df.sort_values(by='기업수', inplace=True)
df

Unnamed: 0,산업군,기업수,투자액
4,교육업,310,1.9
2,의료업,430,4.1
3,물류업,670,2.8
1,금융업,850,5.5
0,제조업,1200,3.2


In [None]:
df.loc[0]   # 인덱스 라벨이 0인 행

Unnamed: 0,0
산업군,제조업
기업수,1200
투자액,3.2


In [None]:
type(df.loc[0])
# 원래 열 리스트였던 것이 시리즈의 인덱스 라벨이 됨
# pandas.core.series.Series

In [None]:
df.iloc[0]    # 첫번째 행(정수 위치 0)

Unnamed: 0,4
산업군,교육업
기업수,310
투자액,1.9


- 행과 열 동시 인덱싱

In [None]:
df.loc[0, '투자액']        # 0번 행의 '투자액' 열

np.float64(3.2)

In [None]:
df.iloc[0, '투자액']       # iloc 는 위치를 나타내는 정수값만 사용할 수 있습니다.
# 오류 - 열 위치만 숫자로 지정할 수 있습니다.

In [None]:
df.iloc[0, 2]            # 첫 번째 행의 두 번째 열

np.float64(1.9)

In [None]:
# 다중 선택 인덱싱
df.loc[[0, 2], ['산업군', '기업수']]    # 0, 2번 행의 'name', 'age' 열

Unnamed: 0,산업군,기업수
0,제조업,1200
2,의료업,430


In [None]:
# df.iloc[[0, 2], ['산업군', '기업수']]   # 오류
df.iloc[[0, 2], [0,1]]    # 0, 2번 행의 0, 1번 열

Unnamed: 0,산업군,기업수
4,교육업,310
3,물류업,670


### 슬라이싱
- 연속된 범위의 데이터 -> `df.loc[]`
- 접근 범위 지정(start 포함, end 제외)
- 반환값 : 연속된 범위의 데이터 선택

In [None]:
df

Unnamed: 0,산업군,기업수,투자액
4,교육업,310,1.9
2,의료업,430,4.1
3,물류업,670,2.8
1,금융업,850,5.5
0,제조업,1200,3.2


1. 행 슬라이싱

In [None]:
df[0:3]

Unnamed: 0,산업군,기업수,투자액
4,교육업,310,1.9
2,의료업,430,4.1
3,물류업,670,2.8


In [None]:
# 라벨 2:4 가 연속적이 않아서 결과 value 없음.df.loc[2:4]
df.loc[2:4]

Unnamed: 0,산업군,기업수,투자액


In [None]:
df.loc[2:3]

Unnamed: 0,산업군,기업수,투자액
2,의료업,430,4.1
3,물류업,670,2.8


In [None]:
df.iloc[0:3]

Unnamed: 0,산업군,기업수,투자액
4,교육업,310,1.9
2,의료업,430,4.1
3,물류업,670,2.8


In [None]:
dict_data = {
    '산업군': ['제조업', '금융업', '의료업', '물류업', '교육업'],
    '기업수': [1200, 850, 430, 670, 310],
    '투자액': [3.2, 5.5, 4.1, 2.8, 1.9]
}
origin_df = pd.DataFrame(dict_data)

In [None]:
origin_df

Unnamed: 0,산업군,기업수,투자액
0,제조업,1200,3.2
1,금융업,850,5.5
2,의료업,430,4.1
3,물류업,670,2.8
4,교육업,310,1.9


In [None]:
origin_df.loc[2:4]    # 라벨 4를 포함

Unnamed: 0,산업군,기업수,투자액
2,의료업,430,4.1
3,물류업,670,2.8
4,교육업,310,1.9


In [None]:
origin_df.iloc[2:4]   # 인덱스 위치 4는 미포함

Unnamed: 0,산업군,기업수,투자액
2,의료업,430,4.1
3,물류업,670,2.8


2. 열 슬라이싱
- 행을 같이 지정해야 함

In [None]:
# origin_df['산업군':'투자액']    # 오류: 2차원에서 행을 빼고 열만 지정은 안됨.
origin_df.loc[:,'기업수':'투자액']    # '산업군':'투자액'  또는 '산업군':'기업수'

Unnamed: 0,기업수,투자액
0,1200,3.2
1,850,5.5
2,430,4.1
3,670,2.8
4,310,1.9


3. 행과 열 범위로 슬라이싱

In [None]:
df

Unnamed: 0,산업군,기업수,투자액
4,교육업,310,1.9
2,의료업,430,4.1
3,물류업,670,2.8
1,금융업,850,5.5
0,제조업,1200,3.2


In [None]:
# 라벨 2:4 가 연속적이 않아서 결과 행 value 없음.
# 열은 '기업수', '투자액' 로 슬라이싱
df.loc[2:4,'기업수':'투자액']

Unnamed: 0,기업수,투자액


In [None]:
# loc
df.loc[2:3,'기업수':'투자액']

Unnamed: 0,기업수,투자액
2,430,4.1
3,670,2.8


In [None]:
origin_df.loc[1:3,'기업수':'투자액']

Unnamed: 0,기업수,투자액
1,850,5.5
2,430,4.1
3,670,2.8


In [None]:
# iloc
origin_df.iloc[1:3,0:2]

Unnamed: 0,산업군,기업수
1,금융업,850
2,의료업,430


In [None]:
# 참고 : 넘파이 행렬(2차원)

# 1️⃣인덱싱 : ndarr2d[row_index, col_index]  또는
#             ndarr2d[row_index], ndarr2d[:, col_index]
# 2️⃣슬라이싱 : ndarr2d[row_start:row_end:row_step, col_start:col_end:col_step]
#              ndarr2d[row_start:row_end:row_step]  -> 열은 모든것
#              ndarr2d[:, col_start:col_end:col_step]
# 3️⃣ 인덱싱과 슬라이싱 혼합
# ndarr2d[0, :]	 첫 번째 행 전체
#  ↪ 0 은 인덱싱, : 은 슬라이싱(아무값도 없으면 전체)   => 2가지 동작이 혼합

# 데이터 프레임과 넘파이 비교
#   행을 포함 지정은 loc 또는 iloc 사용
#   열만 지정은 df['열이름'] 가능 (인덱싱에만.)

### boolean 인덱싱(조건 인덱싱)

In [None]:
df

Unnamed: 0,산업군,기업수,투자액
4,교육업,310,1.9
2,의료업,430,4.1
3,물류업,670,2.8
1,금융업,850,5.5
0,제조업,1200,3.2


In [None]:
# 행 인덱싱
df['기업수'] >= 500

Unnamed: 0,기업수
4,False
2,False
3,True
1,True
0,True


In [None]:
# boolean 으로도 인덱싱 가능
# True 인 부분만 가져옴
df[[False, False, True, True, True]]

Unnamed: 0,산업군,기업수,투자액
3,물류업,670,2.8
1,금융업,850,5.5
0,제조업,1200,3.2


In [None]:
df[df['기업수'] >= 500]

Unnamed: 0,산업군,기업수,투자액
3,물류업,670,2.8
1,금융업,850,5.5
0,제조업,1200,3.2


In [None]:
# 위의 결과에 대해 특정 컬럼 인덱싱
df[[False, False, True, True, True]]['산업군']

Unnamed: 0,산업군
3,물류업
1,금융업
0,제조업


In [None]:
df[df['기업수']>=500]['산업군']

Unnamed: 0,산업군
3,물류업
1,금융업
0,제조업


In [None]:
# df[df['기업수']>=400]['산업군','투자액']   # 오류. 💥다중 선택은 리스트로 지정하기
df[df['기업수']>=400][['산업군','투자액']]

Unnamed: 0,산업군,투자액
2,의료업,4.1
3,물류업,2.8
1,금융업,5.5
0,제조업,3.2


### 인덱스 변경
- `df.reset_index()`
  - 기존 인덱스를 제거하고 기본 숫자 인덱스 (0,1,2, ...) 로 재설정합니다.
  - 제거된 인덱스는 새로운 열로 추가됩니다.(기본 동작)
- 속성(옵션)
  - drop : 기존 인덱스를 열로 추가할지 여부 (True 면 삭제). 기본값 => False
  - name : drop 이 False 일 때, 인덱스 컬럼의 이름
  - inplace : 원본 DataFrame 을 직접 수정할지 여부. 기본값 => False
  - level : MultiIndex 일 경우 제거할 인덱스의 레벨 지정 모든 레벨

In [None]:
list_data = [[1200,3.2],
        [850,5.5],
        [430,4.1],
        [670,2.8],
        [310,1.9]]
industry =  ['제조업', '금융업', '의료업', '물류업', '교육업']
df2 = pd.DataFrame(list_data, columns=['도입 기업 수','평균 투자액'],index=industry)
df2

Unnamed: 0,도입 기업 수,평균 투자액
제조업,1200,3.2
금융업,850,5.5
의료업,430,4.1
물류업,670,2.8
교육업,310,1.9


In [None]:
# 기존 라벨 제거
# df2.reset_index()
df2.reset_index(drop=False, inplace=False)   # 속성의 기본값

Unnamed: 0,index,도입 기업 수,평균 투자액
0,제조업,1200,3.2
1,금융업,850,5.5
2,의료업,430,4.1
3,물류업,670,2.8
4,교육업,310,1.9


In [None]:
# inplace=False 로 하면 원래 df 변경없음
df2

Unnamed: 0,도입 기업 수,평균 투자액
제조업,1200,3.2
금융업,850,5.5
의료업,430,4.1
물류업,670,2.8
교육업,310,1.9


In [None]:
# drop=True : 기존 인덱스 레이블 모두 삭제
df2.reset_index(drop=True, inplace=True)

In [None]:
df2

Unnamed: 0,도입 기업 수,평균 투자액
0,1200,3.2
1,850,5.5
2,430,4.1
3,670,2.8
4,310,1.9


In [None]:
list_data = [[1200,3.2],
        [850,5.5],
        [430,4.1],
        [670,2.8],
        [310,1.9]]
industry =  ['제조업', '금융업', '의료업', '물류업', '교육업']
df2 = pd.DataFrame(list_data, columns=['도입 기업 수','평균 투자액'],index=industry)
df2

Unnamed: 0,도입 기업 수,평균 투자액
제조업,1200,3.2
금융업,850,5.5
의료업,430,4.1
물류업,670,2.8
교육업,310,1.9


In [None]:
df_copy=df2.copy()
df_copy

Unnamed: 0,도입 기업 수,평균 투자액
제조업,1200,3.2
금융업,850,5.5
의료업,430,4.1
물류업,670,2.8
교육업,310,1.9


In [None]:
# inplace=True : df_copy 변경
df_copy.reset_index(names='산업군',inplace=True)
df_copy

Unnamed: 0,산업군,도입 기업 수,평균 투자액
0,제조업,1200,3.2
1,금융업,850,5.5
2,의료업,430,4.1
3,물류업,670,2.8
4,교육업,310,1.9


In [None]:
# 퀴즈 : df_copy 를 '산업군' 컬럼으로 정렬하고 인덱스 새로 부여하기
#   결과를 df_copy 에 반영하기

In [None]:
df_copy.sort_values(by='산업군',inplace=True)
df_copy

Unnamed: 0,산업군,도입 기업 수,평균 투자액
4,교육업,310,1.9
1,금융업,850,5.5
3,물류업,670,2.8
2,의료업,430,4.1
0,제조업,1200,3.2


In [None]:
df_copy.reset_index(drop=True, inplace=True)
df_copy

Unnamed: 0,산업군,도입 기업 수,평균 투자액
0,교육업,310,1.9
1,금융업,850,5.5
2,물류업,670,2.8
3,의료업,430,4.1
4,제조업,1200,3.2


- 위의 2개  명령어를 아래와 같을 df_copy 에서 한번에 하려면 ?

In [None]:
df_copy=df2.copy()
df_copy

Unnamed: 0,도입 기업 수,평균 투자액
제조업,1200,3.2
금융업,850,5.5
의료업,430,4.1
물류업,670,2.8
교육업,310,1.9


In [None]:
df_copy.sort_index().reset_index(names='산업군')

Unnamed: 0,산업군,도입 기업 수,평균 투자액
0,교육업,310,1.9
1,금융업,850,5.5
2,물류업,670,2.8
3,의료업,430,4.1
4,제조업,1200,3.2


In [None]:
df_copy

Unnamed: 0,도입 기업 수,평균 투자액
제조업,1200,3.2
금융업,850,5.5
의료업,430,4.1
물류업,670,2.8
교육업,310,1.9
