
<a href='https://github.com/SeWonKwon' ><div> <img src ='https://slid-capture.s3.ap-northeast-2.amazonaws.com/public/image_upload/6556674324ed41a289a354258718280d/964e5a8b-75ad-41fc-ae75-0ca66d06fbc7.png' align='left' /> </div></a>


# index & column how to manipulate

In [1]:
import pandas as pd
import numpy as np

## 행(row) index / columns 설정

>pd.DataFrame( 2차원배열,  index = 행 인덱스 배열(default=integer position),  columns= 열 이름 배열 )

In [2]:
df = pd.DataFrame([[14,'남','목동'],[16,'여','성수동']]
                  , index = ['김씨','박씨']
                  , columns=['나이','성별','거주지'])

print(df.index)
print(df.columns)
df


Index(['김씨', '박씨'], dtype='object')
Index(['나이', '성별', '거주지'], dtype='object')


Unnamed: 0,나이,성별,거주지
김씨,14,남,목동
박씨,16,여,성수동


## 새로운 인덱스와 컬럼명 지정해주기 ( by df.index, df.columns)

In [3]:
# 인덱스 바꾸기
print(df.index)
df.index = ['김철수','박미정']
df.index

Index(['김씨', '박씨'], dtype='object')


Index(['김철수', '박미정'], dtype='object')

In [4]:
# 컬럼명 지정해주기
print(df.columns)
df.columns = ['age','sex','address']
df.columns

Index(['나이', '성별', '거주지'], dtype='object')


Index(['age', 'sex', 'address'], dtype='object')

# column 객체

## column 명 변경

### by `df.rename`
df.rename( 바꿀것, inplace= (True 직접 바꾼다., False 원본은 그대로 놓아 둔다.) )

In [5]:
df

Unnamed: 0,age,sex,address
김철수,14,남,목동
박미정,16,여,성수동


In [6]:
# inplace=True 하지 않으면 바뀌지않는다.
df.rename(columns={'age':'연령','sex':'남녀'})
df

Unnamed: 0,age,sex,address
김철수,14,남,목동
박미정,16,여,성수동


In [7]:
df.rename(columns={'age':'연령','sex':'남녀'},index={'김철수':'Kim'},inplace=True)
df

Unnamed: 0,연령,남녀,address
Kim,14,남,목동
박미정,16,여,성수동


### `prefix()`,`suffix()`

In [13]:
df_pre  = df.add_prefix('A반의 ')
df_pre

Unnamed: 0,A반의 연령,A반의 남녀,A반의 address
Kim,14,남,목동
박미정,16,여,성수동


In [14]:
df_suff = df.add_suffix('_A')
df_suff

Unnamed: 0,연령_A,남녀_A,address_A
Kim,14,남,목동
박미정,16,여,성수동


## 순서바꾸기 column
* 이름만을 바꾸는것이 아니라 value값도 같이 바뀌어야 한다.

In [8]:
# 객체를 생성하고~
cols = df.columns.tolist()
cols

['연령', '남녀', 'address']

In [9]:
cols = [cols[2],cols[1],cols[0]]
cols

['address', '남녀', '연령']

In [10]:
# 다시 지정해주면 끝~
df = df[cols]
df

Unnamed: 0,address,남녀,연령
Kim,목동,남,14
박미정,성수동,여,16


# index 객체

|클래스|설명|
|---|---|
|Index|일반적인 Index 객체이며, NumPy 배열 형식으로 축의 이름 표현|
|Int64Index|정수 값을 위한 Index|
|Multilndex|단일 축에 여러 단계 색인을 표현하는 계층적 Index 객체 (튜플의 배열과 유사)|
|Datetimelndex| NumPy의 datetime64 타입으로 타임스탬프 저장|
|Periodindex|기간 데이터를 위한 Index|

In [11]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [12]:
idx[1]

4

In [13]:
idx[1:2:2]

Int64Index([4], dtype='int64')

In [14]:
idx[-1::]

Int64Index([10], dtype='int64')

In [15]:
idx[::2]

Int64Index([2, 6, 10], dtype='int64')

In [16]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


# index 객체 활용

* DataFrame을 조회 하거나 조작할때 특정 index에 접근하게 된다. 
* 활용하면 손쉽게 조작이 가능하다

|클래스|설명|
|---|---|
|Index|일반적인 Index 객체이며, NumPy 배열 형식으로 축의 이름 표현|
|Int64Index|정수 값을 위한 Index|
|Multilndex|단일 축에 여러 단계 색인을 표현하는 계층적 Index 객체 (튜플의 배열과 유사)|
|Datetimelndex| NumPy의 datetime64 타입으로 타임스탬프 저장|
|Periodindex|기간 데이터를 위한 Index|


In [17]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [18]:
idx[1]

4

In [19]:
idx[1:2:2]

Int64Index([4], dtype='int64')

In [20]:
idx[-1::]

Int64Index([10], dtype='int64')

In [21]:
idx[::2]

Int64Index([2, 6, 10], dtype='int64')

In [22]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


## index를 활용한 조작

In [23]:
df = pd.DataFrame(np.random.randint(1, 5, (10,3)),
                 columns=['A','B','C'])
df

Unnamed: 0,A,B,C
0,3,4,4
1,1,2,2
2,1,4,3
3,2,4,1
4,4,1,4
5,4,4,4
6,3,4,2
7,2,4,3
8,3,1,1
9,4,2,4


In [24]:
df.index.tolist()

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [25]:
idx = df.index
idx[::2].tolist()

[0, 2, 4, 6, 8]

In [26]:
df.iloc[idx[::2],:]

Unnamed: 0,A,B,C
0,3,4,4
2,1,4,3
4,4,1,4
6,3,4,2
8,3,1,1


## index 연산


|연산자|메소드|설명|
|---|---|----|
||append|색인 객체를 추가한 새로운 색인 반환|
|`^`|difference|색인의 차집합 반환|
|`&`|intersection|색인의 교집합 반환|
|`\|`|union|색인의 합집합 반환|
||isin|색인이 존재하는지 여부를 불리언 배열로 반환|
||delete|색인이 삭제된 새로운 색인 반환|
||drop|값이 삭제된 새로운 색인 반환|
||insert|색인이 추가된 새로운 색인 반환|
||is_monotonic|색인이 단조성을 가지면 True|
||is_unique|중복되는 색인이 없다면 True|
||unique|색인에서 중복되는 요소를 제거하고 유일한 값만 반환|


In [27]:
idx1 = pd.Index([1,2,4,6,8])
idx2 = pd.Index([2,4,5,6,7])
print(idx1.append(idx2))
print()
print(idx1.difference(idx2))
print()
print(idx1 - idx2) # 위에 강의 오타~ 그냥 -는 빼준다 (단순 뺄샘임) 차집합은 ^임
print(idx1.intersection(idx2))
print(idx1 & idx2)
print(idx1.union(idx2))
print(idx1 | idx2)
print(idx1.delete(0))
print(idx1.drop(1))
print(idx1 ^ idx2) # 여집합

Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')

Int64Index([1, 8], dtype='int64')

Int64Index([-1, -2, -1, 0, 1], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([1, 5, 7, 8], dtype='int64')


출처: 
* <a href='https://github.com/SeWonKwon' ><div> <img src ='https://slid-capture.s3.ap-northeast-2.amazonaws.com/public/image_upload/6556674324ed41a289a354258718280d/964e5a8b-75ad-41fc-ae75-0ca66d06fbc7.png' align='left' /> </div></a>


<br>


* [이수안컴퓨터연구소](https://www.youtube.com/channel/UCFfALXX0DOx7zv6VeR5U_Bg)
* https://github.com/minsuk-heo/pandas