# pandas의 2차원 자료형 - DataFrame 4
- 인덱스
- 정렬
- 전치
- 치환

In [1]:
import pandas as pd

In [3]:
a = {'이름' : ['홍길동', '사람 1', '사람 2'], '나이' : [20, 30, 25], '도시' : ['서울', '서울', '대전']}

In [4]:
a

{'이름': ['홍길동', '사람 1', '사람 2'], '나이': [20, 30, 25], '도시': ['서울', '서울', '대전']}

In [5]:
df = pd.DataFrame(a)

In [6]:
df  # 인덱스 정보가 없어서 0, 1, 2가 들어갔다.

Unnamed: 0,이름,나이,도시
0,홍길동,20,서울
1,사람 1,30,서울
2,사람 2,25,대전


### 인덱스 설정
- set_index()
- reset_index()

In [7]:
df2 = df.set_index(['이름'])

In [8]:
df2  # '이름' 열을 인덱스로 설정

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,20,서울
사람 1,30,서울
사람 2,25,대전


In [11]:
df3 = df2.set_index(['도시'])

In [12]:
df3  # 원래 있던 인덱스 소실

Unnamed: 0_level_0,나이
도시,Unnamed: 1_level_1
서울,20
서울,30
대전,25


In [17]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,20,서울
사람 1,30,서울
사람 2,25,대전


In [19]:
df3 = df2.reset_index()

In [20]:
df3  # df2의 인덱스 원래대로 리셋

Unnamed: 0,이름,나이,도시
0,홍길동,20,서울
1,사람 1,30,서울
2,사람 2,25,대전


In [21]:
df3 = df3.set_index('도시')

In [22]:
df3  # 리셋해서 열이 사라지지 않는다.

Unnamed: 0_level_0,이름,나이
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,홍길동,20
서울,사람 1,30
대전,사람 2,25


In [23]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,20,서울
사람 1,30,서울
사람 2,25,대전


### 정렬

In [24]:
df2 = df2.sort_index(ascending = True)  # 오름차순

In [25]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
사람 1,30,서울
사람 2,25,대전
홍길동,20,서울


In [26]:
df2 = df2.sort_index(ascending = False)  # 내림차순

In [27]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,20,서울
사람 2,25,대전
사람 1,30,서울


In [28]:
df2 = df2.sort_values('나이')  # by 없이도 가능

In [29]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,20,서울
사람 2,25,대전
사람 1,30,서울


In [30]:
df2 = df2.sort_values(by = '나이', ascending = True)

In [31]:
df2  # 위와 같은 결과

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,20,서울
사람 2,25,대전
사람 1,30,서울


In [32]:
df2 = df2.sort_values(by = '나이', ascending = False)

In [33]:
df2

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
사람 1,30,서울
사람 2,25,대전
홍길동,20,서울


### 전치
- .T

In [34]:
df2 = df2.T

In [35]:
df2

이름,사람 1,사람 2,홍길동
나이,30,25,20
도시,서울,대전,서울


In [36]:
df2 = df2.T

In [37]:
df2  # 원래대로 돌아왔다.

Unnamed: 0_level_0,나이,도시
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
사람 1,30,서울
사람 2,25,대전
홍길동,20,서울


### 치환
- map()

In [38]:
df2['나이대'] = ['30대', '20대', '20대']

In [39]:
df2

Unnamed: 0_level_0,나이,도시,나이대
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
사람 1,30,서울,30대
사람 2,25,대전,20대
홍길동,20,서울,20대


In [40]:
df2 = df2.reset_index()

In [41]:
df2

Unnamed: 0,이름,나이,도시,나이대
0,사람 1,30,서울,30대
1,사람 2,25,대전,20대
2,홍길동,20,서울,20대


In [42]:
# 나이대 열의 값들을 숫자형으로 일괄적으로 변경하려면?

b = {'20대' : 2, '30대' : 3}

In [43]:
df2['나이대'] = df2['나이대'].map(b)

In [44]:
df2

Unnamed: 0,이름,나이,도시,나이대
0,사람 1,30,서울,3
1,사람 2,25,대전,2
2,홍길동,20,서울,2


In [45]:
df2.info()  # 나이대가 int로 변경됨

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   나이      3 non-null      object
 2   도시      3 non-null      object
 3   나이대     3 non-null      int64 
dtypes: int64(1), object(3)
memory usage: 224.0+ bytes
