## 정렬(sort)

- 데이터 정렬
- 기준
    - 인덱스 => sort_index
    - 값 => sort_value()

In [77]:
# 모듈 로딩
import pandas as pd
import numpy as np     # nan 사용하기 위해

# 데이터 생성
df = pd.DataFrame({'value':[4,1,2,3,5],
                   'name':['John','Tom','Hydra','Seo','McKim'],
                    'age':[12, np.nan, 10, 6, np.nan]})

# 데이터 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   value   5 non-null      int64  
 1   name    5 non-null      object 
 2   age     3 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 248.0+ bytes


In [78]:
# 인데스 & 컬럼 정보 확인
print(df.index, df.columns, sep='\n')

RangeIndex(start=0, stop=5, step=1)
Index(['value', 'name', 'age'], dtype='object')


In [79]:
# 정렬하기
# [기본] 오른차순
df

Unnamed: 0,value,name,age
0,4,John,12.0
1,1,Tom,
2,2,Hydra,10.0
3,3,Seo,6.0
4,5,McKim,


In [80]:
# [수정] 내림차순 -> ascending = False
df.sort_index(ascending = False)

Unnamed: 0,value,name,age
4,5,McKim,
3,3,Seo,6.0
2,2,Hydra,10.0
1,1,Tom,
0,4,John,12.0


In [81]:
# 특정 컬럼 기준 정렬 -> sort_value()
# 'name' 컬럼 기준 정렬
df.sort_values(by = 'name')

Unnamed: 0,value,name,age
2,2,Hydra,10.0
0,4,John,12.0
4,5,McKim,
3,3,Seo,6.0
1,1,Tom,


In [82]:
# [ 수정 ] name 기준 & 내림차순
df.sort_values('name', ascending = False)

Unnamed: 0,value,name,age
1,1,Tom,
3,3,Seo,6.0
4,5,McKim,
0,4,John,12.0
2,2,Hydra,10.0


In [83]:
# 적용 우선순위에 대한 것 !! Q

In [84]:
# na_position = 'first'   =>   nan값 처음 
# na_position = 'last'    =>   nan값 끝

In [85]:
# 해당 DF의 컬럼에 해당하는 이름, 글자수
df.name[0], len(df.name[0])

('John', 4)

In [86]:
# lsit comprehension
# -> name 컬럼에서 한 원소를 빼서 글자수를 알아보자
nameList = [len(name) for name in df['name']]

In [99]:
# len으로 새로운 컬럼을 추가로 만들어서 정렬하거나

In [87]:
# # 이름 길이로 정렬 => lambda로 조건을 줘서 해보라
# nameList = [len(name) for name in df['name']]
# # lambda x : x = len(name) for name in df['name']
# df.sort_values(by = nameList)

In [88]:
# 컬럼 추가 하지 않고, 딕셔너리 key값으로
df.sort_values(by = 'name')

Unnamed: 0,value,name,age
2,2,Hydra,10.0
0,4,John,12.0
4,5,McKim,
3,3,Seo,6.0
1,1,Tom,


## 컬럼명 정렬

In [89]:
df.columns, type(df.columns), list(df.columns)

(Index(['value', 'name', 'age'], dtype='object'),
 pandas.core.indexes.base.Index,
 ['value', 'name', 'age'])

In [90]:
df.columns.sort_values

<bound method Index.sort_values of Index(['value', 'name', 'age'], dtype='object')>

In [91]:
# list의 메서드 중 sort를 할 수 있는 것을 활용
# index를 list로 형변환 하여 변수에 담고, 정렬
colList = list(df.columns)

In [92]:
colList.sort()
colList

['age', 'name', 'value']

In [93]:
# 정렬된 index를 정렬 한 후 DF를 만들었으니,
# 정렬된 index로 넣은 DF가 만들어짐
df2 = df[colList]
df2

Unnamed: 0,age,name,value
0,12.0,John,4
1,,Tom,1
2,10.0,Hydra,2
3,6.0,Seo,3
4,,McKim,5


In [94]:
df3=df.T
df3

Unnamed: 0,0,1,2,3,4
value,4,1,2,3,5
name,John,Tom,Hydra,Seo,McKim
age,12.0,,10.0,6.0,


In [95]:
df3.reset_index(inplace=True)
df3

Unnamed: 0,index,0,1,2,3,4
0,value,4,1,2,3,5
1,name,John,Tom,Hydra,Seo,McKim
2,age,12.0,,10.0,6.0,


In [96]:
df3.sort_values(by='index')

Unnamed: 0,index,0,1,2,3,4
2,age,12.0,,10.0,6.0,
1,name,John,Tom,Hydra,Seo,McKim
0,value,4,1,2,3,5


In [97]:
df4 = df3.T
df4.reset_index(drop=True)

Unnamed: 0,0,1,2
0,value,name,age
1,4,John,12.0
2,1,Tom,
3,2,Hydra,10.0
4,3,Seo,6.0
5,5,McKim,


In [98]:
# i) 
# data들을 컬럼명들을 정렬한 모습으로
# 컬럼'명'만 빼고 (list로) -> 정렬 -> 다시 정렬된 DF
# 컬럼으로 뽑으면 인덱스 타입이라 sort를 못쓰기 때문에

In [None]:
# ii) 
# 뒤집어 -> 인덱스로 가면 -> 리셋 인덱스 -> 현재 있던 인덱스가 컬럼으로 복구 됨 -> 생긴 컬럼명인 'index'를 기준으로 정렬해달라 -> idex기준으로 정렬해달라(sort로) -> 다시 set index를 해주면 정렬된 채로 다시 index로 잡히고 
#->  또 뒤집으면

In [None]:
# len 생성 -> 컬럼 추가해서 정렬
# 뒤집는 것 2가지