# 데이터 값 정렬
- https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_values.html#pandas-series-sort-values

In [19]:
import pandas as pd

In [20]:
rich_set=pd.read_csv('TopRichestInWorld.csv', usecols=['Name']).squeeze()
rich_set

0                     Elon Musk
1                    Jeff Bezos
2      Bernard Arnault & family
3                    Bill Gates
4                Warren Buffett
                 ...           
96             Vladimir Potanin
97         Harold Hamm & family
98                 Sun Piaoyang
99           Luo Liguo & family
100                   Peter Woo
Name: Name, Length: 101, dtype: object

## .sort_values()

In [21]:
rich_set.sort_values()

74         Abigail Johnson
42        Alain Wertheimer
17            Alice Walton
22          Amancio Ortega
89          Andrew Forrest
              ...         
4           Warren Buffett
54        William Lei Ding
85    Yang Huiyan & family
24            Zhang Yiming
16          Zhong Shanshan
Name: Name, Length: 101, dtype: object

이름이 A-Z순으로 오름차순 되어있는 걸 확인할 수 있다.  
.sort_values()의 인자를 알아보자.

## axis=, ascending=

In [22]:
rich_set.sort_values(axis=0, ascending=True)

74         Abigail Johnson
42        Alain Wertheimer
17            Alice Walton
22          Amancio Ortega
89          Andrew Forrest
              ...         
4           Warren Buffett
54        William Lei Ding
85    Yang Huiyan & family
24            Zhang Yiming
16          Zhong Shanshan
Name: Name, Length: 101, dtype: object

**sort_values 인자 정보 확인**
- Docstirng 또는 공식 문서를 보자.
- https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_values.html#pandas-series-sort-values

> **axis : {0 or ‘index’}**  
Unused. Parameter needed for compatibility with DataFrame.

> **ascending : bool or list of bools, default True**  
If True, sort values in ascending order, otherwise descending.

---

**axis(축)**
- 정렬에 사용할 축을 지정합니다.
- default가 0입니다.
- Series는 1차원 데이터라 축이 1개라서 의미가 없습니다.
- DataFrame은 2차원 데이터라 축이 2개입니다. 여기서는 활용됩니다.

**ascending**
- 오름차순(True), 내림차순(False)로 지정합니다.
- default는 오름차순(True)입니다.

## kind=, na_position=

In [23]:
rich_set.sort_values(axis=0, ascending=True, kind='quicksort', na_position='last')

74         Abigail Johnson
42        Alain Wertheimer
17            Alice Walton
22          Amancio Ortega
89          Andrew Forrest
              ...         
4           Warren Buffett
54        William Lei Ding
85    Yang Huiyan & family
24            Zhang Yiming
16          Zhong Shanshan
Name: Name, Length: 101, dtype: object

In [24]:
#101 non null object - null 데이터 x
rich_set.info()

<class 'pandas.core.series.Series'>
RangeIndex: 101 entries, 0 to 100
Series name: Name
Non-Null Count  Dtype 
--------------  ----- 
101 non-null    object
dtypes: object(1)
memory usage: 940.0+ bytes


**인자 정보 확인**

> **kind : {‘quicksort’, ‘mergesort’, ‘heapsort’, ‘stable’}, default ‘quicksort’**  
Choice of sorting algorithm. See also numpy.sort() for more information. ‘mergesort’ and ‘stable’ are the only stable algorithms.

> **na_position : {‘first’ or ‘last’}, default ‘last’**  
Argument ‘first’ puts NaNs at the beginning, ‘last’ puts NaNs at the end.

---

**kind**
- 정렬에 사용할 정렬 알고리즘을 지정합니다.
- 특이한 상황이 아닌 경우 quicksort가 우수한 성능을 보입니다.
- 그래서 default는 quicksort입니다.

**na_position**
- NaN값을 어디로 배치할지 정합니다.
- default는 뒤쪽으로 배치하기위해 'last'입니다.

## ignore_index=
- index값이 같이 이동 x 

In [25]:
rich_set.sort_values(axis=0, ascending=True, kind='quicksort' , na_position='last', ignore_index=True)

0           Abigail Johnson
1          Alain Wertheimer
2              Alice Walton
3            Amancio Ortega
4            Andrew Forrest
               ...         
96           Warren Buffett
97         William Lei Ding
98     Yang Huiyan & family
99             Zhang Yiming
100          Zhong Shanshan
Name: Name, Length: 101, dtype: object

**인자 정보 확인**
> **ignore_index : bool, default False**  
If True, the resulting axis will be labeled 0, 1, …, n - 1.

---

**ignore_index**
- 정렬할 때 index열도 같이 정렬할 건지(False), 유지하고 정렬할 건지(True)를 지정합니다.
- default는 False입니다.

## inplace= - 비파괴적 처리 vs 파괴적 처리
분명 rich_set.sort_values()로 rich_set 데이터를 정렬했다. 그럼 다시 rich_set을 확인해볼까?

In [26]:
rich_set

0                     Elon Musk
1                    Jeff Bezos
2      Bernard Arnault & family
3                    Bill Gates
4                Warren Buffett
                 ...           
96             Vladimir Potanin
97         Harold Hamm & family
98                 Sun Piaoyang
99           Luo Liguo & family
100                   Peter Woo
Name: Name, Length: 101, dtype: object

정렬이 되어있지 않다?
이는 sort_value()가 비파괴적 방식으로 작업이 수행되었기 때문이다.

### 비파괴적 처리
- 원본 데이터가 파괴되지 않는다.
- 저장할 땐 `변수 = 원본.메소드()` 와 같은 문법을 사용한다.
- 파이썬 기본 함수에서도 이런 처리를 볼 수 있다.

In [27]:
numbers = [1, 9, 3, 6, 7]
sorted(numbers)

[1, 3, 6, 7, 9]

In [28]:
# 원본 조회
numbers

[1, 9, 3, 6, 7]

In [29]:
user = "spencer"
user.replace('e', 'A')

'spAncAr'

In [30]:
# 원본 조회
user

'spencer'

때문에 비파괴적인 처리 결과를 저장하려면 다음과 같이 해야한다.

In [31]:
numbers = [1, 9, 3, 6, 7]
numbers = sorted(numbers)
numbers

[1, 3, 6, 7, 9]

In [32]:
user = "spencer"
user = user.replace('e', 'A')
user

'spAncAr'

In [33]:
# 지금까지 실습한 sort_values()결과를 저장하려면
rich_set = rich_set.sort_values(axis=0, ascending=True,
                    kind='quicksort', na_position='last',
                    ignore_index=True)
rich_set

0           Abigail Johnson
1          Alain Wertheimer
2              Alice Walton
3            Amancio Ortega
4            Andrew Forrest
               ...         
96           Warren Buffett
97         William Lei Ding
98     Yang Huiyan & family
99             Zhang Yiming
100          Zhong Shanshan
Name: Name, Length: 101, dtype: object

### 파괴적 처리
- 원본 데이터가 파괴된다.
- 원본이 파괴되기 때문에 굳이 `변수 = 원본.메소드()`와 같은 문법을 사용하지 않는다.
- `원본.메소드()` 반환 값은 없거나, 있다면 주로 함수 실행 성공 여부(True/False) 또는 결과를 대략 파악할 수 있는 값이 반환된다.
- 파이썬에선 대표적으로 .sort()가 있다.

In [34]:
numbers = [1, 9, 3, 6, 7]
numbers.sort()

In [35]:
# 원본 조회
numbers

[1, 3, 6, 7, 9]

## .sort_values()의 inplace 인자
**sort_values의 Docstring 확인**
```
inplace: 'bool' = False
```

- inplace=True를 주면 원본 데이터에 결과가 반영됩니다.
- [주의]복사본을 생성한 이후 사용할 것을 권고하고 있습니다. 최근 버전은 막혀져 있음

In [36]:
# 하지만 무작정 사용하면 Error발생
rich_set.sort_values(inplace=True)
rich_set

0           Abigail Johnson
1          Alain Wertheimer
2              Alice Walton
3            Amancio Ortega
4            Andrew Forrest
               ...         
96           Warren Buffett
97         William Lei Ding
98     Yang Huiyan & family
99             Zhang Yiming
100          Zhong Shanshan
Name: Name, Length: 101, dtype: object

In [37]:
# 카피본 만들고 사용하기
rich_set_copy=rich_set.copy()
rich_set_copy.sort_values(inplace=True)

In [38]:
rich_set_copy

0           Abigail Johnson
1          Alain Wertheimer
2              Alice Walton
3            Amancio Ortega
4            Andrew Forrest
               ...         
96           Warren Buffett
97         William Lei Ding
98     Yang Huiyan & family
99             Zhang Yiming
100          Zhong Shanshan
Name: Name, Length: 101, dtype: object

## key= -정렬 기준 지정
- 정렬에 필요한 크고 작음의 기준을 정한다.
- 글자라면 A-Z순, 숫자라면 크고 작음
- key인자에 함수를 지정하면되며, 잘 사용하려면 lambda에 익숙해야한다.

### key 연습 1
먼저 예시를 들어보자.
여기 과일 정보가 있는데, 대소문자가 뒤죽박죽이다.

In [39]:
basket = ['apple', 'Banana', 'Cherry', 'durian']
basket_series=pd.Series(basket)

In [40]:
# 그냥 sort_values()를 하면 문자부호 순서로 소문자가 무조건 밀려난다. (아스키코드 + 유니코드)
basket_series.sort_values()

1    Banana
2    Cherry
0     apple
3    durian
dtype: object

In [42]:
# 만일 모두 대문자 또는 소문자라고 치고 정렬하려면?
basket_series.sort_values(key=lambda x : x.str.lower())

0     apple
1    Banana
2    Cherry
3    durian
dtype: object

.str.lower() 는 현재 시리즈의 값을 모두 문자열로 만든 다음 소문자로 변환하는 코드이다.  
파이썬에서도 str()같은 함수를 지원하지만, pandas는 데이터를 변환하는 과정이 많다보니  
map()함수처럼 데이터 각각 처리하고 + `.함수.함수`처럼 체인 형태의 코딩이 쉽도록 개선해놓는다.
- https://pandas.pydata.org/docs/reference/api/pandas.Series.str.lower.html#pandas.Series.str.lower

In [43]:
# .str까지 하면? 각각의 value 부분을 문자열 인덱싱, 슬라이싱, 메소드를 사용할수 있는 상태가됨
basket_series.str


<pandas.core.strings.accessor.StringMethods at 0x2aaff8801d0>

#### lambda(x : x.lower()) 하면안됨
- 각각의 시리즈를 가져오기때문
- lambda(x :x.str.lower())
      str 형태로 바꿔서사용해야함
   

In [44]:
# .str.lower()까지 하면? 각각의 데이터가 소문자로 바뀌어
basket_series.str.lower()

0     apple
1    banana
2    cherry
3    durian
dtype: object

### key 연습 2
현재 rich_set을 정렬하면 이름의 A-Z순으로 나온다.

In [45]:
rich_set.sort_values()

0           Abigail Johnson
1          Alain Wertheimer
2              Alice Walton
3            Amancio Ortega
4            Andrew Forrest
               ...         
96           Warren Buffett
97         William Lei Ding
98     Yang Huiyan & family
99             Zhang Yiming
100          Zhong Shanshan
Name: Name, Length: 101, dtype: object

그런데 이름 길이, 즉 문자열의 개수가 적고 많음 순으로 정렬해보자.  
문자열의 개수는 len(str)함수이 생각난다.
- https://pandas.pydata.org/docs/reference/api/pandas.Series.str.len.html

In [46]:
rich_set.str.len()

0      15
1      16
2      12
3      14
4      14
       ..
96     14
97     16
98     20
99     12
100    14
Name: Name, Length: 101, dtype: int64

이를 이용해서 이름 글자수가 적은 사람부터 오름차순 배치해보자.

In [47]:
rich_set.sort_values(key= lambda x:x.str.len())

32                                       Jack Ma
94                                      Wang Wei
51                                      Li Shufu
63                                     Pang Kang
16                                     Elon Musk
                         ...                    
88                   Theo Albrecht, Jr. & family
49                 Leonardo Del Vecchio & family
24           German Larrea Mota Velasco & family
20         Francoise Bettencourt Meyers & family
5     Beate Heister & Karl Albrecht Jr. & family
Name: Name, Length: 101, dtype: object

### [의문] lambda 인자에 들어오는 x값이 문자열이면 바로 len(x), lower(x)로 해도 되지 않나?
다음과 같은 파이썬 문법을 이해하고 있다면 오히려 위와 같은 의문이 들 수 있다. 


In [48]:
arr = [(0,10), (1,14), (2,2), (3,10)]
new_arr = max(arr, key=lambda x: x[1])
new_arr

(1, 14)

1. lambda를 통해서 각 데이터를 처리하니
2. 이미 문자열 데이터를 가져오는 것이고
3. 때문에 아까전 실습에서 다음도 되지 않을까? 
```python
key=lambda x: len(x)
key=lambda x: x.lower()
```
라고 생각해서 해보니 다음처럼 에러가 발생한다.

In [49]:
member = ["abc", "bcd", "efg", "z"]
member.sort(key=len)
member

['z', 'abc', 'bcd', 'efg']

In [None]:
rich_set.sort_values(key=lambda x:x.str.len())

```
raise ValueError(
    560         "User-provided `key` function must not change the shape of the array."
    561     )
```

즉, 2번 가설인 '각 데이터는 문자열(string)로 가져온 것'이 아닌 'Series'로 가져와집니다.  
`key=lambda x: x.str.len()`에서 x에 담기는 데이터 유형은 Series이니 에러가 발생합니다.