## 리스트 및 튜플 정렬
- sort : 리스트 및 튜플 자체를 정렬(return 값이 없음)
  - reverse: 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수(True면 내림차순)
  - Pandas에서 inplace = True로 설정한 것과 같음
 
- sorted : 정렬된 리스트 및 튜플을 반환
  - reverse: 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수(True면 내림차순)
  - key: 정렬 기준 함수(주로 lambda 함수를 사용)

#### sort 함수 사용

In [1]:
L = [1, 4, 3, 5, 2, 5]
L.sort() #출력이 None이고 L 자체가 수정됨

In [2]:
L

[1, 2, 3, 4, 5, 5]

In [5]:
L = [1, 4, 3, 5, 2, 5]
L.sort(reverse = True) # 출력이 None이고 L자체가 수정됨

In [6]:
L

[5, 5, 4, 3, 2, 1]

#### sorted 함수 사용

In [7]:
T = [(1, 2), (3, 1), (4, 5), (10, 4)]
sorted(T, key = lambda x: x[1]) # x에서 1번째 요소를 기준으로 정렬

[(3, 1), (1, 2), (10, 4), (4, 5)]

In [8]:
L = [1, 4, 3, 5, 2, 5]
sorted(L, key = lambda x: abs(x-3)) # |x-3|을 기준으로 정렬

[3, 4, 2, 1, 5, 5]

In [10]:
L = ['We', 'Use', 'Python', 'For', 'Data Preprocessing']
sorted(L, key = lambda x: len(x), reverse = True) # 길이를 기준으로 내림차순 정렬

['Data Preprocessing', 'Python', 'Use', 'For', 'We']

## Series 정렬
- sort_values를 사용하면 Series를 손쉽게 정렬할 수 있음
  - ascending : 오름차순으로 정렬할 것인지 여부
  - key : 정렬 기준 함수(주로 lambda 함수를 사용)
  - na_position : 결측이 있는 경우 어디에 배치할 것인지 결정 {first, last}

In [11]:
import pandas as pd
import numpy as np
S = pd.Series(np.random.randint(1,10,100))
S.iloc[0:3] = np.nan
S.head()

0    NaN
1    NaN
2    NaN
3    9.0
4    3.0
dtype: float64

In [12]:
S.sort_values() #default : ascending = True, key=None, na_position = Last

45    1.0
76    1.0
63    1.0
79    1.0
89    1.0
     ... 
88    9.0
99    9.0
0     NaN
1     NaN
2     NaN
Length: 100, dtype: float64

In [13]:
S.sort_values(ascending = False, na_position = 'first')

0     NaN
1     NaN
2     NaN
99    9.0
88    9.0
     ... 
89    1.0
79    1.0
63    1.0
76    1.0
45    1.0
Length: 100, dtype: float64

## Series 요약 함수
- value_counts : Series의 구성 요소의 빈도를 순서대로 출력
  - ascending : 오른차순으로 정렬할 것인지 여부
  - normalize : 빈도 대신 비율을 출력할 것인지 여부
  
- unique : Series에 포함된 유니크한 값을 출력
  - 출력 결과의 데이터 타입 : ndarray
  - 범주형 변수와 연속형 변수를 판단하는데 사용 가능

In [14]:
S.value_counts()

8.0    15
4.0    13
7.0    12
3.0    12
9.0    12
5.0    10
2.0     9
6.0     7
1.0     7
dtype: int64

In [15]:
S.value_counts(normalize = True)

8.0    0.154639
4.0    0.134021
7.0    0.123711
3.0    0.123711
9.0    0.123711
5.0    0.103093
2.0    0.092784
6.0    0.072165
1.0    0.072165
dtype: float64

In [16]:
S.value_counts(ascending = True, normalize = True)

1.0    0.072165
6.0    0.072165
2.0    0.092784
5.0    0.103093
9.0    0.123711
3.0    0.123711
7.0    0.123711
4.0    0.134021
8.0    0.154639
dtype: float64

In [17]:
S.unique()

array([nan,  9.,  3.,  2.,  4.,  1.,  5.,  6.,  7.,  8.])

In [18]:
len(S.unique())

10

## DataFrame 정렬
- sort_values를 사용하면 DataFrame도 손쉽게 정렬할 수 있음
  - by : 정렬 기준 컬럼(목록)
  - ascending : 오름차순으로 정렬할 것인지 여부
  - key : 정렬 기준 함수(주로 lambda 함수를 사용)
  - na_position : 결측이 있는 경우 어디에 배치할 것인지 결정 {first, last}

In [19]:
df = pd.DataFrame({"A":[1,2,3,1,2,3], "B":[3,2,1,3,2,1], "C":[1,2,3,4,3,2]})
df

Unnamed: 0,A,B,C
0,1,3,1
1,2,2,2
2,3,1,3
3,1,3,4
4,2,2,3
5,3,1,2


In [20]:
df.sort_values(by = 'A', ascending = True) # A를 기준으로 오름차순 정렬

Unnamed: 0,A,B,C
0,1,3,1
3,1,3,4
1,2,2,2
4,2,2,3
2,3,1,3
5,3,1,2


In [21]:
df.sort_values(by = ['C', 'B'], ascending = False) # C와 B를 기준으로 내림차순 정렬

Unnamed: 0,A,B,C
3,1,3,4
4,2,2,3
2,3,1,3
1,2,2,2
5,3,1,2
0,1,3,1


## DataFrame의 중복 제거
- drop_duplicates 함수를 사용하면 중복이 있는 행을 제거할 수 있음
  - subset: 중복 기준을 판단하는 컬럼(목록)
  - keep : 중복이 있ㄴ믄 행의 어느 부분을 남길 것인지 결정{'first','last',False}
    - first : 첫 번쨰 행을 남김
    - last : 마지막 행을 남김
    - false : 중복 행을 모두 제거

In [22]:
df.drop_duplicates(subset = ['A']) # A 기준 중복 제거 (첫 행 남김: 인덱스 주목)

Unnamed: 0,A,B,C
0,1,3,1
1,2,2,2
2,3,1,3


In [23]:
df.drop_duplicates(subset = ['A'], keep = 'last') # A 기준 중복 제거 (마지막 행 남김: 인덱스 주목)

Unnamed: 0,A,B,C
3,1,3,4
4,2,2,3
5,3,1,2


In [25]:
df.drop_duplicates(subset = ['A'], keep = False)

Unnamed: 0,A,B,C
