### 리스트 및 튜플 정렬
- sort : 리스트 및 튜플 자체를 정렬
- sorted : 정렬된 리스트 및 튜플 반환
- key : 정렬 기준 함수(주로 lambda)

In [1]:
L = [1,4,3,5,2,5]
L.sort()
L

[1, 2, 3, 4, 5, 5]

In [2]:
T = [(1,2),(3,1),(4,5),(10,4)]
sorted(T, key = lambda x:x[1]) # x에서 1번째 요소를 기준으로 정렬

[(3, 1), (1, 2), (10, 4), (4, 5)]

In [3]:
L = [1,4,3,5,2,5]
sorted(L, key = lambda x:abs(x-3)) # |x-3| 기준으로 정렬

[3, 4, 2, 1, 5, 5]

In [4]:
L = ['We', 'Use', 'Python', 'For', 'Data Preprocessing']
sorted(L, key = lambda x:len(x), reverse = True) # 길이를 기준으로 내림차순

['Data Preprocessing', 'Python', 'Use', 'For', 'We']

### Series 정렬
- sort_values
- ascending : 오름차순으로 정렬할 것인지 여부
- na_position : 결측이 있는 경우 어디에 배치할 것인지 결정

In [13]:
import pandas as pd
import numpy as np
S = pd.Series(np.random.randint(1,10,100)) # 1과 10사이의 난수 100개
S.iloc[0:3] = np.nan # 0부터 3까지 결측으로 바꾸기
S.head()

0    NaN
1    NaN
2    NaN
3    5.0
4    8.0
dtype: float64

In [14]:
S.sort_values() # default : ascending=True, na_position=last

97    1.0
85    1.0
68    1.0
92    1.0
32    2.0
     ... 
19    9.0
51    9.0
0     NaN
1     NaN
2     NaN
Length: 100, dtype: float64

### Series 요약 함수
- value_counts : Series의 구성 요소의 빈도를 순서대로 출력
 - normalize : 빈도 대신 비율을 출력할 것인지 여부
- unique : Series에 포함된 유니크한 값을 출력
 - 출력 결과의 데이터 타입 : ndarray
 - 범주형 변수와 연속형 변수를 판단하는데 사용 가능

In [15]:
S.value_counts()

7.0    18
5.0    14
8.0    14
9.0    14
2.0    11
6.0     9
4.0     8
3.0     5
1.0     4
dtype: int64

In [18]:
S.value_counts(normalize=True)

7.0    0.185567
5.0    0.144330
8.0    0.144330
9.0    0.144330
2.0    0.113402
6.0    0.092784
4.0    0.082474
3.0    0.051546
1.0    0.041237
dtype: float64

In [16]:
S.unique()

array([nan,  5.,  8.,  7.,  6.,  4.,  9.,  3.,  2.,  1.])

### Data Frame 정렬
- sort_values
- by : 정렬 기준 컬럼(목록)

In [19]:
df = pd.DataFrame({"A":[1,2,3,1,2,3], "B":[3,2,1,3,2,1], "C":[1,2,3,4,3,2]})
df

Unnamed: 0,A,B,C
0,1,3,1
1,2,2,2
2,3,1,3
3,1,3,4
4,2,2,3
5,3,1,2


In [20]:
df.sort_values(by = 'A', ascending = True) 
# A를 기준으로 오름차순 정렬

Unnamed: 0,A,B,C
0,1,3,1
3,1,3,4
1,2,2,2
4,2,2,3
2,3,1,3
5,3,1,2


In [21]:
df.sort_values(by = ['C', 'B'], ascending = False) 
# C와 B를 기준으로 내림차순 정렬

Unnamed: 0,A,B,C
3,1,3,4
4,2,2,3
2,3,1,3
1,2,2,2
5,3,1,2
0,1,3,1


### Data Frame 중복 제거
- drop_duplicates
- subset : 중복 기준을 판단하는 컬럼
- keep : 중복이 있는 행의 어느 부분을 남길 것인지 결정 (first, last, false)

In [22]:
df.drop_duplicates(subset = ['A']) 
# A 기준 중복 제거 (첫 행 남김: 인덱스 주목)

Unnamed: 0,A,B,C
0,1,3,1
1,2,2,2
2,3,1,3


In [23]:
df.drop_duplicates(subset = ['A'], keep = 'last')
# A 기준 중복 제거 (마지막 행 남김: 인덱스 주목)

Unnamed: 0,A,B,C
3,1,3,4
4,2,2,3
5,3,1,2
