### 리스트와 튜플의 정렬

#### sort 함수 사용

In [1]:
L = [1, 4, 3, 5, 2, 5]
L.sort() # 출력이 None이고 L자체가 수정됨

In [2]:
L

[1, 2, 3, 4, 5, 5]

In [3]:
L = [1, 4, 3, 5, 2, 5]
L.sort(reverse = True) # 출력이 None이고 L자체가 수정됨
L

[5, 5, 4, 3, 2, 1]

#### sorted 함수 사용

In [4]:
T = [(1, 2), (3, 1), (4, 5), (10, 4)]
sorted(T, key = lambda x:x[1]) # x에서 1번째 요소를 기준으로 정렬

[(3, 1), (1, 2), (10, 4), (4, 5)]

In [5]:
L = [1, 4, 3, 5, 2, 5]
sorted(L, key = lambda x:abs(x-3)) # |x-3|을 기준으로 정렬

[3, 4, 2, 1, 5, 5]

In [6]:
L = ['We', 'Use', 'Python', 'For', 'Data Preprocessing']
sorted(L, key = lambda x:len(x), reverse = True) # 길이를 기준으로 내림차순 정렬

['Data Preprocessing', 'Python', 'Use', 'For', 'We']

### Series 정렬

In [7]:
import pandas as pd
import numpy as np
S = pd.Series(np.random.randint(1, 10, 100)) # 1과 10 사이의 숫자를 100개 생성
S.iloc[0:3] = np.nan # 0부터 3까지를 결측으로 바꾸기

S.head(10)

0    NaN
1    NaN
2    NaN
3    6.0
4    4.0
5    5.0
6    1.0
7    2.0
8    2.0
9    6.0
dtype: float64

In [8]:
S.sort_values() # default: ascending = True, key = None, na_position = last 

51    1.0
81    1.0
40    1.0
93    1.0
17    1.0
     ... 
70    9.0
99    9.0
0     NaN
1     NaN
2     NaN
Length: 100, dtype: float64

In [9]:
S.sort_values(ascending = False, na_position = 'first')

0     NaN
1     NaN
2     NaN
99    9.0
70    9.0
     ... 
17    1.0
93    1.0
40    1.0
81    1.0
51    1.0
Length: 100, dtype: float64

#### Series 요약 함수

In [10]:
S.value_counts()

7.0    16
3.0    16
2.0    13
1.0    11
9.0    10
4.0     9
6.0     8
8.0     7
5.0     7
dtype: int64

In [11]:
S.value_counts(normalize = True)

7.0    0.164948
3.0    0.164948
2.0    0.134021
1.0    0.113402
9.0    0.103093
4.0    0.092784
6.0    0.082474
8.0    0.072165
5.0    0.072165
dtype: float64

In [12]:
S.value_counts(normalize = True, ascending = True)

5.0    0.072165
8.0    0.072165
6.0    0.082474
4.0    0.092784
9.0    0.103093
1.0    0.113402
2.0    0.134021
3.0    0.164948
7.0    0.164948
dtype: float64

In [13]:
S.unique()

array([nan,  6.,  4.,  5.,  1.,  2.,  3.,  9.,  7.,  8.])

In [14]:
len(S.unique())

10

#### DataFrame 정렬

In [15]:
df = pd.DataFrame({"A":[1,2,3,1,2,3], "B":[3,2,1,3,2,1], "C":[1,2,3,4,3,2]})
df

Unnamed: 0,A,B,C
0,1,3,1
1,2,2,2
2,3,1,3
3,1,3,4
4,2,2,3
5,3,1,2


In [16]:
df.sort_values(by = 'A', ascending = True) # A를 기준으로 오름차순 정렬

Unnamed: 0,A,B,C
0,1,3,1
3,1,3,4
1,2,2,2
4,2,2,3
2,3,1,3
5,3,1,2


In [17]:
df.sort_values(by = ['C', 'B'], ascending = False) # C와 B를 기준으로 내림차순 정렬

Unnamed: 0,A,B,C
3,1,3,4
4,2,2,3
2,3,1,3
1,2,2,2
5,3,1,2
0,1,3,1


In [18]:
df.drop_duplicates(subset = ['A']) # A 기준 중복 제거 (첫 행 남김: 인덱스 주목)

Unnamed: 0,A,B,C
0,1,3,1
1,2,2,2
2,3,1,3


In [19]:
df.drop_duplicates(subset = ['A'], keep = 'last') # A 기준 중복 제거 (마지막 행 남김: 인덱스 주목)

Unnamed: 0,A,B,C
3,1,3,4
4,2,2,3
5,3,1,2
