# Ch5 - 1. 데이터 정렬

# 리스트와 튜플의 정렬

## sort 
:  리스트 및 튜플 자체를 정렬(return 값이 없음)  
`reverse` : 내림차순(True)으로 정렬할 것인지 여부를 결정하는 매개변수  
판다스에서 `inplace = True` 로 설정한 것과 같음  

## sorted
: 정렬된 리스트 및 튜플을 반환  
`reverse` : 내림차순으로 정렬할 것인지 여부를 결정하는 매개변수  
`key` : 정렬 기준 함수 (주로 `lambda` 함수를 사용) 

## sort 함수 사용

원본 수정이 된다. 정렬이 그대로 저장된다. 

In [1]:
L = [1, 4, 3, 5, 2, 5]
L.sort() # 출력이 None이고 L자체가 수정됨

In [2]:
L

[1, 2, 3, 4, 5, 5]

In [3]:
L = [1, 4, 3, 5, 2, 5]
L.sort(reverse = True) # 내림차순
L

[5, 5, 4, 3, 2, 1]

## sorted 함수 사용

람다함수를 이용하여 정렬을 정한다.  

`lambda x:x[1]` 은 튜플의 요소의 [1]번째 요소를 기준으로 정렬하도록 한다는 의미.  
`lambda x:abs(x-3)` 은 리스트의 해당 요소-3의 절대값 기준으로 정렬하도록 한 것이다. 3에 가까울 수록 앞쪽에 정렬될 것이다.  
`lambda x:len(x)` 은 리스트의 해당 요소 길이를 기준으로 정렬한다. 


In [4]:
T = [(1, 2), (3, 1), (4, 5), (10, 4)]
sorted(T, key = lambda x:x[1]) 

[(3, 1), (1, 2), (10, 4), (4, 5)]

In [5]:
L = [1, 4, 3, 5, 2, 5]
sorted(L, key = lambda x:abs(x-3)) # |x-3|을 기준으로 정렬

[3, 4, 2, 1, 5, 5]

In [6]:
# 섞어보기 
T = [(1, 2), (3, 1), (4, 5), (10, 4)]
sorted(T, key = lambda x:abs(x[1]-3)) 

[(1, 2), (10, 4), (3, 1), (4, 5)]

In [7]:
L = ['We', 'Use', 'Python', 'For', 'Data Preprocessing']
sorted(L, key = lambda x:len(x), reverse = True) # 긴 순서로 정렬

['Data Preprocessing', 'Python', 'Use', 'For', 'We']

# Series 정렬

## sort_values 
ascending : 오름차순 여부 (default = True, False면 내림차순)  
key : 정렬 기준 함수 (주로 lambda 함수를 사용)  
na_position : 결측이 있을 경우 어디에 배치할것인지 (first, last)  



In [8]:
import pandas as pd
import numpy as np
S = pd.Series(np.random.randint(1, 10, 100)) # 랜덤 정수 생성
S.iloc[3:6] = np.nan # 결측으로 일부 수정

S.head(10)

0    5.0
1    1.0
2    4.0
3    NaN
4    NaN
5    NaN
6    5.0
7    6.0
8    7.0
9    5.0
dtype: float64

In [9]:
# default: ascending = True, key = None, na_position = last 
S.sort_values()

79    1.0
1     1.0
65    1.0
55    1.0
89    1.0
     ... 
91    9.0
10    9.0
3     NaN
4     NaN
5     NaN
Length: 100, dtype: float64

In [10]:
S.sort_values(ascending = False, na_position = 'last')

23    9.0
54    9.0
45    9.0
27    9.0
94    9.0
     ... 
1     1.0
55    1.0
3     NaN
4     NaN
5     NaN
Length: 100, dtype: float64

## Series 요약 함수

### value_counts()
: Series의 구성 요소의 빈도를 순서대로 출력
ascending : 오름차순 여부. 해당 컬럼 자체의 순서가 아니라 결과 기준으로 정렬이 된다.  
normalize : 빈도 대신 비율을 출력할 것인지 여부  
클래스 불균형 문제를 탐색할 때 많이 쓰인다.

### unique()
: Series에 포함된 유니크한 값을 출력  
출력 결과의 데이터 타입: ndarray  
범주형 변수와 연속형 변수를 판단하는데 사용 가능  
python의 set 함수와 비슷함  
범주형 변수인지 연속형 변수인지 알기위해 많이 쓰인다.  

In [11]:
S.value_counts()

5.0    19
2.0    17
6.0    12
9.0    10
4.0     9
7.0     8
8.0     8
3.0     8
1.0     6
dtype: int64

In [12]:
S.value_counts().sort_values()

1.0     6
7.0     8
8.0     8
3.0     8
4.0     9
9.0    10
6.0    12
2.0    17
5.0    19
dtype: int64

In [13]:
S.value_counts(normalize = True)

5.0    0.195876
2.0    0.175258
6.0    0.123711
9.0    0.103093
4.0    0.092784
7.0    0.082474
8.0    0.082474
3.0    0.082474
1.0    0.061856
dtype: float64

In [14]:
S.value_counts(normalize = True, ascending = True)

1.0    0.061856
7.0    0.082474
8.0    0.082474
3.0    0.082474
4.0    0.092784
9.0    0.103093
6.0    0.123711
2.0    0.175258
5.0    0.195876
dtype: float64

In [15]:
S.value_counts(normalize=True, ascending = True).sort_values()

1.0    0.061856
7.0    0.082474
8.0    0.082474
3.0    0.082474
4.0    0.092784
9.0    0.103093
6.0    0.123711
2.0    0.175258
5.0    0.195876
dtype: float64

In [16]:
# 결측치가 포함이 된다
S.unique()

array([ 5.,  1.,  4., nan,  6.,  7.,  9.,  8.,  2.,  3.])

In [17]:
len(S.unique())

10

# DataFrame 정렬

## sort_values 
by : 정렬 기준 컬럼(리스트, 리스트 안의 순서대로 기준이 된다.)  
ascending : 오름차순 여부 (default = True, False면 내림차순)  
key : 정렬 기준 함수 (주로 lambda 함수를 사용)  
na_position : 결측이 있을 경우 어디에 배치할것인지 (first, last)  


In [18]:
df = pd.DataFrame({"A":[1,2,3,1,2,3], "B":[3,2,1,3,2,1], "C":[1,2,3,4,3,2]})
df

Unnamed: 0,A,B,C
0,1,3,1
1,2,2,2
2,3,1,3
3,1,3,4
4,2,2,3
5,3,1,2


In [19]:
# A를 기준으로 오름차순 정렬
df.sort_values(by = 'A', ascending = True)

Unnamed: 0,A,B,C
0,1,3,1
3,1,3,4
1,2,2,2
4,2,2,3
2,3,1,3
5,3,1,2


In [20]:
# C와 B를 기준으로 내림차순 정렬
df.sort_values(by = ['C', 'B'], ascending = False) 

Unnamed: 0,A,B,C
3,1,3,4
4,2,2,3
2,3,1,3
1,2,2,2
5,3,1,2
0,1,3,1


## 중복 행 제거: drop_duplicates()

중복이 있는 행을 제거할 수 있다. axis 를 사용하여 열을 지울 수도 있지만 중복 열을 지우는 일은 드물기 때문에 설명하지 않는다.  

subset : 중복 기준을 판단하는 컬럼(리스트)  
keep : 중복이 있는 행의 어느 부분을 남길 것인지 결정(default = 'first', 'last', 'false' : 첫 번째것을 남김, 마지막것을 남김, 중복 행을 모두 제거)  
inplace : 결과로 원본을 대치할 것인지 여부(default = False, 수정안함)

In [21]:
# A 기준 중복 제거 (첫 행 남김: 인덱스 주목)
df.drop_duplicates(subset = ['A'])

Unnamed: 0,A,B,C
0,1,3,1
1,2,2,2
2,3,1,3


In [22]:
# A 기준 중복 제거 (마지막 행 남김: 인덱스 주목)
df.drop_duplicates(subset = ['A'], keep = 'last')

Unnamed: 0,A,B,C
3,1,3,4
4,2,2,3
5,3,1,2
