### 리스트와 튜플의 정렬

#### sort 함수 사용

In [2]:
L = [1, 4, 3, 5, 2, 5]
L.sort() # 출력이 None이고 L자체가 수정됨

In [3]:
L

[1, 2, 3, 4, 5, 5]

In [5]:
L = [1, 4, 3, 5, 2, 5]
L.sort(reverse = True) # 출력이 None이고 L자체가 수정됨
L

[5, 5, 4, 3, 2, 1]

#### sorted 함수 사용

In [8]:
L = [1, 4, 3, 5, 2, 5]
sorted(L)

[1, 2, 3, 4, 5, 5]

In [4]:
T = [(1, 2), (3, 1), (4, 5), (10, 4)]
sorted(T, key = lambda x:x[1]) # x에서 1번째 요소를 기준으로 정렬

[(3, 1), (1, 2), (10, 4), (4, 5)]

In [6]:
L = [1, 4, 3, 5, 2, 5]
sorted(L, key = lambda x:abs(x-3)) # |x-3|을 기준으로 정렬

[3, 4, 2, 1, 5, 5]

In [6]:
L = ['We', 'Use', 'Python', 'For', 'Data Preprocessing']
sorted(L, key = lambda x:len(x), reverse = True) # 길이를 기준으로 내림차순 정렬

['Data Preprocessing', 'Python', 'Use', 'For', 'We']

### Series 정렬

In [10]:
import pandas as pd
import numpy as np
S = pd.Series(np.random.randint(1, 10, 100)) # 1과 10 사이의 숫자를 100개 생성
S.iloc[0:3] = np.nan # 0부터 3까지를 결측으로 바꾸기

S.head(10)

0    NaN
1    NaN
2    NaN
3    9.0
4    9.0
5    4.0
6    5.0
7    3.0
8    9.0
9    8.0
dtype: float64

#### sort_values

- ascending : 오름차순으로 정렬할 것인지 여부
- key : 정렬 기준 함수(주로 lambda 사용)
- na_position : NA를 맨 앞 혹은 맨 뒤 중 어디에 배치할지 (first, last)

In [14]:
# 결측이 있으면, 결측 NA는 type이 float이기 때문에 나머지 데이터들도 np.array안에서 float으로 바뀜

S.sort_values() # default: ascending = True, key = None, na_position = last 

87    1.0
64    1.0
88    1.0
98    1.0
79    1.0
     ... 
17    9.0
3     9.0
0     NaN
1     NaN
2     NaN
Length: 100, dtype: float64

In [9]:
S.sort_values(ascending = False, na_position = 'first')

0     NaN
1     NaN
2     NaN
99    9.0
70    9.0
     ... 
17    1.0
93    1.0
40    1.0
81    1.0
51    1.0
Length: 100, dtype: float64

#### Series 요약 함수

#### value_counts
- asecending : 오름차순으로 정렬할 것인지 여부
- normalize : 빈도 대신 비율을 출력할 것인지 여부

In [12]:
S.value_counts()

6.0    15
4.0    13
9.0    12
7.0    11
2.0    10
8.0    10
3.0    10
5.0    10
1.0     6
dtype: int64

In [16]:
S.value_counts(ascending=False)

6.0    15
4.0    13
9.0    12
7.0    11
2.0    10
8.0    10
3.0    10
5.0    10
1.0     6
dtype: int64

In [13]:
S.value_counts(normalize = True)

6.0    0.154639
4.0    0.134021
9.0    0.123711
7.0    0.113402
2.0    0.103093
8.0    0.103093
3.0    0.103093
5.0    0.103093
1.0    0.061856
dtype: float64

In [12]:
S.value_counts(normalize = True, ascending = True)

5.0    0.072165
8.0    0.072165
6.0    0.082474
4.0    0.092784
9.0    0.103093
1.0    0.113402
2.0    0.134021
3.0    0.164948
7.0    0.164948
dtype: float64

#### Unique

In [13]:
S.unique()

array([nan,  6.,  4.,  5.,  1.,  2.,  3.,  9.,  7.,  8.])

In [14]:
len(S.unique())

10

#### DataFrame 정렬

#### sort_values
- by : 정렬 기준 컬럼(목록, 앞 목록일수록 더 우선순위 정렬)
- ascending : 오름차순으로 정렬할 것인지 여부
- key : 정렬 기준 함수
- na_position ; 결측이 있는 경우 어디에 배치할 것인지 결정 (first, last)

In [17]:
df = pd.DataFrame({"A":[1,2,3,1,2,3], "B":[3,2,1,3,2,1], "C":[1,2,3,4,3,2]})
df

Unnamed: 0,A,B,C
0,1,3,1
1,2,2,2
2,3,1,3
3,1,3,4
4,2,2,3
5,3,1,2


In [18]:
df.sort_values(by = 'A', ascending = True) # A를 기준으로 오름차순 정렬

Unnamed: 0,A,B,C
0,1,3,1
3,1,3,4
1,2,2,2
4,2,2,3
2,3,1,3
5,3,1,2


In [17]:
df.sort_values(by = ['C', 'B'], ascending = False) # C와 B를 기준으로 내림차순 정렬

Unnamed: 0,A,B,C
3,1,3,4
4,2,2,3
2,3,1,3
1,2,2,2
5,3,1,2
0,1,3,1


#### drop_duplicateds
- subset : 중복 기준을 판단하는 컬럼(목록)
- keep: 중복이 있는 행의 어느 부분을 남길 것인지 결정 (first, last, false)
    - first : 첫 번째 행을 남김
    - last : 마지막 행을 남김
    - false : 중복 행을 모두 제거

In [19]:
df

Unnamed: 0,A,B,C
0,1,3,1
1,2,2,2
2,3,1,3
3,1,3,4
4,2,2,3
5,3,1,2


In [18]:
df.drop_duplicates(subset = ['A']) # A 기준 중복 제거 (첫 행 남김: 인덱스 주목)

Unnamed: 0,A,B,C
0,1,3,1
1,2,2,2
2,3,1,3


In [19]:
df.drop_duplicates(subset = ['A'], keep = 'last') # A 기준 중복 제거 (마지막 행 남김: 인덱스 주목)

Unnamed: 0,A,B,C
3,1,3,4
4,2,2,3
5,3,1,2


## Indexing

#### explicit index
- S.loc['a'] = 1
- S.loc['a':'c'] = [1, 2, 3] loc를 이용한 슬라이싱에서는 맨 뒤 값을 포함

#### implicit index
- S.iloc[2] = 3
- S.iloc[1:3] = [1, 2]  iloc를 이용한 슬라이싱에서는 맨 뒤 값을 포함하지 않음. 
- df.iloc[1, 2] : 1행 2열

#### Choose column from dataframe
- df[col_name]
- df[col_name_list]

#### Importance to know using pandas
- df['A'] : Return View. 여기에 값을 할당하면, df자체가 바뀜
- df.loc['A'] : Return Copy. 여기에 바꿔도 원본 변경 없음. 