### sort_values 정렬

1. 1개의 열을 기준으로 오름차순/내림차순 정렬(ascending = False)
2. 2개 이상의 열을 기준으로 정렬
3. 2개 이상의 열 기준 오름/내림 섞어 정렬
  : *ascending = 리스트 형식*

In [None]:
import pandas as pd

a1 = [60, 84, 80, 70, 19]
a2 = [77, 62, 95, 85, 17]
a3 = [61, 97, 72, 67, 15]
a4 = [75, 65, 95, 51, 18]
cols = ["국어", "영어", "수학", "과학", "나이"]
df = pd.DataFrame([a1, a2, a3, a4], index=list("ABCD"), columns=cols)

df

In [None]:
# 디폴트는 오름차순: "국어" 컬럼을 기준으로 전채 행 정렬
df.sort_values("국어")

In [None]:
# 내림차순: "국어" 컬럼을 기준으로 전채 행 정렬
df.sort_values("국어", ascending=False)

In [None]:
# 동점자가 있을 땐 행 순서대로 정렬
df.sort_values("수학", ascending=False)

In [None]:
# 정렬할 열들을 리스트 형식으로 넣어주면 앞 순서부터 차레로 적용해 정렬
df.sort_values(["수학", "영어"], ascending=False)

In [None]:
# 수학을 내림차순 정렬 후, 나이는 오름차순으로 하려면 bool도 리스트화
df.sort_values(["수학", "나이"], ascending=[False, True])

### broadcasting 연산

1. numpy: 배열 크기가 다르면, 크기가 적은 쪽의 배열을 브로드캐스팅해서 "**같은 자리에서** 연산"

2. pandas: "**같은 인덱스와 컬럼을 기준으로** 연산"

3. 즉, pandas에서는 자리가 아닌 라벨이 중요

4. 배열의 크기는 같더라도 두 배열의 라벨이 서로 다르다면 전부 Nan값이 나옴

5. 판다스의 브로드캐스팅: 데이터 프레임과 시리즈의 연산
   > 단, 이때도 라벨이 같은 부분끼리만 정상적으로 연산됨 (라벨이 다른 부분은 Nan)



In [None]:

import pandas as pd

a1 = [[1,2,3], [4,5,6,], [7,8,9]]
df1 = pd.DataFrame(a1, columns=list("ABC"), index=list("가나다"))
df2 = df1.reindex(columns=list("BCA"), index=list("나다가")).copy()
sr1 = df1.loc["가"]
df3 = df1.iloc[:2,:2]

df1

In [None]:
df1 * df1 # 같은 라벨끼리 곱해짐

In [None]:
df1 + sr1 # "가" 행을 브로드캐스팅

In [None]:
df2

In [None]:
df1*df2 # 자리는 달라도 모든 값의 라벨이 서로 같기 때문에 연산 가능

In [None]:
df1 + df2

In [None]:
df3 # 크기가 다른 배열

In [None]:
df1 + df3 # 연산 불가한 항목은 결측치 반환

### 인자를 넣는 df 연산의 경우: 함수 활용

덧셈: + 대신 add 함수 활용
> 기존 데이터프레임.add(더할 데이터프레임, fill_value = 0)

In [None]:
df1.add(df3, fill_value = 0) # axis에 유의해 사용 (디폴트는 1)

In [None]:
sr1 = df1.loc["가"] 

df1.add(sr1, axis = 0) # 축을 바꾸는 순간 라벨이 맞지 않게 되므로  모두 Nan