### 참고. 난수 생성 : np.random 모듈

: https://docs.python.org/ko/3/library/random.html

##### np.random.seed(seed값)

- seed : 난수 알고리즘에서 사용하는 기본 값
    - seed 값이 같으면 동일한 난수 발생
    - 예. np.random.seed(10) 


- 계속 변경되는 난수를 생성하려면 시드값이 매번 변하도록 지정
    - 예. np.random.seed(int(time.time()))
    

#### 난수 생성 함수

- random.rand() : 주어진 형태의 난수 배열 생성
- random.randint(최소값, 최대값, size=n) 
    - [최소값, 최대값)의 범위에서 임의의 정수 생성
    
- random.randn() : 표준정규분포(Standard normal distribution)로부터 샘플링된 난수 생성

- random.standard_normal() : 표준정규분포 난수 발생

- random.normal([loc, scale, size]) : 정규분포 난수 생성

- random.random_sample(size) : [0,1)사이의 난수 생성

- random.choice(a[, size, replace, p]) : 주어진 배열로 부터 표본추출

### 참고. 파이썬의 random 모듈

#### 정수 난수 발생 함수

##### random.randrange(start, stop[, step])
- range(start, stop, step)에서 임의로 선택된 요소를 반환
- choice(range(start, stop, step))와 동등하지만 실제로 range 객체를 만들지는 않음

##### random.randint(a, b)
- `a <= N <= b` 를 만족하는 임의의 정수 N을 반환
- randrange(a, b+1)의 별칭

#### 시퀀스 난수 발생 함수
##### random.choice(seq)
- 비어 있지 않은 시퀀스 seq에서 임의의 요소를 반환
- seq가 비어 있으면, IndexError를 발생


##### random.choices(population, weights=None, *, cum_weights=None, k=1)
- population에서 중복을 허락하면서(with replacement) 선택한 k 크기의 요소 리스트를 반환
- population이 비어 있으면 IndexError 발생
- weights 시퀀스가 지정되면 상대 가중치에 따라 선택됨
- weights나 cum_weights를 지정하지 않으면 같은 확률로 선택
- weights 시퀀스가 제공되면, population 시퀀스와 길이가 같아야 함
- weights와 cum_weights를 모두 지정하는 것은 TypeError

##### random.sample(population, k, *, counts=None)
- population 시퀀스로부터 추출한 k개 길이의 새 리스트를 반환
- random sampling without replacement

#### 실수 난수 발생 함수
##### random.random()
- `0.0 <= X < 1.0` 사이의 실수 반환

##### random.uniform(a, b)
- `a <= b` 일 때 `a <= N <= b`, `b < a` 일 때 `b <= N <= a`를 만족하는 임의의 부동 소수점 숫자 N을 반환
- 종단 값 b는 방정식 a + (b-a) * random()의 부동 소수점 자리 올림에 따라 범위에 포함되거나 포함되지 않을 수 있음

----

# pandas 다중 인덱스(multi index)

- 행이나 열 인덱스가 계층으로 구성된 인덱스(Hierarchical indexing)

[학습 내용]

1. 다중 인덱스를 갖는 Series
2. 다중 인덱스를 갖는 DataFrame
3. MultiIndex 객체
4. 다중인덱스의 특정 레벨 제거 : droplevel()
5. 행인덱스 레벨 해제 : unstack()
6. 열인덱스 레벨 해제 : stack()
7. 다중인덱스의 레벨 교환 : swaplevel()
8. 다중인덱스의 행/열 추가
9. 다중인덱스 정렬

### 1. 다중인덱스를 갖는 Series

#### 예1. 난수 데이터를 갖는 Series

In [None]:
arrays = [np.array(["bar", "bar", "baz", "baz",
                    "foo", "foo", "qux", "qux"]),
          np.array(["one", "two", "one", "two",
                    "one", "two", "one", "two"])]


#### 예2. 키를 튜플로 갖는 딕셔너리의 데이터로 Series 생성

In [None]:
# 키를 튜플로 갖는 딕셔너리 데이터
data = {('James', 'Eng'): 100,
        ('James', 'Math') : 90,
        ('Ted', 'Eng') : 90,
        ('Ted', 'Math') : 70,
        ('Adam', 'Eng') : 85,
        ('Adam', 'Math') : 90 }


#### 인덱스의 이름 지정 : 시리즈.index.names = [ , ]

#### 다중인덱스를 갖는 Series의 인덱싱

- 시리즈[상위인덱스]
- 시리즈.상위인덱스
- 시리즈[(상위인덱스, 하위인덱스)]
- 시리즈.상위인데스,하위인덱스
- 시리즈[:, 하위인덱스]

### 2. 다중 인덱스를 갖는 DataFrame

- 데이터 프레임 생성 시 생성자에서 columns인수나 index 인수를  2차원 리스트(행렬) 형태로 지정할 경우

#### 1) column인덱스를 다중 인덱스로 갖는 DataFrame

#### 열 인덱싱(1): df[상위인덱스]
- 상위 인덱스의 모든 열에 대한 데이터프레임 반환

#### 열 인덱싱(2): df[(상위인덱스, 하위인덱스)]
- 인덱스가 하나가 아니므로 묶어서(튜플로) 전달해야 함
- 시리즈로 반환

#### 열인덱싱(3) :  . 연산자로 확장

- df.상위인덱스
- df.상위인덱스.하위인덱스

#### 열인덱스 이름 지정 : df.columns.names = []

#### 2) 행인덱스를 다중 인덱스로 갖는 DataFrame

#### 행인덱싱(1) : df.loc[상위인덱스]

#### 행인덱싱(2) : df.loc[(상위인덱스, 하위인덱스)]
- 상위인덱스와 하위인덱스를 튜플로 전달

#### 인덱서 iloc : df.iloc[  ]
- iloc인덱서는 행이름, 열이름 기반이 아님

#### 3)  행과 열에 모두 다중인덱스를 갖는 DataFrame

#### 행/열 각 인덱스에 이름(names) 설정

- 이름을 지정하면 직관성이 높아지고 편리하게 사용할 수 있음
- 열이름/행이름 구분하는데 용이
- 문법
    - df.columns.names = 값 또는 리스트
    - df.index.names = 값 또는 리스트

### 3. MultiIndex 객체
- https://pandas.pydata.org/docs/user_guide/advanced.html

- 생성 방법
1. MultiIndex.from_arrays() 사용 : 배열(array)의 리스트
2. MultiIndex.from_tuples() : 튜플들(tuples)의 리스트
3. MultiIndex.from_product() : 리스트의 cross product
4. MultiIndex.from_frame() : DataFrame

In [None]:
# 1. MultiIndex.from_arrays() 이용한 다중인덱스 생성



In [None]:
# 2. MultiIndex.from_tuples() 이용한 다중인덱스 생성



In [None]:
# 3. MultiIndex.from_product() 사용한 다중인덱스 생성



In [None]:
# 4. MultiIndex.from_frame()를 사용한 다중인덱스 생성



#### 예제. MultiIndex객체 생성하여 다중인덱스 설정

### 4. 다중인덱스의 특정 레벨 제거 : droplevel(level, axis)

#### 1) 시리즈의 다중인덱스 레벨 제거

#### 2) 데이터프레임에서 다중인덱스 레벨 제거

#### 행인덱스 레벨 제거

#### 열인덱스 레벨 제거

### 5. 행인덱스 레벨 해제 : unstack()

: 행인덱스 -> 열인덱스로 변환

#### 1) 시리즈의 다중인덱스 레벨 해제

- 해제된 레벨 인덱스는 열인덱스로 변경되며, 데이터프레임으로 반환됨

#### 마지막 레벨 해제 : unstack(level=-1)

#### 첫번째 레벨 해제 : unstack(level=0)

#### 2) 데이터프레임의 다중 행인덱스 레벨 해제

- 데이터프레임의 인덱스 레벨 해제
- 해제된 레벨은 열인덱스 중 가장 마지막 레벨이 됨

[형식] DataFrame.unstack(level=-1, fill_value=None)


- level : int, str, or list of these, default= -1 (last level)
    - Level(s) of index to unstack, can pass level name.

- fill_value : int, str or dict
    - Replace NaN with this value if the unstack produces missing values.


- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html

### 6. 열인덱스 레벨 해제 : stack()

: 열인덱스 -> 행인덱스로 변환

#### 데이터프레임에서 열인덱스 레벨 해제

- 지정한 열인덱스가 행인덱스의 마지막 레벨로 변환 추가됨
- single level 열인덱스를 갖는 경우 시리즈로 반환
- multi level 열인덱스를 갖는 경우 데이터프레임 반환

[형식] DataFrame.stack(level=- 1, dropna=True)

- level위치 또는 열이름 지정
- level : int, str, list, default= -1
- dropna : bool, default True

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.stack.html

#### 예1. 1차 레벨을 가진 데이터프레임

#### 예2. 다중레벨을 갖는 데이터프레임

#### 예3. 열인덱스 이름을 갖는 데이터프레임

### 7. 다중인덱스의 레벨 교환 : swaplevel()

[형식] DataFrame.swaplevel(i=- 2, j=- 1, axis=0)

- i, j : int or str
    - Levels of the indices to be swapped. Can pass level name as string.

- axis : 0 or ‘index’, 1 or ‘columns', default=0
    - The axis to swap levels on
    - 0 or‘index’ for row-wise
    - 1 or ‘columns’ for column-wise

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.swaplevel.html

In [None]:
df = pd.DataFrame({"Grade": ["A", "B", "A", "C"]},
                  index=[
                      ["Final exam", "Final exam", "Coursework", "Coursework"],
                      ["History", "Geography", "History", "Geography"],
                      ["January", "February", "March", "April"],],)
df

### [정리] 다중인덱스의 접근 방법

- 인덱스가 하나가 아니므로 묶어서(튜플로) 전달
- 열 접근 : df[(튜플)]
- 행 접근 : df.loc[(튜플)]
- 참고. df.iloc[]은 정수위치로 접근하여 다중인덱스에 구애받지 않음

-----

### 8. 다중인덱스의 행/열 추가

In [None]:
data = np.round(np.random.rand(6, 4), 2)
columns = pd.MultiIndex.from_product([['A','B'],['C1','C2']],
                                   names=['cidx1','cidx2'])
index = pd.MultiIndex.from_product([['M','F'],['id1','id2','id3']],
                                    names=['ridx1','ridx2'])
df = pd.DataFrame(data=data, index=index, columns=columns)
df

#### 값입력을 위한 위치 지정 실수?

#### 각 행의 총합을 마지막 열로 추가

#### 각 열의 총합을 마지막 행으로 추가

### 9. 다중인덱스 정렬

### 1) sort_index()

[형식] sort_index(*, axis=0, level=None, ascending=True, inplace=False,)

- 행/열 인덱스 기준으로 정렬
- 기본 정렬 방식 : 오름차순 정렬
- 내림차순 : ascending=Flase 설정

####  행인덱스 정렬

#### 열인덱스 기준으로 정렬

### 2) sort_values()

[형식] ort_values(by, *, axis=0, ascending=True, inplace=False, )

- 특정 컬럼 값을 기준으로 정렬
- by = 특정컬럼
    - 특정컬럼이 다중인덱스 일 경우 컬럼명을 튜플로 전달

#### df의 A.C1 컬럼을 기준으로 정렬

-----------