# pandas의 melt 함수
데이터프레임을 wide한 형태에서 long한 형태로 unpivot한다.

In [9]:
import pandas as pd
df = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},
                   'B': {0: 1, 1: 3, 2: 5},
                   'C': {0: 2, 1: 4, 2: 6},
                  'D': {0:'kk',1:'gg',2:'jj'}})

In [10]:
df

Unnamed: 0,A,B,C,D
0,a,1,2,kk
1,b,3,4,gg
2,c,5,6,jj


In [11]:
df.melt(id_vars='A')

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5
3,a,C,2
4,b,C,4
5,c,C,6
6,a,D,kk
7,b,D,gg
8,c,D,jj


In [12]:
df.melt(id_vars='A',value_vars='B')

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5


In [13]:
# list로 전달하는 것도 가능
df.melt(id_vars='A',value_vars=['B','C'])

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5
3,a,C,2
4,b,C,4
5,c,C,6


In [14]:
# 컬럼이름을 바꿀 수도 있다.
df.melt(id_vars='A',value_vars=['B','C'],var_name='그냥',value_name='이름')

Unnamed: 0,A,그냥,이름
0,a,B,1
1,b,B,3
2,c,B,5
3,a,C,2
4,b,C,4
5,c,C,6


# pandas에서 excel 여러 시트 동시 제어

In [None]:
with pd.ExcelWriter('result1124.xlsx') as writer:
    df1.to_excel(writer, sheet_name='111',index=False)
    df2.to_excel(writer, sheet_name='222',index=False)

# NumPy memmap
아주 큰 데이터를 메모리에 적재하기 부담스러울 때, 배열 전체를 메모리에 적재하지 않고 큰 파일의 작은 부분을 읽고 쓸 수 있게 한다.<br>
1억개의 원소를 갖는 ndarray를 생성하고 삭제하지 않은 상태라면 램을 많이 사용하게 된다.(약 800MB 수준)<br>
memmap은 메모리에 적재된 배열에서 제공하는 것과 동일한 메서드를 제공하기 때문에 알고리즘에서 ndarray의 대체제로써 사용될 수 있다.

In [1]:
import numpy as np

In [2]:
# 경로, dtype, 모양, 파일 모드를 전달(외부에 mymmap이라는 파일이 생성됨)
mmap = np.memmap('mymmap',dtype='float64',mode='w+',shape=(10000,10000))

In [3]:
mmap

memmap([[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]])

In [4]:
# 슬라이스는 디스크에 있는 데이터에 대한 뷰를 반환
section = mmap[:5]
section.shape

(5, 10000)

In [5]:
# 이 슬라이스에 데이터를 대입하면 파이썬의 파일 객체처럼 메모리에 잠시 보관되어 있다가 flush를 호출하면 디스크에 기록한다.
section[:] = np.random.randn(5,10000)

In [6]:
mmap.flush()
mmap

memmap([[ 0.10655393,  0.17426793, -1.29330046, ..., -0.30200021,
         -1.13234399, -1.02347798],
        [ 1.76497457, -0.12969189,  0.46180549, ...,  1.11186771,
          0.27489666,  1.44310193],
        [-0.75588349,  1.51765485,  0.07872154, ...,  0.05873291,
         -1.91872392, -0.63029719],
        ...,
        [ 0.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ],
        [ 0.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ],
        [ 0.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ]])

In [7]:
mmap[9999,0] = 30

In [8]:
mmap

memmap([[ 0.10655393,  0.17426793, -1.29330046, ..., -0.30200021,
         -1.13234399, -1.02347798],
        [ 1.76497457, -0.12969189,  0.46180549, ...,  1.11186771,
          0.27489666,  1.44310193],
        [-0.75588349,  1.51765485,  0.07872154, ...,  0.05873291,
         -1.91872392, -0.63029719],
        ...,
        [ 0.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ],
        [ 0.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ],
        [30.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ]])

In [9]:
del mmap

In [10]:
# 메모리 맵은 스코프를 벗어나서 메모리가 회수되면 디스크에 변경 사항이 기록된다.
# 기존의 메모리 맵 파일을 열 때 메타데이터 없이 디스크에 저장된 이진 데이터 파일처럼 dtype과 모양을 지정할 수 있다.

# 당연한 것이지만 읽어들이는 것이므로 mode를 'w'로 지정해서는 안된다.
mmap = np.memmap('mymmap',dtype='float64',shape=(10000,10000))
mmap

memmap([[ 0.10655393,  0.17426793, -1.29330046, ..., -0.30200021,
         -1.13234399, -1.02347798],
        [ 1.76497457, -0.12969189,  0.46180549, ...,  1.11186771,
          0.27489666,  1.44310193],
        [-0.75588349,  1.51765485,  0.07872154, ...,  0.05873291,
         -1.91872392, -0.63029719],
        ...,
        [ 0.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ],
        [ 0.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ],
        [30.        ,  0.        ,  0.        , ...,  0.        ,
          0.        ,  0.        ]])

# scikit-learn을 이용해 비율대로 표본 추출
다음 셀에서 데이터셋은 중요하지 않음. 단지 '지역&재학생'이라는 컬럼이 여러 개의 이산형 변수로 되어있고 각 변수마다의 비율을 유지하면서 데이터셋을 추출할 수 있다.

In [None]:
# 무작위적인 train, test 셋 분할이 아닌 소득 카테고리를 기반으로 하여 계층 샘플링하도록 한다.
from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1,test_size=0.3,random_state=1111)
# income_cat 컬럼의 범주 비율이 분할된 train, test set에도 동일하게 유지되도록 함
for train_index, test_index in split.split(df,df['지역&재학생']):
    train_set = df.loc[train_index]
    test_set = df.loc[test_index]