# 16 ファイルをN分割する
自然数Nをコマンドライン引数などの手段で受け取り，入力のファイルを行単位でN分割せよ．同様の処理をsplitコマンドで実現せよ．

## 追加要件
関数のオプションによって，データを行単位でシャッフルできるようにする．

In [90]:
import pandas as pd
import math
import random

# path で与えられたファイルをN個のデータフレームに分割したリストを返す関数
def Nsplit(path, N, header=None, shuffle=False):
    # データ読み込み
    data = pd.read_table(path, header=header)
    # 行数取得
    l = len(data)
    # 分割した各データフレームのデータ数
    size = math.ceil(l / N)
    
    # シャッフル用
    if shuffle:
        # インデックスの配列を作成し，それをランダムにシャッフルする
        idxs = list(range(0,l))
        random.shuffle(idxs) # この時点でidxsは変更(シャッフル)されている
        # シャッフルしたインデックス配列をN分割する
        idxs = [idxs[i:i+size] for i in range(0,l,size)]
        # 分割した各インデックス配列を用いてデータを取り出す
        ret = [data.loc[idx] for idx in idxs] # .locで特定の行を取り出せる
    else:
        ret = [data.loc[i:i+size-1] for i in range(0, l, size)]
    return ret

In [93]:
N = int(input())
dfs = Nsplit('popular_names.txt', N, shuffle=True)
for i, df in enumerate(dfs):
    print('\n{}番目の分割データ\nデータ数: {}'.format(i+1, len(df)))
    # 各分割データフレームの最後の5件だけ表示
    display(df.tail(5))

12

1番目の分割データ
データ数: 232


Unnamed: 0,0,1,2,3
2076,Jason,M,35115,1983
290,John,M,8238,1894
2259,David,M,28411,1992
104,Margaret,F,2204,1885
2152,Matthew,M,46481,1987



2番目の分割データ
データ数: 232


Unnamed: 0,0,1,2,3
2104,Sarah,F,24882,1985
964,Margaret,F,20295,1928
1924,Angela,F,22042,1976
1583,Karen,F,36776,1959
1527,Cynthia,F,32344,1956



3番目の分割データ
データ数: 232


Unnamed: 0,0,1,2,3
509,Alice,F,3610,1905
212,James,M,5097,1890
1034,Richard,M,31816,1931
1652,John,M,78429,1962
2749,Abigail,F,10607,2017



4番目の分割データ
データ数: 232


Unnamed: 0,0,1,2,3
2647,Mia,F,12023,2012
2364,Ashley,F,19873,1998
1212,John,M,54779,1940
2133,Joshua,M,37542,1986
1450,James,M,87063,1952



5番目の分割データ
データ数: 232


Unnamed: 0,0,1,2,3
1908,Stephanie,F,15774,1975
869,Frances,F,14879,1923
2573,Joshua,M,19205,2008
464,Ruth,F,4518,1903
371,William,M,7400,1898



6番目の分割データ
データ数: 232


Unnamed: 0,0,1,2,3
1915,Robert,M,35335,1975
524,Ruth,F,5140,1906
1940,Jennifer,F,58964,1977
65,Margaret,F,1881,1883
2686,Emily,F,12647,2014



7番目の分割データ
データ数: 232


Unnamed: 0,0,1,2,3
139,Thomas,M,2337,1886
1154,Richard,M,32973,1937
128,Clara,F,1916,1886
69,Clara,F,1548,1883
895,George,M,27375,1924



8番目の分割データ
データ数: 232


Unnamed: 0,0,1,2,3
802,Helen,F,35097,1920
431,William,M,5990,1901
2530,Jacob,M,24845,2006
1776,Mark,M,35420,1968
908,Mildred,F,14451,1925



9番目の分割データ
データ数: 232


Unnamed: 0,0,1,2,3
168,Ethel,F,2374,1888
1618,Thomas,M,39273,1960
1110,Robert,M,56524,1935
2639,Daniel,M,15291,2011
485,Elizabeth,F,3833,1904



10番目の分割データ
データ数: 232


Unnamed: 0,0,1,2,3
1854,John,M,43181,1972
883,Betty,F,30599,1924
1822,Lisa,F,32909,1971
1236,David,M,30551,1941
1487,Karen,F,32454,1954



11番目の分割データ
データ数: 232


Unnamed: 0,0,1,2,3
2448,Samantha,F,14666,2002
534,Robert,M,3635,1906
2053,Jason,M,40632,1982
581,Helen,F,9250,1909
1376,Richard,M,50970,1948



12番目の分割データ
データ数: 228


Unnamed: 0,0,1,2,3
4,Minnie,F,1746,1880
2033,Jason,M,41931,1981
665,Mildred,F,9921,1913
1967,Sarah,F,19977,1978
808,Frances,F,15883,1920


## コマンドで確認

`split`コマンドで，ファイルを行単位やバイト単位で分割することができる．

今扱っている `popular_names.txt` は2780行であることはわかっているとする．12分割したい場合，size = ceil(2780 / 12) = 232 なので，232行ごとに分ければ良い．

以下のコマンドを実行すれば，`split_aa`,`split_ab`,など12個のファイルが作られる．

`split -l 232  popular_names.txt split_`

`-d`オプションで接尾辞を数字に変えられるらしいが自分の環境でできなかった．

cf) https://www.atmarkit.co.jp/ait/articles/1711/24/news016.html