<a href="https://colab.research.google.com/github/chonholee/tutorial/blob/main/bigdata/BigDataII_01_bigdata.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## ビッグデータII　第1回

In [None]:
# Google Driveとの連携
from google.colab import drive
drive.mount('/content/drive/')

# 作業フォルダを各自作って指定する
%cd "/content/drive/MyDrive/Lecture_BigData"

# 大規模データの処理

In [None]:
import numpy as np
import pandas as pd

# 以下データを置くフォルダを好きに作って指定する
DIR_NAME = 'dataset_temp/'

# 乱数データセットを作成
COL_NAME = [str(i) for i in range(0, 5)]

testdata = np.random.rand(100, 5)
df = pd.DataFrame(testdata, columns=COL_NAME)

filename = DIR_NAME + 'testcsv.csv'
df.to_csv(filename, index=False) #書き込み
df = pd.read_csv(filename, encoding='utf-8') #読み込み

df

In [None]:
# ファイルまたはフォルダのサイズを表示
!du -h dataset_temp/testcsv.csv

## 0. Chunkに分けてファイルを読み込む

chunksizeを指定する

In [None]:
i = 0
# chunkに分けて処理
#--- code here ---#
for df in pd.read_csv(filename, encoding='utf-8', xxx):
    print(df.shape)
    print(df)

    # chunkごとに分けて処理
    df['5'] = 'chunk ' + str(i)
    df.to_csv(DIR_NAME+'testcsv_processed.csv', mode='a', index=False, header=(i == 0))
    i += 1

# データの準備

In [None]:
import numpy as np
import pandas as pd

DIR_NAME = 'dataset_temp/'

#乱数作成
for i in range(100):
    testdata = np.random.rand(100,100)      # 0〜1の乱数で 100x100 の行列を生成
    df = pd.DataFrame(testdata)             #dataframeに変換
    filename = DIR_NAME + 'dammydata' + str(i).zfill(5) + '.csv'
    df.to_csv(filename , index=False)       #csvに保存

In [None]:
! du -h dataset_temp/dammy*

# 1.   For loopで読み込む　pandas.read_csv forloop

In [None]:
#pandas.read_csv map
import time
import glob
import numpy as np
import pandas as pd

def readcsv_for_loop(fileslist):
    for i, file in enumerate(fileslist):
        df_tmp = pd.read_csv(file)

        if i == 0:
            df = df_tmp
        else:
            # 結合
            #---code here---#
    return df

if __name__ == "__main__":

    allfiles = sorted(glob.glob(DIR_NAME+'dammy*.csv', recursive=True))

    start = time.time()
    df = readcsv_for_loop(allfiles)

    process_time = time.time() - start
    print('csv読み込み時間：{:.3f}s'.format(process_time))

# 2．Mapを使って読み込む

In [None]:
# map のサンプル
# 参照：https://qiita.com/conf8o/items/0cb02bc504b51af09099

data = [1,2,3,4,5]

def double(x):
  return x*x

print(double(data[2]))

m = map(double, data)
l = list(m)
print(l)

In [None]:
#pandas.read_csv map
import time
import glob
import numpy as np
import pandas as pd

#mapを利用
def read_csv_map(fileslist):
    #---code here---#
    m =
    df = pd.concat(m)
    return df

#csv1個読み込み(map関数用)
def pdreadcsv(csv_path):
    return pd.read_csv(csv_path, encoding='utf-8')

if __name__ == "__main__":

    allfiles = sorted(glob.glob(DIR_NAME+'dammy*.csv', recursive=True))

    start = time.time()

    df = read_csv_map(allfiles)

    process_time = time.time() - start
    print('csv読み込み時間：{:.3f}s'.format(process_time))

# マルチプロセスの例

メモ

process は、複数の関数を複数プロセスで並列して実行します。実行中の関数は全てメモリ上に展開されます。

pool は、一つの関数に複数の処理を行わせる際に、その処理を複数プロセスに割り当てて並列して実行します。pool 側でタスクの分割や結果の統合といったことを暗黙的に制御し、実行中の処理のみがメモリ上に展開されます。

In [None]:
import time

def sum_cube(num):
    s = 0
    for i in range(num):
        s += i * i * i
    return s

def return_list_sum_cube(numbers):
    start = time.time()
    result = []
    for i in numbers:
        result.append(sum_cube(i))

    end = time.time() - start
    print(f'No Multiprocessing:  {end} seocnds')

    return result

if __name__ == '__main__':

    numbers = range(10)
    results = return_list_sum_cube(numbers)
    print(results)

In [None]:
import time
import multiprocessing

def sum_cube(num):
    s = 0
    for i in range(num):
        s += i * i * i
    return s

def return_list_sum_cube_with_multiprocessing(numbers):
    start = time.time()

    #---code here---#
    p =
    result =

    p.close()
    p.join()

    end = time.time() - start
    print(f'Multiprocessing:  {end} seocnds')

    return result

if __name__ == '__main__':

    numbers = range(10)
    result = return_list_sum_cube_with_multiprocessing(numbers)
    print(result)

# 3. マルチプロセスでpandas.read_csvをmapで実行してpandas.concatで結合

In [None]:
#pandas.read_csv map multiprocessing
import time
import glob
import numpy as np
import pandas as pd
import os
from multiprocessing import Pool

#map_multiprocessing(pd.concat)
def read_csv_map_multi(fileslist):
    #---code here---#
    p =
    df =
    p.close()
    return df

#csv1個読み込み(map関数用)
def pdreadcsv(csv_path):
    return pd.read_csv(csv_path, encoding='utf-8')


if __name__ == "__main__":

    allfiles = sorted(glob.glob(DIR_NAME+'dammy*.csv', recursive=True))

    start = time.time()

    df = read_csv_map_multi(allfiles)

    process_time = time.time() - start
    print('csv読み込み時間：{:.3f}s'.format(process_time))

# 4. マルチプロセスでpandas.read_csvをmapで実行してnumpy.vstackで結合

In [None]:
#readcsv_pandas_np.vstack map multi
import time
import glob
import numpy as np
import pandas as pd
import os
from multiprocessing import Pool

#map_multiprocessing(np.vstack)
def read_csv_map_multi_npvstack(fileslist):
    #---code here---#
    p =
    comb_np_array =
    df = pd.DataFrame(comb_np_array)
    p.close()

    return df

def pdreadcsv_np_array(csv_path):
    df = pd.read_csv(csv_path, encoding='utf-8')
    np_array = df.values
    return np_array

if __name__ == "__main__":

    allfiles = sorted(glob.glob(DIR_NAME+'dammy*.csv', recursive=True))

    start = time.time()

    df = read_csv_map_multi_npvstack(allfiles)

    process_time = time.time() - start
    print('csv読み込み時間：{:.3f}s'.format(process_time))

大量のcsvファイルを高速に読み込む方法を検討しました。

今回紹介した方法が必ずしもベストではなく、csvファイルのサイズとファイル数によって読み込み速度は異なってきます。

単純なfor文は想定通り遅く、mapやリスト内包表記を使用することで速度アップができました。

また並列処理することでより高速に読み込むことができました。ただし並列処理はＣＰＵ使用率が大幅ＵＰするデメリットもあるので注意が必要です。

# DASK

並列処理や分散処理を行ったり、機械学習ライブラリー（Scikit-Learnなど）を高速化することが出来ます。

NumPyやPandasは、基本的にシングルコアでの処理を行うため速度が遅くなったり、そもそもデータがメモリに乗らず扱えなかったりします。

データ量の大きなデータセットに対し、例えばDaskは並列処理などを駆使し全てのデータに対し処理を行うことができます。

ちなみに、並列（Parallel）処理とは、AとBという処理がある場合、同時に処理を行うことです。一方、分散（Distributed）処理は、処理AとBを異なる場所で行うことです。

In [None]:
# 基本ライブラリー読み込み
import numpy as np
import pandas as pd

# dask関連のライブラリー読み込み
import dask
import dask.array as da
import dask.dataframe as dd
! pip install dask_xgboost dask_ml  #インストールされていなければインストール
import dask_xgboost                                        #xgboost分類器
import xgboost                                             #xgboost分類器
import joblib                                              #並列処理（daskと連携）
from dask.distributed import Client, progress              #クライアント（並列・分散処理）
from dask_ml.datasets import make_classification as dm_mc  #分類問題用のサンプルデータ生成
from dask_ml.model_selection import train_test_split       #学習データとテストデータの分割
from dask_ml.linear_model import LogisticRegression        #ロジスティック回帰
from dask_ml.metrics import accuracy_score                 #分離問題の正答率スコア

# sklearnのライブラリー読み込み
from sklearn.svm import SVC                                #SVM分類器
from sklearn.model_selection import GridSearchCV           #グリッドサーチ
from sklearn.datasets import make_classification as sk_mc  #分類問題用のサンプルデータ生成
# グラフ描写の設定
import matplotlib.pyplot as plt         #ライブラリー読み込み
plt.style.use('ggplot')                  #グラフのスタイル
plt.rcParams['figure.figsize'] = [12, 9] #グラフサイズ設定

In [None]:
X = np.random.uniform(size=(1000, 1000))
X

In [None]:
# エラーになる numpy: the array size is too big
X = np.random.uniform(size=(100000, 100000))
X

In [None]:
X = da.random.random((100000, 100000))
X

出力されるアウトプットが、NumPyのときと異なり概要だけになります。

Arrayの右にあるChunkが鍵を握っています。DaskのArray（行列）は、Chunkに記載されているチャンクサイズ単位に分割され、分割された行列はNumPyのArray（行列）です。

要は、DaskのArray（行列）は、複数のNumPyのArray（行列）で構成されています。

チャンクサイズ単位は、指定することができます。

In [None]:
X = da.random.random((100000, 100000),chunks=(1000, 1000))
X

行列の演算も同じようにできる

compute() : 結果を出力

visualize() : 処理を可視化

In [None]:
X1 = da.random.uniform(size=(1000, 1000))
X2 = da.random.uniform(size=(1000, 1000))
X3 = da.random.uniform(size=(1000, 1000))

In [None]:
Y = X1 + X2 + X3
Y

In [None]:
%%time
Y.compute()

In [None]:
Y.visualize()

サイズが大きい場合（Chunkごとに並列演算が行われる）

In [None]:
X1 = da.random.uniform(size=(5000, 5000))
X2 = da.random.uniform(size=(5000, 5000))
X3 = da.random.uniform(size=(5000, 5000))

In [None]:
Y = X1 + X2 + X3
Y

In [None]:
%%time
Y.compute()

In [None]:
Y.visualize()

複雑な演算

In [None]:
X1 = da.random.uniform(size=(5000, 5000))
X2 = da.random.uniform(size=(5000, 5000))
X3 = da.random.uniform(size=(5000, 5000))

X4 = X1 + X2            #行列の和
Y = np.dot(X4, X3)      #行列の積
invY = np.linalg.inv(Y) #行列の逆行列

In [None]:
%%time
invY.compute()

In [None]:
invY.visualize()

chankに分けて並列計算

In [None]:
X1 = da.random.uniform(size=(5000, 5000), chunks=(2500,2500))
X2 = da.random.uniform(size=(5000, 5000), chunks=(2500,2500))
X3 = da.random.uniform(size=(5000, 5000), chunks=(2500,2500))

X4 = X1 + X2            #行列の和
Y = np.dot(X4, X3)      #行列の積
invY = np.linalg.inv(Y) #行列の逆行列

In [None]:
%%time
invY.compute()

In [None]:
invY.visualize()

## Dask DataFrame

DaskのDataFrameは、DaskのArray（行列）が多くのNumPy Array（行列）で構成されるのと同様、多くのPandasのDataFrameで構成されます。

DaskのDataFrameの演算などは、PandasのDataFrameの演算とほぼ同じです。

In [None]:
df = dask.datasets.timeseries()

In [None]:
df.head()

In [None]:
df[["x", "y"]].resample("1h").mean().compute().head()

In [None]:
df[['x', 'y']].resample('24h').mean().compute().plot()

In [None]:
df.loc['2000-01-05'].compute()

In [None]:
# データセット（CSV形式）読み込み
# Peyton ManningのWikipediaのPV
url = 'https://www.salesanalytics.co.jp/bgr8'
df = dd.read_csv(url)

In [None]:
df.head()

In [None]:
# Peyton ManningのWikipediaのPVのプロット
df.compute().plot()
plt.title('Page Views of Peyton Manning') #グラフタイトル
plt.ylabel('Daily Page Views')            #タテ軸のラベル
plt.xlabel('Day')                         #ヨコ軸のラベル
plt.show()