In [None]:
import copy
import glob
import japanize_matplotlib
import math
import matplotlib as mpl
import matplotlib.patches as mpatches
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import numpy as np
import os
import pandas as pd
import pytest
import random
import sys
from sklearn import linear_model
from sklearn.linear_model import HuberRegressor, LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
import sklearn.preprocessing as sp
from sklearn.metrics import r2_score
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from unittest.mock import MagicMock
import warnings

In [None]:
# 平均絶対パーセント誤差 (MAPE)(Mean Absolute Percent Error (MAPE))を返す関数
# 引数として長さの同じ二つのリストをとる
# 引数l1: 実測値のリスト
# 引数l2: 予測値のリスト
# 単位：％

def returnMapeScore(l1, l2):
    return_num = 0
    if(len(l1) != len(l2)):
        warnings.warn("引数のリストの長さが異なります")
        return -1
    for i in range(len(l1)):
        l1_num = l1[i]
        l2_num = l2[i]

        return_num += abs((l1_num - l2_num)/l1_num)

    return_num /= len(l1)
    return_num *= 100
    return return_num


# 使用例：returnMapeScore([1,2,3,4], [4,3,2,1])
type(returnMapeScore([1, 2, 3, 4], [4, 3, 2, 1]))


def test_returnMapeScore():
    l1 = [1, 2, 3, 4]
    l2 = [4, 3, 2, 1]
    ansByFunc = returnMapeScore(l1, l2)
    ansByHand = (abs(1-4)/1 + abs(2-3)/2 + abs(3-2)/3 + abs(4-1)/4)/4 * 100
    # 多少の誤差を許容する
    ansByFunc = int(ansByFunc * 100) / 100
    ansByHand = int(ansByHand * 100) / 100

    assert ansByFunc == ansByHand

In [None]:
# ベンチマークを指定して存在するファイル名のものを返す
def returnExistingFileNames(benchmarkNames=[], classes=[], processes=[], csvDirPath="./csv_files"):
    candidateFileNames = {}
    returnDict = {}
    for benchmarkName in benchmarkNames:
        for benchmarkClass in classes:
            for process in processes:
                candidateFileNames[f"pprof_{benchmarkName}{benchmarkClass}{process}.csv"] = {
                    "benchmarkName": benchmarkName, "benchmarkClass": benchmarkClass, "process": process}
    for candidateFileName in candidateFileNames.keys():
        filePath = os.path.join(csvDirPath, candidateFileName)
        if(os.path.exists(filePath) and os.stat(filePath).st_size != 0):
            returnDict[candidateFileName] = candidateFileNames[candidateFileName]
    return(returnDict)


def test_returnExistingFileNames():
    benchmarkNames = ["test"]
    classes = ["A", "B", "C", "D"]
    processes = [1, 2, 4, 8, 16, 32, 64, 128, 256]
    csvDirPath = "../csv_files/"
    returnedList = returnExistingFileNames(
        benchmarkNames=benchmarkNames, classes=classes, processes=processes, csvDirPath=csvDirPath)
#     print(returnedList)
    assert returnedList["pprof_testA128.csv"] == {
        "benchmarkName": "test", "benchmarkClass": "A", "process": 128}
    assert returnedList["pprof_testB256.csv"] == {
        "benchmarkName": "test", "benchmarkClass": "B", "process": 256}

In [None]:
# ベンチマーク名・プロセス数・ベンチマーククラスをリストで渡して、実在するデータが集計されたDFを返す
def returnCollectedExistingData(benchmarkNames=[], classes=[], processes=[], csvDirPath="./csv_files/"):
    fileNames = returnExistingFileNames(
        benchmarkNames=benchmarkNames, classes=classes, processes=processes, csvDirPath=csvDirPath)
    csvDataList = []
    for fileName in fileNames.keys():
        rawDatum = pd.read_csv(f"{csvDirPath}{fileName}")
        rawDatum["benchmarkName"] = fileNames[fileName]["benchmarkName"]
        rawDatum["benchmarkClass"] = fileNames[fileName]["benchmarkClass"]
        rawDatum["process"] = fileNames[fileName]["process"]
        csvDataList.append(rawDatum)
    returnDF = pd.concat(csvDataList, axis=0)
    returnDF = returnDF.rename(
        columns={'Name': 'functionName', '#Call': 'functionCallNum'})
    return(returnDF)


def test_returnCollectedExistingData():
    benchmarkNames = ["test"]
    classes = ["A", "B", "C", "D"]
    processes = [1, 2, 4, 8, 16, 32, 64, 128, 256]
    csvDirPath = "../csv_files/"
    returnedData = returnCollectedExistingData(
        benchmarkNames=benchmarkNames, classes=classes, processes=processes, csvDirPath=csvDirPath)

    case01 = {"benchmarkName": "test", "benchmarkClass": "A", "process": 128,
              "functionCalls": {"function00": 99, "function01": 77, "function02": 555}}
    case02 = {"benchmarkName": "test", "benchmarkClass": "B", "process": 256,
              "functionCalls": {"function00": 5, "function01": 70, "function02": 900}}

    for case in [case01, case02]:
        benchmarkName = case["benchmarkName"]
        benchmarkClass = case["benchmarkClass"]
        process = case["process"]
        for functionName in case["functionCalls"]:
            functionCallNum = case["functionCalls"][functionName]
            targetData = returnedData[(returnedData['benchmarkName'] == benchmarkName) & (returnedData['benchmarkClass'] == benchmarkClass) & (
                returnedData["process"] == process) & (returnedData["functionName"] == functionName)]
            columns = targetData.columns.tolist()
            functionCallNumIndex = columns.index("functionCallNum")
            assert targetData.iloc[0, functionCallNumIndex] == functionCallNum

In [None]:
# モデルの共通部分となるクラス
# すべての引数はただのリスト。クラスの初期化時に""np.reshape()""を実行する
class ModelBase:
    def __init__(self, trainX, trainY, targetX=[], targetY=[], benchmarkName="benchmarkName", functionName="functionName"):
        self.benchmarkName = benchmarkName
        self.functionName = functionName

        self.trainX = np.reshape(trainX, (-1, 1))
        self.trainY = np.reshape(trainY, (-1, 1))
        self.targetX = np.reshape(targetX, (-1, 1))
        self.targetY = np.reshape(targetY, (-1, 1))

    def returnTargetX():
        return(self.targetX)

    def returnTargetY():
        return(self.targetY)

    def returnTrainX():
        return(self.trainX)

    def returnTrainY():
        return(self.trainY)

# # このクラスを継承したモデルは、いずれも次のように使用する
# _modelLin = ModelLin(trainX=trainX, trainY=trainY, targetX=targetX, targetY=targetY)
# _modelLin.calcLr()
# plotY = _modelLin.predict(plotX)

In [None]:
# 分岐モデル

class ModelBranch(ModelBase):
    def calcLr(self):
        # t:最大値のインデックス
        self.t = np.ndarray.argmax(self.trainY)
        # tNum:最大値
        self.tNum = self.trainX[self.t]
        # 最大値のインデックスのリストを作成
        tIndice = [i for i, x in enumerate(
            self.trainY) if x == max(self.trainY)]
        conditionBefore = self.t == 0 or self.t == len(self.trainY) - 1
        conditionAfter = (len(tIndice) == 1)
        if (conditionBefore or conditionAfter):
            self.lr1 = LinearRegression()
            self.lr1.fit(self.trainX, self.trainY)
            self.lr2 = LinearRegression()
            self.lr2.fit(self.trainX, self.trainY)
        else:
            self.trainX1 = self.trainX[:self.t]
            self.trainX2 = self.trainX[self.t:]
            self.trainY1 = self.trainY[:self.t]
            self.trainY2 = self.trainY[self.t:]
            self.lr1 = LinearRegression()
            self.lr1.fit(self.trainX1, self.trainY1)
            self.lr2 = LinearRegression()
            self.lr2.fit(self.trainX2, self.trainY2)

    def predict(self, num):
        num = np.reshape(num, (-1, 1))
        numT = np.ndarray.argmax(num)
        numTMax = num[numT]
        k = np.abs(np.asarray(num) - self.tNum).argmin()
        if(len(num) == 1 and numTMax >= self.tNum):
            predicted = self.lr2.predict(num)
            return(predicted)
        elif (numTMax < self.trainX[self.t] or k == 0):
            predicted = self.lr1.predict(num)
            return(predicted)
        else:
            num1 = num[:k]
            num2 = num[k:]
            predicted1 = self.lr1.predict(num1)
            predicted2 = self.lr2.predict(num2)
            predicted = np.concatenate([predicted1, predicted2])
            return(predicted)

    def ModelName(self):
        return("ModelBranch")

# 線形飽和モデル
# テスト用モデル式1：
# y = 2x + 3 (x < 10)
#     23     (x >= 10)
# テスト用モデル式2：
# y = 2x + 3


def test_ModelBranch():
    # X軸の値
    plotXForBranch = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
    # Y軸の値
    plotYForBranch = [5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 23, 23, 23, 23]
#     plt.figure()
#     plt.plot(plotXForBranch, plotYForBranch, label="y=2*+3(x<10), y=23(x>=10)")
    # モデルの構築
    _modelBranch = ModelBranch(
        trainX=plotXForBranch, trainY=plotYForBranch, targetX=[], targetY=[])
    _modelBranch.calcLr()
    predictedYForBranch = _modelBranch.predict(plotXForBranch)
#     plt.plot(plotXForBranch, predictedYForBranch, label="線形飽和モデルによるモデル式")
#     plt.legend()
    mapeScore = returnMapeScore(plotYForBranch, predictedYForBranch)
    assert mapeScore < 1

    # 線形モデルとしても利用可能かのテストケース
    plotX = np.linspace(0.5, 270, 500)
    plotY = 2 * plotX + 3
    _modelBranch2 = ModelBranch(
        trainX=plotX, trainY=plotY, targetX=[], targetY=[])
    _modelBranch2.calcLr()
    predictedY = _modelBranch2.predict(plotX)
    mapeScore = returnMapeScore(plotY, predictedY)
    assert mapeScore < 1, f"{_modelBranch2.lr1.coef_}, {_modelBranch2.lr1.intercept_}, {_modelBranch2.lr2.coef_}, {_modelBranch2.lr2.intercept_}"

In [None]:
# 反比例モデル

def ipFunc(x):
    return 1/x


class ModelIp(ModelBase):

    def calcLr(self):
        self.transformerIp = sp.FunctionTransformer(
            func=ipFunc, inverse_func=ipFunc)
        trainXIp = self.transformerIp.transform(self.trainX)
        self.lr = LinearRegression()
        self.lr.fit(trainXIp, self.trainY)

    def predict(self, num):
        num = np.reshape(num, (-1, 1))
        numConverted = self.transformerIp.transform(num)
        predicted = self.lr.predict(numConverted)
        return(predicted)

    def return_coef_(self):
        return self.lr.coef_

    def return_intercept_(self):
        return self.lr.intercept_

    def ModelName(self):
        return("ModelIp")

# 反比例モデル
# テスト用モデル式：
# y = 2/x + 3


def test_ModelIp():
    # X軸の連続値
    plotX = np.linspace(0.5, 270, 500)
#     plt.figure()
    plotY = 2/plotX + 3
#     plt.plot(plotX, plotY, label="y = 2/x + 3")
    # モデルの構築
    _modelIp = ModelIp(trainX=plotX, trainY=plotY, targetX=[], targetY=[])
    _modelIp.calcLr()
    predictedY = _modelIp.predict(plotX)
#     plt.plot(plotX, predictedY, label="反比例モデルによるモデル式")
#     plt.legend()
    mapeScore = returnMapeScore(plotY, predictedY)
    assert mapeScore < 1

In [None]:
# 線形モデル

class ModelLin(ModelBase):

    def calcLr(self):
        self.lr = LinearRegression()
        self.lr.fit(self.trainX, self.trainY)

    def predict(self, num):
        num = np.reshape(num, (-1, 1))
        predicted = self.lr.predict(num)
        return(predicted)

    def return_coef_(self):
        return self.lr.coef_

    def return_intercept_(self):
        return self.lr.intercept_

    def ModelName(self):
        return("ModelLin")

# 線形モデル
# テスト用モデル式：
# y = 2x + 3


def test_ModelLin():
    # X軸の連続値
    plotX = np.linspace(0.5, 270, 500)
#     plt.figure()
    plotY = 2 * plotX + 3
#     plt.plot(plotX, plotY, label="y = 2 * x + 3")
    # モデルの構築
    _modelLin = ModelLin(trainX=plotX, trainY=plotY, targetX=[], targetY=[])
    _modelLin.calcLr()
    predictedY = _modelLin.predict(plotX)
#     plt.plot(plotX, predictedY, label="線形モデルによるモデル式")
#     plt.legend()
    mapeScore = returnMapeScore(plotY, predictedY)
    assert mapeScore < 1

In [None]:
# 対数モデル


def inverterLog10Func(x):
    return 10**x


class ModelLog10(ModelBase):

    def calcLr(self):
        self.transformerLog10 = sp.FunctionTransformer(
            func=np.log10, inverse_func=inverterLog10Func)
        trainXLog10 = self.transformerLog10.transform(self.trainX)
        self.lr = LinearRegression()
        self.lr.fit(trainXLog10, self.trainY)

    def predict(self, num):
        num = np.reshape(num, (-1, 1))
        numConverted = self.transformerLog10.transform(num)
        predicted = self.lr.predict(numConverted)
        return(predicted)

    def return_coef_(self):
        return self.lr.coef_

    def return_intercept_(self):
        return self.lr.intercept_

    def ModelName(self):
        return("ModelLog")

# 対数モデル
# テスト用モデル式：
# y = 2 * log_{10}{x} + 3


def test_ModelLog10():
    # X軸の連続値
    plotX = np.linspace(0.5, 270, 500)
#     plt.figure()
    plotY = 2 * np.log10(plotX) + 3
#     plt.plot(plotX, plotY, label="y = 2 * log_{10}{x} + 3")
    # モデルの構築
    _modelLog10 = ModelLog10(
        trainX=plotX, trainY=plotY, targetX=[], targetY=[])
    _modelLog10.calcLr()
    predictedY = _modelLog10.predict(plotX)
#     plt.plot(plotX, predictedY, label="対数モデルによるモデル式")
#     plt.legend()
    mapeScore = returnMapeScore(plotY, predictedY)
    assert mapeScore < 1

In [None]:
# 引数として渡されたDFに
# functionName, functionCallNum, benchmarkName, benchmarkClass, process
# のカラムがあるかを確認する関数
# あればTrue、なければFalseを返す
def checkRawDFColumns(DF):
    columns = DF.columns.tolist()
    columnNames = ["functionName", "functionCallNum",
                   "benchmarkName", "benchmarkClass", "process"]
    for columnName in columnNames:
        if((columnName in columns) == False):
            print(columnName)
            return False
    return True


def test_checkRawDFColumns():
    # Trueケース
    True01DF = pd.DataFrame(
        [["functionName", -1, "benchmarkName", "Z", -1]],
        columns=["functionName", "functionCallNum",
                 "benchmarkName", "benchmarkClass", "process"]
    )
    True02DF = pd.DataFrame(
        [["functionName", -1, "benchmarkName", "Z", -1, "addedData0"]],
        columns=["functionName", "functionCallNum", "benchmarkName",
                 "benchmarkClass", "process", "addedData0"]
    )

    # Falseケース
    False01DF = pd.DataFrame(
        [["functionName", -1, "benchmarkName", "Z"]],
        columns=["functionName", "functionCallNum",
                 "benchmarkName", "benchmarkClass"]
    )
    False02DF = pd.DataFrame(
        [[-1, "benchmarkName", "Z", -1]],
        columns=["functionCallNum", "benchmarkName",
                 "benchmarkClass", "process"]
    )

    assert True == checkRawDFColumns(True01DF)
    assert True == checkRawDFColumns(True02DF)
    assert False == checkRawDFColumns(False01DF)
    assert False == checkRawDFColumns(False02DF)

In [None]:
# 実験結果を集計するためのデータフレームのカラムの名称のリストを返す関数
def returnNumOfColumns(dataType=False):
    returnList = []
    returnDict = {}
    # ベンチマーク名
    returnList.append("benchmarkName")
    returnDict["benchmarkName"] = str
    # 関数名
    returnList.append("functionName")
    returnDict["functionName"] = str
    # 使用データ(説明変数のリスト)
    returnList.append("usedDataX")
    returnDict["usedDataX"] = object
    # 使用データ(目的変数のリスト)
    returnList.append("usedDataY")
    returnDict["usedDataY"] = object
    # 使用データ数
    returnList.append("numOfData")
    returnDict["numOfData"] = "int16"
    # 固定したもの("Process" or "Class")
    returnList.append("ProcessOrClass")
    returnDict["ProcessOrClass"] = str
    # 固定したもの(プロセス数(数値)or問題サイズ(文字列))
    returnList.append("fixed")
    returnDict["fixed"] = object
    # 予測対象プロセス数
    returnList.append("targetProcess")
    returnDict["targetProcess"] = "int16"
    # 予測対象問題サイズ
    returnList.append("targetProblemSize")
    returnDict["targetProblemSize"] = str
    # 予測対象関数コール回数
    returnList.append("targetNumOfFunctionCall")
    returnDict["targetNumOfFunctionCall"] = "float32"
    # 線形モデルのオブジェクト
    returnList.append("objectLinModel")
    returnDict["objectLinModel"] = object
    # 線形モデルのMAPE
    returnList.append("MAPEOfLinModel")
    returnDict["MAPEOfLinModel"] = "float32"
    # 反比例モデルのオブジェクト
    returnList.append("objectIpModel")
    returnDict["objectIpModel"] = object
    # 反比例モデルのMAPE
    returnList.append("MAPEOfIpModel")
    returnDict["MAPEOfIpModel"] = "float32"
    # 対数モデルのオブジェクト
    returnList.append("objectLogModel")
    returnDict["objectLogModel"] = object
    # 対数モデルのMAPE
    returnList.append("MAPEOfLogModel")
    returnDict["MAPEOfLogModel"] = "float32"
    # 線形飽和モデルのオブジェクト
    returnList.append("objectBranchModel")
    returnDict["objectBranchModel"] = object
    # 線形飽和モデルのMAPE
    returnList.append("MAPEOfBranchModel")
    returnDict["MAPEOfBranchModel"] = "float32"
    # 説明変数に対するMAPEが最小のモデル名
    returnList.append("objectBestModelName")
    returnDict["objectBestModelName"] = object
    # 説明変数に対するMAPEが最小のモデルを用いて予測対象の関数コール回数を予測した時の平均絶対相対誤差率[%]
    returnList.append("MAPEOfBestModel")
    returnDict["MAPEOfBestModel"] = "float32"
    # 目標関数コール回数に対する、絶対相対誤差率を保持する
    returnList.append("RelativeErrorRate")
    returnDict["RelativeErrorRate"] = "float32"
    if(dataType == True):
        return(returnDict)
    else:
        return(returnList)

# 使用例
# columnNames = return_numOfColumns()
# df_sample = pd.DataFrame(columns=columnNames)
# df_sample


def test_returnNumOfColumns():
    lengthOfDictAndList = 21

    returnedList = returnNumOfColumns()
    returnedDict = returnNumOfColumns(dataType=True)
    # カラム名と辞書のキーが一致しているかを確認
    for key in returnedDict.keys():
        assert (key in returnedList)
    # カラム名を返す場合にリスト長が想定通りかどうかを確認
    assert len(returnedList) == lengthOfDictAndList
    # カラム名を返す場合に辞書のキー数が想定通りかどうかを確認
    assert len(returnedDict.keys()) == lengthOfDictAndList

In [None]:
def returnSpecificDataFromCSV(benchmarkName="cg", functionName=".TAU_application", process="1", benchmarkClass="A", csvDirPath="./csv_files"):
    fileName = f"pprof_{benchmarkName}{benchmarkClass}{process}.csv"
    filePath = f"{csvDirPath}/{fileName}"
    rawCSVData = pd.read_csv(filePath)
    rawCSVDataPerFunction = rawCSVData[(
        rawCSVData["Name"] == functionName)].set_index("Name")
    returnData = rawCSVDataPerFunction.at[functionName, "#Call"]
    return(returnData)


def test_returnSpecificDataFromCSV():
    case01 = {"benchmarkName": "test", "benchmarkClass": "A",
              "process": 128, "functionName": "function00", "functionCallNum": 99}
    case02 = {"benchmarkName": "test", "benchmarkClass": "B",
              "process": 256, "functionName": "function02", "functionCallNum": 900}
    for case in [case01, case02]:
        benchmarkName = case["benchmarkName"]
        benchmarkClass = case["benchmarkClass"]
        process = case["process"]
        functionName = case["functionName"]
        functionCallNum = case["functionCallNum"]
        assert functionCallNum == returnSpecificDataFromCSV(
            benchmarkName=benchmarkName, functionName=functionName, process=process, benchmarkClass=benchmarkClass, csvDirPath="../csv_files")

In [None]:
def convertStrToInt_problemSizeInNPB(Alphabet: str):
    if(Alphabet == "A"):
        return (1)
    elif(Alphabet == "B"):
        return (4)
    elif(Alphabet == "C"):
        return (16)
    elif(Alphabet == "D"):
        return (256)
    else:
        return False


def test_convertStrToInt_problemSizeInNPB():
    case00 = {"input": "A", "output": 1}
    case01 = {"input": "Z", "output": False}

    for case in [case00, case01]:
        output = convertStrToInt_problemSizeInNPB(case["input"])
        assert output == case["output"]


def convertIntToStr_problemSizeInNPB(number):
    number = int(number)
    if(number == 1):
        return("A")
    elif(number == 4):
        return("B")
    elif(number == 16):
        return("C")
    elif(number == 256):
        return("D")
    else:
        return False


def test_convertIntToStr_problemSizeInNPB():
    case00 = {"input": 1, "output": "A"}
    case01 = {"input": -1, "output": False}

    for case in [case00, case01]:
        output = convertIntToStr_problemSizeInNPB(case["input"])
        assert output == case["output"]


def convertBenchmarkClasses_problemSizeInNPB(inputList=["A", "B", "C", "D"]):
    ReturnList = []
    for content in inputList:
        ReturnList.append(convertStrToInt_problemSizeInNPB(content))
    return(ReturnList)


def test_convertBenchmarkClasses_problemSizeInNPB():
    case00 = {"input": ["A", "B", "C", "D"], "output": [1, 4, 16, 256]}
    case01 = {"input": ["D", "A"], "output": [256, 1]}
    case02 = {"input": ["A", "X", "Y", "Z"],
              "output": [1, False, False, False]}

    for case in [case00, case01, case02]:
        returnedList = convertBenchmarkClasses_problemSizeInNPB(
            inputList=case["input"])
        assert returnedList == case["output"]


# return_numOfColumns()でのカラム名としてのモデル名、モデルのメソッドModelName()が返すモデル名を相互的なキー・バリューとした辞書を返す関数
def returnDictModelNames():
    returnDict = {}
    # カラム名をキー・モデルが返すモデル名をバリュー
    returnDict["objectLinModel"] = "ModelLin"
    returnDict["objectIpModel"] = "ModelIp"
    returnDict["objectLogModel"] = "ModelLog"
    returnDict["objectBranchModel"] = "ModelBranch"
    # モデルが返すモデル名をキー・カラム名をバリュー
    returnDict["ModelLin"] = "objectLinModel"
    returnDict["ModelIp"] = "objectIpModel"
    returnDict["ModelLog"] = "objectLogModel"
    returnDict["ModelBranch"] = "objectBranchModel"

    return(returnDict)

In [None]:
# 結果を集計するためのDFに挿入するSeriesを作成する関数
def returnSeriesOfData(benchmarkName="benhmarkName", functionName="functionName", rawX=[1, 2, 3], rawY=[1, 2, 3], fixProcessOrClass="Class", fixed="B", targetProcess=256, targetBenchmarkClass="B", targetFunctionCallNum=-1, csvDirPath="./csv_files"):

    dataSeries = pd.Series(index=returnNumOfColumns(), dtype=object)
    dataSeries["benchmarkName"] = benchmarkName
    dataSeries["functionName"] = functionName
    dataSeries["usedDataX"] = rawX
    dataSeries["usedDataY"] = rawY
    dataSeries["numOfData"] = len(rawX)
    dataSeries["ProcessOrClass"] = fixProcessOrClass
    dataSeries["fixed"] = fixed
    dataSeries["targetProcess"] = targetProcess
    dataSeries["targetProblemSize"] = targetBenchmarkClass
    if (targetFunctionCallNum < 0):
        dataSeries["targetNumOfFunctionCall"] = returnSpecificDataFromCSV(
            benchmarkName=benchmarkName, functionName=functionName, process=targetProcess, benchmarkClass=targetBenchmarkClass, csvDirPath=csvDirPath)
    else:
        dataSeries["targetNumOfFunctionCall"] = targetFunctionCallNum
#     # MAPE の算出には returnMapeScore()を用いる
#     # returnMapeScore()の返り値の単位は％

#     # 線形モデル
    modelLin = ModelLin(trainX=rawX, trainY=rawY)
    modelLin.calcLr()
    predictedY = modelLin.predict(rawX)
    dataSeries["objectLinModel"] = modelLin
    dataSeries["MAPEOfLinModel"] = returnMapeScore(predictedY, rawY)
    # 反比例モデル
    modelIp = ModelIp(trainX=rawX, trainY=rawY)
    modelIp.calcLr()
    predictedY = modelIp.predict(rawX)
    dataSeries["objectIpModel"] = modelIp
    dataSeries["MAPEOfIpModel"] = returnMapeScore(predictedY, rawY)
    # 対数モデル
    modelLog = ModelLog10(trainX=rawX, trainY=rawY)
    modelLog.calcLr()
    predictedY = modelLog.predict(rawX)
    dataSeries["objectLogModel"] = modelLog
    dataSeries["MAPEOfLogModel"] = returnMapeScore(predictedY, rawY)
    # 分岐モデル
    modelBranch = ModelBranch(trainX=rawX, trainY=rawY)
    modelBranch.calcLr()
    predictedY = modelBranch.predict(rawX)
    dataSeries["objectBranchModel"] = modelBranch
    dataSeries["MAPEOfBranchModel"] = returnMapeScore(predictedY, rawY)
    # 最適なモデルのモデルのモデル名・MAPE値の算出
    listToCalcBestModel = {}
    listToCalcBestModel[dataSeries["objectLinModel"].ModelName(
    )] = dataSeries["MAPEOfLinModel"]
    listToCalcBestModel[dataSeries["objectIpModel"].ModelName(
    )] = dataSeries["MAPEOfIpModel"]
    listToCalcBestModel[dataSeries["objectLogModel"].ModelName(
    )] = dataSeries["MAPEOfLogModel"]
    listToCalcBestModel[dataSeries["objectBranchModel"].ModelName(
    )] = dataSeries["MAPEOfBranchModel"]
    minMAPE = min(listToCalcBestModel.values())
    dataSeries["MAPEOfBestModel"] = minMAPE
    dataSeries["objectBestModelName"] = [
        k for k, v in listToCalcBestModel.items() if v == minMAPE][0]
    dictOfModelNames = returnDictModelNames()
    bestModelName = dataSeries["objectBestModelName"]
    bestModelColumnName = dictOfModelNames[bestModelName]
    # 目標関数コール回数に対する、絶対相対誤差率
    ## 実データ
    realData = targetFunctionCallNum
    ## 予測データ
    predictedData = -1
    ### 最適モデルで予測を実施
    convertDict = returnDictModelNames()
    bestModelObjct = dataSeries[convertDict[bestModelName]]
    if(fixProcessOrClass == "Class"):
        targetX = targetProcess
    else:
        targetX = convertStrToInt_problemSizeInNPB(targetBenchmarkClass)
    predictedData = bestModelObjct.predict(targetX)[0][0]
    dataSeries["RelativeErrorRate"] = abs(
        realData - predictedData)/(realData) * 100

    return(dataSeries)


@pytest.fixture()
def test_generateCSVFilesForReturnSeriesOfData():
    filePath = "/tmp/pprof_testD256.csv"
    functionName = "testFunctionName"
    with open(filePath, 'w') as f:
        f.write("Name,#Call\n")
        # 本来は各モデルごとに最適な関数コール回数とするべきだが、できないので-1を返すようにした
        f.write(f"{functionName},-1\n")


def test_returnSeriesOfData(test_generateCSVFilesForReturnSeriesOfData):
    # 共通部分の設定
    benchmarkName = "test"
    functionName = "testFunctionName"
    targetProcess = 256
    targetBenchmarkClass = "D"
    fixProcessOrClass = "Class"
    fix = targetBenchmarkClass

    csvDirPathForTest = "/tmp"

    explanatoryVariableX = np.array([1, 2, 4, 8, 16, 32, 64, 128, 256])
    responseVariableY = [-1, -1, -1, -1, -1, -1, -1, -1, -1]

    # 分岐モデルが最適となる場合
    # 目的変数を分岐モデルが最適となるように設定する
    responseVariableY = [48, 52, 60, 76, 108, 172, 300, 300, 300]
    branchSeries = returnSeriesOfData(benchmarkName=benchmarkName, functionName=f"{functionName}", rawX=explanatoryVariableX, rawY=responseVariableY,
                                      fixProcessOrClass=fixProcessOrClass, fixed=targetBenchmarkClass, targetProcess=targetProcess, targetBenchmarkClass=targetBenchmarkClass, targetFunctionCallNum=responseVariableY[-1], csvDirPath=csvDirPathForTest)
    # 最適なモデルが分岐モデルであることを確認
    assert branchSeries["objectBestModelName"] == "ModelBranch"
    # 説明変数に対するMAPEが最小のモデルを用いて予測対象の関数コール回数を予測した時の絶対相対誤差率が非常に小さいことを確認

    # 反比例モデルが最適となる場合
    # 目的変数を反比例モデルが最適となるように設定する
    responseVariableY = 2/explanatoryVariableX + 3
    ipSeries = returnSeriesOfData(benchmarkName=benchmarkName, functionName=f"{functionName}", rawX=explanatoryVariableX, rawY=responseVariableY,
                                  fixProcessOrClass=fixProcessOrClass, fixed=targetBenchmarkClass, targetProcess=targetProcess, targetBenchmarkClass=targetBenchmarkClass, csvDirPath=csvDirPathForTest)
    # 最適なモデルが反比例モデルであることを確認
    assert ipSeries["objectBestModelName"] == "ModelIp"
    # 説明変数に対するMAPEが最小のモデルを用いて予測対象の関数コール回数を予測した時の絶対相対誤差率が非常に小さいことを確認

    # 線形モデルが最適となる場合
    # 目的変数を線形モデルが最適となるように設定する
    responseVariableY = 2 * explanatoryVariableX + 3
    linSeries = returnSeriesOfData(benchmarkName=benchmarkName, functionName=f"{functionName}", rawX=explanatoryVariableX, rawY=responseVariableY,
                                   fixProcessOrClass=fixProcessOrClass, fixed=targetBenchmarkClass, targetProcess=targetProcess, targetBenchmarkClass=targetBenchmarkClass, csvDirPath=csvDirPathForTest)
    # 最適なモデルが線形モデルであることを確認
    assert linSeries["objectBestModelName"] == "ModelLin"
    # 説明変数に対するMAPEが最小のモデルを用いて予測対象の関数コール回数を予測した時の絶対相対誤差率が非常に小さいことを確認

    # 対数モデルが最適となる場合
    # 目的変数を対数モデルが最適となるように設定する
    responseVariableY = 2 * np.log10(explanatoryVariableX) + 3
    logSeries = returnSeriesOfData(benchmarkName=benchmarkName, functionName=f"{functionName}", rawX=explanatoryVariableX, rawY=responseVariableY,
                                   fixProcessOrClass=fixProcessOrClass, fixed=targetBenchmarkClass, targetProcess=targetProcess, targetBenchmarkClass=targetBenchmarkClass, csvDirPath=csvDirPathForTest)
    # 最適なモデルが対数モデルであることを確認
    assert logSeries["objectBestModelName"] == "ModelLog"
    # 説明変数に対するMAPEが最小のモデルを用いて予測対象の関数コール回数を予測した時の絶対相対誤差率が非常に小さいことを確認

In [None]:
@pytest.fixture()
def test_generateAllBranchFunctionCSVData():
    benchmarkName = "branch"
    fileNamePrefix = f"pprof_{benchmarkName}"
    classes = ["A", "B", "C", "D"]
    explanatoryVariableX = [1, 2, 4, 8, 16, 32, 64, 128, 256]
    responseVariableY = [48, 52, 60, 76, 108, 172, 300, 300, 300]
    functionNames = []
    for i in range(4):
        functionNames.append(f"{benchmarkName}_0{i}")
    for benchmarkClass in classes:
        for process in explanatoryVariableX:
            fileName = f"{fileNamePrefix}{benchmarkClass}{process}.csv"
            filePath = f"/tmp/{fileName}"
            with open(filePath, 'w') as f:
                f.write("Name,#Call\n")
                for functionName in functionNames:
                    functionCallNum = responseVariableY[explanatoryVariableX.index(
                        process)]
                    f.write(f"{functionName},{functionCallNum}")

In [None]:
# 論文などに載せる集計結果を作成するために用いるDFを作成するための関数

def returnDFSummarizedData(
    benchmarkNames=["cg", "ep", "ft", "is", "lu", "mg"],
    classes=["A", "B", "C", "D"],
    processes=[1, 2, 4, 8, 16, 32, 64, 128, 256],
    targetIndex=-1,
    csvDirPath="./csv_files/",
):
    listOfSeriesData = []
    for benchmarkName in benchmarkNames:
        dfPerBenchmark = returnCollectedExistingData(
            benchmarkNames=[benchmarkName], classes=classes, processes=processes, csvDirPath=csvDirPath)
        for benchmarkClass in classes:
            dfPerBenchmarkClass = dfPerBenchmark[dfPerBenchmark["benchmarkClass"]
                                                 == benchmarkClass]
            functionNames = sorted(
                list(set(dfPerBenchmarkClass["functionName"])))
            for functionName in functionNames:
                dfPerFunction = dfPerBenchmarkClass[dfPerBenchmarkClass["functionName"] == functionName]

                # 説明変数と目的変数とをリスト化したものを抽出
                # プロセス数
                rawX = dfPerFunction['process'].tolist()
                # 関数コール回数
                rawY = dfPerFunction['functionCallNum'].tolist()
                # 引数として渡されたプロセス数未満の関数を除外する
                if (len(rawX) != len(processes) or len(rawY) != len(processes)):
                    continue

                # 説明変数のリストと目的変数のリストをモデル構築用・モデル試験用に分割
                trainX = rawX[:targetIndex]
                trainY = rawY[:targetIndex]
                targetX = rawX[targetIndex:]
                targetY = rawY[targetIndex:]

                # 説明変数のリスト・目的変数のリストが長さ0で渡される場合があり、それによるエラーを回避するための例外処理
                try:
                    seriesPerFunction = returnSeriesOfData(benchmarkName=benchmarkName, functionName=functionName, rawX=trainX, rawY=trainY, fixProcessOrClass="Class", fixed=benchmarkClass,
                                                           targetProcess=targetX[0], targetBenchmarkClass=benchmarkClass, targetFunctionCallNum=targetY[0], csvDirPath=csvDirPath)
                    listOfSeriesData.append(seriesPerFunction)
                except:
                    continue

    returnDF = pd.concat(listOfSeriesData, axis=1).T
    return(returnDF)


def test_returnDFSummarizedData():
    test_benchmarkNames = ["cg", "ep", "ft", "is", "lu", "mg"]
    test_classes = ["A", "B", "C", "D"]
    test_processes = [1, 2, 4, 8, 16, 32, 64, 128, 256]
    test_targetIndex = -1
    # テストデータを作成する時間がないので、利用可能な既存のすべての実データを利用する
    test_csvDirPath = "../csv_files/"
    test_DF = returnDFSummarizedData(benchmarkNames=test_benchmarkNames, classes=test_classes,
                                     processes=test_processes, targetIndex=test_targetIndex, csvDirPath=test_csvDirPath)
    for benchmarkName in test_benchmarkNames:
        test_DFPerBenchmarkName = test_DF[test_DF["benchmarkName"]
                                          == benchmarkName]
        for benchmarkClass in test_classes:
            test_DFPerBenchmarkNamePerBenchmarkClass = test_DFPerBenchmarkName[
                test_DFPerBenchmarkName["fixed"] == benchmarkClass]
            # [processesの要素数-1] と モデルの構築に使用されたデータ数が同じ
            for index in test_DFPerBenchmarkNamePerBenchmarkClass.index.tolist():
                #             print(test_DFPerBenchmarkNamePerBenchmarkClass[test_DFPerBenchmarkNamePerBenchmarkClass["usedDataX"] == test_processes[:test_targetIndex]])
                assert test_DFPerBenchmarkNamePerBenchmarkClass.at[index,
                                                                   "usedDataX"] == test_processes[:test_targetIndex]
            # targetProcessとfixedが同じ、もしくは、targetProblemSizeとfixedが同じ
            assert len(test_DFPerBenchmarkNamePerBenchmarkClass[test_DFPerBenchmarkNamePerBenchmarkClass[
                       "targetProcess"] == test_DFPerBenchmarkNamePerBenchmarkClass["fixed"]].index) == 0

In [None]:
# 入力：returnSeriesOfDataを結合したDF（含むベンチマークの種類は1つ）
# 出力：各モデルの採用割合が入ったSeries
def returnSeriesOfDatumPerBenchmark(inputDF):
    # 全データが単一のベンチマークによるものかを確認し、そうでなければ警告を出力する
    listOfBenchmarkNameInInputDF = inputDF["benchmarkName"].tolist()
    noDuplicateBenchmarkName = list(set(listOfBenchmarkNameInInputDF))
    if (len(noDuplicateBenchmarkName) != 1):
        warnings.warn("入力DFには複数のベンチマークの結果が含まれています")
    benchmarkName = noDuplicateBenchmarkName[0]
    numOfInputDF = len(inputDF)
    modelNames = ["ModelIp", "ModelLog", "ModelBranch", "ModelLin"]
    contentList = [benchmarkName.upper()]
    summarizedRateExcludeModelLin = 0
    for modelName in modelNames:
        dfOfModel = inputDF[inputDF["objectBestModelName"] == modelName]
        numOfModel = len(dfOfModel)
        rateOfModel = int(numOfModel/numOfInputDF * 100)

        try:
            maxInDfOfModel = int(dfOfModel["MAPEOfBestModel"].max()*10)/10
        except:
            maxInDfOfModel = "-"

        try:
            minInDfOfModel = int(dfOfModel["MAPEOfBestModel"].min()*10)/10
        except:
            minInDfOfModel = "-"

        if modelName != "ModelLin":
            summarizedRateExcludeModelLin += rateOfModel
        elif modelName == "ModelLin":
            rateOfModel = 100 - summarizedRateExcludeModelLin

        instanceDatumAboutRateOfModel = DatumAboutRateOfModel(
            modelName=modelName, rateOfModel=rateOfModel, minMAPE=minInDfOfModel, maxMAPE=maxInDfOfModel)
        contentList.append(instanceDatumAboutRateOfModel.returnFormattedStr())
    columnList = ["benchmarkName"] + modelNames
    returnSeries = pd.Series(data=contentList, index=columnList)
    return(returnSeries)


class DatumAboutRateOfModel:
    def __init__(self, modelName, rateOfModel, minMAPE, maxMAPE):
        # モデル名
        self.modelName = modelName
        # モデルの被採用率
        self.rateOfModel = rateOfModel
        # モデルの最小MAPE・最大MAPE
        self.minMAPE = minMAPE
        self.maxMAPE = maxMAPE

    def returnFormattedStr(self):
        if (self.maxMAPE == "-" or self.minMAPE == "-"):
            strMinMax = "-"
        else:
            strMinMax = (f"{self.minMAPE},{self.maxMAPE}")
        returnStr = f"{self.rateOfModel}({strMinMax})"
        return(returnStr)


def test_returnSeriesOfDatumPerBenchmark():
    # テストについて
    pass
    # 各モデルがそれぞれカウントされている
    # 線形飽和モデル
    plotXForBranch = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
    plotYForBranch = [5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 23, 23, 23, 23]
    seriesBranch = returnSeriesOfData(benchmarkName="test", functionName="modelBranch", rawX=plotXForBranch, rawY=plotYForBranch, fixProcessOrClass="Class",
                                      fixed="B", targetProcess=256, targetBenchmarkClass="B", targetFunctionCallNum=plotYForBranch[-1], csvDirPath="./csv_files")
    csvDirPath = "../csv_files"
    # 反比例モデル・線形モデル・対数モデルで共通の説明変数
    plotX = np.linspace(0.5, 256, 500)
    # 3モデルで共通な説明変数が256のときのインデックス値
    indexAt256Core = -1
    # 反比例モデル
    plotYForIp = 2/plotX + 3
    seriesIp = returnSeriesOfData(benchmarkName="test", functionName="modelIp", rawX=plotX, rawY=plotYForIp, fixProcessOrClass="Class",
                                  fixed="B", targetProcess=256, targetBenchmarkClass="B", targetFunctionCallNum=plotYForIp[-1], csvDirPath=csvDirPath)
    # 線形モデル
    plotYForLin = 2 * plotX + 3
    seriesLin = returnSeriesOfData(benchmarkName="test", functionName="modelLin", rawX=plotX, rawY=plotYForLin, fixProcessOrClass="Class",
                                   fixed="B", targetProcess=256, targetBenchmarkClass="B", targetFunctionCallNum=plotYForLin[-1], csvDirPath=csvDirPath)
    # 対数モデル
    plotYForLog = 2 * np.log10(plotX) + 3
    seriesLog = returnSeriesOfData(benchmarkName="test", functionName="modelLog", rawX=plotX, rawY=plotYForLog, fixProcessOrClass="Class",
                                   fixed="B", targetProcess=256, targetBenchmarkClass="B", targetFunctionCallNum=plotYForLog[-1], csvDirPath=csvDirPath)

    # テスト対象となる関数の引数となるDF
    inputDF = pd.concat(
        [seriesBranch, seriesIp, seriesLin, seriesLog], axis=1).T
    # テスト対象となる関数の返り値
    result = returnSeriesOfDatumPerBenchmark(inputDF=inputDF)
    # 4つのモデルが最適となるDFをテストデータとするのでそれぞれ25%であることを確認
    dictResult = result.to_dict()
    for benchmarkName in ["ModelIp", "ModelLog", "ModelBranch", "ModelLin"]:
        assert dictResult[benchmarkName][:2] == "25"

In [None]:
# 相対誤差率を返す関数
# realNum：真値
# predictedNum：予測値
# decimalPlace：少数第n位までにするか
def returnRelativeErrorRate(realNum=1, predictedNum=1, decimalPlace=3):
    if realNum == 0:
        warnings.warn("真値が0です")
        return -1
    diff = realNum - predictedNum
    relativeErrorRate = abs(diff/realNum)
    roundedRelativeErrorRate = np.round(relativeErrorRate, decimalPlace)
    return roundedRelativeErrorRate


def test_returnRelativeErrorRate():
    case00 = returnRelativeErrorRate(realNum=1, predictedNum=1, decimalPlace=3)
    assert -0.01 < case00 < 0.01
    case01 = returnRelativeErrorRate(realNum=1, predictedNum=100)
    assert 98.9 < case01 < 99.1
    case02 = returnRelativeErrorRate(realNum=3, predictedNum=4, decimalPlace=2)
    assert 0.329 < case02 < 0.333
    with pytest.warns(None):
        case03 = returnRelativeErrorRate(realNum=0, predictedNum=0)
    assert case03 == -1

In [None]:
# Multiple regression analysis （重回帰分析）

# class baseModelForMultipleRegression
# 重回帰分析用のモデルの共通部分となるクラス
# 引数名とその説明
# inputDF：入力データの全てを保持したDF（説明変数・目的変数・ベンチマーク名・関数名を最低限保持している）
# explanatoryVariableColumnNames：inputDFの列名の中で、説明変数として用いるカラム名のリスト
# responseVariableColumnNames：inputDFの列名の中で、説明変数として用いるカラム名のリスト
# conditionDictForTest："カラム名":"要素"でテスト用データを指定する
class ModelBaseForMultipleRegression:

    def __init__(self, inputDF, explanatoryVariableColumnNames, responseVariableColumnNames, conditionDictForTest={}):

        # 関数名が複数種類ある場合は警告
        functionNames = set(inputDF["functionNames"].tolist())
        if(len(functionNames) != 1):
            warnings.warn("関数が複数種類存在します")

        # 各種カラム名を保持
        self.explanatoryVariableColumnNames = explanatoryVariableColumnNames
        self.responseVariableColumnNames = responseVariableColumnNames

        # テスト用とモデル構築用にデータを分割する
        # テスト用
        dfForTestingModel = inputDF
        # モデル構築用DF
        dfForBuildingModel = inputDF
        if (len(conditionDictForTest) != 0):
            for keys in conditionDictForTest.keys():
                dfForTestingModel = dfForTestingModel[dfForTestingModel[keys]
                                                      == conditionDictForTest[keys]]
                dfForBuildingModel = dfForBuildingModel[dfForBuildingModel[keys]
                                                        != conditionDictForTest[keys]]

        # self.rawExplanatoryVariableをセット
        self.rawExplanaoryVariable = dfForBuildingModel[explanatoryVariableColumnNames]
        # self.rawResponseVariableをセット
        self.rawResponseVariable = dfForBuildingModel[responseVariableColumnNames]
        # self.rawExplanatoryVariableForTestをセット
        self.rawExplanaoryVariableForTest = dfForTestingModel[explanatoryVariableColumnNames]
        # self.rawResponseVariableForTestをセット
        self.rawResponseVariableForTest = dfForTestingModel[responseVariableColumnNames]


class ModelLinForMultipleRegression(ModelBaseForMultipleRegression):
    # 線形モデル（重回帰分析）

    def transformDataForModel(self, inputDF):
        # inputDFで与えられたデータをモデルに適した形に変形する
        return(inputDF)

    def setUpDataBeforeCalcLr(self):
        # 説明変数・目的変数を変換する関数
        # モデル構築用データ
        self.dataXForPredict = self.transformDataForModel(
            self.rawExplanaoryVariable)
        self.dataTForPredict = self.transformDataForModel(
            self.rawResponseVariable)
        # テスト用データ
        self.dataXForTest = self.transformDataForModel(
            self.rawExplanaoryVariableForTest)
        self.dataTForTest = self.transformDataForModel(
            self.rawResponseVariableForTest)

    def calcLr(self):
        # 実際にモデルを構築する
        self.lr = LinearRegression()
        self.lr.fit(self.dataXForPredict, self.dataTForPredict)

    def predict(self, inputDF):
        # inputDFのデータから構築されたモデルを使って予測を行う

        # inputDFから説明変数データのみを取得
        inputDFOnlyExplanatoryVariableColumn = inputDF[self.explanatoryVariableColumnNames]
        # 予測を実行
        result = self.lr.predict(inputDFOnlyExplanatoryVariableColumn)

        return(result)


def test_ModelLinForMultipleRegression():
    # 説明変数
    plotX = np.linspace(0, 20, 10)
    plotY = np.linspace(20, 40, 10)
    plotZ = np.linspace(40, 60, 10)
    # 目的変数
    plotT = plotX + 2 * plotY + 3 * plotZ + 4

    # DFを作成する
    # カラム名のリスト
    columnNames = ["plotX", "plotY", "plotZ", "plotT"]
    datumForDF = [plotX, plotY, plotZ, plotT]
    inputDFForTest = pd.DataFrame(index=columnNames, data=datumForDF).T
    inputDFForTest["functionNames"] = "functionName"

    # 目的変数・説明変数のカラム名のリスト
    # 目的変数のカラム名のリスト
    columnNamesForExp = columnNames[:-1]
    # 説明変数のカラム名のリスト
    columnNamesForRes = columnNames[-1:]

    # 予測をする
    # モデルオブジェクトの作成
    objectModel = ModelLinForMultipleRegression(inputDF=inputDFForTest, explanatoryVariableColumnNames=columnNamesForExp,
                                                responseVariableColumnNames=columnNamesForRes, conditionDictForTest={})
    # モデルの生成の準備
    objectModel.setUpDataBeforeCalcLr()
    # モデルの生成
    objectModel.calcLr()
    # モデルによる予測
    # 入力データDFを作成
    inputDFForPredict = pd.DataFrame(inputDFForTest.tail(1))
    predictedNum = objectModel.predict(inputDFForPredict)

    # 相対誤差率でテスト対象のデータが想定通りに動作しているかを判断する
    # 相対誤差率を計算するために実データを取得する
    realNum = plotT[-1]
    relativeErrorRate = returnRelativeErrorRate(realNum = realNum, predictedNum = predictedNum)

    assert relativeErrorRate < 1


class ModelIpForMultipleRegression(ModelBaseForMultipleRegression):
    # 反比例モデル（重回帰分析）
    
    def transformDataForModel(self, inputDF):
        # inputDFで与えられたデータをモデルに適した形に変形する
        return(inputDF)

    def setUpDataBeforeCalcLr(self):
        # 説明変数・目的変数を変換する関数
        # モデル構築用データ
        self.dataXForPredict = self.transformDataForModel(
            self.rawExplanaoryVariable)
        self.dataTForPredict = self.transformDataForModel(
            self.rawResponseVariable)
        # テスト用データ
        self.dataXForTest = self.transformDataForModel(
            self.rawExplanaoryVariableForTest)
        self.dataTForTest = self.transformDataForModel(
            self.rawResponseVariableForTest)

    def calcLr(self):
        # 実際にモデルを構築する
        self.lr = LinearRegression()
        self.lr.fit(self.dataXForPredict, self.dataTForPredict)

    def predict(self, inputDF):
        # inputDFのデータから構築されたモデルを使って予測を行う

        # inputDFから説明変数データのみを取得
        inputDFOnlyExplanatoryVariableColumn = inputDF[self.explanatoryVariableColumnNames]
        # 予測を実行
        result = self.lr.predict(inputDFOnlyExplanatoryVariableColumn)

        return(result)
    
    pass


def test_ModelIpForMultipleRegression():
    # 説明変数
    plotX = np.linspace(1, 21, 10)
    plotY = np.linspace(20, 40, 10)
    plotZ = np.linspace(40, 60, 10)
    # 目的変数
    plotT = 1/plotX + 2/plotY + 3/plotZ + 4

    # DFを作成する
    # カラム名のリスト
    columnNames = ["plotX", "plotY", "plotZ", "plotT"]
    datumForDF = [plotX, plotY, plotZ, plotT]
    inputDFForTest = pd.DataFrame(index=columnNames, data=datumForDF).T
    inputDFForTest["functionNames"] = "functionName"

    # 目的変数・説明変数のカラム名のリスト
    # 目的変数のカラム名のリスト
    columnNamesForExp = columnNames[:-1]
    # 説明変数のカラム名のリスト
    columnNamesForRes = columnNames[-1:]

    # 予測をする
    # モデルオブジェクトの作成
    objectModel = ModelLinForMultipleRegression(inputDF=inputDFForTest, explanatoryVariableColumnNames=columnNamesForExp,
                                                responseVariableColumnNames=columnNamesForRes, conditionDictForTest={})
    # モデルの生成の準備
    objectModel.setUpDataBeforeCalcLr()
    # モデルの生成
    objectModel.calcLr()
    # モデルによる予測
    # 入力データDFを作成
    inputDFForPredict = pd.DataFrame(inputDFForTest.tail(1))
    predictedNum = objectModel.predict(inputDFForPredict)

    # 相対誤差率でテスト対象のデータが想定通りに動作しているかを判断する
    # 相対誤差率を計算するために実データを取得する
    realNum = plotT[-1]
    relativeErrorRate = returnRelativeErrorRate(realNum=realNum, predictedNum=predictedNum)

#     return(relativeErrorRate, predictedNum, realNum)
    assert relativeErrorRate < 1

class ModelLogForMultipleRegression(ModelBaseForMultipleRegression):
    # 対数モデル（重回帰分析）
    
    def transformDataForModel(self, inputDF):
        # inputDFで与えられたデータをモデルに適した形に変形する
        return(inputDF)

    def setUpDataBeforeCalcLr(self):
        # 説明変数・目的変数を変換する関数
        # モデル構築用データ
        self.dataXForPredict = self.transformDataForModel(
            self.rawExplanaoryVariable)
        self.dataTForPredict = self.transformDataForModel(
            self.rawResponseVariable)
        # テスト用データ
        self.dataXForTest = self.transformDataForModel(
            self.rawExplanaoryVariableForTest)
        self.dataTForTest = self.transformDataForModel(
            self.rawResponseVariableForTest)

    def calcLr(self):
        # 実際にモデルを構築する
        self.lr = LinearRegression()
        self.lr.fit(self.dataXForPredict, self.dataTForPredict)

    def predict(self, inputDF):
        # inputDFのデータから構築されたモデルを使って予測を行う

        # inputDFから説明変数データのみを取得
        inputDFOnlyExplanatoryVariableColumn = inputDF[self.explanatoryVariableColumnNames]
        # 予測を実行
        result = self.lr.predict(inputDFOnlyExplanatoryVariableColumn)

        return(result)    
    
    pass


def test_ModelLogForMultipleRegressiont():
    # 説明変数
    plotX = np.linspace(1, 21, 10)
    plotY = np.linspace(20, 40, 10)
    plotZ = np.linspace(40, 60, 10)
    # 目的変数
    plotT = 1 * np.log10(plotX) + 2 * np.log10(plotY) + 3 * np.log10(plotZ) + 4

    # DFを作成する
    # カラム名のリスト
    columnNames = ["plotX", "plotY", "plotZ", "plotT"]
    datumForDF = [plotX, plotY, plotZ, plotT]
    inputDFForTest = pd.DataFrame(index=columnNames, data=datumForDF).T
    inputDFForTest["functionNames"] = "functionName"

    # 目的変数・説明変数のカラム名のリスト
    # 目的変数のカラム名のリスト
    columnNamesForExp = columnNames[:-1]
    # 説明変数のカラム名のリスト
    columnNamesForRes = columnNames[-1:]

    # 予測をする
    # モデルオブジェクトの作成
    objectModel = ModelLinForMultipleRegression(inputDF=inputDFForTest, explanatoryVariableColumnNames=columnNamesForExp,
                                                responseVariableColumnNames=columnNamesForRes, conditionDictForTest={})
    # モデルの生成の準備
    objectModel.setUpDataBeforeCalcLr()
    # モデルの生成
    objectModel.calcLr()
    # モデルによる予測
    # 入力データDFを作成
    inputDFForPredict = pd.DataFrame(inputDFForTest.tail(1))
    predictedNum = objectModel.predict(inputDFForPredict)

    # 相対誤差率でテスト対象のデータが想定通りに動作しているかを判断する
    # 相対誤差率を計算するために実データを取得する
    realNum = plotT[-1]
    relativeErrorRate = returnRelativeErrorRate(realNum=realNum, predictedNum=predictedNum)
    assert relativeErrorRate < 1
