# 文件操作

## 实时向csv文件写入数据

- 最常用的一种方法，利用pandas包

In [16]:
import pandas as pd
import os

#任意的多组列表
a = [1,2,3]
b = [4,5,6]    

#字典中的key值即为csv中列名
dataframe = pd.DataFrame({'a_name':a,'b_name':b})

#将DataFrame存储为csv,index表示是否显示行名，default=True，"a"表示导入的数据不会将test3.csv文件中的原始数据覆盖
dataframe.to_csv("test.csv", mode='a', index=False,sep=',')

#同样pandas也提供简单的读csv方法，会得到一个DataFrame类型的data
data = pd.read_csv('test.csv')
print(data)

os.remove("test.csv")

   a_name  b_name
0       1       4
1       2       5
2       3       6


- 另一种方法用csv包，一行一行写入

In [17]:
import csv

with open("test3.csv","a",newline='') as csvfile: 
    writer = csv.writer(csvfile, delimiter=' ')
    writer.writerow(["index","a_name","b_name"])

上述代码参数解释：

​ test3.csv表示要创建一个test3.csv的文件，注意:如果当前目录下没有这个文件，则会自动生成test3.csv文件，如果当前目录下已经有了test3.csv的文件，那么在新建结束后，会将原始的test3.csv文件覆盖。

​ "a"表示导入的数据不会将test3.csv文件中的原始数据覆盖，即：在后面继续添加，如果需要覆盖，则将"a"改成"w"即可。

​ newline=’ ’ 表示不会以空行作为每一行的分割线，注意:这一行代码必须添加上，否则csv文件中的每一行数据的前面会出现空行。

In [18]:
list1=[0,0,0]
list2=[1,1,1]

data_array=[[5,5,5],[1,2,3]]
with open("test3.csv","a",newline='') as csvfile: 
    writer = csv.writer(csvfile)
    # 多行写入用writerows
    writer.writerows(data_array)

    # 单行逐个写入用 writerow
#     writer.writerow(list1)
#     writer.writerow(list2)
    
    # 执行添加数据操作之后，要写close关闭，否则下次无法再次插入新的数据
    csvfile.close()

​ 实时写入数据时，有可能是逐个写入，也可能是一次性写入多个数据。多行写入用writerows，

单行逐个写入用 writerow，根据需求调整。close()这行代码一定要加上，否则下次无法再次插入新的数据。

In [19]:
list1=[0,0,0]
list2=[1,1,1]

data_array=[[5,5,5],[1,2,3]]
with open("test3.csv","a",newline='') as csvfile: 
    writer = csv.writer(csvfile)
    # 写入多行用writerows
#     writer.writerows(data_array)

#     写入单行用 writerow
    writer.writerow(list1)
    writer.writerow(list2)
    
    # 执行添加数据操作之后，要写close关闭，否则下次无法再次插入新的数据
    csvfile.close()

In [20]:
import csv
with open("test3.csv","r") as csvfile:
    reader = csv.reader(csvfile)
    #这里不需要readlines
    for line in reader:
        print(line)
        
os.remove("test3.csv")

['index a_name b_name']
['5', '5', '5']
['1', '2', '3']
['0', '0', '0']
['1', '1', '1']


## 实时向txt文件写入数据

实时向txt文件写入内容的过程，与创建csv文件，实时向文件写入内容大致相同，只需要添加一个换行符就行。

In [21]:
with open ('testing.txt','a') as f:
    f.write('%s       %s      %s'%('姓名','国籍','金额'))

再次向txt文件中写入数据：

In [22]:
with open ('testing.txt','a') as f:   
    f.write('\n')     #换行
    f.write('%s       %s      %d' %('张三','中国',2000))

In [23]:
with open("testing.txt","r") as testfile:
    reader = csv.reader(testfile)
    #这里不需要readlines
    for line in reader:
        print(line)
        
os.remove("testing.txt")

['姓名       国籍      金额']
['张三       中国      2000']


## 使用pickle读写数据

In [1]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(20).reshape(4,5))

df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [2]:
#使用DataFrame的to_pickle属性就可以生成pickle文件对数据进行永久储存
df.to_pickle('D:\\Jupyter notebook\\data\\python\\foo.pkl')

In [3]:
pd.read_pickle('D:\\Jupyter notebook\\data\\python\\foo.pkl')

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


# 类型提示

众所周知，Python 是动态类型语言，运行时不需要指定变量类型。这一点是不会改变的，但是2015年9月创始人 Guido van Rossum 在 Python 3.5 引入了一个类型系统，允许开发者指定变量类型–类型提示（Type Hints）。它的主要作用是方便开发，供IDE 和各种开发工具使用，对代码运行不产生影响，运行时会过滤类型信息。

## 优点

1、易于理解代码
指定函数输入和输出，便于理解代码片段的过程。
有了类型提示（Type Hints），在调用函数时就可以告诉你需要传递哪些参数类型；以及需要扩展/修改函数时，也会告诉你输入和输出所需要的数据类型。 

2、 易于重构
类型提示可以在重构时，更好得帮助我们定位类的位置。

虽然许多IDE现在采用一些启发式方法提供了这项功能，但是类型提示可以使IDE具有100%的检测准确率，并定位到类的位置。这样可以更平滑，更准确地检测变量类型在代码中的运行方式。

请记住，虽然动态类型意味着任何变量都可以成为任何类型，但是所有变量在所有时间中都应只有一种类型。类型系统仍然是编程的核心组件，想想那些使用isinstance判断变量类型、应用逻辑所浪费的时间吧。

3、 易于使用库
使用类型提示意味着IDE可以拥有更准确、更智能的建议引擎。当调用自动完成时，IDE会完全放心地知道对象上有哪些方法/属性可用。此外，如果用户尝试调用不存在的内容或传递不正确类型的参数，IDE可以立即警告它。

4、验证运行数据
类型标注（Type annotations）是一种直接的方式，并且是类型文档中最常见到的那种方式。

使用：语句将信息附加到变量或函数参数中。
->运算符用于将信息附加到函数/方法的返回值中。

## 类型标注

类型标注（Type annotations）是一种直接的方式，并且是类型文档中最常见到的那种方式。
声明一个函数参数的类型，只要在参数名称的后面加个":“号，带上类型名称就行了。声明函数的返回值类型，只要在函数声明结束之前，也就是”:“号之前加入一个”->"，带上类型名称。

常见数据类型

- int,long,float: 整型,长整形,浮点型
- bool,str: 布尔型，字符串类型
- List, Tuple, Dict, Set:列表，元组，字典, 集合
- Iterable,Iterator:可迭代类型，迭代器类型
- Generator：生成器类型

### 基本数据类型

In [2]:
def test(a: int, b: str) -> str:
    print(a, b)
    return 1000


if __name__ == '__main__':
    test('test', 'abc')

test abc


只是提出了警告，但实际上运行是不会报错，毕竟python的本质还是动态语言。

### 复杂的类型标注

In [3]:
from typing import List
Vector = List[float]

def scale(scalar: float, vector: Vector) -> Vector:
    return [scalar * num for num in vector]

# typechecks; a list of floats qualifies as a Vector.
new_vector = scale(2.0, [1.0, -4.2, 5.4])

In [6]:
from typing import Dict, Tuple, Sequence

ConnectionOptions = Dict[str, str]
Address = Tuple[str, int]
Server = Tuple[Address, ConnectionOptions]

def broadcast_message(message: str, servers: Sequence[Server]) -> None:
    ...

# The static type checker will treat the previous type signature as
# being exactly equivalent to this one.
def broadcast_message(
    message: str,
    servers: Sequence[Tuple[Tuple[str, int], Dict[str, str]]]) -> None:
    pass

### 泛型指定

In [7]:
from typing import Sequence, TypeVar, Union

T = TypeVar('T')      # Declare type variable

def first(l: Sequence[T]) -> T:   # Generic function
    return l[0]

T = TypeVar('T')  # Can be anything
A = TypeVar('A', str, bytes)  # Must be str or bytes
A = Union[str, None] # Must be str or None

In [9]:
# 创建变量时类型指定
from typing import NamedTuple

class Employee(NamedTuple):
    name: str
    id: int = 3

employee = Employee('Guido')
assert employee.id == 3

Optional，可选类型， Optional[X] 等价于 X | None （或 Union[X, None] ）。 意思是说这个参数可以为空或已经声明的类型。

但值得注意的是，这个并不等价于可选参数，当它作为参数类型注解的时候，不代表这个参数可以不传递了，而是说这个参数可以传为 None。

In [1]:
#Optional
from typing import Optional

def foo_v2(a: int, b: Optional[int] = None):
    if b:
        print(a + b)
    else:
        print("parameter b is a NoneType!")

#只传入a位置的实参
foo_v2(2)

parameter b is a NoneType!


### 参数注释

In [11]:
def send_mail(
    sender: "fish@example.com", receiver: "panda@example.com",
    subject: "say hello to you.", message: "hello.",
    attachments: list("type<io.BytesIO>")) -> bool:
    return sender

In [14]:
send_mail("dog@example.com", "panda@example.com", "panda@example.com", "panda@example.com", "panda@example.com")

'dog@example.com'

写在":“号后面的并一定是一个类型。Python把这种写法称为"annotations”(标注)，在运行的时候完全不使用它。它是专门设计出来给程序员和自动处理程序看的。任何可被计算出来的东西都可以写在那里。

很明显，与直接写类型相比，直接把参数是什么样子写出来更容易让调用者看清楚函数的使用方法。更激进的话，标注还可以是被计算出来的。

In [15]:
def add_matrix3x3(
    x: [(1, 1, 1), (1, 1, 1), (1, 1, 1)],
    y: [(2, 2, 2), (2, 2, 2), (2, 2, 2)],
) -> [(3, 3, 3), (3, 3, 3), (3, 3, 3)]:
    pass

## 不足之处

In [16]:
from typing import List


def test(b: List[int]) -> str:
    print(b)
    return 'test'


if __name__ == '__main__':
    test([1, 'a'])

[1, 'a']


从这个例子可以看出来，虽然我们指定了List[int]即由int组成的列表，但是，实际中，只要这个列表中存在int（其他的可以为任何类型），就不会出现警告。

# 类型推断

isinstance() 函数来判断一个对象是否是一个已知的类型，类似 type()。

isinstance() 与 type() 区别：

- type() 不会认为子类是一种父类类型，不考虑继承关系。

- isinstance() 会认为子类是一种父类类型，考虑继承关系。

如果要判断两个类型是否相同推荐使用 isinstance()。

以下是 isinstance() 方法的语法:

isinstance(object, classinfo)

参数
- object -- 实例对象。
- classinfo -- 可以是直接或间接类名、基本类型或者由它们组成的元组。

如果对象的类型与参数二的类型（classinfo）相同则返回 True，否则返回 False。

## 单类型

In [17]:
a = 2
isinstance (a,int)

True

In [18]:
isinstance (a,str)

False

## 多类型

In [19]:
isinstance (a,(str,int,list))    # 是元组中的一个返回 True

True

对于基本类型来说 classinfo 可以是：

int，float，bool，complex，str(字符串)，list，dict(字典)，set，tuple

要注意的是，classinfo 的字符串是 str 而不是 string，字典也是简写 dict。

## None

In [27]:
isinstance(None, type(None))

True

In [28]:
isinstance(None, (type(None), list, str))

True

# 标准代码

In [1]:
from pandas import DataFrame
from pandas import Series
from numpy import ndarray
from typing import Union, List, Dict
import pandas as pd
import numpy as np
from sklearn.metrics import r2_score, mean_squared_error
from scipy.spatial.distance import cdist
import optuna
import warnings

warnings.filterwarnings('ignore')


# 归一化和反归一化函数
def __minmax(data: DataFrame,
             feature_max: Series,
             feature_min: Series,
             inverse: bool = False) -> DataFrame:
    """
    对输入数据进行归一化或反归一化

    参数说明
    ----------
    data : {DataFrame} of shape (n_samples, n_features)
        输入数据，可以是历史数据，实时数据或者状态矩阵等
    feature_max : {Series} of shape (n_features, )
        输入数据每个特征的最大值
    feature_min : {Series} of shape (n_features, )
        输入数据每个特征的最小值
    inverse : {bool}
        是否反归一化，如果为True，则为反归一化；反之为归一化

    返回值
    -------
    data : {DataFrame} of shape (n_samples, n_features)
        输出归一化或反归一化后的数据
    """
    if inverse:
        # 反归一化
        max_min_diff = feature_max - feature_min
        data_min_diff = data * max_min_diff
        data = data_min_diff + feature_min
    else:
        # 正归一化
        max_min_diff = feature_max - feature_min
        data_min_diff = data - feature_min
        data = data_min_diff / max_min_diff
    return data


# 初始化状态矩阵
def __init_state_matrix(data: DataFrame, n_columns: Union[int, None],
                        time_tag: Union[str, None]) -> DataFrame:
    """
    初始化状态矩阵参数并生成状态矩阵

    参数说明
    ----------
    data : {DataFrame} of shape (n_samples, n_features)
        输入数据，可以是历史数据
    time_tag : {str}
        时间标签，如果为None，默认数据中不含时间特征
    n_columns : {int}
        状态矩阵数据样本数

    返回值
    -------
    D : {DataFrame} of shape (n_samples, n_features)
        输出数据，状态矩阵
    """
    # 规范化数据
    data = data.reset_index(drop=True)

    # 选取时间列
    if time_tag != None:
        no_time_tags = [i for i in data.columns if i != time_tag]
        data[time_tag] = pd.to_datetime(data[time_tag])
        data_no_time = data.loc[:, no_time_tags].astype('float32')
    else:
        data_no_time = data.astype('float32')

    # 求最大最小值
    feature_max = data_no_time.max()
    feature_min = data_no_time.min()

    # 数据归一化
    filter_data = __minmax(data_no_time, feature_max, feature_min)

    # 把每个测点的最大最小值中位数所在状态的数据均选入状态矩阵
    m = filter_data.shape[1]  # 数据列数
    index_list = []
    for i in range(m):
        index_max = filter_data.iloc[:, i].argmax()
        index_list.append(index_max)
        index_min = filter_data.iloc[:, i].argmin()
        index_list.append(index_min)
        index_median = np.argsort(
            filter_data.iloc[:,
                             i].values)[len(filter_data.iloc[:, i].values) //
                                        2]
        index_list.append(index_median)

    D1 = set(index_list)
    n = filter_data.shape[0]  # 数据行数
    D_full = set(range(n))
    D_comp = D_full - D1  # 补集

    # 剩余按照L2范数大小递减
    row_key = list(D_comp)
    row_value = []
    filter_data_comp = filter_data.iloc[row_key, :]
    for j in row_key:
        norm = np.linalg.norm(filter_data_comp.loc[j, :])
        row_value.append(norm)
    row = pd.DataFrame(zip(row_key, row_value)).sort_values(
        by=1, ascending=False).reset_index(drop=True)

    # 以t为因子进行抽取
    n_columns = n_columns
    k = (n_columns - len(D1))
    t = np.floor(len(D_comp) / (n_columns - len(D1)))  # 每t个抽取一次
    D2 = []
    i = 1
    for j in row.index:
        if j % t == 0 and i <= k:
            D2.append(int(row.loc[j, :][0]))
            i += 1
    D2 = set(D2)

    # 状态矩阵的行为特征数，列为样本数
    D_no_time = filter_data.iloc[list(D1
                                      | D2), :].reset_index(drop=True).values
    D_no_time = pd.DataFrame(D_no_time, columns=data_no_time.columns)

    # 反归一化
    D_no_time = __minmax(D_no_time, feature_max, feature_min, inverse=True)

    # 拼接时间列
    if time_tag != None:
        data_time = data.iloc[list(D1 | D2), :].loc[:, time_tag].reset_index(
            drop=True)
        D = pd.concat([data_time, D_no_time], axis=1)
    else:
        data_no_time = data
        D = D_no_time
    return D


def __distance(x1: ndarray, x2: ndarray, dist_metric: str) -> ndarray:
    """
    计算数据间的“距离”

    参数说明
    ----------
    x1 : {array-like}
        输入数据，矩阵或向量
    x2 : {array-like}
        输入数据，矩阵或向量
    dist_metric : {str}
        距离类型，默认为'union'，可选'gaussian','euclidean','union'

    返回值
    -------
    dist_mat : {array-like}
        输出数据，距离矩阵或向量
    """
    # 选择距离度量方式
    if dist_metric == 'gaussian':
        m, n = x1.shape[0], x2.shape[0]  #获取行数
        dist_matrix = np.zeros((m, n), dtype=float)  #全零矩阵
        # 数据间的距离
        for i in range(m):
            for j in range(n):
                dist_matrix[i][j] = np.sum((x1[i] - x2[j])**2)  #向量差的平方和
        # 参数初始化，表示数据的紧密程度
        gamma = 0.5
        dist_mat = np.exp(-gamma * dist_matrix)  #计算结果矩阵

    elif dist_metric == 'union':
        m, n = x1.shape[0], x2.shape[0]  #获取行数
        dist_matrix = np.zeros((m, n), dtype=float)  #全零矩阵
        # 数据间的距离
        for i in range(m):
            for j in range(n):
                dist_matrix[i][j] = np.sum((x1[i] - x2[j])**2)  #向量差的平方和
        # 参数初始化，表示数据的紧密程度
        gamma1 = 0.5
        # 高斯核
        dist_matrix1 = np.exp(-gamma1 * dist_matrix)
        # 欧氏距离
        dist_matrix2 = cdist(x1, x2, 'euclidean')
        # 联合“距离”
        dist_matrix3 = dist_matrix1 - dist_matrix2
        gamma2 = 0.5
        # 高斯核
        dist_mat = np.exp(-gamma2 * dist_matrix3)

    elif dist_metric == 'euclidean':
        dist_mat = cdist(x1, x2, dist_metric)

    else:
        raise ValueError('Please enter the correct parameters!')
    return dist_mat


# 权重向量
def __weight(D: ndarray, x_in: ndarray, dist_metric: str) -> ndarray:
    """
    计算数据间的权重向量

    参数说明
    ----------
    D : {array-like} of shape (n_features, n_samples)
        输入数据，可以是状态矩阵
    x_in : {array-like} of shape (n_features, n_samples)
        输入数据，待预测数据
    dist_metric : {str}
        距离类型，默认为'union'，可选'gaussian','euclidean','union'

    返回值
    -------
    w : {array-like}
        输出数据，权重向量
    """
    # 计算距离
    G = __distance(D.T, D.T, dist_metric)
    G_inv = np.linalg.inv(G)

    # 相似性度量
    a = __distance(D.T, x_in, dist_metric)

    # 计算权重向量
    w0 = np.dot(G_inv, a)
    w = w0 / np.sum(w0, axis=0)
    return w


# VSG函数
def __vsg(D: ndarray, x_in: ndarray, ms: Union[int, None],
          dist_metric: str) -> ndarray:
    """
    返回不含缺失值的特征列索引

    参数说明
    ----------
    D : {array-like} of shape (n_features, n_samples)
        输入数据，可以是状态矩阵
    x_in : {array-like} of shape (n_features, n_samples)
        输入数据，矩阵或向量
    ms : {int}
        权重前ms个
    dist_metric : {str}
        距离类型，默认为'union'，可选'gaussian','euclidean','union'

    返回值
    -------
    x_index : {array-like}
        不包含缺失值的特征列索引
    """
    x_out = []
    for j in range(x_in.shape[0]):
        # 判断缺失值
        x_nan_len = np.isnan(x_in[j]).sum()
        if x_nan_len / len(x_in[j]) <= 0.2:
            # 判断异常值
            x_in_out = [i if i <= 1 and i >= 0 else np.nan for i in x_in[j]]
            x__in = np.array(x_in_out).reshape((1, -1))

            # 预测值中包含缺失值的索引
            nan_index = np.where(np.isnan(x__in[0]))[0]
            not_nan_index = list(set(range(x__in.shape[1])) - set(nan_index))

            # 去除缺失值
            x__in_ = x__in[:, not_nan_index]
            D_ = D[not_nan_index, :]

            # 计算权重向量
            w = __weight(D_, x__in_, dist_metric)

            # VBM算法：选择权重最大的ms个索引
            if ms != None:
                w_index = np.argsort(-w.T)[0][:ms]
                # 动态状态矩阵
                D__ = D_[:, w_index]
                # 计算权重向量
                w_ms = __weight(D__, x__in_, dist_metric)
                # 计算输出向量
                D_ms = D[:, w_index]
                x_out_ = np.dot(D_ms, w_ms).T
            else:
                # 计算输出向量
                x_out_ = np.dot(D, w).T
            x_out_ = x_out_.reshape((-1, ))
            x_out.append(x_out_)
        else:
            x_out.append(x_in[j])

    x_out = np.array(x_out)
    return x_out


# 填补状态矩阵中与缺失值相似的值
def __fillna(D: ndarray, x_in: ndarray, ms: Union[int, None],
             dist_metric: str) -> ndarray:
    """
    缺失值填充

    参数说明
    ----------
    D : {array-like} of shape (n_features, n_samples)
        输入数据，可以是状态矩阵
    x_in : {array-like} of shape (n_features, n_samples)
        输入数据，待预测数据
    ms : {int}
        权重前ms个
    dist_metric : {str}
        距离类型，默认为'union'，可选'gaussian','euclidean','union'

    返回值
    -------
    full_x : {array-like}
        输出数据，填充后的待预测数据
    """
    full_x = []
    # 异常的点置空并填充
    for j in range(x_in.shape[0]):
        x_in_out = [i if i <= 1 and i >= 0 else np.nan for i in x_in[j]]
        x__in = np.array(x_in_out).reshape((1, -1))

        # 预测值中包含缺失值的索引
        nan_index = np.where(np.isnan(x__in[0]))[0]
        not_nan_index = list(set(range(x__in.shape[1])) - set(nan_index))

        # 去除缺失值
        x__in_ = x__in[:, not_nan_index]
        D_ = D[not_nan_index, :].T

        # 与状态矩阵差值最小的索引，也就是最相似的数据
        diff_index = np.argmin(np.sum(np.abs(x__in_ - D_), axis=1))

        # 填补缺失值
        fillna = D.T[diff_index, :][nan_index]
        x__in[0][nan_index] = fillna
        x__in = x__in.reshape((-1, ))

        # 输出整个数组
        full_x.append(x__in)
    full_x = np.array(full_x)

    # 计算权重向量
    w = __weight(D, full_x, dist_metric)

    # VBM算法：选择权重最大的ms个索引
    if ms != None:
        w_index = np.argsort(-w.T)[0][:ms]
        # 动态状态矩阵
        D_ms = D[:, w_index]
        # 计算权重向量
        w_ms = __weight(D_ms, full_x, dist_metric)
        # 计算输出向量
        x_out = np.dot(D_ms, w_ms).T
    else:
        # 计算输出向量
        x_out = np.dot(D, w).T
    return x_out


# 自学习
def state_matrix(data: DataFrame, options: Dict[str, Union[str, int, bool, None]]) -> DataFrame:
    """
    利用贝叶斯模型生成最佳状态矩阵

    参数说明
    ----------
    data : {DataFrame} of shape (n_samples, n_features)
        输入数据，训练数据
    time_tag : {str}
        时间标签，如果为None，默认数据中不含时间特征
    n_columns : {int}
        状态矩阵样本数，在不使用贝叶斯优化的情况下可自行设置，默认为400
    k : {int}
        K折交叉验证，在使用贝叶斯优化时填写，默认为5
    n_trials : {int}
        迭代次数，在使用贝叶斯优化时填写，默认为50
    bayes_opt : {bool}
        是否采用贝叶斯优化生成状态矩阵，如果为True，使用贝叶斯；反之，不使用

    返回值
    -------
    D : {DataFrame} of shape (n_samples, n_features)
        输出数据，最终状态矩阵
    ms : {int}
        权重最大的ms个索引
    """
    # 函数参数解析
    time_tag = options['time_tag']
    n_columns = options['n_columns']
    k = options['k']
    n_trials = options['n_trials']
    bayes_opt = options['bayes_opt']
    
    # 输入数据判断类型
    if not isinstance(data, DataFrame):
        raise TypeError('data should be of DataFrame type!')
    if not isinstance(time_tag, (type(None), str)):
        raise TypeError('time_tag should be of str type!')
    if not isinstance(n_columns, (type(None), int)):
        raise TypeError('n_columns should be of int type!')
    if not isinstance(k, (type(None), int)):
        raise TypeError('k should be of int type!')
    if not isinstance(n_trials, (type(None), int)):
        raise TypeError('n_trials should be of int type!')
    if not isinstance(bayes_opt, bool):
        raise TypeError('bayes_opt should be of bool type!')

    # 规范化数据
    data = data.reset_index(drop=True)

    # 缺失值处理，如果历史数据存在缺失值，直接结束，不生成状态矩阵
    if data.isna().values.sum() > 0:
        raise ValueError('The data should not contain missing values!')

    # 贝叶斯优化
    if bayes_opt:
        # 划分训练集和验证集
        samples = data.shape[0]
        features = data.shape[1]

        # K折交叉验证
        if k == None:
            k = 5
        best_values = []
        best_n_columns = []
        best_mss = []
        for i in range(k):
            start = np.random.randint(0, int(samples * 0.875))
            end = start + int(samples * 0.125)
            train, valid = pd.concat(
                [data.iloc[:start, :], data.iloc[end:, :]],
                axis=0).reset_index(drop=True), data.iloc[start:end, :]

            # optuna优化
            def optuna_objective(trial):
                # 定义参数空间
                n_columns = trial.suggest_int("n_columns_params",
                                              features * 3 * 2,
                                              features * 3 * 10,
                                              1)  # 整数型，(参数名称，下界，上界，步长)
                ms = trial.suggest_int("ms_params", features * 3 * 2,
                                       n_columns, 1)
                D = __init_state_matrix(train, n_columns, time_tag=time_tag)
                X_out = estimate(D, valid, time_tag=time_tag, ms=ms)
                ivbm_eva = eval(valid, X_out, time_tag=time_tag)
                return ivbm_eva

            algo = optuna.samplers.TPESampler(n_startup_trials=10,
                                              n_ei_candidates=24)
            # 实例化优化器
            study = optuna.create_study(sampler=algo, direction="minimize")
            # 开始优化，n_trials为允许的最大迭代次数
            if n_trials == None:
                n_trials = 50
            study.optimize(optuna_objective,
                           n_trials=n_trials,
                           show_progress_bar=True)

            # 是否选择参数优化
            best_value = study.best_trial.value  # 获取最优值
            best_param = study.best_trial.params  # 获取最优值对应的参数列表
            best_n_column = best_param['n_columns_params']
            best_ms = best_param['ms_params']

            # 结果拼接
            best_values.append(best_value)
            best_n_columns.append(best_n_column)
            best_mss.append(best_ms)
        # 选择RMSE最小的值对应的样本数
        best_index = np.where(
            np.array(best_values) == np.array(best_values).min())[0][0]
        best_n_column = best_n_columns[best_index]
        best_ms = best_mss[best_index]
        best_D = __init_state_matrix(data, best_n_column, time_tag=time_tag)

        return best_D, best_ms
    else:
        if n_columns == None:
            n_columns = 400
        best_D = __init_state_matrix(data, n_columns, time_tag=time_tag)

        return best_D


# 估计
def estimate(data: List[DataFrame], options: Dict[str, Union[str, int, bool, None]]) -> DataFrame:
    """
    待预测数据进行预测

    参数说明
    ----------
    D : {DataFrame} of shape (n_samples, n_features)
        输入数据，状态矩阵
    x_in : {DataFrame} of shape (n_samples, n_features)
        输入数据，测试数据
    time_tag : {str}
        时间标签，如果为None，默认数据中不含时间特征
    in_tags : {list}
        独立标签索引，如果为None，默认选择全部特征
    ms : {int}
        权重最大的ms个索引，如果为None，默认使用全部权重向量，权重越大，拟合效果越好，容易过拟合
    vsg : {bool}
        是否使用VSG方法处理缺失值，默认不使用，使用空值填充，vsg精度稍高但运行时间长
    dist_metric : {str}
        距离类型，默认为'union'，可选'gaussian','euclidean','union'

    返回值
    -------
    x_out : {DataFrame} of shape (n_samples, n_features)
        输出向量
    """
    # 函数参数解析
    D = data[0]
    x_in = data[1]
    time_tag = options['time_tag']
    in_tags = options['in_tags']
    ms = options['ms']
    vsg = options['vsg']
    dist_metric = options['dist_metric']
    
    # 输入数据判断类型
    if not isinstance(D, DataFrame):
        raise TypeError('D should be of DataFrame type!')
    if not isinstance(x_in, DataFrame):
        raise TypeError('x_in should be of DataFrame type!')
    if not isinstance(time_tag, (type(None), str)):
        raise TypeError('time_tag should be of str type!')
    if not isinstance(in_tags, (List, type(None))):
        raise TypeError('in_tags should be of list type!')
    if not isinstance(ms, (type(None), int)):
        raise TypeError('ms should be of int type!')
    if not isinstance(vsg, bool):
        raise TypeError('vsg should be of bool type!')
    if dist_metric not in ['gaussian', 'euclidean', 'union']:
        raise ValueError(
            'eval_metrics should be one of "gaussian" or "euclidean" or "union"!'
        )

    # 规范化数据
    D = D.reset_index(drop=True)
    x_in = x_in.reset_index(drop=True)

    # 选取时间列
    if time_tag != None:
        no_time_tags = [i for i in D.columns if i != time_tag]
        D[time_tag] = pd.to_datetime(D[time_tag])
        D_no_time = D.loc[:, no_time_tags].astype('float32')
        x_in[time_tag] = pd.to_datetime(x_in[time_tag])
        x_in_no_time = x_in.loc[:, no_time_tags].astype('float32')
    else:
        D_no_time = D.astype('float32')
        x_in_no_time = x_in.astype('float32')

    # 自关联模型，选择独立标签
    if in_tags != None:
        if time_tag in in_tags:
            in_tags = list(set(in_tags) - set([time_tag]))
        x_independent = x_in_no_time.loc[:, in_tags]
        D_independent = D_no_time.loc[:, in_tags]
        columns = in_tags
    else:
        x_independent = x_in_no_time
        D_independent = D_no_time
        columns = D_no_time.columns

    # 缺失值处理，缺失值大于20%的，将原输入作为输出
    if vsg == False:
        for i in range(x_independent.shape[0]):
            ratio = x_independent.iloc[
                i, :].isna().sum() / x_independent.shape[1]
            if ratio >= 0.2 or vsg == True:
                vsg = True
            else:
                vsg = vsg

    # 状态矩阵归一化，最大最小值
    feature_max = D_independent.max()
    feature_min = D_independent.min()
    D_minmax = __minmax(D_independent, feature_max, feature_min)
    D_minmax = D_minmax.values.T

    # 待预测数据归一化
    x_minmax = __minmax(x_independent, feature_max, feature_min)
    if len(x_independent.shape) == 1:
        x_minmax = x_minmax.values.reshape((1, -1))
    else:
        x_minmax = x_minmax.values

    # 异常值处理方式：置空并空值填充或者VSG
    if vsg:
        x_out_minmax = __vsg(D_minmax, x_minmax, ms, dist_metric)
    else:
        x_out_minmax = __fillna(D_minmax, x_minmax, ms, dist_metric)

    x_out_minmax = pd.DataFrame(x_out_minmax, columns=columns)

    # 反归一化
    x_out = __minmax(x_out_minmax, feature_max, feature_min, inverse=True)

    # 拼接时间列
    if time_tag != None:
        x_out_time = x_in.loc[:, time_tag]
        x_out = pd.concat([x_out_time, x_out], axis=1)
    else:
        x_out = x_out

    return x_out


# 计算评估指标
def eval(data: List[DataFrame], options: Dict[str, Union[str, None]]) -> float:
    """
    计算评估指标

    参数说明
    ----------
    x_in : {DataFrame} of shape (n_samples, n_features)
        输入数据
    x_out : {DataFrame} of shape (n_samples, n_features)
        预测数据
    time_tag : {str}
        时间标签，如果为None，默认数据中不含时间特征
    eval_metrics : {str}
        评估指标值，可选'r2'和'rmse'

    返回值
    -------
    eval_value : {float}
        评估值
    """
    # 函数参数解析
    x_in = data[0]
    x_out = data[1]
    time_tag = options['time_tag']
    eval_metrics = options['eval_metrics']
    
    # 输入数据判断类型
    if not isinstance(x_in, DataFrame):
        raise TypeError('x_in should be of DataFrame type!')
    if not isinstance(x_out, DataFrame):
        raise TypeError('x_out should be of DataFrame type!')
    if not isinstance(time_tag, (type(None), str)):
        raise TypeError('time_tag should be of str type!')
    if eval_metrics not in ['r2', 'rmse']:
        raise ValueError('eval_metrics should be one of "r2" or "rmse"!')

    # 规范化数据
    x_in = x_in.reset_index(drop=True)
    x_out = x_out.reset_index(drop=True)

    # 选取时间列
    if time_tag != None:
        no_time_tags = [i for i in x_in.columns if i != time_tag]
        x_in[time_tag] = pd.to_datetime(x_in[time_tag])
        x_in_no_time = x_in.loc[:, no_time_tags].astype('float32')
        x_out[time_tag] = pd.to_datetime(x_out[time_tag])
        x_out_no_time = x_out.loc[:, no_time_tags].astype('float32')
    else:
        x_in_no_time = x_in.astype('float32')
        x_out_no_time = x_out.astype('float32')

    # 缺失值索引
    nan_index = set(np.where(np.isnan(x_in_no_time.values))[0])
    no_nan_index = list(set(range(x_in_no_time.shape[0])) - nan_index)

    # 删除缺失值
    x_in_no_nan = x_in_no_time.iloc[no_nan_index, :]
    x_out_no_nan = x_out_no_time.iloc[no_nan_index, :]

    #     # 计算偏差值
    #     RES = x_in_no_nan - x_out_no_nan

    # 计算评估指标
    if eval_metrics == 'r2':
        eval_value = r2_score(x_in_no_nan.values.T, x_out_no_nan.values.T)
    elif eval_metrics == 'rmse':
        eval_value = np.sqrt(
            mean_squared_error(x_in_no_nan.values.T, x_out_no_nan.values.T))

    return eval_value

In [None]:
param1 = {
    'data': train_data,
    'options': {
        'time_tag': 'Time',
        'n_columns': None,
        'k': None,
        'n_trials': None,
        'bayes_opt': False,
    }
}
ivbm_D = state_matrix(**param1)

In [None]:
param2 = {
    'data': [ivbm_D, test_data],
    'options': {
        'time_tag': 'Time',
        'in_tags': None,
        'ms': None,
        'vsg': False,
        'dist_metric': 'union'
    }
}
X_out = estimate(**param2)

In [None]:
param3 = {
    'data': [test_data, X_out],
    'options': {
        'time_tag': 'Time',
        'eval_metrics': 'rmse'
    }
}
ivbm_eva = eval(**param3)

# `__init__.py`

在Python工程里，当python检测到一个目录下存在__init__.py文件时，python就会把它当成一个模块(module)。Module跟C＋＋的命名空间和Java的Package的概念很像，都是为了科学地组织化工程，管理命名空间。

__init__.py可以是一个空文件，也可以有非常丰富的内容。本文将举一个非常简单的例子，来介绍__init__.py的用法.

__init__.py 会在 import 的时候被执行，而空的 __init__.py 在Python新版本中已经不需要你额外去定义了，因为就算你不定义 init， Python 也知道你导入的包路径，但是如果你想要做一些初始化操作，或者像我们刚刚说的预先导入相关的模块，那么定义 __init__.py 还是很有必要的

[https://zhuanlan.zhihu.com/p/115350758](相关网址)

# python脚本

## python文件中执行另一个python文件

在python文件中直接执行另一个python文件，和引用（import）其他python文件的方法函数有所不同，相当于直接Run python文件

使用 os.system()

print.py为另一个python文件

# 源码保护

Python 与其他许多解释型语言一样，Python 实际上将源代码编译为一组虚拟机指令，
Python 的解释器就是该虚拟机的一个具体实现。这种跑在虚拟机内部的中间格式被称为“字
节码”。因此，Python 在执行后留下的.pyc 文件不仅仅是源代码的一个“更快”或“优化”版本，
实际上，它们是在程序运行时由 Python 的虚拟机来执行的字节码指令。所以为了保护用户
的 Python 代码，可以直接使用编译过的 Python 代码，也就是直接使用 .pyc 文件来提供给
框架，这和提供 py 文件是完全等价的，而且字节码比较难解读。不过，pyc 有一个局限性
是依赖于 python 解析器的版本, 使用某一个版本的 python 解释器生成的 pyc 必须要在相同
版本下的 python 解释器下才可以正常工作.
但是这仍然也面临着反编译的手段，所以为了防止反编译后获得相对易懂的代码结构，
同样需要一些混淆或者加密工具来进行保护。一般采用如下的两种方法：
-  借助 cython。cython 可以将 python 文件转换成 c, 并编译成 pyd 文件。。Cython 是用
来生成 C 扩展到而不是独立的程序的，但是要求 Python 模块的作者按照 Cython 的要
求和规范进行编码，生成，编译，比较复杂，对加密单一的模块/特制算法很有效。
-  采用专业的 Python 代码混淆工具，如 pyminifier。

# .npy文件

.npy文件是numpy专用的二进制文件。在深度神经网络训练过程中通常需要读取预训练权重，预训练权重通常是 .npy文件。

## 读取与保存

In [1]:
import numpy as np

arr = np.array([[1, 2, 3],
               [4, 5, 6]])
np.save('../data/weight.npy', arr)

loadData = np.load('../data/weight.npy')

print("----type----")
print(type(loadData))
print("----shape----")
print(loadData.shape)
print("----data----")
print(loadData)

----type----
<class 'numpy.ndarray'>
----shape----
(2, 3)
----data----
[[1 2 3]
 [4 5 6]]
