<a href="https://colab.research.google.com/github/arumajirou/-daily-test/blob/main/%E6%99%82%E7%B3%BB%E5%88%97%E3%82%A2%E3%83%97%E3%83%AA%E4%B8%8B%E8%AA%BF%E3%81%B9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# 各ライブラリを最新版に更新します

# pipはPythonのパッケージマネージャーです。これを使ってPythonライブラリをインストール、アップグレード、削除することができます。
!pip install -U pip

# tsfreshは時間系列データからの特徴抽出を自動化するライブラリです。
!pip install -U tsfresh

# featuretoolsは、データセットから自動的に新しい特徴量を生成するライブラリです。
!pip install -U featuretools

# sktimeは時間系列データの分析と予測を行うためのツールキットです。
!pip install -U sktime

# stumpyは、時間系列データでのパターン検索と比較を行うためのライブラリです。
!pip install -U stumpy

# cesiumは、時間系列データの分析と機械学習のためのライブラリです。
!pip install -U cesium

# pandasは、データ操作と分析のための強力なライブラリです。
!pip install -U pandas

# urllib3は、PythonでHTTPリクエストを作成するためのライブラリです。
!pip install -U urllib3

# daskは、大規模なデータセットの並列計算と分散計算を可能にするライブラリです。ここでは、データフレーム機能を強化するためにdask[dataframe]をインストールします。
!pip install -U dask[dataframe]

# japaneraは、日本の元号を扱うためのライブラリです。
!pip install -U japanera

# polarsは、大量のデータを高速に処理できるデータ分析ライブラリです。
!pip install -U polars

# dask-mlは、大規模なデータセットに対する機械学習を可能にするライブラリです。
!pip install -U dask-ml

# tsfresh、featuretools、sktimeは既にインストール済みなので、再度インストールする必要はありません。

# seglearnは、時系列データとシーケンシャルデータの学習を支援するライブラリです。
!pip install -U seglearn

# pyarrowは、大量のデータを効率的に処理するためのライブラリです。
!pip install -U pyarrow


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pandas
  Using cached pandas-2.0.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.3 MB)
Installing collected packages: pandas
  Attempting uninstall: pandas
    Found existing installation: pandas 1.5.3
    Uninstalling pandas-1.5.3:
      Successfully uninstalled pandas-1.5.3
[

In [None]:
#@title データの作成
# pandasというライブラリをpdという名前でインポートする
# pandasはデータ分析や操作に便利な機能を提供する
import pandas as pd

# urllib.requestというモジュールをインポートする
# urllib.requestはURLを開いてデータを読み込むためのモジュールである
import urllib.request

# ioというモジュールからStringIOというクラスをインポートする
# StringIOは文字列をファイルのように扱えるクラスである
from io import StringIO

# dask.dataframeというライブラリをddという名前でインポートする
# dask.dataframeはpandasのデータフレームと似た機能を持つが、大規模なデータに対して並列処理が可能である
import dask.dataframe as dd

# japaneraというライブラリをインポートする
# japaneraは日本の元号や和暦を扱うためのライブラリである
import japanera

# polarsというライブラリをplという名前でインポートする
# polarsは高速なデータフレーム操作や分析を行うためのライブラリである
import polars as pl

# pyarrowというライブラリをpaという名前でインポートする
# pyarrowはApache Arrowというメモリ効率的なデータ構造やフォーマットに対応したライブラリである
import pyarrow as pa

# numpyというライブラリをnpという名前でインポートする
# numpyは数値計算や多次元配列の操作に便利な機能を提供する
import numpy as np

# pandasというライブラリをpdという名前で再度インポートする
import pandas as pd

# urllib.requestというモジュールからurlopenという関数をインポートする
from urllib.request import urlopen

from typing import List, Dict, Tuple, Optional
# 必要なライブラリをインポートします。
# ipywidgetsはユーザーとインタラクションするためのウィジェットを作るためのライブラリです。
# IPython.displayはJupyter Notebook上で出力を表示するためのライブラリです。
import ipywidgets as widgets
from IPython.display import display
from IPython.display import display, HTML

def get_rokuyo(japanese_date) -> str:
    """
    この関数は、日本の日付を受け取り、それを旧暦に変換し、対応する六曜を返します。

    :param japanese_date: 変換する日本の日付。
    :type japanese_date: japanera.JapaneseDate
    :return: 対応する六曜。
    :rtype: str
    """
    # 日本の日付を旧暦に変換します。
    old_date = japanese_date.to_julian_date()

    # 旧暦の日と月を足し算します。
    month_day = int(old_date) % 100 + int(old_date * 100) % 100

    # 足し算した結果を6で割った余りを計算します。
    remainder = month_day % 6

    # 六曜のリストを定義します。これは日本の伝統的なカレンダーシステムです。
    rokuyo_list = ["大安", "赤口", "先勝", "友引", "先負", "仏滅"]

    # 余りの数に対応する六曜をリストから選び、それを返します。
    return rokuyo_list[remainder]


def make_numbers(num: int) -> pd.DataFrame:
    """
    この関数は、指定したナンバーズ（数値型）をウェブから取得し、pandasのデータフレームに格納します。

    :param num: ウェブから取得するナンバーズの種類を指定します。int型。
    :return: 取得したナンバーズのデータを格納したデータフレーム。pandas.DataFrame型。
    """
    # 指定されたナンバーズのデータをウェブから読み込みます。読み込んだデータはshift-jisでエンコードされています。
    df = pd.read_table('http://vvslot.com/download.php?m=777&f=numbers' + str(num) + '.txt', encoding="shift-jis", sep=",", names=["part", "date", "week", "eto", "抽選数字"], parse_dates=[1], dtype='object')

    # 新たなカラム"LOTO"を作成し、"num"と指定したナンバーズの種類（num）を連結した文字列を格納します。
    df["LOTO"] = "num" + str(num)

    # データフレームを"date"カラム（日付）に基づいてソート（並び替え）します。
    df = df.sort_values(by='date')

    # 抽選数字の各桁を新しいカラムに分割して格納します。例えば、抽選数字が"1234"の場合、"N1"には"1"、"N2"には"2"、"N3"には"3"、"N4"には"4"が格納されます。
    for i in range(4):
        df["N" + str(i + 1)] = df["抽選数字"].str[i]

    return df


def make_Bin5() -> pd.DataFrame:
    """
    この関数は、ビンゴ5のデータをウェブから取得し、pandasのデータフレームに格納します。

    :return: 取得したビンゴ5のデータを格納したデータフレーム。pandas.DataFrame型。
    """
    # ビンゴ5のデータをウェブから読み込みます。このデータはHTMLのテーブル形式です。
    url = 'http://vvslot.com/bingo5_data.php'
    df_Bin5 = pd.read_html(url)

    # 読み込んだデータ（HTMLのテーブル）の中から、10番目（インデックスは9）のテーブルを取得します。
    # 不要なカラム（"Ｎ5",'1等', '2等', '3等'）を削除します。
    df_Bin5 = df_Bin5[9].drop(["Ｎ5",'1等', '2等', '3等'], axis=1)

    # データフレームのカラム名を新しく設定します。
    df_Bin5.columns = ['part','date','N1','N2','N3','N4','N5','N6','N7','N8']

    # 'date'カラムのデータを日付型に変換します。この際、日付の形式を指定します。
    df_Bin5['date'] = pd.to_datetime(df_Bin5['date'], format='%Y年%m月%d日')

    # 新たなカラム"LOTO"を作成し、その値として"Bin5"を格納します。これは、このデータフレームがビンゴ5のデータであることを示します。
    df_Bin5["LOTO"] = "Bin5"

    return df_Bin5


def make_loto(name: str = "loto6", col: int = 9, ln: int = 6, b: int = 1) -> pd.DataFrame:
    """
    この関数は、指定されたロト（例：loto6）のデータをウェブから取得し、pandasのデータフレームに格納します。

    :param name: 取得するロトの名前を指定します。デフォルトは"loto6"。str型。
    :param col: 取得するカラムの数を指定します。デフォルトは9。int型。
    :param ln: ナンバーの数を指定します。デフォルトは6。int型。
    :param b: ボーナスの数を指定します。デフォルトは1。int型。
    :return: 取得したロトのデータを格納したデータフレーム。pandas.DataFrame型。
    """
    # データフレームのカラム名を作成します。"part"、"date"、ナンバー("N1"~"N6")、ボーナス("B1")を含みます。
    names = ["part", "date"] + ["N" + str(i) for i in range(1, ln + 1)] + ["B" + str(j) for j in range(1, b + 1)]

    # 指定されたロトのデータをウェブから読み込みます。読み込んだデータはshift-jisでエンコードされています。
    df = pd.read_table('https://' + name + '.thekyo.jp/data/' + name + '.csv', encoding="shift-jis",
                       sep=",", skiprows=1, usecols=list(range(col)), parse_dates=[1], names=names)  # datetimeの選択

    # 新たなカラム"LOTO"を作成し、ロトの名前を格納します。これは、このデータフレームがどのロトのデータであることを示します。
    df["LOTO"] = name

    return df

def one_hot_encode_week(df: pd.DataFrame) -> pd.DataFrame:
    """
    この関数は、データフレームの'week'カラムをワンホットエンコーディングします。

    :param df: ワンホットエンコーディングを行うデータフレーム。pandas.DataFrame型。
    :return: 'week'カラムをワンホットエンコーディングしたデータフレーム。pandas.DataFrame型。
    """
    # 'week'カラムの各値をワンホットエンコーディングします。これにより、'week'カラムの各値が新たなカラムとして追加されます。
    week_dummies = pd.get_dummies(df['week'], prefix='week')

    # オリジナルのデータフレームとワンホットエンコーディングしたデータフレームを連結します。
    df = pd.concat([df, week_dummies], axis=1)

    # 元の'week'カラムはもう必要ないので、データフレームから削除します。
    df.drop('week', axis=1, inplace=True)

    return df

# データフレームの作成
df_numbers4 = pd.DataFrame(make_numbers(4))  # ナンバーズ4のデータフレームを作成します
df_numbers3 = pd.DataFrame(make_numbers(3))  # ナンバーズ3のデータフレームを作成します
df_Bin5 = pd.DataFrame(make_Bin5())  # ビンゴ5のデータフレームを作成します
df_loto5 = pd.DataFrame(make_loto(name="miniloto", col=8, ln=5, b=1))  # ミニロトのデータフレームを作成します
df_loto6 = pd.DataFrame(make_loto())  # ロト6のデータフレームを作成します
df_loto7 = pd.DataFrame(make_loto(name="loto7", col=11, ln=7, b=2))  # ロト7のデータフレームを作成します

# データフレームの結合と日付での並び替え
df_sorted = pd.concat([df_loto5, df_loto6, df_loto7, df_numbers3, df_numbers4, df_Bin5]).sort_values('date')

# '抽選数字'カラムは不要なので削除します
df_sorted.drop('抽選数字', axis=1, inplace=True)

# データフレームを日付で並び替えます
df_sorted = df_sorted.sort_values(by='date')

# カテゴリ変数をワンホットエンコーディングします
df_encoded = pd.get_dummies(df_sorted, columns=['week', 'eto', 'LOTO'])

# Convert the num1 to num8 columns to integer type
df_encoded[['part','N1', 'N2', 'N3', 'N4', 'N5', 'N6', 'N7','N8','B1', 'B2']] = df_encoded[['part','N1', 'N2', 'N3', 'N4', 'N5', 'N6', 'N7','N8','B1', 'B2']].replace('missing', 0).replace([np.inf, -np.inf], np.nan).fillna(0).astype(int)


# PandasのデータフレームをDaskのデータフレームに変換
df_encoded_dd = dd.from_pandas(df_encoded, npartitions=4)
df_encoded_dd = df_encoded_dd.compute().sort_values('date')
df_encoded_dd = dd.from_pandas(df_encoded_dd, npartitions=4)

# DaskのデータフレームをArrowのテーブルに変換
table = pa.Table.from_pydict(dict(df_encoded_dd.compute()))

# ArrowのテーブルをPolarsのデータフレームに変換
df_encoded_pl = pl.from_arrow(table)

# Polarsのデータフレームを日付で並び替え
df_encoded_pl = df_encoded_pl.sort('date')



In [None]:
df_encoded.info()
#df_encoded=df_encoded[df_encoded.LOTO_Bin5 == 1]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   date    93 non-null     datetime64[ns]
 1   kind    93 non-null     object        
 2   value   93 non-null     int64         
 3   id      93 non-null     int64         
dtypes: datetime64[ns](1), int64(2), object(1)
memory usage: 3.0+ KB


In [None]:
#@title データフレームの作成
# 必要なライブラリをインポートします。
# ipywidgetsはユーザーとインタラクションするためのウィジェットを作るためのライブラリです。
# IPython.displayはJupyter Notebook上で出力を表示するためのライブラリです。
import ipywidgets as widgets
from IPython.display import display

# セレクトボックスの選択肢を設定します。各選択肢は宝くじの種類を表しています。
options = [
 ("LOTO_Bin5", "LOTO_Bin5"),
 ("LOTO_loto6", "LOTO_loto6"),
 ("LOTO_loto7", "LOTO_loto7"),
 ("LOTO_miniloto", "LOTO_miniloto"),
 ("LOTO_num3", "LOTO_num3"),
 ("LOTO_num4", "LOTO_num4"),
]


# ドロップダウンメニューを作成します。ユーザーはこのメニューから宝くじの種類を選択します。
# デフォルトで"LOTO_Bin5"が選択されるようにvalueパラメータを設定します。
select_box = widgets.Dropdown(
 options=options,
 value="LOTO_Bin5",
 description='LOTO:',
 disabled=False,
)


# セレクトボックスを表示します。ユーザーが選択するためのものです。
display(select_box)

# フィルタリングされたデータフレームを格納するためのグローバル変数を宣言します。
global_filtered_df = None

from IPython.display import display, HTML

def filter_dataframe(change: dict = None) -> None:
 """
 選択された宝くじの種類に応じてデータフレームをフィルタリングする関数

 Args:
 change (dict, optional): ドロップダウンメニューの値が変更されたときに生成される辞書型のデータ。
 'new'キーは新しく選択された値を表します。デフォルトはNone。

 Returns:
 None: この関数は何も返しません。ただし、グローバル変数global_filtered_dfが更新されます。
 """
 # グローバル変数を参照します
 global global_filtered_df
 # ドロップダウンメニューで新しく選択された宝くじの種類を取得します
 # changeがNoneの場合、デフォルトで"LOTO_Bin5"を選択します
 selected_column = change['new'] if change else "LOTO_Bin5"
 # データフレームをフィルタリングします。
 # 選択された宝くじの種類の列が1の行だけを残します。
 try: # ここからエラーハンドリングを追加
     global_filtered_df = df_encoded[df_encoded[selected_column] == 1]
 except NameError as e: # df_encodedが未定義の場合に発生する例外
     print(f"データフレームdf_encodedが未定義です。{e}")
 except KeyError as e: # 選択された宝くじの種類の列が存在しない場合に発生する例外
     print(f"データフレームdf_encodedに{selected_column}という列がありません。{e}")
 else: # 例外が発生しなかった場合に実行する処理
     # フィルタリングされたデータフレームをHTMLテーブルとして表示します。
     display(HTML(global_filtered_df.head().to_html()))
 finally: # 例外の有無に関わらず必ず実行する処理
     print(f"{selected_column}でフィルタリングしました。")

def select_df():
  """
  セレクトボックスを表示し、ユーザーが宝くじの種類を選択できるようにする関数

  引数: なし
  戻り値: なし
  """
  # セレクトボックスを表示します。ユーザーが選択するためのものです。
  display(select_box)

  # 選択された宝くじの種類が変わったときに上記の関数を呼び出すように設定します。
  # この操作は「observe」と呼ばれ、ドロップダウンメニューの値が変更されるたびにfilter_dataframe関数が呼び出されるようにします。
  select_box.observe(filter_dataframe, names='value')

  # 初期状態でfilter_dataframe関数を呼び出し、デフォルトの"LOTO_Bin5"でフィルタリングします。
  filter_dataframe()


Dropdown(description='LOTO:', options=(('LOTO_Bin5', 'LOTO_Bin5'), ('LOTO_loto6', 'LOTO_loto6'), ('LOTO_loto7'…

Unnamed: 0,part,date,N1,N2,N3,N4,N5,B1,N6,N7,B2,N8,week_月,week_木,week_水,week_火,week_金,eto_仏滅,eto_先勝,eto_先負,eto_友引,eto_大安,eto_赤口,LOTO_Bin5,LOTO_loto6,LOTO_loto7,LOTO_miniloto,LOTO_num3,LOTO_num4
318,1,2017-04-05,1,10,13,19,23,0,28,35,0,37,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
317,2,2017-04-12,1,6,15,18,21,0,30,35,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
316,3,2017-04-19,4,6,12,17,24,0,28,31,0,40,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
315,4,2017-04-26,2,7,13,19,21,0,30,33,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
314,5,2017-05-03,5,8,13,19,24,0,29,32,0,36,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False


LOTO_Bin5でフィルタリングしました。


In [None]:

select_df()


Dropdown(description='LOTO:', options=(('LOTO_Bin5', 'LOTO_Bin5'), ('LOTO_loto6', 'LOTO_loto6'), ('LOTO_loto7'…

Unnamed: 0,part,date,N1,N2,N3,N4,N5,B1,N6,N7,B2,N8,week_月,week_木,week_水,week_火,week_金,eto_仏滅,eto_先勝,eto_先負,eto_友引,eto_大安,eto_赤口,LOTO_Bin5,LOTO_loto6,LOTO_loto7,LOTO_miniloto,LOTO_num3,LOTO_num4
318,1,2017-04-05,1,10,13,19,23,0,28,35,0,37,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
317,2,2017-04-12,1,6,15,18,21,0,30,35,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
316,3,2017-04-19,4,6,12,17,24,0,28,31,0,40,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
315,4,2017-04-26,2,7,13,19,21,0,30,33,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
314,5,2017-05-03,5,8,13,19,24,0,29,32,0,36,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False


LOTO_Bin5でフィルタリングしました。


In [None]:
from joblib import Parallel, delayed
def extract_features(global_filtered_df: pd.DataFrame) -> pd.DataFrame:
    """
    時系列データから特徴量を抽出する関数

    引数:
        global_filtered_df: 時系列データが格納されたデータフレーム
    返り値:
        X_rocket_parallel_df: 特徴量が格納されたデータフレーム
    """
    # 'date'列をインデックスに設定
    global_filtered_df.set_index('date', inplace=True)

    # Rocketのインスタンスを作成
    rocket = Rocket()

    # global_filtered_dfを分割
    n_jobs = 4 # 並列処理の数
    # データフレームをn_jobs個に分割
    dfs = np.array_split(global_filtered_df, n_jobs)
    # 各分割データに対してRocketを適用
    results = Parallel(n_jobs=n_jobs)(delayed(lambda x: rocket.fit_transform(x.astype(float)))(df) for df in dfs) # xをfloat型に変換してからfit_transformメソッドに渡す

    # 結果を結合
    X_rocket_parallel = np.concatenate(results, axis=0) # NumPy配列として結合

    # NumPy配列をデータフレームに変換
    X_rocket_parallel_df = pd.DataFrame(X_rocket_parallel) # データフレームとして変換

    # データフレームを返す
    return X_rocket_parallel_df


In [None]:
# 必要なモジュールのインポート
from joblib import Parallel, delayed
from sktime.transformations.panel.rocket import Rocket
import pandas as pd
import numpy as np

def extract_features(global_filtered_df: pd.DataFrame) -> pd.DataFrame:
    """
    時系列データから特徴量を抽出する関数

    引数:
        global_filtered_df: 時系列データが格納されたデータフレーム
    返り値:
        X_rocket_parallel_df: 特徴量が格納されたデータフレーム
    """
    # 'date'列をインデックスに設定
    global_filtered_df.set_index('date', inplace=True)

    # Rocketのインスタンスを作成
    rocket = Rocket()

    # global_filtered_dfを分割
    n_jobs = 4 # 並列処理の数
    dfs = np.array_split(global_filtered_df, n_jobs) # データフレームをn_jobs個に分割

    # 各分割データに対してRocketを適用
    results = Parallel(n_jobs=n_jobs)(delayed(lambda df: rocket.fit_transform(df.values.astype(float)))(df) for df in dfs) # xをfloat型に変換してからfit_transformメソッドに渡す

    # 結果を結合
    X_rocket_parallel = np.concatenate(results, axis=0) # NumPy配列として結合

    # NumPy配列をデータフレームに変換
    X_rocket_parallel_df = pd.DataFrame(X_rocket_parallel) # データフレームとして変換

    # データフレームを返す
    return X_rocket_parallel_df


In [None]:
select_df()

Dropdown(description='LOTO:', index=3, options=(('LOTO_Bin5', 'LOTO_Bin5'), ('LOTO_loto6', 'LOTO_loto6'), ('LO…

Unnamed: 0,part,date,N1,N2,N3,N4,N5,B1,N6,N7,B2,N8,week_月,week_木,week_水,week_火,week_金,eto_仏滅,eto_先勝,eto_先負,eto_友引,eto_大安,eto_赤口,LOTO_Bin5,LOTO_loto6,LOTO_loto7,LOTO_miniloto,LOTO_num3,LOTO_num4
318,1,2017-04-05,1,10,13,19,23,0,28,35,0,37,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
317,2,2017-04-12,1,6,15,18,21,0,30,35,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
316,3,2017-04-19,4,6,12,17,24,0,28,31,0,40,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
315,4,2017-04-26,2,7,13,19,21,0,30,33,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
314,5,2017-05-03,5,8,13,19,24,0,29,32,0,36,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False


LOTO_Bin5でフィルタリングしました。


In [None]:
# 関数の実行例
X_rocket_parallel_df = extract_features(global_filtered_df) # 関数を呼び出して特徴量を抽出
X_rocket_parallel_df # 特徴量を表示


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19990,19991,19992,19993,19994,19995,19996,19997,19998,19999
0,0.4125,12.08864,0.4375,6.942568,0.1,4.118283,0.3,3.739792,0.68,3.774187,...,0.859375,9.281695,0.541667,12.584763,0.4125,6.280535,0.525,8.270088,0.589286,7.07394
1,0.425,6.711677,0.575,7.147002,0.416667,8.327692,0.233333,2.662279,0.45,10.158849,...,0.65,12.108178,1.0,0.162262,0.352941,3.770246,0.142857,2.870524,1.0,2.102416
2,0.45,8.934011,0.585714,8.696431,0.425,3.341104,0.5,2.698834,1.0,0.686034,...,0.5,6.176264,0.333333,11.009545,0.516667,10.945975,0.59375,9.199838,1.0,0.296827
3,0.447761,6.61615,0.405063,9.635786,0.455696,3.062271,0.553191,7.49097,0.329114,4.196608,...,0.0,-0.443257,0.0,-0.799318,0.521739,12.413645,1.0,0.648482,0.898734,5.250315


In [None]:
select_df()

Dropdown(description='LOTO:', index=1, options=(('LOTO_Bin5', 'LOTO_Bin5'), ('LOTO_loto6', 'LOTO_loto6'), ('LO…

Unnamed: 0,part,date,N1,N2,N3,N4,N5,B1,N6,N7,B2,N8,week_月,week_木,week_水,week_火,week_金,eto_仏滅,eto_先勝,eto_先負,eto_友引,eto_大安,eto_赤口,LOTO_Bin5,LOTO_loto6,LOTO_loto7,LOTO_miniloto,LOTO_num3,LOTO_num4
318,1,2017-04-05,1,10,13,19,23,0,28,35,0,37,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
317,2,2017-04-12,1,6,15,18,21,0,30,35,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
316,3,2017-04-19,4,6,12,17,24,0,28,31,0,40,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
315,4,2017-04-26,2,7,13,19,21,0,30,33,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
314,5,2017-05-03,5,8,13,19,24,0,29,32,0,36,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False


LOTO_Bin5でフィルタリングしました。


Unnamed: 0,part,date,N1,N2,N3,N4,N5,B1,N6,N7,B2,N8,week_月,week_木,week_水,week_火,week_金,eto_仏滅,eto_先勝,eto_先負,eto_友引,eto_大安,eto_赤口,LOTO_Bin5,LOTO_loto6,LOTO_loto7,LOTO_miniloto,LOTO_num3,LOTO_num4
0,1,1999-04-13,1,3,17,20,25,26,0,0,0,0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False
1,2,1999-04-27,2,11,12,21,30,28,0,0,0,0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False
2,3,1999-05-11,1,8,10,24,30,28,0,0,0,0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False
3,4,1999-05-25,11,12,14,20,31,29,0,0,0,0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False
4,5,1999-06-08,8,9,15,21,25,23,0,0,0,0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False


LOTO_minilotoでフィルタリングしました。


In [None]:
# featuretoolsというライブラリをインポートする
import featuretools as ft
# dask.distributedというライブラリをインポートする（並列処理や分散処理に使う）
from dask.distributed import Client, progress
# woodwork.logical_typesというライブラリをインポートする（データ型の指定に使う）
from woodwork.logical_types import Categorical, Integer
# timeというモジュールをインポートする（時間計測に使う）
import time

# Daskクライアントを作成する関数
def create_dask_client() -> Client:
  """
  並列処理のためにDaskクライアントを作成する関数

  引数: なし
  戻り値: Client クラスのインスタンス
  """
  # 並列処理のためにDaskクライアントを作成
  client = Client()
  print(f"Dask Dashboard URL: {client.dashboard_link}")
  return client

# エンティティセットを作成する関数
def create_entity_set(global_filtered_dd: dd.DataFrame) -> ft.EntitySet:
  """
  この関数は、エンティティセットを作成するものです。
  引数としてDask DataFrameクラスのインスタンスであるglobal_filtered_ddを受け取ります。
  ft.EntitySetクラスのインスタンスを返します。

  Args:
    global_filtered_dd (dd.DataFrame): Dask DataFrame クラスのインスタンス

  Returns:
    ft.EntitySet: ft.EntitySet クラスのインスタンス
  """
  # ft(EntitySet)クラスのインスタンスを作成します。このインスタンスはエンティティセット（データテーブルの集合）を表現します。
  # エンティティセットのidは"lottery"とします。
  es = ft.EntitySet(id="lottery")

  # es.add_dataframeメソッドを使用して、エンティティセットに新しいデータフレームを追加します。
  # dataframe_nameに"results"を指定して、このデータフレームの名前を定めます。
  # dataframeにはglobal_filtered_dd（Dask DataFrame）を指定します。
  # indexに"id"を指定して、このデータフレームのインデックスカラムを定めます。
  # time_indexに"date"を指定して、このデータフレームの時間インデックスカラムを定めます。
  # logical_typesには、各カラムの論理型を指定します。
  es = es.add_dataframe(
    dataframe_name="results",
    dataframe=global_filtered_dd,
    index="id",
    time_index="date",
    logical_types={
      "part": Categorical,
      "N1": Integer,
      "N2": Integer,
      "N3": Integer,
      "N4": Integer,
      "N5": Integer,
      "N6": Integer,
      "N7": Integer,
      "N8": Integer,
      "B1": Integer,
      "B2": Integer
    }
  )

  # エンティティセットを返します。
  return es

# 深い特徴量の合成を実行する関数
def synthesize_deep_features(es: ft.EntitySet) -> tuple:
  """
  この関数は、深い特徴量の合成を実行します。
  引数としてft.EntitySetクラスのインスタンスであるesを受け取ります。
  tupleクラスのインスタンス(feature_matrix, feature_defs)を返します。
  feature_matrixはDask DataFrame クラスのインスタンス、
  feature_defsはlist クラスのインスタンスです。

  Args:
    es (ft.EntitySet): ft.EntitySet クラスのインスタンス

  Returns:
    tuple: (feature_matrix, feature_defs)
           feature_matrixはDask DataFrame クラスのインスタンス
           feature_defsはlist クラスのインスタンス
  """
  # Featuretoolsのdfs（Deep Feature Synthesis）メソッドを使用して深い特徴量の合成を実行します。
  # entitysetにはesを指定します。
  # target_dataframe_nameには"results"を指定して、深い特徴量を作成する対象のデータフレームを定めます。
  # trans_primitivesには、特徴量を生成する際に使用する変換関数のリストを指定します。
  # ここでは"day", "month", "year", "is_weekend"を指定しています。
  # max_depthには特徴量の深さ（複雑さ）を制御する値を指定します。ここでは1を指定しています。
  feature_matrix, feature_defs = ft.dfs(entityset=es,
                                        target_dataframe_name="results",
                                        trans_primitives=["day", "month", "year", "is_weekend"],
                                        max_depth=1)

  # 生成された特徴量のマトリックスと特徴量の定義を返します。
  return feature_matrix, feature_defs


# 特徴量行列のインデックスをソートする関数
def sort_feature_matrix(feature_matrix: dd.DataFrame) -> dd.DataFrame:
  """
  特徴量行列のインデックスをソートする関数

  引数: feature_matrix Dask DataFrame クラスのインスタンス
  戻り値: feature_matrix Dask DataFrame クラスのインスタンス (ソート済み)
  """
  # 特徴量行列のindexをpandasのSeriesオブジェクトに変換
  feature_matrix.index = feature_matrix.index.to_series()

  # インデックスを単調増加するようにソートする
  # ここでは、Dask DataFrameをPandas DataFrameに変換しています
  feature_matrix = feature_matrix.compute().sort_index()

  return feature_matrix

# 特徴量行列をDask DataFrameに変換する関数
def convert_to_dask_dataframe(feature_matrix: pd.DataFrame) -> dd.DataFrame:
  """
  特徴量行列をDask DataFrameに変換する関数

  引数: feature_matrix Pandas DataFrame クラスのインスタンス
  戻り値: feature_matrix_dd Dask DataFrame クラスのインスタンス
  """
  # 修正後の特徴量行列をDask DataFrameに変換
  # 注意: compute()を使用したため、全データがメモリにロードされます
  feature_matrix_dd = dd.from_pandas(feature_matrix, npartitions=4)

  return feature_matrix_dd

# メイン処理
def featuretools_main() -> dd.DataFrame:
  """
  メイン処理を実行する関数

  引数: なし
  戻り値: computed_feature_matrix Dask DataFrame クラスのインスタンス
  """

  # Dask DataFrameに変換
  global_filtered_dd = dd.from_pandas(global_filtered_df, npartitions=4)

  # Daskクライアントを作成
  client = create_dask_client()

  # エンティティセットを作成
  es = create_entity_set(global_filtered_dd)

  # 深い特徴量の合成を実行
  feature_matrix, feature_defs = synthesize_deep_features(es)

  # 特徴量行列のインデックスをソート
  feature_matrix = sort_feature_matrix(feature_matrix)

  # 特徴量行列をDask DataFrameに変換
  feature_matrix_dd = convert_to_dask_dataframe(feature_matrix)

  # 他のコードは変更なし...

  # 並列処理を実行して結果を得る
  start_time = time.time()
  computed_feature_matrix = feature_matrix_dd.compute()
  end_time = time.time()

  # 処理速度を表示
  print("Processing time: {:.2f} seconds".format(end_time - start_time))

  # Daskクライアントを閉じる
  client.close()

  print("特徴量行列:")
  computed_feature_matrix.head()

  return computed_feature_matrix

computed_feature_matrix =featuretools_main()
computed_feature_matrix.head()

INFO:distributed.scheduler:State start
INFO:distributed.scheduler:  Scheduler at:     tcp://127.0.0.1:32943
INFO:distributed.scheduler:  dashboard at:  http://127.0.0.1:8787/status
INFO:distributed.nanny:        Start Nanny at: 'tcp://127.0.0.1:46525'
INFO:distributed.nanny:        Start Nanny at: 'tcp://127.0.0.1:32815'
INFO:distributed.nanny:        Start Nanny at: 'tcp://127.0.0.1:46523'
INFO:distributed.nanny:        Start Nanny at: 'tcp://127.0.0.1:33863'
INFO:distributed.scheduler:Register worker <WorkerState 'tcp://127.0.0.1:45157', name: 2, status: init, memory: 0, processing: 0>
INFO:distributed.scheduler:Starting worker compute stream, tcp://127.0.0.1:45157
INFO:distributed.core:Starting established connection to tcp://127.0.0.1:51398
INFO:distributed.scheduler:Register worker <WorkerState 'tcp://127.0.0.1:34221', name: 1, status: init, memory: 0, processing: 0>
INFO:distributed.scheduler:Starting worker compute stream, tcp://127.0.0.1:34221
INFO:distributed.core:Starting est

Dask Dashboard URL: http://127.0.0.1:8787/status


INFO:distributed.nanny:Closing Nanny at 'tcp://127.0.0.1:46525'. Reason: nanny-close
INFO:distributed.nanny:Nanny asking worker to close. Reason: nanny-close
INFO:distributed.nanny:Closing Nanny at 'tcp://127.0.0.1:32815'. Reason: nanny-close
INFO:distributed.nanny:Nanny asking worker to close. Reason: nanny-close
INFO:distributed.nanny:Closing Nanny at 'tcp://127.0.0.1:46523'. Reason: nanny-close
INFO:distributed.nanny:Nanny asking worker to close. Reason: nanny-close
INFO:distributed.nanny:Closing Nanny at 'tcp://127.0.0.1:33863'. Reason: nanny-close
INFO:distributed.nanny:Nanny asking worker to close. Reason: nanny-close
INFO:distributed.core:Received 'close-stream' from tcp://127.0.0.1:51404; closing.
INFO:distributed.core:Received 'close-stream' from tcp://127.0.0.1:51408; closing.
INFO:distributed.core:Received 'close-stream' from tcp://127.0.0.1:51398; closing.
INFO:distributed.scheduler:Remove worker <WorkerState 'tcp://127.0.0.1:38177', name: 0, status: closing, memory: 0, pro

Processing time: 0.05 seconds


INFO:distributed.scheduler:Scheduler closing...
INFO:distributed.scheduler:Scheduler closing all comms


特徴量行列:


Unnamed: 0,part,N1,N2,N3,N4,N5,B1,N6,N7,B2,...,LOTO_loto6,LOTO_loto7,LOTO_miniloto,LOTO_num3,LOTO_num4,DAY(date),IS_WEEKEND(date),MONTH(date),YEAR(date),id
0,1,1,3,17,20,25,26,0,0,0,...,False,False,True,False,False,13,False,4,1999,0
1,2,2,11,12,21,30,28,0,0,0,...,False,False,True,False,False,27,False,4,1999,1
2,3,1,8,10,24,30,28,0,0,0,...,False,False,True,False,False,11,False,5,1999,2
3,4,11,12,14,20,31,29,0,0,0,...,False,False,True,False,False,25,False,5,1999,3
4,5,8,9,15,21,25,23,0,0,0,...,False,False,True,False,False,8,False,6,1999,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1230,1231,1,14,20,21,31,5,0,0,0,...,False,False,True,False,False,9,False,5,2023,1230
1231,1232,4,5,17,27,29,6,0,0,0,...,False,False,True,False,False,16,False,5,2023,1231
1232,1233,3,8,17,19,23,22,0,0,0,...,False,False,True,False,False,23,False,5,2023,1232
1233,1234,4,14,15,27,28,22,0,0,0,...,False,False,True,False,False,30,False,5,2023,1233


In [None]:
# tsfreshというライブラリからextract_featuresという関数をインポートします。extract_featuresは時系列データから特徴量を抽出する関数です。
from tsfresh import extract_features
# tsfreshのユーティリティモジュールからroll_time_seriesという関数をインポートします。roll_time_seriesはデータフレームをローリング（積み重ね）して、時系列特徴量を抽出できる形にする関数です。
from tsfresh.utilities.dataframe_functions import roll_time_series
# tsfreshのユーティリティモジュールからMultiprocessingDistributorというクラスをインポートします。MultiprocessingDistributorは並列処理を行うためのクラスです。
from tsfresh.utilities.distribution import MultiprocessingDistributor
# tsfreshの特徴量抽出設定モジュールからMinimalFCParameters, EfficientFCParameters, ComprehensiveFCParametersというクラスをインポートします。これらは時系列特徴量の抽出設定を表すクラスです。
from tsfresh.feature_extraction.settings import MinimalFCParameters, EfficientFCParameters, ComprehensiveFCParameters

# データフレームからidとtimeを追加する関数
def add_id_time(global_filtered_df: pd.DataFrame) -> pd.DataFrame:
  """
  この関数は、データフレームからidとtimeを追加するものです。
  引数としてPandas DataFrameクラスのインスタンスであるglobal_filtered_dfを受け取ります。
  idとtimeが追加されたPandas DataFrameクラスのインスタンスを返します。

  Args:
    global_filtered_df (pd.DataFrame): Pandas DataFrame クラスのインスタンス

  Returns:
    pd.DataFrame: idとtimeが追加されたPandas DataFrame クラスのインスタンス
  """
  # global_filtered_dfと同じデータフレームを作成します。
  global_filtered_df1 =global_filtered_df

  # 新たなカラム'id'を作成し、すべての行に1をセットします。
  global_filtered_df1['id'] = 1

  # 新たなカラム'time'を作成します。
  # 'date'カラムの値をpd.to_datetime関数で日付型に変換し、さらにその日付部分のみを抽出します（.dt.date）。
  global_filtered_df1['time'] = pd.to_datetime(global_filtered_df1['date']).dt.date

  # idとtimeが追加されたデータフレームを返します。
  return global_filtered_df1


# 特徴量抽出用のデータフレームを作成する関数
def create_tsfresh_dataframe(global_filtered_df1: pd.DataFrame) -> pd.DataFrame:
  """
  特徴量抽出用のデータフレームを作成する関数

  引数: global_filtered_df1 Pandas DataFrame クラスのインスタンス (idとtimeが追加されたもの)
  戻り値: df_tsfresh Pandas DataFrame クラスのインスタンス (特徴量抽出用に整形されたもの)
  """
  # カラム名リストを作成
  columns_to_extract = ['N1', 'N2', 'N3', 'N4', 'N5', 'N6', 'N7', 'N8', 'B1', 'B2']

  # 特徴量抽出用のデータフレームを作成
  df_tsfresh = global_filtered_df1[['id', 'time'] + columns_to_extract]
  return df_tsfresh

# データフレームをローリング（積み重ね）して、時系列特徴量を抽出できる形にする関数
def roll_dataframe(df_tsfresh: pd.DataFrame) -> pd.DataFrame:
  """
  データフレームをローリング（積み重ね）して、時系列特徴量を抽出できる形にする関数

  引数: df_tsfresh Pandas DataFrame クラスのインスタンス (特徴量抽出用に整形されたもの)
  戻り値: df_rolled Pandas DataFrame クラスのインスタンス (ローリングされたもの)
  """
  # データフレームをローリング（積み重ね）して、時系列特徴量を抽出できる形にする
  df_rolled = roll_time_series(df_tsfresh, column_id='id', column_sort='time')
  return df_rolled

# 時系列特徴量の抽出設定を選択する関数
def select_extraction_settings() -> dict:
  """
  時系列特徴量の抽出設定を選択する関数

  引数: なし
  戻り値: extraction_settings dict クラスのインスタンス (時系列特徴量の抽出設定)
  """
  # 時系列特徴量の抽出設定を選択
  extraction_settings = EfficientFCParameters() # 変更可能な設定は MinimalFCParameters(), EfficientFCParameters(), ComprehensiveFCParameters()
  return extraction_settings

# 時系列特徴量の抽出を実行する関数
def extract_time_series_features(df_rolled: pd.DataFrame, extraction_settings: dict) -> pd.DataFrame:
  """
  時系列特徴量の抽出を実行する関数

  引数: df_rolled Pandas DataFrame クラスのインスタンス (ローリングされたもの)
        extraction_settings dict クラスのインスタンス (時系列特徴量の抽出設定)
  戻り値: extracted_features Pandas DataFrame クラスのインスタンス (抽出された特徴量)
  """
  # 並列処理の設定
  # MultiprocessingDistributorクラスのインスタンスを作成します。
  # n_workersは並列処理に使用するワーカー数を指定します。ここでは4に設定しています。
  # disable_progressbarはプログレスバーを表示するかどうかを指定します。ここではFalseに設定しています。
  distributor = MultiprocessingDistributor(n_workers=4, disable_progressbar=False)

  # 時系列特徴量の抽出
  # extract_features関数を呼び出します。
  # df_rolledはローリングされたデータフレームです。
  # column_idはデータフレームのidカラム名を指定します。ここでは'id'に設定しています。
  # column_sortはデータフレームの時系列カラム名を指定します。ここでは'time'に設定しています。
  # default_fc_parametersは時系列特徴量の抽出設定を指定します。ここではextraction_settingsに設定しています。
  # distributorは並列処理の設定を指定します。ここではdistributorに設定しています。
  extracted_features = extract_features(
    df_rolled,
    column_id='id',
    column_sort='time',
    default_fc_parameters=extraction_settings,
    distributor=distributor
  )

  return extracted_features

# メイン処理
def tsfresh_main() -> pd.DataFrame:
  """
  メイン処理を実行する関数

  引数: なし
  戻り値: extracted_features Pandas DataFrame クラスのインスタンス (抽出された特徴量)
  """

  # データフレームからidとtimeを追加
  global_filtered_df1 = add_id_time(global_filtered_df)

  # 特徴量抽出用のデータフレームを作成
  df_tsfresh = create_tsfresh_dataframe(global_filtered_df1)

  # データフレームをローリング（積み重ね）
  df_rolled = roll_dataframe(df_tsfresh)

  # 時系列特徴量の抽出設定を選択
  extraction_settings = select_extraction_settings()

  # 時系列特徴量の抽出を実行
  extracted_features = extract_time_series_features(df_rolled, extraction_settings)

  return extracted_features


extracted_features =tsfresh_main()
# 抽出された特徴量を表示
extracted_features.head()


Rolling: 100%|██████████| 30/30 [00:01<00:00, 21.02it/s]
Feature Extraction: 100%|██████████| 20/20 [15:20<00:00, 46.05s/it]


Unnamed: 0,N1__variance_larger_than_standard_deviation,N1__has_duplicate_max,N1__has_duplicate_min,N1__has_duplicate,N1__sum_values,N1__abs_energy,N1__mean_abs_change,N1__mean_change,N1__mean_second_derivative_central,N1__median,...,B2__fourier_entropy__bins_5,B2__fourier_entropy__bins_10,B2__fourier_entropy__bins_100,B2__permutation_entropy__dimension_3__tau_1,B2__permutation_entropy__dimension_4__tau_1,B2__permutation_entropy__dimension_5__tau_1,B2__permutation_entropy__dimension_6__tau_1,B2__permutation_entropy__dimension_7__tau_1,B2__query_similarity_count__query_None__threshold_0.0,B2__mean_n_absolute_max__number_of_maxima_7
"(1, 1999-04-13)",0.0,0.0,0.0,0.0,1.0,1.0,,,,1.0,...,,,,,,,,,,
"(1, 1999-04-27)",0.0,0.0,0.0,0.0,3.0,5.0,1.0,1.0,,1.5,...,,,,,,,,,,
"(1, 1999-05-11)",0.0,0.0,1.0,1.0,4.0,6.0,1.0,0.0,-1.0,1.0,...,,,,-0.0,,,,,,
"(1, 1999-05-25)",1.0,0.0,1.0,1.0,15.0,127.0,4.0,3.333333,2.25,1.5,...,,,,-0.0,-0.0,,,,,
"(1, 1999-06-08)",1.0,0.0,1.0,1.0,23.0,191.0,3.75,1.75,-0.666667,2.0,...,,,,-0.0,-0.0,-0.0,,,,


In [None]:
extracted_features.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 1235 entries, ((1, datetime.date(1999, 4, 13)),) to ((1, datetime.date(2023, 6, 6)),)
Columns: 7770 entries, N1__variance_larger_than_standard_deviation to B2__mean_n_absolute_max__number_of_maxima_7
dtypes: float64(7770)
memory usage: 73.3+ MB


In [None]:
from sklearn.linear_model import Ridge  # Ridge回帰用のライブラリ
from seglearn.transform import FeatureRep, SegmentXY  # 特徴量抽出用のライブラリ
from seglearn.pipe import Pype  # パイプライン作成用のライブラリ

def extract_features_and_train_model(global_filtered_df: pd.DataFrame, segment_length: int = 10) -> pd.DataFrame:
    """
    この関数は、元のデータから特徴量を抽出し、それを使ってRidge回帰モデルを訓練します。そして、抽出した特徴量を返します。

    :param global_filtered_df: 特徴量抽出を行う元のデータフレーム
    :param segment_length: セグメントの長さ（デフォルト値は10）
    :return: 特徴量抽出後のデータフレーム
    """
    # ターゲット変数（予測したいデータ）を定義します。
    y = global_filtered_df[['N1', 'N2', 'N3', 'N4', 'N5', 'N6', 'N7', 'B1', 'B2']].values

    # 特徴量抽出を行う列を選択します。
    X = global_filtered_df.drop(['date', 'N1', 'N2', 'N3', 'N4', 'N5', 'N6', 'N7', 'B1', 'B2'], axis=1).values

    # 特徴量抽出とモデル学習の一連の流れ（パイプライン）を定義します。
    clf = Pype([('seg', SegmentXY(width=segment_length, overlap=0.5)),
                ('ftr', FeatureRep(features='default')),
                ('clf', Ridge())])

    # 上で定義したパイプラインに従って、特徴量抽出とRidge回帰モデルの学習を行います。
    clf.fit(X, y)

    # 特徴量抽出後のデータを取得します。
    X_transformed = clf.named_steps['ftr'].transform(X)

    # 変換されたデータをデータフレームに戻します。
    transformed_df = pd.DataFrame(X_transformed)

    return transformed_df

# pandas データフレーム 'df' が既に存在していると仮定します。
# このデータフレームには特徴量を抽出したいデータが含まれています。

# 関数を呼び出し、セグメントの長さを指定します。ここではセグメントの長さを10に設定します。
# セグメントの長さは、時間シリーズデータの一部分（セグメント）に対して特徴量抽出を行うためのパラメータです。
transformed_df = extract_features_and_train_model(global_filtered_df, segment_length=10)

# 結果を表示します。
print(transformed_df.head())

TypeError: ignored

In [None]:
!pip install sktime

Collecting sktime
  Downloading sktime-0.21.0-py3-none-any.whl (17.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m17.1/17.1 MB[0m [31m78.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting deprecated>=1.2.13 (from sktime)
  Downloading Deprecated-1.2.14-py2.py3-none-any.whl (9.6 kB)
Collecting scikit-base<0.6.0 (from sktime)
  Downloading scikit_base-0.5.0-py3-none-any.whl (118 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m118.2/118.2 kB[0m [31m10.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: scikit-base, deprecated, sktime
Successfully installed deprecated-1.2.14 scikit-base-0.5.0 sktime-0.21.0


In [None]:
!pip install sktime[all_extras]

In [None]:
from sktime.registry import all_estimators

# all_estimators()関数で、multivariateまたはbothのscitype:yを持つ予測器を取得する
for forecaster in all_estimators():
    # 予測器の名前を出力する
    print(forecaster)



In [None]:
from sktime.datasets import load_longley
from sktime.forecasting.arima import ARIMA

_, y = load_longley()

y = y.drop(columns=["UNEMP", "ARMED", "POP"])

forecaster = ARIMA()
forecaster.fit(y, fh=[1, 2, 3])

forecaster.forecasters_

  warn('Non-stationary starting autoregressive parameters'


Unnamed: 0,GNPDEFL,GNP
forecasters,ARIMA(),ARIMA()


In [None]:
from sktime.datasets import load_longley
from sktime.forecasting.var import VAR

_, y = load_longley()

y = y.drop(columns=["UNEMP", "ARMED", "POP"])

forecaster = VAR()
forecaster.fit(y, fh=[1, 2, 3])

y_pred = forecaster.predict()

In [None]:
y_pred

Unnamed: 0_level_0,GNPDEFL,GNP
Period,Unnamed: 1_level_1,Unnamed: 2_level_1
1963,121.688295,578514.398653
1964,124.353664,601873.01589
1965,126.847886,625411.588754


In [None]:
from sktime.datasets import load_airline
from sktime.forecasting.base import ForecastingHorizon
from sktime.forecasting.naive import NaiveForecaster
import pandas as pd
import numpy as np
# step 1: data specification
y = load_airline()
# we create some dummy exogeneous data
X = pd.DataFrame(index=y.index)

# step 2: specifying forecasting horizon
fh = np.arange(1, 37)

# step 3: specifying the forecasting algorithm
forecaster = NaiveForecaster(strategy="last", sp=12)

# step 4: fitting the forecaster
forecaster.fit(y, X=X, fh=fh)

# step 5: querying predictions
y_pred = forecaster.predict(X=X)

In [None]:
X

1949-01
1949-02
1949-03
1949-04
1949-05
...
1960-08
1960-09
1960-10
1960-11
1960-12


In [None]:
y

Period
1949-01    112.0
1949-02    118.0
1949-03    132.0
1949-04    129.0
1949-05    121.0
           ...  
1960-08    606.0
1960-09    508.0
1960-10    461.0
1960-11    390.0
1960-12    432.0
Freq: M, Name: Number of airline passengers, Length: 144, dtype: float64