<a href="https://colab.research.google.com/github/arumajirou/-daily-test/blob/main/%E6%99%82%E7%B3%BB%E5%88%97%E3%82%A2%E3%83%97%E3%83%AA%E4%B8%8B%E8%AA%BF%E3%81%B9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# 各ライブラリを最新版に更新します

# pipはPythonのパッケージマネージャーです。これを使ってPythonライブラリをインストール、アップグレード、削除することができます。
!pip install -U pip

# tsfreshは時間系列データからの特徴抽出を自動化するライブラリです。
!pip install -U tsfresh

# featuretoolsは、データセットから自動的に新しい特徴量を生成するライブラリです。
!pip install -U featuretools

# sktimeは時間系列データの分析と予測を行うためのツールキットです。
!pip install -U sktime

# stumpyは、時間系列データでのパターン検索と比較を行うためのライブラリです。
!pip install -U stumpy

# cesiumは、時間系列データの分析と機械学習のためのライブラリです。
!pip install -U cesium

# pandasは、データ操作と分析のための強力なライブラリです。
!pip install -U pandas

# urllib3は、PythonでHTTPリクエストを作成するためのライブラリです。
!pip install -U urllib3

# daskは、大規模なデータセットの並列計算と分散計算を可能にするライブラリです。ここでは、データフレーム機能を強化するためにdask[dataframe]をインストールします。
!pip install -U dask[dataframe]

# japaneraは、日本の元号を扱うためのライブラリです。
!pip install -U japanera

# polarsは、大量のデータを高速に処理できるデータ分析ライブラリです。
!pip install -U polars

# dask-mlは、大規模なデータセットに対する機械学習を可能にするライブラリです。
!pip install -U dask-ml

# tsfresh、featuretools、sktimeは既にインストール済みなので、再度インストールする必要はありません。

# seglearnは、時系列データとシーケンシャルデータの学習を支援するライブラリです。
!pip install -U seglearn

# pyarrowは、大量のデータを効率的に処理するためのライブラリです。
!pip install -U pyarrow


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pandas
  Using cached pandas-2.0.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.3 MB)
Installing collected packages: pandas
  Attempting uninstall: pandas
    Found existing installation: pandas 1.5.3
    Uninstalling pandas-1.5.3:
      Successfully uninstalled pandas-1.5.3
[

In [None]:
#@title データの作成
# pandasというライブラリをpdという名前でインポートする
# pandasはデータ分析や操作に便利な機能を提供する
import pandas as pd

# urllib.requestというモジュールをインポートする
# urllib.requestはURLを開いてデータを読み込むためのモジュールである
import urllib.request

# ioというモジュールからStringIOというクラスをインポートする
# StringIOは文字列をファイルのように扱えるクラスである
from io import StringIO

# dask.dataframeというライブラリをddという名前でインポートする
# dask.dataframeはpandasのデータフレームと似た機能を持つが、大規模なデータに対して並列処理が可能である
import dask.dataframe as dd

# japaneraというライブラリをインポートする
# japaneraは日本の元号や和暦を扱うためのライブラリである
import japanera

# polarsというライブラリをplという名前でインポートする
# polarsは高速なデータフレーム操作や分析を行うためのライブラリである
import polars as pl

# pyarrowというライブラリをpaという名前でインポートする
# pyarrowはApache Arrowというメモリ効率的なデータ構造やフォーマットに対応したライブラリである
import pyarrow as pa

# numpyというライブラリをnpという名前でインポートする
# numpyは数値計算や多次元配列の操作に便利な機能を提供する
import numpy as np

# pandasというライブラリをpdという名前で再度インポートする
import pandas as pd

# urllib.requestというモジュールからurlopenという関数をインポートする
from urllib.request import urlopen

from typing import List, Dict, Tuple, Optional
# 必要なライブラリをインポートします。
# ipywidgetsはユーザーとインタラクションするためのウィジェットを作るためのライブラリです。
# IPython.displayはJupyter Notebook上で出力を表示するためのライブラリです。
import ipywidgets as widgets
from IPython.display import display
from IPython.display import display, HTML

def get_rokuyo(japanese_date) -> str:
    """
    この関数は、日本の日付を受け取り、それを旧暦に変換し、対応する六曜を返します。

    :param japanese_date: 変換する日本の日付。
    :type japanese_date: japanera.JapaneseDate
    :return: 対応する六曜。
    :rtype: str
    """
    # 日本の日付を旧暦に変換します。
    old_date = japanese_date.to_julian_date()

    # 旧暦の日と月を足し算します。
    month_day = int(old_date) % 100 + int(old_date * 100) % 100

    # 足し算した結果を6で割った余りを計算します。
    remainder = month_day % 6

    # 六曜のリストを定義します。これは日本の伝統的なカレンダーシステムです。
    rokuyo_list = ["大安", "赤口", "先勝", "友引", "先負", "仏滅"]

    # 余りの数に対応する六曜をリストから選び、それを返します。
    return rokuyo_list[remainder]


def make_numbers(num: int) -> pd.DataFrame:
    """
    この関数は、指定したナンバーズ（数値型）をウェブから取得し、pandasのデータフレームに格納します。

    :param num: ウェブから取得するナンバーズの種類を指定します。int型。
    :return: 取得したナンバーズのデータを格納したデータフレーム。pandas.DataFrame型。
    """
    # 指定されたナンバーズのデータをウェブから読み込みます。読み込んだデータはshift-jisでエンコードされています。
    df = pd.read_table('http://vvslot.com/download.php?m=777&f=numbers' + str(num) + '.txt', encoding="shift-jis", sep=",", names=["part", "date", "week", "eto", "抽選数字"], parse_dates=[1], dtype='object')

    # 新たなカラム"LOTO"を作成し、"num"と指定したナンバーズの種類（num）を連結した文字列を格納します。
    df["LOTO"] = "num" + str(num)

    # データフレームを"date"カラム（日付）に基づいてソート（並び替え）します。
    df = df.sort_values(by='date')

    # 抽選数字の各桁を新しいカラムに分割して格納します。例えば、抽選数字が"1234"の場合、"N1"には"1"、"N2"には"2"、"N3"には"3"、"N4"には"4"が格納されます。
    for i in range(4):
        df["N" + str(i + 1)] = df["抽選数字"].str[i]

    return df


def make_Bin5() -> pd.DataFrame:
    """
    この関数は、ビンゴ5のデータをウェブから取得し、pandasのデータフレームに格納します。

    :return: 取得したビンゴ5のデータを格納したデータフレーム。pandas.DataFrame型。
    """
    # ビンゴ5のデータをウェブから読み込みます。このデータはHTMLのテーブル形式です。
    url = 'http://vvslot.com/bingo5_data.php'
    df_Bin5 = pd.read_html(url)

    # 読み込んだデータ（HTMLのテーブル）の中から、10番目（インデックスは9）のテーブルを取得します。
    # 不要なカラム（"Ｎ5",'1等', '2等', '3等'）を削除します。
    df_Bin5 = df_Bin5[9].drop(["Ｎ5",'1等', '2等', '3等'], axis=1)

    # データフレームのカラム名を新しく設定します。
    df_Bin5.columns = ['part','date','N1','N2','N3','N4','N5','N6','N7','N8']

    # 'date'カラムのデータを日付型に変換します。この際、日付の形式を指定します。
    df_Bin5['date'] = pd.to_datetime(df_Bin5['date'], format='%Y年%m月%d日')

    # 新たなカラム"LOTO"を作成し、その値として"Bin5"を格納します。これは、このデータフレームがビンゴ5のデータであることを示します。
    df_Bin5["LOTO"] = "Bin5"

    return df_Bin5


def make_loto(name: str = "loto6", col: int = 9, ln: int = 6, b: int = 1) -> pd.DataFrame:
    """
    この関数は、指定されたロト（例：loto6）のデータをウェブから取得し、pandasのデータフレームに格納します。

    :param name: 取得するロトの名前を指定します。デフォルトは"loto6"。str型。
    :param col: 取得するカラムの数を指定します。デフォルトは9。int型。
    :param ln: ナンバーの数を指定します。デフォルトは6。int型。
    :param b: ボーナスの数を指定します。デフォルトは1。int型。
    :return: 取得したロトのデータを格納したデータフレーム。pandas.DataFrame型。
    """
    # データフレームのカラム名を作成します。"part"、"date"、ナンバー("N1"~"N6")、ボーナス("B1")を含みます。
    names = ["part", "date"] + ["N" + str(i) for i in range(1, ln + 1)] + ["B" + str(j) for j in range(1, b + 1)]

    # 指定されたロトのデータをウェブから読み込みます。読み込んだデータはshift-jisでエンコードされています。
    df = pd.read_table('https://' + name + '.thekyo.jp/data/' + name + '.csv', encoding="shift-jis",
                       sep=",", skiprows=1, usecols=list(range(col)), parse_dates=[1], names=names)  # datetimeの選択

    # 新たなカラム"LOTO"を作成し、ロトの名前を格納します。これは、このデータフレームがどのロトのデータであることを示します。
    df["LOTO"] = name

    return df

def one_hot_encode_week(df: pd.DataFrame) -> pd.DataFrame:
    """
    この関数は、データフレームの'week'カラムをワンホットエンコーディングします。

    :param df: ワンホットエンコーディングを行うデータフレーム。pandas.DataFrame型。
    :return: 'week'カラムをワンホットエンコーディングしたデータフレーム。pandas.DataFrame型。
    """
    # 'week'カラムの各値をワンホットエンコーディングします。これにより、'week'カラムの各値が新たなカラムとして追加されます。
    week_dummies = pd.get_dummies(df['week'], prefix='week')

    # オリジナルのデータフレームとワンホットエンコーディングしたデータフレームを連結します。
    df = pd.concat([df, week_dummies], axis=1)

    # 元の'week'カラムはもう必要ないので、データフレームから削除します。
    df.drop('week', axis=1, inplace=True)

    return df

# データフレームの作成
df_numbers4 = pd.DataFrame(make_numbers(4))  # ナンバーズ4のデータフレームを作成します
df_numbers3 = pd.DataFrame(make_numbers(3))  # ナンバーズ3のデータフレームを作成します
df_Bin5 = pd.DataFrame(make_Bin5())  # ビンゴ5のデータフレームを作成します
df_loto5 = pd.DataFrame(make_loto(name="miniloto", col=8, ln=5, b=1))  # ミニロトのデータフレームを作成します
df_loto6 = pd.DataFrame(make_loto())  # ロト6のデータフレームを作成します
df_loto7 = pd.DataFrame(make_loto(name="loto7", col=11, ln=7, b=2))  # ロト7のデータフレームを作成します

# データフレームの結合と日付での並び替え
df_sorted = pd.concat([df_loto5, df_loto6, df_loto7, df_numbers3, df_numbers4, df_Bin5]).sort_values('date')

# '抽選数字'カラムは不要なので削除します
df_sorted.drop('抽選数字', axis=1, inplace=True)

# データフレームを日付で並び替えます
df_sorted = df_sorted.sort_values(by='date')

# カテゴリ変数をワンホットエンコーディングします
df_encoded = pd.get_dummies(df_sorted, columns=['week', 'eto', 'LOTO'])

# Convert the num1 to num8 columns to integer type
df_encoded[['part','N1', 'N2', 'N3', 'N4', 'N5', 'N6', 'N7','N8','B1', 'B2']] = df_encoded[['part','N1', 'N2', 'N3', 'N4', 'N5', 'N6', 'N7','N8','B1', 'B2']].replace('missing', 0).replace([np.inf, -np.inf], np.nan).fillna(0).astype(int)


# PandasのデータフレームをDaskのデータフレームに変換
df_encoded_dd = dd.from_pandas(df_encoded, npartitions=4)
df_encoded_dd = df_encoded_dd.compute().sort_values('date')
df_encoded_dd = dd.from_pandas(df_encoded_dd, npartitions=4)

# DaskのデータフレームをArrowのテーブルに変換
table = pa.Table.from_pydict(dict(df_encoded_dd.compute()))

# ArrowのテーブルをPolarsのデータフレームに変換
df_encoded_pl = pl.from_arrow(table)

# Polarsのデータフレームを日付で並び替え
df_encoded_pl = df_encoded_pl.sort('date')



In [None]:
df_encoded.info()
#df_encoded=df_encoded[df_encoded.LOTO_Bin5 == 1]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   date    93 non-null     datetime64[ns]
 1   kind    93 non-null     object        
 2   value   93 non-null     int64         
 3   id      93 non-null     int64         
dtypes: datetime64[ns](1), int64(2), object(1)
memory usage: 3.0+ KB


In [None]:
#@title データフレームの作成
# 必要なライブラリをインポートします。
# ipywidgetsはユーザーとインタラクションするためのウィジェットを作るためのライブラリです。
# IPython.displayはJupyter Notebook上で出力を表示するためのライブラリです。
import ipywidgets as widgets
from IPython.display import display

# セレクトボックスの選択肢を設定します。各選択肢は宝くじの種類を表しています。
options = [
 ("LOTO_Bin5", "LOTO_Bin5"),
 ("LOTO_loto6", "LOTO_loto6"),
 ("LOTO_loto7", "LOTO_loto7"),
 ("LOTO_miniloto", "LOTO_miniloto"),
 ("LOTO_num3", "LOTO_num3"),
 ("LOTO_num4", "LOTO_num4"),
]


# ドロップダウンメニューを作成します。ユーザーはこのメニューから宝くじの種類を選択します。
# デフォルトで"LOTO_Bin5"が選択されるようにvalueパラメータを設定します。
select_box = widgets.Dropdown(
 options=options,
 value="LOTO_Bin5",
 description='LOTO:',
 disabled=False,
)


# セレクトボックスを表示します。ユーザーが選択するためのものです。
display(select_box)

# フィルタリングされたデータフレームを格納するためのグローバル変数を宣言します。
global_filtered_df = None

from IPython.display import display, HTML

def filter_dataframe(change: dict = None) -> None:
 """
 選択された宝くじの種類に応じてデータフレームをフィルタリングする関数

 Args:
 change (dict, optional): ドロップダウンメニューの値が変更されたときに生成される辞書型のデータ。
 'new'キーは新しく選択された値を表します。デフォルトはNone。

 Returns:
 None: この関数は何も返しません。ただし、グローバル変数global_filtered_dfが更新されます。
 """
 # グローバル変数を参照します
 global global_filtered_df
 # ドロップダウンメニューで新しく選択された宝くじの種類を取得します
 # changeがNoneの場合、デフォルトで"LOTO_Bin5"を選択します
 selected_column = change['new'] if change else "LOTO_Bin5"
 # データフレームをフィルタリングします。
 # 選択された宝くじの種類の列が1の行だけを残します。
 try: # ここからエラーハンドリングを追加
     global_filtered_df = df_encoded[df_encoded[selected_column] == 1]
 except NameError as e: # df_encodedが未定義の場合に発生する例外
     print(f"データフレームdf_encodedが未定義です。{e}")
 except KeyError as e: # 選択された宝くじの種類の列が存在しない場合に発生する例外
     print(f"データフレームdf_encodedに{selected_column}という列がありません。{e}")
 else: # 例外が発生しなかった場合に実行する処理
     # フィルタリングされたデータフレームをHTMLテーブルとして表示します。
     display(HTML(global_filtered_df.head().to_html()))
 finally: # 例外の有無に関わらず必ず実行する処理
     print(f"{selected_column}でフィルタリングしました。")

def select_df():
  """
  セレクトボックスを表示し、ユーザーが宝くじの種類を選択できるようにする関数

  引数: なし
  戻り値: なし
  """
  # セレクトボックスを表示します。ユーザーが選択するためのものです。
  display(select_box)

  # 選択された宝くじの種類が変わったときに上記の関数を呼び出すように設定します。
  # この操作は「observe」と呼ばれ、ドロップダウンメニューの値が変更されるたびにfilter_dataframe関数が呼び出されるようにします。
  select_box.observe(filter_dataframe, names='value')

  # 初期状態でfilter_dataframe関数を呼び出し、デフォルトの"LOTO_Bin5"でフィルタリングします。
  filter_dataframe()


Dropdown(description='LOTO:', options=(('LOTO_Bin5', 'LOTO_Bin5'), ('LOTO_loto6', 'LOTO_loto6'), ('LOTO_loto7'…

Unnamed: 0,part,date,N1,N2,N3,N4,N5,B1,N6,N7,B2,N8,week_月,week_木,week_水,week_火,week_金,eto_仏滅,eto_先勝,eto_先負,eto_友引,eto_大安,eto_赤口,LOTO_Bin5,LOTO_loto6,LOTO_loto7,LOTO_miniloto,LOTO_num3,LOTO_num4
318,1,2017-04-05,1,10,13,19,23,0,28,35,0,37,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
317,2,2017-04-12,1,6,15,18,21,0,30,35,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
316,3,2017-04-19,4,6,12,17,24,0,28,31,0,40,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
315,4,2017-04-26,2,7,13,19,21,0,30,33,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
314,5,2017-05-03,5,8,13,19,24,0,29,32,0,36,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False


LOTO_Bin5でフィルタリングしました。


In [None]:

select_df()


Dropdown(description='LOTO:', options=(('LOTO_Bin5', 'LOTO_Bin5'), ('LOTO_loto6', 'LOTO_loto6'), ('LOTO_loto7'…

Unnamed: 0,part,date,N1,N2,N3,N4,N5,B1,N6,N7,B2,N8,week_月,week_木,week_水,week_火,week_金,eto_仏滅,eto_先勝,eto_先負,eto_友引,eto_大安,eto_赤口,LOTO_Bin5,LOTO_loto6,LOTO_loto7,LOTO_miniloto,LOTO_num3,LOTO_num4
318,1,2017-04-05,1,10,13,19,23,0,28,35,0,37,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
317,2,2017-04-12,1,6,15,18,21,0,30,35,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
316,3,2017-04-19,4,6,12,17,24,0,28,31,0,40,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
315,4,2017-04-26,2,7,13,19,21,0,30,33,0,38,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False
314,5,2017-05-03,5,8,13,19,24,0,29,32,0,36,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False


LOTO_Bin5でフィルタリングしました。
