# 総合・応用
data-analysis-basic-kadaiリポジトリへpractice_totalフォルダまたは該当のファイル名を作成し以下格納する。

## 総合1
* list, numpy, dataframe(series)をそれぞれ相互に変換する方法を調べて実装してください.

    1. list -> numpy
    2. numpy -> list
    3. numpy -> dataframe
    4. dataframe -> numpy
    5. list -> dataframe
    6. series -> list

In [None]:
import numpy as np
import pandas as pd

def list_to_numpy(lst):
    """リストをNumPy配列に変換する"""
    return np.array(lst)

def numpy_to_list(arr):
    """NumPy配列をリストに変換する"""
    return arr.tolist()

def numpy_to_dataframe(arr, columns=None):
    """NumPy配列をDataFrameに変換する"""
    return pd.DataFrame(arr, columns=columns)

def dataframe_to_numpy(df):
    """DataFrameをNumPy配列に変換する"""
    return df.to_numpy()

def list_to_dataframe(lst, columns=None):
    """リストをDataFrameに変換する"""
    return pd.DataFrame(lst, columns=columns)

def series_to_list(series):
    """SeriesをListに変換する"""
    return series.tolist()


# テストデータ
test_list = [1, 2, 3, 4, 5]
test_numpy = np.array([[1, 2, 3], [4, 5, 6]])
test_df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
test_series = pd.Series([1, 2, 3, 4, 5])

# 変換テスト
print("1. list -> numpy:", list_to_numpy(test_list))
print("2. numpy -> list:", numpy_to_list(test_numpy))
print("3. numpy -> dataframe:")
print(numpy_to_dataframe(test_numpy, columns=['A', 'B', 'C']))
print("4. dataframe -> numpy:")
print(dataframe_to_numpy(test_df))
print("5. list -> dataframe:")
print(list_to_dataframe([[1, 2, 3], [4, 5, 6], [7, 8, 9]], columns=['A', 'B', 'C']))
print("6. series -> list:", series_to_list(test_series))

1. list -> numpy: [1 2 3 4 5]
2. numpy -> list: [[1, 2, 3], [4, 5, 6]]
3. numpy -> dataframe:
   A  B  C
0  1  2  3
1  4  5  6
4. dataframe -> numpy:
[[1 4 7]
 [2 5 8]
 [3 6 9]]
5. list -> dataframe:
   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9
6. series -> list: [1, 2, 3, 4, 5]


## 総合2 (応用)
* pandasのpivot_tableについて調べてメリットを報告してください。
* 試しにサンプルデータにて利用してみてください。
* データは自由ですが、思いつかない場合は以下を利用してください。


```
np.random.seed(0)
data = pd.DataFrame({
    'Date': pd.date_range(start='2023-01-01', periods=100),
    'Product': np.random.choice(['A', 'B', 'C'], 100),
    'Region': np.random.choice(['East', 'West', 'North', 'South'], 100),
    'Sales': np.random.randint(100, 1000, 100),
    'Units': np.random.randint(1, 50, 100)
})
```



pivot_tableのメリット：

* データの要約：大量のデータを簡潔に要約できます。
* 多次元分析：複数の軸（インデックス、カラム）に基づいてデータを分析できます。
* 集計の柔軟性：合計、平均、最大値など、様々な集計方法を適用できます。
* データの再構成：複雑なデータ構造を、より理解しやすい形に変換できます。
* 可視化の準備：ピボットテーブルの結果は、グラフや図表の作成に適した形式になります。
* 条件付き集計：特定の条件に基づいてデータを集計できます。
* 欠損値の処理：集計時に欠損値を柔軟に扱えます。

In [None]:
import pandas as pd
import numpy as np

# サンプルデータの作成
np.random.seed(0)
data = pd.DataFrame({
    'Date': pd.date_range(start='2023-01-01', periods=100),
    'Product': np.random.choice(['A', 'B', 'C'], 100),
    'Region': np.random.choice(['East', 'West', 'North', 'South'], 100),
    'Sales': np.random.randint(100, 1000, 100),
    'Units': np.random.randint(1, 50, 100)
})

# 日付を月に変換
data['Month'] = data['Date'].dt.to_period('M')
display(data.head())

# pivot_tableの使用例
pivot_result = pd.pivot_table(data,
                              values=['Sales', 'Units'],
                              index=['Month', 'Product'],
                              columns='Region',
                              aggfunc={'Sales': np.sum, 'Units': np.mean},
                              fill_value=0,
                              margins=True)

display(pivot_result)

# 結果の一部を取り出す
sales_east = pivot_result['Sales']['East']
print("\nSales in East Region:")
display(sales_east)

Unnamed: 0,Date,Product,Region,Sales,Units,Month
0,2023-01-01,A,North,217,9,2023-01
1,2023-01-02,B,West,545,2,2023-01
2,2023-01-03,A,East,695,18,2023-01
3,2023-01-04,B,South,773,49,2023-01
4,2023-01-05,B,West,972,36,2023-01


Unnamed: 0_level_0,Unnamed: 1_level_0,Sales,Sales,Sales,Sales,Sales,Units,Units,Units,Units,Units
Unnamed: 0_level_1,Region,East,North,South,West,All,East,North,South,West,All
Month,Product,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2
2023-01,A,924,2906,2055,0,5885,33.0,22.285714,27.666667,0.0,25.416667
2023-01,B,0,1042,3269,2208,6519,0.0,33.25,30.4,19.0,28.5
2023-01,C,863,387,2184,1163,4597,37.0,40.0,21.333333,28.0,28.142857
2023-02,A,2714,1572,1564,0,5850,24.2,15.75,35.5,0.0,23.181818
2023-02,B,2227,1567,238,930,4962,34.666667,23.333333,33.0,37.0,31.222222
2023-02,C,655,2242,1192,1351,5440,30.0,23.666667,31.5,6.5,22.125
2023-03,A,3256,2383,1595,1396,8630,21.2,23.0,25.666667,24.0,23.076923
2023-03,B,1458,418,1990,321,4187,26.5,23.0,27.5,14.0,23.7
2023-03,C,3181,248,641,840,4910,25.75,4.0,9.0,21.5,19.875
2023-04,A,354,0,0,1165,1519,16.0,0.0,0.0,11.5,13.0



Sales in East Region:


Month    Product
2023-01  A            924
         B              0
         C            863
2023-02  A           2714
         B           2227
         C            655
2023-03  A           3256
         B           1458
         C           3181
2023-04  A            354
         B            867
         C           1130
All                 17629
Name: East, dtype: int64

## 総合3 (応用)
* pandas以外のテーブルライブラリとしてpolars, dask, fireducksなどあります。
* これらの特徴を調べてpandasと比較してどのようなメリットがあるか調査・報告してください。
* 試しにどれか1つを利用してpandasと操作を比較してみてください。
* (実務でもpandasではなく他のライブラリを利用することがあります。私はpandasのapply処理を高速化するためにdaskを利用することがあります)
* 大規模データで効果を発揮します。以下のようなデータを活用または作成して検証してください。
* 参考) swifterというライブラリはpandasのエンハンス機能として組み込むことができます。興味があれば調べてみてください。
```
# サンプルデータの作成
data = {
    'A': range(1000000),
    'B': range(1000000, 2000000),
    'C': ['x' if i % 2 == 0 else 'y' for i in range(1000000)]
}
```



* Polars:
    特徴:

    Rustで書かれた高性能なデータフレームライブラリ
    並列処理に最適化されている
    メモリ効率が高い

    メリット:

    pandasよりも高速な処理（特に大規模データセット）
    強力な型システムによる安全性
    直感的なAPIデザイン


* Dask:
    特徴:

    大規模データセットの並列計算をサポート
    pandasやnumpyのAPIと互換性がある

    メリット:

    単一マシンのメモリ容量を超えるデータセットを扱える
    分散計算による高速化
    既存のpandasコードとの互換性が高い

* fireducks
    特徴:

    pandasと高い互換性を持ち、既存のpandasコードをほとんど変更することなく使用できる。具体的には、コードの中でimport文を変更するだけで、pandasの代わりにFireDucksを使用できる

    メリット:

    FireDucksを使用して、社内AIフレームワーク「Spicy MINT」のデータ分析にかかる時間を60%削減し、分析PCの稼働時間を76%減少

In [None]:
!pip install polars



In [None]:
import pandas as pd
import polars as pl
import time

# サンプルデータの作成
data = {
    'A': range(1000000),
    'B': range(1000000, 2000000),
    'C': ['x' if i % 2 == 0 else 'y' for i in range(1000000)]
}

# Pandas操作
start_time = time.time()
df_pandas = pd.DataFrame(data)
result_pandas = df_pandas.groupby('C').agg({'A': 'mean', 'B': 'sum'})
pandas_time = time.time() - start_time
print("Pandas結果:")
print(result_pandas)
print(f"Pandas実行時間: {pandas_time:.4f}秒")

# Polars操作
start_time = time.time()
df_polars = pl.DataFrame(data)
result_polars = df_polars.group_by('C').agg([
    pl.col('A').mean(),
    pl.col('B').sum()
])
polars_time = time.time() - start_time
print("\nPolars結果:")
print(result_polars)
print(f"Polars実行時間: {polars_time:.4f}秒")

# 速度比較
speedup = pandas_time / polars_time
print(f"\nPolarsはPandasの{speedup:.2f}倍高速")

Pandas結果:
          A             B
C                        
x  499999.0  749999500000
y  500000.0  750000000000
Pandas実行時間: 0.1080秒

Polars結果:
shape: (2, 3)
┌─────┬──────────┬──────────────┐
│ C   ┆ A        ┆ B            │
│ --- ┆ ---      ┆ ---          │
│ str ┆ f64      ┆ i64          │
╞═════╪══════════╪══════════════╡
│ x   ┆ 499999.0 ┆ 749999500000 │
│ y   ┆ 500000.0 ┆ 750000000000 │
└─────┴──────────┴──────────────┘
Polars実行時間: 0.0971秒

PolarsはPandasの1.11倍高速


## 総合4 (応用)
* 決定木ではスケーリングが不要ですが、回帰分析ではスケーリングが必要です。これらの理由を調査し報告してください。

* 分割基準：
決定木は特徴量の値に基づいて分割を行いますが、分割点の選択は相対的な順序のみに依存します。
* 不変性：
特徴量の単調変換（例：スケーリング）は、データポイントの相対的な順序を変えないため、決定木の構造に影響しません。
* 解釈可能性：
元のスケールでの特徴量の値を使用することで、結果の解釈がより直観的になります。
* 特徴量の重要度：
決定木における特徴量の重要度は、スケールに依存しません。分割の改善度合いに基づいて計算されます。

## 総合5 (応用)
* mlflowについて調査してください。どのようなメリットがあると思いますか。

MLflowは、機械学習の実験を管理するためのオープンソースのプラットフォームです。簡単に言えば、科学の実験ノートのようなもので機械学習のためのデジタル版です。

MLflowの主な機能：

* 実験の記録：
何をしたか、どんな結果が出たかを自動的に記録します。
例えば、料理のレシピと結果を記録するノートのようなものです。


* モデルの保存：
作った機械学習モデルを保存します。

* プロジェクトの管理：
実験に必要なものをまとめて管理します。
料理に必要な道具や材料をセットにしてまとめるようなものです。


* モデルの共有：
作ったモデルを他の人と簡単に共有できます。
友達に料理のレシピを教えるようなものです。

## 総合6 (応用)
* バギング・ブースティングについて調査・報告してください。

バギング（Bagging）：

* 意味：
バギングは「Bootstrap Aggregating」の略です。
簡単に言うと、「みんなで相談して決める」方法です。


* やり方：
データの一部をランダムに選んで、複数の予測モデルを作ります。
それぞれのモデルの予測を集めて、最終的な予測を決めます。


* 例え：
クラスで修学旅行の行き先を決めるとき、クラスをいくつかのグループに分けて、各グループで話し合って決めた後、全体で多数決を取るようなものです。


* メリット：
1つのモデルの間違いを他のモデルでカバーできます。
ノイズ（データのばらつき）の影響を減らせます。


* 代表的な方法：
ランダムフォレスト：決定木をたくさん作って、多数決で予測を決めます

バギング（Bagging）：

* 意味：
「強化する」という意味です。
弱い予測モデルを組み合わせて、強い予測モデルを作る方法です。


* やり方：
最初に簡単なモデルを作ります。
そのモデルの間違いを重点的に修正する新しいモデルを追加していきます。
最後に全てのモデルの予測を組み合わせます。


* 例え：
難しい数学の問題を解くとき、簡単な部分から始めて、間違えた部分を重点的に勉強し、徐々に難しい問題が解けるようになっていくようなものです。


* メリット：
高い予測精度が得られます。
複雑なパターンを学習できます。


* 代表的な方法：
AdaBoost：間違いに重みをつけて学習を進めます。
Gradient Boosting：残差（予測の誤差）を学習していきます。

バギングとブースティングの違い：

* アプローチ：
バギング：複数の独立したモデルを作って組み合わせます。
ブースティング：モデルを順番に作って、前のモデルの弱点を補強します。

* 学習の順序：
バギング：並行して学習できます（同時に学習可能）。
ブースティング：順番に学習します（前のモデルの結果が必要）。

* 得意なこと：
バギング：ノイズの多いデータに強いです。
ブースティング：複雑なパターンの学習に強いです。


## 総合7 (応用)
* バイアス・バリアンスについて調査・報告してください。

## 総合8(日付の前処理)
1. "2022-12-05"という文字列をdatetime型変換し年、月、日に分解してください。
1. "2022-12-05"という文字列をdatetime型変換し"2022/12/05"という形式に変換してください。
1. 現在の日付を"YYYY-MM-DD"形式で表示してください。
1. "20221205"という形式の文字列をdatetime型変換し"2022-12-05"という形式に変換してください。
1. 2つの日付文字列"2022-12-05"と"2023-01-10"の間の日数をdatetime型変換し計算してください。
1. "2022-12-05"という文字列をdatetime型変換しクォーター表記に変換してください。年度ではなく純粋な年月(例: "2022-12-05"は2022Q4となる)

In [None]:
from datetime import datetime

date_str = "2022-12-05"
date_obj = datetime.strptime(date_str, "%Y-%m-%d")
year, month, day = date_obj.year, date_obj.month, date_obj.day
print(f"年: {year}, 月: {month}, 日: {day}")

年: 2022, 月: 12, 日: 5


In [None]:
date_str = "2022-12-05"
date_obj = datetime.strptime(date_str, "%Y-%m-%d")
new_date_str = date_obj.strftime("%Y/%m/%d")
print(new_date_str)

2022/12/05


In [None]:
from datetime import date

today = date.today()
print(today.strftime("%Y-%m-%d"))

2024-06-23


In [None]:
from datetime import datetime

date1 = datetime.strptime("2022-12-05", "%Y-%m-%d")
date2 = datetime.strptime("2023-01-10", "%Y-%m-%d")
diff = date2 - date1
print(f"日数差: {diff.days}日")

日数差: 36日


In [None]:
from datetime import datetime
import pandas as pd
date_str = "2022-12-05"
date_obj = datetime.strptime(date_str, "%Y-%m-%d")
quarter = pd.Timestamp(date_obj).to_period("Q")
print(f"日付: {date_str}")
print(f"四半期: {quarter}")

日付: 2022-12-05
四半期: 2022Q4


## 総合9(クロスバリデーション)
* クロスバリデーションについて調べてください。
* K-fold クロスバリデーションについて理解した点を記載してください。
* Stratified K-fold クロスバリデーションについて理解した点を記載してください。
* 実際に過去の演習データ(回帰または分類)に関して、クロスバリデーションをおこなってモデル構築をおこない推論してください。


## 総合10(Lasso回帰の重み確認)
* 重回帰分析とLasso回帰でモデルを作成し、その重み(係数)の変化を確認してください。
* データセットは何でもよいです。

In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression, Lasso
from sklearn.datasets import make_regression
from sklearn.preprocessing import StandardScaler
import pandas as pd

# ランダムなデータセットを生成
X, y, true_coef = make_regression(n_samples=100, n_features=5, n_informative=3,
                                  noise=10, coef=True, random_state=42)

# 特徴量の標準化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 重回帰分析
lr = LinearRegression()
lr.fit(X_scaled, y)

# Lasso回帰 (alpha=1.0)
lasso = Lasso(alpha=1.0)
lasso.fit(X_scaled, y)

# 結果の表示
results = pd.DataFrame({
    '真の係数': true_coef,
    '重回帰係数': lr.coef_,
    'Lasso係数': lasso.coef_
})

print(results)

# 係数の変化を計算
results['係数の変化'] = results['Lasso係数'] - results['重回帰係数']
print("\n係数の変化:")
print(results['係数の変化'])

# 重要度が低下した特徴量を特定
reduced_importance = results[results['係数の変化'].abs() > 0.1]
print("\n重要度が大きく変化した特徴量:")
print(reduced_importance)

        真の係数      重回帰係数    Lasso係数
0  57.077830  56.101527  54.988731
1  35.609673  34.151592  33.295576
2   0.000000   0.188875   0.000000
3  64.591724  56.202440  55.160557
4   0.000000  -0.957425  -0.000000

係数の変化:
0   -1.112797
1   -0.856016
2   -0.188875
3   -1.041884
4    0.957425
Name: 係数の変化, dtype: float64

重要度が大きく変化した特徴量:
        真の係数      重回帰係数    Lasso係数     係数の変化
0  57.077830  56.101527  54.988731 -1.112797
1  35.609673  34.151592  33.295576 -0.856016
2   0.000000   0.188875   0.000000 -0.188875
3  64.591724  56.202440  55.160557 -1.041884
4   0.000000  -0.957425  -0.000000  0.957425


## 総合11(応用: クラスタリングとエルボー法)
* https://terakoya.sejuku.net/programs/110/chapters/1380 では4クラスターで実施していました。
* [エルボー法](https://tech.datafluct.com/entry/20220714/1657796580)を用いてクラスター数を決めつつ再度実施してみてください。

## 総合12(時系列データ: 統計的手法)
* AR, MA, ARIMA, SARIMA について調べてわかったことを報告してください。
* 上記はstatsmodelというライブラリで呼び出せます。ネット上でコードを調査して実際に動かしてみてください。(実際に説明していただく可能性があります)

# 総合13(時系列データ: prophet以外)
* * (応用)sktimeまたはAutomlのDartsを使いhttps://terakoya.sejuku.net/programs/110/chapters/1381 のデータを予測してみましょう。

# 総合14(インタラクティブな可視化)
* pyGWalkerについて調査してください
* 実際にtitanicデータに対してEDA(exploratory data analysis)を実施してみましょう。