# Basic Statistic

[利用規約 | 政府統計の総合窓口](https://www.e-stat.go.jp/terms-of-use) に従い、データを利用します。

今回は、[小売物価統計調査 小売物価統計調査（動向編）主要品目の都市別小売価格－都道府県庁所在市及び人口15万以上の市(2000年1月～) | 統計表・グラフ表示 | 政府統計の総合窓口](https://www.e-stat.go.jp/dbview?sid=0003421913)のデータを加工して分析を行います。

出典：政府統計の総合窓口(e-Stat)（https://www.e-stat.go.jp/）

# 目的

e-statのデータを初めて利用するため、データの読み込みから基本的な統計処理を行うことを目的とします。

# データ準備方法

1. 表示項目選択から、銘柄を選択し、「ブロッコリー」以外の選択を解除し、確定

---

## ダウンロードを行う際

1. ファイル形式は「CSV形式(列指向形式・Shift-JIS)」
2. ヘッダの出力 は「なし」

In [1]:
import traceback

import polars as pl
import pandas as pd
import tqdm as notebook_tqdm

from ydata_profiling import ProfileReport
import matplotlib.pyplot as plt
import japanize_matplotlib

In [2]:
DATA_PATH="../datasets/FEH_00200571_241119204010.csv"

try:
    df = pd.read_csv(DATA_PATH, encoding="shift_jis")
except Exception as e:
    traceback.print_exc()

In [3]:
df.head()

Unnamed: 0,tab_code,表章項目,cat01_code,データの種別,cat02_code,銘柄,area_code,地域,time_code,時間軸（月）,unit,value
0,10,価格,20,価格,1409,1409 ブロッコリー,1100,札幌市,2024000909,2024年9月,円,695
1,10,価格,20,価格,1409,1409 ブロッコリー,1100,札幌市,2024000808,2024年8月,円,567
2,10,価格,20,価格,1409,1409 ブロッコリー,1100,札幌市,2024000707,2024年7月,円,580
3,10,価格,20,価格,1409,1409 ブロッコリー,1100,札幌市,2024000606,2024年6月,円,875
4,10,価格,20,価格,1409,1409 ブロッコリー,1100,札幌市,2024000505,2024年5月,円,1014


In [4]:
# Check types and nulls

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22905 entries, 0 to 22904
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   tab_code    22905 non-null  int64 
 1   表章項目        22905 non-null  object
 2   cat01_code  22905 non-null  int64 
 3   データの種別      22905 non-null  object
 4   cat02_code  22905 non-null  int64 
 5   銘柄          22905 non-null  object
 6   area_code   22905 non-null  int64 
 7   地域          22905 non-null  object
 8   time_code   22905 non-null  int64 
 9   時間軸（月）      22905 non-null  object
 10  unit        22905 non-null  object
 11  value       22905 non-null  object
dtypes: int64(5), object(7)
memory usage: 2.1+ MB


In [5]:
# convert `value` column to float
def _convert_to_float(x):
    try:
        return float(x.replace(",", ""))
    except:
        return None

df["value"] = df["value"].apply(
    _convert_to_float
)

In [6]:
profile = ProfileReport(df, title="Pandas Profiling Report")

In [7]:
# delete warning
import warnings
warnings.filterwarnings("ignore")

# save report to file
profile.to_file("pandas_profiling_report.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [8]:
# countValues in 地域
_count_value = df["地域"].value_counts()
_count = 0
for key, value in _count_value.items():
    print(f"{_count+1}. {key}: {value}", end=", ")
    _count += 1
    if _count % 10 == 0:
        print()

1. 札幌市: 297, 2. 函館市: 297, 3. 旭川市: 297, 4. 青森市: 297, 5. 盛岡市: 297, 6. 郡山市: 297, 7. 仙台市: 297, 8. 秋田市: 297, 9. 山形市: 297, 10. 水戸市: 297, 
11. 福島市: 297, 12. 前橋市: 297, 13. 宇都宮市: 297, 14. 佐倉市: 297, 15. 千葉市: 297, 16. 所沢市: 297, 17. 特別区部: 297, 18. 川口市: 297, 19. 松本市: 297, 20. 甲府市: 297, 
21. 長野市: 297, 22. 長岡市: 297, 23. 富山市: 297, 24. 金沢市: 297, 25. 横須賀市: 297, 26. 川崎市: 297, 27. 横浜市: 297, 28. 府中市: 297, 29. 立川市: 297, 30. 鹿児島市: 297, 
31. 佐世保市: 297, 32. 松山市: 297, 33. 高知市: 297, 34. 北九州市: 297, 35. 福岡市: 297, 36. 佐賀市: 297, 37. 長崎市: 297, 38. 那覇市: 297, 39. 大分市: 297, 40. 宮崎市: 297, 
41. 福井市: 297, 42. 津市: 297, 43. 大阪市: 297, 44. 名古屋市: 297, 45. 岐阜市: 297, 46. 大津市: 297, 47. 京都市: 297, 48. 宇部市: 297, 49. 山口市: 297, 50. 広島市: 297, 
51. 福山市: 297, 52. 松江市: 297, 53. 鳥取市: 297, 54. 和歌山市: 297, 55. 奈良市: 297, 56. 伊丹市: 297, 57. 西宮市: 297, 58. 姫路市: 297, 59. 神戸市: 297, 60. 東大阪市: 297, 
61. 枚方市: 297, 62. 高松市: 297, 63. 徳島市: 297, 64. さいたま市: 258, 65. 静岡市: 234, 66. 新潟市: 210, 67. 浜松市: 210, 68. 富士市: 189, 69. 日立市: 189, 70. 熊谷市: 189, 
71. 岡山市: 186

In [9]:
# 地域ごとの価格を可視化（時系列についてグループ化して平均を取る）

df_for_plot = df[["地域", "value"]].groupby("地域").mean()

df_for_plot.plot(kind="bar", figsize=(20, 10))

plt.show()
plt.savefig("price_by_area.png")

In [10]:
# 年代ごとの価格を可視化（時系列についてグループ化して平均を取る）

df_for_plot = df[["時間軸（月）", "value"]].groupby("時間軸（月）").mean()

df_for_plot.plot(kind="bar", figsize=(20, 10))

plt.show()
plt.savefig("price_by_month.png")

In [11]:
# 年ごとに価格を可視化（時系列についてグループ化して平均を取る）

df["Year"] = df["時間軸（月）"].apply(lambda x: x.split("年")[0])

df_for_plot = df[["Year", "value"]].groupby("Year").mean()

df_for_plot.plot(kind="bar", figsize=(20, 10))

plt.show()
plt.savefig("price_by_year.png")

# 仮説

2016年のブロッコリーの価格は、2023年に比べて高いと考えられる。

ー＞分布を確認してみる。

In [12]:
df_2016_and_2023 = df[(df["Year"] == "2016") | (df["Year"] == "2023")]

grouped_df = df_2016_and_2023.groupby(["Year"])["value"]

fig, ax = plt.subplots(figsize=(8, 6))

# 年代ごとに分布を描画
for label, values in grouped_df:
    ax.hist(
        values, 
        label=label,
        alpha=0.5
    )
    
fig.legend()
plt.show()
plt.savefig("price_by_2016_2023.png")

In [13]:
# 2016年と2023年の価格分布に有意差があるかどうかを検定する

from scipy.stats import mannwhitneyu, ks_2samp

# 2016年と2023年のデータを抽出
data_2016 = df[df["Year"] == "2016"]["value"]
data_2023 = df[df["Year"] == "2023"]["value"]

data_2016 = data_2016.dropna()
data_2023 = data_2023.dropna()

# マン・ホイットニーU検定
u_stat, p_value_mw = mannwhitneyu(data_2016, data_2023, alternative="two-sided")
print(f"マン・ホイットニーU検定: U統計量={u_stat}, p値={p_value_mw}")

if p_value_mw < 0.05:
    print("2016年と2023年で価格分布に有意差があります。")
else:
    print("2016年と2023年で価格分布に有意差はありません。")

# KS検定
ks_stat, p_value_ks = ks_2samp(data_2016, data_2023)
print(f"KS検定: 統計量={ks_stat}, p値={p_value_ks}")

if p_value_ks < 0.05:
    print("2016年と2023年で価格分布の形状に有意差があります。")
else:
    print("2016年と2023年で価格分布の形状に有意差はありません。")


マン・ホイットニーU検定: U統計量=211392.5, p値=1.0870554466564419e-21
2016年と2023年で価格分布に有意差があります。
KS検定: 統計量=0.3333333333333333, p値=3.8280155227812547e-28
2016年と2023年で価格分布の形状に有意差があります。


In [14]:
# 正規性の検定
from scipy.stats import shapiro

# シャピロ・ウィルク検定
stat_2016, p_2016 = shapiro(data_2016)
stat_2023, p_2023 = shapiro(data_2023)
print(f"2016年のシャピロ・ウィルク検定: 統計量={stat_2016}, p値={p_2016}")
print(f"2023年のシャピロ・ウィルク検定: 統計量={stat_2023}, p値={p_2023}")


from scipy import stats

# Q-Qプロットの描画
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
stats.probplot(data_2016, dist="norm", plot=plt)
plt.title('2016年のQ-Qプロット')
plt.subplot(1, 2, 2)
stats.probplot(data_2023, dist="norm", plot=plt)
plt.title('2023年のQ-Qプロット')
plt.show()
plt.savefig("qqplot.png")

2016年のシャピロ・ウィルク検定: 統計量=0.9628054020984665, p値=9.505421251409678e-11
2023年のシャピロ・ウィルク検定: 統計量=0.9048472148197447, p値=2.8284306906105493e-18
