<a href="https://colab.research.google.com/github/ohki-yu0225/toukei_1B_1/blob/main/240418_notebook_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 統計学実習IB 第1回
担当：大木 有<br>
日時：2024年4月12日（金）

## 講義内容
- 統計学実習で使用する主なライブラリの練習
    - Pandas
    - Numpy
    - Matplotlib

## Pandas, Numpy, Matplotlibのインポート

In [None]:
!pip install japanize_matplotlib
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib

## Pandas
### データの読み込み

In [None]:
# データの読み込み（時系列データ）
print('データソース：国勢調査時系列データ')
time_series_sample = pd.read_csv('time_series_sample.csv', encoding="shift-jis") #データの読み込み(日本語が含まれているファイルは"shift-jisを指定するのがベター")
time_series_sample.head(10)

### データの抽出

In [None]:
#任意の行のデータを抽出
time_series_sample[10:15]

In [None]:
#任意の列のデータを抽出
time_series_sample[['埼玉（男性）','埼玉（女性）']]

In [None]:
#任意の行のデータを抽出（iloc）
#ilocは行を番号で指示する df.iloc[行の番号]
display(time_series_sample.iloc[10])
display(time_series_sample.iloc[10:15])

In [None]:
#任意の行・列のデータを抽出（iloc）
#ilocは行・列を番号で指示する df.iloc[行の番号, 列の番号]
display(time_series_sample.iloc[10, 4])
display(time_series_sample.iloc[10:15, 1:3])

In [None]:
#任意の行のデータを抽出（loc）
#locは行をインデックス・ラベルで指示する df.loc[行のインデックス・ラベル]
time_series_sample_new = time_series_sample.set_index('年', inplace = False) #インデックスを'年'に設定し直す
display(time_series_sample_new.loc[1970])
display(time_series_sample_new.loc[1970:1990])

In [None]:
#任意の行のデータを抽出（loc）
#locは行・列をインデックス・ラベルで指示する df.loc[行のインデックス・ラベル, 列のラベル]
display(time_series_sample_new.loc[1970, '埼玉（総数）'])
display(time_series_sample_new.loc[1970:1990, ['全国（男性）', '全国（女性）']])

In [None]:
# 条件を指定してデータを抽出
# df[df['y列のラベル'] == x] y列のラベルがxの行を抽出（'=='以外にも'>', '>=', '<', '<='）なども使える。詳細はPythonの「比較演算子」を確認する）
display(time_series_sample[(time_series_sample['年'] == 2020)])
display(time_series_sample[(time_series_sample['年'] > 1995)])

### データの追加

In [None]:
# 列の追加
time_series_sample['全国（男女比）'] = time_series_sample['全国（男性）']/time_series_sample['全国（女性）']
time_series_sample['埼玉（男女比）'] = time_series_sample['埼玉（男性）']/time_series_sample['埼玉（女性）']
time_series_sample.head(5)

## Numpy

### PandasのデータをNumpyで処理

In [None]:
# PandasのDataFrame形式のデータをnumpyのarray形式に変換
saitama_pop = np.array(time_series_sample['埼玉（総数）']) #1次元配列になる
saitama_pop_mf = np.array(time_series_sample[['埼玉（男性）','埼玉（女性）']]) #2次元配列になる
print(saitama_pop)
print(saitama_pop_mf)

### データの抽出

In [None]:
# numpyの行列からデータを抽出
#1次元配列のarray
print(saitama_pop[0]) #array[x]でx番目のデータを抽出
print(saitama_pop[1:4]) #array[x:y]でxからy-1番目までのデータを抽出
print(saitama_pop[-1]) #[-1]を指定すれば、配列の最後のデータを抽出

# 2次元配列のarray
print(saitama_pop_mf[0]) #array[x]でx行目のデータを抽出
print(saitama_pop_mf[2, 0]) #array[x, y]でx行、y列目のデータを抽出

### 最大値、最小値、平均値、中央値、合計などの計算

In [None]:
# 1次元行列の計算
print(f'最小値: {saitama_pop.min()}') # 最小値
print(f'最大値: {saitama_pop.max()}') # 最大値
print(f'平均値: {saitama_pop.mean()}') # 平均値
print(f'中央値: {np.median(saitama_pop)}') # 中央値

In [None]:
# 2次元行列の計算
#全要素の合計
# axisを指定しないと全要素を対象に計算を行う
all_sum = saitama_pop_mf.sum()
print(f'総数の合計: {all_sum}')

# 行方向の合計
# axis=0を指定すると行方向に計算を行う
# 行方向の合計は1970年から2020年までの男女別人口の合計
low_sum = saitama_pop_mf.sum(axis=0)
print(f'男性数の合計: {low_sum[0]}')
print(f'女性数の合計: {low_sum[1]}')
# 列方向の平均値
# axis=1を指定すると行方向に計算を行う
# 列方向の合計は1970年から2020年の各年の男女別人口の合計（=各年の人口総数）
column_sum = saitama_pop_mf.sum(axis=1)
print(f'2020年の総数: {column_sum[-1]}')

## Matplotlib

### 折れ線グラフの出力

In [None]:
# プロットの作成
plt.plot(time_series_sample['年'], time_series_sample['全国（総数）']) #x軸, y軸にプロットしたい変数の列を指定

# タイトルと軸ラベルの追加
plt.title('全国の人口総数の推移')
plt.xlabel('年')
plt.ylabel('人口')

# グラフの表示
plt.show()

In [None]:
#複数の線を同時に出力
# プロットの作成
plt.plot(time_series_sample['年'], time_series_sample[['全国（男性）', '全国（女性）']]) #x軸, y軸にプロットしたい変数の列を指定

# タイトルと軸ラベルの追加
plt.title('全国の男女別人口数の推移')
plt.xlabel('年')
plt.ylabel('人口')

# 凡例の追加
plt.legend(['全国（男性）', '全国（女性）'])

# グラフの表示
plt.show()

### 散布図の出力

In [None]:
# プロットの作成
plt.plot(time_series_sample['全国（男性）'], time_series_sample['全国（女性）'], 'o') #x軸, y軸にプロットしたい変数の列を指定

# タイトルと軸ラベルの追加
plt.title('全国の男性人口数と女性人口数の散布図')
plt.xlabel('全国（男性）')
plt.ylabel('全国（女性）')

# グラフの表示
plt.show()

In [None]:
# データラベルを追加する
# プロットの作成
plt.plot(time_series_sample['全国（男性）'], time_series_sample['全国（女性）'], 'o') #x軸, y軸にプロットしたい変数の列を指定

# データラベルを追加
for i, label in enumerate(time_series_sample['年']): #ラベルにしたい列を指定して、順番に値を呼び出す
    plt.annotate(label, (time_series_sample['全国（男性）'][i], time_series_sample['全国（女性）'][i])) #i番目のx,y座標位置にi番目の都市を表示する

# タイトルと軸ラベルの追加
plt.title('全国の男性人口数と女性人口数の散布図')
plt.xlabel('全国（男性）')
plt.ylabel('全国（女性）')

# グラフの表示
plt.show()

### ヒストグラムの出力

In [None]:
# 平均が0で標準偏差が1の正規分布から乱数を1,000個発生させる
x = np.random.randn(1000)

# ヒストグラムの描写
plt.hist(x, bins=50) #'bins'でビンの数を指定する

# タイトルと軸ラベルの追加
plt.title('正規分布に従う乱数のヒストグラム')
plt.xlabel('値')
plt.ylabel('出現回数')

# グラフの表示
plt.show()

In [None]:
# ヒストグラムを重ねて表示する
# 平均が0で標準偏差が1の正規分布から乱数を1,000, 5,000, 50000個発生させる
x = np.random.randn(1000)
y = np.random.randn(5000)
z = np.random.randn(50000)

# ヒストグラムの描写
plt.hist(x, bins=50, label='1000', facecolor='blue', edgecolor='black', alpha=0.3, density=True) # alpha は透明度, density=Trueで頻度に正規化
plt.hist(y, bins=50, label='5000', facecolor='green', edgecolor='black', alpha=0.3, density=True) # alpha は透明度, density=Trueで頻度に正規化
plt.hist(z, bins=50, label='50000', facecolor='red', edgecolor='black', alpha=0.3, density=True) # alpha は透明度, density=Trueで頻度に正規化

# タイトルと軸ラベルの追加
plt.title('正規分布に従う乱数のヒストグラム')
plt.xlabel('値')
plt.ylabel('出現頻度')

# 凡例の表示
plt.legend(loc='upper left')

# グラフの表示
plt.show()

## 練習

## Pandasの練習

In [None]:
# データの読み込み
#練習 1 'panel_sample.csv'をDataframeとして読み込んで、最初の10行のデータを表示してください。練習 2~12まで練習 1で読み込んだデータを処理してください。
print('データソース：埼玉県推計人口') #データソースを表示
...

In [None]:
# データの操作 1
# 練習 2 読み込んだデータから任意の10行分のデータを抽出してください。ただし、最初の10行以外の行を表示してください。
...

In [None]:
# データの操作 2
# 練習 3 任意の2列分のデータを抽出してください。
...

In [None]:
# データの操作 3
# 練習 4 「熊谷市」の行のデータを抽出してください
...

In [None]:
# データの操作 4
# 練習 5 'kumagaya_jinkou'に「熊谷市」の人口を代入して、出力してください。
...
print(f'熊谷市の人口: {...} 人')

In [None]:
# データの追加
# 練習 6 1世帯あたりの人口数を計算し、'人口/世帯数'という名前の列として追加してください。
...

## Numpyの練習

In [None]:
# PandasのデータをNumpyで処理 1
# 練習 7 '人口/世帯数'をNumpyの1次元のarray形式に変換して、出力してください。
...

In [None]:
# PandasのデータをNumpyで処理 2
# 練習 8 '人口'と'世帯数'をNumpyの2次元のarray形式に変換して、出力してください。
...

In [None]:
# 最大値、最小値、平均値、中央値、合計などの計算 1
# 練習 9 練習7で出力した1次元行列から1世帯あたり人口の最大値、最小値、平均値のどれかを計算し、出力してください。
...
print(f'1世帯あたり人口の（最大値、最小値、平均値）: {...}')

In [None]:
# 最大値、最小値、平均値、中央値、合計などの計算 2
# 練習 10 練習8で出力した2次元行列から人口と世帯数の最大値、最小値、平均値のどれかを計算し、出力してください。
...
print(f'人口の（最大値、最小値、平均値）: {...}')
print(f'世帯数の（最大値、最小値、平均値）: {...}')

## Matplotlibの練習

In [None]:
# 散布図の出力
# 練習 11 '人口'と'前月からの増加数'の散布図を作成してください。タイトルや軸ラベル等も適切に表示してください。
...

In [None]:
# ヒストグラムの出力
# 練習 12 '人口/世帯数'の散布図を作成してください。タイトルや軸ラベル等も適切に表示してください。ビンの数は指定しなくて構わない。
...