#ファイルの読み込み
CSVファイルをpandasのDataFrame形式で読み込む。



ヘッダー行を指定する必要がある。SSDSE-B-2022.csvの場合は、最初の2行がヘッダー（データは3行目から始まる）なので、
```
header=[0,1]
```
のように行番号のリストで指定する。

日本語を含むファイルの場合は、encoding（文字コード）を適切に指定する必要がある。encodingを指定しないと、デフォルトのutf_8と見なされるが、それでエラーが出る場合は、shift_jisを指定する。
```
encoding="utf_8"  # こちらがデフォルト（指定しないとこちらだと解釈される）
encoding="shift_jis"
```



##Webサイト上のファイルの読み込み

In [None]:
import pandas as pd

url = "https://www.nstac.go.jp/sys/files//SSDSE-B-2022.csv"
df = pd.read_csv(url, header=[0,1], encoding="shift_jis")
print(df)

##[Google Colabにアップロードしたファイルの読み込み](https://blog.kikagaku.co.jp/google-colab-file)

（Google Drive中のファイルを読み込む方法もあるが、今回はこちらを紹介する。）

1.   Colabの左サイドバーのファイルマークをクリック
2.   表示されたサイドバーに、アップロードするファイルをドラッグ&ドロップ
3.   アップロードされたファイルにマウスオーバー（マウスオン）する
4.   表示されたメニューアイコン「︙」をクリック
5.   プルダウンメニューから「パスをコピー」を選択
6.   コピーされたパス(/content/SSDSE-B-2022.csv)をプログラム中の当該箇所に貼り付け

In [None]:
import pandas as pd

file_name = "/content/SSDSE-B-2022.csv"
df = pd.read_csv(file_name, header=[0,1], encoding="shift_jis")
print(df)

# フィルタリング（条件に合うデータを抜き出す）

In [None]:
df2015 = df[df[('SSDSE-B-2022','Unnamed: 0_level_1')] == 2015]
# 2015年のデータだけ抽出
# SSDSE-B-2022は調査年が記載されているカラムのヘッダー第0行の記載内容、
# そのカラムのヘッダー第1行は空欄なので'Unnamed: 0_level_1'と設定される。
# この2つを組み合わせて調査年のカラムであることを指定。
print(df2015)

# 和、平均、中央値を求める


## 日本の総人口を求める

In [None]:
df2015popu = df2015[[('A1101','総人口')]]  # 総人口のカラムを抽出
print(df2015popu)

In [None]:
df2015popu.sum()  # 総和を求める

## 消費支出の全国平均を求める

In [None]:
print(df2015.filter(like='消費支出', axis=1))  # ヘッダーに'消費支出'を含む列を検索；axis=1は列を抽出することを指示
# 2つの該当する列が抽出される

In [None]:
df2015consum = df2015[[('L3221','消費支出（二人以上の世帯）')]]  # 見つけた列のうち今回目的とする列を抽出
print(df2015consum)

In [None]:
df2015consum.mean()  # 平均値を算出

L3221  消費支出（二人以上の世帯）    286153.085106
dtype: float64

##演習問題
同様に、消費支出の中央値を求めて、教科書170ページで答え合わせをしよう。median()を使用するとよい。

# データの並べ替え（ソート）

In [None]:
import pandas as pd

file_name = "/content/SSDSE-C-2022.csv"
df = pd.read_csv(file_name, header=[0,1], encoding="shift_jis")
print(df)

In [None]:
print(df.filter(like='ぎょうざ', axis=1))  # ヘッダーに'ぎょうざ'を含む列を検索

In [None]:
df_gyoza = df[[('City','市'),('LB092007','ぎょうざ')]]  # 市の列とぎょうざの列を抽出
print(df_gyoza)

In [None]:
df_gyoza_s = df_gyoza.sort_values(('LB092007','ぎょうざ'), ascending=False)  # ぎょうざの降順(ascending=False)でソート
print(df_gyoza_s)