<a href="https://colab.research.google.com/github/okana2ki/intro-to-DS/blob/main/DS13_0v3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ノートブックの保存／保存したものの再開

## **保存のしかた**

Colabで開いたら、まず、↑上部の**「ドライブにコピー」をクリック**して下さい。Googleドライブの [マイドライブ > Colab Notebooks] に保存され、その後加えた変更がそこに自動保存されるようになります。

ヘッダーに表示されるはずの「ドライブにコピー」が表示されてない場合は、画面上部右端の「v」アイコンをクリックして、ヘッダーの表示／非表示を切り替えて下さい。

スマホの場合は、左上の3本線を押して、「ファイル」-「ドライブにコピーを保存」のはず。

## **再開のしかた**

ヘッダー（上記参照）が表示されている状態で、左上の「ファイル」をクリック→「ノートブックを開く」をクリック→最近閲覧したノートブックの一覧が表示されるので、開きたいノートブック名をクリックするか、右端のいくつかのアイコンのうち目的に合ったものをクリック（または、左カラムの「Googleドライブ」をクリックするとドライブ中のノートブック一覧が表示されるのでそこから探す；一覧から探すときは、一覧上部の「↑」や「↓」をクリックすることでいろいろな条件で並べ替えできます）

# Gemini (Colab AI) の使い方

* Googleアカウントでログインした状態で、**PCで**このコラボ・ノートブックを開くとAIが手伝ってくれます。

次のようにAIに頼んでみよう。頼む手順：

0. コードセルを新たに追加したい場合は、ノートブック画面上部の「+コード」をクリックする(現在カーソルがあるセルの下に追加される)か、または、セルの間あたりにカーソルをもってくると表示される「+コード」をクリックする(クリックした場所に追加される)。

1. コードセルを作ったときの表示「コーディングを開始するか、AIで<u>生成</u>します。」中の**「<u>生成</u>」をクリック**すると、入力窓が現れるので、そこに以下の依頼を**コピー(Ctrl-C)・アンド・ペースト(Ctrl-V)**しよう←このショートカットキーはWindowsの場合（Ctrl-CはCtrlキーを押しながら同時にCキーを押すことを示す）；MacではCtrlの代わりにcommandキー）
2. 入力窓への入力が済んだら、Enterキーを押すか、入力窓の左側の「生成」ボタンを押す。

依頼の書き方の例：
> (1, 2, 3) という3個のデータの（不偏分散ではなく）標本分散を求めて下さい。

#ファイルの読み込み
CSVファイルをpandasのDataFrame形式で読み込む。



**ヘッダー行を行番号で指定する**必要がある。SSDSE-C-2024.csvの場合は、最初の2行がヘッダー（データは3行目から始まる）であるが、1行目は「項目コード」であるためAIに頼むときやプログラムを見たとき分かりにくく、2行目の「項目名」の方が分かりやすいので、下記のように2行目をヘッダーとして指定する。上から0行、1行と数えるので、**行番号1は2行目を示す**ことに注意。
```
header=1
```

日本語を含むファイルの場合は、encoding（文字コード）を適切に指定する必要がある。encodingを指定しないと、デフォルトのutf_8と見なされるが、それでエラーが出る場合は、shift_jisを指定する。
```
encoding="utf_8"  # こちらがデフォルト（指定しないとこちらだと解釈される）
encoding="shift_jis"
```



## Webサイト（SSDSEのサイト）上のファイルの読み込み

In [None]:
import pandas as pd

url = "https://www.nstac.go.jp/sys/files/SSDSE-C-2024.csv"
df = pd.read_csv(url, header=1, encoding="shift_jis")
print(df)

# AIにいろいろな分析をお願いしてみよう！

エクセルで演習したような分析はもちろん、もっと面白い分析、もっと複雑な分析でも、言葉でお願いするだけで、手軽にできるよ。やりたい分析や欲しい結果と違う場合は、それを指摘して繰り返しお願いしてみよう。

AIに依頼すると、グラフ中に日本語表示するプログラムを作成することがあるため、グラフ中に日本語が表示できるように、あらかじめ、下記の2つのコードセルを実行しておきましょう。

In [None]:
!pip install japanize_matplotlib

In [6]:
import japanize_matplotlib

In [None]:
# prompt: ぎょうざの消費額が多い順にソートして下さい。

import pandas as pd

# URLからデータを読み込む
url = "https://www.nstac.go.jp/sys/files/SSDSE-C-2024.csv"
df = pd.read_csv(url, header=1, encoding="shift_jis")

# 'ぎょうざ'を含む列を特定し、消費額が多い順にソート
# 列名が正確にわからない場合は、df.columnsで列名を確認してください。
# 例えば、'世帯の1か月当たりの消費支出（円）'が'消費支出'という列名だと仮定します。
# 実際の列名に合わせて修正してください。

# 列名のリストを取得
columns = df.columns.tolist()

# 'ぎょうざ'を含む列名を探す
target_columns = [col for col in columns if 'ぎょうざ' in col]

# 見つかった列に基づいてソート
if target_columns:
  for col in target_columns:
    print(f"--- {col} ---")
    sorted_df = df.sort_values(by=col, ascending=False)
    print(sorted_df[[col]])  # 消費額の列のみ表示
else:
  print("'ぎょうざ'を含む列名が見つかりませんでした。列名を確認してください。")

In [None]:
# prompt: ソート結果は、行番号に加えて、3列目の「市」の列に記載された都市名も示して下さい。

import pandas as pd

# URLからデータを読み込む
url = "https://www.nstac.go.jp/sys/files/SSDSE-C-2024.csv"
df = pd.read_csv(url, header=1, encoding="shift_jis")

# 'ぎょうざ'を含む列を特定し、消費額が多い順にソート
# 列名が正確にわからない場合は、df.columnsで列名を確認してください。
# 例えば、'世帯の1か月当たりの消費支出（円）'が'消費支出'という列名だと仮定します。
# 実際の列名に合わせて修正してください。

# 列名のリストを取得
columns = df.columns.tolist()

# 'ぎょうざ'を含む列名を探す
target_columns = [col for col in columns if 'ぎょうざ' in col]

# 見つかった列に基づいてソート
if target_columns:
    for col in target_columns:
        print(f"--- {col} ---")
        sorted_df = df.sort_values(by=col, ascending=False)
        # 行番号と都市名を含めて表示
        sorted_df = sorted_df.reset_index() # 行番号をリセット
        print(sorted_df[['index', '市', col]])  # 行番号、市、消費額の列を表示
else:
    print("'ぎょうざ'を含む列名が見つかりませんでした。列名を確認してください。")