<a href="https://colab.research.google.com/github/takahiromiura/class-data-analysis-II-2024/blob/main/notebooks/IO%E5%87%A6%E7%90%86.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# データ読み込み/書き込み


## Google Colab 内のデータ

Google Colab の左側のフォルダーアイコンをクリックすると、初期時点に入っているデータが表示されます。

`sample_data` フォルダーに、以下のファイルが入っているのが確認できます。
各ファイルはダブルクリックをすると開けます。

- `README.md`: サンプルデータの説明ファイル
- `anscombe.json`
- `california_housing_test.csv`
- `california_housing_train.csv`
- `mnist_test.csv`
- `mnist_train.csv`

フォルダーが開いているアイコンををクリックすると、上の階層のフォルダに移動します。

移動前のフォルダは `content` という名前のフォルダです。

また、一定時間が経つと、Colab のストレージに上げたデータは削除されるので注意してください。

## パス

コンピュータ上にあるファイルの置き場所を示す文字列のことを、**パス** (path) といいます。

そのうち、ファイルのパスはファイルパス、フォルダのパスはフォルダパスといいます。

また、フォルダのことをディレクトリ (directory) と呼んだりもします。

Google Colab 上のフォルダ・ファイルのパスは、フォルダ・ファイルを右クリック -> `パスをコピー` でコピーできます。

例えば、`california_housing_test.csv` のファイルパスは、`/content/sample_data/california_housing_train.csv` です。

他のファイルのパスもコピーして確認してみましょう。

## データのアップロード

ファイルが表示されている領域にアップロードしたいファイルをドラッグ & ドロップするか、ファイルタブの左上にある ↑ のアイコンをクリックすると、アップロードするファイルを選択できます。

アップロードしたファイルは `content` フォルダ内にアップロードされます。

試しに、`sample_data` 内の適当なファイルをダウンロードし、アップロードしてください。

また、そのファイルのパスも確認しましょう。

## データの読み込み

`pandas` は数多くのデータ形式の入出力処理に対応しています。

入出力のことを **I/O** (input/output) とも呼びます。

ここでは、よく使われる csv と xlsx のファイル読み込みを行います。
`read_xxx` という関数名が、特定のファイル形式の読み込みに対応しています。

- 読み込み用関数一覧: https://pandas.pydata.org/docs/reference/io.html

### CSV ファイルの読み込み

csv とは、comma separated values の略で、列ごとに値をカンマ `,` で区切って表します。
行ごとにデータが格納されています。
csv ファイルの読み込みには、`read_csv` 関数を用います。

試しに、sample_data 内の `california_housing_test.csv` をダウンロードして、メモ帳 (Mac ならテキストエディット) で開いてみてください。

また、最初の行は列 (カラム) の名前を示しています。
データによってはカラム名がないこともあります。

Python で処理を行う前に、データファイルをメモ帳などで開いて、中身を確認しておくことをおすすめします。
その際に、データを書き換えないように注意しましょう。

`read_csv` 関数は、引数としてファイルのパスを指定します。
読み込んだデータを `DataFrame` に変換して返します。

In [1]:
import pandas as pd
data = pd.read_csv("/content/sample_data/california_housing_train.csv")
data.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


## カリフォルニア住宅データ

`california_housing_train.csv`, `california_housing_test.csv` にあるデータは、カリフォルニアの住宅のデータです。

データはブロック単位の集計データで、ブロックの緯度・経度、価格や築年数などが格納されています。

以下のドキュメントも参考にしてください。

https://docs.google.com/document/d/e/2PACX-1vRhYtsvc5eOR2FWNCwaBiKL6suIOrxJig8LcSBbmCbyYsayia_DvPOOBlXZ4CAlQ5nlDD8kTaIDRwrN/pub

読み込んでだデータを用いて、次を行ってください。

- 世帯数のデータ型の確認
- 平均価格の計算
- 居住人数の最大値の取得
- 最も寝室数が多いブロックの緯度・経度の取得
- 価格が平均より高ければ 1、そうではなければ 0 をとる変数の追加

## データ出力

`pandas` で `read_xxx` 関数で特定のファイルを読み込めたように、`to_xxx` メソッドを用いることで `DataFrame` を特定のファイルとして出力できます。

良く用いられるのが、`to_csv` メソッドで、csv 形式のデータファイルに変換してくれます。

メソッドの引数には、出力先のファイルパスを指定します。

拡張子 (`csv`) も忘れずに記載するようにしてください。

以下の例は、作成した `DataFrame` を `sample_output.csv` というファイル名の csv ファイルとして出力しています。

In [2]:
test_data = pd.DataFrame({
    '学生ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'クラス': ['A', 'A', 'B', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    '教科': ['数学', '国語', '数学', '国語', '数学', '国語', '数学', '国語', '数学', '国語'],
    '点数': [80, 75, 90, 85, 70, 80, 95, 90, 85, 78]
})
test_data

Unnamed: 0,学生ID,クラス,教科,点数
0,1,A,数学,80
1,2,A,国語,75
2,3,B,数学,90
3,4,B,国語,85
4,5,A,数学,70
5,6,B,国語,80
6,7,A,数学,95
7,8,B,国語,90
8,9,A,数学,85
9,10,B,国語,78


In [3]:
test_data.to_csv("sample_output.csv")  # csv として出力

`content` フォルダ内に `sample_output.csv` というファイルが作成されていることを確認してください。

インデックスが単なる番号である場合、`index = False` を引数に入れることでインデックスの出力を除外できます。

他に出力できるデータ形式については、pandas のドキュメントを参考にしてください。

- https://pandas.pydata.org/docs/reference/io.html