# データ読み込み/書き込み


## Google Colab 内のデータ

Google Colab の左側のフォルダーアイコン :file_folder: をクリックすると、初期時点に入っているデータが表示されます。

`sample_data` フォルダーに、以下のファイルが入っているのが確認できます。
各ファイルはダブルクリックをすると開けます。

- `README.md`: サンプルデータの説明ファイル
- `anscombe.json`
- `california_housing_test.csv`
- `california_housing_train.csv`
- `mnist_test.csv`
- `mnist_train.csv`

:file_folder:.. をクリックすると、上の階層のフォルダに移動します。

移動前のフォルダは `content` という名前のフォルダです。

一定時間が経つと、Colab のストレージに上げたデータは削除されるので注意してください。

## パス

コンピュータ上にあるファイルの置き場所を示す文字列のことを、**パス** (path) といいます。

そのうち、ファイルのパスはファイルパス、フォルダのパスはフォルダパスといいます。

また、フォルダのことをディレクトリ (directory) と呼んだりもします。

Google Colab 上のフォルダ・ファイルのパスは、フォルダ・ファイルを右クリック -> `パスをコピー` でコピーできます。

例えば、`california_housing_test.csv` のファイルパスは、`/content/sample_data/california_housing_train.csv` です。

他のファイルのパスもコピーして確認してみましょう。

## データのアップロード

ファイルが表示されている領域にアップロードしたいファイルをドラッグ & ドロップするか、ファイルタブの左上にある ↑ のアイコンをクリックすると、アップロードするファイルを選択できます。

アップロードしたファイルは `content` フォルダ内にアップロードされます。

試しに、`sample_data` 内の適当なファイルをダウンロードし、アップロードしてください。

また、そのファイルのパスも確認しましょう。

## データの読み込み

`pandas` は数多くのデータ形式の入出力処理に対応しています。

入出力のことを **I/O** (input/output) とも呼びます。

ここでは、よく使われる csv と xlsx のファイル読み込みを行います。
`read_xxx` という関数名が、特定のファイル形式の読み込みに対応しています。

- 読み込み用関数一覧: https://pandas.pydata.org/docs/reference/io.html

### CSV ファイルの読み込み

csv とは、comma separated values の略で、列ごとに値をカンマ `,` で区切って表します。
行ごとにデータが格納されています。
csv ファイルの読み込みには、`read_csv` 関数を用います。

試しに、sample_data 内の `california_housing_test.csv` をダウンロードして、メモ帳 (Mac ならテキストエディット) で開いてみてください。

また、最初の行は列 (カラム) の名前を示しています。
データによってはカラム名がないこともあります。

Python で処理を行う前に、データファイルをメモ帳などで開いて、中身を確認しておくことをおすすめします。
その際に、データを書き換えないように注意しましょう。

`read_csv` 関数は、引数としてファイルのパスを指定します。
読み込んだデータを `DataFrame` に変換して返します。

In [None]:
import pandas as pd
data = pd.read_csv("/content/sample_data/california_housing_train.csv")
data.head()

## カリフォルニア住宅データ

`california_housing_train.csv`, `california_housing_test.csv` にあるデータは、カリフォルニアの住宅のデータです。

データはブロック単位の集計データで、ブロックの緯度・経度、価格や築年数などが格納されています。

https://docs.google.com/document/d/e/2PACX-1vRhYtsvc5eOR2FWNCwaBiKL6suIOrxJig8LcSBbmCbyYsayia_DvPOOBlXZ4CAlQ5nlDD8kTaIDRwrN/pub

読み込んでだデータを用いて、次を行ってください。

- 世帯数のデータ型の確認
- 平均価格の計算
- 居住人数の最大値の取得
- 最も寝室数が多いブロックの緯度・経度の取得
- 価格が平均より高ければ 1、そうではなければ 0 をとる変数の追加

## データ出力

`pandas` で `read_xxx` 関数で特定のファイルを読み込めたように、`to_xxx` メソッドを用いることで `DataFrame` を特定のファイルとして出力できます。

良く用いられるのが、`to_csv` メソッドで、csv 形式のデータファイルに変換してくれます。

メソッドの引数には、出力先のファイルパスを指定します。

拡張子 (`csv`) も忘れずに記載するようにしてください。

以下の例は、作成した `DataFrame` を `sample_output.csv` というファイル名の csv ファイルとして出力しています。

In [None]:
test_data = pd.DataFrame({
    '学生ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'クラス': ['A', 'A', 'B', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    '教科': ['数学', '国語', '数学', '国語', '数学', '国語', '数学', '国語', '数学', '国語'],
    '点数': [80, 75, 90, 85, 70, 80, 95, 90, 85, 78]
})
test_data

In [None]:
test_data.to_csv("sample_output.csv")  # csv として出力

`content` フォルダ内に `sample_output.csv` というファイルが作成されていることを確認してください。

インデックスが単なる番号である場合、`index = False` を引数に入れることでインデックスの出力を除外できます。

他に出力できるデータ形式については、pandas のドキュメントを参考にしてください。

- https://pandas.pydata.org/docs/reference/io.html