### 講義概要

---

「ファイル操作」では、ファイルの読み込みや出力、読み込んだデータの中身の確認などを中心に扱います。

### Lesson 02 で学習する主なメソッド

---

| メソッド                   | 説明                                                 |
| :------------------------- | :--------------------------------------------------- |
| pd.read_csv()              | csv ファイルの読み込み                               |
| pd.to_csv()                | csv ファイルの書き出し                               |
| df.head()                  | 先頭の行を表示                                       |
| df.tail()                  | 末尾の行を表示                                       |
| df.shape                   | 行数、列数の取得                                     |
| df.info()                  | データの要約                                         |
| df.describe                | 数値カラムに対して各種統計量を計算                   |
| df.describe(include='all') | 全てのカラムに対して各種統計量を計算                 |
| df.count()                 | 各カラムの有効データ数を表示                         |
| df.dtype                   | データ型を調べる                                     |
| df.columns                 | カラム名を取得                                       |
| df['列名'].unique()        | 指定したカラムの重複を削除した、ユニークな要素を返す |


### ファイルの読み込み

---

#### 事前準備

In [1]:
# モジュールのインポート
import pandas as pd
import numpy  as np
import os
from glob import glob

- `os` モジュールとは、os（オペーレーションシステム）に関連する処理を行うためのモジュールで、ファイル、ディレクトリのパス操作やプロセス管理などの際によく使われます。
- この Lesson で登場するモジュール、関数を事前に読み込んでおきます。

#### 例題

`01_input` フォルダ内に配置してある `プロ野球フリーク_横浜DeNA_選手一覧.csv` を読み込み、 `df_DeNA` というデータフレーム名で格納しましょう。

In [2]:
df_DeNA = pd.read_csv('./01_input/プロ野球フリーク_横浜DeNA_選手一覧.csv', encoding = 'cp932')
df_DeNA.head()

Unnamed: 0,No.,選手名,守備,生年月日,年齢,年数,身長,体重,血液型,投打,出身地,年俸(推定)
0,0,宮本　秀明,外野手,1996/7/24,26歳,5年,180cm,83kg,O型,右左,熊本,865万円
1,0,大田　泰示,外野手,1990/6/9,32歳,14年,188cm,96kg,O型,右右,広島,"5,000万円"
2,1,桑原　将志,外野手,1993/7/21,29歳,11年,174cm,78kg,B型,右右,大阪,"10,500万円"
3,2,牧　秀悟,内野手,1998/4/21,24歳,2年,178cm,93kg,O型,右右,長野,"7,000万円"
4,3,藤田　一也,内野手,1982/7/3,40歳,18年,175cm,77kg,O型,右左,徳島,"1,800万円"


カレントディレクトリとは、「Python が今いる場所（フォルダ / ディレクトリ）」のことを指します。Windosw 系ではフォルダ、Unix（Mac）系ではディレクトリという呼び方が一般的ですが、両者は同じものです。Jupyter Notebook を配置している場所がカレントディレクトリとなります。また、ファイルのパスを指定する際など、カレントディレクトリまでのパス情報は「.」で省略することが可能です。

次の 1 行を実行してみると、カレントディレクトリの場所を確認することができます。

`getcwd()` とは、GET（取得する） Current Working Directory の略です。


In [3]:
os.getcwd()

'/content'

#### 解説

csv ファイルの読み込みには、 `pd.read_csv()` を使います。

オプション

- `header`: カラム名の行を指定する（デフォルトは 0）。 `header=None` はカラム名なしとみなす。
- `index_col`: `index_col=0` のように指定すると、1 列目を `index` として扱う
- `usecols`： 指定した列だけを読み込む。ex. `usecols=[0,1,4]` や `usecols=['列名1', '列名2']` など。
- `skiprows`： 指定した行数をスキップする。ex. `skiprows=2` や `skiprows=[0,3]` など。
- `skipfotter`： ファイルの末尾をスキップする。ex. `skipfooter=1` など。
- `nrows`： 指定した行数だけ読み込む。
- `encoding`： エンコード形式を指定する。Windows の場合は、cp932 が最適。
  > コンピュータ上で数字や文字などを表現するために、文字コードと呼ばれるコード体系が存在します。有名なコード体系としては SHIFT_JIS、UTF-8 などがあります。例えば、SHIFT_JIS の文字コードにおいて、ひらがなの「あ」はコンピュータの内部では「0x82E0」として扱われます。一方、UTF-8 では「0xe38182」がひらがなの「あ」に相当します。 一般的に、Windows 環境においては SHIFT_JIS（≒cp932）、 Linux 環境（Mac）においては UTF-8 が適しています。
- `engine`： csv ファイルを読み込む際の処理を C 言語で行うか Python で行うかを指定する。ファイルに日本語が含まれておりエラーが出る場合は、 `engine='python'` と指定することで解決する。
- `dtype`： データの型を指定する。 `{'列名' : 'データ型'}` で指定する。
  - 文字列： `object` を指定する。
  - 数値： `int64` （整数）や `float` （浮動小数点数）など。
- `names`： 読み込んだ列に自分で列名をつけたいときに使用する。ex. `names=["列名1","列名2","列名3"]` など。

その他の読み込みフォーマット

- 表形式の Excel を読み込む： `pd.read_excel()`
- 表形式となっていない Excel を読み込む： `xlrd.open_workbook`
- tab 区切りテキストファイルを読み込む： `pd.read_csv()` のオプションに `delimiter='\t'` を指定する。


### データフレームの確認

データフレームの特徴把握に有用なスキル

| メソッド                      | 説明                                                 |
| :---------------------------- | :--------------------------------------------------- |
| df.head()                     | 先頭の行を表示                                       |
| df.tail()                     | 末尾の行を表示                                       |
| df.shape                      | 行数・列数の取得                                     |
| df.info()                     | データの要約                                         |
| df.describe(include='number') | 数値カラムに対して各種統計量を計算                   |
| df.describe(exclude='number') | 数値カラム以外に対して各種統計量を計算               |
| df.describe(include='all')    | 全てのカラムに対して各種統計量を計算                 |
| df.count()                    | 各カラムの有効データ数を表示                         |
| df.dtypes                     | データ型を調べる                                     |
| df.columns                    | カラム名を取得                                       |
| df['列名'].unique()           | 指定したカラムの重複を削除した、ユニークな要素を返す |

初めて扱うデータは、そのデータの全体像や特徴を丁寧に理解する必要があります。データの理解なくして最適な分析は行えません。データがどのように格納されているのか、格納されているデータはどのような分布（統計量）のデータなのか、分析に不要な余計なデータが紛れ込んでいないかなど、確認すべきポイントはたくさんあります。初見のデータであってもそのデータの特徴をしっかりと把握できるように、 「データフレームの確認」に関するスキルを身につけましょう。

#### 例題

`01_input` フォルダ内に配置してある `コンビニエンスストア_都道府県別店舗数_2022年3月時点.csv` を読み込み、 `df_CVS` というデータフレーム名で格納しましょう。また、読み込んだ結果である `df_CVS` の先頭10行と末尾10行のデータを表示させてみましょう。


In [4]:
df_CVS = pd.read_csv('./01_input/コンビニエンスストア_都道府県別店舗数_2022年3月時点.csv', encoding='cp932', dtype={'都道府県コード' : 'object'})
df_CVS.head(10)

Unnamed: 0,都道府県コード,都道府県名,セブンイレブン,ファミリーマート,ローソン,ミニストップ,デイリーヤマザキ,セイコーマート,NewDays,コミュニティストア,ポプラ,ローソン・スリーエフ
0,1,北海道,1002,240,675,-,-,1085,-,-,-,-
1,2,青森県,99,197,279,26,11,-,5,-,-,-
2,3,岩手県,146,183,178,11,22,-,13,-,-,-
3,4,宮城県,426,348,256,108,32,-,27,-,-,-
4,5,秋田県,111,144,182,-,16,-,7,-,-,-
5,6,山形県,185,141,111,-,6,-,7,-,-,-
6,7,福島県,454,181,170,81,16,-,14,-,-,-
7,8,茨城県,645,329,216,105,30,84,20,-,-,3
8,9,栃木県,457,226,197,29,16,-,8,-,-,-
9,10,群馬県,475,122,244,45,24,-,10,-,-,-


In [5]:
df_CVS.tail(10)

Unnamed: 0,都道府県コード,都道府県名,セブンイレブン,ファミリーマート,ローソン,ミニストップ,デイリーヤマザキ,セイコーマート,NewDays,コミュニティストア,ポプラ,ローソン・スリーエフ
37,38,愛媛県,124,233,213,7,6,-,-,-,-,1
38,39,高知県,43,104,138,-,-,-,-,-,-,-
39,40,福岡県,1025,532,529,117,71,-,-,-,-,31
40,41,佐賀県,187,73,74,12,11,-,-,-,-,4
41,42,長崎県,204,153,125,-,44,-,-,-,-,-
42,43,熊本県,360,200,161,-,53,-,-,-,-,9
43,44,大分県,181,119,197,3,11,-,-,-,-,-
44,45,宮崎県,199,128,109,-,1,-,-,-,-,-
45,46,鹿児島県,206,262,202,-,-,-,-,-,-,-
46,47,沖縄県,122,328,260,-,-,-,-,-,-,-


### ファイル情報の取得

#### 例題

`01_input` フォルダ内に配置してあるすべてのcsvファイルのパスを取得してみましょう。


In [6]:
all_csv_files = glob('./01_input/*.csv')
all_csv_files

['./01_input/セブンイレブン_都道府県別店舗数_2013年.csv',
 './01_input/スターバックス_都道府県別店舗数_20221006時点_読み込み注意.csv',
 './01_input/コンビニエンスストア_都道府県別店舗数_2022年3月時点.csv',
 './01_input/コンビニエンスストア_都道府県別店舗数_2022年3月時点_加工版.csv',
 './01_input/セブンイレブン_都道府県別店舗数_2021年.csv',
 './01_input/glob練習2_2021年.csv',
 './01_input/セブンイレブン_都道府県別店舗数_2017年.csv',
 './01_input/セブンイレブン_都道府県別店舗数_2022年.csv',
 './01_input/CINEMAランキング通信_歴代興行収入ランキング_20221002時点.csv',
 './01_input/日本レコード協会_統計情報.csv',
 './01_input/セブンイレブン_都道府県別店舗数_2020年.csv',
 './01_input/ゲーム売上定点観測_ハード別年間売上台数推移.csv',
 './01_input/セブンイレブン_都道府県別店舗数_2011年以降統合.csv',
 './01_input/セブンイレブン_都道府県別店舗数_2018年.csv',
 './01_input/セブンイレブン_都道府県別店舗数_2014年.csv',
 './01_input/プロ野球フリーク_横浜DeNA_選手一覧.csv',
 './01_input/令和2年国勢調査_横浜市.csv',
 './01_input/スターバックス_都道府県別店舗数_20221006時点.csv',
 './01_input/glob練習3_2022年.csv',
 './01_input/ゲーム売上定点観測_歴代ハード売上.csv',
 './01_input/セブンイレブン_都道府県別店舗数_2019年.csv',
 './01_input/セブンイレブン_都道府県別店舗数_2012年.csv',
 './01_input/ゲーム売上定点観測_歴代ハード売上_ヘッダーなし.csv',
 './01_input/セブンイレブン_都道

#### 解説

複数のファイルを読み込んでデータの結合や集約を行うことはよくあります。ここでは、複数のcsvファイルを読み込む方法について見てみます。ある条件に当てはまるファイルを検索するには、 `glob()` 関数を使います。

- `glob()` 関数はPythonが標準で提供する関数の1つで、pandasとは直接関係ありません。

`glob()` 関数の使用

- ワイルドカードパターン（なんでもありの文字列指定：*）を展開し、そのパターンにマッチするパス名のリストを得ることを指します。
- `glob()` の説明として、「ワイルドカードを用いたパターンの文字列」とされているケースもあります。


### ファイルの出力

「1.ファイルの読み込み」の例題で作成したデータフレーム `df_DeNA` を、以下の条件に従い出力してみましょう。

- 出力先： `02_output`
- ファイル名： `出力テスト_横浜DeNA_選手一覧.csv`
- ファイル形式： csv形式
- オプション： 特段指定なし


In [7]:
df_DeNA.to_csv('./02_output/出力テスト_横浜DeNA_選手一覧.csv',
  index=False, # インデックスは出力しない
  header=True, # 列名を出力する
  sep=',',  #csvファイルなので区切り文字はカンマ
  encoding='cp932') # cp932で保存