# PythonでのCSVファイルの扱い方

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/NAVIFOLIO/python_intro/blob/main/notebooks/python_csv_basic.ipynb)

**このノートブックでは、以下の記事で解説しているソースコードを実行して確認することができます。**

**[【Python】CSVファイルの読み書きと処理のススメ](https://navifolio-jp.com/csv-handing-in-python)**

## "Vanilla" PythonでのCSVデータ操作

宿泊記録guests.csvを題材に、CSVファイルのシンプルな扱い方を学びましょう。  

※事前準備  
guests.csvを用意するために以下のコードを実行してください。

In [None]:
import csv
from google.colab import drive


drive.mount('/content/drive')


CSV_DIR = '/content/drive/MyDrive/intro_to_programming/python/'

def make_csv_sample():

    with open(CSV_DIR + 'guests.csv', 'w') as f:

        writer = csv.writer(f)
        writer.writerow(["宿泊日","宿泊日数","国籍","性別","年齢"])
        writer.writerow(["2022/05/15","2","日本","男性","28"])
        writer.writerow(["2022/06/20","2","日本","男性","51"])
        writer.writerow(["2022/06/20","2","イギリス","女性","32"])
        writer.writerow(["2022/07/03","3","イギリス","男性","35"])
        writer.writerow(["2022/08/10","4","日本","女性","30"])

make_csv_sample()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


### CSVファイルの読み込み | csv.reader

csvライブラリをインポートして、csv.readerでファイルを読み込みましょう。

In [None]:
import csv

#CSVファイルの読み込み
with open(CSV_DIR + 'guests.csv', 'r') as f:
    reader = csv.reader(f)

    #1行ずつ出力
    for row in reader:
        print(row)

['宿泊日', '宿泊日数', '国籍', '性別', '年齢']
['2022/05/15', '2', '日本', '男性', '28']
['2022/06/20', '2', '日本', '男性', '51']
['2022/06/20', '2', 'イギリス', '女性', '32']
['2022/07/03', '3', 'イギリス', '男性', '35']
['2022/08/10', '4', '日本', '女性', '30']


### CSVファイルへの書き込み | csv.writer

csv.writerで、guests.csvにデータを書き込みましょう。

In [None]:
with open(CSV_DIR + 'guests.csv', 'w') as f:
    writer = csv.writer(f)

    #CSVファイルに書き込み
    writer.writerow(['2022/12/10', '3', 'アメリカ', '女性', '25'])
    writer.writerow(['2022/12/10', '3', 'アメリカ', '男性', '30'])

#書き込み後のCSVファイルを確認
with open(CSV_DIR + 'guests.csv', 'r') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

['2022/12/10', '3', 'アメリカ', '女性', '25']
['2022/12/10', '3', 'アメリカ', '男性', '30']


### CSVファイルへの追記 | appendモード


In [None]:
#　appendモード
with open(CSV_DIR + 'guests.csv', 'a') as f:
    writer = csv.writer(f)

    writer.writerow(['2022/12/20', '2', '日本', '男性', '50'])

#書き込み後のCSVファイルを読み込んで確認
with open(CSV_DIR + 'guests.csv', 'r') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

['2022/12/10', '3', 'アメリカ', '女性', '25']
['2022/12/10', '3', 'アメリカ', '男性', '30']
['2022/12/20', '2', '日本', '男性', '50']


## 2次元リストで操作

2次元リストとしてCSVを読み込むことができ、

$$ data[i-1][j-1]: 表i行j列目のデータ $$

のように取り出す事ができます。data[0][0]は表の1行目、1列目のデータであることに注意


In [None]:
#　CSVファイルの内容を元に戻す
make_csv_sample()

with open(CSV_DIR + 'guests.csv', 'r') as f:
    reader = csv.reader(f)

    #CSV全体を2次元リストとして読み込み
    data = [row for row in reader]

    print(data)

[['宿泊日', '宿泊日数', '国籍', '性別', '年齢'], ['2022/05/15', '2', '日本', '男性', '28'], ['2022/06/20', '2', '日本', '男性', '51'], ['2022/06/20', '2', 'イギリス', '女性', '32'], ['2022/07/03', '3', 'イギリス', '男性', '35'], ['2022/08/10', '4', '日本', '女性', '30']]


#### スライス表記


In [None]:
with open(CSV_DIR + 'guests.csv', 'r') as f:
    reader = csv.reader(f)

    #CSV全体を2次元リストとして読み込み
    data = [row for row in reader]

    #1行目から3行目を表示
    print(data[0:3])

[['宿泊日', '宿泊日数', '国籍', '性別', '年齢'], ['2022/05/15', '2', '日本', '男性', '28'], ['2022/06/20', '2', '日本', '男性', '51']]


#### 行と列の入れ替え（転置）

In [None]:
with open(CSV_DIR + 'guests.csv', 'r') as f:
    reader = csv.reader(f)
    data = [row for row in reader]

    #zip関数で2次元リストの行と列を入れ替える
    data_t = list(zip(*data))

    #元データの3列目（国籍）を出力
    print(data_t[2])

('国籍', '日本', '日本', 'イギリス', 'イギリス', '日本')


## Pandasライブラリを使う方法 | 推奨

大規模なデータの読み込み・データ分析・統計量の計算などには、数値計算ライブラリを活用しましょう。

In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

# データの先頭をいくつか表示
print(df.head())

print('/-------------------------------------------------------------------------------------------------/')
print('カラム名表示')
print(df.columns)
print('/-------------------------------------------------------------------------------------------------/')

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa
/-------------------------------------------------------------------------------------------------/
カラム名表示
Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')
/-------------------------------------------------------------------------------------------------/


### 範囲を指定して抽出

スライス表記を使って欲しいデータを抽出してみましょう。

In [None]:
# 最初から3行分を出力
print(df.values[:3,:])
# 最初から3行分、2列目から4列目を出力
print(df.values[:3, 1:4])

print('/-------------------------------------------------------------------------------------------------/')

# 最初から3行分、2列目から4列目を出力
print(df.iloc[:3, 1:4])

# データ型の表示
print(type(df.values[:3, 1:4]))

# class 'numpy.ndarray'

print(type(df.iloc[:3, 1:4]))

#class 'pandas.core.frame.DataFrame'

[[5.1 3.5 1.4 0.2 'setosa']
 [4.9 3.0 1.4 0.2 'setosa']
 [4.7 3.2 1.3 0.2 'setosa']]
[[3.5 1.4 0.2]
 [3.0 1.4 0.2]
 [3.2 1.3 0.2]]
/-------------------------------------------------------------------------------------------------/
   sepal_width  petal_length  petal_width
0          3.5           1.4          0.2
1          3.0           1.4          0.2
2          3.2           1.3          0.2
<class 'numpy.ndarray'>
<class 'pandas.core.frame.DataFrame'>


### カラム名の指定 | locメソッド


In [None]:
# 最初から3行分の、がく片長さとがく片の幅を出力
print(df.loc[:3, "sepal_length":"sepal_width"])

#全てのデータの花びらの長さだけを抽出
print(df.loc[:, "petal_length":"petal_length"])

   sepal_length  sepal_width
0           5.1          3.5
1           4.9          3.0
2           4.7          3.2
3           4.6          3.1
     petal_length
0             1.4
1             1.4
2             1.3
3             1.5
4             1.4
..            ...
145           5.2
146           5.0
147           5.2
148           5.4
149           5.1

[150 rows x 1 columns]


### データの統計量を求める

In [None]:
# 1品種目(setosa)の花びらの長さの平均値
m1 = df.loc[0:50, "petal_length"].mean()
print(m1)

# 2品種目(versicolor)の花びらの長さの平均値
m2 = df.loc[50:100, "petal_length"].mean()
print(m2)

# 3品種目(virginica)の花びらの長さの平均値
m3 = df.loc[100:150, "petal_length"].mean()
print(m3)

1.5254901960784315
4.294117647058823
5.5520000000000005


#### 公式ドキュメント（英語）

[DataFrameからのデータ抽出テクニック](https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html)

[pandas dataframe 統計量](https://pandas.pydata.org/docs/getting_started/intro_tutorials/06_calculate_statistics.html)
