# CSV操作

In [1]:
import pandas as pd

## CSV読込

タブ区切りの場合<br>
indexを指定する場合

In [2]:
dfdata = pd.read_csv('data/data-utf8.tsv',sep='\t',index_col=0)
dfdata.head()

Unnamed: 0_level_0,date,item,count,名前
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2020-04-17,A,3,あああ
2,2020-04-17,B,5,あああ
3,2020-04-17,B,6,あああ
4,2020-04-17,B,1,あああ
5,2020-04-17,C,3,あああ


ヘッダーなしの場合

In [3]:
dfitem = pd.read_csv('data/item-nohead-sjis.csv',encoding='shift_jis',index_col=0,header=None)
dfitem.head()

Unnamed: 0_level_0,1
0,Unnamed: 1_level_1
A,コーヒー
B,ココア
C,牛乳


ヘッダー名を付ける場合<br>
文字コードを指定する場合

In [4]:
dfitem = pd.read_csv('data/item-nohead-sjis.csv',encoding='shift_jis',index_col=0,names=('item', 'name'))
dfitem.head()

Unnamed: 0_level_0,name
item,Unnamed: 1_level_1
A,コーヒー
B,ココア
C,牛乳


## 読込んだCSVの整形(蛇足)

お題とは違うので説明は無し

In [5]:
df = pd.merge(dfdata, dfitem,on='item', how='inner',right_index=True)
df = df.sort_values('id')
df.head()

Unnamed: 0_level_0,date,item,count,名前,name
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,2020-04-17,A,3,あああ,コーヒー
2,2020-04-17,B,5,あああ,ココア
3,2020-04-17,B,6,あああ,ココア
4,2020-04-17,B,1,あああ,ココア
5,2020-04-17,C,3,あああ,牛乳


## CSV出力

In [6]:
# 出力ディレクトリを空っぽにする
import os
import shutil

shutil.rmtree('output')
os.mkdir('output')

デフォルト(mode=w) 新規、上書き

In [7]:
df.to_csv('output/01_normal.csv')

新規、追加

In [8]:
df.to_csv('output/02_add.csv',mode='a')
df.to_csv('output/02_add.csv',mode='a')

新規のみ(2回目がエラーになる)

In [9]:
try:
    df.to_csv('output/03_new.csv',mode='x')
except FileExistsError as e:
    print('Once')
    print(e)
try:
    df.to_csv('output/03_new.csv',mode='x')
except FileExistsError as e:
    print('Twice')
    print(e)


Twice
[Errno 17] File exists: 'output/03_new.csv'


セパレータ指定

In [10]:
df.to_csv('output/04_tab.csv',sep='\t')

項目指定

In [11]:
df.to_csv('output/05_column.csv', columns=['name','count'])

index,header有無

In [12]:
df.to_csv('output/06_header.csv', index=False, header=False)

文字コード指定(デフォルトはUTF-8)

In [13]:
df.to_csv('output/07_sjis.csv',encoding='shift_jis')

改行コード指定
わからない、OS標準のものが出るっぽい<br>
Linuxの場合は!nkfなどでOSコマンドを使って別途変換する？<br>
CRLFで保存した後に再度読み込んでLFで保存(参考[山本隆の開発日誌](https://www.gesource.jp/weblog/?p=7604))

In [14]:
df.to_csv('output/08_crlf.csv')

# テキストファイルから文字列を読み込む
with open('output/08_crlf.csv', 'r', encoding='utf-8') as a_file:
  txt = a_file.read()

# 読み込んだ文字列のCR(\r)を削除する。
txt = txt.replace('\r', '')

# ファイルをバイナリモードで開く
with open('output/08_lf.csv', 'wb') as a_file:
  # 文字列をバイト列にして保存する
  a_file.write(txt.encode('utf-8'))