# データ処理

## 1. PandasでCSVファイルを読み込む

In [6]:
import pandas as pd

In [7]:
df = pd.read_csv('dataset/health_check.csv')
df

Unnamed: 0,Name,Height,Weight,Unnamed: 3
0,0,佐藤,172,53
1,1,田中,160,50
2,2,鈴木,165,58
3,3,中村,172,53
4,4,小池,160,50
5,5,中山,165,58
6,6,鎌田,172,53
7,6,高木,160,50
8,7,伊東,165,58


In [8]:
#もしタブ区切り（TSV）だったら
# df_tsv = pd.read_csv('dataset/health_check.tsv', sep='\t')

In [9]:
#列名がないデータに対して、列名を指定して開く
# df_head = pd.read_csv('dataset/health_check_nohead.csv', names=['Name', 'Height', 'Weight'])

## 2. DataFrameをCSV形式で出力する

In [10]:
import pandas as pd

df_csv = pd.read_csv('dataset/health_check.csv')
df_csv

Unnamed: 0,Name,Height,Weight,Unnamed: 3
0,0,佐藤,172,53
1,1,田中,160,50
2,2,鈴木,165,58
3,3,中村,172,53
4,4,小池,160,50
5,5,中山,165,58
6,6,鎌田,172,53
7,6,高木,160,50
8,7,伊東,165,58


In [11]:
df_csv.to_csv('dataset/outputs/output_csv.csv', index=False)

In [12]:
df_out = pd.read_csv('dataset/outputs/output_csv.csv')
df_out

Unnamed: 0,Name,Height,Weight,Unnamed: 3
0,0,佐藤,172,53
1,1,田中,160,50
2,2,鈴木,165,58
3,3,中村,172,53
4,4,小池,160,50
5,5,中山,165,58
6,6,鎌田,172,53
7,6,高木,160,50
8,7,伊東,165,58


## 3. DataFrameをJSON形式で出力する

In [13]:
import pandas as pd

df_csv = pd.read_csv('dataset/health_check.csv')
df_csv

Unnamed: 0,Name,Height,Weight,Unnamed: 3
0,0,佐藤,172,53
1,1,田中,160,50
2,2,鈴木,165,58
3,3,中村,172,53
4,4,小池,160,50
5,5,中山,165,58
6,6,鎌田,172,53
7,6,高木,160,50
8,7,伊東,165,58


In [14]:
df_json = df_csv.to_json()
df_json

'{"Name":{"0":0,"1":1,"2":2,"3":3,"4":4,"5":5,"6":6,"7":6,"8":7},"Height":{"0":"\\u4f50\\u85e4","1":"\\u7530\\u4e2d","2":"\\u9234\\u6728","3":"\\u4e2d\\u6751","4":"\\u5c0f\\u6c60","5":"\\u4e2d\\u5c71","6":"\\u938c\\u7530","7":"\\u9ad8\\u6728","8":"\\u4f0a\\u6771"},"Weight":{"0":172,"1":160,"2":165,"3":172,"4":160,"5":165,"6":172,"7":160,"8":165},"Unnamed: 3":{"0":53,"1":50,"2":58,"3":53,"4":50,"5":58,"6":53,"7":50,"8":58}}'

In [16]:
# orient='records'とすることで辞書のkeyも表示させることができる
df_json_dict = df_csv.to_json(orient='records')
df_json_dict

'[{"Name":0,"Height":"\\u4f50\\u85e4","Weight":172,"Unnamed: 3":53},{"Name":1,"Height":"\\u7530\\u4e2d","Weight":160,"Unnamed: 3":50},{"Name":2,"Height":"\\u9234\\u6728","Weight":165,"Unnamed: 3":58},{"Name":3,"Height":"\\u4e2d\\u6751","Weight":172,"Unnamed: 3":53},{"Name":4,"Height":"\\u5c0f\\u6c60","Weight":160,"Unnamed: 3":50},{"Name":5,"Height":"\\u4e2d\\u5c71","Weight":165,"Unnamed: 3":58},{"Name":6,"Height":"\\u938c\\u7530","Weight":172,"Unnamed: 3":53},{"Name":6,"Height":"\\u9ad8\\u6728","Weight":160,"Unnamed: 3":50},{"Name":7,"Height":"\\u4f0a\\u6771","Weight":165,"Unnamed: 3":58}]'

## 4. DataFrameの列追加と演算について学ぼう

In [17]:
import pandas as pd

df = pd.read_csv('dataset/items.csv')
df

Unnamed: 0,Name,Price,Weight,ShippingCost
0,小麦粉A,100,200,1000
1,小麦粉A,150,500,1000
2,小麦粉A,290,1000,1000
3,小麦粉B,130,300,500
4,小麦粉C,260,900,1200


In [18]:
#列データを追加
df['Maker'] = ['メーカーA', 'メーカーA', 'メーカーA', 'メーカーB', 'メーカーC']
df

Unnamed: 0,Name,Price,Weight,ShippingCost,Maker
0,小麦粉A,100,200,1000,メーカーA
1,小麦粉A,150,500,1000,メーカーA
2,小麦粉A,290,1000,1000,メーカーA
3,小麦粉B,130,300,500,メーカーB
4,小麦粉C,260,900,1200,メーカーC


In [19]:
#df['列ラベル'] = 新しいデータのリストで既存の列の値を変えることが可能
df['Name'] = ['小麦粉A 200g', '小麦粉A 500g', '小麦粉A 1000g','小麦粉B 300g', '小麦粉C 900g']

In [20]:
df

Unnamed: 0,Name,Price,Weight,ShippingCost,Maker
0,小麦粉A 200g,100,200,1000,メーカーA
1,小麦粉A 500g,150,500,1000,メーカーA
2,小麦粉A 1000g,290,1000,1000,メーカーA
3,小麦粉B 300g,130,300,500,メーカーB
4,小麦粉C 900g,260,900,1200,メーカーC


In [21]:
# 列データと定数の計算
df['WeightKg'] = df['Weight'] / 1000

In [22]:
df

Unnamed: 0,Name,Price,Weight,ShippingCost,Maker,WeightKg
0,小麦粉A 200g,100,200,1000,メーカーA,0.2
1,小麦粉A 500g,150,500,1000,メーカーA,0.5
2,小麦粉A 1000g,290,1000,1000,メーカーA,1.0
3,小麦粉B 300g,130,300,500,メーカーB,0.3
4,小麦粉C 900g,260,900,1200,メーカーC,0.9


In [23]:
# 列データ同士の計算
## １キログラム当たりの値段を算出し、新しいカラムに代入する
df['PricePerKg'] = df['Price'] / df['WeightKg']

In [24]:
df

Unnamed: 0,Name,Price,Weight,ShippingCost,Maker,WeightKg,PricePerKg
0,小麦粉A 200g,100,200,1000,メーカーA,0.2,500.0
1,小麦粉A 500g,150,500,1000,メーカーA,0.5,300.0
2,小麦粉A 1000g,290,1000,1000,メーカーA,1.0,290.0
3,小麦粉B 300g,130,300,500,メーカーB,0.3,433.333333
4,小麦粉C 900g,260,900,1200,メーカーC,0.9,288.888889


In [25]:
# Rankを表示する
df['PriceRank'] = df['PricePerKg'].rank()

In [26]:
df

Unnamed: 0,Name,Price,Weight,ShippingCost,Maker,WeightKg,PricePerKg,PriceRank
0,小麦粉A 200g,100,200,1000,メーカーA,0.2,500.0,5.0
1,小麦粉A 500g,150,500,1000,メーカーA,0.5,300.0,3.0
2,小麦粉A 1000g,290,1000,1000,メーカーA,1.0,290.0,2.0
3,小麦粉B 300g,130,300,500,メーカーB,0.3,433.333333,4.0
4,小麦粉C 900g,260,900,1200,メーカーC,0.9,288.888889,1.0


## 6. DataFrameのデータを絞り込む、フィルタリングについて学ぼう

In [30]:
import pandas as pd

df = pd.read_csv('dataset/health_check.csv')
df

Unnamed: 0,Name,Height,Weight
0,佐藤,172,53
1,田中,160,50
2,鈴木,165,58
3,中村,172,53
4,小池,160,50
5,中山,165,58
6,鎌田,172,53
7,高木,160,50
8,伊東,165,58


In [32]:
df_165 = df[df['Height'] >= 165]
df_165

Unnamed: 0,Name,Height,Weight
0,佐藤,172,53
2,鈴木,165,58
3,中村,172,53
5,中山,165,58
6,鎌田,172,53
8,伊東,165,58


In [33]:
#　複数条件での絞り込み
df_ans = df[(df['Height'] >= 165) & (df['Weight'] >= 55)]

In [35]:
df_ans

Unnamed: 0,Name,Height,Weight
2,鈴木,165,58
5,中山,165,58
8,伊東,165,58


In [36]:
# queryを使った、複数条件の絞り込み
df_ans = df.query('Height >= 165 & Weight >= 55')

In [37]:
df_ans

Unnamed: 0,Name,Height,Weight
2,鈴木,165,58
5,中山,165,58
8,伊東,165,58


In [38]:
# 文字列を使う場合はダブルクオテーション（""）を使う
df.query('Height >= 165 & Name == "佐藤"')

Unnamed: 0,Name,Height,Weight
0,佐藤,172,53


In [39]:
# 変数をquery内で使うなら、@をつける
target_name = "佐藤"
df.query('Height >= 165 & Name == @target_name')

Unnamed: 0,Name,Height,Weight
0,佐藤,172,53


## 8. Seriesで文字列を一括処理する方法を学ぼう

In [40]:
import pandas as pd

In [41]:
df = pd.read_csv('dataset/user.csv')
df

Unnamed: 0,User,Rate,Comment
0,user1,5,とても使いやすく書きやすいです。２本目を買いたいと思います。
1,user2,3,改善の余地あり。使い始めは良かったが、だんだんインクがかすれやすくなりました。
2,user3,2,左利きの私が使うとインクが上手く出てこないようです。残念です。
3,user4,4,概ね満足しています。書きやすく長く持ちます。価格もリーズナブルです。


In [43]:
df['CommentLen'] = df['Comment'].str.len()
df

Unnamed: 0,User,Rate,Comment,CommentLen
0,user1,5,とても使いやすく書きやすいです。２本目を買いたいと思います。,30
1,user2,3,改善の余地あり。使い始めは良かったが、だんだんインクがかすれやすくなりました。,39
2,user3,2,左利きの私が使うとインクが上手く出てこないようです。残念です。,31
3,user4,4,概ね満足しています。書きやすく長く持ちます。価格もリーズナブルです。,34


In [45]:
# 文字列の繰り返し
sliced_list = []

for row in df.itertuples():
    sliced_list.append(row.Comment[:15])
    
df['SlicedComment'] = sliced_list
df

Unnamed: 0,User,Rate,Comment,CommentLen,SlicedComment
0,user1,5,とても使いやすく書きやすいです。２本目を買いたいと思います。,30,とても使いやすく書きやすいです
1,user2,3,改善の余地あり。使い始めは良かったが、だんだんインクがかすれやすくなりました。,39,改善の余地あり。使い始めは良か
2,user3,2,左利きの私が使うとインクが上手く出てこないようです。残念です。,31,左利きの私が使うとインクが上手
3,user4,4,概ね満足しています。書きやすく長く持ちます。価格もリーズナブルです。,34,概ね満足しています。書きやすく


In [46]:
# データ数が多く、処理が遅くなってしまうとき
## _を使う慣習あり。ループ内で変数を使用していない時、便宜的に変数_を置く
for _, row in df.iterrows():
    assert row.Comment[:15] == row.SlicedComment

In [47]:
df

Unnamed: 0,User,Rate,Comment,CommentLen,SlicedComment
0,user1,5,とても使いやすく書きやすいです。２本目を買いたいと思います。,30,とても使いやすく書きやすいです
1,user2,3,改善の余地あり。使い始めは良かったが、だんだんインクがかすれやすくなりました。,39,改善の余地あり。使い始めは良か
2,user3,2,左利きの私が使うとインクが上手く出てこないようです。残念です。,31,左利きの私が使うとインクが上手
3,user4,4,概ね満足しています。書きやすく長く持ちます。価格もリーズナブルです。,34,概ね満足しています。書きやすく


In [48]:
# 関数の作成
def get_sliced_str(x):
    return x[:15]

In [49]:
# Series.apply()でも、高速に処理ができる
df['SliceCommnet'] =df['Comment'].apply(get_sliced_str)
df

Unnamed: 0,User,Rate,Comment,CommentLen,SlicedComment,SliceCommnet
0,user1,5,とても使いやすく書きやすいです。２本目を買いたいと思います。,30,とても使いやすく書きやすいです,とても使いやすく書きやすいです
1,user2,3,改善の余地あり。使い始めは良かったが、だんだんインクがかすれやすくなりました。,39,改善の余地あり。使い始めは良か,改善の余地あり。使い始めは良か
2,user3,2,左利きの私が使うとインクが上手く出てこないようです。残念です。,31,左利きの私が使うとインクが上手,左利きの私が使うとインクが上手
3,user4,4,概ね満足しています。書きやすく長く持ちます。価格もリーズナブルです。,34,概ね満足しています。書きやすく,概ね満足しています。書きやすく
