# DataFrameを加工しよう〜追加編

In [1]:
import pandas as pd

# ダミーの1月と2月の売上データを作成
df1 = pd.DataFrame(
    [['2017/1/3', 'A', 3], ['2017/2/4', 'B', 4]],
    columns=['Date', 'Name', 'Size'])
df1

Unnamed: 0,Date,Name,Size
0,2017/1/3,A,3
1,2017/2/4,B,4


In [2]:
# ダミーの3月の売上データを作成
df2 = pd.DataFrame([['2017/3/5', 'A', 5]], columns=['Date', 'Name', 'Size'])
df2

Unnamed: 0,Date,Name,Size
0,2017/3/5,A,5


In [3]:
# 2つの売上データを縦に結合
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,Date,Name,Size
0,2017/1/3,A,3
1,2017/2/4,B,4
0,2017/3/5,A,5


In [4]:
# indexを再設定
df3 = pd.concat([df1, df2], ignore_index=True)
df3

Unnamed: 0,Date,Name,Size
0,2017/1/3,A,3
1,2017/2/4,B,4
2,2017/3/5,A,5


In [5]:
# indexを再設定
df4 = pd.concat([df1, df2]).reset_index(drop=True)
df4

Unnamed: 0,Date,Name,Size
0,2017/1/3,A,3
1,2017/2/4,B,4
2,2017/3/5,A,5


In [6]:
# ダミーの補足情報を作成
df5 = pd.DataFrame([[0], [0], [-1]], columns=['Extra'])
df5

Unnamed: 0,Extra
0,0
1,0
2,-1


In [7]:
# 2つのデータを横に結合
df6 = pd.concat([df3, df5], axis=1)
df6

Unnamed: 0,Date,Name,Size,Extra
0,2017/1/3,A,3,0
1,2017/2/4,B,4,0
2,2017/3/5,A,5,-1


concatにaxis=1を指定することで連結方向を変えることができます（df6）

In [8]:
# １列追加の場合、新しい列を作成する方法でも同じ
df7 = df3.copy()
df7['Extra'] = [0, 0, -1]
df7

Unnamed: 0,Date,Name,Size,Extra
0,2017/1/3,A,3,0
1,2017/2/4,B,4,0
2,2017/3/5,A,5,-1


In [9]:
df8 = [0, 0, -1]

In [10]:
df7['Test'] = df8

In [11]:
df7

Unnamed: 0,Date,Name,Size,Extra,Test
0,2017/1/3,A,3,0,0
1,2017/2/4,B,4,0,0
2,2017/3/5,A,5,-1,-1


# DataFrameを加工しよう〜結合編

In [None]:
# pd.mergeに2つのDataFrameを渡すとマージできます
# このとき、両方に含まれる列ラベルがキーとなります
df_sale = pd.merge(df_log, df_master)
df_sale.head()

In [None]:
# キーを自分で指定する場合は、`on`オプションを使います
df_sale = pd.merge(df_log, df_master, on='Product')
df_sale.head()

In [None]:
# 時刻順にしたいのでマージされた表を列Dateでソートします
# reset_index(drop=True)はindex(行ラベル)を再設定するイディオムです
df_sale = df_sale.sort_values('Date').reset_index(drop=True)
df_sale.head()

# pandasでのクロス集計を学ぼう

In [None]:
# 製品(Product)ごと、月(Month)ごとの販売個数(Num)の合計(sum)の表を作ります
df_log_pivot = df_log.pivot_table(
    values='Num', index='Product', columns='Month', aggfunc='sum')
df_log_pivot

%matplotlib inline

# グラフを描いてみよう（横軸が製品になります）
df_log_pivot.plot();

aggfuncを指定しないと集計方法が平均(mean)となります
