# pandasのDataFrame

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame({
    "fruit_name": ["りんご", "バナナ", "オレンジ", "ぶどう", "キウイ"],
    "color": ["赤", "黄", "橙", "紫", "緑"],
    "average_weight": [200, 120, 150, 5, 90]
})
df

Unnamed: 0,fruit_name,color,average_weight
0,りんご,赤,200
1,バナナ,黄,120
2,オレンジ,橙,150
3,ぶどう,紫,5
4,キウイ,緑,90


名前だけを取得する。

In [3]:
df["fruit_name"]

0     りんご
1     バナナ
2    オレンジ
3     ぶどう
4     キウイ
Name: fruit_name, dtype: object

特定の列を取得した場合は`Series`という型になるみたい。

In [4]:
type(df["fruit_name"])

pandas.core.series.Series

名前と色を取得する、なんてこともできる。

In [5]:
df[["fruit_name", "color"]]

Unnamed: 0,fruit_name,color
0,りんご,赤
1,バナナ,黄
2,オレンジ,橙
3,ぶどう,紫
4,キウイ,緑


こっちは`DataFrame`っぽいな。

In [6]:
type(df[["fruit_name", "color"]])

pandas.core.frame.DataFrame

平均重量が100グラム以上のフルーツを取得する。

In [7]:
df[df["average_weight"] >= 100]

Unnamed: 0,fruit_name,color,average_weight
0,りんご,赤,200
1,バナナ,黄,120
2,オレンジ,橙,150


平均重量が150グラム以上、または色が紫のフルーツを取得する。

In [8]:
df[(df["average_weight"] >= 150) | (df["color"] == "紫")]

Unnamed: 0,fruit_name,color,average_weight
0,りんご,赤,200
2,オレンジ,橙,150
3,ぶどう,紫,5


平均重量が100グラム以上、かつ150グラム以下のフルーツを取得する。

In [9]:
df[(df["average_weight"] >= 100) & (df["average_weight"] <= 150)]

Unnamed: 0,fruit_name,color,average_weight
1,バナナ,黄,120
2,オレンジ,橙,150


平均重量が100グラム以上のフルーツの名前を取得する。データ型は`Series`。

In [10]:
df.loc[(df["average_weight"] >= 100), "fruit_name"]

0     りんご
1     バナナ
2    オレンジ
Name: fruit_name, dtype: object

平均重量が100グラム以上のフルーツの名前と平均重量を取得する。データ型は`DataFrame`。

In [11]:
df.loc[(df["average_weight"] >= 100), ["fruit_name", "average_weight"]]

Unnamed: 0,fruit_name,average_weight
0,りんご,200
1,バナナ,120
2,オレンジ,150


新しい行を追加する（新しい`DataFrame`を作って連結する）。

In [12]:
df2 = pd.DataFrame({
    "fruit_name": ["マンゴー"],
    "color": ["黄色"],
    "average_weight": [350]
})
df3 = pd.concat([df, df2])
df3

Unnamed: 0,fruit_name,color,average_weight
0,りんご,赤,200
1,バナナ,黄,120
2,オレンジ,橙,150
3,ぶどう,紫,5
4,キウイ,緑,90
0,マンゴー,黄色,350


新しい列を追加する。

In [13]:
english_name = [
    "Apple",
    "Banana",
    "Orange",
    "Grape",
    "Kiwi"
]
df4 = df.assign(english_name=english_name)
# 既存のDataFrameを変更したいなら次のコード
# df["english_name"] = english_name
df4

Unnamed: 0,fruit_name,color,average_weight,english_name
0,りんご,赤,200,Apple
1,バナナ,黄,120,Banana
2,オレンジ,橙,150,Orange
3,ぶどう,紫,5,Grape
4,キウイ,緑,90,Kiwi


行をイテレートする。

In [14]:
for i, row in df.iterrows():
    print(f"{i} {row['fruit_name']}")

0 りんご
1 バナナ
2 オレンジ
3 ぶどう
4 キウイ


行はインデックスと`Series`のタプル。

In [15]:
it = iter(df.iterrows())
index, row = next(it)
type(index), type(row)

(int, pandas.core.series.Series)

## 1行ずつ追加する

In [16]:
df = pd.DataFrame(columns=["fruit_name", "color", "average_weight"])
df.loc[len(df)] = ["りんご", "赤", 200]
df.loc[len(df)] = ["バナナ", "黄", 120]
df.loc[len(df)] = ["オレンジ", "橙", 150]

df

Unnamed: 0,fruit_name,color,average_weight
0,りんご,赤,200
1,バナナ,黄,120
2,オレンジ,橙,150


## 特定の範囲を扱う

Javaでいう`List#subList(int, int)`みたいなものか。

In [17]:
df = pd.DataFrame({
    "fruit_name": ["りんご", "バナナ", "オレンジ", "ぶどう", "キウイ"],
    "color": ["赤", "黄", "橙", "紫", "緑"],
    "average_weight": [200, 120, 150, 5, 90]
})

start = 1
end = start + 3
sub_df = df.iloc[start:end]
sub_df

Unnamed: 0,fruit_name,color,average_weight
1,バナナ,黄,120
2,オレンジ,橙,150
3,ぶどう,紫,5


サブDataFrameを更新したら……

In [18]:
sub_df.at[1, "fruit_name"] = "ばなな"

sub_df

Unnamed: 0,fruit_name,color,average_weight
1,ばなな,黄,120
2,オレンジ,橙,150
3,ぶどう,紫,5


もとのDataFrameにも反映される。

In [19]:
df

Unnamed: 0,fruit_name,color,average_weight
0,りんご,赤,200
1,ばなな,黄,120
2,オレンジ,橙,150
3,ぶどう,紫,5
4,キウイ,緑,90
