In [1]:
# ライブラリの読み込み
import numpy as np
import pandas as pd

In [2]:
# https://qiita.com/daifuku_mochi2/items/30258e58750ff8e85d37
    
# 最大表示列数の指定
pd.set_option('display.max_columns', 500)
# 最大表示行数の指定
pd.set_option('display.max_rows', 150)

# データ準備

In [3]:
df_0 = pd.DataFrame({
    "id": range(5),
    "a": [0, 0, 0, 0, 0],
    "b": [0, 0, 0, 0, 0],
    "c": [0, 0, 0, 0, 0],
})

In [4]:
df = pd.DataFrame({
    "id": range(5),
    "a": [np.nan]*5,
    "b": [np.nan]*5,
    "c": [np.nan]*5,
})

In [5]:
df

Unnamed: 0,id,a,b,c
0,0,,,
1,1,,,
2,2,,,
3,3,,,
4,4,,,


## Pythonのpandasデータフレームの要素の値が変更される場合と変更されない場合

### # case1: 代入が反映されない場合
- 行を指定->列を指定　はダメ

- 仮説1: バージョンによる？
    - いけた環境
        - Windows10
        - Python3.6.7
        - pandas0.24.2
    - いけなかった環境
        - Ubuntu16.04 LTS
        - Python3.6.7
        - pandas0.24.2
    - 特に変わらず

- 仮説2: 元の値の型による？
    - 以下の実験の通り、元が数値なら上書きされてnp.nanだと上書きできない

In [6]:
# 代入が反映されない
i = 0
c = "a"
df.iloc[i].loc[c] = 111
df.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


Unnamed: 0,id,a,b,c
0,0,,,
1,1,,,
2,2,,,
3,3,,,
4,4,,,


In [7]:
# 元が数値だと代入が反映される様子
i = 0
c = "a"
df_0.iloc[i].loc[c] = 111
df_0.head()

Unnamed: 0,id,a,b,c
0,0,111,0,0
1,1,0,0,0
2,2,0,0,0
3,3,0,0,0
4,4,0,0,0


### # case2: 代入が反映される場合
- 列(Series)を指定->行を指定（スライシング）　はOK

#### 2-1: エラーが出る

In [None]:
# これはエラーが出る
i = 0
c = "a"
df.loc[c][i] = 211
df.head()

#### 2-2: 列指定からの行指定

In [9]:
# これならOK
# 元がnp.nanだとWarningが出る
# 元が数値だとWarningは出ない（以下同様）
i = 0
c = "a"
df[c][i] = 221
df.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Unnamed: 0,id,a,b,c
0,0,221.0,,
1,1,,,
2,2,,,
3,3,,,
4,4,,,


In [10]:
# こちらもOK
i = 0
c = "a"
df.loc[i, c] = 222
df.head()

Unnamed: 0,id,a,b,c
0,0,222.0,,
1,1,,,
2,2,,,
3,3,,,
4,4,,,


In [11]:
# atを使った方が速いらしい
# https://note.nkmk.me/python-pandas-at-iat-loc-iloc/
i = 0
c = "a"
df.at[i, c] = 223
df.head()

Unnamed: 0,id,a,b,c
0,0,223.0,,
1,1,,,
2,2,,,
3,3,,,
4,4,,,


In [12]:
# 組み合わせ技
# Warningが出ることがある
i = 0
c = "b"
df[c].iloc[i] = 224
df.head()

Unnamed: 0,id,a,b,c
0,0,223.0,224.0,
1,1,,,
2,2,,,
3,3,,,
4,4,,,


In [13]:
# df.index[i]でインデックスを取得できる
i = 0
c = "a"
df.loc[df.index[i], c] = 225
df.head()

Unnamed: 0,id,a,b,c
0,0,225.0,224.0,
1,1,,,
2,2,,,
3,3,,,
4,4,,,


## 指定しているのは行番号かインデックスか

In [14]:
# この代入の場合、元のデータも変更される
df2 = df[::-1]

In [15]:
df2.head()

Unnamed: 0,id,a,b,c
4,4,,,
3,3,,,
2,2,,,
1,1,,,
0,0,225.0,224.0,


In [16]:
# dfの行番号ではなく、indexを指定している
i = 0
c = "a"
df2[c][i] = 231
df2.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  exec(code_obj, self.user_global_ns, self.user_ns)


Unnamed: 0,id,a,b,c
4,4,,,
3,3,,,
2,2,,,
1,1,,,
0,0,231.0,224.0,


In [17]:
# 元のデータも変更されている
df.head()

Unnamed: 0,id,a,b,c
0,0,231.0,224.0,
1,1,,,
2,2,,,
3,3,,,
4,4,,,


In [18]:
# これも同様にdfの行番号ではなく、indexを指定している
i = 0
c = "a"
df2.loc[i, c] = 232
df2.head()

Unnamed: 0,id,a,b,c
4,4,,,
3,3,,,
2,2,,,
1,1,,,
0,0,232.0,224.0,


In [19]:
# atを使っても同様
i = 0
c = "a"
df2.at[i, c] = 233
df2.head()

Unnamed: 0,id,a,b,c
4,4,,,
3,3,,,
2,2,,,
1,1,,,
0,0,233.0,224.0,


In [20]:
# .ilocはインデックスではなく行の順序で指定している様子
i = 0
c = "a"
df2[c].iloc[i] = 234
df2.head()

Unnamed: 0,id,a,b,c
4,4,234.0,,
3,3,,,
2,2,,,
1,1,,,
0,0,233.0,224.0,


In [21]:
# df.index[i]はインデックスをとってくる様子
i = 0
c = "a"
df2.loc[df.index[i], c] = 235
df2.head()

Unnamed: 0,id,a,b,c
4,4,234.0,,
3,3,,,
2,2,,,
1,1,,,
0,0,235.0,224.0,


## 結論

### dfの値の変更時は 「列(Series)を指定->行を指定（スライシング）」
- pd.DataFrameはpd.Seriesが集まったものだから、最初にSeriesを取り出す必要がある？

### 行名・列名で指定するなら`.at[i, c]`
- `df.at[i, c] = 223`

#### これは列の指定でエラーが出る
- `df.loc[c][i] = 210`

### 行の順番・列名で指定するなら`.iloc[i]`
- `df[c].iloc[i] = 999`