In [1]:
import pandas as pd
import numpy as np

# 1) Update
- pandas의 update는 데이터프레임 a, b가 있을 때, a의 값을 b의 값으로 변경하는 기능을 한다.
- 단, index와 column이 매칭되는 경우에만 값이 변경되며, 따라서 데이터프레임의 길이는 변하지 않는다.
- a는 직접 변경되므로 copy를 함께 쓰는 것을 고려해야 한다.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.update.html

In [52]:
df1 = pd.DataFrame([[1,4],[2,5],[3,6]], columns=['a','b'])
df2 = pd.DataFrame([[1,5],[2,6],[3,7]], columns=['aa','b'])
df1

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


In [23]:
df1.update(df2)
df1

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7


**df2의 결측값은 update되지 않는다.**

In [51]:
df1 = pd.DataFrame([[1,4],[2,5],[3,6]], columns=['a','b'])
df2 = pd.DataFrame([[1,5],[2,6],[3,np.nan]], columns=['aa','b'])
df1

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


In [35]:
df1.update(df2)
df1

Unnamed: 0,a,b
0,1,5.0
1,2,6.0
2,3,6.0


**'overwrite==False'로 하면, df1의 결측값만 update된다.**

In [48]:
df1 = pd.DataFrame([[1,4],[2,5],[3,np.nan]], columns=['a','b'])
df2 = pd.DataFrame([[1,5],[2,6],[3,7]], columns=['aa','b'])
df1

Unnamed: 0,a,b
0,1,4.0
1,2,5.0
2,3,


In [49]:
df1.update(df2, overwrite=False)
df1

Unnamed: 0,a,b
0,1,4.0
1,2,5.0
2,3,7.0


## 1-2) dict update
- 참고로 추가하는 내용

In [59]:
dict1 = {'a':1, 'b':2}
dict2 = {'a':3}

In [60]:
dict1.update(dict2)

In [61]:
dict1

{'a': 3, 'b': 2}

------------

# 2) append
- Pandas도 append가 가능하다. 
- 단, index 상관없이 리스트 append처럼 쓰고 싶으면 ignore_index=True 지정
    - df가 아니면 꼭 사용
    
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html

In [66]:
df1 = pd.DataFrame([[1,4],[2,5],[3,np.nan]], columns=['a','b'])
df2 = pd.DataFrame([[1,5],[2,6],[3,7]], columns=['a','b'])

In [67]:
df1.append(df2)

Unnamed: 0,a,b
0,1,4.0
1,2,5.0
2,3,
0,1,5.0
1,2,6.0
2,3,7.0


**'ignore_index=True'일 경우**

In [68]:
df1.append(df2, ignore_index=True) # index 변화

Unnamed: 0,a,b
0,1,4.0
1,2,5.0
2,3,
3,1,5.0
4,2,6.0
5,3,7.0


**사전을 append할 경우**

In [71]:
df1.append({'a':2}, ignore_index=True)

Unnamed: 0,a,b
0,1.0,4.0
1,2.0,5.0
2,3.0,
3,2.0,


**여러 개의 사전을 append할 때 더 효과적인 방법**

Less efficient

In [73]:
df = pd.DataFrame(columns=['A'])
for i in range(5):
    df = df.append({'A': i}, ignore_index=True)
df

Unnamed: 0,A
0,0
1,1
2,2
3,3
4,4


More efficient

In [74]:
pd.concat([pd.DataFrame([i], columns=['A']) for i in range(5)],
          ignore_index=True)

Unnamed: 0,A
0,0
1,1
2,2
3,3
4,4
