In [1]:
import pandas as pd
import numpy as np

# Комбинирование перекрывающихся данных. Метод combine_first() 

# Метод combine_first() и структуры Series

#### Пример 1

In [10]:
# Создаем две структуры Series с оценками студентов
# Идентификаторы студентов представлены в метках-индексах структур a, b
# У нас в распоряжении два наборах данных, индексы которых полностью или частично пересекаются

a = pd.Series([np.nan, 5., 3., 4., np.nan], index=['S001', 'S002', 'S003', 'S004', 'S005'])
b = pd.Series([3., 4.], index=['S001', 'S005'])
display(a,b)

S001    NaN
S002    5.0
S003    3.0
S004    4.0
S005    NaN
dtype: float64

S001    3.0
S005    4.0
dtype: float64

In [9]:
# заполняем пропуски в данных структуры 'a' значениями в структуре 'b'.
# метод combine_first() возвращает новый объект

results = a.combine_first(b)
results

S001    3.0
S002    5.0
S003    3.0
S004    4.0
S005    4.0
dtype: float64

#### Пример 2

In [4]:
# в структуре 'b2' также содержатся результаты 'лишних' студентов

a = pd.Series([np.nan, 5., 3., 4., np.nan], index=['S001', 'S002', 'S003', 'S004', 'S005'])
b2 = pd.Series([3., 4., 5., 5., 3.], index=['S001', 'S005','T003','T006','Т008'])
display(a,b2)
results2 = a.combine_first(b2)
results2

S001    NaN
S002    5.0
S003    3.0
S004    4.0
S005    NaN
dtype: float64

S001    3.0
S005    4.0
T003    5.0
T006    5.0
Т008    3.0
dtype: float64

S001    3.0
S002    5.0
S003    3.0
S004    4.0
S005    4.0
T003    5.0
T006    5.0
Т008    3.0
dtype: float64

#### Пример 3

In [5]:
# если в серии, переданной в аргумент, будут фигурировать отсутствующие значения, то они также могут зайти в результат
# в результате работы метода индексы структуры выстраиваются в лексикографическом порядке

a = pd.Series([np.nan, 5., 3., 4., np.nan], index=['S001', 'S002', 'S003', 'S004', 'S005'])
b3 = pd.Series([3., np.nan, np.nan, np.nan, 4., 5., 5., np.nan], 
               index=['S001', 'S002', 'S003', 'S004', 'S005','T003','T006','P013'])
display(a,b3)
results3 = a.combine_first(b3)
results3

S001    NaN
S002    5.0
S003    3.0
S004    4.0
S005    NaN
dtype: float64

S001    3.0
S002    NaN
S003    NaN
S004    NaN
S005    4.0
T003    5.0
T006    5.0
P013    NaN
dtype: float64

P013    NaN
S001    3.0
S002    5.0
S003    3.0
S004    4.0
S005    4.0
T003    5.0
T006    5.0
dtype: float64

# Метод combine_first() и структуры DataFrame

#### Пример 4

In [6]:
df1 = pd.DataFrame({'maths': [np.nan, 4., np.nan, 3., 5.], 'physics': [3., np.nan, 4., np.nan, 5.]}, 
                   index=['S001', 'S002', 'S003', 'S004', 'S005'])
df2 = pd.DataFrame({'maths': [3., np.nan, 5., np.nan, np.nan], 'physics': [np.nan, 3., np.nan, 3., np.nan],
                    'art': [3., 4., 5., 5., 5. ]}, 
                   index=['S001', 'S002', 'S003', 'S004', 'S005'])

display(df1, df2)

Unnamed: 0,maths,physics
S001,,3.0
S002,4.0,
S003,,4.0
S004,3.0,
S005,5.0,5.0


Unnamed: 0,maths,physics,art
S001,3.0,,3.0
S002,,3.0,4.0
S003,5.0,,5.0
S004,,3.0,5.0
S005,,,5.0


In [7]:
# в результате работы метода применительно к объектам DataFrame будут присутствовать имена всех столбцов

results4 = df1.combine_first(df2)
results4

Unnamed: 0,art,maths,physics
S001,3.0,3.0,3.0
S002,4.0,4.0,3.0
S003,5.0,5.0,4.0
S004,5.0,3.0,3.0
S005,5.0,5.0,5.0


_Похожим функционалом обладает функция where библиотеки Numpy, которая выполняет эквивалент выражения if-else для массивов и по сути является аналогом функции ЕСЛИ в Excel: np.where(pd.isna(a), b, a)_