In [1]:
# импортируем библиотеки numpy и pandas
import pandas as pd
import numpy as np

# импортируем библиотеку datetime для работы с датами
from datetime import datetime, date

# Задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 10) 
pd.set_option('display.max_rows', 15)
pd.set_option('display.width', 90)

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# создаем датафрейм с 5 строками и 3 столбцами
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3),
                    index=['a', 'b', 'c', 'd', 'e'],
                    columns=['c1', 'c2', 'c3']
                    )
df

   c1  c2  c3
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14

In [3]:
# добавляем несколько столбцов и строк в датафрейм
# столбец c4 со значениями NaN
df['c4'] = np.nan
# строка 'f' со значениями от 15 до 18
df.loc['f'] = np.arange(15, 19)

# строка 'g', состоящая из значений NaN
df.loc['g'] = np.nan

# столбец 'C5', состоящий из значений NaNs
df['c5'] = np.nan

# меняем значение в столбце 'c4' строки 'a'
df.loc['a', 'c4'] = 20

df

     c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0   NaN NaN
c   6.0   7.0   8.0   NaN NaN
d   9.0  10.0  11.0   NaN NaN
e  12.0  13.0  14.0   NaN NaN
f  15.0  16.0  17.0  18.0 NaN
g   NaN   NaN   NaN   NaN NaN

#### Поиск значений NaN в объектах библиотеки pandas
Значения NaN в объекте DataFrame можно найти с помощью метода <mark>.isnull()</mark> или <mark>.isna()</mark>


In [4]:
df.isna()

      c1     c2     c3     c4    c5
a  False  False  False  False  True
b  False  False  False   True  True
c  False  False  False   True  True
d  False  False  False   True  True
e  False  False  False   True  True
f  False  False  False  False  True
g   True   True   True   True  True

In [5]:
# подсчитаем количество значений NaN в каждой строке
df.isna().sum()

c1    1
c2    1
c3    1
c4    5
c5    7
dtype: int64

In [6]:
# вычислим общее количество значений NaN
df.isna().sum().sum()

15

In [7]:
# вычисляем количество значений, отличных от NaN, по каждому столбцу
df.count()

c1    6
c2    6
c3    6
c4    2
c5    0
dtype: int64

In [8]:
# этот программный код тоже подсчитывает общее количество значений NaN
(len(df) - df.count()).sum()

15

In [9]:
# какие элементы являются непропущенными значениями?
df.notna(), df.notnull()

(      c1     c2     c3     c4     c5
 a   True   True   True   True  False
 b   True   True   True  False  False
 c   True   True   True  False  False
 d   True   True   True  False  False
 e   True   True   True  False  False
 f   True   True   True   True  False
 g  False  False  False  False  False,
       c1     c2     c3     c4     c5
 a   True   True   True   True  False
 b   True   True   True  False  False
 c   True   True   True  False  False
 d   True   True   True  False  False
 e   True   True   True  False  False
 f   True   True   True   True  False
 g  False  False  False  False  False)

#### Удаление пропущенных данных

In [10]:
# отбираем непропущенные значения в столбце c4
df.c4[df.c4.notna()]

a    20.0
f    18.0
Name: c4, dtype: float64

Кроме того, библиотека pandas предлагает удобный метод <mark>.dropna()</mark>, который
удаляет пропущенные значения в серии. 

**Возвращается копия датафрейма, но без некоторых записей.**

Когда метод .dropna() применяется к объекту DataFrame, он удаляет из объекта
DataFrame все **строки**, в которых есть **хотя бы одно значение NaN**. 
Если передать опцию **axis=1**, то будет удаление стролбцов в которых есть значение NaN.

Если вы хотите удалить только те строки, в которых **ВСЕ значения являются значениями NaN**, вы можете использовать параметр **how='all'**.

Если вы хотите удалить строки, в которых **есть хотя бы ОДНО значение NaN**, вы можете использовать параметр **how='any'** (это дефолтное значение и его можно не указывать).

Кроме того, метод .dropna() имеет параметр **thresh**. Параметр thresh с помощью
целочисленного значения задает минимальное количество значений NaN, которое
требуется, чтобы выполнить операцию удаления строк или столбцов.


In [11]:
print(df.c4.dropna(), '\n\n', df.dropna(), end='\n\n')
print(df.dropna(axis='columns', how='all'), '\n\n', df.dropna(how='all'), end='\n\n')

df2 = df.copy()
df2.loc['g', ['c1', 'c3']] = 0
print(df2, '\n\n', df2.dropna(axis='columns', how='any'), end='\n\n')

print(df.dropna(axis='columns', thresh=5))

a    20.0
f    18.0
Name: c4, dtype: float64 

 Empty DataFrame
Columns: [c1, c2, c3, c4, c5]
Index: []

     c1    c2    c3    c4
a   0.0   1.0   2.0  20.0
b   3.0   4.0   5.0   NaN
c   6.0   7.0   8.0   NaN
d   9.0  10.0  11.0   NaN
e  12.0  13.0  14.0   NaN
f  15.0  16.0  17.0  18.0
g   NaN   NaN   NaN   NaN 

      c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0   NaN NaN
c   6.0   7.0   8.0   NaN NaN
d   9.0  10.0  11.0   NaN NaN
e  12.0  13.0  14.0   NaN NaN
f  15.0  16.0  17.0  18.0 NaN

     c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0   NaN NaN
c   6.0   7.0   8.0   NaN NaN
d   9.0  10.0  11.0   NaN NaN
e  12.0  13.0  14.0   NaN NaN
f  15.0  16.0  17.0  18.0 NaN
g   0.0   NaN   0.0   NaN NaN 

      c1    c3
a   0.0   2.0
b   3.0   5.0
c   6.0   8.0
d   9.0  11.0
e  12.0  14.0
f  15.0  17.0
g   0.0   0.0

     c1    c2    c3
a   0.0   1.0   2.0
b   3.0   4.0   5.0
c   6.0   7.0   8.0
d   9.0  10.0  11.0
e  12.0  13.0  14

#### Обработка значений NaN в ходе арифметических операций
Значения NaN в библиотеке pandas обрабатываются иначе, чем в библиотеке
NumPy. Мы уже знаем это по предыдущим главам, но стоит еще раз напомнить
здесь.

Когда функция библиотеки NumPy встречает значение NaN, она возвращает NaN.

Функции библиотеки **pandas обычно игнорируют значения NaN** и продолжают выполнять обработку данных, как если бы значения NaN не были частью объекта Series. (стр.201)

In [12]:
# создаем массив NumPy с одним значением NaN
a = np.array([1, 2, np.nan, 3])

# создаем объект Series из массива
s = pd.Series(a)

# средние значения массива и серии отличаются
a.mean(), s.mean()

(nan, 2.0)

In [13]:
# показываем, как методы .sum(), .mean() и .cumsum() обрабатывают значения NaN
# на примере столбца c4 датафрейма df
s = df.c4
print('sum ', s.sum()) # значение NaN обрабатывается как 0
print('mean ', s.mean(), end='\n\n') # NaN также обработаны как 0

# в методе .cumsum() значения NaN тоже обрабатываются как 0,
# но в итоговом объекте Series значения NaN сохраняются
print('cumsum ', s.cumsum())

sum  38.0
mean  19.0

cumsum  a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    38.0
g     NaN
Name: c4, dtype: float64


In [14]:
# при выполнении арифметических операциий значение NaN
# будет перенесено в результат (т.е NaN так и останется без изменений)
df.c4 + 1

a    21.0
b     NaN
c     NaN
d     NaN
e     NaN
f    19.0
g     NaN
Name: c4, dtype: float64

#### Заполнение пропущенных данныхa
Вместо того чтобы оставить пропуски как есть или удалить строки/столбцы, содержащие их, можно воспользоваться методом **.fillna()**, который заменяет значения NaN на определенное значение.

In [15]:
# возвращаем новый датафрейм, в котором значения NaN заполнены нулями
filled = df.fillna(0)
filled

     c1    c2    c3    c4   c5
a   0.0   1.0   2.0  20.0  0.0
b   3.0   4.0   5.0   0.0  0.0
c   6.0   7.0   8.0   0.0  0.0
d   9.0  10.0  11.0   0.0  0.0
e  12.0  13.0  14.0   0.0  0.0
f  15.0  16.0  17.0  18.0  0.0
g   0.0   0.0   0.0   0.0  0.0

In [16]:
# значения NaN не учитываются при вычислении средних значений
df.mean()

c1     7.5
c2     8.5
c3     9.5
c4    19.0
c5     NaN
dtype: float64

In [17]:
# после замены значений NaN на 0 получим другие средние значения
filled.mean()

c1    6.428571
c2    7.285714
c3    8.142857
c4    5.428571
c5    0.000000
dtype: float64

#### Прямое и обратное заполнение пропущенных значений
Пропуски в данных можно заполнить с помощью последнего непропущенного
значения в прямом и обратном порядке.

In [18]:
# заполняем пропуски в столбце c4 датафрейма df в прямом порядке
print(df.c4, '\n\n', df.c4.ffill())

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64 

 a    20.0
b    20.0
c    20.0
d    20.0
e    20.0
f    18.0
g    18.0
Name: c4, dtype: float64


In [19]:
# выполняем обратное заполнение
print(df.c4, '\n\n', df.c4.bfill())

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64 

 a    20.0
b    18.0
c    18.0
d    18.0
e    18.0
f    18.0
g     NaN
Name: c4, dtype: float64


#### Заполнение с помощью меток индекса
Данные можно заполнить с помощью меток объекта Series или ключей питоновского словаря. Это позволяет задавать для заполнения разные значения для различных элементов, используя индексные метки

In [20]:
# создаем новую серию значений, которую используем
# для заполнения значений NaN там, где метки индекса будут совпадать
fill_values = pd.Series([100, 101, 102], index=['a', 'e', 'g'])
fill_values

a    100
e    101
g    102
dtype: int64

In [21]:
# заполняем пропуски в столбце c4 с помощью fill_values
# a, e и g будут заполнены, поскольку метки совпали, однако значение a == 20
# не изменится, потому что онои не является пропуском
df.c4.fillna(fill_values)

a     20.0
b      NaN
c      NaN
d      NaN
e    101.0
f     18.0
g    102.0
Name: c4, dtype: float64

**Еще один распространенный сценарий – заполнение всех значений NaN в столбце средним значением столбца.**

Это удобно, поскольку пропуски, замененные таким способом, искажают статистическое среднее в меньшей степени, чем заполнение пропусков нулями.
В некоторых видах статистического анализа подобный способ может быть приемлемым, когда большая вариабельность данных в силу использования нулевых значений стала причиной неверных прогнозов.

In [22]:
# заполняем значения NaN в каждом столбце средним значением этого столбца
print(df, '\n\n', df.mean(), '\n\n', df.fillna(df.mean()))

     c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0   NaN NaN
c   6.0   7.0   8.0   NaN NaN
d   9.0  10.0  11.0   NaN NaN
e  12.0  13.0  14.0   NaN NaN
f  15.0  16.0  17.0  18.0 NaN
g   NaN   NaN   NaN   NaN NaN 

 c1     7.5
c2     8.5
c3     9.5
c4    19.0
c5     NaN
dtype: float64 

      c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0  19.0 NaN
c   6.0   7.0   8.0  19.0 NaN
d   9.0  10.0  11.0  19.0 NaN
e  12.0  13.0  14.0  19.0 NaN
f  15.0  16.0  17.0  18.0 NaN
g   7.5   8.5   9.5  19.0 NaN


#### Выполнение интерполяции пропущенных значений
Метод **.interpolate()** объекта Series и объекта DataFrame выполняет по умолчанию
линейную интерполяцию пропущенных значений.

Значение, используемое для интерполяции, вычисляется следующим образом. Сначала на основе первого значения, предшествующего ряду значений NaN, и последнего значения, следующего после ряда значений NaN, вычисляем инкремент (величину приращения). Затем пошагово увеличиваем стартовое значение на величину этого инкремента и заполняем им значения NaN. В нашем случае 2.0 и 1.0 представляют собой значения, окружающие пропуски, в результате получаем (2.0 – 1.0)/(5 – 1) = 0.25. Берем стартовое значение 1, увеличиваем на 0.25, получаем значение 1.25 и заполняем им первое значение NaN. Затем значение 1.25 увеличиваем снова на 0.25, получаем 1.50, заменяем им второе значение NaN и т. д.

Это важно.

In [23]:
# выполняем линейную интерполяцию значений NaN с 1 по 2
s = pd.Series([1, np.nan, np.nan, np.nan, 2])
s.interpolate()

0    1.00
1    1.25
2    1.50
3    1.75
4    2.00
dtype: float64

In [24]:
# создаем временной ряд, но при этом значение по одной дате будет пропущено
ts = pd.Series([1, np.nan, 2],
              index=[datetime(2014, 1, 1), datetime(2014, 2, 1), datetime(2014, 4, 1)]
              )
ts

2014-01-01    1.0
2014-02-01    NaN
2014-04-01    2.0
dtype: float64

In [25]:
# выполняем линейную интерполяцию на основе количества элементов в данной серии
ts.interpolate()

2014-01-01    1.0
2014-02-01    1.5
2014-04-01    2.0
dtype: float64

Значение для 2014-02-01 рассчитывается как 1.0 + (2.0 – 1.0)/2 = 1.5, потому что
только одно значение NaN находится между значениями 2.0 и 1.0.
Важно отметить, что в серии отсутствует наблюдение для 2014-03-01. Если нам
нужно интерполировать суточные значения, следует вычислить два значения:
одно для 2014-02-01, а другое для 2014-03-01, что приведет к другой величине инкремента и соответственно другим результатам

Давайте выполним интерполяцию суточных значений, указав метод интерполяции time

In [26]:
# этот программный код учитывает тот факт, что у нас отсутствует запись для 2014-03-01
ts.interpolate(method='time')

2014-01-01    1.000000
2014-02-01    1.344444
2014-04-01    2.000000
dtype: float64

Мы выполнили корректную интерполяцию для 2014-02-01 на основе дат. 
Кроме того, обратите внимание, что метка индекса и значение для 2014-03-01 не были
добавлены в объект Series, это значение просто учитывается при выполнении интерполяции.

Помимо этого, интерполяцию можно задать для вычисления значений относительно меток индекса, когда используются числовые индексные метки.

In [27]:
# создаем объект Series, чтобы продемонстрировать интерполяцию, основанную на индексных метках
s = pd.Series([0, np.nan, 100], index=[0, 1, 10])

# выполняем интерполяцию на основе значений индекса. 
# Значение NaN имеет метку 1, что составляет одну десятую расстояния между 0 и 10,
# поэтому интерпо лированное значение будет равно 0.0 + (100.0 – 0.0)/10, или 10.

print(s, '\n\n', s.interpolate(method='index'))

0       0.0
1       NaN
10    100.0
dtype: float64 

 0       0.0
1      10.0
10    100.0
dtype: float64


#### Обработка дублирующихся данных
Библиотека pandas предлагает метод **.duplicated()** для упрощения поиска дублирующихся данных. Этот метод возвращает серию логических значений, в которой каждая запись показывает, является строка дубликатом или нет.

Значение True означает, что данная строка уже появлялась ранее в объекте DataFrame, значения в столбцах совпадают.

In [28]:
# создаем датафрейм с дублирующимися строками
data = pd.DataFrame({
    'a': ['x'] * 3 + ['y'] * 4,
    'b': [1, 1, 2, 3, 3, 4, 4]
})
data

   a  b
0  x  1
1  x  1
2  x  2
3  y  3
4  y  3
5  y  4
6  y  4

In [29]:
# определяем, какие строки являются дублирующимися,
# то есть какие строки уже ранее встречались в датафрейме
data.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

Дублирующиеся строки можно удалить из датафрейма с помощью метода **.drop_duplicates().**

Этот метод возвращает копию датафрейма с удаленными дублирующимися строками (но есть параметр inplace=True, чтобы удалить строки на месте и не создавать копию датафрейма)

In [30]:
# удаляем дублирующиеся строки, каждый раз оставляя первое из дублирующихся наблюдений
data.drop_duplicates()

   a  b
0  x  1
2  x  2
3  y  3
5  y  4

Обратите внимание, что существует нюанс, связанный с метками индексов,
остающимися при удалении дубликатов. Дублирующиеся записи могут иметь разные метки индексов (метки не учитываются при поиске дубликатов). Таким образом, строка, которая будет оставлена при удалении дубликатов, может повлиять на набор меток в итоговом объекте DataFrame.

In [31]:
# удаляем дублирующиеся строки, каждый раз оставляя последнее из дублирующихся наблюдений
data.drop_duplicates(keep='last')

   a  b
1  x  1
2  x  2
4  y  3
6  y  4

In [32]:
# если мы укажем, что нужно удалить дублирующиеся строки
# с учетом значений в столбцах a и b

In [33]:
data.drop_duplicates(['a', 'b'])

   a  b
0  x  1
2  x  2
3  y  3
5  y  4

### Преобразование данных

#### Сопоставление значений другим значениям
Одной из основных задач преобразования данных является сопоставление набора значений другому набору значений. Библиотека pandas позволяет сопоставлять значения с помощью таблицы поиска (по питоновскому словарю или серии библиотеки pandas). Для этого используется метод **.map()**.

Этот метод выполняет сопоставление, сперва сличая значения внешней серии с метками индекса внутренней серии. Затем он возвращает новую серию с метками индекса внешней серии, но со значениями внутренней серии.

In [34]:
# создаем два объекта Series для иллюстрации
# процесса сопоставления значений
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b", 3: "c"})
x, y

(one      1
 two      2
 three    3
 dtype: int64,
 1    a
 2    b
 3    c
 dtype: object)

In [35]:
# сопоставляем значения серии x значениям серии y
x.map(y)

one      a
two      b
three    c
dtype: object

In [36]:
# если между значением серии y и индексной меткой серии x
# не будет найдено соответствие, будет выдано значение NaN
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b"})
x.map(y)

one        a
two        b
three    NaN
dtype: object

#### Замена значений
Фактически метод .fillna() можно рассматривать как реализацию метода .map(), который сопоставляет значение NaN с определенным значением.

Если говорить более широко, метод .fillna() можно рассматривать как специальный случай более универсальной операции замены значений, которая реализована в рамках метода .replace(). Этот метод более гибок благодаря возможности заменить любое значение (не только значение NaN) другим значением.

Основное использование метода **.replace()** заключается в замене конкретного
значения на другое

In [37]:
# создаем объект Series, чтобы проиллюстрировать метод .replace()
s = pd.Series([0, 1, 2, 3, 4], dtype='float')
s

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
dtype: float64

In [38]:
# заменяем значение, соответствующее индексной метке 2, на значение 5
s.replace(2, 5)

0    0.0
1    1.0
2    5.0
3    3.0
4    4.0
dtype: float64

In [39]:
# заменяем все элементы новыми значениями
# первый – список заменяемых значений, а второй – список заменяющих значений
s.replace([0, 1, 2, 3, 4], [4, 3, 2, 1, 0])

0    4.0
1    3.0
2    2.0
3    1.0
4    0.0
dtype: float64

In [40]:
# заменяем элементы, используя словарь
s.replace({0: 10, 1: 100})

0     10.0
1    100.0
2      2.0
3      3.0
4      4.0
dtype: float64

Если вы используете метод .replace() объекта DataFrame, можно указать разные
заменяемые значения для каждого столбца. Эта операция выполняется путем
передачи питоновского словаря в метод .replace(). 

В этом словаре ключи представляют собой имена столбцов, в которых нужно заменить значения, а значения словаря указывают заменяемые значения в столбцах. Второй параметр метода –
это значение, которое используется для замены.

In [41]:
# создаем датафрейм с двумя столбцами
df = pd.DataFrame({'a': [0, 1, 2, 3, 4], 'b': [5, 6, 7, 8, 9]})
df

   a  b
0  0  5
1  1  6
2  2  7
3  3  8
4  4  9

In [42]:
# задаем разные заменяемые значения для каждого столбца
df.replace({'a': 1, 'b': 8}, 100)

     a    b
0    0    5
1  100    6
2    2    7
3    3  100
4    4    9

#### Применение функций для преобразования данных
При работе с данными мы можем применить различные функции, воспользовавшись методом с говорящим названием **.apply()**. Когда задана функция Python, метод .apply() итеративно вызывает ее, передавая каждое значение из объекта Series. Метод .apply() объекта DataFrame передает в функцию каждый столбец, представленный в виде объекта Series, или, если задан параметр axis=1, передает объект Series, представляющий каждую строку.

In [43]:
# иллюстрируем применение функции к каждому элементу объекта Series
s = pd.Series(np.arange(0, 5))
s.apply(lambda v: v * 2)

0    0
1    2
2    4
3    6
4    8
dtype: int64

In [84]:
# создаем датафрейм, чтобы проиллюстрировать применение
# операции суммирования к каждому столбцу
df = pd.DataFrame(np.arange(12).reshape(4, 3), columns=['a', 'b', 'c'])
df

   a   b   c
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11

In [85]:
# вычисляем сумму элементов в каждом столбце
df.apply(lambda col: col.sum())

a    18
b    22
c    26
dtype: int64

In [86]:
# вычисляем сумму элементов в каждой строке
df.apply(lambda row: row.sum(), axis='columns')

0     3
1    12
2    21
3    30
dtype: int64

Общераспространенная практика заключается в том, чтобы взять результат
операции и добавить его в качестве нового столбца объекта DataFrame. Это удобно,
поскольку вы можете добавить в объект DataFrame результат одной или нескольких
операций последовательного вычисления, выводя итоги вычислений на каждом этапе обработки.

In [87]:
# создаем столбец 'interim' путем умножения столбцов a и b
df['interim'] = df.apply(lambda r: r.a * r.b, axis='columns')
# %timeit df['dd'] = df['a'] * df['b'] этот спобоб гораздо быстрее чем выше
df

   a   b   c  interim
0  0   1   2        0
1  3   4   5       12
2  6   7   8       42
3  9  10  11       90

In [88]:
# а теперь получаем столбец 'result' путем сложения столбцов 'interim' и 'c'
df['result'] = df.apply(lambda r: r.interim + r.c, axis='columns')
df

   a   b   c  interim  result
0  0   1   2        0       2
1  3   4   5       12      17
2  6   7   8       42      50
3  9  10  11       90     101

Можно изменить значения в существующем столбце, просто присвоив этому
столбцу результат выполнения той или иной операции.

**Как правило, замена значений столбца совершенно новыми значениями – не лучшее решение** и часто приводит к проблемам, обусловленным неудачным преобразованием данных. Поэтому в библиотеке pandas лучше просто добавлять новые строки или столбцы (или полностью новые объекты), а если впоследствии
проблема памяти или производительности становится ощутимой, выполнять оптимизацию по мере необходимости.


In [49]:
# заменяем значения столбца a на сумму значений по строке
df.a = df.a + df.b + df.c
df

    a   b   c  interim  result
0   3   1   2        0       2
1  12   4   5       12      17
2  21   7   8       42      50
3  30  10  11       90     101

Метод **.apply() всегда применяет заданную функцию ко всем элементам объекта Series, столбца или строки** объекта DataFrame. Если вы хотите применить эту функцию к подмножеству данных, сначала выполните логический отбор, чтобы отфильтровать ненужные элементы.

In [50]:
# создаем объект DataFrame из 3 строк и 5 столбцов
# только вторая строка содержит значение NaN

In [94]:
df = pd.DataFrame(np.arange(0, 15).reshape(3, 5))
df.loc[1, 2] = np.nan
df

    0   1     2   3   4
0   0   1   2.0   3   4
1   5   6   NaN   8   9
2  10  11  12.0  13  14

In [52]:
# демонстрируем применение функции только к тем строкам, в которых нет значений NaN
df.dropna().apply(lambda x: x.sum(), axis='columns')

0    10.0
2    60.0
dtype: float64

In [53]:
# используем метод .map(), чтобы изменить формат всех элементов объекта DataFrame
# map() применяет функцию к каждому отдельному значению.
df.map(lambda x: '%.2f' % x)

       0      1      2      3      4
0   0.00   1.00   2.00   3.00   4.00
1   5.00   6.00    nan   8.00   9.00
2  10.00  11.00  12.00  13.00  14.00