# Настройка pandas

In [None]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datetime для работы с датами
import datetime
from datetime import datetime, date

# Задаем некоторые опции библиотеки pandas, которые
# настраивают вывод
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)

# импортируем matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

# Работа с пропущенными данными

In [None]:
# создаем датафрейм с 5 строками и 3 столбцами
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3), 
               index=['a', 'b', 'c', 'd', 'e'], 
               columns=['c1', 'c2', 'c3'])
df

In [None]:
# добавляем несколько столбцов и строк в датафрейм
# столбец c4 со значениями NaN
df['c4'] = np.nan
# строка 'f' со значениями от 15 до 18 
df.loc['f'] = np.arange(15, 19) 
# строка 'g', состоящая из значений NaN
df.loc['g'] = np.nan
# столбец 'C5', состоящий из значений NaN
df['c5'] = np.nan
# меняем значение в столбце 'c4' строки 'a'
df['c4']['a'] = 20
df

# Поиск значений NaN в объектах библиотеки pandas

In [None]:
# какие элементы являются значениями NaN?
df.isnull()

In [None]:
# подсчитываем количество значений NaN
# в каждом столбце
df.isnull().sum()

In [None]:
# вычисляем общее количество значений NaN
df.isnull().sum().sum()

In [None]:
# вычисляем количество значений, отличных от NaN,
# по каждому столбцу
df.count()

In [None]:
# какие элементы являются непропущенными значениями?
df.notnull()

# Удаление пропущенных данных

In [None]:
# отбираем непропущенные значения в столбце c4
df.c4[df.c4.notnull()]

In [None]:
# .dropna() также возвращает непропущенные значения
# этот программный код извлекает в столбце c4
# все значения, кроме значений NaN
df.c4.dropna()

In [None]:
# .dropna() возвращает копию с удаленными значениями
# исходный датафрейм/столбец не изменился
df.c4

In [None]:
# метод .dropna() при применении к датафрейму 
# удаляет целиком строки, в которых есть
# по крайней мере одно значение NaN
# в данном случае будут удалены все строки
df.dropna()

In [None]:
# используя параметр how='all', удаляем лишь те строки,
# в которых все значения являются значениями NaN
df.dropna(how = 'all')

In [None]:
# меняем ось, чтобы удалить столбцы со значениями NaN
# вместо строк
df.dropna(how='all', axis=1) # попрощаемся со столбцом c5

In [None]:
# создаем копию датафрейма df
df2 = df.copy()
# заменяем две ячейки с пропусками значениями 0
df2.loc['g'].c1 = 0
df2.loc['g'].c3 = 0
df2

In [None]:
# а сейчас удаляем столбцы, в которых есть 
# хотя бы одно значение NaN
df2.dropna(how='any', axis=1) 

In [None]:
# удаляем лишь те столбцы, в которых по меньшей мере
# 5 значений NaN
df.dropna(thresh=5, axis=1)

# Обработка значений NaN в ходе арифметических операций

In [None]:
# создаем массив NumPy с одним значением NaN
a = np.array([1, 2, np.nan, 3])
# создаем объект Series из массива
s = pd.Series(a)
# средние значения массива и серии отличаются
a.mean(), s.mean()

In [None]:
# показываем, как методы .sum(), .mean() и .cumsum() 
# обрабатывают значения NaN
# на примере столбца c4 датафрейма df
s = df.c4
s.sum(), # значения NaN обработаны как 0

In [None]:
s.mean() # NaN пропущены

In [None]:
# в методе .cumsum() значения NaN тоже обрабатываются как 0, 
# но в итоговом объекте Series значения NaN сохраняются
s.cumsum()

In [None]:
# при выполнении арифметических операциий значение NaN 
# будет перенесено в результат
df.c4 + 1

# Заполнение пропущенных данных

In [None]:
# возвращаем новый датафрейм, в котором
# значения NaN заполнены нулями
filled = df.fillna(0)
filled

In [None]:
# значения NaN не учитываются при вычислении
# средних значений
df.mean()

In [None]:
# после замены значений NaN на 0 получим
# другие средние значения
filled.mean()

# Прямое и обратное заполнение пропущенных значений

In [None]:
# заполняем пропуски в столбце c4 датафрейма df
# в прямом порядке
df.c4.fillna(method="ffill")

In [None]:
# выполняем обратное заполнение
df.c4.fillna(method="bfill")

# Заполнение с помощью меток индекса

In [None]:
# создаем новую серию значений, которую используем
# для заполнения значений NaN там, 
# где метки индекса будут совпадать
fill_values = pd.Series([100, 101, 102], index=['a', 'e', 'g'])
fill_values

In [None]:
# заполняем пропуски в столбце c4 с помощью fill_values
# a, e и g будут заполнены, поскольку метки совпали,
# однако значение a не изменится, потому что оно 
# не является пропуском
df.c4.fillna(fill_values)

In [None]:
# заполняем значения NaN в каждом столбце 
# средним значением этого столбца
df.fillna(df.mean())

# Интерполяция пропущенных значений

In [None]:
# выполняем линейную интерполяцию 
# значений NaN с 1 по 2
s = pd.Series([1, np.nan, np.nan, np.nan, 2])
s.interpolate()

In [None]:
# создаем временной ряд, но при этом значение
# по одной дате будет пропущено
ts = pd.Series([1, np.nan, 2], 
            index=[datetime(2014, 1, 1), 
                   datetime(2014, 2, 1),                   
                   datetime(2014, 4, 1)])
ts

In [None]:
# выполняем линейную интерполяцию на основе
# количества элементов в данной серии
ts.interpolate()

In [None]:
# этот программный код учитывает тот факт,
# что у нас отсутствует запись для 2014-03-01
ts.interpolate(method="time")

In [None]:
# создаем объект Series, чтобы продемонстрировать интерполяцию,
# основанную на индексных метках
s = pd.Series([0, np.nan, 100], index=[0, 1, 10])
s

In [None]:
# выполняем линейную интерполяцию
s.interpolate()

In [None]:
# выполняем интерполяцию на основе значений индекса
s.interpolate(method="values")

# Обработка дублирующихся данных

In [None]:
# создаем датафрейм с дублирующимися строками
data = pd.DataFrame({'a': ['x'] * 3 + ['y'] * 4, 
                     'b': [1, 1, 2, 3, 3, 4, 4]})
data

In [None]:
# определяем, какие строки являются дублирующимися,
# то есть какие строки уже ранее встречались в датафрейме
data.duplicated()

In [None]:
# вывести дублирующие строки
data[data.duplicated() == True]

In [None]:
# вывести индексы дублирующих строк
data[data.duplicated() == True].index

In [None]:
# удаляем дублирующиеся строки, каждый раз оставляя 
# первое из дублирующихся наблюдений
data.drop_duplicates()

In [None]:
# удаляем дублирующиеся строки, каждый раз оставляя 
# последнее из дублирующихся наблюдений
data.drop_duplicates(keep='last')

In [None]:
# добавляем столбец c со значениями от 0 до 6
# метод .duplicated() сообщает об отсутствии
# дублирующихся строк
data['c'] = range(7)
data.duplicated()

In [None]:
# но если мы укажем, что нужно удалить дублирующиеся строки
# с учетом значений в столбцах a и b,
# результаты будут выглядеть так
data.drop_duplicates(['a', 'b'])

# Сопоставление значений другим значениям

In [None]:
# создаем два объекта Series для иллюстрации 
# процесса сопоставления значений
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b", 3: "c"})
x

In [None]:
y

In [None]:
# сопоставляем значения серии x значениям серии y 
x.map(y)

In [None]:
# если между значением серии y и индексной меткой серии x 
# не будет найдено соответствие, будет выдано значение NaN
x = pd.Series({"one": 1, "two": 2, "three": 3})
y = pd.Series({1: "a", 2: "b"})
x.map(y)

# Замена значений

In [None]:
# создаем объект Series, чтобы проиллюстрировать 
# метод .replace()
s = pd.Series([0., 1., 2., 3., 2., 4.])
s

In [None]:
# заменяем значение, соответствующее 
# индексной метке 2, на значение 5
s.replace(2, 5)

In [None]:
# заменяем все элементы новыми значениями
s.replace([0, 1, 2, 3, 4], [4, 3, 2, 1, 0])

In [None]:
# заменяем элементы, используя словарь
s.replace({0: 10, 1: 100})

In [None]:
# создаем датафрейм с двумя столбцами
df = pd.DataFrame({'a': [0, 1, 2, 3, 4], 'b': [5, 6, 7, 8, 9]})
df

In [None]:
# задаем разные заменяемые значения для каждого столбца
df.replace({'a': 1, 'b': 8}, 100)

In [None]:
# иллюстрируем замену значений с помощью метода pad
# заменяем первое значение на 10
s[0] = 10
s

In [None]:
# заменяем элементы с индексными метками 1, 2, 3, используя
# для заполнения самое последнее значение, предшествующее
# заданным меткам (10)
s.replace([1, 2, 3], method='pad')

# Применение функций для преобразования данных

In [None]:
# иллюстрируем применение функции к каждому
# элементу объекта Series
s = pd.Series(np.arange(0, 5))
s.apply(lambda v: v * 2)

In [None]:
# создаем датафрейм, чтобы проиллюстрировать применение 
# операции суммирования к каждому столбцу
df = pd.DataFrame(np.arange(12).reshape(4, 3), 
                  columns=['a', 'b', 'c'])
df

In [None]:
# вычисляем сумму элементов в каждом столбце
df.apply(lambda col: col.sum())

In [None]:
# вычисляем сумму элементов в каждой строке
df.apply(lambda row: row.sum(), axis=1)

In [None]:
# создаем столбец 'interim' путем 
# умножения столбцов a и b
df['interim'] = df.apply(lambda r: r.a * r.b, axis=1)
df

In [None]:
# а теперь получаем столбец 'result' путем сложения
# столбцов 'interim' и 'c'
df['result'] = df.apply(lambda r: r.interim + r.c, axis=1)
df

In [None]:
# заменяем значения столбца a на сумму значений по строке
df.a = df.a + df.b + df.c
df

In [None]:
# создаем объект DataFrame из 3 строк и 5 столбцов
# только вторая строка содержит значение NaN
df = pd.DataFrame(np.arange(0, 15).reshape(3,5))
df.loc[1, 2] = np.nan
df

In [None]:
# демонстрируем применение функции только к тем строкам,
# в которых нет значений NaN
df.dropna().apply(lambda x: x.sum(), axis=1)

In [None]:
# используем метод .applymap(), чтобы изменить формат 
# всех элементов объекта DataFrame
df.applymap(lambda x: '%.2f' % x)