In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

__РАБОТА С ПРОПУЩЕННЫМИ ДАННЫМИ__

__Причины по которым могут возникнуть пропущенные данные (Nan)__
- объединение двух наборов данных с несовпадающими названиями переменных;
- данные, извлеченные из внешнего источника, являются не полными;
- значение переменной неизвестно в данный момент времени и будет заполнено позднее;
- при сборе информации был допущен пропуск, однако наблюдение все равно должно быть записано;
- переиндексация данных привела к индексу, у которого отсутствует значение;
- форма данных изменилась со временем, и теперь появились дополнительные строки или столбцы, которые до момента появления этих изменений нельзя было зафиксировать

In [2]:
# создаем датафрейм с 5 строками и 3 столбцами
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3),
                  index = ['a', 'b', 'c', 'd', 'e'],
                  columns = ['c1', 'c2', 'c3'])
df

   c1  c2  c3
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
e  12  13  14

In [3]:
# добавляем несколько столбцов и строк в датафрейм
df['c4'] = np.nan
# строка f со значениями от 15 до 18
df.loc['f'] = np.arange(15, 19)
# строка g состоящая из значений Nan 
df.loc['g'] = np.nan
# столбец с5 состоящий из значений Nan
df['c5'] = np.nan
# меняем значение в столбце с4 строки а
df['c4']['a'] = 20
df

     c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0   NaN NaN
c   6.0   7.0   8.0   NaN NaN
d   9.0  10.0  11.0   NaN NaN
e  12.0  13.0  14.0   NaN NaN
f  15.0  16.0  17.0  18.0 NaN
g   NaN   NaN   NaN   NaN NaN

__Поиск значений Nan в объектах библиотеки Pandas__

In [4]:
# Значения Nan в DataFrame можно найти с помощью метода .isnull Любое значение True означает что этот элемент Nan 
df.isnull()

      c1     c2     c3     c4    c5
a  False  False  False  False  True
b  False  False  False   True  True
c  False  False  False   True  True
d  False  False  False   True  True
e  False  False  False   True  True
f  False  False  False  False  True
g   True   True   True   True  True

In [5]:
# метод .sum() рассматривает True как 1 и Falsу как 0, чтобы вычислить количество Nan в объекте DataFrame
df.isnull().sum()

c1    1
c2    1
c3    1
c4    5
c5    7
dtype: int64

In [6]:
# вычисляем общее количество Nan в объекте
df.isnull().sum().sum()

15

In [7]:
# еще один способ определить пропуски - использовать метод .count() Для объекта Series он возвращает число не пропущенных 
# значений, для объекта DataFrame он будет подсчитывать количество непропущенных значений в каждом столбце
# вычисляем количество значений отличных от Nan, по каждому столбцу
df.count()

c1    6
c2    6
c3    6
c4    2
c5    0
dtype: int64

In [8]:
# еще один вариант подсчета общего количества Nan 
(len(df) - df.count()).sum()

15

In [9]:
# можно определить, является ли элемент непропущенным значением, воспользовавшись методом .notnull()
df.notnull()

      c1     c2     c3     c4     c5
a   True   True   True   True  False
b   True   True   True  False  False
c   True   True   True  False  False
d   True   True   True  False  False
e   True   True   True  False  False
f   True   True   True   True  False
g  False  False  False  False  False

__Удаление пропущенных данных__

In [10]:
# отбираем непропущенные значения в столбце с4
df.c4[df.c4.notnull()]

a    20.0
f    18.0
Name: c4, dtype: float64

In [11]:
# .dropna() также возвращает не пропущенные значения
df.c4.dropna()

a    20.0
f    18.0
Name: c4, dtype: float64

In [12]:
# .dropna() возвращает копию с удаленными значениями, исходник не изменился
df.c4

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64

In [13]:
# когда .dropna() применяется к объекту DataFrame, он удаляет из объекта DataFrame все строки в которых есть хотя бы одно Nan 
df.dropna()

Empty DataFrame
Columns: [c1, c2, c3, c4, c5]
Index: []

In [14]:
# используя параметр how = 'all', удаляем только те строки в которых все значения Nan 
df.dropna(how ='all')

     c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0   NaN NaN
c   6.0   7.0   8.0   NaN NaN
d   9.0  10.0  11.0   NaN NaN
e  12.0  13.0  14.0   NaN NaN
f  15.0  16.0  17.0  18.0 NaN

In [15]:
# меняем ось что бы удалить столбцы со значениями Nan 
df.dropna(how = 'all', axis = 1)

     c1    c2    c3    c4
a   0.0   1.0   2.0  20.0
b   3.0   4.0   5.0   NaN
c   6.0   7.0   8.0   NaN
d   9.0  10.0  11.0   NaN
e  12.0  13.0  14.0   NaN
f  15.0  16.0  17.0  18.0
g   NaN   NaN   NaN   NaN

In [16]:
# создаем копию DataFrame
df2 = df.copy()
df2.loc['g'].c1 = 0
df2.loc['g'].c3 = 0
df2

     c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0   NaN NaN
c   6.0   7.0   8.0   NaN NaN
d   9.0  10.0  11.0   NaN NaN
e  12.0  13.0  14.0   NaN NaN
f  15.0  16.0  17.0  18.0 NaN
g   0.0   NaN   0.0   NaN NaN

In [17]:
# с помощью параметра how = 'any' удалим столбцы в которых есть хотя бы 1 значение Nan 
df2.dropna(how = 'any', axis = 1)

     c1    c3
a   0.0   2.0
b   3.0   5.0
c   6.0   8.0
d   9.0  11.0
e  12.0  14.0
f  15.0  17.0
g   0.0   0.0

In [18]:
# с помощью параметра thresh можно задать минимальное количество Nan которое требуется для удаления столбца или строк 
df.dropna(thresh = 5, axis = 1)

     c1    c2    c3
a   0.0   1.0   2.0
b   3.0   4.0   5.0
c   6.0   7.0   8.0
d   9.0  10.0  11.0
e  12.0  13.0  14.0
f  15.0  16.0  17.0
g   NaN   NaN   NaN

In [19]:
# метод .dropna возвращает копию датафрейма!!! если нужно удалить в исходнике, используем параметр inplace = True

__Заполнение пропущенных данных__

In [20]:
# метод .fillna() заменяет значения Nan на определенное значение
# возвращаем новый датафрейм в котором значения Nan заполнены нулями
filled = df.fillna(0)
filled

     c1    c2    c3    c4   c5
a   0.0   1.0   2.0  20.0  0.0
b   3.0   4.0   5.0   0.0  0.0
c   6.0   7.0   8.0   0.0  0.0
d   9.0  10.0  11.0   0.0  0.0
e  12.0  13.0  14.0   0.0  0.0
f  15.0  16.0  17.0  18.0  0.0
g   0.0   0.0   0.0   0.0  0.0

In [21]:
# значения Nan не учитываются при вычислении средних значений
df.mean()

c1     7.5
c2     8.5
c3     9.5
c4    19.0
c5     NaN
dtype: float64

In [22]:
# после замена Nan на 0 получаются другие значения средней
filled.mean()

c1    6.428571
c2    7.285714
c3    8.142857
c4    5.428571
c5    0.000000
dtype: float64

__Прямое и обратное заполнение пропущенных значений__

In [23]:
# пропуски в данных можно заполнить с помощью последнего не пропущенного значения в прямом или обратном порядке
# заполняем пропуски в столбце с4 датафрейма df в прямом порядке
df.c4.fillna(method = 'ffill')

a    20.0
b    20.0
c    20.0
d    20.0
e    20.0
f    18.0
g    18.0
Name: c4, dtype: float64

In [24]:
# выполняем обратное заполнение
df.c4.fillna(method = 'bfill')

a    20.0
b    18.0
c    18.0
d    18.0
e    18.0
f    18.0
g     NaN
Name: c4, dtype: float64

__Заполнение с помощью меток индекса__

In [25]:
# Данные можно заполнить с помощью меток объекта Series или ключей питоновского словаря
# Создаем новую серию значений, которую используем для заполнения значений Nan там где метки индекса будут совпадать
fill_values = pd.Series([100, 101, 102], index = ['a', 'e', 'g'])
fill_values

a    100
e    101
g    102
dtype: int64

In [26]:
# заполняем пропуски в столбце с4 с помощью fill_values a, e, g будут заполнены, поскольку метки совпали, однако
# значение а не измениться, потому что оно не является пропуском
df.c4.fillna(fill_values)

a     20.0
b      NaN
c      NaN
d      NaN
e    101.0
f     18.0
g    102.0
Name: c4, dtype: float64

__Заполнение с помощью среднего значения столбца__

In [27]:
df.fillna(df.mean())  # это удобно, так как пропуски замененные таким образом меньше искажают статистическое среднее

     c1    c2    c3    c4  c5
a   0.0   1.0   2.0  20.0 NaN
b   3.0   4.0   5.0  19.0 NaN
c   6.0   7.0   8.0  19.0 NaN
d   9.0  10.0  11.0  19.0 NaN
e  12.0  13.0  14.0  19.0 NaN
f  15.0  16.0  17.0  18.0 NaN
g   7.5   8.5   9.5  19.0 NaN

__Выполнение интерполяции пропущенных значений__

In [28]:
# метод .interpolate() объекта Series и объекта DataFrame выполняет по умолчанию линейную интерполяцию пропущенных значений
s = pd.Series([1, np.nan, np.nan, np.nan, 2])
s.interpolate()

0    1.00
1    1.25
2    1.50
3    1.75
4    2.00
dtype: float64

In [29]:
# создаем временной ряд, но при этом значение по одной дате будет пропущено
ts = pd.Series([1, np.nan, 2],
               index = [datetime(2023, 1, 1),
                        datetime(2023, 2, 1),
                        datetime(2023, 4, 1)])
ts
                        

2023-01-01    1.0
2023-02-01    NaN
2023-04-01    2.0
dtype: float64

In [30]:
# выполняем линейную интерполяцию
ts.interpolate()

2023-01-01    1.0
2023-02-01    1.5
2023-04-01    2.0
dtype: float64

In [31]:
# этот программный код учитывает тот факт, что у нас отсутствует запись для 2023-03-01
ts.interpolate(method = 'time')

2023-01-01    1.000000
2023-02-01    1.344444
2023-04-01    2.000000
dtype: float64

In [32]:
# создаем объект Series, что бы продемонтсрировать интерполяцию, основанную на индексных метках
s = pd.Series([0, np.nan, 100], index = [0, 10, 100])
s

0        0.0
10       NaN
100    100.0
dtype: float64

In [33]:
# выполняем линейную интерполяцию
s.interpolate()

0        0.0
10      50.0
100    100.0
dtype: float64

In [34]:
# выполняем интерполяцию на основе значений индекса
s.interpolate(method = 'values')

0        0.0
10      10.0
100    100.0
dtype: float64

__ОБРАБОТКА ДУБЛИРУЮЩИХСЯ ДАННЫХ__

In [35]:
# библиотека Pandas предлагает метод .duplicates() для упрощения поиска дублирующихся данных
# создаем датафрейм с дублирующими строками
data = pd.DataFrame({'a': ['x'] * 3 + ['y'] * 4,
                     'b': [1, 1, 2, 3, 3, 4, 4]})
data

   a  b
0  x  1
1  x  1
2  x  2
3  y  3
4  y  3
5  y  4
6  y  4

In [36]:
# определяем какие строки являются дублирующими
data.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

In [37]:
# дублирующиеся строки можно удалить из датафрейма с помощью метода .drop_duplicates()
data.drop_duplicates()

   a  b
0  x  1
2  x  2
3  y  3
5  y  4

In [38]:
data

   a  b
0  x  1
1  x  1
2  x  2
3  y  3
4  y  3
5  y  4
6  y  4

In [39]:
# можно воспользоваться параметром inplace = True, что бы удалить строки не создавая копию датафрейма

In [40]:
# по умолчанию при удалении дубликатов каждый раз оставляется строка, встретившаяса первой. Что бы оставить последнюю
# строку, используем параметр keep = 'last'
data.drop_duplicates(keep = 'last')

   a  b
1  x  1
2  x  2
4  y  3
6  y  4

In [41]:
# если необходимо проверить наличие дубликатов, используя меньший набор столбцов, вы можете задать список имен столбцов
# добавляем столбе 'с' со значениями от 0 до 6
data['c'] = range(7)
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
dtype: bool

In [42]:
# но если мы укажем что нужно удалить дублирующиеся строки с учетом значений столбцов а и в, получим следующее
data.drop_duplicates(['a', 'b'])

   a  b  c
0  x  1  0
2  x  2  2
3  y  3  3
5  y  4  5

__ПРЕОБРАЗОВАНИЕ ДАННЫХ__

__Причины по которым возникает необходимость в преобразовании данных__
- значения имеют неверные единицы измерения;
- значения являются качественными и нуждаются в преобразовании в соответствующие числовые значения;
- есть посторонние данные, которые потребляют лишнюю память и увеличивают время обработки, либо могут повлиять на результаты анализа

__Сопоставление значений другим значениям__

In [43]:
# Pandas позволяет сопоставлять значения с помощью таблицы поиска с помощью метода .map
# этот метод выполняет сопоставление сперва сличая значения внешней серии с метками индекса внутренней серии. Затем он
# возвращает новую серию с метками индекса внешней серии но со значениями внутренней серии

# создаем два объекта Series
x = pd.Series({'one': 1, 'two': 2, 'three': 3})
y = pd.Series({1: 'a', 2: 'b', 3: 'c'})
x

one      1
two      2
three    3
dtype: int64

In [44]:
y

1    a
2    b
3    c
dtype: object

In [45]:
# сопоставляем значение серии х значениям серии у
x.map(y)

one      a
two      b
three    c
dtype: object

In [46]:
# Если значение отсутствует, вернется Nan 
x = pd.Series({'one': 1, 'two': 2, 'three': 3})
y = pd.Series({1: 'a', 2: 'b'})
x.map(y)

one        a
two        b
three    NaN
dtype: object

__Замена значений__

In [47]:
# Основное использование метода .replace() заключается в замене конкретного значения на другое
s = pd.Series([0., 1., 2., 3., 2., 4.])
s

0    0.0
1    1.0
2    2.0
3    3.0
4    2.0
5    4.0
dtype: float64

In [48]:
# заменяем значение, соответствующее индексной метке 2 на 5
s.replace(2, 5)

0    0.0
1    1.0
2    5.0
3    3.0
4    5.0
5    4.0
dtype: float64

In [54]:
# заменяем все элементами новыми значениями
s.replace([0, 1, 2, 3, 4], [4, 3, 2, 1, 0])

0    4.0
1    3.0
2    2.0
3    1.0
4    2.0
5    0.0
dtype: float64

In [57]:
# заменяем элементы используя словарь
s.replace({0: 10, 1: 100, 2: 200})

0     10.0
1    100.0
2    200.0
3      3.0
4    200.0
5      4.0
dtype: float64

In [58]:
# для объекта DataFrame можно указать разные заменяемые значения для каждого столбца
# создаем DataFrame с двумя столбцами
df = pd.DataFrame({'a': [0, 1, 2, 3, 4], 'b': [5, 6, 7, 8, 9]})
df

   a  b
0  0  5
1  1  6
2  2  7
3  3  8
4  4  9

In [59]:
# задаем разные заменяемые значения для каждого столбца. Это удобно так не нужно писать цикл, перебирающий все столбцы
df.replace({'a': 1, 'b': 8}, 100)

     a    b
0    0    5
1  100    6
2    2    7
3    3  100
4    4    9

In [60]:
# иллюстрируем замену значений с помощью метода pad 
s[0] = 10
s

0    10.0
1     1.0
2     2.0
3     3.0
4     2.0
5     4.0
dtype: float64

In [61]:
# заменяем элементы с индексными метками 1, 2, 3 используя для заполнения самое последнее значение, предшествующее меткам
s.replace([1, 2, 3], method = 'pad')

0    10.0
1    10.0
2    10.0
3    10.0
4    10.0
5     4.0
dtype: float64

In [62]:
# обратное заполнение
s.replace([1, 2, 3], method = 'bfill')

0    10.0
1     4.0
2     4.0
3     4.0
4     4.0
5     4.0
dtype: float64

__Применение функций для преобразования данных__

In [64]:
# при работе с данными мы можем применять различные функции используя метод .apply()
# иллюстрируем применение функций к каждому элементу объекта Series
s = pd.Series(np.arange(0, 5))
s.apply(lambda v: v * 2) # применяя данный метод к Series передается значение а не метка или индекс

0    0
1    2
2    4
3    6
4    8
dtype: int64

In [66]:
# Когда применяем к DataFrame по умолчание метод применяется к каждому столбцу
# проиллюстрируем операцию суммирования к каждому столбцу
df = pd.DataFrame(np.arange(12).reshape(4, 3),
                  columns = ['a', 'b', 'c'])
df

   a   b   c
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11

In [67]:
# вычисляем сумму элементов в каждом столбце
df.apply(lambda col: col.sum())

a    18
b    22
c    26
dtype: int64

In [68]:
# применение функции можно переключить на подсчет суммы элементов в каждой строке, указав axis = 1
df.apply(lambda row: row.sum(), axis = 1)

0     3
1    12
2    21
3    30
dtype: int64

In [70]:
# добавляем результат переумножения двух столбцов в качестве ного столбца
df['interum'] = df.apply(lambda r: r.a * r.b, axis = 1)
df

   a   b   c  interum
0  0   1   2        0
1  3   4   5       12
2  6   7   8       42
3  9  10  11       90

In [71]:
# а теперь получаем столбец result путем сложения столбца interum и с
df['result'] = df.apply(lambda r: r.interum + r.c, axis = 1)
df

   a   b   c  interum  result
0  0   1   2        0       2
1  3   4   5       12      17
2  6   7   8       42      50
3  9  10  11       90     101

In [72]:
# заменяем значение столбца а на сумму значений по строке
df.a = df.a + df.b + df.c
df

    a   b   c  interum  result
0   3   1   2        0       2
1  12   4   5       12      17
2  21   7   8       42      50
3  30  10  11       90     101

In [73]:
# если необходимо применить функцию к подмножеству данных, сначала нужно выполнить логический отбор, отфильтровав ненужное
df = pd.DataFrame(np.arange(0, 15).reshape(3, 5))
df.loc[1, 2] = np.nan
df

    0   1     2   3   4
0   0   1   2.0   3   4
1   5   6   NaN   8   9
2  10  11  12.0  13  14

In [76]:
# демонстрируем применение функции только к тем строкам, в которых нет значения Nan
df.dropna().apply(lambda x: x.sum(), axis = 1)

0    10.0
2    60.0
dtype: float64