# Основы Pandas

Базы данных неотъемлимая часть любой системы, поэтому она должна быть адаптирована под любую задачу. Из всех популярных вариантов, наиболее подходящей к нашей работе оказался фреймворк <b>Pandas</b>, за счёт скорости работы, именовонности переменных и удобного восприятия записанных файлов без использования языков программирования

Из его основных возможностей выделим:<br>
1) Простая работа с .csv файлами
2) Производительность при фильтрации и сортировке хранилища
3) Интеграция с Python<br>

При этом стоит учесть неоптимизированное пересоздание хранилище при постоянном добавлении или удалении элементов, что явно продемонстрирую далее

## DataFrame и его структура

Библиотека работает со своим типом данных, названным <b>DataFrame</b>. Большая часть операций является методами данного класса. Для начала разберёмся, как создать такую переменную<br>
В первую очередь, импортируем всё с использованием сокращённого названия:

In [1]:
import pandas as pd

По своей сути <b>DataFrame</b> - словарь, значениями которого являются массивы Numpy, о которых поговорим в следующем модуле. Основное удобство - наличие индексов, подобно спискам, которые распространяются на все столбцы. Таким образом, можем работать со словарём как с двумерной матрицей значений, сравнивая столбцы и строки по их заголовкам и индексам. Создадим пустой <b>df</b>:

In [2]:
df = pd.DataFrame()
print(df)

Empty DataFrame
Columns: []
Index: []


Сразу видим пустые заголовки и явное сообщение, что хранилище пустое. Так как значения разбиваются по названиям, значит, формирование хранилища основанно на именнованных контейнерах - словарях

In [3]:
df = pd.DataFrame({})
print(df, '\n')

df = pd.DataFrame({'a': [1, 2], 'b': [3, 4]})
print(df)

Empty DataFrame
Columns: []
Index: [] 

   a  b
0  1  3
1  2  4


Передавая пустой словарь, получаем тот же результат. А вот с заполненным словарём картина совсем другая - отрисовалась матрица, столбцы которой точно повторяют переданный словарь, а строки проиндексированы с 0. Получается, мы можем попробовать обращаться к элементам матрицы по её "координатам"

In [6]:
print(df['b'][0])
print(df['b'][1])

3
4


Первым элементом указываем ключ (название столбца), вторым - индекс в контейнере. То есть, аналогично словарю! 
Как измениться ситуация, если передать словарь со значением в виде числа

In [7]:
df = pd.DataFrame({1: 2})

ValueError: If using all scalar values, you must pass an index

Не удалось создать индексы... А если так:

In [8]:
df = pd.DataFrame([{1: 2}])
print(df)

   1
0  2


Всё же pandas требует контейнеры в значениях, чтобы их можно было проиндексировать. Держим в голове эту особенность<br>
Покажу ещё один способ создания DF через ключи и значения:

In [9]:
keys = ['column_1', 'column_2']
values = [[1, 2], [3, 4], [5, 6]]
print(pd.DataFrame(values, columns=keys))

   column_1  column_2
0         1         2
1         3         4
2         5         6


Здесь мы создаём список списков, в которых хранится строка данных, а заголовки передаётся отдельным контейнером. Так удобно создавать пустые хранилища с разбиением по колонкам

На данный момент, мы видим, что новый тип данных точно не хуже стандартного словаря. Теперь перейдём к дополнительным возможностям. Во первых, мы можем произвести сортировку по элементов по столбцам:

In [10]:
df = pd.DataFrame({'Index': [4, 8, 3, 7, 1, 5, 2, 6], 'Name': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']})
print(df)

df = df.sort_values(by='Index')
print(df)

   Index Name
0      4    a
1      8    b
2      3    c
3      7    d
4      1    e
5      5    f
6      2    g
7      6    h
   Index Name
4      1    e
6      2    g
2      3    c
0      4    a
5      5    f
7      6    h
3      7    d
1      8    b


Метод `.sort_values(by, ignore_index=False, ascending=True, inplace=False, ...)` отвечает за сортировку. <i>ignore_index</i> при значении <i>True</i> перенумирует строки после сортировки, а <i>ascending</i> включит обратную сортировку при значении <i>False

In [11]:
print(df, '\n')
df = df.sort_values(by='Name', ascending=False, ignore_index=True)
print(df)

   Index Name
4      1    e
6      2    g
2      3    c
0      4    a
5      5    f
7      6    h
3      7    d
1      8    b 

   Index Name
0      6    h
1      2    g
2      5    f
3      1    e
4      7    d
5      3    c
6      8    b
7      4    a


Аргумент <i>inplace</i> делает замену на месте

In [12]:
print(df, '\n')
df.sort_values(by='Index', ascending=False, ignore_index=True, inplace=True)
print(df)

   Index Name
0      6    h
1      2    g
2      5    f
3      1    e
4      7    d
5      3    c
6      8    b
7      4    a 

   Index Name
0      8    b
1      7    d
2      6    h
3      5    f
4      4    a
5      3    c
6      2    g
7      1    e


В зависимости от указанной оси, можно производить перестановки как по строкам, так и по столбцам, но для первого будет нужен метод `.sort_index(axis=0, ignore_index=False, ascending=True, inplace=False, ...)`. Первый аргумент указывает ось сортировки {0: по индексам, 1: по названиям столбцов}, остальные аргументы аналогичны предыдущему методу

In [13]:
df.sort_values(by='Index', inplace=True)
print(df, '\n')
df.sort_index(inplace=True)
print(df, '\n')
df.sort_index(axis=1, ascending=False, inplace=True)
print(df)

   Index Name
7      1    e
6      2    g
5      3    c
4      4    a
3      5    f
2      6    h
1      7    d
0      8    b 

   Index Name
0      8    b
1      7    d
2      6    h
3      5    f
4      4    a
5      3    c
6      2    g
7      1    e 

  Name  Index
0    b      8
1    d      7
2    h      6
3    f      5
4    a      4
5    c      3
6    g      2
7    e      1


Более того, есть возможность производить сортировку по нескольким столбцам сразу. Для этого указываем их в виде списка

In [15]:
data = {
    'Имя': ['Иван', 'Мария', 'Пётр', 'Анна'],
    'Возраст': [25, 30, 18, 20],
    'Пол': ['Мужской', 'Женский', 'Мужской', 'Женский'],
    'Хобби': [['Футбол', 'чтение'], ['Кулинария', 'путешествия'], ['Спорт', 'музыка'], ['Чтение', 'рисование']]
}

df = pd.DataFrame(data)
print(df, '\n')

print(df.sort_values(by=['Пол', 'Имя'], ignore_index=True))
print(df.sort_values(by=['Имя', 'Пол'], ignore_index=True))

     Имя  Возраст      Пол                     Хобби
0   Иван       25  Мужской          [Футбол, чтение]
1  Мария       30  Женский  [Кулинария, путешествия]
2   Пётр       18  Мужской           [Спорт, музыка]
3   Анна       20  Женский       [Чтение, рисование] 

     Имя  Возраст      Пол                     Хобби
0   Анна       20  Женский       [Чтение, рисование]
1  Мария       30  Женский  [Кулинария, путешествия]
2   Иван       25  Мужской          [Футбол, чтение]
3   Пётр       18  Мужской           [Спорт, музыка]
     Имя  Возраст      Пол                     Хобби
0   Анна       20  Женский       [Чтение, рисование]
1   Иван       25  Мужской          [Футбол, чтение]
2  Мария       30  Женский  [Кулинария, путешествия]
3   Пётр       18  Мужской           [Спорт, музыка]


## Получение элементов по условию

Нам редко понадобится весь объём данных. Поэтому должны научиться извлекать только то, что удовлетворяет определённым условиям, как минимум индексам. Для этого используется метод `.loc`, возвращающий переданные названия строк. Ему в квадратных скобках передаётся условие и, опционально, требуемый столбец:

In [18]:
data = {
    'Имя': ['Иван', 'Мария', 'Пётр', 'Анна'],
    'Возраст': [25, 30, 18, 20],
    'Пол': ['Мужской', 'Женский', 'Мужской', 'Женский'],
    'Хобби': [['Футбол', 'чтение'], ['Кулинария', 'путешествия'], ['Спорт', 'музыка'], ['Чтение', 'рисование']]
}

df = pd.DataFrame(data)
print(df, '\n')

print(df['Возраст'] > 21, '\n')
print(df.loc[df['Возраст'] > 21], '\n')
print(df.loc[df['Возраст'] > 21, 'Имя'])
print(df.loc[df['Возраст'] > 21]['Имя'], '\n')

     Имя  Возраст      Пол                     Хобби
0   Иван       25  Мужской          [Футбол, чтение]
1  Мария       30  Женский  [Кулинария, путешествия]
2   Пётр       18  Мужской           [Спорт, музыка]
3   Анна       20  Женский       [Чтение, рисование] 

0     True
1     True
2    False
3    False
Name: Возраст, dtype: bool 

     Имя  Возраст      Пол                     Хобби
0   Иван       25  Мужской          [Футбол, чтение]
1  Мария       30  Женский  [Кулинария, путешествия] 

0     Иван
1    Мария
Name: Имя, dtype: object
0     Иван
1    Мария
Name: Имя, dtype: object 



Результатом применения метода является DataFrame из булевых значений, по которому выбираются необходимые элементы из хранилища.<br>
Можно применить более короткую форму

In [19]:
print(df[df['Возраст'] > 21], '\n')
print(df[df['Возраст'] > 21]['Имя'])

     Имя  Возраст      Пол                     Хобби
0   Иван       25  Мужской          [Футбол, чтение]
1  Мария       30  Женский  [Кулинария, путешествия] 

0     Иван
1    Мария
Name: Имя, dtype: object


Условие может быть более сложным:

In [20]:
print(df.loc[(df['Возраст'] > 21) | (df['Пол'] == 'Мужской')], '\n')
print(df.loc[(df['Возраст'] > 21) & (df['Пол'] == 'Мужской')], '\n')
print(df.loc[(df['Возраст'] >= 20) & (df['Пол'] != 'Мужской')])

     Имя  Возраст      Пол                     Хобби
0   Иван       25  Мужской          [Футбол, чтение]
1  Мария       30  Женский  [Кулинария, путешествия]
2   Пётр       18  Мужской           [Спорт, музыка] 

    Имя  Возраст      Пол             Хобби
0  Иван       25  Мужской  [Футбол, чтение] 

     Имя  Возраст      Пол                     Хобби
1  Мария       30  Женский  [Кулинария, путешествия]
3   Анна       20  Женский       [Чтение, рисование]


Операцию извлечения значений в определённом диапазоне можно выполнить методом `.between(left, right, inclusive='both')`. Он возвращает DataFrame без лишних (не входящих в диапазон) данных в виде булевых значений

In [21]:
data = {
    'Имя': ['Иван', 'Мария', 'Пётр', 'Анна'],
    'Возраст': [25, 30, 18, 20],
    'Пол': ['Мужской', 'Женский', 'Мужской', 'Женский'],
    'Хобби': [['Футбол', 'чтение'], ['Кулинария', 'путешествия'], ['Спорт', 'музыка'], ['Чтение', 'рисование']]
}

df = pd.DataFrame(data)
print(df, '\n')

filtered = df['Возраст'].between(20, 25)
print(filtered)

     Имя  Возраст      Пол                     Хобби
0   Иван       25  Мужской          [Футбол, чтение]
1  Мария       30  Женский  [Кулинария, путешествия]
2   Пётр       18  Мужской           [Спорт, музыка]
3   Анна       20  Женский       [Чтение, рисование] 

0     True
1    False
2    False
3     True
Name: Возраст, dtype: bool


Так удобно обращаться к выделенным частям хранилища, например, выбрали данные по первому столбцу, а по другому строим график

In [22]:
print(df[filtered], '\n')
print(df[filtered]['Имя'])

    Имя  Возраст      Пол                Хобби
0  Иван       25  Мужской     [Футбол, чтение]
3  Анна       20  Женский  [Чтение, рисование] 

0    Иван
3    Анна
Name: Имя, dtype: object


Всегда получаем DataFrame

## Операции между 2-мя DataFrame

### pd.merge

До сих пор мы создавали DataFrame из отдельного словаря. Очевидно, что каждый раз преобразовывать данные между типами неоптимально. Рассмотрим варианты объединения, стыковки и разбиения матриц<br>
Начнём с операций расширения. `pd.merge(left, right, how='inner', on=None, ...)` соединяет 2 DF на основе общих столбцов, указываемых в ключе <i>on</i><br>
<b>Для сохранения преобразования, записывайте его в переменную

In [23]:
import pandas as pd

df1 = pd.DataFrame({
    'Имя': ['Иван', 'Петр', 'Мария', 'Сергей'],
    'Возраст': [25, 30, 27, 40]
})
df2 = pd.DataFrame({
    'Имя': ['Петр', 'Анна', 'Сергей', 'Михаил'],
    'Рост': [180, 165, 175, 190]
})

pd.merge(df1, df2, on=['Имя'])

Unnamed: 0,Имя,Возраст,Рост
0,Петр,30,180
1,Сергей,40,175


Получили данные только для совпадающих имён в обоих словарях. За это отвечает ключ <i>how</i>. Он может принимать значения ["left", "right", "inner", "outer", "cross"]. По умолчанию "inner", что и означает использование совпадающих значений объединения. Посмотрим все:

In [24]:
print(pd.merge(df1, df2, on=['Имя'], how='inner'), '\n')
print(pd.merge(df1, df2, on=['Имя'], how='left'), '\n')
print(pd.merge(df1, df2, on=['Имя'], how='right'), '\n')
print(pd.merge(df1, df2, on=['Имя'], how='outer'))

      Имя  Возраст  Рост
0    Петр       30   180
1  Сергей       40   175 

      Имя  Возраст   Рост
0    Иван       25    NaN
1    Петр       30  180.0
2   Мария       27    NaN
3  Сергей       40  175.0 

      Имя  Возраст  Рост
0    Петр     30.0   180
1    Анна      NaN   165
2  Сергей     40.0   175
3  Михаил      NaN   190 

      Имя  Возраст   Рост
0    Анна      NaN  165.0
1    Иван     25.0    NaN
2   Мария     27.0    NaN
3  Михаил      NaN  190.0
4    Петр     30.0  180.0
5  Сергей     40.0  175.0


"left", "right" задают столбец значений, который и будет в результате. Все неизвестные данные заменяются на <i>NaN</i>. "outer" - противоположность "inner", удивительно..., отображает все встречаемые ключи<br>
Что насчёт "cross"? Он отображает все возможные комбинации строк объединяемых DF:

In [25]:
df1 = pd.DataFrame({
    'Имя': ['Иван', 'Петр', 'Мария', 'Сергей'],
    'Возраст': [25, 30, 27, 40],
    'Рост': [175, 180, 165, 170],
    'Вес': [75, 80, 65, 70]
})

df2 = pd.DataFrame({
    'Имя': ['Петр', 'Анна', 'Сергей', 'Михаил'],
    'Возраст': [30, 25, 40, 35],
    'Рост': [180, 165, 175, 190],
    'Зарплата': [50000, 45000, 60000, 55000]
})

pd.merge(df1, df2, how='cross')

Unnamed: 0,Имя_x,Возраст_x,Рост_x,Вес,Имя_y,Возраст_y,Рост_y,Зарплата
0,Иван,25,175,75,Петр,30,180,50000
1,Иван,25,175,75,Анна,25,165,45000
2,Иван,25,175,75,Сергей,40,175,60000
3,Иван,25,175,75,Михаил,35,190,55000
4,Петр,30,180,80,Петр,30,180,50000
5,Петр,30,180,80,Анна,25,165,45000
6,Петр,30,180,80,Сергей,40,175,60000
7,Петр,30,180,80,Михаил,35,190,55000
8,Мария,27,165,65,Петр,30,180,50000
9,Мария,27,165,65,Анна,25,165,45000


### pd.concat

`pd.concat(df's, axis=0, join='outer', ignore_index=False, sort=False, keys=[])` объединяет DF вдоль выбранной оси<br>
<b>Для сохранения преобразования, записывайте его в переменную

In [26]:
import pandas as pd

df1 = pd.DataFrame({
    'Имя': ['Иван', 'Петр', 'Мария', 'Сергей'],
    'Возраст': [25, 30, 27, 40],
    'Рост': [175, 180, 165, 170],
    'Вес': [75, 80, 65, 70]
})

df2 = pd.DataFrame({
    'Имя': ['Петр', 'Анна', 'Сергей', 'Михаил'],
    'Возраст': [30, 25, 40, 35],
    'Рост': [180, 165, 175, 190],
    'Зарплата': [50000, 45000, 60000, 55000]
})

pd.concat([df1, df2])

Unnamed: 0,Имя,Возраст,Рост,Вес,Зарплата
0,Иван,25,175,75.0,
1,Петр,30,180,80.0,
2,Мария,27,165,65.0,
3,Сергей,40,170,70.0,
0,Петр,30,180,,50000.0
1,Анна,25,165,,45000.0
2,Сергей,40,175,,60000.0
3,Михаил,35,190,,55000.0


Объединяемые элементы перечисляются в списке, чтобы они были единым аргументом. Так как по умолчанию ключ <i>join</i> принимает значение "outer", то все неизвестные значения заменены NaN

In [27]:
pd.concat([df1, df2], join='inner', ignore_index=True)

Unnamed: 0,Имя,Возраст,Рост
0,Иван,25,175
1,Петр,30,180
2,Мария,27,165
3,Сергей,40,170
4,Петр,30,180
5,Анна,25,165
6,Сергей,40,175
7,Михаил,35,190


Операцию можно выполнить вдоль другой оси, но в отличие от <b>pd.merge()</b>, ключи не объединяются

In [28]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,Имя,Возраст,Рост,Вес,Имя.1,Возраст.1,Рост.1,Зарплата
0,Иван,25,175,75,Петр,30,180,50000
1,Петр,30,180,80,Анна,25,165,45000
2,Мария,27,165,65,Сергей,40,175,60000
3,Сергей,40,170,70,Михаил,35,190,55000


Полезным элементом может оказаться добавление меток, разделяющих словари

In [29]:
result = pd.concat([df1, df2], keys=['a', 'b'], ignore_index=False)
result

Unnamed: 0,Unnamed: 1,Имя,Возраст,Рост,Вес,Зарплата
a,0,Иван,25,175,75.0,
a,1,Петр,30,180,80.0,
a,2,Мария,27,165,65.0,
a,3,Сергей,40,170,70.0,
b,0,Петр,30,180,,50000.0
b,1,Анна,25,165,,45000.0
b,2,Сергей,40,175,,60000.0
b,3,Михаил,35,190,,55000.0


In [30]:
result.loc['b']

Unnamed: 0,Имя,Возраст,Рост,Вес,Зарплата
0,Петр,30,180,,50000.0
1,Анна,25,165,,45000.0
2,Сергей,40,175,,60000.0
3,Михаил,35,190,,55000.0


### df.join

`.join(other, on, how='left', sort=False,...)` объединяет по индексам, аналогично `pd.merge`, но является методом, а не функцией

In [31]:
import pandas as pd

df1 = pd.DataFrame({
    'Имя': ['Иван', 'Петр', 'Мария', 'Сергей'],
    'Возраст': [25, 30, 27, 40],
    'Рост': [175, 180, 165, 170]
})

df2 = pd.DataFrame({
    'Зарплата': [50000, 45000, 60000, 55000]
})

df1.join(df2)

Unnamed: 0,Имя,Возраст,Рост,Зарплата
0,Иван,25,175,50000
1,Петр,30,180,45000
2,Мария,27,165,60000
3,Сергей,40,170,55000


Важно отметить: нужно избегать одинаково названных столбцов. Остальные аргументы работают аналогично `pd.merge`, так как внутри она же и вызывается!

In [32]:
df1 = pd.DataFrame({
    'Имя': ['Иван', 'Петр', 'Мария', 'Сергей'],
    'Возраст': [25, 30, 27, 40],
    'Рост': [175, 180, 165, 170]
})

df2 = pd.DataFrame({
    'Зарплата': [50000, 45000, 60000]
})

df1.join(df2, how='inner')

Unnamed: 0,Имя,Возраст,Рост,Зарплата
0,Иван,25,175,50000
1,Петр,30,180,45000
2,Мария,27,165,60000


In [33]:
df1 = pd.DataFrame({
    'Имя': ['Иван', 'Петр', 'Мария', 'Сергей', 'Валера'],
    'Возраст': [25, 30, 27, 40, 27],
    'Рост': [175, 180, 165, 170, 165]
})

df2 = pd.DataFrame({
    'Зарплата': [50000, 45000, 60000, 45000]
}, index=df1['Возраст'][:4])
print(df2)

df1.join(df2, on='Возраст')

         Зарплата
Возраст          
25          50000
30          45000
27          60000
40          45000


Unnamed: 0,Имя,Возраст,Рост,Зарплата
0,Иван,25,175,50000
1,Петр,30,180,45000
2,Мария,27,165,60000
3,Сергей,40,170,45000
4,Валера,27,165,60000


В последнем примере <i>df2</i> задаётся с другими индексами, которые соответсвуют значениям из графы "Возраст", поэтому присоединение по ключу "Возраст", позволяет начислять зарплату по возрасту без необходимости прописывать её каждому участнику

### df.assign

Позволяет добавлять столбцы к DataFrame. Ключевым аргументом передаётся его название, а самим аргументом - значения

In [34]:
df1 = pd.DataFrame({
    'Имя': ['Иван', 'Петр', 'Мария', 'Сергей', 'Валера'],
    'Возраст': [25, 30, 27, 40, 27],
    'Рост': [175, 180, 165, 170, 165]
})

df1.assign(Зарплата=[50000, 45000, 60000, 45000, 50000])

Unnamed: 0,Имя,Возраст,Рост,Зарплата
0,Иван,25,175,50000
1,Петр,30,180,45000
2,Мария,27,165,60000
3,Сергей,40,170,45000
4,Валера,27,165,50000


### df.combine_first

Последнее объединение, что мы рассмотрим. `.combine_first(other)` дополняет DF, к которому применён метод, недостоющими значениями из второго

In [35]:
import pandas as pd
from numpy import nan

df1 = pd.DataFrame({
    'Имя': ['Иван', 'Петр', 'Мария', 'Сергей'],
    'Возраст': [nan, 30, nan, 40],
    'Рост': [175, 180, 165, 170],
    'Вес': [75, 80, 65, 70]
})

df2 = pd.DataFrame({
    'Имя': ['Иван', 'Петр', 'Мария', 'Сергей'],
    'Возраст': [25, 30, 27, 40],
})

df1.combine_first(df2)

Unnamed: 0,Вес,Возраст,Имя,Рост
0,75,25.0,Иван,175
1,80,30.0,Петр,180
2,65,27.0,Мария,165
3,70,40.0,Сергей,170


Отсутствующие данные возраста загрузились из другого DF

## df.iloc

Уже всречали схожый по названию метод `.loc()`, отличие в работе с индексами. Он позволяет получать строки по индексам и срезами разбить DF на отдельные части:

In [36]:
import pandas as pd

data = {
    'Город': ['Москва', 'Санкт-Петербург', 'Казань', 'Нижний Новгород', 'Екатеринбург', 'Новосибирск', 'Красноярск', 'Самара'],
    'Население': [13, 6, 1, 2, 5, 4, 3, 7]
}

df = pd.DataFrame(data)
df.iloc[:5]

Unnamed: 0,Город,Население
0,Москва,13
1,Санкт-Петербург,6
2,Казань,1
3,Нижний Новгород,2
4,Екатеринбург,5


In [37]:
df.iloc[:5:2]

Unnamed: 0,Город,Население
0,Москва,13
2,Казань,1
4,Екатеринбург,5


## Группировка

Перейдём к более интересным вариантам. Представим эксперимент, в ходе которго некоторые параметры фиксируются (температура поле, ...). Значит, нас интересуют измерения при отдельных значениях данных постоянных. Метод `.groupby(by, ...)` сортирует df по группам, к которым можно применить ряд операций: суммирование элементов группы(`.sum()`), нахождение среднего(`.mean()`), их количества(`.count()`), минимума(`.min()`) и максимума(`.max()`)

In [38]:
data = {'H': [1, 1, 1, 1, 2, 2, 2, 3],
        'T': [56, 56, 60, 60, 60, 60, 60, 76],
        'U': [0, 0, 0.1, 0.12, 0.5, 0.52, 0.54, 1.3]}
df = pd.DataFrame(data)
print(df, '\n')

print(df.groupby(['H', 'T']).mean(), '\n')
print(df.groupby(['H', 'T']).mean()['U'])

   H   T     U
0  1  56  0.00
1  1  56  0.00
2  1  60  0.10
3  1  60  0.12
4  2  60  0.50
5  2  60  0.52
6  2  60  0.54
7  3  76  1.30 

         U
H T       
1 56  0.00
  60  0.11
2 60  0.52
3 76  1.30 

H  T 
1  56    0.00
   60    0.11
2  60    0.52
3  76    1.30
Name: U, dtype: float64


Применив метод к двум столбцам, получили результат операции для каждой вариации параметров. Обратите внимание - поле и температура стали индексами<br>
При необходимости можно применять несколько методов к одной группе или отдельно к столбцам методом `.agg()`:

In [39]:
print(df.groupby('H').agg({'T': 'mean',
                           'U': 'max'}), '\n')
print(df.groupby('H').agg({'T': ['mean', 'min', 'max']}))

      T     U
H            
1  58.0  0.12
2  60.0  0.54
3  76.0  1.30 

      T        
   mean min max
H              
1  58.0  56  60
2  60.0  60  60
3  76.0  76  76


Здесь же упомянем об `.apply(func, axis=0)`, в котором можем передать функцию, применяемую к каждой группе. При <i>axis=1</i> можно выполнять построчные опреации:

In [40]:
def error(group):
    return (group['U'].max() - group['U'].min())/2

grouped = df.groupby(['H', 'T'])
print(grouped[['U']].apply(error))

df.apply(lambda row: row['H']*row['T'], axis=1)

H  T 
1  56    0.00
   60    0.01
2  60    0.02
3  76    0.00
dtype: float64


0     56.0
1     56.0
2     60.0
3     60.0
4    120.0
5    120.0
6    120.0
7    228.0
dtype: float64

## Маскировка

Порой нам требуется зафиксировать попадание значения в какой-то диапазон или выход из него, причём нам не важно насколько. В таких случаях пригодятся методы `.where(condition, other, inplace=False,...)`, `.mask(condition, other, inplace=False,...)`. Они проверяют каждое значение на соответсвие условию и в случаи несовпадения или совпадения соответственно заменяют его на NaN или указанное вторым аргументом число 

In [44]:
data = {'H': [1, 1, 1, 1, 2, 2, 2, 3],
        'T': [56, 56, 60, 60, 60, 60, 60, 76],
        'U': [0, 0, 0.1, 0.12, 0.5, 0.52, 0.54, 1.3]}
df = pd.DataFrame(data)
print(df, '\n')

df.mask(df['U'] > 0.5, 2, inplace=True)
print(df, '\n')
df.where(df['U'] <= 0.5, 1, inplace=True)
print(df)

   H   T     U
0  1  56  0.00
1  1  56  0.00
2  1  60  0.10
3  1  60  0.12
4  2  60  0.50
5  2  60  0.52
6  2  60  0.54
7  3  76  1.30 

   H   T     U
0  1  56  0.00
1  1  56  0.00
2  1  60  0.10
3  1  60  0.12
4  2  60  0.50
5  2   2  2.00
6  2   2  2.00
7  2   2  2.00 

   H   T     U
0  1  56  0.00
1  1  56  0.00
2  1  60  0.10
3  1  60  0.12
4  2  60  0.50
5  1   1  1.00
6  1   1  1.00
7  1   1  1.00
