## Pandas - Основная информация для DS

Pandas - инструмент для работы с табличными данными в Data Science. Pandas - Panel Datas.  
ВАЖНО: Pandas нужен будет для работы с построением рекомендательных систем;  
ВАЖНО: У Pandas отличная совместимость с NumPy;  
ВАЖНО: Работа с axis аналогична работе с axis в NumPy;  
ВАЖНО: У Pandas отличный функционал для применения к таблицам агрегаций, фильтров и т.д.;   
ВАЖНО: в методах аргумент inplace=True - сохраняет изменения в таблицу;


### Создание DataFrame

In [1]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Путь 1: создание DataFrame-а через словарь

slovar = {'name': ['Аня', 'Миша', 'Григорий', 'Айдын', 'Али'],
          'surname': ['Милохина', 'Блохин', 'Задорнов', 'Сёмкин', 'Cултанов'],
          'age': [23, 22, 26, 31, 21],
          'balance': [1500, 2000, 130000, 34500, 42000],
          'city': ['Москва', 'Питер', 'Лас-Вегас', 'Кострома', 'Москва'],
          'birthday': ['2000-08-12', '1950-01-10', '1999-02-12', '2000-08-12', '2000-01-17'],
          'group': [1, 5, 2, 2, 1]}


df = pd.DataFrame(data=slovar, columns=['name', 'surname', 'age', 'balance', 'city', 'birthday', 'group'])
df

Unnamed: 0,name,surname,age,balance,city,birthday,group
0,Аня,Милохина,23,1500,Москва,2000-08-12,1
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
4,Али,Cултанов,21,42000,Москва,2000-01-17,1


In [3]:
# Путь 2: cоздание DataFrame-a через список списков
a_df = pd.DataFrame(data=[['Али', 'Султанов', 'Программист'],
                         ['Асим', 'Ягубов', 'Радиотехник'],
                         ['Дарико', 'Кочишвили', 'Журналист']],
                    columns=['name', 'surname', 'specialization'])
a_df

Unnamed: 0,name,surname,specialization
0,Али,Султанов,Программист
1,Асим,Ягубов,Радиотехник
2,Дарико,Кочишвили,Журналист


### Важно для DS: OneHotEncoding - dummy переменные

In [4]:
ds_df = pd.DataFrame(data=[['Али', 'Красный'],
                           ['Асим', 'Cиний'],
                           ['Самир', 'Зеленый']], columns=['Имя', 'Цвет'])
ds_df

Unnamed: 0,Имя,Цвет
0,Али,Красный
1,Асим,Cиний
2,Самир,Зеленый


In [106]:
pd.get_dummies(ds_df['Цвет'])

Unnamed: 0,Cиний,Зеленый,Красный
0,False,False,True
1,True,False,False
2,False,True,False


### Общие методы работы с DataFrame

In [6]:
# Загрузка dataframe-a
# df = pd.read_csv(PATH)  # Из csv формата
# df = pd.read_excel(PATH)  # Из excel формата

# Сохрание dataframe-a
# df.to_csv('.../.csv')  # сохранение в csv формате
# df.to_excel('.../.excel')  # сохранение в excel формате 

In [7]:
# Узнать информацию о DataFrame:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   name      5 non-null      object
 1   surname   5 non-null      object
 2   age       5 non-null      int64 
 3   balance   5 non-null      int64 
 4   city      5 non-null      object
 5   birthday  5 non-null      object
 6   group     5 non-null      int64 
dtypes: int64(3), object(4)
memory usage: 412.0+ bytes


In [8]:
# Посмотреть массив колонок в dataframe-e
df.columns

Index(['name', 'surname', 'age', 'balance', 'city', 'birthday', 'group'], dtype='object')

In [9]:
# Посмотреть массив индексов в dataframe-e
df.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
# Переименовать колонки, inplace=True - сохранит все изменения
df.rename(columns={'name': 'NAME', 'surname': 'SURNAME'})

Unnamed: 0,NAME,SURNAME,age,balance,city,birthday,group
0,Аня,Милохина,23,1500,Москва,2000-08-12,1
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
4,Али,Cултанов,21,42000,Москва,2000-01-17,1


In [11]:
# astype - изменяет тип данных колонки
df['balance'] = df['balance'].astype('int32')  # Пример 1
df = df.astype({'balance': 'int32', 'group': 'int32'})  # Пример 2
df

Unnamed: 0,name,surname,age,balance,city,birthday,group
0,Аня,Милохина,23,1500,Москва,2000-08-12,1
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
4,Али,Cултанов,21,42000,Москва,2000-01-17,1


In [12]:
# Узнать первые 3 строки dataframe-а
df.head(3)

Unnamed: 0,name,surname,age,balance,city,birthday,group
0,Аня,Милохина,23,1500,Москва,2000-08-12,1
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2


In [13]:
# Узнать последние 3 строки dataframe-a
df.tail(3)

Unnamed: 0,name,surname,age,balance,city,birthday,group
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
4,Али,Cултанов,21,42000,Москва,2000-01-17,1


In [14]:
# Посотреть случайную выборку из dataframe-а (использовать если dataframe огромый)
df.sample(2)

Unnamed: 0,name,surname,age,balance,city,birthday,group
4,Али,Cултанов,21,42000,Москва,2000-01-17,1
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2


In [15]:
# Длина dataframe-a
len(df)

5

In [16]:
# Количество уникальных элементов в dataframe-e
len(df['name'].unique())

5

In [17]:
# Для каждого уникального зн-я выводит его кол-во - аналог (группировки + count)
df['balance'].value_counts()

balance
1500      1
2000      1
130000    1
34500     1
42000     1
Name: count, dtype: int64

In [18]:
# Нахождение кол-ва элементов в каждой группе
df.groupby('balance')['group'].count()

balance
1500      1
2000      1
34500     1
42000     1
130000    1
Name: group, dtype: int64

In [19]:
# Применение группировки для вычисления max, min, mean, ...
df.groupby('balance')['group'].max()

balance
1500      1
2000      5
34500     2
42000     1
130000    2
Name: group, dtype: int32

In [20]:
# Сортировка dataframe-a по возрастанию
# Можно также сортировать по нескольким значениям, для этого ['balance', 'group']
df.sort_values('balance')

Unnamed: 0,name,surname,age,balance,city,birthday,group
0,Аня,Милохина,23,1500,Москва,2000-08-12,1
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
4,Али,Cултанов,21,42000,Москва,2000-01-17,1
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2


In [21]:
# Сортировка dataframe-a по убыванию
df.sort_values('balance', ascending=False)

Unnamed: 0,name,surname,age,balance,city,birthday,group
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
4,Али,Cултанов,21,42000,Москва,2000-01-17,1
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
0,Аня,Милохина,23,1500,Москва,2000-08-12,1


In [22]:
# NLARGEST: вывод 5 элементов с самым большим значением balance
df.nlargest(5, 'balance')

Unnamed: 0,name,surname,age,balance,city,birthday,group
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
4,Али,Cултанов,21,42000,Москва,2000-01-17,1
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
0,Аня,Милохина,23,1500,Москва,2000-08-12,1


In [23]:
# NSMALLEST: вывод 5 элементов с самым маленьким значением balance
df.nsmallest(5, 'balance')

Unnamed: 0,name,surname,age,balance,city,birthday,group
0,Аня,Милохина,23,1500,Москва,2000-08-12,1
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
4,Али,Cултанов,21,42000,Москва,2000-01-17,1
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2


In [24]:
# Сдвиг всех строк на заданное кол-во, если не заполнять то будут внутри NaN-ы
df.shift(2, fill_value=0)

Unnamed: 0,name,surname,age,balance,city,birthday,group
0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0
2,Аня,Милохина,23,1500,Москва,2000-08-12,1
3,Миша,Блохин,22,2000,Питер,1950-01-10,5
4,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2


In [25]:
# Перевод в список
df['name'].tolist()

['Аня', 'Миша', 'Григорий', 'Айдын', 'Али']

In [26]:
# Копирование датафрейма
df_copied = df.copy()

In [27]:
# Выбор колонок с числовым типом данных
df.select_dtypes('int', 'float')

Unnamed: 0,age,balance,group
0,23,1500,1
1,22,2000,5
2,26,130000,2
3,31,34500,2
4,21,42000,1


In [28]:
# isin проверка вхождения элементов в столбец
df['age'].isin([23, 30])

0     True
1    False
2    False
3    False
4    False
Name: age, dtype: bool

### Работа с индексами

In [29]:
# reset_index: сбрасывает индекс
my_df = pd.DataFrame(data={'a': [1, 2, 3], 'b': [1, 2, 3]}, index=['one', 'two', 'three'])
my_df.reset_index(drop=True)

Unnamed: 0,a,b
0,1,1
1,2,2
2,3,3


In [30]:
# Узнать все существующие индексы
df.index

RangeIndex(start=0, stop=5, step=1)

In [31]:
# Изменить название столбца для индекса
df.index.set_names('my_index', inplace=True)

In [32]:
# Посмотреть название столбца для индекса
df.index.names

FrozenList(['my_index'])

In [33]:
# Сортировка таблицы по индексам. inplace=True - сохраняет изменения
df.sort_index()

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,Аня,Милохина,23,1500,Москва,2000-08-12,1
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
4,Али,Cултанов,21,42000,Москва,2000-01-17,1


In [34]:
# Сортировка таблицы по индексам, inplace=True - сохраняет изменения
df.sort_index(ascending=False)

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
4,Али,Cултанов,21,42000,Москва,2000-01-17,1
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
0,Аня,Милохина,23,1500,Москва,2000-08-12,1


In [35]:
# Сделать колонку индексом. inplace=True - сохраняет изменения 
df.set_index('name')

Unnamed: 0_level_0,surname,age,balance,city,birthday,group
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Аня,Милохина,23,1500,Москва,2000-08-12,1
Миша,Блохин,22,2000,Питер,1950-01-10,5
Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
Али,Cултанов,21,42000,Москва,2000-01-17,1


In [36]:
# Сделать несколько колонок индексами. inplace=True - сохраняет изменения
df.set_index(['name', 'surname'])

Unnamed: 0_level_0,Unnamed: 1_level_0,age,balance,city,birthday,group
name,surname,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Аня,Милохина,23,1500,Москва,2000-08-12,1
Миша,Блохин,22,2000,Питер,1950-01-10,5
Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
Али,Cултанов,21,42000,Москва,2000-01-17,1


In [37]:
# ГИПЕРВАЖНО:
# Создание мультииндекса  - ПЕРВЫЙ СПОСОБ 
# ВАЖНО: можно мультииндекс создать обычным методом через двойной список, но это тупо
muu_df = pd.DataFrame([['a', 1], ['b', 2], ['c', 3]], index= pd.MultiIndex.from_tuples((('ali', 'sultanov'),
                                                                                 ('asim', 'aagubov'),
                                                                                 ('dariko', 'kochishvili')),
                                                                                 names=["first_ind", "second_ind"]))

In [38]:
# МУЛЬТИИНДЕКС: Двойная Сортировка с мультииндексацией
muu_df.sort_index(level=['first_ind', 'second_ind'])

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1
first_ind,second_ind,Unnamed: 2_level_1,Unnamed: 3_level_1
ali,sultanov,a,1
asim,aagubov,b,2
dariko,kochishvili,c,3


In [39]:
# ВАЖНО
# Метод loc при мультииндексации - работает только с tuple !!!!
muu_df.loc[('ali', 'sultanov'), 1]

1

In [40]:
# ВАЖНО
# Метод loc при мультииндексации - срезы тоже работают !!!
muu_df.loc[('ali', 'sultanov'):('dariko', 'kochishvili'), 1].values

array([1, 2, 3], dtype=int64)

In [41]:
# ВАЖНО: 
# Метод iloc при мультииндексаци - принимает только один арумент мультииндекса - его номер!!!
muu_df.iloc[0, 1]

1

In [42]:
# ВАЖНО:
# Метод iloc при мультииндексации - срезы тоже работают!!!
muu_df.iloc[0:3, 1].values

array([1, 2, 3], dtype=int64)

### Работа с памятью

In [43]:
# memory_usage - сколько в байтах занимает каждая колонка
df.memory_usage()

Index       132
name         40
surname      40
age          40
balance      20
city         40
birthday     40
group        20
dtype: int64

In [44]:
# Снижение объёма занимаемой памяти датафрейма

def reduce_mem_usage(df: pd.DataFrame) -> pd.DataFrame:
    """Iterate through all the columns of a dataframe and modify the data type
        to reduce memory usage"""
    
    start_mem = df.memory_usage().sum() / 1024 ** 2
    print('Memory usage of DataFrame is {:.2f} MB'.format(start_mem))
    
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')

    end_mem = df.memory_usage().sum() / 1024**2
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))
    
    return df

### Работа с дубликатами

In [45]:
# Просмотр дубликатов (True/False) маска
df['city'].duplicated()

my_index
0    False
1    False
2    False
3    False
4     True
Name: city, dtype: bool

In [46]:
# Посмотреть дубликаты
df[df['city'].duplicated()]

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
4,Али,Cултанов,21,42000,Москва,2000-01-17,1


In [47]:
# Удаление дубликатов, inplace=True - сохранит изменение 
df.drop_duplicates('name')

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,Аня,Милохина,23,1500,Москва,2000-08-12,1
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
4,Али,Cултанов,21,42000,Москва,2000-01-17,1


### Работа с пропущенным значениями

In [48]:
# Проверка наличия NaN-ов
df.isna().sum()

name        0
surname     0
age         0
balance     0
city        0
birthday    0
group       0
dtype: int64

In [49]:
# Заполнение Nan-ов средним значением, inplace=True - сохраняет изменения
df['balance'].fillna(df['balance'].mean())

my_index
0      1500
1      2000
2    130000
3     34500
4     42000
Name: balance, dtype: int32

In [50]:
# Удаление nan-ов, inplace=True - сохраняет изменение
df['balance'].dropna()  

my_index
0      1500
1      2000
2    130000
3     34500
4     42000
Name: balance, dtype: int32

In [51]:
# Заполнение какого-то элемента NaN-ом
df['name'][0] = np.nan
df

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,,Милохина,23,1500,Москва,2000-08-12,1
1,Миша,Блохин,22,2000,Питер,1950-01-10,5
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2
4,Али,Cултанов,21,42000,Москва,2000-01-17,1


### Apply: Применение функции для всех элементов столбца

In [52]:
# apply работает, как пр-ло, медленно, надо стараться пользоваться другой функцией
# Применение функци ко всем элементам колонки (ЧЕРЕЗ lambda)
df['name'][0] = 'Аня'
df['bool'] = df['balance'].apply(lambda x: True if x > 1000 else False)
df

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,Аня,Милохина,23,1500,Москва,2000-08-12,1,True
1,Миша,Блохин,22,2000,Питер,1950-01-10,5,True
2,Григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2,True
3,Айдын,Сёмкин,31,34500,Кострома,2000-08-12,2,True
4,Али,Cултанов,21,42000,Москва,2000-01-17,1,True


In [53]:
# Применение функции ко всем элементам колонки (ЧЕРЕЗ def)

def register_change(element: str) -> None:
    """Функция перевода элементов в нижний регистр"""
    return element.lower()


df['name'] = df['name'].apply(register_change)
df

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,аня,Милохина,23,1500,Москва,2000-08-12,1,True
1,миша,Блохин,22,2000,Питер,1950-01-10,5,True
2,григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2,True
3,айдын,Сёмкин,31,34500,Кострома,2000-08-12,2,True
4,али,Cултанов,21,42000,Москва,2000-01-17,1,True


### Replace: Старое значение (одно) изменить на новое

In [54]:
# Число 1500 заменить на 10000
df['balance'].replace(1500, 10000)

my_index
0     10000
1      2000
2    130000
3     34500
4     42000
Name: balance, dtype: int32

### Map: Старые значения колонки изменить на новые по словарю

In [55]:
# Замена старых значений столбца на новые значения
old_new_change = {1: 500, 2: 1000, 3: 1500, 4: 2000, 5: 2500}
df['new_group'] = df['group'].map(old_new_change)
df

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,аня,Милохина,23,1500,Москва,2000-08-12,1,True,500
1,миша,Блохин,22,2000,Питер,1950-01-10,5,True,2500
2,григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,Сёмкин,31,34500,Кострома,2000-08-12,2,True,1000
4,али,Cултанов,21,42000,Москва,2000-01-17,1,True,500


### Объединение массивов: конкатенация, merge (аналог JOIN в SQL)

In [56]:
# Конкатенация двух массивов с одинаковыми столбцами
df1 = df[0: 2]
df2 = df[2: 4]
pd.concat((df1, df2), ignore_index=True)

Unnamed: 0,name,surname,age,balance,city,birthday,group,bool,new_group
0,аня,Милохина,23,1500,Москва,2000-08-12,1,True,500
1,миша,Блохин,22,2000,Питер,1950-01-10,5,True,2500
2,григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,Сёмкин,31,34500,Кострома,2000-08-12,2,True,1000


In [57]:
d1 = {'name': ['ali', 'asim', 'dariko'], 'ind': [1, 2, 3]}
d2 = {'surname': ['sultanov', 'yagubov', 'kochishvilli'], 'ind': [1, 2, 3]}
df1 = pd.DataFrame(data=d1)
df2 = pd.DataFrame(data=d2)

# SQL: LEFT JOIN, RIGHT JOIN - ПО АНАЛОГИИ
# АНАЛОГ: pd.merge(df1, df2, 'left', on='ind')
df1.merge(df2, 'left', on='ind')

Unnamed: 0,name,ind,surname
0,ali,1,sultanov
1,asim,2,yagubov
2,dariko,3,kochishvilli


### Обращение к элементам, индексация, фильтрация

In [58]:
# Взять только один столбец
df[['name']]

Unnamed: 0_level_0,name
my_index,Unnamed: 1_level_1
0,аня
1,миша
2,григорий
3,айдын
4,али


In [59]:
# Взять несколько столбцов
df[['name', 'surname']]

Unnamed: 0_level_0,name,surname
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,аня,Милохина
1,миша,Блохин
2,григорий,Задорнов
3,айдын,Сёмкин
4,али,Cултанов


In [60]:
# Применение среза
df[0: 2]

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,аня,Милохина,23,1500,Москва,2000-08-12,1,True,500
1,миша,Блохин,22,2000,Питер,1950-01-10,5,True,2500


In [61]:
# Применение фильтра
df[df['balance'] > 1000]

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,аня,Милохина,23,1500,Москва,2000-08-12,1,True,500
1,миша,Блохин,22,2000,Питер,1950-01-10,5,True,2500
2,григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,Сёмкин,31,34500,Кострома,2000-08-12,2,True,1000
4,али,Cултанов,21,42000,Москва,2000-01-17,1,True,500


In [62]:
# Применение фильтра с несколькими условиями and
df[(df['balance'] > 1000) & (df['group'] == 2)]

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2,григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,Сёмкин,31,34500,Кострома,2000-08-12,2,True,1000


In [63]:
# loc - умеет работать с метками, названиями колонок (а также с индексами)
# Также в loc можно встроить фильтр, изменять значение колонок
# loc лучше, чем iloc

In [64]:
# loc: Выбор по срезу строк и определенных столбцов 
df.loc[0 : 2, ['name', 'surname']]

Unnamed: 0_level_0,name,surname
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,аня,Милохина
1,миша,Блохин
2,григорий,Задорнов


In [65]:
# loc: Выбор по определенным строкам и по всем столбцам 
df.loc[[1, 3, 4], :]

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,миша,Блохин,22,2000,Питер,1950-01-10,5,True,2500
3,айдын,Сёмкин,31,34500,Кострома,2000-08-12,2,True,1000
4,али,Cултанов,21,42000,Москва,2000-01-17,1,True,500


In [66]:
# loc: Вывод одного столбца
df.loc[:, ['name']]

Unnamed: 0_level_0,name
my_index,Unnamed: 1_level_1
0,аня
1,миша
2,григорий
3,айдын
4,али


In [67]:
# loc: Вывод нескольких столбцов
df.loc[:, ['name', 'surname']]

Unnamed: 0_level_0,name,surname
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1
0,аня,Милохина
1,миша,Блохин
2,григорий,Задорнов
3,айдын,Сёмкин
4,али,Cултанов


In [68]:
# loc: Вывод конкретного элемента 3 - индекс эл-та
df.loc[3, 'name']

'айдын'

In [69]:
# loc: ВАЖНО: в loc можно применять и фильтры
df.loc[(df['balance'] >= 2000) & (df['balance'] <= 2500)]

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,миша,Блохин,22,2000,Питер,1950-01-10,5,True,2500


In [70]:
# loc: ВАЖНО: через loc можно изменять значение переменных. ПРИМЕР 1
df.loc[4, 'name'] = 'АЛИ'

In [71]:
# loc: ВАЖНО: через loc можно изменять значение переменных. ПРИМЕР 2
df.loc[4, ['name', 'surname']] = ['АЛИ', 'СУЛТАНОВ']
df

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,аня,Милохина,23,1500,Москва,2000-08-12,1,True,500
1,миша,Блохин,22,2000,Питер,1950-01-10,5,True,2500
2,григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,Сёмкин,31,34500,Кострома,2000-08-12,2,True,1000
4,АЛИ,СУЛТАНОВ,21,42000,Москва,2000-01-17,1,True,500


In [72]:
# iloc - умеет работать только с индексами (т.е. только с числовыми значениями)

In [73]:
# iloc: Выбор определенных строк через срез
df.iloc[2 : 4]

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2,григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,Сёмкин,31,34500,Кострома,2000-08-12,2,True,1000


In [74]:
# iloc: Выбор определенных строк и столбцов через срез
df.iloc[2: 5, 0: 3]

Unnamed: 0_level_0,name,surname,age
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,григорий,Задорнов,26
3,айдын,Сёмкин,31
4,АЛИ,СУЛТАНОВ,21


In [75]:
# iloc: Выбор определенных строк и столбцов
df.iloc[[1, 2], [3, 4]]

Unnamed: 0_level_0,balance,city
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2000,Питер
2,130000,Лас-Вегас


### Добавление элемента, строки, колонки в DataFrame

In [76]:
df

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,аня,Милохина,23,1500,Москва,2000-08-12,1,True,500
1,миша,Блохин,22,2000,Питер,1950-01-10,5,True,2500
2,григорий,Задорнов,26,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,Сёмкин,31,34500,Кострома,2000-08-12,2,True,1000
4,АЛИ,СУЛТАНОВ,21,42000,Москва,2000-01-17,1,True,500


In [77]:
# Добавление новой колонки (МЕТОД 1) - совместимость с np.array
age_arr = np.array([25, 31, 33, 21, 23], dtype='int8')
df['age'] = age_arr 
df

Unnamed: 0_level_0,name,surname,age,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,аня,Милохина,25,1500,Москва,2000-08-12,1,True,500
1,миша,Блохин,31,2000,Питер,1950-01-10,5,True,2500
2,григорий,Задорнов,33,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,Сёмкин,21,34500,Кострома,2000-08-12,2,True,1000
4,АЛИ,СУЛТАНОВ,23,42000,Москва,2000-01-17,1,True,500


In [78]:
# insert: Добавление новой колонки (МЕТОД 2) - через insert (ВСТАВЛЯЕТ СРАЗУ)
df.insert(3, 'english_level', ['B1', 'C1', 'C2', 'C1', 'C2'])
df

Unnamed: 0_level_0,name,surname,age,english_level,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
0,аня,Милохина,25,B1,1500,Москва,2000-08-12,1,True,500
1,миша,Блохин,31,C1,2000,Питер,1950-01-10,5,True,2500
2,григорий,Задорнов,33,C2,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,Сёмкин,21,C1,34500,Кострома,2000-08-12,2,True,1000
4,АЛИ,СУЛТАНОВ,23,C2,42000,Москва,2000-01-17,1,True,500


In [79]:
# # Добавление новой строки (если не указывать то будет NaN)
# new = {'name': 'Максим', 'surname': 'Кашерихин', 'age': 24, 'balance': 12000, 'city': 'Нижний Новгород', 'group': 1,
#        'bool':True, 'new_group': 1000}
# df = df.append(new, ignore_index=True)

### Удаление элемента, строки, колонки в DataFrame

In [80]:
# Удаление СТОЛБЦА в DataFrame. inplace - сохраняет изменение
df.drop(axis=1, columns='surname')

Unnamed: 0_level_0,name,age,english_level,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,аня,25,B1,1500,Москва,2000-08-12,1,True,500
1,миша,31,C1,2000,Питер,1950-01-10,5,True,2500
2,григорий,33,C2,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,21,C1,34500,Кострома,2000-08-12,2,True,1000
4,АЛИ,23,C2,42000,Москва,2000-01-17,1,True,500


In [81]:
# Удаление СТРОКИ в DataFrame. inplace - сохраняет изменение
df.drop(axis=0, index=0)

Unnamed: 0_level_0,name,surname,age,english_level,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,миша,Блохин,31,C1,2000,Питер,1950-01-10,5,True,2500
2,григорий,Задорнов,33,C2,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,Сёмкин,21,C1,34500,Кострома,2000-08-12,2,True,1000
4,АЛИ,СУЛТАНОВ,23,C2,42000,Москва,2000-01-17,1,True,500


### Вычисление статистик

In [82]:
# df.corr: Корреляция между столбцами
df.select_dtypes('int', 'float').corr()

Unnamed: 0,balance,group,new_group
balance,1.0,-0.230229,-0.230229
group,-0.230229,1.0,1.0
new_group,-0.230229,1.0,1.0


In [83]:
# Нахождение max, min, mean, median, quantile ... 
df['balance'].quantile(0.75)

42000.0

In [84]:
# Нахождение (ДЛЯ НЕСКОЛЬКИХ СТОЛБЦОВ) max, min, mean, median, quantile ...
df[['age', 'balance']].quantile(0.75)

age           31.0
balance    42000.0
Name: 0.75, dtype: float64

In [85]:
# Вычисление индекса минимального и максимального эл-та
print('Индекс min эл-та: ', df['balance'].argmin())
print('Индекс max эл-та: ', df['balance'].argmax())

Индекс min эл-та:  0
Индекс max эл-та:  2


In [86]:
# Кумулятивная сумма
df['balance'].cumsum()

my_index
0      1500
1      3500
2    133500
3    168000
4    210000
Name: balance, dtype: int32

In [87]:
# agg: применение агрегационных функций
df.select_dtypes(['int', 'float']).agg(['min', 'max', 'sum','mean'])

Unnamed: 0,balance,group,new_group
min,1500.0,1.0,500.0
max,130000.0,5.0,2500.0
sum,210000.0,11.0,5500.0
mean,42000.0,2.2,1100.0


### Математические операции над DataFrame

In [88]:
# Операция *, /, +, - на число
# df['balance'] = df['balance'] * 100  # Сохранение изменения
df['balance'] * 100

my_index
0      150000
1      200000
2    13000000
3     3450000
4     4200000
Name: balance, dtype: int32

In [89]:
# Сложение двух столбцов (по аналогии -, *, /)
df['balance'] + df['balance']

my_index
0      3000
1      4000
2    260000
3     69000
4     84000
Name: balance, dtype: int32

In [90]:
# Все положительные числа перевести в отрицательные
df['new_group'][df['new_group'] > 0] = -df['new_group']
df

Unnamed: 0_level_0,name,surname,age,english_level,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
0,аня,Милохина,25,B1,1500,Москва,2000-08-12,1,True,-500
1,миша,Блохин,31,C1,2000,Питер,1950-01-10,5,True,-2500
2,григорий,Задорнов,33,C2,130000,Лас-Вегас,1999-02-12,2,True,-1000
3,айдын,Сёмкин,21,C1,34500,Кострома,2000-08-12,2,True,-1000
4,АЛИ,СУЛТАНОВ,23,C2,42000,Москва,2000-01-17,1,True,-500


In [91]:
# Взять модуль от столбца
df['new_group'] = abs(df['new_group'])
df

Unnamed: 0_level_0,name,surname,age,english_level,balance,city,birthday,group,bool,new_group
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
0,аня,Милохина,25,B1,1500,Москва,2000-08-12,1,True,500
1,миша,Блохин,31,C1,2000,Питер,1950-01-10,5,True,2500
2,григорий,Задорнов,33,C2,130000,Лас-Вегас,1999-02-12,2,True,1000
3,айдын,Сёмкин,21,C1,34500,Кострома,2000-08-12,2,True,1000
4,АЛИ,СУЛТАНОВ,23,C2,42000,Москва,2000-01-17,1,True,500


In [92]:
# микс pandas + numpy = чудеса
# Взять квадратный корень от элементов столбца
df['sqrt_balance'] = np.sqrt(df['balance'])
df

Unnamed: 0_level_0,name,surname,age,english_level,balance,city,birthday,group,bool,new_group,sqrt_balance
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,аня,Милохина,25,B1,1500,Москва,2000-08-12,1,True,500,38.729833
1,миша,Блохин,31,C1,2000,Питер,1950-01-10,5,True,2500,44.72136
2,григорий,Задорнов,33,C2,130000,Лас-Вегас,1999-02-12,2,True,1000,360.555128
3,айдын,Сёмкин,21,C1,34500,Кострома,2000-08-12,2,True,1000,185.741756
4,АЛИ,СУЛТАНОВ,23,C2,42000,Москва,2000-01-17,1,True,500,204.939015


In [93]:
# микс pandas + numpy = чудеса
# Возвести в квадрат все элементы столбца
df['square_balance'] = np.power(df['balance'], 2)
df

Unnamed: 0_level_0,name,surname,age,english_level,balance,city,birthday,group,bool,new_group,sqrt_balance,square_balance
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,аня,Милохина,25,B1,1500,Москва,2000-08-12,1,True,500,38.729833,2250000
1,миша,Блохин,31,C1,2000,Питер,1950-01-10,5,True,2500,44.72136,4000000
2,григорий,Задорнов,33,C2,130000,Лас-Вегас,1999-02-12,2,True,1000,360.555128,-279869184
3,айдын,Сёмкин,21,C1,34500,Кострома,2000-08-12,2,True,1000,185.741756,1190250000
4,АЛИ,СУЛТАНОВ,23,C2,42000,Москва,2000-01-17,1,True,500,204.939015,1764000000


### Работа с временными данными

In [94]:
df['birthday']

my_index
0    2000-08-12
1    1950-01-10
2    1999-02-12
3    2000-08-12
4    2000-01-17
Name: birthday, dtype: object

In [95]:
df["birthday"] = pd.to_datetime(df["birthday"], format="%Y-%m-%d")

In [96]:
# Извлечение и запись года
df['year'] = df['birthday'].dt.year

In [97]:
# Извлечение и запись месяца
df['month'] = df['birthday'].dt.month

In [98]:
# Извлечение и запись дня
df['day'] = df['birthday'].dt.day

In [99]:
df

Unnamed: 0_level_0,name,surname,age,english_level,balance,city,birthday,group,bool,new_group,sqrt_balance,square_balance,year,month,day
my_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
0,аня,Милохина,25,B1,1500,Москва,2000-08-12,1,True,500,38.729833,2250000,2000,8,12
1,миша,Блохин,31,C1,2000,Питер,1950-01-10,5,True,2500,44.72136,4000000,1950,1,10
2,григорий,Задорнов,33,C2,130000,Лас-Вегас,1999-02-12,2,True,1000,360.555128,-279869184,1999,2,12
3,айдын,Сёмкин,21,C1,34500,Кострома,2000-08-12,2,True,1000,185.741756,1190250000,2000,8,12
4,АЛИ,СУЛТАНОВ,23,C2,42000,Москва,2000-01-17,1,True,500,204.939015,1764000000,2000,1,17


### Pivot table: сводные таблицы (по факту - удобная группировка со статистикой)

In [100]:
# В pivot_table столбец, по которой хотим произвести аналитику, является индексом, и по этому столбцу идёт группировка данных
# По умолчанию происходит усреднение для всех столбцов по соответствующим группам
pd.pivot_table(df, index='english_level', aggfunc='max')

Unnamed: 0_level_0,age,balance,birthday,bool,city,day,group,month,name,new_group,sqrt_balance,square_balance,surname,year
english_level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
B1,25,1500,2000-08-12,True,Москва,12,1,8,аня,500,38.729833,2250000,Милохина,2000
C1,31,34500,2000-08-12,True,Питер,12,5,8,миша,2500,185.741756,1190250000,Сёмкин,2000
C2,33,130000,2000-01-17,True,Москва,17,2,2,григорий,1000,360.555128,1764000000,СУЛТАНОВ,2000


In [101]:
# ВАЖНО
# Агрегирование можно делать сразу по нескольким столбцам
pd.pivot_table(df, index=['english_level', 'city'], aggfunc='max')

Unnamed: 0_level_0,Unnamed: 1_level_0,age,balance,birthday,bool,day,group,month,name,new_group,sqrt_balance,square_balance,surname,year
english_level,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
B1,Москва,25,1500,2000-08-12,True,12,1,8,аня,500,38.729833,2250000,Милохина,2000
C1,Кострома,21,34500,2000-08-12,True,12,2,8,айдын,1000,185.741756,1190250000,Сёмкин,2000
C1,Питер,31,2000,1950-01-10,True,10,5,1,миша,2500,44.72136,4000000,Блохин,1950
C2,Лас-Вегас,33,130000,1999-02-12,True,12,2,2,григорий,1000,360.555128,-279869184,Задорнов,1999
C2,Москва,23,42000,2000-01-17,True,17,1,1,АЛИ,500,204.939015,1764000000,СУЛТАНОВ,2000


In [102]:
# ВАЖНО
# Можно выбирать по каким столбцам смотреть агрегацию
pd.pivot_table(df, index='english_level', values='balance', aggfunc='max')

Unnamed: 0_level_0,balance
english_level,Unnamed: 1_level_1
B1,1500
C1,34500
C2,130000


In [103]:
# ВАЖНО
# Можно выбирать тип агрегации: sum, min, max, median...
pd.pivot_table(df, index='english_level', values='balance', aggfunc='max')

Unnamed: 0_level_0,balance
english_level,Unnamed: 1_level_1
B1,1500
C1,34500
C2,130000


In [104]:
# Агрегирующих функций может быть несколько:
pd.pivot_table(df, index='english_level', values=['balance', 'age'], aggfunc=['min', 'max'])

Unnamed: 0_level_0,min,min,max,max
Unnamed: 0_level_1,age,balance,age,balance
english_level,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
B1,25,1500,25,1500
C1,21,2000,31,34500
C2,23,42000,33,130000
