# Импортирование библиотек

In [2]:
import pandas as pd
import numpy as np

# Структура данных Series

### Создание Series

In [2]:
# Из списка
pd.Series([1, 2, 3, 4], index="one, two, three, four".split(', '))

one      1
two      2
three    3
four     4
dtype: int64

In [3]:
# Из словаря с заданием имени
pd.Series({1: 'one', 2: 'two', 3: 'three', 4: 'four'}, name='my_series')

1      one
2      two
3    three
4     four
Name: my_series, dtype: object

In [4]:
# Из скаляра
pd.Series(10, index=['a'])

a    10
dtype: int64

In [5]:
# Из numpy-array
arr = np.arange(0, 1, 0.1)
pd.Series(arr)

0    0.0
1    0.1
2    0.2
3    0.3
4    0.4
5    0.5
6    0.6
7    0.7
8    0.8
9    0.9
dtype: float64

In [59]:
# Задание индекса
series = pd.Series([1, 2, 3, 4], index="one, two, three, four".split(', '))

### Основные свойства Series


In [6]:
# .index (возвращает индекс структуры)
series = pd.Series([1, 2, 3, 4], index="one, two, three, four".split(', '))
series.index

Index(['one', 'two', 'three', 'four'], dtype='object')

In [7]:
# .values (возвращает массив NumPy со всеми значениями структуры)
series = pd.Series([1, 2, 3, 4], index="one, two, three, four".split(', '))
series.values

array([1, 2, 3, 4])

In [18]:
# Размер и форма
print(len(series))
print(series.size)
print(series.shape) #будет иметь смысл для DataFrame,для series всегда одно значение

4
4
(4,)


In [33]:
# Тип данных
series = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9], index=list('abcdefghi'))
series.dtype

dtype('int64')

### Ограничение размера


In [9]:
# Первые n элементов
series = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9], index=list('abcdefghi'))
series.head(4) # Можно вызвать без значения, по умолчанию n = 10

a    1
b    2
c    3
d    4
dtype: int64

In [10]:
# Последние n элементов
series = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9], index=list('abcdefghi'))
series.tail(4)

f    6
g    7
h    8
i    9
dtype: int64

In [11]:
# Выбрать конкретные знаения по позиции
series = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8], index=list('abcdefghi'))
series.take((1, 4, 5)) # Порядковые имена элементов серии

b    1
e    4
f    5
dtype: int64

### Работа с индексами

##### Множественные индексы

In [12]:
# из кортежа
tuples = [('one', 'foo'),
        ('one', 'bar'),
        ('two', 'foo'),
        ('two', 'bar')]
index = pd.MultiIndex.from_tuples(tuples)
pd.Series([1, 2, 3, 4], index=index)

one  foo    1
     bar    2
two  foo    3
     bar    4
dtype: int64

In [13]:
# из списка Iterable'ов
iterables = [['one', 'two'], ['foo', 'bar']]
#сопоставление всех элементов первого списка, всем элементам второго
index = pd.MultiIndex.from_product(iterables)
pd.Series([1, 2, 3, 4], index=index)

one  foo    1
     bar    2
two  foo    3
     bar    4
dtype: int64

##### Изменение индекса

In [14]:
#изменение in-place
series = pd.Series([1, 2, 3, 4, 5])
series.index = list('abcde')
series

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [15]:
# .reindex() возвращает новый объект, меняя порядок индексов
#если нового индекса нет в старом списке, подставится значение NaN
series = pd.Series([1, 2, 3, 4, 5], index=list('abcde'))
series.reindex(list('edcbA'))

e    5.0
d    4.0
c    3.0
b    2.0
A    NaN
dtype: float64

In [16]:
series = pd.Series([1, 2, 3, 4, 5], index=list('abcde'))
#можно выбрать значение, которым заполнить NaN
series.reindex(list('edcbA'), fill_value=0)

e    5
d    4
c    3
b    2
A    0
dtype: int64

### Полезные методы series

In [17]:
series = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8], index=list('abcdefghi'))
series.describe() #выводит описательные статистики Series

count    9.000000
mean     4.000000
std      2.738613
min      0.000000
25%      2.000000
50%      4.000000
75%      6.000000
max      8.000000
dtype: float64

In [18]:
series = pd.Series(['a', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'd', 'd'])
series.value_counts() #количество каждого элемента в серии

d    4
c    3
b    2
a    1
dtype: int64

In [19]:
series = pd.Series([-3, -2, -1, 0, 1, 2, 3])
series.abs() #возвести все значения в абсолют

0    3
1    2
2    1
3    0
4    1
5    2
6    3
dtype: int64

In [32]:
series = pd.Series([-3, -2, -1, 0, 1, 2, 3])
print(series.sum())#cумма значений
print(series.mean())#среднее значение
print(series.min())#минимальное значение
print(series.max())#максимальное значение

0
0.0
-3
3


In [53]:
series = pd.Series([-3, -2, -1, 0, 1, 2, 3])
# .any() возвращает True, если хотя бы один элемент True
# .all() # возвращает True, если все элементы True
print((series > 0).any())
print((series > 0).all())

True
False


In [20]:
# Квантили с конкретным процентом
series = pd.Series(np.arange(0, 10, 0.01))
print(series.quantile(0.5))
print(series.quantile(0.95))

4.995
9.490499999999999


In [40]:
series = pd.Series([1, 2, 2, 3, 3, 4, 4, 5, 5])
print(series.unique())#все уникальные значения
print(series.nunique())#количество уникальных значений

[1 2 3 4 5]
5


In [22]:
# Изменение типа данных Series
series = pd.Series(list('123'))
series.astype('int') #string -> int

0    1
1    2
2    3
dtype: int64

In [43]:
series = pd.Series([3, 2, 1, 0, 1, 2, 3], index=list('abcdefg'))
series.idxmin()#индекс минимального значения
series.idxmax()#индекс максимального значения

'a'

In [47]:
series = pd.Series([3, 2, 1, 0, 1, 2, 3])
series.isin([1, 2, 3]) #проверить каждое значение на принадлежность набору данных

0     True
1     True
2     True
3    False
4     True
5     True
6     True
dtype: bool

In [50]:
series = pd.Series([1, 2, 3, 4])
series.prod() #произведение элементов выборки

24

In [51]:
series = pd.Series([3, 2, 1, 0, 1, 2, 3])
series.to_numpy() #преобразование в numpy массив

array([3, 2, 1, 0, 1, 2, 3])

In [36]:
series = pd.Series([3, 2, 1, 0, 1, 2, 3])
print(series.idxmax()) #индекс максимального значения
print(series.idxmin()) #индекс минимального значения

0
3


### Получение данных из Series

In [25]:
# .iloc (получение данных по позиции)
series = pd.Series([3, 2, 1, 0, 1, 2, 3], index=list('abcdefg'))
series.iloc[0]

3

In [26]:
series = pd.Series([3, 2, 1, 0, 1, 2, 3], index=list('abcdefg'))
# можно доставать сразу несколько
series.iloc[[1, 2, 3, 4]]

b    2
c    1
d    0
e    1
dtype: int64

In [62]:
# .loc (получение данных по индексу)
series = pd.Series([3, 2, 1, 0, 1, 2, 3], index=list('abcdabc'))
#выводятся все индексы, которые подходят под запрос
series.loc[['a', 'b', 'c', 'd']]

a    3
a    1
b    2
b    2
c    1
c    3
d    0
dtype: int64

In [27]:
# Оператор [] c нецелочисленным индексом
series = pd.Series([1, 2, 3, 4, 5], index=list('abcde'))
series

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [59]:
# достает по позиции
series[1]

2

In [61]:
# достает по индексу
series['b']

2

In [62]:
# Оператор [] c целочисленным индексом
series = pd.Series([1, 2, 3, 4, 5], index=[1, 2, 3, 4, 5])
series

1    1
2    2
3    3
4    4
5    5
dtype: int64

In [28]:
# достает только по индексу
series[1]

2

In [None]:
# series[6] - ошибка

### Изменение данных Series

In [32]:
# По индексу
series = pd.Series([1, 2, 3, 4, 5, 6, 7], index=list('abcdeab'))
# изменяются также все индексы, которые подходят под запрос
series.loc['a'] = 15
series

a    15
b     2
c     3
d     4
e     5
a    15
b     7
dtype: int64

In [31]:
# По позиции
series = pd.Series([1, 2, 3, 4, 5], index=[1, 2, 3, 4, 5])
series.iloc[1] = 10
series

1     1
2    10
3     3
4     4
5     5
dtype: int64

In [30]:
# Оператор []
series = pd.Series([1, 2, 3, 4, 5, 6, 7], index=list('abcdeab'))
series['a'] = 10
series

a    10
b     2
c     3
d     4
e     5
a    10
b     7
dtype: int64

### Срезы Series

##### Срезы по позиции

In [None]:
series = pd.Series([1, 2, 3, 4, 5], index=[1, 2, 3, 4, 5])
series.iloc[-1]

In [68]:
series = pd.Series([1, 2, 3, 4, 5], index=[1, 2, 3, 4, 5])
series.iloc[1::2] #каждое второе начиная с 1-ой позиции (четные позиции)

2    2
4    4
dtype: int64

In [69]:
series = pd.Series([1, 2, 3, 4, 5], index=[1, 2, 3, 4, 5])
series.iloc[1:3:] #с 1 по 3 позицию (правая позиция не включается)

2    2
3    3
dtype: int64

##### Срезы по индексу

In [72]:
series = pd.Series([1, 2, 3, 4, 5], index=list('abcde'))
series.loc['a':'d'] #с 'a' по 'd' (правая позиция включается)

a    1
b    2
c    3
d    4
dtype: int64

In [74]:
series = pd.Series([1, 2, 3, 4, 5], index=list('abcde'))
series.loc['a':'d':2] #также можно задавать шаг

a    1
c    3
dtype: int64

### Фильтрация значений Series

In [33]:
# Можно использовать логические выражения для фильтрации значений Series
series = pd.Series([1, 2, 3, 4, 5], index=list('abcde'))
series[series < 3]

a    1
b    2
dtype: int64

In [34]:
# Можно фильтровать по нескольким условиям
series = pd.Series([1, 2, 3, 4, 5], index=list('abcde'))
series[(series > 1) & (series <= series.mean())] #скобки обязательны из-за приоритета операторов

b    2
c    3
dtype: int64

### Математические операции над Series

##### Операции с числами

Series поддерживает все математические операции Python, если его тип данных их поддерживает эту операцию


In [98]:
series = pd.Series([1, 2, 3, 4, 5])
series / 2 

0    0.5
1    1.0
2    1.5
3    2.0
4    2.5
dtype: float64

In [95]:
series + 10

0    11
1    12
2    13
3    14
4    15
dtype: int64

In [96]:
series ** 2

0     1
1     4
2     9
3    16
4    25
dtype: int64

In [99]:
series = pd.Series(list('abcde'))
series * 4

0    aaaa
1    bbbb
2    cccc
3    dddd
4    eeee
dtype: object

#####  Математические операции с другими Series

In [260]:
series1 = pd.Series([1, 2, 3, 4, 5], index=list('abcde'))
series2 = pd.Series([1, 2, 3, 4, 5], index=list('abcdf'))
series1 + series2

a     2.0
b     4.0
c     6.0
d     8.0
e    15.0
f    15.0
dtype: float64

In [104]:
series1 = pd.Series([1, 2, 3, 4, 5], index=list('abcde'))
series2 = pd.Series([1, 2, 3, 4, 5], index=list('bcdef'))
series1 * series2

a     NaN
b     2.0
c     6.0
d    12.0
e    20.0
f     NaN
dtype: float64

In [109]:
series1 = pd.Series(list('abcde'), index=list('abcde'))
series2 = pd.Series(list('abcde'), index=list('abcde'))
series1 + series2 #работает со строками

a    aa
b    bb
c    cc
d    dd
e    ee
dtype: object

Помимо обычных математических операций, Series поддерживает их аналоговые математические методы, у которых есть дополнительный параметр fill_value – значение, которым заполнить возникающие при слиянии NaN значения (если в обоих структурах значение по индексу – NaN, то в результирующую Series также войдет NaN)
|Математическая операция Python|Метод-аналог Series|
|-|-|
|+|add|
|-|sub|
|/|div|
|*|mul|
|//|floordiv|
|%|mod|
|**|pow|

In [37]:
series1 = pd.Series(list('abcde'), index=list('abcde'))
series2 = pd.Series(list('abcde'), index=list('abcde'))
series1.add(series2, fill_value=10)

a    aa
b    bb
c    cc
d    dd
e    ee
dtype: object

### Сортировка Series

##### .sort_values()
* *ascending* – если True, сортирует в возрастающем порядке, в противном случае – в убывающем (по умолчанию True)
* *inplace* – если True, то сортировка не создает новую структуру Series, а проводится ‘in-place’ (по умолчанию False)
* *na_position* – если ‘first’, помещает NaN значения в начало, если ‘last’, то в конец (по умолчанию last)
* *ignore_index* – если True, выставит серии после сортировки индекс по умолчанию (0…n) (по умолчанию False)
* *kind* : {‘quicksort’, ‘mergesort’, ‘heapsort’, ‘stable’} – выбор метода сортировки (по умолчанию ‘quicksort’). Здесь стоит обратить внимание на тип сортировки ‘stable’. Стабильная сортировка  сохраняет элементы с одним и тем же ключом в одном и том же относительном порядке. Это часто может быть полезно, если требуется провести сортировку не только по значениям, но и по индексам. Нестабильная сортировка, сломает порядок элементов первого этапа сортировки.
* *key* – применяет переданную функцию перед началом сортировки, при этом не изменяя значения итоговой структуры Series.

In [38]:
# Сортировка по умолчанию
series = pd.Series(['B', 'a', 'A', 'C', 'D', 'd'])
series.sort_values()

2    A
0    B
3    C
4    D
1    a
5    d
dtype: object

In [39]:
# Применяем доступные параметры метода
series.sort_values(
    ascending = False, #сортируем по убыванию
    ignore_index = True, #сбросим индекс
    key = lambda col: col.str.lower() #приводим строку к нижнему регистру, 
                                      #чтобы сделать сортировку нерегистрозависимой
)

0    D
1    d
2    C
3    B
4    a
5    A
dtype: object

##### .sort_index()
* *level* – выполнить сортировку только по указанному уровню индекса (по умолчанию None)
* *sort_remaining* – если True, сортировка будет производиться по всем индексам поочередно, после сортировки по указанному level (по умолчанию True)
* Остальные параметры аналогичны .sort_values()

In [40]:
# Сортировка по умолчанию
series = pd.Series([1, 2, 3, 4, 5, 6], index=list('BaACDd'))
series.sort_index()

A    3
B    1
C    4
D    5
a    2
d    6
dtype: int64

In [41]:
tuples = [('one', 'foo'),
        ('one', 'bar'),
        ('two', 'foo'),
        ('two', 'bar')]
index = pd.MultiIndex.from_tuples(tuples)
series = pd.Series([1, 2, 3, 4], index = index)
series

one  foo    1
     bar    2
two  foo    3
     bar    4
dtype: int64

In [42]:
# Применение параметра level
series.sort_index(level=1)

one  bar    2
two  bar    4
one  foo    1
two  foo    3
dtype: int64

In [47]:
# Применение параметра kind
series = pd.Series([i for i in range(20)], index=[np.random.choice(['a', 'b', 'c']) for i in range(20)])
series.sort_values(inplace=True, ascending=False)
series.sort_index(inplace=True)
series #сортировка по индексам успешна, но в рамках одного индекса, значения не отсортированы

a     0
a     3
a    17
a    15
a    14
a    13
a    12
a    11
a     9
a     7
b     5
b     6
b    19
b     1
b     8
b    10
c    16
c     4
c    18
c     2
dtype: int64

In [48]:
series.sort_values(inplace=True, ascending=False)
series.sort_index(inplace=True, kind='stable')
series #применяем стабильную сортировку

a    17
a    15
a    14
a    13
a    12
a    11
a     9
a     7
a     3
a     0
b    19
b    10
b     8
b     6
b     5
b     1
c    18
c    16
c     4
c     2
dtype: int64

### Методы apply и map

.map() - используется для замены каждого значения в серии другим значением, которое может быть получено из функции, словаря или Series

In [53]:
# map со словарем
series = pd.Series(list('aaabbbc'))
series.map({'a': 'A', 'b': 'B'}) #нет соответствия для c => NaN

0      A
1      A
2      A
3      B
4      B
5      B
6    NaN
dtype: object

In [50]:
# map с функцией
def _map(value):
    return value * 2
series = pd.Series(list('aaabbbc'))
series.map(_map)

0    aa
1    aa
2    aa
3    bb
4    bb
5    bb
6    cc
dtype: object

In [51]:
# map со Series (аналогичен словарю)
series = pd.Series(list('abc'))
series.map("Hello {}".format)

0    Hello a
1    Hello b
2    Hello c
dtype: object

In [None]:
series = pd.Series(list('abc'))
series_for_map = pd.Series(list('ABC'), index=list('abc'))
series.map(series_for_map)

0    A
1    B
2    C
dtype: object

In [None]:
series = pd.Series(list('abc'))
series_for_map = pd.Series(list('ABC'), index=list('abd'))
series.map(series_for_map) #нет соответствия для c => NaN

0      A
1      B
2    NaN
dtype: object

.apply() – применяет ко всем значениям Series, переданную функцию. Может также принимать на вход параметры для этой функции

In [55]:
def add_some_value(x, value):
    return x + value

series = pd.Series([1, 2, 3, 4, 5, 6])
series.apply(add_some_value, args=(5,)) #необходимо передавать кортеж из-за особенности метода

0     6
1     7
2     8
3     9
4    10
5    11
dtype: int64

In [56]:
def add_some_value(x, **kwargs):
    x += kwargs['a']
    x -= kwargs['b']
    x *= kwargs['c']
    return x

series = pd.Series([1, 2, 3, 4, 5, 6])
series.apply(add_some_value, a=1, b=2, c=3) #альтернативный способ передачи аргументов

0     0
1     3
2     6
3     9
4    12
5    15
dtype: int64

Также .apply() может принимать на вход numpy u-функции.
* .apply(np.negative) – применить отрицание
* .apply(np.log) – логарифмировать
* .apply(np.sqrt) – взять корень
* .apply(np.square) – возвести в квадрат
* с полным списком можно ознакомиться здесь - [тык](https://numpy.org/doc/stable/reference/ufuncs.html)

# Категориальный тип данных

Категориальный тип данных в Pandas соответствует категориальным переменным в статистике. Категориальная переменная принимает ограниченное и обычно фиксированное число возможных значений (пол, национальность и пр.). Категориальный тип данных предоставляет возможность использовать ряд методов, удобных для работы с данными

### Создание категориального типа данных

In [57]:
# Явное указание
pd.Series(list('abca'), dtype='category')

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [58]:
# Приведение к типу
pd.Series(list('abca')).astype('category')

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [65]:
# Объект Categorical
category = pd.Categorical(list('abca'), categories=list('abc'), ordered=True)
# обратите внимание, что категории имеют порядок засчет аргумента ordered=True
pd.Series(category)

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [66]:
#  Использование специальных методов
series = pd.Series([i for i in range(100)])
pd.cut(series, bins=4)

0     (-0.099, 24.75]
1     (-0.099, 24.75]
2     (-0.099, 24.75]
3     (-0.099, 24.75]
4     (-0.099, 24.75]
           ...       
95      (74.25, 99.0]
96      (74.25, 99.0]
97      (74.25, 99.0]
98      (74.25, 99.0]
99      (74.25, 99.0]
Length: 100, dtype: category
Categories (4, interval[float64, right]): [(-0.099, 24.75] < (24.75, 49.5] < (49.5, 74.25] < (74.25, 99.0]]

### Основные параметры категорий

In [3]:
# Получение списка категорий
series = pd.Series(list('abca')).astype('category')
series.cat.categories

Index(['a', 'b', 'c'], dtype='object')

In [4]:
# Является ли категориальный тип упорядоченным (используется для сравнения)
series = pd.Series(list('abca')).astype('category')
series.cat.ordered

False

In [5]:
# Смена наименований категорий с помощью списка
category = pd.Categorical(list('abca'), categories=list('abc'))
series = pd.Series(category)
#значения тоже меняются
series.cat.rename_categories(['renamedA', 'renamedB', 'renamedC'])

0    renamedA
1    renamedB
2    renamedC
3    renamedA
dtype: category
Categories (3, object): ['renamedA', 'renamedB', 'renamedC']

In [6]:
# Смена наименований категорий с помощью словаря
category = pd.Categorical(list('abca'), categories=list('abc'))
series = pd.Series(category)
#с помощью словаря
series.cat.rename_categories({'a': 'renamedA', 'b': 'renamedB'})

0    renamedA
1    renamedB
2           c
3    renamedA
dtype: category
Categories (3, object): ['renamedA', 'renamedB', 'c']

In [7]:
# Добавление категорий
category = pd.Categorical(list('abca'), categories=list('abc'))
series = pd.Series(category)
series = series.cat.add_categories(['d'])
series.cat.categories

Index(['a', 'b', 'c', 'd'], dtype='object')

In [8]:
# Удаление категорий
series = series.cat.remove_categories(['d'])
series.cat.categories

Index(['a', 'b', 'c'], dtype='object')

In [9]:
# Удаление неиспользуемых категорий
category = pd.Categorical(list('abca'), categories=list('abcd'))
series = pd.Series(category)
series = series.cat.remove_unused_categories()
series.cat.categories

Index(['a', 'b', 'c'], dtype='object')

In [13]:
# Добавить порядок категорий
category = pd.Categorical(list('abca'), categories=list('abcd'))
series = pd.Series(category)
#появились явные отношения
series = series.cat.as_ordered()
series

0    a
1    b
2    c
3    a
dtype: category
Categories (4, object): ['a' < 'b' < 'c' < 'd']

In [14]:
# Удалить порядок категорий
series = series.cat.as_unordered()
series

0    a
1    b
2    c
3    a
dtype: category
Categories (4, object): ['a', 'b', 'c', 'd']

In [15]:
series = series.cat.as_ordered()
# Изменить порядок категорий
series = series.cat.reorder_categories(['b', 'c', 'a', 'd'])
series

0    a
1    b
2    c
3    a
dtype: category
Categories (4, object): ['b' < 'c' < 'a' < 'd']

# Методы строкового типа данных

In [16]:
# Приведение к нижнему регистру всех символов строки
series = pd.Series(['AA', 'BB', 'CC'], dtype='string')
series.str.lower()

0    aa
1    bb
2    cc
dtype: string

In [17]:
# Приведение к верхнему регистру всех символов строки
series = pd.Series(['aa', 'bb', 'cc'], dtype='string')
series.str.upper()

0    AA
1    BB
2    CC
dtype: string

In [None]:
# Приведение к нижнему регистру всех символов строки
series = pd.Series(['a', 'bb', 'ccc'], dtype='string')
series.str.len()

0    1
1    2
2    3
dtype: Int64

In [18]:
# Удаление всех пропусков
series = pd.Series([' A ', ' B', 'C '], dtype='string')
series.str.strip().values

<StringArray>
['A', 'B', 'C']
Length: 3, dtype: string

In [19]:
# Удаление пропусков справа от строки
series.str.rstrip().values

<StringArray>
[' A', ' B', 'C']
Length: 3, dtype: string

In [20]:
# Удаление пропусков слева от строки
series.str.lstrip().values

<StringArray>
['A ', 'B', 'C ']
Length: 3, dtype: string

In [None]:
# Начать с большой буквы
series = pd.Series(['aa', 'bb', 'cc'], dtype='string')
series.str.capitalize()

0    Aa
1    Bb
2    Cc
dtype: string

In [None]:
# Проверка на то, что оканчивается подстрокой
series = pd.Series(['ab', 'bb', 'cc'], dtype='string')
series.str.endswith('b')

0     True
1     True
2    False
dtype: boolean

In [21]:
# Поиск индекса вхождения подстроки в строку
series = pd.Series(['aba', 'bbb', 'ccb', 'xxx'], dtype='string')
series.str.find('b')

0     1
1     0
2     2
3    -1
dtype: Int64

In [22]:
# Получение символа по индексу
series = pd.Series(['aa', 'b', 'cc'], dtype='string')
series.str.get(0)

0    a
1    b
2    c
dtype: string

In [23]:
# Получение символа по индексу при отсутствии этого индекса в строке
series.str.get(1)

0       a
1    <NA>
2       c
dtype: string

In [24]:
# Удаление префикса в строке
series = pd.Series(['aa', 'ab', 'cc'], dtype='string')
series.str.removeprefix('a')

0     a
1     b
2    cc
dtype: string

In [None]:
# Удаление суффикса в строке
series = pd.Series(['aab', 'ab', 'cc'], dtype='string')
series.str.removesuffix('b')

0    aa
1     a
2    cc
dtype: string

In [None]:
# Повторение строки n раз
series = pd.Series(['a', 'b', 'c'], dtype='string')
series.str.repeat(3)

0    aaa
1    bbb
2    ccc
dtype: string

In [25]:
# Подмена символа/подстроки на другой символ/подстроку
series = pd.Series(['a', 'b', 'c'], dtype='string')
series.str.replace('a', 'A')

0    A
1    b
2    c
dtype: string

In [26]:
# Проверка на то, является ли строка числом
series = pd.Series(['a', '1', '2'], dtype='string')
series.str.isdigit()

0    False
1     True
2     True
dtype: boolean

In [None]:
# Расщепление строки по символу
series = pd.Series(["a.b.c", "c.d.e", np.nan, "f.g.h"], dtype="string")
series.str.split('.', expand=True)

Unnamed: 0,0,1,2
0,a,b,c
1,c,d,e
2,,,
3,f,g,h


В большинстве представленных методов также можно пользоваться регулярными выражениями. Еще больше методов и примеров можно найти здесь - [тык](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)

# Структура данных DataFrame

### Создание DataFrame

In [27]:
# Из списка списков
pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=list('ab'), columns=list('abc'))

Unnamed: 0,a,b,c
a,1,2,3
b,4,5,6


In [28]:
# Из списка np.array
pd.DataFrame([np.array([1, 2, 3]), np.array([4, 5, 6])], index=list('ab'))

Unnamed: 0,0,1,2
a,1,2,3
b,4,5,6


In [29]:
# Из словаря
# значение ключа становится наименованием столбца
pd.DataFrame({'a': [1, 4], 'b': [2, 5], 'c': [3, 6]}, index=list('ab'))

Unnamed: 0,a,b,c
a,1,2,3
b,4,5,6


In [30]:
# из списка Series
# аналогично спискам
pd.DataFrame([pd.Series([1, 2, 3]), pd.Series(list('ab'))])

Unnamed: 0,0,1,2
0,1,2,3.0
1,a,b,


### Основные параметры DataFrame

In [31]:
# Получение индекса
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=list('ab'))
df.index

Index(['a', 'b'], dtype='object')

In [32]:
# Получение значений в виде двумерного np.array
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=list('ab'))
df.values

array([[1, 2, 3],
       [4, 5, 6]])

In [33]:
df = pd.DataFrame([[1, 2], [3, 4], [5, 6]])
df

Unnamed: 0,0,1
0,1,2
1,3,4
2,5,6


In [34]:
# Размер столбца (количество строк)
len(df)

3

In [35]:
# Полное количество элементов
df.size

6

In [36]:
# Кортеж: количество строк; столбцов
df.shape

(3, 2)

In [37]:
# Получение типов данных столбцов
df = pd.DataFrame({'a': [1, 2], 'b': ['c', 'd']})
df.dtypes

a     int64
b    object
dtype: object

### Работа с индексами

In [38]:
# Перенос столбца в индекс
df = pd.DataFrame({'kcal': [130, 120, 80, 70],
                   'price': [100, 200, 300, 111],
                   'type': ['fruit', 'vegetable', 'fruit', 'vegetable']})
df = df.set_index('type')
df

Unnamed: 0_level_0,kcal,price
type,Unnamed: 1_level_1,Unnamed: 2_level_1
fruit,130,100
vegetable,120,200
fruit,80,300
vegetable,70,111


In [39]:
# Перенос индекса в столбец
df.reset_index()

Unnamed: 0,type,kcal,price
0,fruit,130,100
1,vegetable,120,200
2,fruit,80,300
3,vegetable,70,111


### Ограничение размера DataFrame

In [40]:
# Первые n элементов
df = pd.DataFrame({'a': [1, 2, 3, 4, 5, 6, 7, 8, 9],
                  'b': [1, 2, 3, 4, 5, 6, 7, 8, 9]})
df.head(4)

Unnamed: 0,a,b
0,1,1
1,2,2
2,3,3
3,4,4


In [None]:
# Последние n элементов
df.tail(4)

Unnamed: 0,a,b
5,6,6
6,7,7
7,8,8
8,9,9


In [41]:
# Получить конкретные строки по позиции
df.take((1, 4, 5))

Unnamed: 0,a,b
1,2,2
4,5,5
5,6,6


### Полезные методы DataFrame

In [42]:
# Описательные статистики для каждого столбца
df = pd.DataFrame({'a': [1, 2, 3, 4, 5, 6, 7, 8, 9],
                  'b': [10, 11, 12, 13, 14, 15, 16, 17, 18]})
df.describe()

Unnamed: 0,a,b
count,9.0,9.0
mean,5.0,14.0
std,2.738613,2.738613
min,1.0,10.0
25%,3.0,12.0
50%,5.0,14.0
75%,7.0,16.0
max,9.0,18.0


Почти все основные методы Series применимы и к DataFrame (применяется ко всем столбцам и выводится информация относительно столбцов)

In [43]:
# Сумма для каждого столбца
df.sum()

a     45
b    126
dtype: int64

In [44]:
# Среднее значение для каждого столбца
df.mean()

a     5.0
b    14.0
dtype: float64

In [45]:
# Подсчет числа уникальных сочетаний всех столбцов
df = pd.DataFrame({'a': [1, 2, 3, 3, 4],
                  'b': [1, 2, 3, 3, 4]})
df.value_counts()

a  b
3  3    2
1  1    1
2  2    1
4  4    1
dtype: int64

### Получение данных из DataFrame


In [47]:
# Получение столбца
df = pd.DataFrame({'a': [1, 2, 3, 4, 5], 'b': list('cdefg')})
df['b'] 

0    c
1    d
2    e
3    f
4    g
Name: b, dtype: object

In [48]:
# Получение нескольких столбцов
df[['a', 'b']]

Unnamed: 0,a,b
0,1,c
1,2,d
2,3,e
3,4,f
4,5,g


In [49]:
# В сравнении с Series позволяет отбирать не только по индексам, но и по столбцам
df.loc[0, ['a', 'b']]

a    1
b    c
Name: 0, dtype: object

In [50]:
# .iloc аналогично, может отбирать по позиции столбца.
df.iloc[2, 1]

'e'

In [None]:
df.iloc[2, [0, 1]]

a    3
b    e
Name: 2, dtype: object

### Срезы DataFrame

##### Срезы по позиции

In [51]:
# Оператор []
df = pd.DataFrame({'numbers': [10, 2, 4, 6, 7], 
                   'words': ['ab', 'cd', 'ef', 'gh', 'ij']}, 
                  index = list('abcde'))
# Правая граница не включается
df[0:2] 

Unnamed: 0,numbers,words
a,10,ab
b,2,cd


In [52]:
# Метод .iloc
df = pd.DataFrame({'a': [10, 2, 4, 6, 7], 
                   'b': ['ab', 'cd', 'ef', 'gh', 'ij'],
                   'c': [0.1, 0.6, 0.8, 0.3, 0.5]}, 
                  index = list('abcde'))
df.iloc[0:2, 0:2]

Unnamed: 0,a,b
a,10,ab
b,2,cd


##### Срезы по индексам/столбцам

In [53]:
# Метод .loc
df = pd.DataFrame({'a': [10, 2, 4, 6, 7], 
                   'b': ['ab', 'cd', 'ef', 'gh', 'ij'],
                   'c': [0.1, 0.6, 0.8, 0.3, 0.5]}, 
                  index = list('abcde'))
df.loc['a':'b', 'b':'c'] #границы включаются

Unnamed: 0,b,c
a,ab,0.1
b,cd,0.6


### Добавление столбцов и строк

##### Добавление столбца

In [57]:
# Список значений
df = pd.DataFrame({'a': [1, 2], 'b': ['c', 'd']})
df['c'] = [0.1, 0.2]
df

Unnamed: 0,a,b,c
0,1,c,0.1
1,2,d,0.2


In [62]:
df = pd.DataFrame({'a': [1, 2], 'b': ['c', 'd']})
df['c'] = pd.Series([0.1, 0.2], index=[0, 2])
df #Требуется совпадение индексов

Unnamed: 0,a,b,c
0,1,c,0.1
1,2,d,


##### Добавление строки

In [64]:
df.loc[1] = [3, 'e', 4]
df

Unnamed: 0,a,b,c
0,1,c,0.1
1,3,e,4.0


### Удаление столбцов и строк

##### Удаление столбцов

In [65]:
# .pop() – удаляет in-place и возвращает удаленный столбец
df = pd.DataFrame({'a': [10, 2], 'b': ['ab', 'cd'], 'c': [0.1, 0.6]})
series = df.pop('b') #в series записан столбец b
df

Unnamed: 0,a,c
0,10,0.1
1,2,0.6


In [66]:
# .drop(axis=1) – удаляет столбец или список столбцов, можно выбрать in-place
df = pd.DataFrame({'a': [10, 2], 'b': ['ab', 'cd'], 'c': [0.1, 0.6]})
df.drop(
    ['a', 'b', 'd'],
    axis = 1,#удаление столбца
    inplace = True,
    errors = 'ignore'#игнорировать ошибку, если нет столбца с указанным именем
)
df

Unnamed: 0,c
0,0.1
1,0.6


##### Удаление строки

In [None]:
df = pd.DataFrame({'a': [10, 2], 'b': ['ab', 'cd'], 'c': [0.1, 0.6]})
df = df.drop(0, axis = 0)#удаление cтроки
df

Unnamed: 0,a,b,c
1,2,cd,0.6


### Фильтрация данных DataFrame

In [67]:
# Фильтрация строк производится аналогично Series
df = pd.DataFrame({'a': [10, 2, 4, 6, 8], 'c': [0.1, 0.6, 0.8, 0.13, 0.5]})
df[df['a'] > 7]

Unnamed: 0,a,c
0,10,0.1
4,8,0.5


In [68]:
df = pd.DataFrame({'a': [10, 2, 4, 6, 8], 'c': [0.1, 0.6, 0.8, 0.13, 0.5]})
df[(df['a'] > 4) & (df['c'] <= 0.5)]

Unnamed: 0,a,c
0,10,0.1
3,6,0.13
4,8,0.5


In [69]:
# Оператор ~
df = pd.DataFrame({'a': [10, 2, 4, 6, 8], 
                   'c': [0.1, 0.6, 0.8, 0.13, 0.5]},
                 index=list('abcde'))
#отфильтровать индексы так, чтобы в итоговой структуре
#НЕ БЫЛО индексов из списка недопустимых индексов
df[~df.index.isin(list('abc'))]

Unnamed: 0,a,c
d,6,0.13
e,8,0.5


### Импортирование/экспортирование данных

|Формат|Чтение|Запись|
|-|-|-|
|csv|pd.read_csv|df.to_csv|
|json|pd.read_json|df.to_json|
|Fixed-Width Text file|pd.read_fwf|-|
|html|pd.read_html|df.to_html|
|latex|-|df.to_latex|
|xml|pd.read_xml|df.to_xml|
|excel|pd.read_excel|df.to_excel|
|hdf5|pd.read_hdf|df.to_hdf|
|sql|pd.read_sql|df.to_sql|
|Parquet format|pd.read_parquet|df.to_parquet|
|ORC|pd.read_orc|df.to_orc|
|Stata|pd.read_stata|df.to_stata|

In [72]:
df = pd.read_csv('https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv')
df

Unnamed: 0,Country,Region
0,Algeria,AFRICA
1,Angola,AFRICA
2,Benin,AFRICA
3,Botswana,AFRICA
4,Burkina,AFRICA
...,...,...
189,Paraguay,SOUTH AMERICA
190,Peru,SOUTH AMERICA
191,Suriname,SOUTH AMERICA
192,Uruguay,SOUTH AMERICA


##### Аргументы функций импорта

* *filepath_or_buffer* – путь к файлу, URL или любой другой объект с методом read()
* *sep* – строка-разделитель для чтения из текстовых файлов
* *header* – номер строки заголовка (по умолчанию 0)
* *names* – список имен столбцов (тогда header = None)
* *index_col* – номера или названия столбцов, которые будут использоваться, как индекс DataFrame’а
* *usecols* – список строк или функция для отбора конкретных столбцов
* *dtype* – словарь с соответствием столбца и типа данных
* *skiprows* – список строк, которые необходимо пропустить при чтении
* *skipfooter* – количество строк, которые отбрасываем из конца файла
* *nrows* – количество строк для считывания
* *na_values* – какие строки необходимо считать, как NaN
* [И др](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

### Сортировка DataFrame

##### sort_values
* *axis* – ось подлежащая сортировке (‘index’/0 (сортировка строк) или ‘columns’/1(сортировка столбцов)) (по умолчанию 0)
* *by* – имя или список имен для сортировки (если axis=‘index’, то наименование столбца или имя индекса, если axis=‘columns’, то индекс) 
* Остальные параметры аналогичны Series

In [73]:
# Сортировка выбранного столбца по строкам
df = pd.DataFrame({'a': [10, 2, 4, 6, 8], 
                   'c': [0.1, 0.6, 0.8, 0.13, 0.5]},
                 index=list('abcde'))
df.sort_values(by='c', axis='index')

Unnamed: 0,a,c
a,10,0.1
d,6,0.13
e,8,0.5
b,2,0.6
c,4,0.8


In [74]:
# Сортировка выбранного столбца по столбцам
df = pd.DataFrame([[10, 2, 4, 6, 8],
                   [0.1, 0.6, 0.8, 0.13, 0.5]], 
                  index=list('ab'), 
                  columns=list('abcde'))
df.sort_values(by='b', axis='columns')

Unnamed: 0,a,d,e,b,c
a,10.0,6.0,8.0,2.0,4.0
b,0.1,0.13,0.5,0.6,0.8


##### sort_index()
* *axis* – ось, по которой производится сортировка (‘index’ или ‘columns’)
* Остальные параметры аналогично Series

In [75]:

# Cортировка столбцов в лексикографическом порядке
df = pd.DataFrame([[10, 2, 4, 6, 8],
                   [0.1, 0.6, 0.8, 0.13, 0.5]], 
                  index=list('ab'), 
                  columns=list('cdbea'))
df.sort_index(axis='columns')

Unnamed: 0,a,b,c,d,e
a,8.0,4.0,10.0,2.0,6.0
b,0.5,0.8,0.1,0.6,0.13


In [76]:
# Cортировка строк в лексикографическом порядке
df = pd.DataFrame({'a': [10, 2, 4, 6, 8], 
                   'c': [0.1, 0.6, 0.8, 0.13, 0.5]},
                 index=list('cdeba'))

df.sort_index(axis='index')

Unnamed: 0,a,c
a,8,0.5
b,6,0.13
c,10,0.1
d,2,0.6
e,4,0.8


### Очистка DataFrame от NaN

##### dropna() – удаление столбца/строки, содержащей NaN значение
* *axis* – ‘index’/0(удаление строк) или ‘columns’/1(удаление столбцов) (по умолчанию 0) 
* *how* – ‘any’(удалить, если хотя бы одно значение NaN) или ‘all’ (удалить, если все значения NaN)(по умолчанию ‘any’)
* *thresh* – сколько не NaN значений требуется, чтобы избежать удаления (не комбинируется с how)
* *subset* – метки вдоль другой оси, которые следует учитывать, например, если вы удаляете строки, это будет список столбцов, которые стоит проверять на наличие NaN.
* *inplace* – ‘in-place’ очистка от NaN
* *ignore_index* – заменить в результирующей таблице индекс на последовательность 0..n


In [77]:
df = pd.DataFrame({'a': [10, 2, 4, 6, np.nan], 
                   'c': [0.1, np.nan, 0.8, np.nan, 0.5]},
                 index=list('cdeba'))
#удаляем столбцы, где больше одного значения NaN
df.dropna(axis=1, thresh=df.shape[0] - 1)

Unnamed: 0,a
c,10.0
d,2.0
e,4.0
b,6.0
a,


In [78]:
df = pd.DataFrame([[np.nan, 1, 2], 
                   [1, 2, np.nan], 
                   [1, np.nan, 2]],
                  index=list('abc'),
                  columns=list('abc'))
# Удаляем все строки, где есть np.nan, но не учитываем столбец 'c'
df.dropna(axis=0, subset=['a', 'b'])

Unnamed: 0,a,b,c
b,1.0,2.0,


#### fillna() – заполнение NaN другим значением
* *value* – значение, которым заполняются NaN. Можно также передавать словарь, Series или DataFrame, указывая какое значение использовать для каждого индекса (для Series) или столбца (для DataFrame).
* *method* – альтернативный метод заполнения. Если ‘bfil’ – используется следующее достоверное наблюдение, чтобы заполнить NaN, если ‘ffil’ – распространяется последнее достоверное наблюдение (по умолчанию None). Не комбинируется с value.
* *axis* – ось вдоль которой заполняем значения (используется при заполнении с параметром method != None), ‘index’/0 или ‘columns’/1 (по умолчанию 0).
* *inplace* – ‘in-place’ заполнение NaN
* *limit* – если указан method, то это максимальное количество NaN значений, на которое может распространиться достоверное наблюдение. Если указан value, то это максимальное число значений, которое может заполнить метод вдоль указанной оси.


In [None]:
df = pd.DataFrame([[np.nan, 1, 2], 
                   [1, np.nan, 2], 
                   [1, np.nan, 2]])
# Заполняем все NaN значением 2, но не больше 2-ух раз
df.fillna(2, limit=1)

Unnamed: 0,0,1,2
0,2.0,1.0,2
1,1.0,2.0,2
2,1.0,,2


In [None]:
df = pd.DataFrame([[np.nan, 1, np.nan], 
                   [np.nan, 1, 2], 
                   [1, np.nan, 2]])
# Заполняем NaN следующим валидным значением в СТОЛБЦЕ
df.fillna(method="bfill", axis=1)

Unnamed: 0,0,1,2
0,1.0,1.0,
1,1.0,1.0,2.0
2,1.0,2.0,2.0


In [None]:
df = pd.DataFrame([[np.nan, 1, np.nan], 
                   [np.nan, 1, 2], 
                   [1, np.nan, 2]])
# Заполняем NaN своим значением для каждого столбца
# но не более 1-го раза за столбец
df.fillna({0:2, 1:3, 2:4}, limit=1)

Unnamed: 0,0,1,2
0,2.0,1.0,4.0
1,,1.0,2.0
2,1.0,3.0,2.0


##### drop_duplicates() – удаление дублирующихся строк. 
* *subset* – cтолбцы которые следует учитывать при поиске дубликатов (по умолчанию – все столбцы)
* *keep* – какое из дублирующихся вхождений необходимо сохранить. ‘first’ – первое, ‘last’ – последнее, False – удалить все.
* *inplace* – ‘in-place’ очистка от дубликатов
* *ignore_index* – заменить в результирующей таблице индекс на последовательность 0..n


In [None]:
df = pd.DataFrame([[1, 2, 3], [1, 2, 3], [1, 2, 4], [1, 3, 5]])
# Удалить дубликаты (дубликаты рассчитываются по первым двум столбцам)
df.drop_duplicates(subset=[0, 1])

Unnamed: 0,0,1,2
0,1,2,3
3,1,3,5


In [None]:
df = pd.DataFrame([[1, 2, 3], [1, 2, 3], [1, 2, 4], [1, 3, 5]])
# Берем последнее вхождение
df.drop_duplicates(subset=[0, 1], keep='last')

Unnamed: 0,0,1,2
2,1,2,4
3,1,3,5


### Математические операции с DataFrame

##### Операции с числами. 
Операции выполняются аналогично Series, но применяются ко всем значениям в DataFrame


In [None]:
df = pd.DataFrame({'a': [10, 2, 4],
                   'b': [0.1, 0.6, 0.8]}, 
                  index=list('abc'))
df + 2

Unnamed: 0,a,b
a,12,2.1
b,4,2.6
c,6,2.8


In [None]:
df ** 3

Unnamed: 0,a,b
a,1000,0.001
b,8,0.216
c,64,0.512


In [None]:
df = pd.DataFrame({'a': [10, 2, 4],
                   'b': ['aa', 'bb', 'cc']}, 
                  index=list('abc'))
df * 4

Unnamed: 0,a,b
a,40,aaaaaaaa
b,8,bbbbbbbb
c,16,cccccccc


##### Математические операции с Series и словарями

In [79]:
df = pd.DataFrame({'a': [10, 2, 4],
                   'b': ['a', 'b', 'c']}, 
                  index=list('abc'))
series = pd.Series([2, 'd'], index=list('ab'))
# К каждому столбцу прибавляется свое значение
# сопоставление столбца и элемента Series по наименованию индекса
df + series

Unnamed: 0,a,b
a,12,ad
b,4,bd
c,6,cd


In [80]:
df = pd.DataFrame({'a': [10, 2, 4],
                   'b': ['a', 'b', 'c']}, 
                  index=list('abc'))
series = pd.Series([2, 'd'], index=list('ae'))
# Наименование столбца и индекса не совпадает
df + series

Unnamed: 0,a,b,e
a,12,,
b,4,,
c,6,,


In [81]:
df = pd.DataFrame({'a': [10, 2, 4],
                   'b': ['a', 'b', 'c']}, 
                  index=list('abc'))
# Сопоставление ключ-наименование столбца
df + {'a': 2, 'b': 'd'}

Unnamed: 0,a,b
a,12,ad
b,4,bd
c,6,cd


In [82]:
df = pd.DataFrame({'a': [10, 2, 4],
                   'b': ['a', 'b', 'c']}, 
                  index=list('abc'))
# В случае словаря не добавляется новый столбец 
# при отсутствии столбца с указанным именем
df + {'a': 2, 'e': 'd'}

Unnamed: 0,a,b
a,12,
b,4,
c,6,


##### Математические операции со списками и кортежами

In [84]:
# Cо списком
df = pd.DataFrame({'a': [10, 2, 4],
                   'b': ['a', 'b', 'c']}, 
                  index=list('abc'))
# К каждому столбцу также прибавляется свое значение
# но здесь сопоставление идет по порядку столбцов и элементов в списке
df + [1, 'd']

Unnamed: 0,a,b
a,11,ad
b,3,bd
c,5,cd


In [85]:
# С кортежем
df = pd.DataFrame({'a': [10, 2, 4],
                   'b': ['a', 'b', 'c']}, 
                  index=list('abc'))
df + (1, 'd')

Unnamed: 0,a,b
a,11,ad
b,3,bd
c,5,cd


In [86]:
# Аналогично работает с любым list-like объектом, например np.array
df = pd.DataFrame({'a': [1, 2, 3],
                   'b': [1, 2, 3]}, 
                  index=list('abc'))
df - np.array([10, 20])

Unnamed: 0,a,b
a,-9,-19
b,-8,-18
c,-7,-17


##### Математические операции с другими DataFrame

In [None]:
df1 = pd.DataFrame({'a': [1, 2, 3],
                   'b': ['a', 'b', 'c']}, 
                  index=list('abc'), 
                  columns=list('ab'))
df2 = pd.DataFrame({'a': [1, 2, 3],
                   'b': ['a', 'b', 'c']}, 
                  index=list('abc'), 
                  columns=list('ab'))
df1 + df2

Unnamed: 0,a,b
a,2,aa
b,4,bb
c,6,cc


In [None]:
df1 = pd.DataFrame({'a': [1, 2, 3],
                   'b': ['a', 'b', 'c']}, 
                  index=list('abc'), 
                  columns=list('ab'))
df2 = pd.DataFrame({'a': [1, 2, 3],
                   'e': ['a', 'b', 'c']}, 
                  index=list('abd'), 
                  columns=list('ab'))
# Не совпадают индекс и наименование столбца
df1 + df2

Unnamed: 0,a,b
a,2.0,
b,4.0,
c,,
d,,


##### Аналоговые методы для математических операций

В DataFrame также есть аналоговые математические методы (сопоставление идентичное Series). Помимо аргумента fill_value для DataFrame также важен аргумент axis, который позволяет менять ось, по которой будет выполняться данная операция. При axis = 1 поведение не изменится, при axis=0, операция выполняется не над столбцами, а над строками (по умолчанию значение 0)

In [None]:
df1 = pd.DataFrame({'a': [10, 2, 4],
                   'b': [0.1, 0.6, 0.8]}, 
                  index=list('abc'), 
                  columns=list('ab'))
df2 = pd.DataFrame({'a': [10, 2, 4],
                   'b': [0.1, 0.6, 0.8]}, 
                  index=list('abd'), 
                  columns=list('ab'))
df1.add(df2, fill_value=3)

Unnamed: 0,a,b
a,20.0,0.2
b,4.0,1.2
c,7.0,3.8
d,7.0,3.8


In [None]:
df = pd.DataFrame([['a', 'b', 'c'], [1, 2, 3]], 
                  index=list('ab'), 
                  columns=list('abc'))
df.add({'a': 'd', 'b': 10}, axis=0)

Unnamed: 0,a,b,c
a,ad,bd,cd
b,11,12,13


In [None]:
df = pd.DataFrame([['a', 'b', 'c'], [1, 2, 3]], 
                  index=list('ab'), 
                  columns=list('abc'))
df.add(['d', 10], axis=0)

Unnamed: 0,a,b,c
a,ad,bd,cd
b,11,12,13


In [None]:
df = pd.DataFrame([['a', 'b', 'c'], [1, 2, 3]], 
                  index=list('ab'), 
                  columns=list('abc'))
series = pd.Series(['d', 10], index=list('ab'))
df.add(series, axis=0)

Unnamed: 0,a,b,c
a,ad,bd,cd
b,11,12,13


**Примечание: при сложении двух DataFrame’ов поведение не меняется в зависимости от значения axis**

### Методы apply, applymap над DataFrame

#####  .apply() – применяет выбранную функцию ко всем столбцам или строкам в зависимости от параметра axis

In [89]:
# Применение функции, которая возвращает list-like объект:
df = pd.DataFrame([[1, 2, 3, 4],
                  [0.1, 0.2, 0.3, 0.4]],
                 columns = list('abcd'))
df.apply(np.sqrt)

Unnamed: 0,a,b,c,d
0,1.0,1.414214,1.732051,2.0
1,0.316228,0.447214,0.547723,0.632456


In [90]:
# Применение функции, которая возвращает результат в виде единичного значения
df = pd.DataFrame([[1, 2, 3, 4],
                  [0.1, 0.2, 0.3, 0.4]],
                 columns = list('abcd'))
df.apply(np.sum)

a    1.1
b    2.2
c    3.3
d    4.4
dtype: float64

In [91]:
# Написание собственной функции для apply
def _apply(series):
    return series / 2
df = pd.DataFrame([[1, 2, 3, 4],
                  [0.1, 0.2, 0.3, 0.4]],
                 columns = list('abcd'))
df.apply(_apply)

Unnamed: 0,a,b,c,d
0,0.5,1.0,1.5,2.0
1,0.05,0.1,0.15,0.2


In [93]:
# Передача аргументов в функцию аналогична методу .apply() Series
df = pd.DataFrame([[1, 2, 3, 4],
                  [0.1, 0.2, 0.3, 0.4]],
                 columns = list('abcd'))
df.apply('pow', args=(3,))

Unnamed: 0,a,b,c,d
0,1.0,8.0,27.0,64.0
1,0.001,0.008,0.027,0.064


##### .applymap() – применяет функцию к каждому элементу в DF. Переданная функция должна возвращать скаляр.

In [94]:
# Применение лямбды
df = pd.DataFrame([[1, 2, 3, 4],
                  [0.1, 0.2, 0.3, 0.4]],
                 columns = list('abcd'))
df.applymap(lambda x: x**2)

Unnamed: 0,a,b,c,d
0,1.0,4.0,9.0,16.0
1,0.01,0.04,0.09,0.16


In [95]:
# Применение функции с параметром
def sub_some_value(value, x):
    return value - x

df = pd.DataFrame([[1, 2, 3, 4],
                  [0.1, 0.2, 0.3, 0.4]],
                 columns = list('abcd'))
df.applymap(sub_some_value, x=4)

Unnamed: 0,a,b,c,d
0,-3.0,-2.0,-1.0,0.0
1,-3.9,-3.8,-3.7,-3.6


### Объединение DataFrame’ов

##### pd.concat – конкатенация множества объектов Pandas (Series, DataFrame)
* *axis* – ось для объединения (0/'index', 1/'columns', по умолчанию 0)
* *join* – как обрабатывать индексы на другой оси (или осях). Если 'inner', то в итоговую структуру войдут только общие индексы и столбцы, если ‘outer’, то все столбцы всех структур (по умолчанию 'outer')
* *ignore_index* – игнорировать индексы при конкатенации и проиндексировать результирующую таблицу от 0 до n (по умолчанию False)
* *keys* – имена для иерархических индексов/имен столбцов (в зависимости от axis) (по умолчанию None) names – имена уровней индексов/имен таблиц (в зависимости от axis) в результирующей таблице (по умолчанию None)
* *verify_integrity* – если True, то проверяет, что при слиянии нет общих индексов или имен столбцов (в зависимости от axis) и выдает ошибку, если есть (по умолчанию False)
* *sort* – если True, сортирует столбцы/индексы (в зависимости от axis) после слияния (по умолчанию False)
* *copy* – если False, то не копирует данные без необходимости (по умолчанию True)


In [96]:
df1 = pd.DataFrame([['a', 1], ['b', 2]],
                   columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                   columns=['letter', 'number'])
# concat по индексам
pd.concat([df1, df2])

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [97]:
# concat по столбцам
pd.concat([df1, df2], axis=1)

Unnamed: 0,letter,number,letter.1,number.1
0,a,1,c,3
1,b,2,d,4


In [98]:
# Можно применять с series
series = pd.Series(['e', 5], name='letter/number')
pd.concat([df1, series], axis = 1)

Unnamed: 0,letter,number,letter/number
0,a,1,e
1,b,2,5


In [99]:
df1 = pd.DataFrame([['a', 1], ['b', 2]],
                   columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                   columns=['letter', 'number'])
df3 = pd.DataFrame([['e', 3], ['f', 4]],
                   columns=['letter', 'number'])
# Можно больше 2-ух DataFrame
pd.concat([df1, df2, df3], ignore_index=True)

Unnamed: 0,letter,number
0,a,1
1,b,2
2,c,3
3,d,4
4,e,3
5,f,4


In [100]:
df1 = pd.DataFrame([['a', 1, 'zebra'], ['b', 2, 'girafe']],
                   columns=['letter', 'number', 'animal'])
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                   columns=['letter', 'number'])
# Использование keys, names
df_res = pd.concat([df1, df2], keys=['first', 'second'], names=['index_concat', 'index_default'])

In [101]:
df1 = pd.DataFrame([['a', 1, 'zebra'], ['b', 2, 'girafe']],
                   columns=['letter', 'number', 'animal'])
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                   columns=['letter', 'number'])
# join=outer
pd.concat([df1, df2])

Unnamed: 0,letter,number,animal
0,a,1,zebra
1,b,2,girafe
0,c,3,
1,d,4,


In [102]:
df1 = pd.DataFrame([['a', 1, 'zebra'], ['b', 2, 'girafe']],
                   columns=['letter', 'number', 'animal'])
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                   columns=['letter', 'number'])
# join=inner
pd.concat([df1, df2], join='inner')

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [103]:
df1 = pd.DataFrame([['a', 1, 'zebra'], ['b', 2, 'girafe']],
                   columns=['letter', 'number', 'animal'])
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                   columns=['letter', 'number'])
# sort=True
pd.concat([df1, df2], sort=True)

Unnamed: 0,animal,letter,number
0,zebra,a,1
1,girafe,b,2
0,,c,3
1,,d,4


##### pd.merge() – выполняет слияние двух Dataframe или Series
* *how* – тип слияния (по умолчанию 'inner')
    * 'left' – использовать только ключи из левой структуры, аналог SQL left outer join
    * 'left' – использовать только ключи из правой структуры, аналог SQL right outer join
    * 'outer' – использовать только ключи из обеих структур, аналог SQL full outer join
    * 'inner' – использовать пересечение ключей из обеих структур, аналог SQL left outer join
    * 'cross' – создает декартово произведение из обоих структур, сохраняя порядок левых ключей.
* *on* – индекс или имя столбца, по которому будет происходить слияние. Должен присутствовать в обеих DataFrame’ах (по умолчанию None)
* *left_on* – индекс или имя столбца, по которому будет происходить слияние левой структуры (не указывается, если on не None)
* *right_on* – индекс или имя столбца, по которому будет происходить слияние правой структуры (не указывается, если on не None)
* *left_index* – если True, то в качестве ключа левой структуры используется индекс
* *right_index* – если True, то в качестве ключа правой структуры используется индекс
* *sort* – если True, сортирует столбцы/индексы (в зависимости от axis) после слияния (по умолчанию False)
* *copy* – если False, то не копирует данные без необходимости (по умолчанию True)
* *suffixes* – суффиксы одинаковых элементов после слияния (по умолчанию ('_x', '_y')). 
При значении суффикса False, суффикс не прибавляется.

In [104]:
df1 = pd.DataFrame({'lkey': ['a', 'b', 'c', 'd'],
                    'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['a', 'b', 'c', 'e'],
                    'value': [5, 6, 7, 8]})
# Использование left_on и right_on
pd.merge(df1, df2, left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))

Unnamed: 0,lkey,value_left,rkey,value_right
0,a,1,a,5
1,b,2,b,6
2,c,3,c,7


In [105]:
df1 = pd.DataFrame({'key': ['a', 'b', 'c', 'd'],
                    'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'key': ['a', 'b', 'c', 'e'],
                    'value': [5, 6, 7, 8]})
# Использование on
pd.merge(df1, df2, on='key')

Unnamed: 0,key,value_x,value_y
0,a,1,5
1,b,2,6
2,c,3,7


In [106]:
# how = outer
pd.merge(df1, df2, on='key', how = 'outer')

Unnamed: 0,key,value_x,value_y
0,a,1.0,5.0
1,b,2.0,6.0
2,c,3.0,7.0
3,d,5.0,
4,e,,8.0


In [107]:
# how = right
pd.merge(df1, df2, on='key', how = 'right')

Unnamed: 0,key,value_x,value_y
0,a,1.0,5
1,b,2.0,6
2,c,3.0,7
3,e,,8


In [108]:
df1 = pd.DataFrame({'lkey': ['a', 'b'],
                    'value': [1, 2]})
df2 = pd.DataFrame({'rkey': ['a', 'b'],
                    'value': [5, 6]})
# how = cross
pd.merge(df1, df2, how='cross')

Unnamed: 0,lkey,value_x,rkey,value_y
0,a,1,a,5
1,a,1,b,6
2,b,2,a,5
3,b,2,b,6


In [109]:
df1 = pd.DataFrame({'word': ['aa', 'bb'],
                    'number': [1, 2]},
                    index=list('ab'))
df2 = pd.DataFrame({'word': ['aa', 'bb'],
                    'number': [5, 6]},
                    index=list('ab'))
# merge по индексам
pd.merge(df1, df2, left_index=True, right_index=True)

Unnamed: 0,word_x,number_x,word_y,number_y
a,aa,1,aa,5
b,bb,2,bb,6


### Группировка данных

##### groupby
1. Разделение данных на группы
2. Применение к каждой группе агрегирующей функции
3. Получение результата

In [111]:
df = pd.DataFrame({'region': ['Russia', 'USA', 'Germany', 'USA', 'Russia'],
                  'salary': [130, 170, 150, 190, 150]})
# Получение средней зарплаты по региону
df.groupby('region')['salary'].mean()

region
Germany    150.0
Russia     140.0
USA        180.0
Name: salary, dtype: float64

##### Агрегирующие функции
* count() – количество элеменов в группе
* sum() – сумма элементов в группе
* mean() – среднее значение по группе
* median() – медиана по группе
* min() – минимальное значение в группе
* max() – максимальное значение в группе
* mode() – мода группы
* std() – стандартное отклонение группы
* var() – дисперсия группы
* Любая другая агрегирующая функция (можно использовать свои)

##### Полезная функция reduce()

Функция reduce() принимает на вход 2 аргумента: функцию и последовательность. Затем reduce() последовательно применяет функцию-аргумент к элементам последовательности и возвращает единичное значение.

In [None]:
#Начиная с Python3 функция была перемещена в библиотеку functools
from functools import reduce

data = [1, 2, 3, 4, 5]
#Вычисление произведения
prod = reduce(lambda x,y: x * y, data)
prod

120

In [None]:
from functools import reduce

data = [10, -2, 4, 8, 6]
#Нахождение минимального числа
minimum = reduce(lambda x,y: x if x < y else y, data)
minimum

-2

reduce() может использоваться, как агрегирующая функция.

In [112]:
# Группировка по одному признаку
df = pd.DataFrame({'region': ['Russia', 'USA', 'Germany', 'USA', 'Russia'],
                  'salary': [130, 170, 150, 190, 150]})
#простая группировка с нахождением максимума
df.groupby('region').max()

Unnamed: 0_level_0,salary
region,Unnamed: 1_level_1
Germany,150
Russia,150
USA,190


In [113]:
# Группировка по нескольким признакам 
df = pd.DataFrame({'A': ['A1', 'A2', 'A3', 'A2', 'A1', 'A3', 'A2'],
                  'B': ['B2', 'B3', 'B3', 'B2', 'B2', 'B1', 'B2'],
                  'C': [13, 4, 8, 12, 7, 6, 9],
                  'D': [76, 23, 54, 13, 45, 28, 69]})
df.groupby(['A', 'B']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
A1,B2,10.0,60.5
A2,B2,10.5,41.0
A2,B3,4.0,23.0
A3,B1,6.0,28.0
A3,B3,8.0,54.0


In [114]:
# Применение нескольких агрегирующих функций
df = pd.DataFrame({'A': ['A1', 'A2', 'A3', 'A2', 'A1', 'A3', 'A2'],
                  'B': ['B2', 'B3', 'B3', 'B2', 'B2', 'B1', 'B2'],
                  'C': [13, 4, 8, 12, 7, 6, 9],
                  'D': [76, 23, 54, 13, 45, 28, 69]})
df.groupby(['A', 'B']).agg({'C': [np.sum, np.mean], 'D': [np.max, np.min]})

Unnamed: 0_level_0,Unnamed: 1_level_0,C,C,D,D
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,amax,amin
A,B,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
A1,B2,20,10.0,76,45
A2,B2,21,10.5,69,13
A2,B3,4,4.0,23,23
A3,B1,6,6.0,28,28
A3,B3,8,8.0,54,54


In [115]:
# Агрегация по конкретному столбцу
df = pd.DataFrame({'A': ['A1', 'A2', 'A3', 'A2', 'A1', 'A3', 'A2'],
                  'B': ['B2', 'B3', 'B3', 'B2', 'B2', 'B1', 'B2'],
                  'C': [13, 4, 8, 12, 7, 6, 9],
                  'D': [76, 23, 54, 13, 45, 28, 69]})
df.groupby(['A', 'B'])['C'].mean()

A   B 
A1  B2    10.0
A2  B2    10.5
    B3     4.0
A3  B1     6.0
    B3     8.0
Name: C, dtype: float64

In [116]:
# Агрегация с применением reduce()
from functools import reduce

def multiply(series):
      return reduce(lambda x, y: x * y, series)
    
df = pd.DataFrame({'A': ['A1', 'A2', 'A3', 'A2', 'A1', 'A3', 'A2'],
                  'B': ['B2', 'B3', 'B3', 'B2', 'B2', 'B1', 'B2'],
                  'C': [13, 4, 8, 12, 7, 6, 9],
                  'D': [76, 23, 54, 13, 45, 28, 69]})
df.groupby(['A', 'B'])['C'].agg(multiply)

A   B 
A1  B2     91
A2  B2    108
    B3      4
A3  B1      6
    B3      8
Name: C, dtype: int64

In [118]:
# Трансформация групп
df = pd.DataFrame({'A': ['A1', 'A2', 'A3', 'A2', 'A1', 'A3', 'A2'],
                  'B': [13, 4, 8, 12, 7, 6, 9],
                  'C': [76, 23, 54, 13, 45, 28, 69]})
# Для всех значений одной группы выставляется одно и то же значение вычисленного метода
df.groupby('A').transform('mean')

Unnamed: 0,B,C
0,10.0,60.5
1,8.333333,35.0
2,7.0,41.0
3,8.333333,35.0
4,10.0,60.5
5,7.0,41.0
6,8.333333,35.0


In [119]:
# Фильтрация групп
df = pd.DataFrame({'A': ['A1', 'A2', 'A3', 'A2', 'A1', 'A3', 'A2'],
                  'B': [13, 4, 8, 12, 7, 6, 9],
                  'C': [76, 23, 54, 13, 45, 28, 69]})
df.groupby('A').filter(lambda x: x['B'].mean() > 8, dropna=False)

Unnamed: 0,A,B,C
0,A1,13.0,76.0
1,A2,4.0,23.0
2,,,
3,A2,12.0,13.0
4,A1,7.0,45.0
5,,,
6,A2,9.0,69.0


### Сводные таблицы

##### pivot_table() – построение сводных таблиц данных
* values – столбцы для агрегирования
* index – ключи столбцов, по которым будет производиться группировка по индексу сводной таблицы
* columns – ключи столбцов, по которым будет производиться группировка по столбцам сводной таблицы
* аggfunc – агрегирующая функция
* другие вспомогательные параметры


In [120]:
# Группировка по индексам
df = pd.DataFrame({'A': ['A1', 'A2', 'A3', 'A2', 'A1', 'A3', 'A2'],
                  'B': ['B2', 'B3', 'B3', 'B2', 'B2', 'B1', 'B2'],
                  'C': [13, 4, 8, 12, 7, 6, 9],
                  'D': [76, 23, 54, 13, 45, 28, 69]})
pd.pivot_table(df, values=['C', 'D'], index=['A', 'B'], aggfunc=np.sum)

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
A1,B2,20,121
A2,B2,21,82
A2,B3,4,23
A3,B1,6,28
A3,B3,8,54


In [121]:
# Группировка по столбцам
df = pd.DataFrame({'A': ['A1', 'A2', 'A3', 'A2', 'A1', 'A3', 'A2'],
                  'B': ['B2', 'B3', 'B3', 'B2', 'B2', 'B1', 'B2'],
                  'C': [13, 4, 8, 12, 7, 6, 9],
                  'D': [76, 23, 54, 13, 45, 28, 69]})
pd.pivot_table(df, values=['C', 'D'], columns=['A', 'B'], aggfunc=np.sum)

A,A1,A2,A2,A3,A3
B,B2,B2,B3,B1,B3
C,20,21,4,6,8
D,121,82,23,28,54


In [122]:
# Комбинированная группировка
df = pd.DataFrame({'A': ['A1', 'A2', 'A3', 'A2', 'A1', 'A3', 'A2'],
                  'B': ['B2', 'B3', 'B3', 'B2', 'B2', 'B1', 'B2'],
                  'C': [13, 4, 8, 12, 7, 6, 9],
                  'D': [76, 23, 54, 13, 45, 28, 69]})
pd.pivot_table(df, values=['C'], index=['A'], columns=['B'], aggfunc=np.sum)

Unnamed: 0_level_0,C,C,C
B,B1,B2,B3
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A1,,20.0,
A2,,21.0,4.0
A3,6.0,,8.0
