## Часть 4: Знакомство с pandas.

Автор: Потанин Марк, mark.potanin@phystech.edu

Pandas — это библиотека Python, предоставляющая широкие возможности для анализа данных. Данные, с которыми работают датасаентисты, часто хранятся в форме табличек — например, в форматах .csv, .tsv или .xlsx. С помощью библиотеки Pandas такие табличные данные очень удобно загружать, обрабатывать и анализировать. А в связке с библиотеками Matplotlib и Seaborn Pandas предоставляет широкие возможности визуального анализа табличных данных. Аналитик на Python использует ее в своей работе практически каждый день.

Основными структурами данных в Pandas являются классы Series и DataFrame. Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй – это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа Series. Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

Для начала импортируем библиотеку в наще окружение с помощью `import pandas as pd`, а так же импортируем библиотеку `numpy`.

In [None]:
!pip install pandas

In [None]:
import pandas as pd
import numpy as np

#### Объект Series библиотеки Pandas.

Объект `Series` - одномерный массив индексированных данных. Это такая колонка с данными, как в `Excel`. Слева у нас стоят индексы элементов, а справа - соответствующие значения.

Все способы создания объектов `Series` представляют собой различные варианты следующего синтаксиса: `pd.Series(data, index=index)`, где `index` - необязательный аргумент, а `data` может быть одной из множества сущностей.

In [None]:
s = pd.Series([1,3,5,4,6,8])
s

Для того, чтобы получить доступ к индексам и значениям нашего объекта, помогут методы `index` и `values`.

In [None]:
print(s.index) # массивоподобный объект типа pd.Index
print(s.values) # массив значений объекта Series

In [None]:
s.values

Как и при работе с массивами, можно делать срезы нашей колонки.

In [None]:
s[1:3]

Основное отличие от массива NumPy в том, что индекс объекта Series библиотеки Pandas описывается явно и связывается со значением.


In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

Доступ к элементам осуществляется по индексу.

In [None]:
data['b']

Можно применять даже индексы, состоящие из несмежных или непоследовательных значений.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])
data

Объект Series можно создать из обычного питоновского словаря.

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

In [None]:
population['California']

In [None]:
population['California': 'Florida']

Функция `pd.date_range()` позволяет создать список дат нужной длины и с нужным шагом. 

In [None]:
dates = pd.date_range(start='2021-03-01', end = '2021-03-06')
dates

In [None]:
dates = pd.date_range(start='2021-03-01', periods=100)
dates

In [None]:
dates = pd.date_range(start='2021-03-01', periods=6,freq='Y')
dates

In [None]:
dates = pd.date_range(start='2021-03-01', periods=6,freq='Y')
dates

Этот спсиок можно передать в качестве индекса в создаваемый объект `Series`. Создадим временную колонку, пусть, например, это будет число приянятых на работу сотрудников в каждый месяц 20-го года.

In [None]:
dates = pd.date_range(start='2020-01', periods=12,freq='M')
pd.Series(range(12),index=dates)

#### Объект DataFrame библиотеки Pandas.

Если объект `Series` - аналог одномерного массива с гибкими индексами, объект `DataFrame` - аналог двумерного массива с гибкими индексами строк и гибкими именами столбцов. 

Второй – это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа.  Структура `DataFrame` отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.



In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

In [None]:
states = pd.DataFrame({'population': population, 'area': area})
states

Аналогично `Series` объект `DataFrame` имеет метод `index`, обеспечивающий доступ к меткам индекса. Так же есть метод `columns`, представляющий собой содержащий метки столбцов.

In [None]:
states.index

In [None]:
states.columns

In [None]:
states.values

Таким образом  `DataFrame` можно рассматривать как обобщение двумерного массива NumPy, где как у строк, так и у столбцов есть индексы для доступа к данным.

`DataFrame` можно создать из одного объекта `Series`.

In [None]:
pd.DataFrame(population, columns=['population'])

Можно создать из списка словарей.

In [None]:
data = [{'a': i, 'b': i * 2} for i in range(5)]
pd.DataFrame(data)

Даже если некоторые ключи в словаре отсутствуют, библиотека Pandas просто заполнит из занчениями `NaN` (то есть Not a number - "не является числом").

In [None]:
pd.DataFrame([{'a':1, 'b': 2}, {'b':3, 'c':4}])

Из словаря объектов `Series`.

In [None]:
pd.DataFrame({'population': population, 'area': area})

Из массива NumPy.

In [None]:
dates = pd.date_range(start='2021-03-01', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates,columns=['one','two','three','four'])
df

In [None]:
df2 = pd.DataFrame({ 'A' : 1.,                   'B' : pd.Timestamp('20130102'),
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                      'D' : np.array([3] * 4,dtype='int32'),
                   'F' : 'foo' })

df2

Посмотреть типы каждой колонки поможет метод `dtypes`.

In [None]:
df2.dtypes

In [None]:
df

#### Получение данных из таблицы.

In [None]:
df['one']

In [None]:
df.one

In [None]:
df[0:3]

In [None]:
df['2021-03-01':'2021-03-03']

Существуют специальные методы для индексации (индексаторы): `loc` и `iloc`.

`loc` позволяет выполнить индексацию и срезы с использованием явного индекса:

In [None]:
df.loc['2021-03-01']

Так же индексирование по столбцам.

In [None]:
df

In [None]:
df.loc['2021-03-01','one']

По столбцам и строкам.

In [None]:
df.loc['2021-03-01':'2021-03-03',['one','two']]

In [None]:
df.loc['20210301',['one','two']]

Чтобы получить одно значение (один элемент матрицы).

In [None]:
df.loc['20210301','one']

Атрибут `iloc` дает возможность выполнить индексацию и срезы, применяя неявный индекс (порядковый номер) - как для столбцов, так и для строк.

In [None]:
df

In [None]:
df.iloc[3,2]

In [None]:
df.iloc[[1,2,4],[0,2]]

In [None]:
df.iloc[1:3,:]

In [None]:
df.iloc[:,1:3]

In [None]:
df.iloc[1,1]

#### Срезы по значениям.

Pandas позволяет проводить филтрацию по какому-нибудь условию. Выходом будет часть таблицы и колонки, которая удовлетворяет заданному условию. Такая процедура называется **маскированием**.

In [None]:
one_column = df['two']

In [None]:
one_column

In [None]:
one_column>0.5

In [None]:
one_column[one_column>0.5]

In [None]:
df[df.one > 0.0]

Можно использовать несколько условий.

In [None]:
df[(df.one > 0.0)&(df.two>0.0)]

В индексаторе `loc` можно сочетать маскирование и и выбор необходимых столбцов.

In [None]:
df.loc[(df.one > 0.7)&(df.two>0.5),['three','four']]

In [None]:
df2 = df.copy()
df2['five'] = ['one', 'one','two','three','four','three']
df2

Для проверки того, что значения столбца находятся в определенном массиве данных используется маскирование с методом `isin`.

In [None]:
df2[df2['five'].isin(['two','four'])]

#### Как быстро посмотреть на данные, с которым мы имеем дело.

Посмотреть на верхние и нижние строки таблицы помогут методы `head` и `tail` соответственно. По умолчанию количество отображаемых элементов равно пяти, но вы можете передать собственное число.

In [None]:
df

In [None]:
df.head(3)

Посмотреть на последние 3 строки.

In [None]:
df.tail(3)

In [None]:
df.index

In [None]:
df.columns

Получить все элементы таблицы в виде двумерного массива NumPy поможет метод `values`.

In [None]:
df.values

Метод `describe()` показывает краткую статистическую сводку ваших данных. Он выводит следующие статистики `count` - количество объектов в столбце (просто некоторые значения помогут быть пропущены),  `mean` - среднее по столбцу, `std` - стандартное отклонение по столбцу, `min` и `max` - минимальное и максимальное значения соответственно. `25%`, `50%`, `75%` - значения разных перцентилей. Выходом метода `describe()` является новая таблица со стоатистиками.

In [None]:
df

In [None]:
df.describe()

Транспонирование данных происходит с помощью метода `T`. Транспонирование - переворот таблички, то есть строки становятся столбцами, а столбцы - строками.

In [None]:
df.T

Сортировка по осям происходит с помощью метода `sort_index`. Аргумент `axis=1` означает сортировку по индексам столбцов, `axis=0` - сортировка по индексам строк. `ascending=False` - сортирует по убыванию, `ascending=True` - по возрастанию.

In [None]:
df.sort_index(axis=1, ascending=True)

In [None]:
df.sort_index(axis=0, ascending=True)

Сортировка по значениям происходит методом `sort_values`. Нужно передать ось, по которой нужно сортировать (0 - столбцы, 1 - строки), а так же индекс колнки/столбца.

In [None]:
df.sort_values(by=['two','one'],axis=0)

In [None]:
df.sort_values(by='2021-03-03',axis=1)

#### Добавление данных

Вот у нас есть объект `Series` или `DataFrame`, который мы создали. Что если мы хотим изменить существующую информацию или добавить новую?

In [None]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20211101', periods=6))
s1

Посмотрим на наш уже известный датафрейм.

Добавление столбца происходит следующим образом `df[name] = new_column`. Где `name` - название нового столбца, который мы хотим добавить, а `new_column` - как раз объект `Series`, который мы хотим добавить.

In [None]:
df['six'] = s1
df

Изменить определенное значение в таблице можно в помощью метода `loc`. Комманда имеет следующие синтаксис `df.loc[row_index,column_index] = new_value`.

In [None]:
dates

In [None]:
df

In [None]:
df.loc[dates[0],'one'] = 0
df

То же самое можно сделать используя порядковые индексы столбцов и строк с помощью метода `iloc`.

In [None]:
df.iloc[0,1] = 0
df

Можно заменить целый столбец.

In [None]:
df.loc[:,'four'] = np.array([5] * len(df))
df

Можно заменить значения на основе булевой маски.

In [None]:
df2 = df.copy()
df2[df2 > 0] 

In [None]:
df2

In [None]:
df2[df2 > 0] = -df2
df2

Видим, что значения, которые были больше нуля в исходной таблице, поменяли знак на противоположный.

#### Пропущенные значения.

Очень часто в имеющихся данных присутствуют пропущенные значения. Pandas использует значение np.nan для представления отсутствующих данных. По умолчанию он не включается в вычисления.

In [None]:
pd.Series([1, np.nan, 2, None])

In [None]:
x = pd.Series(range(2), dtype=int)
x

In [None]:
x[0] = None
x

`None` - встроенный тип пропущенных данных (ничего, пусто) в языке Python. `np.nan` - еще одно представление отсутствующих данных в библиотеке NumPy. Pandas использует последний вариант, а также способен автоматически приводить первый вариант к последнему.

In [None]:
df

Функция `reindex` (переиндексирование) позволяет вам изменить/добавить/удалить индекс на указанной оси. Она возвращает копию данных.

In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])

In [None]:
df1

In [None]:
df1.loc[dates[0]:dates[1],'E'] = 1
df1

Для работы над пропущенным значениями есть несколько полезных функций:

`isnull()` — генерирует булеву маску для отсутствующих значений.

`notnull()` — противоположность метода isnull().

`dropna()` — возвращает отфильтрованный вариант данных.

`fillna()` — возвращает копию данных, в которой пропущенные значения заполнены или восстановлены.

In [None]:
df1

In [None]:
df1['E'].isnull()

In [None]:
df1['E'].notnull()

Чтобы удалить столбцы, в которых имеются пропущенные значения.

In [None]:
df1

In [None]:
df1.dropna(how='any',axis=1)

Заполнить пропущенные значения можно метожов `fillna`, ему нужно передать значения, которым требуется заполнить пропуски.

In [None]:
df1

In [None]:
df1['six'].fillna(value=5,inplace=True)

In [None]:
df1

#### Различные операции с данными.

Важно помнить, что операции с данными в целом не обращают внимание на пропущенные значения.

Чтобы посмотреть среднее по столбцам используем метод `mean()`.

In [None]:
df

In [None]:
df.mean()

По строкам.

In [None]:
df.mean(axis=1)

In [None]:
s = pd.Series([1,3,5,np.nan,6,8], index=dates)

Метод `shift` сдвигает значения не указанное количество шагов вперед, или назад - если аргумент отрицательный.

In [None]:
pd.Series([1,3,5,np.nan,6,8], index=dates).shift(3)

In [None]:
pd.Series([1,3,5,np.nan,6,8], index=dates).shift(-2)

In [None]:
df

Операция `sub` вычитает из каждого столбца имеющейся таблицы указанный столбец поэелементно.

In [None]:
df.sub(s, axis='index')

#### Apply

В pandas к данным в таблице можно применять практически любые функции, в том числе из других библиотек, например NumPy.

In [None]:
df.apply(np.max)

In [None]:

df.apply(np.max,axis=1)

Взятие модуля от числа.

In [None]:
df

In [None]:
df.apply(np.abs)

`np.cumsum` - функция накопительной суммы. То есть к кадому следующему значению в столбце, прибавляется сумма всех предыдущих. Обратите внимание на столбце `four`.

In [None]:
df.apply(np.cumsum)

Очень полезная функция `value_counts()` является своеобразным счетчиком. Оно считает количество вхождений каждого элемента в столбец. Выходом функции является новый объект `Series`, в котором индексами являются уникальные элементы в наборе, а значениями - количество их вхождений.

In [None]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

In [None]:
s.value_counts()

#### Строки

Series оснащен набором методов обработки строк в атрибуте `str`, которые упрощают работу с каждым элементом массива, как показано в фрагменте кода ниже.

In [None]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])


In [None]:
s.str.lower()

Возвращает длину каждой строки.

In [None]:
s.str.len()

Фильтрация по какому либо условия. В данном случае, мы пытаемся найти в столбце те строки, которые начинаются с заглавной `A`.

In [None]:
s

In [None]:
s.str.startswith('A')

#### Объединение наборов данных: конкатенация и добавление в конец

В Pandas можно производить различные операции с таблицами как с сущностями. Можно объединять их или конкатенировать.

Создадим новую таблицу.

In [None]:
df = pd.DataFrame(np.random.randn(11, 4))
df

Разобъем ее на отдельные кусочки методом среза.

In [None]:
pieces = [df[:4], df[3:7], df[7:]]
pieces

In [None]:
pieces[2]

Функцию `pd.concat` можно использовать для простой конкатенации объектов `Series` или `DataFrame`. По умолчанию конкатенация происходит в объекте `DataFrame` построчно, то есть `axis=0`. Функция `pd.concat()` позволяет указывать ось, по которой будет выполняться конкатенация.

In [None]:
pieces

In [None]:
pd.concat(pieces)


In [None]:
pieces[0]

In [None]:
#Сделаем у каждой маленькой таблице в наборе индексы строк такие же, как у первой маленьой таблицы
for small_df in pieces:
    small_df.index = pieces[0].index

In [None]:
pieces[2]

In [None]:
pd.concat(pieces,axis=1)


То же самое можно выполнить с помощью операции `append`, которая имеет синтаксис `df1.append(df2)`.

In [None]:
df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])
df

In [None]:
s = df.iloc[3]
s

In [None]:
df.append(s,ignore_index=True)

#### Объединение наборов данных: слияние и соединение

Одно из важных свойств библиотеки Pandas — ее высокопроизводительные, выполняемые в оперативной памяти операции соединения и слияния. Библиотека Pandas реализует эти операции в функции `pd.merge()` и родственном ей методе `join()` объектов `Series` и `DataFrame`. Они обеспечивают возможность эффективно связывать данные из различных источников.

#### Соединения "один к одному".

In [None]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 
                    'hire_data': [2014, 2018, 2012, 2020]})
print(df1)
print()
print(df2)

Чтобы объединить эту информацию в один объект DataFrame, воспользуемся функцией `pd.merge()`:

In [None]:
df3 = pd.merge(df1, df2)
df3

Функция `pd.merge()` распознает, что в обоих объектах `DataFrame` имеется столбец `employee`, и автоматически выполняет соединение, используя этот столбец в качестве ключа. Результатом слияния становится новый объект `DataFrame`, объединяющий информацию из двух входных объектов. Обратите внимание, что порядок записей в столбцах не обязательно сохраняется: в данном случае сортировка столбца `employee` различна в объектах `df1` и `df2` и функция `pd.merge()` обрабатывает эту ситуацию корректным образом. Кроме того, не забывайте, что слияние игнорирует индекс, за исключением особого случая слияния по индексу.

#### Соединение "многие-ко-многим".

Соединения «многие-ко-многим» семантически несколько более сложны, но тем не менее четко определены. Если столбец ключа как в левом, так и в правом массивах содержит повторяющиеся значения, результат окажется слиянием типа «многие-ко-многим». Рассмотрим следующий пример, в котором объект `DataFrame` отражает один или несколько навыков, соответствующих конкретной группе. Выполнив соединение «многие-ко-многим», можно выяснить навыки каждого конкретного человека:

In [None]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']})

In [None]:
df5

In [None]:
pd.merge(df1, df5)

Задание ключа слияния производится с помощью ключевого слова `on`. Нужно указать название ключевого столбца с помощью ключевого слова `on`, в котором указывается название или список названий столбцов.

In [None]:
df1

In [None]:
df2

In [None]:
pd.merge(df1, df2, on='employee')

Этот параметр работает только в том случае, когда в левом и правом объектах DataFrame имеется указанное название столбца.

Иногда приходится выполнять слияние двух наборов данных с различными именами столбцов. Например, у нас может быть набор данных, в котором столбец для имени служащего называется `Name`, а не `Employee`. В этом случае можно воспользоваться ключевыми словами `left_on` и `right_on` для указания названий двух нужных столбцов.

In [None]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 'salary':[70000, 80000, 120000, 90000]})

In [None]:
df3

In [None]:
pd.merge(df1, df3, left_on='employee', right_on='name')


Результат этой операции содержит избыточный столбец, который можно при желании удалить. Например, с помощью имеющегося в объектах `DataFrame` метода `drop()`.

In [None]:
pd.merge(df1, df3, left_on='employee', right_on='name').drop('name', axis=1)

Иногда удобнее вместо слияния по столбцу выполнить слияние по индексу. Для этого используются ключевые слова `left_index` и `right_index`. Допустим, у нас имеются следующие данные:

In [None]:
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')

В данном случае метод `set_index` ставит определенный столбце таблицы в качестве индекса.

In [None]:
df1a

In [None]:
df2a

Можно использовать индекс в качестве ключа слияния путем указания в методе `pd.merge()` флагов `left_index` и/или `right_index`:

In [None]:
pd.merge(df1a, df2a, left_index=True, right_index=True)

Для удобства в объектах `DataFrame` реализован метод `join()`, выполняющий по умолчанию слияние по индексам:

In [None]:
df1a.join(df2a)

Во всех предыдущих примерах мы игнорировали один важный нюанс выполнения соединения — вид используемой при соединении операции алгебры множеств. Это играет важную роль в случаях, когда какое-либо значение есть в одном ключевом столбце, но отсутствует в другом. Рассмотрим следующий пример:

In [None]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'], 'food': ['fish', 'beans', 'bread']}, columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'], 'drink': ['wine', 'beer']}, columns=['name', 'drink'])

In [None]:
df6

In [None]:
df7

In [None]:
pd.merge(df6, df7)

Здесь мы слили воедино два набора данных, у которых совпадает только одна запись `name`: Mary. По умолчанию результат будет содержать пересечение двух входных множеств — внутреннее соединение (`inner join`). Можно указать это явным образом, с помощью ключевого слова `how`, имеющего по умолчанию значение `'inner'`:

In [None]:
pd.merge(df6, df7, how='inner')

Левое соединение `left join` и правое соединение `right join` выполняют соединение по записям слева и справа соответственно. Например:

In [None]:
pd.merge(df6, df7, how='left')

Строки результата теперь соответствуют записям в левом из входных объектов. Опция `how='right'` работает аналогичным образом.

In [None]:
pd.merge(df6, df7, how='right')

#### Группировка.

Простые агрегирующие функции (`max`,`mean`) дают возможность «прочувствовать» набор данных, но зачастую бывает нужно выполнить условное агрегирование по какой-либо метке или индексу. Это действие реализовано в так называемой операции `groupby`. Синтаксис у функции следующий `df.groupby(column).function()`. Где `column` - столбец, по значениями которого хочется сгруппировать таблицу, а `function` - какую аггрегирующую функцию применить для значений столбца.

In [None]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                           'foo', 'bar', 'foo', 'foo'],
                    'B' : ['one', 'one', 'two', 'three',
                           'two', 'two', 'one', 'three'],
                    'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
df

Сгруппировать таблицу по уникальным значениями столбца `A`, и проссумировать получившиеся подмассивы.

In [None]:
df.groupby('A').sum()

Можно произвести группировку сразу по значениям двух столбцов.

In [None]:
df.groupby(['A','B']).sum()

Можно применить несколько функций сразу.

In [None]:
df.groupby('A').aggregate(['sum','median','max'])

А можно применить разные функции к определенным столбцам.

In [None]:
df.groupby('A').aggregate({'C': 'min', 'D': 'max'})

#### Сводные таблицы

Сводная таблица получает на входе простые данные в виде столбцов и группирует записи в двумерную таблицу, обеспечивающую многомерное представление данных. 

In [None]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,\
                   'B' : ['A', 'B', 'C'] * 4,\
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,\
                    'D' : np.random.randn(12),\
                   'E' : np.random.randn(12)})
df

Функция `pd.pivot_table()` имеет следующий список аргументов:

* `data` - таблица для преобразования
* `values` - столбец, или список столбцов для аггрегации
* `index` -  столбец, или список столбцов для использования в качестве ключей для индеков сводной таблицы. 
* `columns` - столбец, или список столбцов для использования в качестве ключей для столбцов сводной таблицы.
* `aggfunc` - функция, применяемая к значениям `values`

In [None]:
pd.pivot_table(df[['B','C','E']], values='E', index='B', columns='C',aggfunc='mean')

In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'],aggfunc='mean')

#### Работа с временными рядами

Как уже говорилось ранее, в Pandas можно создавать массивы временных интервалов. Для этого служит функция `pd.date_range()`. Создадим временной интрвал длиной 100 точек, и с периодом в одну секунду. Затем используем его в качестве индекса для объекта `Series`.

In [None]:
rng = pd.date_range('1/1/2021', periods=100, freq='S')
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)


In [None]:
ts

Функция `resample(timeinterval).aggfunc()` позволяет произвести вычисления над этим временным рядом. В качестве `interval` указываем период, внутри которого хотим применить функция `aggfunc`. В следующем примере мы пробегаемся по исходному временному ряду, и суммируем значения в интрвале 5 секунд.

In [None]:
ts.resample('25s').mean()

In [None]:
ts.resample('12s').mean()

#### Визуализация.

Pandas предлагает встроенные интрументы для визуализации данных. Хотя подробнее о визуализации мы поговорим на следующем занятии.

In [None]:
from matplotlib import pyplot as plt
%matplotlib inline

In [None]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts = ts.cumsum()
ts.plot()

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,columns=['A', 'B', 'C', 'D'])
df = df.cumsum()
plt.figure(); df.plot(); plt.legend(loc='best')

#### Сохранение и загрузка данных.

In [None]:
df.head()

In [None]:
df

Вот мы произвели некоторые вычисления с нашими данными. Теперь было бы неплохо их записать в файл, и отправить по почте, например. Для записи в файл используется функция `to_csv(filename)`. А для загрузки из файла используется функция `read_csv(filename)`.

In [None]:
df.to_csv('my_file.csv')

In [None]:
read_df = pd.read_csv('my_file.csv')

In [None]:
read_df.head()