## Настройка pandas

In [None]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datetime для работы с датами
import datetime
from datetime import datetime, date

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

## Объект Series

Создаем объект `Series`, состоящий из четырех элементов:

In [None]:
s = pd.Series([1, 2, 3, 4])
s

Получаем значение для метки индекса `1`:

In [None]:
s[1]

Возвращаем серию с элементами, у которых метки `1` и `3`:

In [None]:
s[[1, 3]]

Создаем серию, задав индекс (index) в явном виде:

In [None]:
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
s

Выбираем элементы серии, у которых метки индекса `a` и `d`:

In [None]:
s[['a', 'd']]

Передаем список целочисленных значений в объект `Series`, у которого метки индекса записаны в виде букв, поиск буквенных меток будет осуществлен на основе числового индекса, начинающегося с `0`, как если бы мы использовали обычный массив:

In [None]:
s[[1, 2]] # если серия из чисел?

Извлекаем только индекс объекта `Series`:

In [None]:
s.index

Создаем объект `Series`, индекс которого - серия дат между двумя определенными датами (включительно):

In [None]:
dates = pd.date_range('2020-04-12', '2020-04-18')
dates

Создаем объект `Series`, в котором значениям температуры будут соответствовать даты в индексе

In [None]:
temps1 = pd.Series([4, 2, 1, 4, 5, 2, 1], index=dates)
temps1

Какая температура была `2020-04-13`?

In [None]:
temps1['2020-04-13']

Создаем вторую серию значений, используя тот же самый индекс:

In [None]:
temps2 = pd.Series([2, 1, 0, 4, 7, 1, 3], index=dates)

Следующий программный код выравнивает обе серии по меткам индекса и вычисляет разницу температур в этих метках:

In [None]:
temp_diffs = temps1 - temps2
temp_diffs

Вычислим разницу температур для определенной числовой метки индекса, как если бы серия была массивом:

In [None]:
temp_diffs[2]

Вычисляем среднее значение разности температур:

In [None]:
temp_diffs.mean()

## Объект DataFrame

Создаем объект `DataFrame` с двумя сериями `temp1` и `temp2` и присваиваем им имена столбцов:

In [None]:
temps_df = pd.DataFrame({'Москва': temps1, 'Петербург': temps2})
temps_df

Получаем столбец `Москва`:

In [None]:
temps_df['Москва']

Выводим оба столбца:

In [None]:
temps_df[['Москва', 'Петербург']]

Извлекаем столбец `Москва` с помощью "вычисляемого" свойства:

In [None]:
temps_df.Москва

Вычисляем разницу температур двух городов:

In [None]:
temps_df.Москва - temps_df.Петербург

Добавляем в датафрейм `temp_df` столбец `Разница`, который содержит разности температур:

In [None]:
temps_df['Разница'] = temp_diffs
temps_df

Получаем имена столбцов, которые к тому же являются объектом `Index`:

In [None]:
temps_df.columns

Отбираем значения разностей температур в столбце `Разница`, начиная с позиции `1` и заканчивая позицией `4`, как если бы это был массив. 

Обратите внимание, что конец диапазона не включается, то есть диапазон не включает элемент с позицией `4`:

In [None]:
temps_df.Разница[1:4]

Получаем строку, которой соответствует метка индекса `1`:

In [None]:
temps_df.iloc[1]

Имена столбцов стали индексом, мы "повернули" их:

In [None]:
temps_df.iloc[1].index

Извлекаем строку с помощью метки индекса, воспользовавшись свойством `.loc`:

In [None]:
temps_df.loc['2020-04-16']

Получаем значения столбца `Разница` в строках `1`, `3` и `5`, используя целочисленные позиции с началом отсчета в `0`:

In [None]:
temps_df.iloc[[1, 3, 5]].Разница

Какие значения в столбце `Москва > 1`?

In [None]:
temps_df.Москва > 1

Возвращаем строки, в которых значения температуры для столбца `Москва > 1`:

In [None]:
temps_df[temps_df.Москва > 1]

## Загрузка данных из CSV-файла в объект DataFrame

Считываем содержимое файла в объект `DataFrame`:

In [None]:
df = pd.read_csv('Data/orders.csv')
df

Выводим содержимое столбца с датами:

In [None]:
df.order_date

Мы можем получить первое значение в столбце с датами:

In [None]:
df.order_date[0]

Оно является строкой:

In [None]:
type(df.order_date[0])

Считываем данные и указываем библиотеке `pandas`,что в итоговом датафрейме значения столбца с датами должны быть фактическими датами:

In [None]:
df = pd.read_csv('Data/orders.csv', parse_dates=['order_date'])
df

Проверяем, являются ли сейчас значения столбца `order_date` датами, то есть фактически им присвоен тип `Timestamp`:

In [None]:
type(df.order_date[0])

К сожалению, индекс использует числовые значения, что затрудняет вывод данных по дате:

In [None]:
df.index

Считываем данные снова, теперь задаем столбец с датами в качестве индекса датафрейма:

In [None]:
df = pd.read_csv('Data/orders.csv', parse_dates=['order_date'], index_col='order_date')
df

Теперь индекс - это `DatetimeIndex`:

In [None]:
df.index

## Визуализация

На основе значений столбца `sales` строим график:

In [None]:
df.sales.plot();