# Трюки в Pandas

Загрузим датасет с данными о оценках фильмов в IMDB

In [None]:
import pandas as pd

movie_data = pd.read_csv('./data/movie_metadata.csv')
movie_data.head()

Отберем колонки для обработки

In [None]:
genres = movie_data[['movie_title', 'genres']]
genres.head()

## Обработка данных
Как применить функцию к данным?

In [None]:
def reversator(value):
    return value[::-1]

1. Итерирование в python

In [None]:
for row in genres.values:
    for value in row:
        reversator(value)

2. Итеррирование методами iterrows (по строкам) и iteritems (по колонкам)

In [None]:
for i, row in genres.iterrows():
    row.map(reversator)

In [None]:
for i, col in genres.iteritems():
    col.map(reversator)

3. Применение методов apply (к строке или колонке) и applymap (к каждому значению)

In [None]:
budget = movie_data[['budget', 'duration']]

In [None]:
budget = budget.applymap(lambda x: x + 1)

In [None]:
import numpy as np

mean = budget.apply(np.mean, axis=0)

budget = budget.apply(lambda x: x + 1)

4. Применение агрегирующих методов DataFrame. (наиболее оптимальный)

In [None]:
mean = budget.mean() + 1

5. Применение методов numpy. (быстрый для больших объемов данных)

In [None]:
np.mean(budget['budget'].dropna().values)

## Работа с time series

In [None]:
stocks_data = pd.read_csv('./data/amzn_stock.csv', index_col='Date', parse_dates=True)
stocks_data.head()

Отберём данные по частично указанной дате.  
Выведем данные за год

In [None]:
stocks_data['2010'].head()

Выведем данные за промежуток времени

In [None]:
stocks_data['2010-02':'2011-03']

Resample позволяет выделить данные с интервалом.
Например, выведем данные, средние за неделю

In [None]:
stocks_data.resample('1w').mean()

Pandas позволяет использовать оконные функции.  
Например, применим операцию вычисления среднего, используя ранее добавленные данные (окно в 3 измерения)

In [None]:
stocks_data.rolling(window=3, min_periods=1).mean()

Воспользуемся расширяемым окном

In [None]:
stocks_data.expanding().mean()

Применение оконных функций - склаживание функций

In [None]:
stocks_data['Open'].plot()

In [None]:
ns = stocks_data['Open'].rolling(10, min_periods=1).mean()
ns.plot()

### Задание
К вам попали наблюдения о числе перелетающих на зимовку стрижей, представленные в виде пандасовской серии wintering.  
В каждой ячейке указано число пролетевших птиц за этот день.  
Посчитайте с помощью expanding окна количество всех перелетевших птиц за всё время до данного и поместите в переменную total_birds.

In [None]:
# total_birds = wintering.expanding().sum()

В timeseries можно легко получать информацию о конкретных днях.  
Подсчитаем количество дней в датасете

In [None]:
stocks_data.index.day_name().value_counts()