# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [19]:
import pandas as pd 
df = pd.read_csv("data/sp500hst.txt", header=None)
# Обозначение столбцов
df.columns = ['date', 'ticker', 'open', 'high', 'low', 'close', 'volume']
print(df.head())

       date ticker   open     high     low  close  volume
0  20090821      A  25.60  25.6100  25.220  25.55   34758
1  20090824      A  25.64  25.7400  25.330  25.50   22247
2  20090825      A  25.50  25.7000  25.225  25.34   30891
3  20090826      A  25.32  25.6425  25.145  25.48   33334
4  20090827      A  25.50  25.5700  25.230  25.54   70176


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [20]:
mean_values = df.iloc[:, 3:7].mean()
print(mean_values)

high         43.102243
low          42.054464
close        42.601865
volume    81395.068138
dtype: float64


3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [25]:
# Преобразование столбца 'date' в datetime и получение числа месяца
df['month_day'] = pd.to_datetime(df["date"]).dt.day
print(df.head())

            date ticker   open     high     low  close  volume  month_day
0       20090821      A  25.60  25.6100  25.220  25.55   34758          1
1       20090824      A  25.64  25.7400  25.330  25.50   22247          1
2       20090825      A  25.50  25.7000  25.225  25.34   30891          1
3       20090826      A  25.32  25.6425  25.145  25.48   33334          1
4       20090827      A  25.50  25.5700  25.230  25.54   70176          1
...          ...    ...    ...      ...     ...    ...     ...        ...
122569  20100813    ZMH  51.72  51.9000  51.380  51.44   14561          1
122570  20100816    ZMH  51.13  51.4700  50.600  51.00   13489          1
122571  20100817    ZMH  51.14  51.6000  50.890  51.21   20498          1
122572  20100819    ZMH  51.63  51.6300  50.170  50.22   18259          1
122573  20100820    ZMH  50.03  50.5500  49.480  49.82   17792          1

[122574 rows x 8 columns]


4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [29]:
s_v  = df.groupby('ticker')['volume'].sum()
print(s_v)

<bound method NDFrame.head of ticker
A        8609336
AA      81898998
AAPL    52261170
ABC      9006756
ABT     18975870
          ...   
XTO     21297931
YHOO    56837171
YUM     10971538
ZION    15551119
ZMH      4938916
Name: volume, Length: 524, dtype: int64>


5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [None]:
df2  = ('data/sp_data2.csv')


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

1.5 Создайте серию из 10 случайных названий рецептов.

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

#### [версия 2]
* Уточнены формулировки задач 1.1, 3.3, 4.2, 5.1, 5.2, 5.3