# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [2]:
import numpy as np
import pandas as pd

recipes = pd.read_csv('data/recipes_sample.csv', parse_dates=['submitted'])
reviews = pd.read_csv('data/reviews_sample.csv')

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [3]:
print("Рецепты:")
print("Количество строк:", len(recipes))
print("Количество столбцов:", len(recipes.columns))
print("Типы данных:\n", recipes.dtypes)

print("\nОтзывы:")
print("Количество строк:", len(reviews))
print("Количество столбцов:", len(reviews.columns))
print("Типы данных:\n", reviews.dtypes)

Рецепты:
Количество строк: 30000
Количество столбцов: 8
Типы данных:
 name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object

Отзывы:
Количество строк: 126696
Количество столбцов: 6
Типы данных:
 Unnamed: 0     int64
user_id        int64
recipe_id      int64
date          object
rating         int64
review        object
dtype: object


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [4]:
print("Рецепты:")
print(recipes.isna().any())
print("Доля строк, содержащих пропуски:", len(recipes[recipes.isna().any(axis=1)]) / len(recipes))

print("\nОтзывы:")
print(reviews.isna().any())
print("Доля строк, содержащих пропуски:", len(reviews[reviews.isna().any(axis=1)]) / len(reviews))

Рецепты:
name              False
id                False
minutes           False
contributor_id    False
submitted         False
n_steps            True
description        True
n_ingredients      True
dtype: bool
Доля строк, содержащих пропуски: 0.5684666666666667

Отзывы:
Unnamed: 0    False
user_id       False
recipe_id     False
date          False
rating        False
review         True
dtype: bool
Доля строк, содержащих пропуски: 0.00013417945317926376


1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [5]:
print("Рецепты:")
print(recipes.select_dtypes(include=['int', 'float']).mean())

print("\nОтзывы:")
print(reviews.select_dtypes(include=['int', 'float']).mean())

Рецепты:
id                2.218793e+05
minutes           1.233581e+02
contributor_id    5.635901e+06
n_steps           9.805582e+00
n_ingredients     9.008286e+00
dtype: float64

Отзывы:
Unnamed: 0    5.660898e+05
user_id       1.408013e+08
recipe_id     1.600944e+05
rating        4.410802e+00
dtype: float64


1.5 Создайте серию из 10 случайных названий рецептов.

In [6]:
import random

recipe_names = recipes['name'].sample(n=10, random_state=random.seed()).reset_index(drop=True)
print(recipe_names)

0                            light scalloped potatoes
1                            melt in your mouth melon
2                                 tasty protein pulao
3                        homemade soft  butter spread
4                                       reuben burger
5                                          magic stew
6                     taco seasoned meat and potatoes
7                                  blender fruit pops
8    twice baked potatoes with goat cheese and chives
9                      hot peaches with lettuce salad
Name: name, dtype: object


1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [7]:
reviews.reset_index(drop=True, inplace=True)

1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [8]:
short_recipes = recipes[(recipes['minutes'] <= 20) & (recipes['n_ingredients'] <= 5)]
print(short_recipes)

                                                    name      id  minutes  \
28                                   quick biscuit bread  302399       20   
60                         peas  fit for a king or queen  303944       20   
90                     hawaiian sunrise           mimosa  100837        5   
91            tasty dish s   banana pudding in 2 minutes  286484        2   
94                                    1 minute meatballs   11361       13   
...                                                  ...     ...      ...   
29873  zip and steam red potatoes with butter and garlic  304922       13   
29874                          ziplock vanilla ice cream   74250       10   
29905                      zucchini and corn with cheese  256177       15   
29980               zucchini with jalapeno monterey jack  320622       10   
29983                          zucchini with serrano ham  162411       15   

       contributor_id  submitted  n_steps  \
28             213909 2008-05-

### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [9]:
recipes['submitted'] = pd.to_datetime(recipes['submitted'])

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [10]:
recipes_before2010 = recipes[recipes['submitted'].dt.year < 2010]
print("Количество рецептов, добавленных не позже 2010:", len(recipes_before2010))
print(recipes_before2010)

Количество рецептов, добавленных не позже 2010: 26123
                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29993                     zuni caf zucchini pickles  316950     2895   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25    

### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [11]:
recipes['description_length'] = recipes['description'].str.len()

3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [12]:
recipes['name'] = recipes['name'].str.title()

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [13]:
recipes['name_word_count'] = recipes['name'].str.split().apply(len)

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [14]:
recipe_count = recipes.groupby('contributor_id')['id'].count()
print("Добавил больше всего рецептов:", recipe_count.idxmax())

Добавил больше всего рецептов: 89831


4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [15]:
reviewed_ids = reviews['recipe_id'].unique()
reviewed_recipes = recipes[recipes['id'].isin(reviewed_ids)]
reviewed_recipes_with_rating = reviewed_recipes.merge(reviews, left_on='id', right_on='recipe_id', how='inner')
average_ratings = reviewed_recipes_with_rating.groupby('id')['rating'].mean()

missing_ratings_count = len(recipes) - len(reviewed_recipes)
print('Количество рецептов с отсутствующими отзывами: ', missing_ratings_count)

Количество рецептов с отсутствующими отзывами:  1900


4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [16]:
recipes['year_submitted'] = pd.to_datetime(recipes['submitted']).dt.year
recipes_by_year = recipes.groupby('year_submitted')['id'].count()
print(recipes_by_year)

year_submitted
1999     275
2000     104
2001     589
2002    2644
2003    2334
2004    2153
2005    3130
2006    3473
2007    4429
2008    4029
2009    2963
2010    1538
2011     922
2012     659
2013     490
2014     139
2015      42
2016      24
2017      39
2018      24
Name: id, dtype: int64


### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [17]:
merged_revievs = recipes.merge(reviews, left_on='id', right_on='recipe_id', how='inner')[['id', 'name', 'user_id', 'rating']]
merged_revievs = merged_revievs.groupby('id').filter(lambda x: len(x) > 0)


print(merged_revievs[merged_revievs['id'] == 223349])
#id взят из следующего пункта, где выведены все рецепты, не имеющие отзывов

Empty DataFrame
Columns: [id, name, user_id, rating]
Index: []


5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [18]:
review_count = reviews.groupby('recipe_id')['rating'].count()
recipe_review_count = recipes.merge(review_count, left_on='id', right_on='recipe_id', how='left')[['id', 'name', 'rating']]
recipe_review_count['rating'] = recipe_review_count['rating'].fillna(0).astype(int)
recipe_review_count = recipe_review_count.rename(columns={'id': 'recipe_id', 'rating': 'review_count'})

print(recipe_review_count[recipe_review_count['review_count'] == 0])
#количество строк совпадает с числом рецептов, найденных в задании 4.2

       recipe_id                                     name  review_count
26        223349            Pasta  With Shrimp   Eggplant             0
29        342620          Secret Ingredient  Bbq Meatloaf             0
35        276594        Windy S  Sweet And Sour Meatballs             0
49        216068  Goulashy  Beef Stew For The Slow Cooker             0
59        306590             Old Bay  Grilled Steak Fries             0
...          ...                                      ...           ...
29871      66966                       Zingy Potato Salad             0
29903     249846       Zucchini  Mock Green Papaya  Salad             0
29905     256177            Zucchini And Corn With Cheese             0
29951     178243                       Zucchini Nut Salad             0
29979     363362     Zucchini With Bell Pepper And Tomato             0

[1900 rows x 3 columns]


5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

In [19]:
avg_rating_by_year = recipes.merge(reviews, left_on='id', right_on='recipe_id', how='left').groupby('year_submitted')['rating'].mean()
min_avg_year = avg_rating_by_year.idxmin()
print('Год, в котором рецепты имеют наименьший средний рейтинг: ', min_avg_year)

Год, в котором рецепты имеют наименьший средний рейтинг:  2017


### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [20]:
recipes_sorted = recipes.sort_values(by='name_word_count', ascending=False)
recipes_sorted.to_csv('sorted_table.csv', index=False)

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [22]:

with pd.ExcelWriter('6_2.xlsx') as w:
    merged_revievs.to_excel(w, sheet_name='Рецепты с оценками', index=False)
    recipe_review_count.to_excel(w, sheet_name='Количество отзывов по рецептам', index=False)

#### [версия 2]
* Уточнены формулировки задач 1.1, 3.3, 4.2, 5.1, 5.2, 5.3