# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Лабораторная работа №2

### Базовые операции с `DataFrame`

In [1]:
import pandas as pd

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [2]:
recipes = pd.read_csv('data/recipes_sample.csv')
reviews = pd.read_csv('data/reviews_sample.csv', index_col=0)

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [3]:
recipes_rows = recipes.shape[0]
recipes_columns = recipes.shape[1]
recipes_columns_types = recipes.dtypes

print('Строк: ', recipes_rows)
print('Столбцов: ', recipes_columns)
print()
print(recipes_columns_types)

Строк:  30000
Столбцов:  8

name               object
id                  int64
minutes             int64
contributor_id      int64
submitted          object
n_steps           float64
description        object
n_ingredients     float64
dtype: object


In [4]:
reviews_rows = reviews.shape[0]
reviews_columns = reviews.shape[1]
reviews_columns_types = reviews.dtypes

print('Строк: ', reviews_rows)
print('Столбцов: ', reviews_columns)
print()

print(reviews_columns_types)

Строк:  126696
Столбцов:  5

user_id       int64
recipe_id     int64
date         object
rating        int64
review       object
dtype: object


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [5]:
print(recipes.isnull().any())
blank_recipes_rows = recipes.isnull().any(axis=1).sum()
print()

print(blank_recipes_rows / recipes.shape[0] * 100)

name              False
id                False
minutes           False
contributor_id    False
submitted         False
n_steps            True
description        True
n_ingredients      True
dtype: bool

56.846666666666664


In [6]:
print(reviews.isnull().any())
blank_reviews_rows = reviews.isnull().any(axis=1).sum()
print()

print(blank_reviews_rows / reviews.shape[0] * 100)

user_id      False
recipe_id    False
date         False
rating       False
review        True
dtype: bool

0.013417945317926377


1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [7]:
avg_minutes = recipes['minutes'].mean()
print(avg_minutes)

avg_n_steps = recipes['n_steps'].mean()
print(avg_n_steps)

avg_n_ingredients = recipes['n_ingredients'].mean()
print(avg_n_ingredients)

123.35813333333333
9.805582137161085
9.008285984848484


In [8]:
avg_rating = reviews['rating'].mean()
print(avg_rating)

4.410802235271832


1.5 Создайте серию из 10 случайных названий рецептов.

In [9]:
random_recipes = recipes['name'].sample(n=10)
print(random_recipes)

12854    grilled chicken with whiskey ginger marinade
19013                         oh so easy pepper steak
10070                  easy layered lasagna casserole
883                                      apple crunch
26116                    strawberry whipped sensation
5014                                  champagne salad
22525      rice cooler drink mexican style   horchata
2006                         baked sweet potato chips
28742            vegetarian shepherd s pie  crock pot
28411                   unbelievably easy potato soup
Name: name, dtype: object


1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [10]:
reviews.index = range(reviews.shape[0])
print(reviews)

           user_id  recipe_id        date  rating  \
0            21752      57993  2003-05-01       5   
1           431813     142201  2007-09-16       5   
2           400708     252013  2008-01-10       4   
3       2001852463     404716  2017-12-11       5   
4            95810     129396  2008-03-14       5   
...            ...        ...         ...     ...   
126691     1270706     335534  2009-05-17       4   
126692     2282344       8701  2012-06-03       0   
126693      689540     222001  2008-04-08       5   
126694  2000242659     354979  2015-06-02       5   
126695      463435     415599  2010-09-30       5   

                                                   review  
0       Last week whole sides of frozen salmon fillet ...  
1       So simple and so tasty!  I used a yellow capsi...  
2       Very nice breakfast HH, easy to make and yummy...  
3       These are a favorite for the holidays and so e...  
4       Excellent soup!  The tomato flavor is just gre...  
...

1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [11]:
print(recipes[(recipes['minutes'] <= 20) & (recipes['n_ingredients'] <= 5)])

                                                    name      id  minutes  \
28                                   quick biscuit bread  302399       20   
60                         peas  fit for a king or queen  303944       20   
90                     hawaiian sunrise           mimosa  100837        5   
91            tasty dish s   banana pudding in 2 minutes  286484        2   
94                                    1 minute meatballs   11361       13   
...                                                  ...     ...      ...   
29873  zip and steam red potatoes with butter and garlic  304922       13   
29874                          ziplock vanilla ice cream   74250       10   
29905                      zucchini and corn with cheese  256177       15   
29980               zucchini with jalapeno monterey jack  320622       10   
29983                          zucchini with serrano ham  162411       15   

       contributor_id   submitted  n_steps  \
28             213909  2008-0

### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [12]:
"""Вариант с изменением типа в существующем столбце"""

recipes['submitted'] = pd.to_datetime(recipes['submitted'])
print(recipes.dtypes)

name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object


In [13]:
"""Вариант с считыванием столбца в нужном формате"""

recipes = pd.read_csv('data/recipes_sample.csv', parse_dates=['submitted'])
print(recipes.dtypes)

name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object


2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [14]:
print(recipes[recipes['submitted'].dt.year <= 2010])

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29993                     zuni caf zucchini pickles  316950     2895   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [15]:
recipes.insert(7, 'description_length', recipes['description'].str.len())
print(recipes)

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29998                                   zydeco soup  486161       60   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [16]:
recipes['name'] = recipes['name'].str.title()
print(recipes)

                                               name      id  minutes  \
0             George S At The Cove  Black Bean Soup   44123       90   
1                Healthy For Them  Yogurt Popsicles   67664       10   
2                      I Can T Believe It S Spinach   38798       30   
3                              Italian  Gut Busters   35173       45   
4          Love Is In The Air  Beef Fondue   Sauces   84797       25   
...                                             ...     ...      ...   
29995  Zurie S Holey Rustic Olive And Cheddar Bread  267661       80   
29996          Zwetschgenkuchen  Bavarian Plum Cake  386977      240   
29997   Zwiebelkuchen   Southwest German Onion Cake  103312       75   
29998                                   Zydeco Soup  486161       60   
29999        Cookies By Design   Cookies On A Stick  298512       29   

       contributor_id  submitted  n_steps  \
0               35193 2002-10-25      NaN   
1               91970 2003-07-26      NaN   


3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [17]:
recipes.insert(1, 'name_word_count', recipes['name'].str.split().str.len())
print(recipes)

                                               name  name_word_count      id  \
0             George S At The Cove  Black Bean Soup                8   44123   
1                Healthy For Them  Yogurt Popsicles                5   67664   
2                      I Can T Believe It S Spinach                7   38798   
3                              Italian  Gut Busters                3   35173   
4          Love Is In The Air  Beef Fondue   Sauces                8   84797   
...                                             ...              ...     ...   
29995  Zurie S Holey Rustic Olive And Cheddar Bread                8  267661   
29996          Zwetschgenkuchen  Bavarian Plum Cake                4  386977   
29997   Zwiebelkuchen   Southwest German Onion Cake                5  103312   
29998                                   Zydeco Soup                2  486161   
29999        Cookies By Design   Cookies On A Stick                7  298512   

       minutes  contributor_id  submitt

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [18]:
# сгруппируем рецепты по участникам и добавим колонку с количество рецептов
recipes_by_contributor = recipes.groupby('contributor_id', as_index=False)
recipes_by_contributor = recipes_by_contributor['id'].count()

# переименуем колонки для понятного вывода и дальнейшего обращения к ним
recipes_by_contributor.columns = ['contributor_id', 'recipes_count']
print(recipes_by_contributor)
print()

# отсортируем по количеству рецептов и выведем первую строку
print(recipes_by_contributor.sort_values(by='recipes_count', ascending=False).head(1))

      contributor_id  recipes_count
0               1530              5
1               1533            186
2               1534             50
3               1535             40
4               1538              8
...              ...            ...
8399      2001968497              2
8400      2002059754              1
8401      2002234079              1
8402      2002234259              1
8403      2002247884              1

[8404 rows x 2 columns]

      contributor_id  recipes_count
1768           89831            421


4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [19]:
average_rating = reviews.groupby('recipe_id')['rating'].mean()
print(average_rating)
print()

# вычтем из всех рецептов те, на которые есть отзывы
print(recipes['id'].shape[0] - average_rating.shape[0])

recipe_id
48        1.000000
55        4.750000
66        4.944444
91        4.750000
94        5.000000
            ...   
536547    5.000000
536610    0.000000
536728    4.000000
536729    4.750000
536747    0.000000
Name: rating, Length: 28100, dtype: float64

1900


4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [20]:
print(recipes.groupby(recipes.submitted.dt.year)['id'].count())

submitted
1999     275
2000     104
2001     589
2002    2644
2003    2334
2004    2153
2005    3130
2006    3473
2007    4429
2008    4029
2009    2963
2010    1538
2011     922
2012     659
2013     490
2014     139
2015      42
2016      24
2017      39
2018      24
Name: id, dtype: int64


### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.