# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

In [1]:
import pandas as pd

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [2]:
names1 = ["date", "ticker", "open", "high", "low", "close", "volume"]
data1 = pd.read_csv('data/sp500hst.txt', names=names1)
# data1

2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [3]:
data1[data1.columns[2:6]].mean(axis=0)

open     42.595458
high     43.102243
low      42.054464
close    42.601865
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [4]:
data1['month'] = data1["date"].astype('str').apply(lambda x: x[4:6])
# data1

4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [5]:
data1.groupby('ticker')['volume'].sum()

ticker
A        8609336
AA      81898998
AAPL    52261170
ABC      9006756
ABT     18975870
          ...   
XTO     21297931
YHOO    56837171
YUM     10971538
ZION    15551119
ZMH      4938916
Name: volume, Length: 524, dtype: int64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [6]:
data2 = pd.read_csv('data/sp500hst.txt', names=names1)
names = ["ticker", "clarification", "percents"]
clar = pd.read_csv('data/sp_data2.csv', sep=";", names=names)
clar = clar[["ticker", "clarification"]]
data2 = data2.merge(clar, on='ticker', how='left').fillna('no clarification data')
# data2

## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [9]:
recipes = pd.read_csv("data/recipes_sample.csv")
# recipes

In [10]:
reviews = pd.read_csv("data/reviews_sample.csv", index_col=0)
# reviews

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [11]:
recipes.info(), reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   name            30000 non-null  object 
 1   id              30000 non-null  int64  
 2   minutes         30000 non-null  int64  
 3   contributor_id  30000 non-null  int64  
 4   submitted       30000 non-null  object 
 5   n_steps         18810 non-null  float64
 6   description     29377 non-null  object 
 7   n_ingredients   21120 non-null  float64
dtypes: float64(2), int64(3), object(3)
memory usage: 1.8+ MB
<class 'pandas.core.frame.DataFrame'>
Int64Index: 126696 entries, 370476 to 691207
Data columns (total 5 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   user_id    126696 non-null  int64 
 1   recipe_id  126696 non-null  int64 
 2   date       126696 non-null  object
 3   rating     126696 non-null  int64 
 4   review     126679 no

(None, None)

1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [14]:
recipes.isnull().sum() / len(recipes) * 100
# в процентах

name               0.000000
id                 0.000000
minutes            0.000000
contributor_id     0.000000
submitted          0.000000
n_steps           37.300000
description        2.076667
n_ingredients     29.600000
dtype: float64

In [15]:
reviews.isnull().sum() / len(reviews) * 100
# в процентах

user_id      0.000000
recipe_id    0.000000
date         0.000000
rating       0.000000
review       0.013418
dtype: float64

1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [16]:
recipes.mean(numeric_only=True)

id                2.218793e+05
minutes           1.233581e+02
contributor_id    5.635901e+06
n_steps           9.805582e+00
n_ingredients     9.008286e+00
dtype: float64

In [17]:
reviews.mean(numeric_only=True)

user_id      1.408013e+08
recipe_id    1.600944e+05
rating       4.410802e+00
dtype: float64

1.5 Создайте серию из 10 случайных названий рецептов.

In [18]:
recipes['name'].sample(10)

29916                     zucchini bread  dark rich flavor
5633                         chicken and vegetable borscht
29681                             yogi bhajan s onion soup
17124    marvelous middle eastern marinated yogurt lemo...
811                    apple and spice cake  south african
12718                                 green goddess hummus
19369                         orange pineapple jello salad
2033                      baked bean and peanut sandwiches
27793                                tomato garlic chicken
7183                                      classic meatloaf
Name: name, dtype: object

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [19]:
reviews = reviews.reset_index(drop=True)
# reviews

1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [20]:
recipes[(recipes['minutes']<21) & (recipes['n_ingredients'] < 6)].dropna()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
28,quick biscuit bread,302399,20,213909,2008-05-06,11.0,this is a wonderful quick bread to make as an ...,5.0
90,hawaiian sunrise mimosa,100837,5,58104,2004-09-29,4.0,pineapple mimosa was changed to hawaiian sunri...,3.0
112,10 minute lime pie,513963,10,2284242,2014-03-04,12.0,a super easy stand-in for traditional key lime...,5.0
121,1000 island vegetable dip,121712,20,210965,2005-05-12,3.0,this is a delicious yet quick and easy vegetab...,2.0
143,2 minute broccoli,256464,4,165433,2007-10-01,7.0,"so easy. tender crisp. hot, steamed broccoli...",2.0
...,...,...,...,...,...,...,...,...
29873,zip and steam red potatoes with butter and garlic,304922,13,724218,2008-05-27,9.0,"i haven't tried this yet, but i am going to so...",5.0
29874,ziplock vanilla ice cream,74250,10,24386,2003-10-29,8.0,a fun thing for kids to do. may want to use mi...,3.0
29905,zucchini and corn with cheese,256177,15,305531,2007-09-29,4.0,from betty crocker fresh spring recipes. i lik...,5.0
29980,zucchini with jalapeno monterey jack,320622,10,305531,2008-08-20,3.0,simple and yummy!,3.0


### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [22]:
recipes['submitted'].astype("datetime64[ns]")
recipes = pd.read_csv("data/recipes_sample.csv", parse_dates=['submitted'])
# recipes

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [23]:
recipes[recipes['submitted'] < '2011-01-01']

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,
...,...,...,...,...,...,...,...,...
29993,zuni caf zucchini pickles,316950,2895,62264,2008-07-31,,refrigerator pickles for some of the zucchini ...,8.0
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [24]:
recipes['description_length'] = recipes['description'].str.len()
# recipes

3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [25]:
recipes['name'] = recipes['name'].str.title()
# recipes

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [26]:
recipes['name_word_count'] = recipes['name'].str.split().apply(lambda x: len(x))
# recipes

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [27]:
num_rec = recipes.groupby('contributor_id').count()
print(num_rec[num_rec['name'] == num_rec['name'].max()].index[0])
num_rec.sort_values(by='name', ascending=False)

89831


Unnamed: 0_level_0,name,id,minutes,submitted,n_steps,description,n_ingredients,description_length,name_word_count
contributor_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
89831,421,421,421,421,254,421,291,421,421
37449,346,346,346,346,230,346,231,346,346
37779,345,345,345,345,211,339,236,339,345
1533,186,186,186,186,114,70,133,70,186
169430,183,183,183,183,127,183,123,183,183
...,...,...,...,...,...,...,...,...,...
245835,1,1,1,1,1,1,1,1,1
245653,1,1,1,1,0,1,1,1,1
245590,1,1,1,1,1,1,1,1,1
245378,1,1,1,1,1,1,1,1,1


4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [28]:
rate = reviews.groupby('recipe_id')['rating'].mean(numeric_only=True)
fin_rate = recipes[['name', 'id']].merge(rate, how='left', left_on='id', right_on=rate.index)
rate, fin_rate.isnull().sum()

(recipe_id
 48        1.000000
 55        4.750000
 66        4.944444
 91        4.750000
 94        5.000000
             ...   
 536547    5.000000
 536610    0.000000
 536728    4.000000
 536729    4.750000
 536747    0.000000
 Name: rating, Length: 28100, dtype: float64,
 name         0
 id           0
 rating    1900
 dtype: int64)

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [29]:
years = recipes.groupby(recipes.submitted.dt.year)['name'].count()
# years

submitted
1999     275
2000     104
2001     589
2002    2644
2003    2334
2004    2153
2005    3130
2006    3473
2007    4429
2008    4029
2009    2963
2010    1538
2011     922
2012     659
2013     490
2014     139
2015      42
2016      24
2017      39
2018      24
Name: name, dtype: int64

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [75]:
rated_recipes = recipes[['id', 'name', 'contributor_id']]
rated_recipes.columns = ['id', 'name', 'user_id']
rated_recipes = rated_recipes.merge(reviews[['recipe_id', 'rating']], how='left', left_on='id', right_on='recipe_id')
rated_recipes.drop(columns='recipe_id', inplace=True)
no_rated = rated_recipes[rated_recipes['rating'].isna()]
rated_recipes.dropna(inplace=True)

example = no_rated['id'].sample(1)
print(example)
rated_recipes[rated_recipes['id'].isin(example)]

113132    33812
Name: id, dtype: int64


Unnamed: 0,id,name,user_id,rating


5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [31]:
gr_revs = reviews.groupby('recipe_id').count()

rev_count = recipes[['id', 'name']].merge(gr_revs['review'], how='left', left_on='id', right_on=rate.index).fillna(0)
rev_count.columns = ['recipe_id', 'name', 'review_count']
rev_count['review_count'] = rev_count['review_count'].astype('int')

example = no_rated['id'].sample(1)
rev_count[rev_count['recipe_id'].isin(example)]

Unnamed: 0,recipe_id,name,review_count
20445,38008,Penne With Spinach And Sun Dried Tomatoes,0


5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

In [64]:
mean_years = recipes[['id', 'submitted']].merge(reviews[['recipe_id', 'rating']], how='right', left_on='id', right_on='recipe_id')
fin_mean_years = mean_years.groupby(recipes.submitted.dt.year)['rating'].mean()
fin_mean_years.sort_values(ascending=True, inplace=True)
fin_mean_years.index = fin_mean_years.index.astype('int')
fin_mean_years.index[0], fin_mean_years[fin_mean_years.index[0]]

(2017, 4.051282051282051)

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [72]:
recipes.sort_values(by='name_word_count', ascending=False, inplace=True)
recipes.to_csv('recipes-3.1-3.3.csv')

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [74]:
with pd.ExcelWriter('Рецепты с оценками.xlsx') as wr:
    rated_recipes.to_excel(wr)
with pd.ExcelWriter('Количество отзывов по рецептам.xlsx') as wr:
    rev_count.to_excel(wr)    

#### [версия 2]
* Уточнены формулировки задач 1.1, 3.3, 4.2, 5.1, 5.2, 5.3