# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

In [284]:
import pandas as pd

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [285]:
sp500_df = pd.read_csv(
    'sem/data/sp500hst.txt',
    sep=',',
    names=['date', 'ticker', 'open', 'high', 'low', 'close', 'volume']
)
sp500_df['date'] = pd.to_datetime(sp500_df['date'], format='%Y%m%d')
sp500_df

Unnamed: 0,date,ticker,open,high,low,close,volume
0,2009-08-21,A,25.60,25.6100,25.220,25.55,34758
1,2009-08-24,A,25.64,25.7400,25.330,25.50,22247
2,2009-08-25,A,25.50,25.7000,25.225,25.34,30891
3,2009-08-26,A,25.32,25.6425,25.145,25.48,33334
4,2009-08-27,A,25.50,25.5700,25.230,25.54,70176
...,...,...,...,...,...,...,...
122569,2010-08-13,ZMH,51.72,51.9000,51.380,51.44,14561
122570,2010-08-16,ZMH,51.13,51.4700,50.600,51.00,13489
122571,2010-08-17,ZMH,51.14,51.6000,50.890,51.21,20498
122572,2010-08-19,ZMH,51.63,51.6300,50.170,50.22,18259


2. Рассчитайте среднее значение показателей для каждого из столбцов с номерами 3-6.

In [286]:
sp500_df.iloc[:, 3:6].mean()

high     43.102243
low      42.054464
close    42.601865
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [287]:
sp500_df['month'] = sp500_df['date'].dt.month
sp500_df

Unnamed: 0,date,ticker,open,high,low,close,volume,month
0,2009-08-21,A,25.60,25.6100,25.220,25.55,34758,8
1,2009-08-24,A,25.64,25.7400,25.330,25.50,22247,8
2,2009-08-25,A,25.50,25.7000,25.225,25.34,30891,8
3,2009-08-26,A,25.32,25.6425,25.145,25.48,33334,8
4,2009-08-27,A,25.50,25.5700,25.230,25.54,70176,8
...,...,...,...,...,...,...,...,...
122569,2010-08-13,ZMH,51.72,51.9000,51.380,51.44,14561,8
122570,2010-08-16,ZMH,51.13,51.4700,50.600,51.00,13489,8
122571,2010-08-17,ZMH,51.14,51.6000,50.890,51.21,20498,8
122572,2010-08-19,ZMH,51.63,51.6300,50.170,50.22,18259,8


4. Рассчитайте суммарный объем торгов для одинаковых значений тикеров.

In [288]:
sp500_df.groupby('ticker')['volume'].sum()

ticker
A        8609336
AA      81898998
AAPL    52261170
ABC      9006756
ABT     18975870
          ...   
XTO     21297931
YHOO    56837171
YUM     10971538
ZION    15551119
ZMH      4938916
Name: volume, Length: 524, dtype: int64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [289]:
month = 'month'
if month in sp500_df.columns:
    sp500_df = sp500_df.drop(month, axis=1)

sp500_names_df = pd.read_csv(
    'sem/data/sp_data2.csv',
    sep=';',
    names=['ticker', 'name'],
    usecols=[0, 1]
)

sp500_df = sp500_df.merge(sp500_names_df, on='ticker', how='left')
sp500_df

Unnamed: 0,date,ticker,open,high,low,close,volume,name
0,2009-08-21,A,25.60,25.6100,25.220,25.55,34758,Agilent Technologies
1,2009-08-24,A,25.64,25.7400,25.330,25.50,22247,Agilent Technologies
2,2009-08-25,A,25.50,25.7000,25.225,25.34,30891,Agilent Technologies
3,2009-08-26,A,25.32,25.6425,25.145,25.48,33334,Agilent Technologies
4,2009-08-27,A,25.50,25.5700,25.230,25.54,70176,Agilent Technologies
...,...,...,...,...,...,...,...,...
122569,2010-08-13,ZMH,51.72,51.9000,51.380,51.44,14561,
122570,2010-08-16,ZMH,51.13,51.4700,50.600,51.00,13489,
122571,2010-08-17,ZMH,51.14,51.6000,50.890,51.21,20498,
122572,2010-08-19,ZMH,51.63,51.6300,50.170,50.22,18259,


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами.

In [290]:
recipes_df = pd.read_csv('sem/data/recipes_sample.csv', sep=',')
reviews_df = pd.read_csv('sem/data/reviews_sample.csv', sep=',', index_col=0)

print(f'recipes_sample:\n{recipes_df.head()}')
print(f'reviews_sample:\n{reviews_df.head()}')

recipes_sample:
                                       name     id  minutes  contributor_id  \
0     george s at the cove  black bean soup  44123       90           35193   
1        healthy for them  yogurt popsicles  67664       10           91970   
2              i can t believe it s spinach  38798       30            1533   
3                      italian  gut busters  35173       45           22724   
4  love is in the air  beef fondue   sauces  84797       25            4470   

    submitted  n_steps                                        description  \
0  2002-10-25      NaN  an original recipe created by chef scott meska...   
1  2003-07-26      NaN  my children and their friends ask for my homem...   
2  2002-08-29      NaN            these were so go, it surprised even me.   
3  2002-07-27      NaN  my sister-in-law made these for us at a family...   
4  2004-02-23      4.0  i think a fondue is a very romantic casual din...   

   n_ingredients  
0           18.0  
1       

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [291]:
dfs = {
    'recipes_sample': {
        'name': 'recipes_sample',
        'df': recipes_df
    },
    'reviews_sample': {
        'name': 'reviews_sample',
        'df': reviews_df
    }
}
for key in dfs.keys():
    name, df = dfs[key]['name'], dfs[key]['df']
    print(name.upper())
    print(f'Кол-во строк: {df.shape[0]}')
    print(f'Кол-во столбцов: {df.shape[1]}')
    print(f'dtypes: {df.dtypes.to_dict()}\n')

RECIPES_SAMPLE
Кол-во строк: 30000
Кол-во столбцов: 8
dtypes: {'name': dtype('O'), 'id': dtype('int64'), 'minutes': dtype('int64'), 'contributor_id': dtype('int64'), 'submitted': dtype('O'), 'n_steps': dtype('float64'), 'description': dtype('O'), 'n_ingredients': dtype('float64')}

REVIEWS_SAMPLE
Кол-во строк: 126696
Кол-во столбцов: 5
dtypes: {'user_id': dtype('int64'), 'recipe_id': dtype('int64'), 'date': dtype('O'), 'rating': dtype('int64'), 'review': dtype('O')}



1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [308]:
for key in dfs.keys():
    name, df = dfs[key]['name'], dfs[key]['df']
    print(name.upper())

    cols_with_null = df.isna().sum()
    cols_with_null = cols_with_null[cols_with_null != 0]
    print(f'Столбцы с пропусками:\n{cols_with_null}')

    total_rows = df.shape[0]
    rows_with_null = df.isna().sum(axis=1).astype(bool).sum()
    print(f'Доля строк с пропусками: {rows_with_null / total_rows}\n')

RECIPES_SAMPLE
Столбцы с пропусками:
n_steps          11190
description        623
n_ingredients     8880
dtype: int64
Доля строк с пропусками: 0.5684666666666667

REVIEWS_SAMPLE
Столбцы с пропусками:
review    17
dtype: int64
Доля строк с пропусками: 0.00013417945317926376



1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [310]:
dfs['recipes_sample']['meaningful_numerics'] = ['minutes', 'n_steps', 'n_ingredients']
dfs['reviews_sample']['meaningful_numerics'] = ['rating']

for key in dfs.keys():
    name, df = dfs[key]['name'], dfs[key]['df']
    meaningful_numerics = dfs[key]['meaningful_numerics']
    print(name.upper())

    print(f'Среднее:\n{df[meaningful_numerics].mean()}\n')

RECIPES_SAMPLE
Среднее:
minutes          123.358133
n_steps            9.805582
n_ingredients      9.008286
dtype: float64

REVIEWS_SAMPLE
Среднее:
rating    4.410802
dtype: float64



1.5 Создайте серию из 10 случайных названий рецептов.

In [311]:
recipes_sample = recipes_df['name'].sample(10)

print(f'10 случайных названий рецептов:\n{recipes_sample}')

10 случайных названий рецептов:
6968                                cilantro salmon
359                                   afghan monkey
17763                        mini vegan wellingtons
13229                 ham and gruyere potato gratin
3001            betty s old fashioned bread pudding
9977                easy crock pot teriyaki chicken
25065                  spaghetti squash pitas  ragu
6862      chorizo  bean and butternut squash chilli
24534    slow cooked lamb shanks with lentil ragout
21163         pork and eggplant in hot garlic sauce
Name: name, dtype: object


1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [312]:
reviews_df = reviews_df.reset_index(drop=True)
reviews_df

Unnamed: 0,user_id,recipe_id,date,rating,review
0,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
1,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
2,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
3,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
4,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...
...,...,...,...,...,...
126691,1270706,335534,2009-05-17,4,This recipe was great! I made it last night. I...
126692,2282344,8701,2012-06-03,0,This recipe is outstanding. I followed the rec...
126693,689540,222001,2008-04-08,5,"Well, we were not a crowd but it was a fabulou..."
126694,2000242659,354979,2015-06-02,5,I have been a steak eater and dedicated BBQ gr...


1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [313]:
mask = (recipes_df['minutes'] <= 20) & (recipes_df['n_ingredients'] <= 5)

print(f'Рецепты, время выполнения не больше 20 минут и кол-во ингредиентов в которых не больше 5:\n'
      f'{recipes_df[mask]}')

Рецепты, время выполнения не больше 20 минут и кол-во ингредиентов в которых не больше 5:
                                                    name      id  minutes  \
28                                   quick biscuit bread  302399       20   
60                         peas  fit for a king or queen  303944       20   
90                     hawaiian sunrise           mimosa  100837        5   
91            tasty dish s   banana pudding in 2 minutes  286484        2   
94                                    1 minute meatballs   11361       13   
...                                                  ...     ...      ...   
29873  zip and steam red potatoes with butter and garlic  304922       13   
29874                          ziplock vanilla ice cream   74250       10   
29905                      zucchini and corn with cheese  256177       15   
29980               zucchini with jalapeno monterey jack  320622       10   
29983                          zucchini with serrano ham  16241

### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [297]:
new_recipes_sample = pd.read_csv('sem/data/recipes_sample.csv', sep=',', parse_dates=['submitted'])
new_recipes_sample

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,
...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,
29998,zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,


2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [319]:
mask = new_recipes_sample['submitted'] >= pd.to_datetime('01.01.2010', format='%d.%m.%Y')
gte_submitted = new_recipes_sample[mask]
gte_submitted.sort_values(by='submitted')

2010-01-01 00:00:00


Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
9684,Dulce De Leche Rice Pudding,406189,40,118840,2010-01-01,8.0,very easy recipe from nestle.,4.0,29.0
14973,Jeremy S Pig Picking Cake,406218,45,579858,2010-01-01,8.0,the cake is so moist and refreshing. it's grea...,7.0,63.0
29736,Yummy Broiled Steak,406382,20,1117099,2010-01-02,,"this is something i put together tonight, i lo...",6.0,100.0
3462,Blushing Pork Loin,406420,250,319847,2010-01-02,,"slow cooker recipe from the blog ""feaston"" - h...",8.0,104.0
14132,Hot And Creamy Cocoa With Gooey Toasted Marshm...,406522,15,993604,2010-01-03,,"this is a thick, rich, creamy cocoa. serve as...",,172.0
...,...,...,...,...,...,...,...,...,...
4932,Cauliflower Ceviche,536547,45,2002234079,2018-07-30,15.0,a healthy ceviche - a perfect appetizer for pa...,8.0,106.0
17803,Miracle Home Made Puff Pastry,536610,35,2002234259,2018-07-31,17.0,puff pastry that you can make in minutes? at h...,,89.0
8442,Creole Watermelon Feta Salad,536729,10,1052873,2018-08-11,4.0,spicy watermelon salad. from tony chachere's s...,,50.0
12124,Gluten Free Vegemite,536728,2,1052873,2018-08-11,,gluten free vegemite-like stuff.,3.0,32.0


### Работа со строковыми данными в `pandas`

3.1 Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [299]:
description_length = new_recipes_sample['description'].str.len()
new_recipes_sample = new_recipes_sample.assign(**{'description_length': description_length})
new_recipes_sample

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255.0
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154.0
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587.0
...,...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0,484.0
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0,286.0
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,,311.0
29998,zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,,648.0


3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [300]:
new_recipes_sample['name'] = new_recipes_sample['name'].str.title()
new_recipes_sample

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,George S At The Cove Black Bean Soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330.0
1,Healthy For Them Yogurt Popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255.0
2,I Can T Believe It S Spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39.0
3,Italian Gut Busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154.0
4,Love Is In The Air Beef Fondue Sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587.0
...,...,...,...,...,...,...,...,...,...
29995,Zurie S Holey Rustic Olive And Cheddar Bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0,484.0
29996,Zwetschgenkuchen Bavarian Plum Cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0,286.0
29997,Zwiebelkuchen Southwest German Onion Cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,,311.0
29998,Zydeco Soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,,648.0


3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названия рецепта (считайте, что слова в названии разделяются только пробелами).

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы?

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты без отзывов должны отсутствовать в данной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.

5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`. У рецептов, для которых отсутствуют отзывы, в соответствущем столбце должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.


5.3. Выясните, отзывы, добавленные в каком году, имеют наименьший средний рейтинг?

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл.

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.