# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

In [101]:
import numpy as np
import pandas as pd

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [42]:
col_names = ['date', 'ticker', 'open', 'high', 'low', 'close', 'volume']
df = pd.read_csv('sem/data/sp500hst.txt', sep=',', names=col_names)
df['date'] = pd.to_datetime(df['date'], format='%Y%m%d')
df

Unnamed: 0,date,ticker,open,high,low,close,volume
0,2009-08-21,A,25.60,25.6100,25.220,25.55,34758
1,2009-08-24,A,25.64,25.7400,25.330,25.50,22247
2,2009-08-25,A,25.50,25.7000,25.225,25.34,30891
3,2009-08-26,A,25.32,25.6425,25.145,25.48,33334
4,2009-08-27,A,25.50,25.5700,25.230,25.54,70176
...,...,...,...,...,...,...,...
122569,2010-08-13,ZMH,51.72,51.9000,51.380,51.44,14561
122570,2010-08-16,ZMH,51.13,51.4700,50.600,51.00,13489
122571,2010-08-17,ZMH,51.14,51.6000,50.890,51.21,20498
122572,2010-08-19,ZMH,51.63,51.6300,50.170,50.22,18259


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [43]:
df.iloc[:, 3:6].mean()

high     43.102243
low      42.054464
close    42.601865
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [49]:
df = df.assign(**{'month': df['date'].dt.month})
df

Unnamed: 0,date,ticker,open,high,low,close,volume,month
0,2009-08-21,A,25.60,25.6100,25.220,25.55,34758,8
1,2009-08-24,A,25.64,25.7400,25.330,25.50,22247,8
2,2009-08-25,A,25.50,25.7000,25.225,25.34,30891,8
3,2009-08-26,A,25.32,25.6425,25.145,25.48,33334,8
4,2009-08-27,A,25.50,25.5700,25.230,25.54,70176,8
...,...,...,...,...,...,...,...,...
122569,2010-08-13,ZMH,51.72,51.9000,51.380,51.44,14561,8
122570,2010-08-16,ZMH,51.13,51.4700,50.600,51.00,13489,8
122571,2010-08-17,ZMH,51.14,51.6000,50.890,51.21,20498,8
122572,2010-08-19,ZMH,51.63,51.6300,50.170,50.22,18259,8


4. Рассчитайте суммарный объем торгов для одинаковых значений тикеров.

In [51]:
df.groupby('ticker')['volume'].sum()

ticker
A        8609336
AA      81898998
AAPL    52261170
ABC      9006756
ABT     18975870
          ...   
XTO     21297931
YHOO    56837171
YUM     10971538
ZION    15551119
ZMH      4938916
Name: volume, Length: 524, dtype: int64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [63]:
df_2 = pd.read_csv('sem/data/sp_data2.csv', sep=';', names=['ticker', 'company', 'percent'])
pd.merge(df, df_2, how='inner', on='ticker')

Unnamed: 0,date,ticker,open,high,low,close,volume,month,company,percent
0,2009-08-21,A,25.60,25.6100,25.220,25.55,34758,8,Agilent Technologies,0.1%
1,2009-08-24,A,25.64,25.7400,25.330,25.50,22247,8,Agilent Technologies,0.1%
2,2009-08-25,A,25.50,25.7000,25.225,25.34,30891,8,Agilent Technologies,0.1%
3,2009-08-26,A,25.32,25.6425,25.145,25.48,33334,8,Agilent Technologies,0.1%
4,2009-08-27,A,25.50,25.5700,25.230,25.54,70176,8,Agilent Technologies,0.1%
...,...,...,...,...,...,...,...,...,...,...
82167,2010-08-13,ZION,20.17,20.4300,19.840,19.89,25193,8,Zions Bancorp,0.0%
82168,2010-08-16,ZION,19.81,19.9600,19.600,19.95,25914,8,Zions Bancorp,0.0%
82169,2010-08-17,ZION,20.07,20.4700,19.830,20.31,31717,8,Zions Bancorp,0.0%
82170,2010-08-19,ZION,19.83,20.0000,19.130,19.35,45935,8,Zions Bancorp,0.0%


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами.

In [70]:
recipes_df = pd.read_csv('sem/data/recipes_sample.csv', sep=',')
reviews_df = pd.read_csv('sem/data/reviews_sample.csv', sep=',', index_col=0)

print(f'recipes_sample:\n{recipes_df.head()}')
print(f'reviews_sample:\n{reviews_df.head()}')

recipes_sample:
                                       name     id  minutes  contributor_id  \
0     george s at the cove  black bean soup  44123       90           35193   
1        healthy for them  yogurt popsicles  67664       10           91970   
2              i can t believe it s spinach  38798       30            1533   
3                      italian  gut busters  35173       45           22724   
4  love is in the air  beef fondue   sauces  84797       25            4470   

    submitted  n_steps                                        description  \
0  2002-10-25      NaN  an original recipe created by chef scott meska...   
1  2003-07-26      NaN  my children and their friends ask for my homem...   
2  2002-08-29      NaN            these were so go, it surprised even me.   
3  2002-07-27      NaN  my sister-in-law made these for us at a family...   
4  2004-02-23      4.0  i think a fondue is a very romantic casual din...   

   n_ingredients  
0           18.0  
1       

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [82]:
data = {
    'recipes_sample': {
        'df': recipes_df
    },
    'reviews_sample': {
        'df': reviews_df
    }
}
for key in data.keys():
    df_ = data[key]['df']
    print(f'{key.upper()}')
    print(f'Кол-во строк: {df_.shape[0]}')
    print(f'Кол-во столбцов: {df_.shape[1]}')
    print(f'dtypes: {df_.dtypes.to_dict()}\n')

RECIPES_SAMPLE
Кол-во строк: 30000
Кол-во столбцов: 8
dtypes: {'name': dtype('O'), 'id': dtype('int64'), 'minutes': dtype('int64'), 'contributor_id': dtype('int64'), 'submitted': dtype('O'), 'n_steps': dtype('float64'), 'description': dtype('O'), 'n_ingredients': dtype('float64')}

REVIEWS_SAMPLE
Кол-во строк: 126696
Кол-во столбцов: 5
dtypes: {'user_id': dtype('int64'), 'recipe_id': dtype('int64'), 'date': dtype('O'), 'rating': dtype('int64'), 'review': dtype('O')}



1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [105]:
# FIXME: неточно
n_rows = recipes_df.shape[0]
n_null = recipes_df.isna().sum()
print(n_null[n_null > 0])
print(n_null / n_rows)

n_steps          11190
description        623
n_ingredients     8880
dtype: int64
name              0.000000
id                0.000000
minutes           0.000000
contributor_id    0.000000
submitted         0.000000
n_steps           0.373000
description       0.020767
n_ingredients     0.296000
dtype: float64


1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [113]:
recipes_means = ['minutes', 'n_steps', 'n_ingredients']
reviews_means = ['rating']
print(recipes_df[recipes_means].mean())
print()
print(reviews_df[reviews_means].mean())

minutes          123.358133
n_steps            9.805582
n_ingredients      9.008286
dtype: float64

rating    4.410802
dtype: float64


1.5 Создайте серию из 10 случайных названий рецептов.

In [118]:
print(recipes_df['name'].sample(10))

<class 'pandas.core.series.Series'>


1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [123]:
reviews_df = reviews_df.reset_index(drop=True)
reviews_df

Unnamed: 0,user_id,recipe_id,date,rating,review
0,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
1,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
2,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
3,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
4,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...
...,...,...,...,...,...
126691,1270706,335534,2009-05-17,4,This recipe was great! I made it last night. I...
126692,2282344,8701,2012-06-03,0,This recipe is outstanding. I followed the rec...
126693,689540,222001,2008-04-08,5,"Well, we were not a crowd but it was a fabulou..."
126694,2000242659,354979,2015-06-02,5,I have been a steak eater and dedicated BBQ gr...


1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [125]:
minutes_mask = recipes_df['minutes'] <= 20
n_ingredients = recipes_df['n_ingredients'] <= 5
recipes_df[minutes_mask & n_ingredients]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
28,quick biscuit bread,302399,20,213909,2008-05-06,11.0,this is a wonderful quick bread to make as an ...,5.0
60,peas fit for a king or queen,303944,20,213909,2008-05-16,,this recipe is so simple and the flavors are s...,5.0
90,hawaiian sunrise mimosa,100837,5,58104,2004-09-29,4.0,pineapple mimosa was changed to hawaiian sunri...,3.0
91,tasty dish s banana pudding in 2 minutes,286484,2,47892,2008-02-13,,"""mmmm, i love bananas!"" a --tasty dish-- origi...",4.0
94,1 minute meatballs,11361,13,4470,2001-09-03,,this is a real short cut for cooks in a hurry....,2.0
...,...,...,...,...,...,...,...,...
29873,zip and steam red potatoes with butter and garlic,304922,13,724218,2008-05-27,9.0,"i haven't tried this yet, but i am going to so...",5.0
29874,ziplock vanilla ice cream,74250,10,24386,2003-10-29,8.0,a fun thing for kids to do. may want to use mi...,3.0
29905,zucchini and corn with cheese,256177,15,305531,2007-09-29,4.0,from betty crocker fresh spring recipes. i lik...,5.0
29980,zucchini with jalapeno monterey jack,320622,10,305531,2008-08-20,3.0,simple and yummy!,3.0


### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами).

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы?

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты без отзывов должны отсутствовать в данной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.

5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`. У рецептов, для которых отсутствуют отзывы, в соответствущем столбце должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.


5.3. Выясните, отзывы, добавленные в каком году, имеют наименьший средний рейтинг?

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.