# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [None]:
import pandas as pd
data = pd.read_csv('sp500hst.txt', sep = ',', names = ["date", "ticker", "open", "high", "low", "close", "volume"])
data

Unnamed: 0,date,ticker,open,high,low,close,volume
0,20090821,A,25.60,25.6100,25.220,25.55,34758
1,20090824,A,25.64,25.7400,25.330,25.50,22247
2,20090825,A,25.50,25.7000,25.225,25.34,30891
3,20090826,A,25.32,25.6425,25.145,25.48,33334
4,20090827,A,25.50,25.5700,25.230,25.54,70176
...,...,...,...,...,...,...,...
122569,20100813,ZMH,51.72,51.9000,51.380,51.44,14561
122570,20100816,ZMH,51.13,51.4700,50.600,51.00,13489
122571,20100817,ZMH,51.14,51.6000,50.890,51.21,20498
122572,20100819,ZMH,51.63,51.6300,50.170,50.22,18259


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [None]:
data.iloc[:,2:6].mean()

open     42.595458
high     43.102243
low      42.054464
close    42.601865
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [None]:
data["month"] = (data['date']%1000)//100
data

Unnamed: 0,date,ticker,open,high,low,close,volume,month
0,20090821,A,25.60,25.6100,25.220,25.55,34758,8
1,20090824,A,25.64,25.7400,25.330,25.50,22247,8
2,20090825,A,25.50,25.7000,25.225,25.34,30891,8
3,20090826,A,25.32,25.6425,25.145,25.48,33334,8
4,20090827,A,25.50,25.5700,25.230,25.54,70176,8
...,...,...,...,...,...,...,...,...
122569,20100813,ZMH,51.72,51.9000,51.380,51.44,14561,8
122570,20100816,ZMH,51.13,51.4700,50.600,51.00,13489,8
122571,20100817,ZMH,51.14,51.6000,50.890,51.21,20498,8
122572,20100819,ZMH,51.63,51.6300,50.170,50.22,18259,8


4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [None]:
data['sum volume'] = data.groupby('ticker')['volume'].transform('sum')
data.drop_duplicates(subset=['ticker'])[['ticker', 'volume']]

Unnamed: 0,ticker,volume
0,A,34758
245,AA,338295
490,AAPL,148597
731,ABC,33179
976,ABT,84699
...,...,...
121390,XTO,55384
121597,YHOO,235459
121840,YUM,31962
122085,ZION,69225


5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [None]:
data = pd.read_csv('sp500hst.txt', sep = ',', names = ["date", "ticker", "open", "high", "low", "close", "volume"])
data2 = pd.read_csv('sp_data2.csv', sep = ';', names = ['ticker', 'full name', 'percent'])
data3 = data.merge(data2[['ticker', 'full name']], how = 'left')
data3

Unnamed: 0,date,ticker,open,high,low,close,volume,full name
0,20090821,A,25.60,25.6100,25.220,25.55,34758,Agilent Technologies
1,20090824,A,25.64,25.7400,25.330,25.50,22247,Agilent Technologies
2,20090825,A,25.50,25.7000,25.225,25.34,30891,Agilent Technologies
3,20090826,A,25.32,25.6425,25.145,25.48,33334,Agilent Technologies
4,20090827,A,25.50,25.5700,25.230,25.54,70176,Agilent Technologies
...,...,...,...,...,...,...,...,...
122569,20100813,ZMH,51.72,51.9000,51.380,51.44,14561,
122570,20100816,ZMH,51.13,51.4700,50.600,51.00,13489,
122571,20100817,ZMH,51.14,51.6000,50.890,51.21,20498,
122572,20100819,ZMH,51.63,51.6300,50.170,50.22,18259,


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца с индексами в таблице `reviews` (безымянный столбец).

In [None]:
import pandas as pd
recipes = pd.read_csv("recipes_sample.csv")
reviews = pd.read_csv("reviews_sample.csv", sep = ",")
reviews.rename(columns={'Unnamed: 0':'index'}, inplace = True)

print(reviews)
print(recipes)

          index     user_id  recipe_id        date  rating  \
0        370476       21752      57993  2003-05-01       5   
1        624300      431813     142201  2007-09-16       5   
2        187037      400708     252013  2008-01-10       4   
3        706134  2001852463     404716  2017-12-11       5   
4        312179       95810     129396  2008-03-14       5   
...         ...         ...        ...         ...     ...   
126691  1013457     1270706     335534  2009-05-17       4   
126692   158736     2282344       8701  2012-06-03       0   
126693  1059834      689540     222001  2008-04-08       5   
126694   453285  2000242659     354979  2015-06-02       5   
126695   691207      463435     415599  2010-09-30       5   

                                                   review  
0       Last week whole sides of frozen salmon fillet ...  
1       So simple and so tasty!  I used a yellow capsi...  
2       Very nice breakfast HH, easy to make and yummy...  
3       These a

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [None]:
print('Количество строк в recipes',recipes.shape[0])
print('Количество столбцов в  recipes', recipes.shape[1])
print(recipes.dtypes)
print("----")
print('Количество строк в reviews',reviews.shape[0])
print('Количество столбцов в таблице reviews', reviews.shape[1])
print(reviews.dtypes)

Количество строк в recipes 30000
Количество столбцов в  recipes 8
name               object
id                  int64
minutes             int64
contributor_id      int64
submitted          object
n_steps           float64
description        object
n_ingredients     float64
dtype: object
----
Количество строк в reviews 126696
Количество столбцов в таблице reviews 6
index         int64
user_id       int64
recipe_id     int64
date         object
rating        int64
review       object
dtype: object


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [None]:
a = recipes.isnull().sum(axis=1)
b = len(a[a != 0])
p = (100*b)/recipes.shape[0]
print('Доля строк c пропусками в recipes ',p)

a = reviews.isnull().sum(axis=1)
b = len(a[a!= 0])
p = (100*b)/reviews.shape[0]
print('Доля строк c пропусками в reviews ',p)

Доля строк c пропусками в recipes  56.846666666666664
Доля строк c пропусками в reviews  0.013417945317926375


1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [None]:
print('recipes ', recipes[['minutes', 'n_steps', 'n_ingredients']].mean())
print('reviews ', reviews[['rating']].mean())

recipes  minutes          123.358133
n_steps            9.805582
n_ingredients      9.008286
dtype: float64
reviews  rating    4.410802
dtype: float64


1.5 Создайте серию из 10 случайных названий рецептов.

In [None]:
recipes.sample(10)

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
22817,roasted red onions with butter honey and ba...,260073,55,461283,2007-10-19,5.0,courtesy of food network's tyler florence. thi...,6.0
65,second only to my meatloaf meatballs,38852,90,51579,2002-08-29,9.0,"my daughters, ages 12 and 6, love my meatloaf!...",10.0
28572,vegan bacon,148899,25,205659,2005-12-20,,if you were to use this in a blt sandwich and ...,5.0
1213,asian cornish game hens,246489,90,485189,2007-08-14,,a recipe handed down from my mom. the sauce i...,
6174,chickpeas with zucchini curry,296126,30,598634,2008-04-03,6.0,"serve with rice,raita,pickle and salad",12.0
25304,spicy baked zucchini sticks,99800,35,111957,2004-09-14,,"i love dipping french fries, but when i am in ...",
28100,tuna bumsteads,60173,35,25792,2003-04-18,4.0,i remember these from my junior high school ca...,9.0
29755,yummy honey curry chicken with rice and veggies,47410,55,29331,2002-11-21,14.0,this is my favorite after-a-hard-day-at-the-of...,9.0
19040,old fashion berry cobbler,22691,45,35288,2002-03-16,4.0,very good served slightly warm with ice cream ...,
464,all purpose dinner crepes batter,19104,90,4470,2002-02-07,10.0,this basic crepe recipe can be used for all yo...,5.0


1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [None]:
reviews['index'] = reviews.index
reviews2 = reviews.to_string(index = False)


1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

In [None]:
recipes[(recipes['minutes'] <= 20) & (recipes['n_ingredients'] <= 5)]

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
28,quick biscuit bread,302399,20,213909,2008-05-06,11.0,this is a wonderful quick bread to make as an ...,5.0
60,peas fit for a king or queen,303944,20,213909,2008-05-16,,this recipe is so simple and the flavors are s...,5.0
90,hawaiian sunrise mimosa,100837,5,58104,2004-09-29,4.0,pineapple mimosa was changed to hawaiian sunri...,3.0
91,tasty dish s banana pudding in 2 minutes,286484,2,47892,2008-02-13,,"""mmmm, i love bananas!"" a --tasty dish-- origi...",4.0
94,1 minute meatballs,11361,13,4470,2001-09-03,,this is a real short cut for cooks in a hurry....,2.0
...,...,...,...,...,...,...,...,...
29873,zip and steam red potatoes with butter and garlic,304922,13,724218,2008-05-27,9.0,"i haven't tried this yet, but i am going to so...",5.0
29874,ziplock vanilla ice cream,74250,10,24386,2003-10-29,8.0,a fun thing for kids to do. may want to use mi...,3.0
29905,zucchini and corn with cheese,256177,15,305531,2007-09-29,4.0,from betty crocker fresh spring recipes. i lik...,5.0
29980,zucchini with jalapeno monterey jack,320622,10,305531,2008-08-20,3.0,simple and yummy!,3.0


### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

In [None]:
recipes = pd.read_csv('recipes_sample.csv', parse_dates=['submitted'])
recipes.dtypes

name                      object
id                         int64
minutes                    int64
contributor_id             int64
submitted         datetime64[ns]
n_steps                  float64
description               object
n_ingredients            float64
dtype: object

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

In [None]:
recipes[recipes['submitted'] < '2011-01-01']

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,
...,...,...,...,...,...,...,...,...
29993,zuni caf zucchini pickles,316950,2895,62264,2008-07-31,,refrigerator pickles for some of the zucchini ...,8.0
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,


### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

In [None]:
recipes['description_length'] = recipes['description'].fillna('').str.len()
recipes

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587
...,...,...,...,...,...,...,...,...,...
29995,zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0,484
29996,zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0,286
29997,zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,,311
29998,zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,,648


3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

In [None]:
recipes['name'] = recipes['name'].str.capitalize()
recipes

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length
0,George s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330
1,Healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255
2,I can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39
3,Italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154
4,Love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587
...,...,...,...,...,...,...,...,...,...
29995,Zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0,484
29996,Zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0,286
29997,Zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,,311
29998,Zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,,648


3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами). Обратите внимание, что между словами может располагаться несколько пробелов подряд.

In [None]:
recipes["name_word_count"] = recipes['name'].str.split().apply(len)
recipes

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients,description_length,name_word_count
0,George s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0,330,8
1,Healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,,255,5
2,I can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0,39,7
3,Italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,,154,3
4,Love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,,587,8
...,...,...,...,...,...,...,...,...,...,...
29995,Zurie s holey rustic olive and cheddar bread,267661,80,200862,2007-11-25,16.0,this is based on a french recipe but i changed...,10.0,484,8
29996,Zwetschgenkuchen bavarian plum cake,386977,240,177443,2009-08-24,,"this is a traditional fresh plum cake, thought...",11.0,286,4
29997,Zwiebelkuchen southwest german onion cake,103312,75,161745,2004-11-03,,this is a traditional late summer early fall s...,,311,5
29998,Zydeco soup,486161,60,227978,2012-08-29,,this is a delicious soup that i originally fou...,,648,2


### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

In [None]:
print(recipes['contributor_id'].value_counts())
print("----")
print(recipes['contributor_id'].mode())

89831      421
37449      346
37779      345
1533       186
169430     183
          ... 
1061628      1
1076183      1
429061       1
64032        1
186118       1
Name: contributor_id, Length: 8404, dtype: int64
----
0    89831
dtype: int64


4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы? Обратите внимание, что отзыв с нулевым рейтингом или не заполненным текстовым описанием не считается отсутствующим.

In [None]:
reviews['recipe_id'].value_counts()

27208     1382
82102      708
135350     674
107786     592
50719      486
          ... 
23964        1
499966       1
418761       1
430164       1
296868       1
Name: recipe_id, Length: 28100, dtype: int64

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

In [None]:
recipes['submitted'].dt.year.value_counts()

2007    4429
2008    4029
2006    3473
2005    3130
2009    2963
2002    2644
2003    2334
2004    2153
2010    1538
2011     922
2012     659
2001     589
2013     490
1999     275
2014     139
2000     104
2015      42
2017      39
2016      24
2018      24
Name: submitted, dtype: int64

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты, на которые не оставлен ни один отзыв, должны отсутствовать в полученной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и попытавшись найти строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [None]:
a = reviews[reviews['review'].notnull()][['user_id', 'recipe_id','rating']]
b = recipes[['id', 'name']]
c = b.merge(a, left_on='id', right_on='recipe_id').drop(columns = ['recipe_id'])
c[c['id'] == 56966]

5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`, где столбец `review_count` содержит кол-во отзывов, оставленных на рецепт `recipe_id`. У рецептов, на которые не оставлен ни один отзыв, в столбце `review_count` должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и найдя строку, соответствующую этому рецепту, в полученном `DataFrame`.

In [None]:
a = recipes[['name', 'id']]
b = reviews[reviews['review'].notnull()].groupby(by='recipe_id')['review'].count()
m = a.merge(b, left_on ='id', right_on = 'recipe_id', how = 'left' )
m = m.rename(columns={'id':'recipe_id', 'review':'review_count'})
m.loc[m['review_count'].isnull(), 'review_count'] = 0
m[m['review_count']==0]

5.3. Выясните, рецепты, добавленные в каком году, имеют наименьший средний рейтинг?

In [None]:
reviews2 = pd.read_csv('reviews_sample.csv', parse_dates=['date'])
reviews2['year'] = reviews2['date'].dt.year
f = reviews2.groupby(by='year', as_index = False)['rating'].mean()
str = f[f['rating']==f['rating'].min()]


### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

In [None]:
recipes['description_length'] = recipes['description'].fillna('').str.len()
recipes['name'] = recipes['name'].str.capitalize()
recipes['name_word_count'] = recipes['name'].str.split().apply(len)
recipes.sort_values(by='name_word_count', ascending=False)

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.

In [None]:
pip install openpyxl xlsxwriter

In [None]:
import xlsxwriter
writer = pd.ExcelWriter('exelsheet.xlsx')
c.to_excel(writer, sheet_name='Рецепты с оценками')
m.to_excel(writer, sheet_name='Количество отзывов по рецептам')
writer.save()