# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

In [2]:
import numpy as np
import pandas as pd

## Задачи для совместного разбора

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [3]:
df = pd.read_csv("sp500hst.txt", sep=",", header=None, 
                 names=["date", "ticker", "open", "high", "low", "close", "volume"])
df

Unnamed: 0,date,ticker,open,high,low,close,volume
0,20090821,A,25.60,25.6100,25.220,25.55,34758
1,20090824,A,25.64,25.7400,25.330,25.50,22247
2,20090825,A,25.50,25.7000,25.225,25.34,30891
3,20090826,A,25.32,25.6425,25.145,25.48,33334
4,20090827,A,25.50,25.5700,25.230,25.54,70176
...,...,...,...,...,...,...,...
122569,20100813,ZMH,51.72,51.9000,51.380,51.44,14561
122570,20100816,ZMH,51.13,51.4700,50.600,51.00,13489
122571,20100817,ZMH,51.14,51.6000,50.890,51.21,20498
122572,20100819,ZMH,51.63,51.6300,50.170,50.22,18259


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [4]:
df[df.columns[3:7]].mean()

high         43.102243
low          42.054464
close        42.601865
volume    81395.068138
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [5]:
df["month"] = pd.to_datetime(df['date'], format="%Y%m%d").dt.month

In [31]:
df.head()

Unnamed: 0,date,ticker,open,high,low,close,volume,month
0,20090821,A,25.6,25.61,25.22,25.55,34758,8
1,20090824,A,25.64,25.74,25.33,25.5,22247,8
2,20090825,A,25.5,25.7,25.225,25.34,30891,8
3,20090826,A,25.32,25.6425,25.145,25.48,33334,8
4,20090827,A,25.5,25.57,25.23,25.54,70176,8


In [20]:
df["ticker"].str.lower().head()

0    a
1    a
2    a
3    a
4    a
Name: ticker, dtype: object

4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [24]:
df.groupby('ticker')['volume'].sum()

ticker
A        8609336
AA      81898998
AAPL    52261170
ABC      9006756
ABT     18975870
          ...   
XTO     21297931
YHOO    56837171
YUM     10971538
ZION    15551119
ZMH      4938916
Name: volume, Length: 524, dtype: int64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [72]:
dff = pd.read_csv("sp_data2.csv", sep=";", header=None, names=["ticker", "name", "prs"], usecols=[0,1])
dff.head()

Unnamed: 0,ticker,name
0,AAPL,Apple
1,AMZN,Amazon.com
2,GOOGL,Alphabet
3,GOOG,Alphabet
4,MSFT,Microsoft


In [73]:
pd.merge(df, dff, left_on='ticker', right_on='ticker').head()

Unnamed: 0,date,ticker,open,high,low,close,volume,month,name
0,20090821,A,25.6,25.61,25.22,25.55,34758,8,Agilent Technologies
1,20090824,A,25.64,25.74,25.33,25.5,22247,8,Agilent Technologies
2,20090825,A,25.5,25.7,25.225,25.34,30891,8,Agilent Technologies
3,20090826,A,25.32,25.6425,25.145,25.48,33334,8,Agilent Technologies
4,20090827,A,25.5,25.57,25.23,25.54,70176,8,Agilent Technologies


In [74]:
pd.merge(df, dff, left_on='ticker', right_on='ticker', how='left').head()

Unnamed: 0,date,ticker,open,high,low,close,volume,month,name
0,20090821,A,25.6,25.61,25.22,25.55,34758,8,Agilent Technologies
1,20090824,A,25.64,25.74,25.33,25.5,22247,8,Agilent Technologies
2,20090825,A,25.5,25.7,25.225,25.34,30891,8,Agilent Technologies
3,20090826,A,25.32,25.6425,25.145,25.48,33334,8,Agilent Technologies
4,20090827,A,25.5,25.57,25.23,25.54,70176,8,Agilent Technologies


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами.

In [30]:
recipes = pd.read_csv("recipes_sample.csv", sep=",")
recipes.head()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,george s at the cove black bean soup,44123,90,35193,2002-10-25,,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,91970,2003-07-26,,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,1533,2002-08-29,,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,22724,2002-07-27,,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,4470,2004-02-23,4.0,i think a fondue is a very romantic casual din...,


In [39]:
reviews = pd.read_csv("reviews_sample.csv", sep=",")
reviews.rename(columns={'Unnamed: 0': 'id'}, inplace=True)
reviews.head()

Unnamed: 0,id,user_id,recipe_id,date,rating,review
0,370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
1,624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
2,187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
3,706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
4,312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [8]:
print(recipes.shape[0])
print(recipes.shape[1])
print(recipes.dtypes)

30000
8
name               object
id                  int64
minutes             int64
contributor_id      int64
submitted          object
n_steps           float64
description        object
n_ingredients     float64
dtype: object


In [9]:
print(reviews.shape[0])
print(reviews.shape[1])
print(reviews.dtypes)

126696
6
id            int64
user_id       int64
recipe_id     int64
date         object
rating        int64
review       object
dtype: object


# 1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

In [155]:
recipes.isna()

Unnamed: 0,name,id,minutes,contributor_id,submitted,n_steps,description,n_ingredients
0,False,False,False,False,False,True,False,False
1,False,False,False,False,False,True,False,True
2,False,False,False,False,False,True,False,False
3,False,False,False,False,False,True,False,True
4,False,False,False,False,False,False,False,True
...,...,...,...,...,...,...,...,...
29995,False,False,False,False,False,False,False,False
29996,False,False,False,False,False,True,False,False
29997,False,False,False,False,False,True,False,True
29998,False,False,False,False,False,True,False,True


In [61]:
print(recipes[recipes.columns[recipes.isna().sum(axis=0) > 0]].head(0))
print(recipes.isna().sum(axis=0))

Empty DataFrame
Columns: [n_steps, description, n_ingredients]
Index: []
name                  0
id                    0
minutes               0
contributor_id        0
submitted             0
n_steps           11190
description         623
n_ingredients      8880
dtype: int64


In [78]:
sum(recipes.isna().sum(axis=1) > 0)/recipes.shape[0]

0.5684666666666667

1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

In [13]:
print(recipes[['minutes', 'n_steps', 'n_ingredients']].mean())
print(reviews[['rating']].mean())

minutes          123.358133
n_steps            9.805582
n_ingredients      9.008286
dtype: float64
rating    4.410802
dtype: float64


1.5 Создайте серию из 10 случайных названий рецептов.

In [14]:
recipes.sample(10)['name']

19668                        p  j  browne s pub dip
15028                   john elway s hamburger soup
15117    just like  jack astor s crab dip   copycat
8234               creamy corn and broccoli chowder
29561               ww 2 points potluck pasta salad
9428                   dianne s rhubarb custard pie
13628                herb scented blueberry s mores
14950                                   jello salad
8768           crostini with olives and feta spread
24113                                  shrimp toast
Name: name, dtype: object

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

In [40]:
reviews['id']= reviews['id']-reviews['id'].min()
reviews.head()

Unnamed: 0,id,user_id,recipe_id,date,rating,review
0,370471,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
1,624295,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
2,187032,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
3,706129,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
4,312174,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами).

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы?

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты без отзывов должны отсутствовать в данной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.

5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`. У рецептов, для которых отсутствуют отзывы, в соответствущем столбце должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.


5.3. Выясните, отзывы, добавленные в каком году, имеют наименьший средний рейтинг?

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.