# Pandas

Материалы:
* Макрушин С.В. "Лекция 2: Библиотека Pandas"
* https://pandas.pydata.org/docs/user_guide/index.html#
* https://pandas.pydata.org/docs/reference/index.html
* Уэс Маккини. Python и анализ данных

## Задачи для совместного разбора

In [11]:
import pandas as pd

1. Загрузите данные из файла `sp500hst.txt` и обозначьте столбцы в соответствии с содержимым: `"date", "ticker", "open", "high", "low", "close", "volume"`.

In [12]:
headers_list = ["date", "ticker", "open", "high","low", "close", "volume"]
df = pd.read_csv("./data/sp500hst.txt", sep=',',names=headers_list,  header=None)
print(df)

            date ticker   open     high     low  close  volume
0       20090821      A  25.60  25.6100  25.220  25.55   34758
1       20090824      A  25.64  25.7400  25.330  25.50   22247
2       20090825      A  25.50  25.7000  25.225  25.34   30891
3       20090826      A  25.32  25.6425  25.145  25.48   33334
4       20090827      A  25.50  25.5700  25.230  25.54   70176
...          ...    ...    ...      ...     ...    ...     ...
122569  20100813    ZMH  51.72  51.9000  51.380  51.44   14561
122570  20100816    ZMH  51.13  51.4700  50.600  51.00   13489
122571  20100817    ZMH  51.14  51.6000  50.890  51.21   20498
122572  20100819    ZMH  51.63  51.6300  50.170  50.22   18259
122573  20100820    ZMH  50.03  50.5500  49.480  49.82   17792

[122574 rows x 7 columns]


2. Рассчитайте среднее значение показателей для каждого из столбцов c номерами 3-6.

In [13]:
df.iloc[:, 3:6].mean()

high     43.102243
low      42.054464
close    42.601865
dtype: float64

3. Добавьте столбец, содержащий только число месяца, к которому относится дата.

In [14]:
pd.to_datetime(df['date'],format="%Y%m%d").dt.month.head()

0    8
1    8
2    8
3    8
4    8
Name: date, dtype: int64

4. Рассчитайте суммарный объем торгов для для одинаковых значений тикеров.

In [15]:
df['ticker'].str.lower().head()
df['open'].mean()

42.59545765904678

In [16]:
df.groupby('ticker')['open'].mean()

ticker
A        30.234857
AA       13.086959
AAPL    221.342427
ABC      27.432122
ABT      50.996776
           ...    
XTO      44.640338
YHOO     15.854774
YUM      37.456898
ZION     19.694057
ZMH      56.220980
Name: open, Length: 524, dtype: float64

5. Загрузите данные из файла sp500hst.txt и обозначьте столбцы в соответствии с содержимым: "date", "ticker", "open", "high", "low", "close", "volume". Добавьте столбец с расшифровкой названия тикера, используя данные из файла `sp_data2.csv` . В случае нехватки данных об именах тикеров корректно обработать их.

In [17]:
headers = ["ticker","company", "percent"]
sp = pd.read_csv("./data/sp_data2.csv", sep=";",names=headers)
print(sp)
sp.head()

    ticker          company percent
0     AAPL            Apple    3.6%
1     AMZN       Amazon.com    3.2%
2    GOOGL         Alphabet    3.1%
3     GOOG         Alphabet    3.1%
4     MSFT        Microsoft    3.0%
..     ...              ...     ...
500    SCG            SCANA    0.0%
501    AIZ         Assurant    0.0%
502    AYI    Acuity Brands    0.0%
503    HRB        H&R Block    0.0%
504    RRC  Range Resources    0.0%

[505 rows x 3 columns]


Unnamed: 0,ticker,company,percent
0,AAPL,Apple,3.6%
1,AMZN,Amazon.com,3.2%
2,GOOGL,Alphabet,3.1%
3,GOOG,Alphabet,3.1%
4,MSFT,Microsoft,3.0%


In [18]:
pd.merge(df, sp, how='inner',left_on="ticker", right_on='ticker')

Unnamed: 0,date,ticker,open,high,low,close,volume,company,percent
0,20090821,A,25.60,25.6100,25.220,25.55,34758,Agilent Technologies,0.1%
1,20090824,A,25.64,25.7400,25.330,25.50,22247,Agilent Technologies,0.1%
2,20090825,A,25.50,25.7000,25.225,25.34,30891,Agilent Technologies,0.1%
3,20090826,A,25.32,25.6425,25.145,25.48,33334,Agilent Technologies,0.1%
4,20090827,A,25.50,25.5700,25.230,25.54,70176,Agilent Technologies,0.1%
...,...,...,...,...,...,...,...,...,...
82167,20100813,ZION,20.17,20.4300,19.840,19.89,25193,Zions Bancorp,0.0%
82168,20100816,ZION,19.81,19.9600,19.600,19.95,25914,Zions Bancorp,0.0%
82169,20100817,ZION,20.07,20.4700,19.830,20.31,31717,Zions Bancorp,0.0%
82170,20100819,ZION,19.83,20.0000,19.130,19.35,45935,Zions Bancorp,0.0%


## Лабораторная работа №2

### Базовые операции с `DataFrame`

1.1 В файлах `recipes_sample.csv` и `reviews_sample.csv` находится информация об рецептах блюд и отзывах на эти рецепты соответственно. Загрузите данные из файлов в виде `pd.DataFrame` с названиями `recipes` и `reviews`. Обратите внимание на корректное считывание столбца(ов) с индексами.

In [23]:
recipes = pd.read_csv("./data/recipes_sample.csv", sep=",")
print(recipes)
reviews = pd.read_csv("./data/reviews_sample.csv", sep=",")
print(reviews)

                                               name      id  minutes  \
0             george s at the cove  black bean soup   44123       90   
1                healthy for them  yogurt popsicles   67664       10   
2                      i can t believe it s spinach   38798       30   
3                              italian  gut busters   35173       45   
4          love is in the air  beef fondue   sauces   84797       25   
...                                             ...     ...      ...   
29995  zurie s holey rustic olive and cheddar bread  267661       80   
29996          zwetschgenkuchen  bavarian plum cake  386977      240   
29997   zwiebelkuchen   southwest german onion cake  103312       75   
29998                                   zydeco soup  486161       60   
29999        cookies by design   cookies on a stick  298512       29   

       contributor_id   submitted  n_steps  \
0               35193  2002-10-25      NaN   
1               91970  2003-07-26      NaN 

1.2 Для каждой из таблиц выведите основные параметры:
* количество точек данных (строк);
* количество столбцов;
* тип данных каждого столбца.

In [33]:
print(f"recipes: {recipes.size} {len(recipes.columns)}")
recipes.dtypes

print(f"reviews: {reviews.size} {len(reviews.columns)}")
reviews.dtypes

recipes: 240000 8
reviews: 760176 6


Unnamed: 0.1,Unnamed: 0,user_id,recipe_id,date,rating,review
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
...,...,...,...,...,...,...
126691,False,False,False,False,False,False
126692,False,False,False,False,False,False
126693,False,False,False,False,False,False
126694,False,False,False,False,False,False


In [34]:
print(reviews.isnull())

        Unnamed: 0  user_id  recipe_id   date  rating  review
0            False    False      False  False   False   False
1            False    False      False  False   False   False
2            False    False      False  False   False   False
3            False    False      False  False   False   False
4            False    False      False  False   False   False
...            ...      ...        ...    ...     ...     ...
126691       False    False      False  False   False   False
126692       False    False      False  False   False   False
126693       False    False      False  False   False   False
126694       False    False      False  False   False   False
126695       False    False      False  False   False   False

[126696 rows x 6 columns]


1.3 Исследуйте, в каких столбцах таблиц содержатся пропуски. Посчитайте долю строк, содержащих пропуски, в отношении к общему количеству строк.

1.4 Рассчитайте среднее значение для каждого из числовых столбцов (где это имеет смысл).

1.5 Создайте серию из 10 случайных названий рецептов.

1.6 Измените индекс в таблице `reviews`, пронумеровав строки, начиная с нуля.

1.7 Выведите информацию о рецептах, время выполнения которых не больше 20 минут и кол-во ингредиентов в которых не больше 5.

### Работа с датами в `pandas`

2.1 Преобразуйте столбец `submitted` из таблицы `recipes` в формат времени. Модифицируйте решение задачи 1.1 так, чтобы считать столбец сразу в нужном формате.

2.2 Выведите информацию о рецептах, добавленных в датасет не позже 2010 года.

### Работа со строковыми данными в `pandas`

3.1  Добавьте в таблицу `recipes` столбец `description_length`, в котором хранится длина описания рецепта из столбца `description`.

3.2 Измените название каждого рецепта в таблице `recipes` таким образом, чтобы каждое слово в названии начиналось с прописной буквы.

3.3 Добавьте в таблицу `recipes` столбец `name_word_count`, в котором хранится количество слов из названии рецепта (считайте, что слова в названии разделяются только пробелами).

### Группировки таблиц `pd.DataFrame`

4.1 Посчитайте количество рецептов, представленных каждым из участников (`contributor_id`). Какой участник добавил максимальное кол-во рецептов?

4.2 Посчитайте средний рейтинг к каждому из рецептов. Для скольких рецептов отсутствуют отзывы?

4.3 Посчитайте количество рецептов с разбивкой по годам создания.

### Объединение таблиц `pd.DataFrame`

5.1 При помощи объединения таблиц, создайте `DataFrame`, состоящий из четырех столбцов: `id`, `name`, `user_id`, `rating`. Рецепты без отзывов должны отсутствовать в данной таблице. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.

5.2 При помощи объединения таблиц и группировок, создайте `DataFrame`, состоящий из трех столбцов: `recipe_id`, `name`, `review_count`. У рецептов, для которых отсутствуют отзывы, в соответствущем столбце должен быть указан 0. Подтвердите правильность работы вашего кода, выбрав рецепт, не имеющий отзывов, и выведя на экран строку из полученного `DataFrame`, содержащую информацию об этом отзыве.


5.3. Выясните, отзывы, добавленные в каком году, имеют наименьший средний рейтинг?

### Сохранение таблиц `pd.DataFrame`

6.1 Отсортируйте таблицу в порядке убывания величины столбца `name_word_count` и сохраните результаты выполнения заданий 3.1-3.3 в csv файл. 

6.2 Воспользовавшись `pd.ExcelWriter`, cохраните результаты 5.1 и 5.2 в файл: на лист с названием `Рецепты с оценками` сохраните результаты выполнения 5.1; на лист с названием `Количество отзывов по рецептам` сохраните результаты выполнения 5.2.