# Домашнее задание 1 - PANDAS

### О задании

Задание состоит из двух разделов, посвященных работе с табличными данными с помощью библиотеки pandas и визуализации с помощью matplotlib. В каждом разделе вам предлагается выполнить несколько заданий. Баллы даются за выполнение отдельных пунктов. Задачи в рамках одного раздела рекомендуется решать в том порядке, в котором они даны в задании.

Задание направлено на освоение jupyter notebook (будет использоваться в дальнейших заданиях), библиотекам pandas и matplotlib.

### Оценивание и штрафы
Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 10 баллов.

Сдавать задание после указанного срока сдачи нельзя. При выставлении неполного балла за задание в связи с наличием ошибок на усмотрение проверяющего предусмотрена возможность исправить работу на указанных в ответном письме условиях.

Задание выполняется самостоятельно. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов. Если вы нашли решение какого-то из заданий (или его часть) в открытом источнике, необходимо указать ссылку на этот источник в отдельном блоке в конце вашей работы (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник).

Сейчас мы находимся в jupyter-ноутбуке (или ipython-ноутбуке). Это удобная среда для написания кода, проведения экспериментов, изучения данных, построения визуализаций и других нужд, не связанных с написаем production-кода. 

Ноутбук состоит из ячеек, каждая из которых может быть либо ячейкой с кодом, либо ячейкой с текстом размеченным и неразмеченным. Текст поддерживает markdown-разметку и формулы в Latex.

Для работы с содержимым ячейки используется *режим редактирования* (*Edit mode*, включается нажатием клавиши **Enter** после выбора ячейки), а для навигации между ячейками искользуется *командный режим* (*Command mode*, включается нажатием клавиши **Esc**). Тип ячейки можно задать в командном режиме либо с помощью горячих клавиш (**y** to code, **m** to markdown, **r** to edit raw text), либо в меню *Cell -> Cell type*. 

После заполнения ячейки нужно нажать *Shift + Enter*, эта команда обработает содержимое ячейки: проинтерпретирует код или сверстает размеченный текст.

### Формат сдачи
Для сдачи задания получившийся файл \*.ipynb с решением необходимо выложить в свой репозиторий github.

## 1. Табличные данные и Pandas

Pandas — удобная библиотека для работы с табличными данными в Python, если данных не слишком много и они помещаются в оперативную память вашего компьютера. Несмотря на неэффективность реализации и некоторые проблемы, библиотека стала стандартом в анализе данных. С этой библиотекой мы сейчас и познакомимся.

Основной объект в pandas это DataFrame, представляющий собой таблицу с именованными колонками различных типов, индексом (может быть многоуровневым). DataFrame можно создавать, считывая таблицу из файла или задавая вручную из других объектов.

В этой части потребуется выполнить несколько небольших заданий. Можно пойти двумя путями: сначала изучить материалы, а потом приступить к заданиям, или же разбираться "по ходу". Выбирайте сами.

Материалы:
1. [Pandas за 10 минут из официального руководства](http://pandas.pydata.org/pandas-docs/stable/10min.html)
2. [Документация](http://pandas.pydata.org/pandas-docs/stable/index.html) (стоит обращаться, если не понятно, как вызывать конкретный метод)
3. [Примеры использования функционала](http://nbviewer.jupyter.org/github/justmarkham/pandas-videos/blob/master/pandas.ipynb)

Многие из заданий можно выполнить несколькими способами. Не существуют единственно верного, но попробуйте максимально задействовать арсенал pandas и ориентируйтесь на простоту и понятность вашего кода. Мы не будем подсказывать, что нужно использовать для решения конкретной задачи, попробуйте находить необходимый функционал сами (название метода чаще всего очевидно). В помощь вам документация, поиск и stackoverflow.

In [3]:
%pylab inline  
# import almost all we need
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%pylab is deprecated, use %matplotlib inline and import the required libraries.
Populating the interactive namespace from numpy and matplotlib


Данные находятся в приложенном файле `chipotle.tsv`

#### 1. [0.5 баллов] Откройте файл с таблицей (не забудьте про её формат). Выведите последние 10 строк.

Посмотрите на данные и скажите, что они из себя представляют, сколько в таблице строк, какие столбцы?

In [5]:
data = pd.read_csv('chipotle.tsv', sep='\t')

In [7]:
data.tail(10)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
4612,1831,1,Carnitas Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",$9.25
4613,1831,1,Chips,,$2.15
4614,1831,1,Bottled Water,,$1.50
4615,1832,1,Chicken Soft Tacos,"[Fresh Tomato Salsa, [Rice, Cheese, Sour Cream]]",$8.75
4616,1832,1,Chips and Guacamole,,$4.45
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",$11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",$11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",$11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",$8.75
4621,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",$8.75


В таблице 4622 строки, столбцы: номер заказа, количество, название блюда, описание выбранного товара, цена товара.
Таблица - учётная книга заказов ресторана.

#### 2. [0.25 баллов] Ответьте на вопросы:
1. Сколько заказов попало в выборку?
2. Сколько уникальных категорий товара было куплено? (item_name)

In [8]:
data['order_id'].nunique()

1834

In [9]:
data['item_name'].nunique()

50

В выборку попало 1834 заказа и было куплено 50 уникальных категорий товара.

#### 3. [0.25 баллов] Есть ли в данных пропуски? В каких колонках? 

In [11]:
data.isnull()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,False,False,False,True,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,True,False
4,False,False,False,False,False
...,...,...,...,...,...
4617,False,False,False,False,False
4618,False,False,False,False,False
4619,False,False,False,False,False
4620,False,False,False,False,False


Пропуски есть только в столбце "choice_description".

Заполните пропуски пустой строкой для строковых колонок и нулём для числовых.

In [12]:
data.fillna('')

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",$11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",$11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",$11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",$8.75


#### 4. [0.5 баллов] Посмотрите внимательнее на колонку с ценой товара. Какого она типа? Создайте новую колонку так, чтобы в ней цена была числом.

Для этого попробуйте применить функцию-преобразование к каждой строке вашей таблицы (для этого есть соответствующая функция).

In [15]:
data['item_price'].dtype

dtype('O')

In [14]:
data['item_price_numeric'] = data['item_price'].apply(
    lambda x: float(x.replace('$', '').strip()) if isinstance(x, str) else float(x)
)

data[['item_price_numeric']].head()

Unnamed: 0,item_price_numeric
0,2.39
1,3.39
2,3.39
3,2.39
4,16.98


Какая средняя/минимальная/максимальная цена у товара? 

In [16]:
np.mean(data['item_price_numeric']).item()

7.464335785374297

In [17]:
data['item_price_numeric'].min().item()

1.09

In [19]:
data['item_price_numeric'].max().item()

44.25

Удалите старую колонку с ценой.

In [20]:
data.drop('item_price', axis=1, inplace=True)
data.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price_numeric
0,1,1,Chips and Fresh Tomato Salsa,,2.39
1,1,1,Izze,[Clementine],3.39
2,1,1,Nantucket Nectar,[Apple],3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98


#### 5. [0.25 баллов] Какие 5 товаров были самыми дешёвыми и самыми дорогими? (по item_name)

Для этого будет удобно избавиться от дубликатов и отсортировать товары. Не забудьте про количество товара.

In [23]:
data.groupby('item_name')['item_price_numeric'].min()

item_name
6 Pack Soft Drink                        6.49
Barbacoa Bowl                            8.69
Barbacoa Burrito                         8.69
Barbacoa Crispy Tacos                    8.99
Barbacoa Salad Bowl                      9.39
Barbacoa Soft Tacos                      8.99
Bottled Water                            1.09
Bowl                                     7.40
Burrito                                  7.40
Canned Soda                              1.09
Canned Soft Drink                        1.25
Carnitas Bowl                            8.99
Carnitas Burrito                         8.69
Carnitas Crispy Tacos                    8.99
Carnitas Salad                           8.99
Carnitas Salad Bowl                      9.39
Carnitas Soft Tacos                      8.99
Chicken Bowl                             8.19
Chicken Burrito                          8.19
Chicken Crispy Tacos                     8.49
Chicken Salad                            8.19
Chicken Salad Bowl      

In [24]:
data.groupby('item_name')['item_price_numeric'].min().nsmallest(5)

item_name
Bottled Water        1.09
Canned Soda          1.09
Canned Soft Drink    1.25
Side of Chips        1.69
Chips                1.99
Name: item_price_numeric, dtype: float64

In [25]:
data.groupby('item_name')['item_price_numeric'].max()

item_name
6 Pack Soft Drink                        12.98
Barbacoa Bowl                            11.75
Barbacoa Burrito                         11.75
Barbacoa Crispy Tacos                    18.50
Barbacoa Salad Bowl                      11.89
Barbacoa Soft Tacos                      11.75
Bottled Water                            15.00
Bowl                                     22.20
Burrito                                   7.40
Canned Soda                               4.36
Canned Soft Drink                         5.00
Carnitas Bowl                            35.25
Carnitas Burrito                         18.50
Carnitas Crispy Tacos                    17.98
Carnitas Salad                            8.99
Carnitas Salad Bowl                      11.89
Carnitas Soft Tacos                      11.75
Chicken Bowl                             32.94
Chicken Burrito                          35.00
Chicken Crispy Tacos                     17.50
Chicken Salad                            10.98
Chi

In [26]:
data.groupby('item_name')['item_price_numeric'].max().nlargest(5)

item_name
Chips and Fresh Tomato Salsa    44.25
Carnitas Bowl                   35.25
Chicken Burrito                 35.00
Veggie Burrito                  33.75
Chicken Bowl                    32.94
Name: item_price_numeric, dtype: float64

#### 6. [0.5 баллов] Сколько раз клиенты покупали больше 1 Chicken Bowl (item_name)?

In [27]:
data[data['item_name'] == 'Chicken Bowl'].groupby('item_name')['quantity'].value_counts()

item_name     quantity
Chicken Bowl  1           693
              2            31
              3             2
Name: count, dtype: int64

In [None]:
33 раза

#### 7. [0.5 баллов] Какой средний чек у заказа? Сколько в среднем товаров покупают?

Если необходимо провести вычисления в терминах заказов, то будет удобно сгруппировать строки по заказам и посчитать необходимые статистики.

In [29]:
data.groupby('order_id')['item_price_numeric'].sum().mean().item()

18.811428571428568

Средний чек: 18.81

In [30]:
data.groupby('order_id')['quantity'].sum().mean().item()

2.711014176663032

In [None]:
Среднее количество товаров: 2.71

#### 8. [0.25 баллов] Сколько заказов содержали ровно 1 товар?

In [32]:
(data.groupby('order_id')['quantity'].sum() == 1).sum().item()

56

#### 9. [0.25 баллов] Какая самая популярная категория товара? 

In [33]:
data.groupby('item_name')['quantity'].sum().nlargest(1)

item_name
Chicken Bowl    761
Name: quantity, dtype: int64

#### 10. [0.5 баллов] Какие виды Burrito существуют? Какой из них чаще всего покупают? Какой из них самый дорогой? 

In [40]:
burrito_items = data[data['item_name'].str.contains('Burrito')]
burrito_types = burrito_items['item_name'].unique()
for i, burrito_type in enumerate(sorted(burrito_types), 1):
    print(f"{i}. {burrito_type}")

1. Barbacoa Burrito
2. Burrito
3. Carnitas Burrito
4. Chicken Burrito
5. Steak Burrito
6. Veggie Burrito


In [35]:
burrito_items.groupby('item_name').agg({
    'quantity': 'sum'
}).sort_values('quantity', ascending=False).iloc[0]

quantity    591
Name: Chicken Burrito, dtype: int64

In [36]:
burrito_items.groupby('item_name').agg({
    'item_price_numeric': 'max'
}).sort_values('item_price_numeric', ascending=False).iloc[0]

item_price_numeric    35.0
Name: Chicken Burrito, dtype: float64

#### 11. [0.75 баллов] В каком количестве заказов есть товар, который стоит более 40% от суммы всего чека?

Возможно, будет удобно посчитать отдельно среднюю стоимость заказа, добавить ее в исходные данные и сделать необходимые проверки.

*Данный комментарий стоит воспринимать как подсказку к одному из вариантов решений задания. Если в вашем варианте решения он не нужнен, это не страшно*

In [43]:
def analyze_expensive_items(data, threshold=0.4):
    order_totals = data.groupby('order_id')['item_price_numeric'].sum().reset_index()
    order_totals.rename(columns={'item_price_numeric': 'order_total'}, inplace=True)

    orders_with_totals = data.merge(order_totals, on='order_id')
    
    orders_with_totals['item_share'] = orders_with_totals['item_price_numeric'] / orders_with_totals['order_total']
    
    expensive_items = orders_with_totals[orders_with_totals['item_share'] > threshold]
    
    result = {
        'total_orders': data['order_id'].nunique(),
        'expensive_item_orders': expensive_items['order_id'].nunique(),
        'percentage': expensive_items['order_id'].nunique() / data['order_id'].nunique(),
        'expensive_orders_details': expensive_items,
        'summary': expensive_items.groupby('order_id').agg({
            'item_name': 'first',
            'item_share': 'max',
            'order_total': 'first'
        }).reset_index()
    }
    
    return result

result = analyze_expensive_items(data, threshold=0.4)
print(f"Ответ: {result['expensive_item_orders']} заказов содержат товары дороже 40% от суммы всего чека")

Ответ: 1624 заказов содержат товары дороже 40% от суммы всего чека


#### 12. [0.75 баллов] Предположим, что в данных была ошибка и Diet Coke (choice_description), который стоил $1.25, должен был стоить 1.35. Скорректируйте данные в таблицы и посчитайте, на какой процент больше денег было заработано с этого товара. Не забывайте, что количество товара не всегда равно 1.

In [44]:
def diet_coke(data, old_price=1.25, new_price=1.35):
    
    adjusted = data.copy()
    
    mask = (
        adjusted['choice_description'].notna() & 
        (
            adjusted['choice_description'].str.contains('Diet Coke', case=False, na=False) |
            adjusted['choice_description'].str.contains('DietCoke', case=False, na=False)
        )
    )
    
    if not mask.any():
        print("Diet Coke не найден. Доступные значения:")
        print(adjusted['choice_description'].dropna().unique()[:10])
        return None
    
    print(f"Найдено записей Diet Coke: {mask.sum()}")
    print(f"Текущая цена: {adjusted.loc[mask, 'item_price_numeric'].unique()}")
    
    adjusted.loc[mask, 'item_price_numeric'] = new_price
    
    quantity_total = orders_df.loc[mask, 'quantity'].sum()
    revenue_before = quantity_total * old_price
    revenue_after = quantity_total * new_price
    increase_absolute = revenue_after - revenue_before
    increase_percent = (increase_absolute / revenue_before) * 100
    
    print(f"\n=== РЕЗУЛЬТАТЫ ===")
    print(f"Общее количество Diet Coke: {quantity_total}")
    print(f"Выручка до: ${revenue_before:.2f}")
    print(f"Выручка после: ${revenue_after:.2f}")
    print(f"Увеличение: ${increase_absolute:.2f}")
    print(f"Процент увеличения: {increase_percent:.2f}%")
    
    return {
        'revenue_before': revenue_before,
        'revenue_after': revenue_after,
        'increase_absolute': increase_absolute,
        'increase_percent': increase_percent,
        'total_quantity': quantity_total,
        'adjusted_dataframe': adjusted_df
    }

# Запускаем универсальный поиск
result = find_and_correct_diet_coke(orders_df)

<class 'ValueError'>: Cannot mask with non-boolean array containing NA / NaN values

#### 13. [0.75 баллов] Создайте новый DateFrame из матрицы, созданной ниже. Назовите колонки index, column1, column2 и сделайте первую колонку индексом.

In [21]:
matrix = [
    [1, "Убийственный класс", "комедия/боевик"],
    [2, "Стальной Алхимик: Братство", "боевик"],
    [3, "Саики Кусуо", "комедия"],
    [4, "Твоя апрельская ложь", "романтика/драма"],
    [5, "Нитидзё", "комедия"],
    [6, "Steins;Gate", "фантастика/триллер"],
    [7, "Хоримия", "романтика"],
    [8, "Моя геройская академия", "комедия/боевик"],
    [9, "Fate/Zero", "триллер/боевик"],
    [10, "Корзинка фруктов", "романтика"],
    [11, "Плутон", "триллер/боевик"],
    [12, "Галактика Татами", "комедия/фантастика"],
    [13, "Атака титанов", "боевик/триллер"],
    [14, "Ковбой Бибоп", "фантастика/боевик"],
    [15, "Шова Генроку Ракуго Синдзю", "драма"]
]

anime = pd.DataFrame(matrix, columns=['index', 'column1', 'column2'])

anime.set_index('index')

Unnamed: 0_level_0,column1,column2
index,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Убийственный класс,комедия/боевик
2,Стальной Алхимик: Братство,боевик
3,Саики Кусуо,комедия
4,Твоя апрельская ложь,романтика/драма
5,Нитидзё,комедия
6,Steins;Gate,фантастика/триллер
7,Хоримия,романтика
8,Моя геройская академия,комедия/боевик
9,Fate/Zero,триллер/боевик
10,Корзинка фруктов,романтика


Сохраните DataFrame на диск в формате csv без индексов и названий столбцов.

In [22]:
anime.to_csv('anime.csv', index=False, header=False)

## 2. Визуализации и matplotlib

При работе с данными часто неудобно делать какие-то выводы, если смотреть на таблицу и числа в частности, поэтому важно уметь визуализировать данные. В этом разделе мы этим и займёмся.

У matplotlib, конечно, же есть [документация](https://matplotlib.org/users/index.html) с большим количеством [примеров](https://matplotlib.org/examples/), но для начала достаточно знать про несколько основных типов графиков:
- plot — обычный поточечный график, которым можно изображать кривые или отдельные точки;
- hist — гистограмма, показывающая распределение некоторое величины;
- scatter — график, показывающий взаимосвязь двух величин;
- bar — столбцовый график, показывающий взаимосвязь количественной величины от категориальной.

В этом задании вы попробуете построить каждый из них. Не менее важно усвоить базовые принципы визуализаций:
- на графиках должны быть подписаны оси;
- у визуализации должно быть название;
- если изображено несколько графиков, то необходима поясняющая легенда;
- все линии на графиках должны быть чётко видны (нет похожих цветов или цветов, сливающихся с фоном);
- если отображена величина, имеющая очевидный диапазон значений (например, проценты могут быть от 0 до 100), то желательно масштабировать ось на весь диапазон значений (исключением является случай, когда вам необходимо показать малое отличие, которое незаметно в таких масштабах).
- сетка на графике помогает оценить значения в точках на глаз, это обычно полезно, поэтому лучше ее отрисовывать.

In [None]:
%matplotlib inline  # нужно для отображения графиков внутри ноутбука
import matplotlib.pyplot as plt

На самом деле мы уже импортировали matplotlib внутри %pylab inline в начале задания.

Работать мы будем с той же выборкой покупкок. Добавим новую колонку с датой покупки.

In [None]:
import datetime

start = datetime.datetime(2018, 1, 1)
end = datetime.datetime(2018, 1, 31)
delta_seconds = int((end - start).total_seconds())

dates = pd.DataFrame(index=df.order_id.unique())
dates['date'] = [
    (start + datetime.timedelta(seconds=random.randint(0, delta_seconds))).strftime('%Y-%m-%d')
    for _ in range(df.order_id.nunique())]

# если DataFrame с покупками из прошлого заказа называется не df, замените на ваше название ниже
df['date'] = df.order_id.map(dates['date'])

#### 1. [1 балл] Постройте гистограмму распределения сумм покупок и гистограмму средних цен отдельных видов продуктов item_name. 

Изображайте на двух соседних графиках. Для этого может быть полезен subplot.

In [None]:
# your code

#### 2. [1 балл] Постройте график зависимости суммы покупок от дней.

In [None]:
# your code

#### 3. [1 балл] Постройте средних сумм покупок по дням недели (bar plot).

In [None]:
# your code

#### 4. [1 балл] Постройте график зависимости денег за товар от купленного количества (scatter plot).

In [None]:
# your code

Сохраните график в формате pdf (так он останется векторизованным).

In [None]:
# your code

Еще одна билиотека для визуализации: [seaborn](https://jakevdp.github.io/PythonDataScienceHandbook/04.14-visualization-with-seaborn.html). Это настройка над matplotlib, иногда удобнее и красивее делать визуализации через неё. 