In [19]:
import pandas as pd

#### Загрузить данные в pandas по url=https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv

#### 1. Вывести: кол-во наблюдений в датасете
#### 2. Вывести названия столбцов
#### 3. Определить самую частую позицию (item) в заказе 
#### 4. Построить гистрограмму частоты заказов по позициям (item )
#### 5. Измените тип переменной item_price c с помощью лямбды функции
#### 6. Построить гистограмму кол-во денег заработанных по каждой позиции (item)
#### 7. Средняя сумма заказа? (минимум 2 способа)
#### 8. Выведите среднее, минимальное и максимальное, медианное значения позиций в заказе
#### 9. Определить статистику заказов стейков, а также статистику заказов прожарки.
#### 10. Добавить новый столбец цен на каждую позицию в заказе в рублях.
#### 11. Сгруппировать заказы по входящим позициям в него. Отдельно сгруппировать по стейкам во всех видах прожарках.
#### 12. Определить цену по каждой позиции в отдельности. 


In [20]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from forex_python.converter import CurrencyRates

def plot_histogram(data_to_display: dict, title: str):
    plt.barh(range(len(data_to_display)), data_to_display.values())
    plt.yticks(range(len(data_to_display)), list(data_to_display.keys()))
    plt.title(label=title)
    print("", end="\n\n")


data = pd.read_csv("./dataset.tsv", sep="\t", header=0)
data = data.replace(np.nan, '', regex=True)
data = data.astype({
    "order_id" : "int64", 
    "quantity": "int64", 
    "item_name": "category",
    })

print("1. Вывести: кол-во наблюдений в датасете")
print(len(data.index), end="\n\n")


print("2. Вывести названия столбцов")
for name in data.columns: print(name, end=" ")
print("", end="\n\n")


print("3. Определить самую частую позицию (item) в заказе")
print(data['item_name'].mode(), end="\n\n")


print("4. Построить гистрограмму частоты заказов по позициям (item)")
# data_to_display = data["item_name"].value_counts().to_dict()
# plot_histogram(data_to_display, "Гистограмма частоты заказов")


print("5. Измените тип переменной item_price c помощью лямбда-функции")
data["item_price"] = data["item_price"].apply(lambda x: float(x[1:])).astype("float64")
print("", end="\n\n")


print("6. Построить гистограмму кол-во денег заработанных по каждой позиции (item)")
data_to_display = data.groupby(by=["item_name"])["item_price"].sum().to_dict()
# plot_histogram(data_to_display, "Гистограмма кол-ва денег, заработанных с каждой позиции")


print("7. Средняя сумма заказа? (минимум 2 способа)")
mean1 = data["item_price"].mean()
mean2 = data["item_price"].sum()/len(data["item_price"])
print(f"Среднее значение 1: ${mean1}")
print(f"Среднее значение 2: ${mean2}")
print("\n\n")


print("8. Выведите среднее, минимальное и максимальное, медианное значения позиций в заказе")
mean = data["item_price"].mean()
min = data["item_price"].min()
max = data["item_price"].max()
median = data["item_price"].median()
print(f"Среднее значение: ${mean}")
print(f"Минимальное значение: ${min}")
print(f"Максимальное значение: ${max}")
print(f"Медиана: ${median}")
print("\n\n")


print("!!!9. Определить статистику заказов стейков, а также статистику заказов прожарки")
def get_roasting_data(data: list[str]):
    d = {"mild": 0, "medium": 0, "hot": 0 }

    for item in data:
        if "(Mild)" in item: d["mild"]+=1
        if "(Medium)" in item: d["medium"]+=1
        if "(Hot)" in item: d["hot"]+=1 

    return d

steak_data = data.loc[data["item_name"].str.contains("Steak", na=False)]

steak_data_to_plot = dict(filter(lambda x: x[1] > 0, steak_data["item_name"].value_counts().to_dict().items()))
# plot_histogram(steak_data_to_plot, "Статистика заказов стейков")


steak_roasting_data_to_plot = get_roasting_data(steak_data["choice_description"])
# plot_histogram(steak_roasting_data_to_plot, "Статистика прожарок для стейков")

roasting_data_to_plot = get_roasting_data(data["choice_description"].tolist())
# plot_histogram(roasting_data_to_plot, "Общая статистика прожарок")


print("10. Добавить новый столбец цен на каждую позицию в заказе в рублях.")
rate = CurrencyRates().get_rate("USD", "RUB")
data["item_price_ru"] = data["item_price"].apply(lambda x: x * rate)
print("\n\n")

print("12. Определить цену по каждой позиции в отдельности")
prices = data[data["quantity"] == 1]
prices = prices[["item_name", "item_price"]]
single_items = prices["item_name"].to_list()
multi_items = data[~data.item_name.isin(single_items)]


1. Вывести: кол-во наблюдений в датасете
4622

2. Вывести названия столбцов
order_id quantity item_name choice_description item_price 

3. Определить самую частую позицию (item) в заказе
0    Chicken Bowl
Name: item_name, dtype: category
Categories (50, object): ['6 Pack Soft Drink', 'Barbacoa Bowl', 'Barbacoa Burrito', 'Barbacoa Crispy Tacos', ..., 'Veggie Crispy Tacos', 'Veggie Salad', 'Veggie Salad Bowl', 'Veggie Soft Tacos']

4. Построить гистрограмму частоты заказов по позициям (item)
5. Измените тип переменной item_price c помощью лямбда-функции


6. Построить гистограмму кол-во денег заработанных по каждой позиции (item)
7. Средняя сумма заказа? (минимум 2 способа)
Среднее значение 1: $7.464335785374297
Среднее значение 2: $7.464335785374297



8. Выведите среднее, минимальное и максимальное, медианное значения позиций в заказе
Среднее значение: $7.464335785374297
Минимальное значение: $1.09
Максимальное значение: $44.25
Медиана: $8.75



!!!9. Определить статистику заказов стей

### Алгоритмы уменьшения размерности 

#### повторить эксперименты в главе 5.1 Qalitative Comparison of Multiple Algorithms статьи статьи UMAP: Uniform Manifold
#### Approximation and Projection for Dimension Reduction (https://arxiv.org/pdf/1802.03426.pdf)

#### необходимо воспроизвести все графики данной главы, соотнести выводы из статьи с вашими результатами.