# Фильтрация - сортировка - анализ данных

# Заказы в фастфуде Chipotle

### Шаг 1. Импортируем библиотеки.

In [1]:
import pandas as pd 
import numpy as np 

### Шаг 2. Читаем датасет в переменную chipo

In [17]:
# tsv файл - это tab separated values, чтобы корректно его загрузить, укажи аргумент sep='\t'
# path = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'
# Загрузка_данных в пандас https://dfedorov.spb.ru/pandas/Загрузка_данных.html

In [3]:
path = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'
chipo = pd.read_csv(path, sep='\t')
print(chipo)

      order_id  quantity                              item_name  \
0            1         1           Chips and Fresh Tomato Salsa   
1            1         1                                   Izze   
2            1         1                       Nantucket Nectar   
3            1         1  Chips and Tomatillo-Green Chili Salsa   
4            2         2                           Chicken Bowl   
...        ...       ...                                    ...   
4617      1833         1                          Steak Burrito   
4618      1833         1                          Steak Burrito   
4619      1834         1                     Chicken Salad Bowl   
4620      1834         1                     Chicken Salad Bowl   
4621      1834         1                     Chicken Salad Bowl   

                                     choice_description item_price  
0                                                   NaN     $2.39   
1                                          [Clementine]  

### Шаг 3. Смотрим первые 10 записей

In [4]:
print(chipo.head(10))

   order_id  quantity                              item_name  \
0         1         1           Chips and Fresh Tomato Salsa   
1         1         1                                   Izze   
2         1         1                       Nantucket Nectar   
3         1         1  Chips and Tomatillo-Green Chili Salsa   
4         2         2                           Chicken Bowl   
5         3         1                           Chicken Bowl   
6         3         1                          Side of Chips   
7         4         1                          Steak Burrito   
8         4         1                       Steak Soft Tacos   
9         5         1                          Steak Burrito   

                                  choice_description item_price  
0                                                NaN     $2.39   
1                                       [Clementine]     $3.39   
2                                            [Apple]     $3.39   
3                              

### Шаг 4. Сколько всего записей в датасете?

In [5]:
# Решение 1
print(chipo.shape[0])

4622


In [6]:
# Решение 2
print(len(chipo))

4622


### Шаг 5. Какие типы данных имеют признаки?

In [7]:
# Решение 1
print(chipo.dtypes)

order_id               int64
quantity               int64
item_name             object
choice_description    object
item_price            object
dtype: object


In [8]:
# Решение 2
print({col: chipo[col].dtype for col in chipo.columns})

{'order_id': dtype('int64'), 'quantity': dtype('int64'), 'item_name': dtype('O'), 'choice_description': dtype('O'), 'item_price': dtype('O')}


### Шаг 6. Сколько всего колонок в датасете?

In [9]:
print(chipo.shape[1])

5


### Шаг 7. Выведите имена всех колонок

In [10]:
print(chipo.columns)

Index(['order_id', 'quantity', 'item_name', 'choice_description',
       'item_price'],
      dtype='object')


### Шаг 8. Как проиндексирован датасет? Выведи индекс датасета

In [13]:
print(chipo.index)

RangeIndex(start=0, stop=4622, step=1)


### Шаг 9. Какое блюдо заказывали больше всего?

In [16]:
print(chipo['item_name'].value_counts().idxmax())

Chicken Bowl


### Шаг 10. Сколько раз заказывали самое популярное блюдо?
Учти кол-во позиций в заказе

In [18]:
most_popular_item = chipo['item_name'].value_counts().idxmax()

total_orders_for_popular_item = chipo[chipo['item_name'] == most_popular_item]['quantity'].sum()
print(total_orders_for_popular_item)

761


### Шаг 11. Сколько суммарно блюд было заказано?

In [19]:
print(chipo['quantity'].sum())

4972


### Шаг 12. Измени тип колонки `price` в `float`

In [24]:
chipo['item_price'] = chipo['item_price'].replace({r'\$': '', ' ': ''}, regex=True)
chipo['item_price'] = chipo['item_price'].astype(float)
print(chipo.dtypes)

order_id                int64
quantity                int64
item_name              object
choice_description     object
item_price            float64
dtype: object


### Шаг 13. Сколько денег суммарно было получено?

In [27]:
total_revenue = (chipo['quantity'] * chipo['item_price']).sum()
print(f"${total_revenue:.2f}")

$39237.02


### Шаг 14. Сколько блюд стоят больше $10.00?

In [28]:
print((chipo['item_price'] > 10.00).sum())

1130


### Шаг 15. Сколько стоит каждое блюдо?
###### выведите датафрейм с колонками item_name и item_price и удали дубликаты

In [35]:
print(chipo[['item_name', 'item_price']].drop_duplicates())

                                  item_name  item_price
0              Chips and Fresh Tomato Salsa        2.39
1                                      Izze        3.39
2                          Nantucket Nectar        3.39
3     Chips and Tomatillo-Green Chili Salsa        2.39
4                              Chicken Bowl       16.98
...                                     ...         ...
4237                    Chips and Guacamole        8.50
4354                       Steak Soft Tacos       18.50
4489                    Chips and Guacamole       17.80
4509                                  Chips        1.99
4510                          Barbacoa Bowl       11.49

[209 rows x 2 columns]


### Шаг 16. Какая средняя цена заказа?
Учти что в 1 заказе может быть несколько позиций

In [52]:
# Решение 1
order_totals = chipo.groupby('order_id')['item_price'].sum()

average_order_price = order_totals.mean()
print(f"Средняя цена заказа: ${average_order_price:.2f}")


Средняя цена заказа: $18.81


In [None]:
# Решение 2



### Шаг 17. Сортируем по названию блюда и кол-ву  одновременно

In [41]:
sorted_items = chipo.sort_values(by=['item_name', 'quantity'], ascending=[True, False])
print(sorted_items[['item_name', 'quantity']])                                

              item_name  quantity
3389  6 Pack Soft Drink         2
298   6 Pack Soft Drink         1
341   6 Pack Soft Drink         1
357   6 Pack Soft Drink         1
388   6 Pack Soft Drink         1
...                 ...       ...
781   Veggie Soft Tacos         1
1395  Veggie Soft Tacos         1
1699  Veggie Soft Tacos         1
2384  Veggie Soft Tacos         1
2851  Veggie Soft Tacos         1

[4622 rows x 2 columns]


### Шаг 18. Сколько заказов суммарно было сделано?

In [42]:
print(chipo['order_id'].nunique())

1834


### Шаг 19. Сколько _разных_ блюд было продано?

In [43]:
print(chipo['item_name'].nunique())

50


### Шаг 20. Сколько раз заказывали самое дорогое блюдо?

In [45]:
most_expensive_item = chipo.loc[chipo['item_price'].idxmax(), 'item_name']
total_orders_for_expensive_item = chipo[chipo['item_name'] == most_expensive_item]['quantity'].sum()
print(total_orders_for_expensive_item)

130


### Шаг 21. Сколько раз заказывали Veggie Salad Bowl?

In [46]:
print(chipo[chipo['item_name'] == 'Veggie Salad Bowl']['quantity'].sum())

18


### Шаг 22. В скольких заказах присутствует больше одной Canned Soda?

In [47]:
canned_soda = chipo[(chipo['item_name'] == 'Canned Soda') & (chipo['quantity'] > 1)]
print(canned_soda['order_id'].nunique())

18


### Шаг 23. Выведи сводную информацию о датафрейме (1 метод)

In [49]:
# Для численных признаков (count, mean, std, min, median, max)
print(chipo.describe())

          order_id     quantity   item_price
count  4622.000000  4622.000000  4622.000000
mean    927.254868     1.075725     7.464336
std     528.890796     0.410186     4.245557
min       1.000000     1.000000     1.090000
25%     477.250000     1.000000     3.390000
50%     926.000000     1.000000     8.750000
75%    1393.000000     1.000000     9.250000
max    1834.000000    15.000000    44.250000


In [50]:
# Для категориальных признаков (count, unique, top, freq)
print(chipo.describe(include='object'))

           item_name choice_description
count           4622               3376
unique            50               1043
top     Chicken Bowl        [Diet Coke]
freq             726                134


### Шаг 24*. Какой ингредиент в колонке choice_description заказывали больше всего?
Присмотрись к методу explode https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.explode.html  
Обрати внимание что подается на вход этой функции

In [48]:
exploded_choices = chipo.explode('choice_description')

most_ordered_ingredient = exploded_choices['choice_description'].value_counts().idxmax()
most_ordered_count = exploded_choices['choice_description'].value_counts().max()
print(f"Самый заказываемый ингредиент: {most_ordered_ingredient} (количество: {most_ordered_count})")

Самый заказываемый ингредиент: [Diet Coke] (количество: 134)
