# **Лабораторная работа №1**
## **Работа с библиотекой pandas**
## **Вариант 4: Чаевые**
**Цель работы**: познакомиться с использованием библиотеки pandas при решении
практических задач, связанных с анализом данных.

Проанализируем датасет о чаевых. Датасет содержит информацию о суммах счетов, чаевых, поле плательщика, а также о некоторых других факторах, которые могут влиять на размер чаевых, таких как курение, день недели, время суток и размер компании. Смысл задачи - выявить закономерности и факторы, влияющие на размер чаевых, а также получить статистическую информацию о чаевых. Набор данных включает следующие атрибуты:
*   total_bill – общий счет;
*   tip – чаевые;
*   sex – пол;
*   smoker – курильщик;
*   day – день недели;
*   time – время суток;
*   size – размер компании (число участвующих в мероприятии).

Замечание к полю time:
*   Lunch – обед (но это легкий перекус, а не три блюда и компот);
*   Dinner – ужин (основной прием пищи для англоговорящих, приходится
на время после трудового дня).


## 1. Импортируем необходимые библиотеки

In [None]:
import numpy as np
import pandas as pd

## 2. Импортируем набор данных из файла tips.csv

In [None]:
df = pd.read_csv('tips.csv')

## 3. Выведем 16 первых строк

In [None]:
print(df.head(16))

    total_bill   tip     sex smoker  day    time  size
0        16.99  1.01  Female     No  Sun  Dinner     2
1        10.34  1.66    Male     No  Sun  Dinner     3
2        21.01  3.50    Male     No  Sun  Dinner     3
3        23.68  3.31    Male     No  Sun  Dinner     2
4        24.59  3.61  Female     No  Sun  Dinner     4
5        25.29  4.71    Male     No  Sun  Dinner     4
6         8.77  2.00    Male     No  Sun  Dinner     2
7        26.88  3.12    Male     No  Sun  Dinner     4
8        15.04  1.96    Male     No  Sun  Dinner     2
9        14.78  3.23    Male     No  Sun  Dinner     2
10       10.27  1.71    Male     No  Sun  Dinner     2
11       35.26  5.00  Female     No  Sun  Dinner     4
12       15.42  1.57    Male     No  Sun  Dinner     2
13       18.43  3.00    Male     No  Sun  Dinner     4
14       14.83  3.02  Female     No  Sun  Dinner     2
15       21.58  3.92    Male     No  Sun  Dinner     2


## 4. Процентный состав мужчин и женщин среди плательщиков по счету:

In [None]:
gender_counts = df['sex'].value_counts()
gender_percentages = gender_counts / len(df) * 100
print(gender_percentages)

sex
Male      64.344262
Female    35.655738
Name: count, dtype: float64


## 5. Количество мероприятий которые относятся к обеду и к ужину

In [None]:
print("Количество мероприятий по времени суток:")
time_counts = df['time'].value_counts()
print(time_counts)

Количество мероприятий по времени суток:
time
Dinner    176
Lunch      68
Name: count, dtype: int64


## 6. Процент чаевых от общей суммы счета в каждом конкретном случае

In [None]:
df['tip_percentage'] = np.where(df['total_bill'] != 0,
                                (df['tip'] / df['total_bill']) * 100, 0)
print(df[['total_bill', 'tip', 'tip_percentage']].head())

   total_bill   tip  tip_percentage
0       16.99  1.01        5.944673
1       10.34  1.66       16.054159
2       21.01  3.50       16.658734
3       23.68  3.31       13.978041
4       24.59  3.61       14.680765


## 7. Процентный состав курящих и некурящих среди плательщиков по счету

In [None]:
smoker_counts = df['smoker'].value_counts()
smoker_percentages = smoker_counts / len(df) * 100
print(smoker_percentages)

smoker
No     61.885246
Yes    38.114754
Name: count, dtype: float64


## 8. Часть общего счета на каждого участвующего в мероприятии

In [None]:
df['bill_per_person'] = df['total_bill']/df['size']
print(df[['total_bill','size','bill_per_person']].head())

   total_bill  size  bill_per_person
0       16.99     2         8.495000
1       10.34     3         3.446667
2       21.01     3         7.003333
3       23.68     2        11.840000
4       24.59     4         6.147500


## 9. Какой процент чаевых пришелся на каждого участвующего в мероприятии

In [None]:
df['tip_per_person_percent'] = (df['tip'] / df['size']) / df['total_bill'] * 100
print(df[['tip','size','tip_per_person_percent']].head())

    tip  size  tip_per_person_percent
0  1.01     2                2.972337
1  1.66     3                5.351386
2  3.50     3                5.552911
3  3.31     2                6.989020
4  3.61     4                3.670191


## 10. Всего трат каждой компании на мероприятие (счет и чаевые)

In [None]:
df['total_with_tip'] = df['total_bill'] + df['tip']
print(df[['total_bill','tip','total_with_tip']].head())

   total_bill   tip  total_with_tip
0       16.99  1.01           18.00
1       10.34  1.66           12.00
2       21.01  3.50           24.51
3       23.68  3.31           26.99
4       24.59  3.61           28.20


## 11. Дни недели которые являются наиболее загруженными для официанта, а какие – наименее загруженными?

In [None]:
day_counts = df['day'].value_counts()
print("Загруженность по дням недели:\n", day_counts, "\n")
print("Наиболее загруженный день:", day_counts.idxmax())
print("Наименее загруженный день:", day_counts.idxmin(), "\n")

Загруженность по дням недели:
 day
Sat     87
Sun     76
Thur    62
Fri     19
Name: count, dtype: int64 

Наиболее загруженный день: Sat
Наименее загруженный день: Fri 



## 12. Наиболее распространенный размер компании

In [None]:
common_size = df['size'].mode()[0]
print("Наиболее распространенный размер компании:", common_size, "\n")

Наиболее распространенный размер компании: 2 



## 13. Процентный состав одиноких посетителей и больших компаний (5-6 человек)

In [None]:
single = (df['size'] == 1).sum() / len(df) * 100
big = (df['size'].isin([5,6])).sum() / len(df) * 100
print(f"Одинокие посетители: {single:.2f}%")
print(f"Большие компании (5-6 чел.): {big:.2f}%\n")

Одинокие посетители: 1.64%
Большие компании (5-6 чел.): 3.69%



## 14. Размеры общих счетов и размеры чаевых которые относятся к выбросам

In [None]:
def find_outliers(series):
    Q1, Q3 = np.percentile(series, [25, 75])
    IQR = Q3 - Q1
    lower, upper = Q1 - 1.5*IQR, Q3 + 1.5*IQR
    return series[(series < lower) | (series > upper)]
outliers_bill = find_outliers(df['total_bill'])
outliers_tip = find_outliers(df['tip'])
print("Выбросы по счетам:\n", outliers_bill, "\n")
print("Выбросы по чаевым:\n", outliers_tip, "\n")

Выбросы по счетам:
 59     48.27
102    44.30
142    41.19
156    48.17
170    50.81
182    45.35
184    40.55
197    43.11
212    48.33
Name: total_bill, dtype: float64 

Выбросы по чаевым:
 23      7.58
47      6.00
59      6.73
141     6.70
170    10.00
183     6.50
212     9.00
214     6.50
239     5.92
Name: tip, dtype: float64 



## 15. Медианная сумма счета и медианная сумма чаевых

In [None]:
median_bill = df['total_bill'].median()
median_tip = df['tip'].median()
print("Медианный счет:", median_bill)
print("Медиальные чаевые:", median_tip)

Медианный счет: 17.795
Медиальные чаевые: 2.9
