# Проект по Python

## Обоснование выбора файлов

Для анализа мы выбрали данные о продукции **Burger King** и **Subway**, чтобы сравнить их по ряду ключевых показателей питания. Мы хотим выявить такие показатели, как различия в калорийности, содержании жира, холестерина и других нутриентов между продукцией двух популярных сетей фаст-фуда.

## Определение функций для нахождения описательных статистик

### Среднее значение
$
\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i
$  
где:
- $\bar{x}$ — среднее значение,
- $n$ — количество элементов в выборке,
- $x_i$ — значение каждого элемента в выборке.

### Медиана

Для *нечетного* количества элементов:

$
\text{Медиана} = x_{\left(\frac{n+1}{2}\right)}
\
$

Для *четного* количества элементов:

$
\text{Медиана} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)}}{2}
$

где:
- $x_i$ — элементы выборки, отсортированные по возрастанию,
- $n$ — количество элементов в выборке.

### Размах

$
\text{Размах} = \max(x) - \min(x)
$

где:
- $\max(x)$ — максимальное значение выборки,
- $\min(x)$ — минимальное значение выборки.

### Коэффициент корреляции Пирсона

$
r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}}
$

где:
- $r$ — коэффициент корреляции Пирсона,
- $x_i$ — значения первой выборки,
- $y_i$ — значения второй выборки,
- $\bar{x}$ — среднее значение первой выборки,
- $\bar{y}$ — среднее значение второй выборки,
- $n$ — количество элементов в выборке.

### Дисперсия

$
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2
$

где:
- $\sigma^2$ — дисперсия,
- $x_i$ — значения выборки,
- $\bar{x}$ — среднее значение выборки,
- $n$ — количество элементов в выборке.

In [None]:
def find_average_value(data) -> float: # фунция для нахождения среднего значения

  data = list(map(float, data)) # изменение списка строк в список вещ. чисел

  return round( sum(data) / len(data), 2 ) # вычисление среднего значения

def find_median(data) -> float: # функция для нахождения медианы

  data = list(map(float, data)) # изменение списка строк в список вещ. чисел
  data = sorted(data) # сортировка массива

  if len(data) % 2 != 0: # если кол-во значений в выборке нечетно
    return round( data[len(data) // 2], 2 ) # вернуть число по середине

  return round( ( data[len(data) // 2] + data[len(data) // 2 - 1] ) / 2 , 2 ) # вернуть среднее двух чисел из середины

def find_range(data) -> float: # фунция для нахождения размаха

  data = list(map(float, data)) # изменение списка строк в список вещ. чисел

  return round( max(data) - min(data) , 2 ) # вернуть разницу между максимальным и минимальным элементами выборки

def return_sum_Pearson(f_data, s_data) -> float: # функция для подсчета числителя в формуле коэф Пирсона

  f_data = list(map(float, f_data)) # изменение списка строк в список вещ. чисел
  s_data = list(map(float, s_data)) # изменение списка строк в список вещ. чисел

  r = 0 # переменная-счетчик суммы

  f_av = find_average_value(f_data) # мат.ожидание первой выборки

  s_av = find_average_value(s_data) # мат.ожидание второй выборки

  for i in range(len(f_data)): # подсчет по формуле
    r += ( f_data[i] -  f_av ) * ( s_data[i] - s_av ) # подсчет по формуле

  return r # вернуть счетчик-сумму


def find_Pearson_coefficient(f_data, s_data) -> float: # функций для подсчета коэф Пирсона

  f_data = list(map(float, f_data)) # изменение списка строк в список вещ. чисел
  s_data = list(map(float, s_data)) # изменение списка строк в список вещ. чисел

  f = 0 # переменная-счетчик суммы
  s = 0 # переменная-счетчик суммы

  f_av = find_average_value(f_data) # мат.ожидание первой выборки
  s_av = find_average_value(s_data) # мат.ожидание второй выборки

  for i in range(len(f_data)): # подсчет по формуле
    f += (f_data[i] - f_av) ** 2 # подсчет по формуле
    s += (s_data[i] - s_av) ** 2 # подсчет по формуле

  return round( return_sum_Pearson(f_data, s_data) / (( f * s ) ** 0.5 ) , 2 ) # вернуть коэф Пирсона

def find_variance(data) -> float: # функция для подсчета дисперсии

  data = list(map(float, data)) # изменение списка строк в список вещ. чисел

  av = find_average_value(data) # мат.ожидание выборки

  return round( sum( [ ( data[i] - av ) ** 2 for i in range(len(data)) ] ) / len(data) , 10 ) # вернуть значение дисперсии

## Определение функции для считывания файлов

In [None]:
def reading_files(name) -> dict: # функция для считывания информации из файла и заполнения словаря

  with open(name,encoding="utf-8") as file: # открытие файла
    data = file.readlines() # считать все строки из файла

  dictionary = dict() # создание пустого словаря для сохранения результатов

  for string in data[0].split(","): # пробежим по первой строке файла, где хранятся ключи
    dictionary[string] = [] # заполним словарь ключами

  for string in data[1:]: # пробежим с второй строки файла для заполнения словаря данными
    for i in range( len( dictionary.keys() ) ): # пробежим по каждому ключу из словаря
      s = string.split(",")[i] # забираем i-ый элемент из строки
      dictionary[ list( dictionary.keys() )[i] ].append(s) # кладем в словарь i-ый элемент из строки

  return dictionary # возвращаем заполненный словарь

## Определение функции для составления рейтинга

In [None]:
def top_10_by_calories(dictionary_f, dictionary_s): # функция для заполнения файлика из топ 10 по калориям

  column_f = "Restaurant" # переменная-колонка
  column_s = "Calories" # переменная-колонка (ключ словаря)
  column_t = "Item" # переменная-колонка (ключ словаря)

  all_calories = dictionary_f[column_s] + dictionary_s[column_s] # обьединение двух выборок
  all_items = dictionary_f[column_t] + dictionary_s[column_t] # обьединение двух выборок
  all_restaurant = str(len(dictionary_f[column_s]) * "Subway," + len(dictionary_s[column_s]) * "Burger King,").split(",") # создание списка с названиями ресторанов

  data = [[all_restaurant[i],(float(all_calories[i])), all_items[i]] for i in range(len(all_calories))] # создание большого списка с данными
  data.sort(key=lambda el: el[1],reverse=True) # сортировка списка по калориям (от большего к меньшему)

  with open("result_top_10.txt", "w") as file: # создание/открытие файла
    file.write(f"{column_f}, {column_s}, {column_t}\n") # запись в файл названия колонок
    for element in data[:10]: # пробегаем по первым 10 элементам
      file.write(f"{element[0]}, {element[1]}, {element[2]}\n") # заполняем текстовый файл полученными данными

## Ячейка с вызовом функций

In [None]:
dictionary_subway = reading_files("subway-menu-nutrition.csv") # вызов функции reading_files(), создание словаря с данными из ресторана Subway

dictionary_burger_king = reading_files("burger-king-menu.csv") # вызов функции reading_files(), создание словаря с данными из ресторана Burger King

top_10_by_calories(dictionary_subway, dictionary_burger_king) # создание файла с рейтингом по калориям

print(f"Average calories in Subway: {find_average_value(dictionary_subway['Calories'])}.\n") # нахождение среднего значения калориев в ресторане Subway

print(f"Median fat (g) in Burger King: {find_median(dictionary_burger_king['Fat (g)'])} (g).\n") # нахождение значения медианы жиров в ресторане Burger King

print(f"Range Cholesterol (mg) in Subway {find_range(dictionary_subway['Cholesterol (mg)'])} (mg).\n") # нахождение размаха холестерина в ресторане Subway

print(f"Coefficient Pearson between fat (g) and cholesterol in Burger King: {find_Pearson_coefficient(dictionary_burger_king['Fat (g)'], dictionary_burger_king['Cholesterol (mg)'])}.\n") # нахождение коэф. Пирсона между жирами и холестерином в ресторане Burger King

print(f"Variance dietary fiber (g) in Burger King: {find_variance(dictionary_burger_king['Dietary Fiber (g)'])}.") # нахождение дисперсии пищевых волокон в ресторане Burger King

Average calories in Subway: 316.61.

Median fat (g) in Burger King: 28.0 (g).

Range Cholesterol (mg) in Subway 195.0 (mg).

Coefficient Pearson between fat (g) and cholesterol in Burger King: 0.67.

Variance dietary fiber (g) in Burger King: 2.821387013.


## Интерпретация результатов

1. **Среднее количество калорий в Subway: 316.61**.
   - Оказалось, что средняя калорийность продукции Subway составляет 316.61 калорий. Это означает, что продукты Subway относительно низкокалорийные по сравнению с типичными блюдами фаст-фуда.

2. **Медианное содержание жира в Burger King: 28.0 г**.
   - Медиана показывает, что половина продуктов Burger King содержит меньше 28 граммов жира, а другая половина — больше.

3. **Разброс содержания холестерина в Subway: 195.0 мг**.
   - Полученный результат указывает на значительное разнообразие в уровне холестерина среди различных продуктов из ресторана Subway.

4. **Коэффициент корреляции Пирсона между жиром (г) и холестерином в Burger King: 0.67**.
   - Коэффициент корреляции 0.67 указывает на умеренно сильную положительную связь между содержанием жира и холестерина в продуктах Burger King. Получается, что продукты с более высоким содержанием жира, как правило, содержат больше холестерина.

5. **Дисперсия пищевых волокон в Burger King: 2.821387013**.
   - Высокое значение дисперсии указывает на большую вариативность содержания пищевых волокон в продуктах Burger King. Это значит, что некоторые продукты могут быть очень богаты пищевыми волокнами, а другие — почти не содержать их.

### Интерпретация рейтинга по калориям

1. **Burger King занимает большинство мест в топ-10:**
   - Из 10 позиций в рейтинге 9 занимают продукты Burger King, что указывает на то, что продукция Burger King в целом более калорийна по сравнению с Subway.

2. **Самый калорийный продукт - Triple Whopper® Sandwich with Cheese от Burger King:**
   - Данный продукт содержит 1220 калорий. Это типичный пример высококалорийного фаст-фуда, который может содержать большие порции мяса и сыра, что значительно увеличивает калорийность.

3. **Subway представлен только одной позицией в нашем топе:**
   - Продукт Subway BBQ Rib Signature Wrap занимает 5-е место с 1080 калориями. Это может означать, что хотя Subway и позиционируется как более 'здоровый фаст-фуд', но также в меню содержит продукты с высоким содержанием калорий.

4. **Диапазон калорий в топ-10:**
   - Калорийность продуктов в рейтинге варьируется от 900 до 1220 . Это показывает, что даже среди самых калорийных продуктов разница в калорийности может быть значительной.

5. **Общая тенденция:**
   - Большинство продуктов с высокой калорийностью — это бургеры или продукты с множеством компонентов, таких как бекон, сыр и соусы. Это типично для фаст-фуда, где большое количество ингредиентов увеличивает общую калорийность блюда.