In [3]:
import pandas as pd
import numpy as np
import random

# Установка начального значения для генератора случайных чисел
random.seed(42)

# Функция для генерации данных
def generate_data(num_records):
    categories = ['Фрукты', 'Овощи', 'Мясо', 'Молочные продукты', 'Зерновые']
    regions = ['Север', 'Юг', 'Восток', 'Запад']
    dates = pd.date_range(start='2018-01-01', end='2024-12-31', freq='M')

    data = {
        'Дата': np.random.choice(dates, num_records),
        'Категория': np.random.choice(categories, num_records),
        'Регион': np.random.choice(regions, num_records),
        'Объем_потерь_кг': np.random.randint(0, 1000, num_records).astype(float)
    }

    df = pd.DataFrame(data)

    # Введение аномалий
    # Пустые значения
    df.loc[random.sample(range(num_records), 100), 'Объем_потерь_кг'] = np.nan

    # Отрицательные значения
    df.loc[random.sample(range(num_records), 20), 'Объем_потерь_кг'] = -np.random.randint(1, 100, 20)

    # Дубликаты
    df = pd.concat([df, df.sample(50)]).reset_index(drop=True)

    # Неверные значения (очень большие объемы потерь)
    df.loc[random.sample(range(num_records), 10), 'Объем_потерь_кг'] = np.random.randint(10000, 20000, 10)

    # Ошибки в категориях (вводим случайные строки)
    invalid_categories = ['Неправильная категория'] * 10
    df.loc[random.sample(range(num_records), 10), 'Категория'] = invalid_categories

    return df

# Генерация трех разных датасетов
df1 = generate_data(500)
df2 = generate_data(500)
df3 = generate_data(500)

# Сохранение в разные форматы
df1.to_csv('food_waste_data_1.csv', index=False)
df2.to_excel('food_waste_data_2.xlsx', index=False)
df3.to_json('food_waste_data_3.json', orient='records', lines=False, force_ascii=False)

# Вывод первых 10 записей для проверки
print("Датасет 1:")
print(df1.head(10))
print("\nДатасет 2:")
print(df2.head(10))
print("\nДатасет 3:")
print(df3.head(10))

Датасет 1:
        Дата          Категория  Регион  Объем_потерь_кг
0 2020-08-31           Зерновые   Север            728.0
1 2024-02-29              Овощи      Юг            196.0
2 2018-06-30  Молочные продукты   Запад            748.0
3 2021-11-30             Фрукты  Восток              NaN
4 2018-10-31           Зерновые  Восток            690.0
5 2020-09-30              Овощи  Восток            473.0
6 2024-11-30           Зерновые   Запад            404.0
7 2022-12-31             Фрукты  Восток            140.0
8 2021-01-31           Зерновые  Восток            115.0
9 2019-04-30           Зерновые  Восток            669.0

Датасет 2:
        Дата          Категория  Регион  Объем_потерь_кг
0 2022-02-28             Фрукты  Восток              NaN
1 2023-10-31              Овощи   Север              NaN
2 2021-08-31              Овощи   Запад            741.0
3 2019-05-31              Овощи      Юг            639.0
4 2020-12-31              Овощи   Север            319.0
5 2019-0

  dates = pd.date_range(start='2018-01-01', end='2024-12-31', freq='M')
  dates = pd.date_range(start='2018-01-01', end='2024-12-31', freq='M')
  dates = pd.date_range(start='2018-01-01', end='2024-12-31', freq='M')


# Объединение данных

In [5]:
import pandas as pd

# Загрузка данных из файлов с явным указанием формата даты
df_csv = pd.read_csv('food_waste_data_1.csv', parse_dates=['Дата'])
df_excel = pd.read_excel('food_waste_data_2.xlsx', parse_dates=['Дата'])
df_json = pd.read_json('food_waste_data_3.json', convert_dates=['Дата'])

# Объединение данных в один DataFrame
combined_df = pd.concat([df_csv, df_excel, df_json], ignore_index=True)

# Проверка формата даты
combined_df['Дата'] = pd.to_datetime(combined_df['Дата'], errors='coerce')

# Сохранение объединенного датасета в один CSV файл
combined_df.to_csv('combined_food_waste_data.csv', index=False)

# Вывод первых 10 записей для проверки
print(combined_df.head(10))

        Дата          Категория  Регион  Объем_потерь_кг
0 2020-08-31           Зерновые   Север            728.0
1 2024-02-29              Овощи      Юг            196.0
2 2018-06-30  Молочные продукты   Запад            748.0
3 2021-11-30             Фрукты  Восток              NaN
4 2018-10-31           Зерновые  Восток            690.0
5 2020-09-30              Овощи  Восток            473.0
6 2024-11-30           Зерновые   Запад            404.0
7 2022-12-31             Фрукты  Восток            140.0
8 2021-01-31           Зерновые  Восток            115.0
9 2019-04-30           Зерновые  Восток            669.0


# Предобработка данных

In [4]:
import pandas as pd
import numpy as np

# Загрузка объединенного датасета
combined_df = pd.read_csv('global_food_wastage_dataset.csv')

# 1. Очистка данных от ошибок и аномалий
# Проверка на отрицательные значения в 'Общее_количество_отходов_(тонн)'
negative_values = combined_df[combined_df['Общее_количество_отходов_(тонн)'] < 0]
print("Отрицательные значения:\n", negative_values)

# Удаление отрицательных значений (если это необходимо)
combined_df = combined_df[combined_df['Общее_количество_отходов_(тонн)'] >= 0]

# 2. Обработка пропущенных значений
# Определение количества пропущенных значений
missing_values = combined_df.isnull().sum()
print("Пропущенные значения:\n", missing_values)

# Удаление записей с пропущенными значениями в критических столбцах
combined_df.dropna(subset=['Страна', 'год', 'Категория продуктов питания'], inplace=True)

# 3. Обработка значений в 'Общее_количество_отходов_(тонн)'
# Заменяем отрицательные значения, нули и пропущенные значения на 0
combined_df['Общее_количество_отходов_(тонн)'] = combined_df['Общее_количество_отходов_(тонн)'].clip(lower=0).fillna(0)

# 4. Определение критических значений из пропущенных
# Если пропущенные значения превышают 10% от общего числа записей, это критично
critical_threshold = 0.1 * len(combined_df)
critical_missing = missing_values[missing_values > critical_threshold]
print("Критические пропущенные значения:\n", critical_missing)

# 5. Оценка погрешности при допустимом количестве пропущенных значений
acceptable_missing = combined_df.isnull().sum().sum() / len(combined_df)
print(f"Допустимое количество пропущенных значений: {acceptable_missing:.2%}")

# 6. Преобразование типов данных
# Убедимся, что 'год' в формате datetime (если это необходимо)
# combined_df['год'] = pd.to_datetime(combined_df['год'], errors='coerce')  # Если 'год' в формате даты

# 7. Оценка качества данных
# Проверка на дубликаты
duplicates = combined_df.duplicated().sum()
print(f"Количество дубликатов: {duplicates}")

# 8. Обработка дубликатов
combined_df.drop_duplicates(inplace=True)

# 9. Формирование отчета об ошибках
error_report = {
    'Отрицательные значения': negative_values.shape[0],
    'Пропущенные значения': missing_values,
    'Критические пропущенные значения': critical_missing,
    'Количество дубликатов': duplicates
}

error_report_df = pd.DataFrame.from_dict(error_report, orient='index', columns=['Количество'])
error_report_df.to_csv('error_report.csv')

# Сохранение очищенного датасета
combined_df.to_csv('cleaned_food_waste_data.csv', index=False)

# Вывод первых 10 записей для проверки
print(combined_df.head(10))

Отрицательные значения:
 Empty DataFrame
Index: []
Пропущенные значения:
 Страна                                                0
 год                                                  0
 Категория продуктов питания                          0
Общее_количество_отходов_(тонн)                       0
 Экономический ущерб (Млн долларов)                   0
 Среднее количество отходов на душу населения (Кг)    0
 Численность населения (Млн)                          0
Бытовые отходы (%)                                    0
dtype: int64


KeyError: ['год', 'Категория продуктов питания']

In [12]:
import pandas as pd 

data = pd.read_csv('cleaned_food_waste_data1.csv')
missing_values = combined_df.isnull().sum()
print("Пропущенные значения:\n", missing_values)




Пропущенные значения:
 Дата               0
Категория          0
Регион             0
Объем_потерь_кг    0
dtype: int64
