### микропроверки №1: предобработка(?) данных

In [27]:
# Импортируем необходимые библиотеки
import pandas as pd
import numpy as np
import os
import random
from sklearn.preprocessing import StandardScaler

In [28]:
# Выводим текущую рабочую директорию
print("Текущая рабочая директория:", os.getcwd())

# Определяем путь к файлу (относительный путь из папки temps)
data_file_path = os.path.join('..', 'data', 'temp', 'data.csv')

# Проверяем, существует ли файл
if os.path.exists(data_file_path):
    print(f'Файл найден по пути: {data_file_path}')
else:
    print(f"Файл не найден по пути: {data_file_path}")

Текущая рабочая директория: c:\Users\vlad9\Documents\study\4 kurs\1 semestr\mmo\temps
Файл найден по пути: ..\data\temp\data.csv


In [29]:

# Устанавливаем семя для воспроизводимости
random.seed(42)

# Генерируем данные
gen_data = {
    'ID': range(1, 101),  # 100 записей
    'Имя': [f'Имя_{i}' for i in range(1, 101)],
    'Возраст': [random.randint(18, 65) for _ in range(100)],
    'Город': [random.choice(['Москва', 'Санкт-Петербург', 'Новосибирск', 'Екатеринбург', 'Казань']) for _ in range(100)]
}

# Создаем DataFrame
data = pd.DataFrame(gen_data)

# Сохраняем DataFrame в CSV файл
data.to_csv(data_file_path, index=False, encoding='utf-8-sig')

print("Файл data.csv успешно сгенерирован!")

Файл data.csv успешно сгенерирован!


In [30]:
# 2. Проверка на пропуски
print("\nПроверка на пропуски:")
missing_values = data.isnull().sum()
print(missing_values)


Проверка на пропуски:
ID         0
Имя        0
Возраст    0
Город      0
dtype: int64


In [31]:
# 3. Очистка данных
if missing_values.any():
    print("\nОбнаружены пропущенные значения:")
    for column, count in missing_values.items():
        if count > 0:
            print(f"- В столбце '{column}' найдено {count} пропущенных значений.")
            if column == 'Возраст':
                # Заполняем пропуски средним значением для возраста
                data['Возраст'].fillna(data['Возраст'].mean(), inplace=True)
                print(f"Заполнены пропуски в столбце 'Возраст' средним значением: {data['Возраст'].mean():.2f}")


In [32]:
# 4. Нормализация/стандартизация
scaler = StandardScaler()
data['Возраст'] = scaler.fit_transform(data[['Возраст']])  # Стандартизация возраста
print("\nВозраст стандартизирован. Пример значений:")
print(data['Возраст'].head())


Возраст стандартизирован. Пример значений:
0    1.187471
1   -1.104140
2   -1.520797
3    1.673571
4   -0.409712
Name: Возраст, dtype: float64


In [33]:
# 5. Кодирование категориальных переменных
data = pd.get_dummies(data, columns=['Город'], drop_first=True)  # Преобразование городов в бинарные переменные
print("\nКодирование категориальных переменных завершено. Пример предобработанных данных:")
print(data.head())



Кодирование категориальных переменных завершено. Пример предобработанных данных:
   ID    Имя   Возраст  Город_Казань  Город_Москва  Город_Новосибирск  \
0   1  Имя_1  1.187471          True         False              False   
1   2  Имя_2 -1.104140         False         False              False   
2   3  Имя_3 -1.520797         False         False               True   
3   4  Имя_4  1.673571         False          True              False   
4   5  Имя_5 -0.409712         False         False              False   

   Город_Санкт-Петербург  
0                  False  
1                   True  
2                  False  
3                  False  
4                   True  


In [34]:
# 6. Определяем путь для сохранения предобработанных данных
output_file_path = os.path.join('..', 'data', 'temp', 'cleaned_data.csv')

# Сохраняем предобработанные данные в новый файл
data.to_csv(output_file_path, index=False, encoding='utf-8-sig')

# Проверяем, был ли файл успешно сохранен
if os.path.exists(output_file_path):
    print(f"Предобработанные данные успешно сохранены в: {output_file_path}")
else:
    print(f"Ошибка при сохранении файла по пути: {output_file_path}")

Предобработанные данные успешно сохранены в: ..\data\temp\cleaned_data.csv


#### 1. Вывод информации о загрузке данных
После загрузки данных выводится сообщение с первыми строками загруженного DataFrame. 
#### 2. Проверка на пропуски: 
Выводится информация о каждом столбце и количестве пропущенных значений. 
#### 3. Очистка данных: 
Если обнаружены пропуски, выводится сообщение о том, в каком столбце и сколько пропусков найдено. Также выводится среднее значение, которым были заполнены пропуски в столбце "Возраст". 
#### 4. Нормализация/стандартизация: 
Выводится пример первых значений после стандартизации возраста. 
#### 5. Кодирование категориальных переменных: 
После кодирования выводится пример предобработанных данных. 
#### 6. Сохранение данных: 
В конце выводится сообщение о том, что предобработанные данные успешно сохранены. 