# Предобработка данных

**_______________________________________________________________________________________________________________________________**

**Загрузим всё необходимое: зависимости, сущности и модули:**

In [1]:
%run preset.py

---------------------------------------------------------------------------------------------------------------------------

**Настройка текущий тетрадки (notebook):**

In [2]:
# Установка количества отображаемых строк:
pd.set_option("display.max_rows", 75)

# Установка количества отображаемых столбцов:
pd.set_option("display.max_columns", 25)

# Установка ограничения на количество отображаемых символов записи:
pd.set_option("display.max_colwidth", 45)

---------------------------------------------------------------------------------------------------------------------------

**Создание списка названий файлов с данными:**

In [3]:
file_names = [data_url + f"{year}.csv" for year in range(2011, 2025)]

**Проверка сгенерированных названий файлов:**

In [4]:
print(*file_names, sep='\n')

parsed_data/2011.csv
parsed_data/2012.csv
parsed_data/2013.csv
parsed_data/2014.csv
parsed_data/2015.csv
parsed_data/2016.csv
parsed_data/2017.csv
parsed_data/2018.csv
parsed_data/2019.csv
parsed_data/2020.csv
parsed_data/2021.csv
parsed_data/2022.csv
parsed_data/2023.csv
parsed_data/2024.csv


---------------------------------------------------------------------------------------------------------------------------

**Выгрузка данных в список dataframe-ов:**

In [5]:
dataframes = [pd.read_csv(
                          file_name,  # Название файла для выгрузки данных
                          low_memory=False,  # Допуск наличиz сложных структур данных в файле
                          on_bad_lines="skip",  # Пропуск строк, которые невозможно обработать
                          encoding_errors="replace"  # Замена нераспознанных символов
                         ) for file_name in file_names]

**Объединение dataframe-ов в один:**

In [6]:
df = pd.concat(dataframes, axis=0)

---------------------------------------------------------------------------------------------------------------------------

**Обзор dataframe-а:**

In [7]:
df.head(3)

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
0,0,21,530000_14,Белгородская область,530000,530000,14,False,['M0 0 M24 237 L25 236 L24 235 L23 233 L2...,233,292,16,67,1 722 МВт*ч,1 592 МВт*ч,121 МВт*ч,122 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2011-01-01 00:00:00
1,1,22,530000_15,Брянская область,530000,530000,15,False,['M0 0 M53 154 L52 153 L53 152 L53 152 L5...,147,205,0,58,-,514 МВт*ч,-,27 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2011-01-01 00:00:00
2,2,23,530000_17,Владимирская область,530000,530000,17,False,['M0 0 M169 141 L167 141 L165 142 L164 14...,123,184,140,193,785 МВт*ч,806 МВт*ч,344 МВт*ч,342 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2011-01-01 00:00:00


**Информация о dataframe-е:**

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8685450 entries, 0 to 356249
Data columns (total 23 columns):
 #   Column                  Dtype 
---  ------                  ----- 
 0   Unnamed: 0              int64 
 1   $id                     int64 
 2   Id                      object
 3   Name                    object
 4   ParentPowerSystemId     int64 
 5   PowerSystemId           int64 
 6   SubjectId               int64 
 7   Disabled                bool  
 8   SvgPaths                object
 9   Top                     int64 
 10  Bottom                  int64 
 11  Left                    int64 
 12  Right                   int64 
 13  IBR_PlannedConsumption  object
 14  IBR_ActualConsumption   object
 15  IBR_PlannedGeneration   object
 16  IBR_ActualGeneration    object
 17  IBR_AveragePrice        object
 18  VSVGO_AveragePrice      object
 19  VSVGO_Consumption       object
 20  Selected                bool  
 21  InfoCoordinates         object
 22  Datetime           

---------------------------------------------------------------------------------------------------------------------------

**Колонки dataframe-а:**

In [9]:
print(*df.columns, sep='\n')

Unnamed: 0
$id
Id
Name
ParentPowerSystemId
PowerSystemId
SubjectId
Disabled
SvgPaths
Top
Bottom
Left
Right
IBR_PlannedConsumption
IBR_ActualConsumption
IBR_PlannedGeneration
IBR_ActualGeneration
IBR_AveragePrice
VSVGO_AveragePrice
VSVGO_Consumption
Selected
InfoCoordinates
Datetime


**Обзор значений признаков dataframe-а:**

**Признак `Unnamed: 0`.**

**В дальнейшем признак не используется, поэтому отдельной обработки данный признак не требует, так как будет удалён.**

**Исправление ошибок в данных по этому признаку затруднительно.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `$id`.** 

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [10]:
df["$id"].value_counts().tail(3)

31    115806
34    115806
35    115806
Name: $id, dtype: int64

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `Id`:**

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [11]:
df["Id"].value_counts().tail(3)

540000_8     115806
540000_5     115806
840000_87    115806
Name: Id, dtype: int64

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `Name`:**

**Данный признак является ключевым, так что требует отдельной обработки при наличии ошибок.**

In [12]:
df["Name"].value_counts().tail(3)

ОЭР Хабаровского края    115806
Приморский край          115806
Республика Коми          115806
Name: Name, dtype: int64

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `ParentPowerSystemId`:**

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [13]:
df["ParentPowerSystemId"].value_counts().tail(3)

630000    1042254
840000     926448
540000     810642
Name: ParentPowerSystemId, dtype: int64

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `PowerSystemId`:**

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [14]:
df["PowerSystemId"].value_counts().tail(3)

630000    1042254
840000     926448
540000     810642
Name: PowerSystemId, dtype: int64

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `SubjectId`:**

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [15]:
df["SubjectId"].value_counts().tail(3)

8     115806
5     115806
87    115806
Name: SubjectId, dtype: int64

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `Disabled`:**

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [16]:
df["Disabled"].value_counts().tail(3)

False    8685450
Name: Disabled, dtype: int64

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `SvgPaths`:**

**В дальнейшем признак не используется, поэтому отдельной обработки данный признак не требует, так как будет удалён.**

**Исправление ошибок в данных по этому признаку затруднительно.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `Top`:**

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [17]:
df["Top"].value_counts().tail(3)

231    772
230    772
118      1
Name: Top, dtype: int64

**Обзор редко встречающегося значения признака:**

In [18]:
df[df["Top"] == 118]

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
418647,418647,17,840000_58,Псковская область,840000,840000,58,False,['M0 0 M93 118 L90 118 L90 118 L89 118 L8...,118,177,68,101,263 МВт*ч,273 МВт*ч,-,-,1 313 руб./МВт*ч,-,-,False,"{'X': 0, 'Y': 0}",2019-08-21 13:00:00


**Выраженных проблем в строке выше найдено не было.**

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `Bottom`:**

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [19]:
df["Bottom"].value_counts().tail(4)

97     772
163      1
177      1
201      1
Name: Bottom, dtype: int64

**Обзор редко встречающихся значений признака:**

In [20]:
df[df["Bottom"] == 163]

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
418646,418646,16,840000_49,Новгородская область,840000,840000,49,False,['M0 0 M100 135 L99 136 L98 136 L97 136 L...,130,163,91,140,481 МВт*ч,476 МВт*ч,40 МВт*ч,48 МВт*ч,1 075 руб./МВт*ч,-,-,False,"{'X': 0, 'Y': 0}",2019-08-21 13:00:00


In [21]:
df[df["Bottom"] == 177]

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
418647,418647,17,840000_58,Псковская область,840000,840000,58,False,['M0 0 M93 118 L90 118 L90 118 L89 118 L8...,118,177,68,101,263 МВт*ч,273 МВт*ч,-,-,1 313 руб./МВт*ч,-,-,False,"{'X': 0, 'Y': 0}",2019-08-21 13:00:00


In [22]:
df[df["Bottom"] == 201]

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
418649,418649,19,840000_87,Республика Коми,840000,840000,87,False,['M0 0 M298 99 L292 101 L273 103 L269 113...,99,201,226,378,887 МВт*ч,900 МВт*ч,903 МВт*ч,894 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2019-08-21 13:00:00


**Выраженных проблем в строках выше найдено не было.**

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `Left`:**

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [23]:
df["Left"].value_counts().tail(3)

128    36
43      2
150     1
Name: Left, dtype: int64

**Обзор редко встречающихся значений признака:**

In [24]:
df[df["Left"] == 43]

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
173728,173728,20,550000_3,Краснодарский край,550000,550000,3,False,['M0 0 M97 90 L96 90 L95 92 L92 89 L90 90...,76,184,43,112,2 919 МВт*ч,2 953 МВт*ч,1 427 МВт*ч,1 425 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2015-04-07 12:00:00
208378,208378,20,550000_3,Краснодарский край,550000,550000,3,False,['M0 0 M97 90 L96 90 L95 92 L92 89 L90 90...,76,184,43,112,2 631 МВт*ч,2 518 МВт*ч,1 204 МВт*ч,1 191 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2015-04-26 18:00:00


In [25]:
df[df["Left"] == 150]

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
483343,483343,17,600000_88,Республика Марий Эл,600000,600000,88,False,['M0 0 M167 50 L166 50 L165 50 L163 49 L1...,49,104,150,228,363 МВт*ч,356 МВт*ч,99 МВт*ч,99 МВт*ч,1 233 руб./МВт*ч,-,-,False,"{'X': 0, 'Y': 0}",2019-09-26 12:00:00


**Выраженных проблем в строках выше найдено не было.**

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `Right`:**

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [26]:
df["Right"].value_counts().tail(9)

80     14
47      4
94      4
311     4
309     3
170     2
218     2
210     1
279     1
Name: Right, dtype: int64

**Обзор редко встречающихся значений признака:**

In [27]:
df[df["Right"] == 47].tail(2)

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
174254,174254,21,550000_35,Республика Крым,550000,550000,35,False,['M0 0 M41 96 L40 98 L40 98 L40 99 L39 98...,29,99,0,47,-,-,-,-,-,-,-,False,"{'X': 0, 'Y': 0}",2015-04-07 19:00:00
208379,208379,21,550000_35,Республика Крым,550000,550000,35,False,['M0 0 M41 96 L40 98 L40 98 L40 99 L39 98...,29,99,0,47,-,-,-,-,-,-,-,False,"{'X': 0, 'Y': 0}",2015-04-26 18:00:00


In [28]:
df[df["Right"] == 94].tail(2)

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
259940,259940,19,630000_80,Республика Башкортостан,630000,630000,80,False,['M0 0 M80 233 L80 234 L80 235 L80 236 L8...,201,286,36,94,2 885 МВт*ч,2 837 МВт*ч,2 042 МВт*ч,2 035 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2014-05-26 12:00:00
279965,279965,19,630000_80,Республика Башкортостан,630000,630000,80,False,['M0 0 M80 233 L80 234 L80 235 L80 236 L8...,201,286,36,94,2 749 МВт*ч,2 678 МВт*ч,2 094 МВт*ч,2 091 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2014-06-06 17:00:00


In [29]:
df[df["Right"] == 311].tail(2)

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
259938,259938,17,630000_71,Тюменская область,630000,630000,71,False,['M0 0 M236 0 L233 2 L233 3 L226 14 L222 ...,0,262,128,311,10 306 МВт*ч,10 275 МВт*ч,11 003 МВт*ч,11 468 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2014-05-26 12:00:00
279963,279963,17,630000_71,Тюменская область,630000,630000,71,False,['M0 0 M236 0 L233 2 L233 3 L226 14 L222 ...,0,262,128,311,10 075 МВт*ч,10 100 МВт*ч,11 482 МВт*ч,11 495 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2014-06-06 17:00:00


In [30]:
df[df["Right"] == 309].tail(2)

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
362688,362688,17,630000_71,Тюменская область,630000,630000,71,False,['M0 0 M234 0 L231 2 L231 3 L225 14 L221 ...,0,262,128,309,9 398 МВт*ч,9 444 МВт*ч,11 122 МВт*ч,11 121 МВт*ч,1 239 руб./МВт*ч,-,-,False,"{'X': 0, 'Y': 0}",2021-07-21 11:00:00
406488,406488,17,630000_71,Тюменская область,630000,630000,71,False,['M0 0 M234 0 L231 2 L231 3 L225 14 L221 ...,0,262,128,309,9 994 МВт*ч,9 983 МВт*ч,11 429 МВт*ч,11 416 МВт*ч,1 426 руб./МВт*ч,-,-,False,"{'X': 0, 'Y': 0}",2022-08-15 10:00:00


In [31]:
df[df["Right"] == 170]

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
441630,441630,22,550000_60,Ростовская область,550000,550000,60,False,['M0 0 M169 30 L168 21 L152 28 L145 24 L1...,21,142,91,170,1 996 МВт*ч,1 985 МВт*ч,3 346 МВт*ч,3 330 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2014-09-05 16:00:00
174255,174255,22,550000_60,Ростовская область,550000,550000,60,False,['M0 0 M169 30 L168 21 L152 28 L145 24 L1...,21,142,91,170,2 497 МВт*ч,2 521 МВт*ч,4 406 МВт*ч,4 405 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2015-04-07 19:00:00


In [32]:
df[df["Right"] == 218]

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
441625,441625,17,550000_12,Астраханская область,550000,550000,12,False,['M0 0 M213 133 L210 130 L208 133 L207 12...,91,198,178,218,443 МВт*ч,453 МВт*ч,467 МВт*ч,466 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2014-09-05 16:00:00
174250,174250,17,550000_12,Астраханская область,550000,550000,12,False,['M0 0 M213 133 L210 130 L208 133 L207 12...,91,198,178,218,531 МВт*ч,541 МВт*ч,495 МВт*ч,494 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2015-04-07 19:00:00


In [33]:
df[df["Right"] == 210]

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
483338,483338,12,600000_22,Нижегородская область,600000,600000,22,False,['M0 0 M150 76 L151 68 L154 64 L150 60 L1...,0,121,62,210,2 802 МВт*ч,2 868 МВт*ч,1 601 МВт*ч,1 082 МВт*ч,-,-,-,False,"{'X': 0, 'Y': 0}",2019-09-26 12:00:00


In [34]:
df[df["Right"] == 279]

Unnamed: 0.1,Unnamed: 0,$id,Id,Name,ParentPowerSystemId,PowerSystemId,SubjectId,Disabled,SvgPaths,Top,Bottom,Left,Right,IBR_PlannedConsumption,IBR_ActualConsumption,IBR_PlannedGeneration,IBR_ActualGeneration,IBR_AveragePrice,VSVGO_AveragePrice,VSVGO_Consumption,Selected,InfoCoordinates,Datetime
483345,483345,19,600000_92,Республика Татарстан (Татарстан),600000,600000,92,False,['M0 0 M268 143 L265 142 L265 140 L265 13...,91,208,143,279,3 650 МВт*ч,3 617 МВт*ч,3 932 МВт*ч,3 915 МВт*ч,1 201 руб./МВт*ч,-,-,False,"{'X': 0, 'Y': 0}",2019-09-26 12:00:00


**Выраженных проблем в строках выше найдено не было.**

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `IBR_PlannedConsumption`.**

**В дальнейшем признак не используется, поэтому отдельной обработки данный признак не требует, так как будет удалён.**

**Исправление ошибок в данных по этому признаку затруднительно.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `IBR_ActualConsumption`.**

**Ключевой признак, который будет обработан позже.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `IBR_PlannedGeneration`.**

**В дальнейшем признак не используется, поэтому отдельной обработки данный признак не требует, так как будет удалён.**

**Исправление ошибок в данных по этому признаку затруднительно.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `IBR_ActualGeneration`.**

**В дальнейшем признак не используется, поэтому отдельной обработки данный признак не требует, так как будет удалён.**

**Исправление ошибок в данных по этому признаку затруднительно.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `IBR_AveragePrice`.**

**В дальнейшем признак не используется, поэтому отдельной обработки данный признак не требует, так как будет удалён.**

**Исправление ошибок в данных по этому признаку затруднительно.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `VSVGO_AveragePrice`.**

**В дальнейшем признак не используется, поэтому отдельной обработки данный признак не требует, так как будет удалён.**

**Исправление ошибок в данных по этому признаку затруднительно.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `VSVGO_Consumption`.**

**В дальнейшем признак не используется, поэтому отдельной обработки данный признак не требует, так как будет удалён.**

**Исправление ошибок в данных по этому признаку затруднительно.**

---------------------------------------------------------------------------------------------------------------------------

**Признаки `Selected`:**

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [35]:
df["Selected"].value_counts().tail(2)

False    8685450
Name: Selected, dtype: int64

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признаки `InfoCoordinates`:**

**В дальнейшем признак не используется, однако по нему (признаку) можно исправить ошибки в данных при наличии последних.**

In [36]:
df["InfoCoordinates"].value_counts()

{'X': 0, 'Y': 0}    8685450
Name: InfoCoordinates, dtype: int64

**Все значения корректны.**

---------------------------------------------------------------------------------------------------------------------------

**Признак `Datetime`.**

**Ключевой признак, который будет обработан позже.**

---------------------------------------------------------------------------------------------------------------------------

**Отбор ненужных для исследования признаков:**

In [37]:
drop_columns = set(df.columns) - main_columns

**Рассмотрим колонки на удаление:**

In [38]:
print(*drop_columns, sep='\n')

ParentPowerSystemId
VSVGO_AveragePrice
Selected
SubjectId
SvgPaths
$id
PowerSystemId
Bottom
IBR_PlannedConsumption
Top
Right
Id
IBR_PlannedGeneration
IBR_ActualGeneration
VSVGO_Consumption
Unnamed: 0
Left
InfoCoordinates
IBR_AveragePrice
Disabled


**Удаление ненужных признаков:**

In [39]:
df.drop(columns=drop_columns, inplace=True);

---------------------------------------------------------------------------------------------------------------------------

**Обновлённый dataframe:**

In [40]:
df.head()

Unnamed: 0,Name,IBR_ActualConsumption,Datetime
0,Белгородская область,1 592 МВт*ч,2011-01-01 00:00:00
1,Брянская область,514 МВт*ч,2011-01-01 00:00:00
2,Владимирская область,806 МВт*ч,2011-01-01 00:00:00
3,Вологодская область,1 523 МВт*ч,2011-01-01 00:00:00
4,Воронежская область,1 112 МВт*ч,2011-01-01 00:00:00


---------------------------------------------------------------------------------------------------------------------------

**Проверка на пропущенные значения (NaN):**

In [41]:
df["Name"].isnull().sum()

0

In [42]:
df["IBR_ActualConsumption"].isnull().sum()

0

In [43]:
df["Datetime"].isnull().sum()

0

**Явно пропущенных значений нет.**

---------------------------------------------------------------------------------------------------------------------------

**Переименнуем столбцы для удобства:**

In [44]:
df.rename(columns={
                   "Name": "subject_name",
                   "Datetime": "datetime",
                   "IBR_ActualConsumption": "actual_consumption"
                  }, inplace=True)

**Изменённый dataframe:**

In [45]:
df.head(3)

Unnamed: 0,subject_name,actual_consumption,datetime
0,Белгородская область,1 592 МВт*ч,2011-01-01 00:00:00
1,Брянская область,514 МВт*ч,2011-01-01 00:00:00
2,Владимирская область,806 МВт*ч,2011-01-01 00:00:00


---------------------------------------------------------------------------------------------------------------------------

**Удаление дубликатов из dataframe-а:**

In [46]:
df.drop_duplicates(inplace=True)

**Обновлённый dataframe:**

In [47]:
df.shape

(8685450, 3)

---------------------------------------------------------------------------------------------------------------------------

**Преобразуем поле `actual_consumption` dataframe-а в целый тип:**

In [48]:
df["actual_consumption"] = df["actual_consumption"].apply(to_int)

**Проверим преобразованные dataframe:**

In [49]:
df.head(3)

Unnamed: 0,subject_name,actual_consumption,datetime
0,Белгородская область,1592.0,2011-01-01 00:00:00
1,Брянская область,514.0,2011-01-01 00:00:00
2,Владимирская область,806.0,2011-01-01 00:00:00


---------------------------------------------------------------------------------------------------------------------------

**Проверим количество незаполненных строк признака `actual_consumption` после преобразования:**

In [50]:
df["actual_consumption"].isna().sum()

207001

**Имеются незаполненные строки.**

**Рассмотрим их отдельно:**

In [51]:
df[df["actual_consumption"].isna()].head(3)

Unnamed: 0,subject_name,actual_consumption,datetime
19,Западный энергорайон Якутии,,2011-01-01 00:00:00
20,Центральный энергорайон Якутии,,2011-01-01 00:00:00
24,Еврейская автономная область,,2011-01-01 00:00:00


In [52]:
df[df["actual_consumption"].isna()].tail(3)

Unnamed: 0,subject_name,actual_consumption,datetime
318725,Красноярский край,,2024-06-26 03:00:00
348476,Волгоградская область,,2024-07-12 17:00:00
351016,Тульская область,,2024-07-14 03:00:00


---------------------------------------------------------------------------------------------------------------------------

**Оценим процент пропущенных значений:**

In [53]:
print(f"{df[df['actual_consumption'].isna()].shape[0] / df.shape[0] * 100} % данных с пропущенным значением признака.")

2.383307715777536 % данных с пропущенным значением признака.


**Строки со значеним признаков `NaN` можно удалить, так как их относительно немного.**

**При наличии времени, возможно, заполнение пропущенных значений: средним, медианой, предыдущим значением, следующим значением, скользящий средней, скользящий медианой, линейной интерполяцией, полиномиальная интерполяция, сплайном.**

In [54]:
df = df[df["actual_consumption"].notna()]

**Повторный обзор значений признака dataframe-а:**

In [55]:
df["actual_consumption"].isna().sum()

0

---------------------------------------------------------------------------------------------------------------------------

**Отсортируем dataframe по столбцам `datetime`, `subject_name`:**

In [56]:
df.sort_values(by=["datetime", "subject_name"], inplace=True)

**Снесём индексы:**

In [57]:
df.reset_index(drop=True, inplace=True)

**Итоговый dataframe:**

In [58]:
df.head(3)

Unnamed: 0,subject_name,actual_consumption,datetime
0,Алтайский край,1313.0,2011-01-01 00:00:00
1,Амурская область,870.0,2011-01-01 00:00:00
2,Архангельская область,970.0,2011-01-01 00:00:00


---------------------------------------------------------------------------------------------------------------------------

**Установим дату как индекс у dataframe-а:**

In [59]:
df.set_index(
             df["datetime"],
             drop=True,
             inplace=True
            )

**Посмотрим на обновлённый dataframe:**

In [60]:
df.head(3)

Unnamed: 0_level_0,subject_name,actual_consumption,datetime
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2011-01-01 00:00:00,Алтайский край,1313.0,2011-01-01 00:00:00
2011-01-01 00:00:00,Амурская область,870.0,2011-01-01 00:00:00
2011-01-01 00:00:00,Архангельская область,970.0,2011-01-01 00:00:00


---------------------------------------------------------------------------------------------------------------------------

**Удалим ненужный временной столбец:**

In [61]:
# df.drop(columns=["datetime"], inplace=True)

**Посмотрим на обновлённый dataframe:**

In [62]:
df.head(3)

Unnamed: 0_level_0,subject_name,actual_consumption,datetime
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2011-01-01 00:00:00,Алтайский край,1313.0,2011-01-01 00:00:00
2011-01-01 00:00:00,Амурская область,870.0,2011-01-01 00:00:00
2011-01-01 00:00:00,Архангельская область,970.0,2011-01-01 00:00:00


---------------------------------------------------------------------------------------------------------------------------

**Переименуем столбец индексов:**

In [63]:
df.index.rename("index", inplace=True)

**Посмотрим на обновлённый dataframe:**

In [64]:
df.head(3)

Unnamed: 0_level_0,subject_name,actual_consumption,datetime
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2011-01-01 00:00:00,Алтайский край,1313.0,2011-01-01 00:00:00
2011-01-01 00:00:00,Амурская область,870.0,2011-01-01 00:00:00
2011-01-01 00:00:00,Архангельская область,970.0,2011-01-01 00:00:00


---------------------------------------------------------------------------------------------------------------------------

**Сохраним dataframe в отдельный файл для дальнейший работы:**

In [65]:
df.to_parquet("prepare_data/data.gzip")

---------------------------------------------------------------------------------------------------------------------------