#### Project Type: Exploratory Data Analysis
### Project Number: 2
## Project Title: Разведочный анализ расхода электроэнергии на примере тяговых подстанция Забайкалькой железной дороги. 

---


# **STAGE 1. PROBLEM DEFINITION**
    




### Project Objectives

---

- Исследовать распределение расхода электроэнергии по вводам тяговых подстанций

### Success criteria

---

Подготовленые данные для построения модеей машинного обучения 

### Termenology

---

- ФКС - фидер контактной сети 
- ТП - тяговая подстанция
- СТЭ - система тягвого электроснабжения 

### Task type

---

Подготовка данных для задачи прогнозирования временных рядов 

    
# **STAGE 2. PRELIMINARY DATA WRANGLING**



### Import Libraries

---

In [1]:
# Data manipulation
import pandas as pd
import numpy as np

# Data Visualizations
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# Time series 
import datetime
import statsmodels.api as sm

### Import Data

---

In [2]:
data_path = 'D:/Data_Science_Project/7. Time series analysis/Project 2 - Analysis of power consumption/Raskhod_EP_24_03_2020.csv'

# data_path = '/media/ruslan/Data/Результаты измерений СТЭ - Сентябрь 2020/0758 - ТП Сохондо - ФКС 4 (ЦЗА)/0758_ТП_Сохондо_ФКС_4_ЦЗА_EDA.csv'

## SECTION 2.1.  DATA UNDERSTANDING

### _Collect initial data_

---

In [3]:
# Загрузим набор даннх для первичного визуального анализа 
power_consumption = pd.read_csv(data_path, sep=';')
power_consumption.head()

Unnamed: 0,Ввод подстанции,Date,1,2,3,4,5,6,7,8,...,17,18,19,20,21,22,23,24,Расход,Макс.
0,Бада - Ввод Т1 27.5 кВ,01.01.2016,,,,,,,,,...,,,,,,,,,0,0
1,Бада - Ввод Т1 27.5 кВ,02.01.2016,,,,,,,,,...,,,,,,,,,0,0
2,Бада - Ввод Т1 27.5 кВ,03.01.2016,,,,,,,,,...,,,,,,,,,0,0
3,Бада - Ввод Т1 27.5 кВ,04.01.2016,,,,,,,,,...,,,,,,,,,0,0
4,Бада - Ввод Т1 27.5 кВ,05.01.2016,,,,,,,,,...,,,,,,,,,0,0


In [4]:
power_consumption.tail()

Unnamed: 0,Ввод подстанции,Date,1,2,3,4,5,6,7,8,...,17,18,19,20,21,22,23,24,Расход,Макс.
32020,Новая - Ввод Т2 27.5 кВ,29.02.2020,10023.0,8875.0,5788.0,7143.0,10006.0,6431.0,7214.0,8474.0,...,3263.0,7174.0,8147.0,7700.0,8316.0,7148.0,7863.0,8186.0,178143,10023
32021,Новая - Ввод Т2 27.5 кВ,01.03.2020,10045.0,10424.0,8378.0,8424.0,8485.0,6569.0,7014.0,8826.0,...,8719.0,8393.0,6714.0,7790.0,7786.0,5947.0,7812.0,7894.0,195943,10424
32022,Новая - Ввод Т2 27.5 кВ,02.03.2020,8136.0,6215.0,5141.0,4952.0,4855.0,4066.0,5370.0,7183.0,...,2138.0,1362.0,409.0,464.0,821.0,631.0,3337.0,4992.0,111815,8532
32023,Новая - Ввод Т2 27.5 кВ,03.03.2020,4440.0,4224.0,1899.0,5546.0,7229.0,4607.0,4200.0,4468.0,...,9079.0,7066.0,6833.0,8067.0,8591.0,9082.0,8347.0,8402.0,168307,10160
32024,Новая - Ввод Т2 27.5 кВ,04.03.2020,9832.0,9979.0,8107.0,8917.0,11284.0,10846.0,6127.0,7498.0,...,,,,,,,,,118463,11284


In [5]:
# Форма исходного набора данных
print("Форма исходного набора данных:\n{}".format(power_consumption.shape))

Форма исходного набора данных:
(32025, 28)


In [6]:
# Список переменных
power_consumption.columns.tolist()

['Ввод подстанции',
 'Date',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 '10',
 '11',
 '12',
 '13',
 '14',
 '15',
 '16',
 '17',
 '18',
 '19',
 '20',
 '21',
 '22',
 '23',
 '24',
 'Расход',
 'Макс.']

In [7]:
# Cловарь переменных
list_of_variables = {'Ввод подстанции' : 'entering_substation',
                     'Date' : 'date',
                     'Расход' : 'consumption',
                     'Макс.' : 'max_consumption'}     

In [8]:
# Переобозначим переменные 
power_consumption = power_consumption.rename(columns = list_of_variables)

In [9]:
# Проверка результата
power_consumption.head()

Unnamed: 0,entering_substation,date,1,2,3,4,5,6,7,8,...,17,18,19,20,21,22,23,24,consumption,max_consumption
0,Бада - Ввод Т1 27.5 кВ,01.01.2016,,,,,,,,,...,,,,,,,,,0,0
1,Бада - Ввод Т1 27.5 кВ,02.01.2016,,,,,,,,,...,,,,,,,,,0,0
2,Бада - Ввод Т1 27.5 кВ,03.01.2016,,,,,,,,,...,,,,,,,,,0,0
3,Бада - Ввод Т1 27.5 кВ,04.01.2016,,,,,,,,,...,,,,,,,,,0,0
4,Бада - Ввод Т1 27.5 кВ,05.01.2016,,,,,,,,,...,,,,,,,,,0,0


### _Describe data_

---

- data - дата наблюдения
- entering_substation - наименование ввода подстанции 
- 1 - 24 - часы наблюдения  
- consumption - суммарный расход за сутки 
- max_consumption - максимальный расход за сутки

## SECTION 2.2 DATA PREPARATION

### _Verify data quality_

---

In [10]:
# Функция коплексной оценки качества данных 
def verify_data_quality (evaluated_dataset):
    # Проверка типов данных
    print("Типы данных:\n{}\n".format(evaluated_dataset.dtypes) + '_' * 100+ '\n')
    # Проверка наличия значений NaN
    print("Пропущенные значения:\n{}\n".format(evaluated_dataset.isnull().sum().sum()) + '_' * 100+ '\n')
    # Количество значений, отличных от NaN
    print("Количество значений, отличных от NaN:\n{}\n".format(evaluated_dataset.count().sum()) + '_' * 100+ '\n')
    # Поиск дублирующих строк 
    print("Дублирующих строк:\n{}\n".format(evaluated_dataset.duplicated().sum()) + '_' * 100+ '\n')
    # Форма нарбора данных
    print("Форма нарбора данных:\n{}\n".format(evaluated_dataset.shape) + '_' * 100+ '\n')
    # Тип индекса набора данных
    print("Тип индекса набора данных:\n{}\n".format(evaluated_dataset.index) + '_' * 100+ '\n')

In [11]:
# Оценка качетва данных
verify_data_quality(power_consumption)

Типы данных:
entering_substation     object
date                    object
1                      float64
2                      float64
3                      float64
4                      float64
5                      float64
6                      float64
7                      float64
8                      float64
9                      float64
10                     float64
11                     float64
12                     float64
13                     float64
14                     float64
15                     float64
16                     float64
17                     float64
18                     float64
19                     float64
20                     float64
21                     float64
22                     float64
23                     float64
24                     float64
consumption              int64
max_consumption          int64
dtype: object
____________________________________________________________________________________________________

Про

### _Data type conversions_

---

Преобразуем типы данных даты для анализа 

In [12]:
# Преобразование даты 
power_consumption['date'] = pd.to_datetime(power_consumption['date'])

In [13]:
# Проверка результата
power_consumption.head()

Unnamed: 0,entering_substation,date,1,2,3,4,5,6,7,8,...,17,18,19,20,21,22,23,24,consumption,max_consumption
0,Бада - Ввод Т1 27.5 кВ,2016-01-01,,,,,,,,,...,,,,,,,,,0,0
1,Бада - Ввод Т1 27.5 кВ,2016-02-01,,,,,,,,,...,,,,,,,,,0,0
2,Бада - Ввод Т1 27.5 кВ,2016-03-01,,,,,,,,,...,,,,,,,,,0,0
3,Бада - Ввод Т1 27.5 кВ,2016-04-01,,,,,,,,,...,,,,,,,,,0,0
4,Бада - Ввод Т1 27.5 кВ,2016-05-01,,,,,,,,,...,,,,,,,,,0,0


In [14]:
# Оценка результатов преобразования
power_consumption.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32025 entries, 0 to 32024
Data columns (total 28 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   entering_substation  32025 non-null  object        
 1   date                 32025 non-null  datetime64[ns]
 2   1                    27132 non-null  float64       
 3   2                    27132 non-null  float64       
 4   3                    27132 non-null  float64       
 5   4                    27132 non-null  float64       
 6   5                    27132 non-null  float64       
 7   6                    27132 non-null  float64       
 8   7                    27132 non-null  float64       
 9   8                    27132 non-null  float64       
 10  9                    27132 non-null  float64       
 11  10                   27132 non-null  float64       
 12  11                   27132 non-null  float64       
 13  12                   27132 non-

### _Sorting, reordering, reindexing_

---

In [15]:
# Установим создание мультииндекса 
power_consumption = power_consumption.set_index(['date','entering_substation'])

In [16]:
# Оценка результатов переиндексации
power_consumption.index

MultiIndex([('2016-01-01',  'Бада - Ввод Т1 27.5 кВ'),
            ('2016-02-01',  'Бада - Ввод Т1 27.5 кВ'),
            ('2016-03-01',  'Бада - Ввод Т1 27.5 кВ'),
            ('2016-04-01',  'Бада - Ввод Т1 27.5 кВ'),
            ('2016-05-01',  'Бада - Ввод Т1 27.5 кВ'),
            ('2016-06-01',  'Бада - Ввод Т1 27.5 кВ'),
            ('2016-07-01',  'Бада - Ввод Т1 27.5 кВ'),
            ('2016-08-01',  'Бада - Ввод Т1 27.5 кВ'),
            ('2016-09-01',  'Бада - Ввод Т1 27.5 кВ'),
            ('2016-10-01',  'Бада - Ввод Т1 27.5 кВ'),
            ...
            ('2020-02-24', 'Новая - Ввод Т2 27.5 кВ'),
            ('2020-02-25', 'Новая - Ввод Т2 27.5 кВ'),
            ('2020-02-26', 'Новая - Ввод Т2 27.5 кВ'),
            ('2020-02-27', 'Новая - Ввод Т2 27.5 кВ'),
            ('2020-02-28', 'Новая - Ввод Т2 27.5 кВ'),
            ('2020-02-29', 'Новая - Ввод Т2 27.5 кВ'),
            ('2020-01-03', 'Новая - Ввод Т2 27.5 кВ'),
            ('2020-02-03', 'Новая - Ввод Т2 27.5 

In [17]:
# Индекс первого уровня
power_consumption.index.levels[0]

DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', '2016-01-04',
               '2016-01-05', '2016-01-06', '2016-01-07', '2016-01-08',
               '2016-01-09', '2016-01-10',
               ...
               '2020-08-01', '2020-08-02', '2020-09-01', '2020-09-02',
               '2020-10-01', '2020-10-02', '2020-11-01', '2020-11-02',
               '2020-12-01', '2020-12-02'],
              dtype='datetime64[ns]', name='date', length=1525, freq=None)

In [18]:
# Индекс второго уровня
power_consumption.index.levels[1]

Index(['Бада - Ввод Т1 27.5 кВ', 'Бада - Ввод Т2 27.5 кВ',
       'Белогорск - Ввод Т1 27.5 кВ', 'Белогорск - Ввод Т2 27.5 кВ',
       'Бушулей - Ввод Т1 27.5 кВ', 'Бушулей - Ввод Т2 27.5 кВ',
       'Завитая - Ввод Т1 27.5 кВ', 'Завитая - Ввод Т2 27.5 кВ',
       'Зилово - Ввод Т1 27.5 кВ', 'Зилово - Ввод Т3 27.5 кВ',
       'Карымская - Ввод Т1 27.5 кВ', 'Карымская - Ввод Т2 27.5 кВ',
       'Карымская - Ввод Т6 27.5 кВ', 'Магдагачи - Ввод Т1 27.5 кВ',
       'Магдагачи - Ввод Т2 27.5 кВ', 'Могзон - Ввод Т1 27.5 кВ',
       'Могзон - Ввод Т2 27.5 кВ', 'Могоча - Ввод Т1 27.5 кВ',
       'Могоча - Ввод Т2 27.5 кВ', 'Новая - Ввод Т1 27.5 кВ',
       'Новая - Ввод Т2 27.5 кВ'],
      dtype='object', name='entering_substation')

### _Conclusions_

---

In [21]:
power_consumption.to_csv('power_consumption_prepared.csv', sep=',', index=True, encoding='utf-8')