In [1]:
import pandas as pd
import altair as alt
import numpy as np
import datetime

In [5]:
df = pd.read_csv('../data/2014-2020.csv', delimiter=';')
df = df.rename(columns={'___/____': 'Date'})
df[['day', 'month', 'year']] = df['Date'].str.split('.', 2, expand=True)
df[['hour', 'day']] = df['day'].str.split('-', 1, expand=True)
df.drop(['Unnamed: 12', 'Unnamed: 13', 'GAES_GEN', 'GAES_PUMP', 'UK_BLR_RUS', 'UK_EURO', 'UK_MLD', 'Date'], axis = 1, inplace = True)

df.head()


Unnamed: 0,AES,TEC,VDE,TES,GES,CONSUMPTION,day,month,year,hour
0,9235,2039,621,4942,385.0,16693,31,12,2020,24
1,9221,2159,707,5549,470.0,17805,31,12,2020,23
2,9249,2377,709,5906,1000.0,18870,31,12,2020,22
3,9256,2499,702,6329,909.0,19887,31,12,2020,21
4,9213,2521,702,6640,823.0,20387,31,12,2020,20


## Як змінювалась структура генерації електроенергії за роками?

Для відовіді на це питання я використала Bar chart, а точніше Stacked Bar Graph.

Ще одним варіантом був Multi-set Bar Chart, але на мою думку Stacked Bar ідеально підходить для порівняння загальних сум у кожній групі.
Також можна легко оцінити загальний розподіл, і вклад кожного джерела генерації енергії у кожному з інтервалів.
А ще графік простий в реалізації.

Щодо недоліків, так як шкала по осі Y охоплює великий діапазон значень, то на цьому графіку незрозумілими є числові значення, які визначають кількість згенерованої енергії.
Цей недолік я усунула опцією tooltip.

In [6]:
years = [2014, 2015, 2016, 2017, 2018, 2019, 2020]
sources = ["AES", "TEC", "VDE", "TES", "GES"]
columns = ['Year', 'Source', 'Sum']

new_df = pd.DataFrame(columns = columns)
rows = []

for year in years:
    for source in sources:
        total = df.loc[df['year'] == str(year), source].sum()
        row = [year, source, total]
        zipped = zip(columns, row)
        row_dictionary = dict(zipped)
        rows.append(row_dictionary)

new_df = new_df.append(rows)

In [7]:
alt.Chart(new_df).mark_bar().encode(
    x = alt.X('Year:O'),
    y = alt.Y('Sum:Q'),
    tooltip = alt.Tooltip('Sum'),
    color = alt.Color('Source:N'),
).properties(width = 650, height = 500)

# Як залежить споживання електроенергії від дня року та години доби?

Для відображення залежності споживання електроенергії від години доби використовую Bar Chart.
А для відображення залежності споживання електроенергії від дня року Heatmap. 

Другий графік добре відображає зміни у даних з часом, якщо для одного з рядків або стовпців встановлено часові інтервали, у даному випадку дні роки.

Альтернативно, можна зобразити залежність споживання електроенергії від дня року та години доби у єдиноиу графіку виду Heatmap.
Але тоді по осі Y було б 366 позицій і, на мою думку, це незручно для оцінки числових значень, що і є недоліком великих графіків такого типу.


In [8]:
columns = ['Hour', 'Consumption']
daily_cons_df = pd.DataFrame(columns = columns, index=range(24))
   
for hour in range(24, 0, -1):
    daily_cons_df.loc[hour-1]['Hour'] = str(hour)
    daily_cons_df.loc[hour-1]['Consumption'] = str(df.loc[df['hour'] == str(hour), 'CONSUMPTION'].mean())
    
alt.Chart(daily_cons_df).mark_bar().encode(
    x = alt.X('Hour:O', sort=alt.EncodingSortField(field='Hour', op='count', order='ascending')),
    y = alt.Y('Consumption:Q'),
    tooltip = alt.Tooltip('Consumption'),
).properties(width = 650, height = 500)

In [9]:
col = ['Day', 'Month', 'Consumption']
monthly_df = pd.DataFrame(columns = col)

monthly_rows = []

for month in range(12, 0, -1):
    for day in range(31, 0, -1):
        mean = df.loc[(df['day'].str.contains(pat = str(day))) & (df['month'].str.contains(pat = str(month))), 'CONSUMPTION'].mean()
        row = [day, month, mean]
        zipped = zip(col, row)
        row_dictionary = dict(zipped)
        monthly_rows.append(row_dictionary)

monthly_df = monthly_df.append(monthly_rows)

In [10]:
alt.Chart(monthly_df).mark_rect().encode(
    x = alt.X('Day:N'),
    y = alt.Y('Month:N'),
    color = alt.Color('Consumption:Q', scale = alt.Scale(scheme = 'pinkyellowgreen'))
).properties(width = 950, height = 500)

## Як змінюється генерація електроенергії з різних джерел впродовж доби?

Аналогічно до першого завдання, я використала Stacked Bar Graph.
Проте є деяка відміність в даних, у цьому завданні я обраховувала середнє значення згенерованої енергії з різних джерел впродовж доби за всі роки.


In [11]:
columns = ['Hour', 'Source', 'Average']

hourly_gen_df = pd.DataFrame(columns = columns)
hourly_rows = []

for hour in range(24, 0, -1):
    for source in sources:
        mean = df.loc[df['hour'] == str(hour), source].mean()
        row = [hour, source, mean]
        zipped = zip(columns, row)
        row_dictionary = dict(zipped)
        hourly_rows.append(row_dictionary)

hourly_gen_df = hourly_gen_df.append(hourly_rows)
hourly_gen_df.head()

Unnamed: 0,Hour,Source,Average
0,24,AES,9540.062182
1,24,TEC,1445.031678
2,24,VDE,165.014079
3,24,TES,5494.691826
4,24,GES,427.772692


In [12]:
alt.Chart(hourly_gen_df).mark_bar().encode(
    x = alt.X('Hour:O'),
    y = alt.Y('Average:Q'),
    tooltip = alt.Tooltip('Average'),
    color = alt.Color('Source:N'),
).properties(width = 950, height = 600)

## Як змінюється споживання електроенергії впродовж доби у розрізі місяців року та пір року?

Для відображення зміни споживання електроенергії впродовж доби у розрізі місяців року я застосувала Bar Chart, використовуючи фацетинг. Такий спосіб дуже зручний для відображення декількох окремих графіків для кожної категорії, у даному випадку - для кожного місяця.
Як я вже описувала раніше Bar Chart досить простий та зрозумілий графік для розуміння.

Ще одним варіантом був Line Graph. Але на цьому графіку потрібно було зобразити аж 12 ліній, які в багатьох місцях накладались, тому він не був зручним для оцінки зміни даних впродовж доби.

Але Line Graph я використала для відображення зміни споживання електроенергії впродовж доби у розрізі пір року. Також я додала поінти для більш чіткого визначення числових значень. Таким чином цей графік не є громіздкий, можна легко оцінити зміну даних .


In [13]:
months = ["January", "February", "March", "April", "May", "June", "July", "August", "September", "October", "November", "December"]
columns = ['Hour', 'Consumption', 'Month']

hourly_gen_df = pd.DataFrame(columns = columns)


for month in range(12, 0, -1):
    hourly_rows = []
    for hour in range(24, 0, -1):
        mean = df.loc[(df['hour'] == str(hour)) & (df['month'].str.contains(pat = str(month))), 'CONSUMPTION'].mean()
        row = [hour, mean, months[month-1]]
        zipped = zip(columns, row)
        row_dictionary = dict(zipped)
        hourly_rows.append(row_dictionary)
    
    
    hourly_gen_df = hourly_gen_df.append(hourly_rows)

In [205]:
alt.Chart(hourly_gen_df).mark_bar().encode(
    x = alt.X('Hour:O'),
    y = alt.Y('Consumption:Q'),
    tooltip = alt.Tooltip('Consumption')
).properties(width = 950/2, height = 500/2).facet(facet = alt.Facet('Month:N'), columns = 2)

In [14]:
seasons = {'Winter': ['12', '01', '02'], 'Spring': ['03', '04', '05'], 
           'Summer': ['06', '07', '08'], 'Autumn':['09', '10', '11']}
columns = ['Hour', 'Consumption', 'Season']
hourly_gen_df = pd.DataFrame(columns = columns)
hourly_rows = []
for key in seasons:    
    for hour in range(24, 0, -1):
        mean = df.loc[(df['hour'] == str(hour)) & (df['month'].str.contains('|'.join(seasons[key]))), 'CONSUMPTION'].mean()
        row = [hour, mean, key]
        zipped = zip(columns, row)
        row_dictionary = dict(zipped)
        hourly_rows.append(row_dictionary)
    
    
hourly_gen_df = hourly_gen_df.append(hourly_rows)

In [15]:
points = alt.Chart(hourly_gen_df).mark_circle(size = 50).encode(
    x = alt.X('Hour:N'),
    y = alt.Y('Consumption:Q'),
    color = alt.Color('Season:N'),
    tooltip = alt.Tooltip('Consumption'))

line = alt.Chart(hourly_gen_df).mark_line().encode(
    x = alt.X('Hour:N'),
    y = alt.Y('Consumption:Q'),
    color = alt.Color('Season:N'))
(points+line).properties(width = 750, height = 500, background = '#F9F9F9', padding = 25)

## Як змінюється споживання електроенергії впродовж тижня?

У цьому завданні я використала класичний Bar Chart. 
Альтернативно можна було також реалізувати Radial Bar Chart, але так як різниця у числових значення не є дуже велика, то на цьому графіку потрібно було б суттєво зменшити діапазон значень, щоб помітити різницю.


Стовпчики Bar Chart чудово відображають чисельні порівняння між днями тижня. 
Одна вісь діаграми показує саме дні тижня, які порівнюються, а інша вісь представляє дискретну шкалу значень.
Цей графік простий в реалізації та розумінні.
Недоліком є те, що незрозумілими є самі числові значення, які визначають кількість спожитої енергії. 
Цей недолік я усунула опцією tooltip.

In [16]:
def add_weekday(df):
    weekday_column = []
    for index, row in df.iterrows():
        week_day = datetime.date(int(row['year']), int(row['month']), int(row['day']))
        weekday_column.append(week_day.strftime("%A"))
    df["weekday"] = weekday_column  
    return df

In [17]:
weekdays= ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"]
columns = ['Weekday', 'Consumption']

df_with_weekdays = add_weekday(df)

result_df = pd.DataFrame(columns = columns)
weekdays_rows = []

for d in weekdays:
    mean = df_with_weekdays.loc[df_with_weekdays['weekday'] == d, 'CONSUMPTION'].mean()
    row = [d, mean]
    zipped = zip(columns, row)
    row_dictionary = dict(zipped)
    weekdays_rows.append(row_dictionary)

result_df = result_df.append(weekdays_rows)

In [18]:
alt.Chart(result_df).mark_bar().encode(
    
    x = alt.X('Weekday:O', sort=None),
    y = alt.Y('Consumption:Q',
             scale = alt. Scale(domain = [15000, 17500])),
    tooltip = alt.Tooltip('Consumption')
    ).properties(width = 800, height = 600)