In [1]:
import pandas as pd
import altair as alt
import numpy as np

In [2]:
df = pd.read_csv('2014-2020.csv', delimiter=';')
df = df.rename(columns={'___/____': 'Date'})
df.drop(['Unnamed: 12', 'Unnamed: 13'], axis = 1, inplace = True)
df[['day', 'month', 'year']] = df['Date'].str.split('.', 2, expand=True)
df[['hour', 'day']] = df['day'].str.split('-', 1, expand=True)
df.head()


Unnamed: 0,Date,AES,TEC,VDE,TES,GES,GAES_GEN,CONSUMPTION,GAES_PUMP,UK_BLR_RUS,UK_EURO,UK_MLD,day,month,year,hour
0,24-31.12.2020,9235,2039,621,4942,385.0,0,16693,-405.0,-84.0,-11.0,-29.0,31,12,2020,24
1,23-31.12.2020,9221,2159,707,5549,470.0,0,17805,0.0,-43.0,-212.0,-46.0,31,12,2020,23
2,22-31.12.2020,9249,2377,709,5906,1000.0,0,18870,0.0,-13.0,-328.0,-30.0,31,12,2020,22
3,21-31.12.2020,9256,2499,702,6329,909.0,322,19887,0.0,0.0,-64.0,-66.0,31,12,2020,21
4,20-31.12.2020,9213,2521,702,6640,823.0,602,20387,0.0,-29.0,-48.0,-37.0,31,12,2020,20


- Як змінювалась структура генерації електроенергії за роками?

- Як залежить споживання електроенергії від дня року та години доби?

- Як змінюється генерація електроенергії з різних джерел впродовж доби?

- Як змінюється споживання електроенергії впродовж доби у розрізі місяців року та пір року?

- Як змінюється споживання електроенергії впродовж тижня?

Ви самостійно маєте обрати спосіб візуалізації. Ви також маєте написати короткий супровідний текст до кожної візуалізації, котрий пояснює, чому ви обрали саме цей спосіб презентації даних, які ще альтернативи ви розглядали, та чому зупинились саме на цьому варіанті (які його переваги та недоліки).

## Як змінювалась структура генерації електроенергії за роками?

In [145]:
years = [2014, 2015, 2016, 2017, 2018, 2019, 2020]
sources = ["AES", "TEC", "VDE", "TES", "GES"]
columns = ['Year', 'Source', 'Sum']

new_df = pd.DataFrame(columns = columns)
rows = []

for year in years:
    for source in sources:
        total = df.loc[df['year'] == str(year), source].sum()
        row = [year, source, total]
        zipped = zip(columns, row)
        row_dictionary = dict(zipped)
        rows.append(row_dictionary)

new_df = new_df.append(rows)

In [146]:
alt.Chart(new_df).mark_bar().encode(
    x = alt.X('Year:O'),
    y = alt.Y('Sum:Q',
             axis = alt.Axis(
                tickMinStep = 10,
            
            )),
    
    color = alt.Color('Source:N'),
).properties(width = 950, height = 600)

# Як залежить споживання електроенергії від дня року та години доби?

In [167]:
columns = ['Hour', 'Consumption']
daily_cons_df = pd.DataFrame(columns = columns, index=range(24))
   
for hour in range(24, 0, -1):
    daily_cons_df.loc[hour-1]['Hour'] = str(hour)
    daily_cons_df.loc[hour-1]['Consumption'] = str(df.loc[df['hour'] == str(hour), 'CONSUMPTION'].mean())
    
alt.Chart(daily_cons_df).mark_bar(size=20).encode(
    x = alt.X('Hour:Q'),
    y = alt.Y('Consumption:Q'),
).properties(width = 950, height = 600)

## Як змінюється генерація електроенергії з різних джерел впродовж доби?

In [165]:
columns = ['Hour', 'Source', 'Average']

hourly_gen_df = pd.DataFrame(columns = columns)
hourly_rows = []

for hour in range(24, 0, -1):
    for source in sources:
        mean = df.loc[df['hour'] == str(hour), source].mean()
        row = [hour, source, mean]
        zipped = zip(columns, row)
        row_dictionary = dict(zipped)
        hourly_rows.append(row_dictionary)

hourly_gen_df = hourly_gen_df.append(hourly_rows)
print(hourly_gen_df.head())

  Hour Source      Average
0   24    AES  9540.062182
1   24    TEC  1445.031678
2   24    VDE   165.014079
3   24    TES  5494.691826
4   24    GES   427.772692


In [166]:
alt.Chart(hourly_gen_df).mark_bar().encode(
    x = alt.X('Hour:O'),
    y = alt.Y('Average:Q'),
    color = alt.Color('Source:N'),
).properties(width = 950, height = 600)

## Як змінюється споживання електроенергії впродовж доби у розрізі місяців року та пір року?

In [161]:
months = ["January", "February", "March", "April", "May", "June", "July", "August", "September", "October", "November", "December"]
columns = ['Hour', 'Consumption']


for month in range(12, 0, -1):
    hourly_gen_df = pd.DataFrame(columns = columns)
    hourly_rows = []
    for hour in range(24, 0, -1):
        mean = df.loc[(df['hour'] == str(hour)) & (df['month'].str.contains(pat = str(month))), 'CONSUMPTION'].mean()
        row = [hour, mean]
        zipped = zip(columns, row)
        row_dictionary = dict(zipped)
        hourly_rows.append(row_dictionary)
    
    
    hourly_gen_df = hourly_gen_df.append(hourly_rows)

    display(alt.Chart(hourly_gen_df, title=months[month-1]).mark_bar().encode(
    x = alt.X('Hour:O'),
    y = alt.Y('Consumption:Q'),
    
    ).properties(width = 950, height = 600))
    

In [151]:
seasons = {'Winter': ['12', '01', '02'], 'Spring': ['03', '04', '05'], 
           'Summer': ['06', '07', '08'], 'Autumn':['09', '10', '11']}
columns = ['Hour', 'Consumption']

for key in seasons:
    hourly_gen_df = pd.DataFrame(columns = columns)
    hourly_rows = []
    for hour in range(24, 0, -1):
        mean = df.loc[(df['hour'] == str(hour)) & (df['month'].str.contains('|'.join(seasons[key]))), 'CONSUMPTION'].mean()
        row = [hour, mean]
        zipped = zip(columns, row)
        row_dictionary = dict(zipped)
        hourly_rows.append(row_dictionary)
    
    
    hourly_gen_df = hourly_gen_df.append(hourly_rows)

    display(alt.Chart(hourly_gen_df, title=key).mark_bar().encode(
    x = alt.X('Hour:O'),
    y = alt.Y('Consumption:Q',
             axis = alt.Axis(
            
            )),
    
    ).properties(width = 950, height = 600))

## Як змінюється споживання електроенергії впродовж тижня?

In [19]:
def add_weekday(df):
    weekday_column = []
    for index, row in df.iterrows():
        week_day = datetime.date(int(row['year']), int(row['month']), int(row['day']))
        weekday_column.append(week_day.strftime("%A"))
    df["weekday"] = weekday_column  
    return df

In [60]:
weekdays= ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday", "Sunday"]
columns = ['Weekday', 'Consumption']

df_with_weekdays = add_weekday(df[:1000])

result_df = pd.DataFrame(columns = columns)
weekdays_rows = []

for d in weekdays:
    mean = df_with_weekdays.loc[df_with_weekdays['weekday'] == d, 'CONSUMPTION'].mean()
    row = [d, mean]
    zipped = zip(columns, row)
    row_dictionary = dict(zipped)
    weekdays_rows.append(row_dictionary)

result_df = result_df.append(weekdays_rows)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [59]:
alt.Chart(result_df).mark_bar().encode(
    
    x = alt.X('Weekday:O', sort=None,),
    y = alt.Y('Consumption:Q',
             scale=alt.Scale(domain=[0, 21000]),
             axis = alt.Axis(             
                 tickMinStep = 1000,
                 tickCount=21,
                 ),
             ),
    
    ).properties(width = 800, height = 600)