In [1]:
import pandas as pd
import altair as alt

In [2]:
df = pd.read_excel("1.4_02.xlsx")
df["Year"] = [2010 if i % 2 ==0 else 2017 for i in range(len(df))]
df["Регіон, рік"] = df["Регіон, рік"].apply(lambda x: x[:-6])
df.head()

Unnamed: 0,"Регіон, рік",сільське господарство,промисловість,будівництво,послуги,державне управління,Year
0,Україна,8.3,25.9,3.3,57.3,5.2,2010
1,Україна,12.1,25.2,2.5,53.7,6.5,2017
2,Вінницька,21.6,19.3,4.1,47.4,7.6,2010
3,Вінницька,28.1,21.4,2.0,39.8,8.7,2017
4,Волинська,16.9,15.6,3.2,57.7,6.6,2010


In [3]:
lst = []
for ind, row in df.iterrows():
    for s in ["сільське господарство", "промисловість", "будівництво", "послуги", "державне управління"]:
        lst.append({"Region": row["Регіон, рік"], "Year": row["Year"], "Type": s, "pers": row[s]})


In [4]:
new_df = pd.DataFrame.from_dict(lst)
new_df

Unnamed: 0,Region,Year,Type,pers
0,Україна,2010,сільське господарство,8.3
1,Україна,2010,промисловість,25.9
2,Україна,2010,будівництво,3.3
3,Україна,2010,послуги,57.3
4,Україна,2010,державне управління,5.2
...,...,...,...,...
255,м.Київ,2017,сільське господарство,0.0
256,м.Київ,2017,промисловість,10.1
257,м.Київ,2017,будівництво,3.5
258,м.Київ,2017,послуги,82.8


In [5]:
input_dropdown = alt.binding_select(options=["сільське господарство", "промисловість", "будівництво", "послуги", "державне управління"], name='Галузь')
selection = alt.selection_single(fields=['Type'], bind=input_dropdown, empty="all")

alt.Chart(new_df, title="Contribution of fields in Ukraine regions").mark_point().encode(
    alt.X(
        "pers:Q",
        title="Сontribution, %",
        scale=alt.Scale(zero=False),
        axis=alt.Axis(grid=True)
    ),
    alt.Y(
        'Region:N',
        title="",
        sort=alt.Sort(field="pers", op='max', order='descending'),
        axis=alt.Axis(grid=True)
    ),
    color=alt.Color('Type:N'),
    opacity=alt.condition(selection, alt.value(1), alt.value(0.2)),
    size = alt.condition('datum.Year == 2017', alt.value(70), alt.value(30))
    #alt.Color('Year:N', legend=alt.Legend(title="Year"))
).add_selection(
    selection
).properties(
     height=900
)

### Що не так з оригінальним графіком
- Дуже багато інформації
- Вертикальні назви
- Не чітко видно скільки відсотків займає кожна галузь
- Не чітко видно різницю між роками для деяких галузей

### Чому цей графік вирішує проблеми?
- По перше всі назви горизонтальні
- Чітко видно різницю між роками для конкретних галузей
- Можна інтерактивно обрати якусь галузь, і буде чітко видно як вона виглядає на фоні інших галузей, це вирішує проблему з великою кількістю даних
- Видно скільки відскотків кожна галузь займає
- Можливо не дуже гарний вибір з розміром бульбашки (що розмір бульбашки показує рік), тому що розмір має більше асоціюватися з чисельними даними, але зато чітко видно де 2017 а де 2010
- Ремарка, там в легенді ще мало бути що велика бульбашка - 2017, мала - 2010 )))