In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from functools import partial
import seaborn as sns

In [None]:
# use this to keep the cells wider, very nice on wide screens, set the percentage as you like it
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:80% !important; }</style>"))
#display(HTML("<style>.container { width:100% !important; }</style>"))

In [None]:

conf = {
    'font.size': 14.0,
    'axes.grid': True,
    'axes.axisbelow': True,
    'axes.edgecolor': 'black',
#    'axes.facecolor': '#E5E5EF',
#    'axes.facecolor': '#E0E0EF',
    'axes.labelcolor': 'black',
    'axes.titlesize': 15.6,
    'axes.labelsize': 'large',    
    'figure.figsize': (12, 7),
    'figure.titlesize': 'x-large',
    'grid.linewidth': 1.3,
    'xtick.labelsize': 'large',
    'ytick.labelsize': 'large',
    'xtick.color': 'black',
    'ytick.color': 'black',
    'legend.fontsize': 'large',
    'figure.figsize': (12., 8.)
}

plt.rcParams.update(conf)

### base loading and cleaning

In [None]:
df_form = pd.read_excel('Feedback_Animefest_2019.xlsx', sheet_name='Form Responses 1')

In [None]:
df_form['Timestamp'] = pd.to_datetime(df_form['Timestamp'])

In [None]:
df_app = pd.read_excel('Feedback_Animefest_2019.xlsx', sheet_name='Appky')

In [None]:
df_app['čas feedbacku'] = pd.to_datetime(df_app['čas feedbacku'])

In [None]:
df_form = df_form.replace(to_replace={'😐v pohodě': 'v pohodě', '😃dobré': 'dobré', '😞špatné': 'špatné', '😐 v pohodě': 'v pohodě', '😃 dobré': 'dobré', '😞 špatné': 'špatné', '😃Ano': 'Ano', '😞Ne': 'Ne'})

In [None]:
df_form.head()

##### several columns with same name, mutually exlusively filled, merging those

In [None]:
duplicit_columns = [i for i in df_form.columns if i.endswith('.1')]
duplicit_columns

In [None]:
[df_form[[i[:-2], i]].notnull().sum(axis=1).max() for i in duplicit_columns]

In [None]:
for i in duplicit_columns:
    assert df_form[[i[:-2], i]].notnull().sum(axis=1).max() == 1  # only one column is filled, the other is N/A
    df_form.loc[df_form[i].notnull(), i[:-2]] = df_form[df_form[i].notnull()][i]
df_form = df_form.drop(columns=duplicit_columns)

In [None]:
info_suffix = ' [Dozvěděl(a) jsem se zajímavé informace]'
fun_suffix = ' [Bavil(a) jsem se]'
columns_series = df_form.columns.to_series()
program_columns_ratings = columns_series[columns_series.str.contains(info_suffix, regex=False) | columns_series.str.contains(fun_suffix, regex=False)]
program_columns_ratings.head()

In [None]:
program_columns = pd.Series(program_columns_ratings.str.replace(info_suffix, '', regex=False).str.replace(fun_suffix, '', regex=False).unique())
program_columns.head()

##### some columns that should have same content have nans somewhere, fixing this

In [None]:
weird_cols = ['2. světová válka z pohledu Japonska a život císaře Hirohita [Dozvěděl(a) jsem se zajímavé informace]', '2. světová válka z pohledu Japonska a život císaře Hirohita [Bavil(a) jsem se]']
df_form[df_form[weird_cols[0]] == 'Nedostal(a) jsem se'][weird_cols].head()

In [None]:
# if one column marks not attended, and second is null, value is inferred
for i in program_columns:
    info_cond = df_form[i+info_suffix].isna() & df_form[i+fun_suffix].isin(['Nedostal(a) jsem se', 'Nezúčastnil(a) jsem se'])
    fun_cond = df_form[i+fun_suffix].isna() & df_form[i+info_suffix].isin(['Nedostal(a) jsem se', 'Nezúčastnil(a) jsem se'])
    df_form.loc[info_cond, i+info_suffix] = df_form[info_cond][i+fun_suffix]
    df_form.loc[fun_cond, i+fun_suffix] = df_form[fun_cond][i+info_suffix]


In [None]:
df_form[df_form[weird_cols[0]] == 'Nedostal(a) jsem se'][weird_cols].head()

##### some columns that should have nan or rating have not attended, fixing this

In [None]:
weird_cols = ['Maul Cosplay Q&A [Dozvěděl(a) jsem se zajímavé informace]', 'Maul Cosplay Q&A [Bavil(a) jsem se]']
df_form[df_form[weird_cols[1]] == 'v pohodě'][weird_cols].head()

In [None]:
# if one column marks not attended, and second is rating, not attended is set to null
for i in program_columns:
    info_cond = df_form[i+fun_suffix].isin(['dobré', 'v pohodě', 'špatné']) & df_form[i+info_suffix].isin(['Nedostal(a) jsem se', 'Nezúčastnil(a) jsem se'])
    fun_cond = df_form[i+info_suffix].isin(['dobré', 'v pohodě', 'špatné']) & df_form[i+fun_suffix].isin(['Nedostal(a) jsem se', 'Nezúčastnil(a) jsem se'])
    df_form.loc[info_cond, i+info_suffix] = np.nan
    df_form.loc[fun_cond, i+fun_suffix] = np.nan


In [None]:
df_form[df_form[weird_cols[1]] == 'v pohodě'][weird_cols].head()

##### some columns that should have same type of attendence have different. Converting 'Nedostal(a) jsem se' to 'Nezúčastnil(a) jsem se'

In [None]:
weird_cols = ['12 ran cosplayerových [Dozvěděl(a) jsem se zajímavé informace]', '12 ran cosplayerových [Bavil(a) jsem se]']
df_form[df_form[weird_cols[0]] == 'Nedostal(a) jsem se'][weird_cols].tail()

In [None]:
# if one column marks not attended, and second is null, value is inferred
for i in program_columns:
    info_cond = (df_form[i+info_suffix] == 'Nedostal(a) jsem se') & (df_form[i+fun_suffix] == 'Nezúčastnil(a) jsem se')
    fun_cond = (df_form[i+fun_suffix] == 'Nedostal(a) jsem se') & (df_form[i+info_suffix] == 'Nezúčastnil(a) jsem se')
    df_form.loc[info_cond, i+info_suffix] = df_form[info_cond][i+fun_suffix]
    df_form.loc[fun_cond, i+fun_suffix] = df_form[fun_cond][i+info_suffix]


In [None]:
df_form[df_form[weird_cols[0]] == 'Nedostal(a) jsem se'][weird_cols].tail()

##### sanity checks

In [None]:
for i in program_columns:
    info_sum = (df_form[i+info_suffix] == 'Nedostal(a) jsem se').sum()
    fun_sum = (df_form[i+fun_suffix] == 'Nedostal(a) jsem se').sum()
    both_sum = ((df_form[i+info_suffix] == 'Nedostal(a) jsem se') & (df_form[i+fun_suffix] == 'Nedostal(a) jsem se')).sum()
    if info_sum != fun_sum or fun_sum != both_sum:
        print(i, info_sum, fun_sum, both_sum)
    
    assert info_sum == fun_sum == both_sum

In [None]:
for i in program_columns:
    info_sum = (df_form[i+info_suffix] == 'Nezúčastnil(a) jsem se').sum()
    fun_sum = (df_form[i+fun_suffix] == 'Nezúčastnil(a) jsem se').sum()
    both_sum = ((df_form[i+info_suffix] == 'Nezúčastnil(a) jsem se') & (df_form[i+fun_suffix] == 'Nezúčastnil(a) jsem se')).sum()
    if info_sum != fun_sum or fun_sum != both_sum:
        print(i, info_sum, fun_sum, both_sum)
    
    assert info_sum == fun_sum == both_sum

In [None]:
for i in program_columns:
    info_sum = df_form[i+info_suffix].isin(['dobré', 'v pohodě', 'špatné', np.nan]).sum()
    fun_sum = df_form[i+fun_suffix].isin(['dobré', 'v pohodě', 'špatné', np.nan]).sum()
    both_sum = df_form[i+info_suffix].isin(['dobré', 'v pohodě', 'špatné', np.nan]).sum() & df_form[i+fun_suffix].isin(['dobré', 'v pohodě', 'špatné', np.nan]).sum()
    if info_sum != fun_sum or fun_sum != both_sum:
        print(i, info_sum, fun_sum, both_sum)
    
    assert info_sum == fun_sum == both_sum

### base EDA

In [None]:
df_form.head()

In [None]:
df_form.describe()

In [None]:
[(i, len(df_form[i].unique())) for i in df_form.columns if len(df_form[i].unique()) < 10]

In [None]:
df_form.columns.map(lambda i: len(df_form[i].unique())).to_series().value_counts().sort_index().plot.bar(figsize=(25, 10))

In [None]:
df_form.columns.map(lambda i: sum(df_form[i].notnull())).to_series().value_counts().sort_index().plot.bar(figsize=(25, 10))

In [None]:
attend_columns = [i for i in df_form.columns if 'Nezúčastnil(a) jsem se' in df_form[i].values]

In [None]:
attend_columns[:10]

In [None]:
len(attend_columns)

In [None]:
len([i for i in df_form.columns if len(df_form[i].unique()) <= 8])

In [None]:
len([i for i in df_form.columns if len(df_form[i].unique()) < 10])

In [None]:
len([i for i in df_form.columns if len(df_form[i].unique()) < 20])

In [None]:
len([i for i in df_form.columns if len(df_form[i].unique()) <= 8 and sum(df_form[i].notnull()) > 100])

In [None]:
all_attends = df_form[attend_columns].stack()
all_attends[~all_attends.isna()].value_counts().plot.pie()

In [None]:
all_attends[~all_attends.isna()].value_counts().plot.barh()

In [None]:
all_attends[(~all_attends.isna()) & ('Nezúčastnil(a) jsem se' != all_attends)].value_counts().plot.barh()

In [None]:
df_app.head()

In [None]:
df_app.describe()

In [None]:
def abs_vals(pct, allvals):
    absolute = int(pct/100.*np.sum(allvals))
    return '{:d}'.format(absolute)


In [None]:
feedback_geo = df_form['Bydliště'].value_counts()
feedback_geo.plot.pie(autopct=partial(abs_vals, allvals=feedback_geo))

In [None]:
for i in [i for i in df_form.columns if len(df_form[i].unique()) <= 8 and sum(df_form[i].notnull()) > 100]:
    plt.figure()
    feedback_i = df_form[i].value_counts()
    feedback_i.plot.pie(autopct=partial(abs_vals, allvals=feedback_i))
    plt.show()
    
# todo: dodat filtrování, že tam kde je pod 20 co se zúčastnilia ty vyhodit, udělat i analýzu toho, kdo jak vyplnil zúčastnil/nezúčastnil jsem se

In [None]:
[i for i in df_form.columns if len(df_form[i].unique()) <= 8 and '[Dozvěděl(a) jsem se zajímavé informace]' not in i and '[Bavil(a) jsem se]' not in i and 'Komentář:' not in i]

In [None]:
cols_to_plot = [i for i in df_form.columns if len(df_form[i].unique()) <= 8 and '[Dozvěděl(a) jsem se zajímavé informace]' not in i and '[Bavil(a) jsem se]' not in i and 'Komentář:' not in i]
cols = 3
fig, axes = plt.subplots(int(np.ceil(len(cols_to_plot) / cols)), cols, figsize=(35, 120))

for i, col in enumerate(cols_to_plot):
    ax = axes[i // cols, i % cols]
    #plt.figure()
    feedback_i = df_form[col].value_counts()
    feedback_i.plot.pie(autopct=partial(abs_vals, allvals=feedback_i), ax=ax, y=None)
plt.show()
    
# todo: dodat filtrování, že tam kde je pod 20 co se zúčastnilia ty vyhodit, udělat i analýzu toho, kdo jak vyplnil zúčastnil/nezúčastnil jsem se

In [None]:
feedback_times = df_form['Timestamp'].value_counts(sort=False).copy().reindex().resample('1D', how='count')
feedback_times.plot.bar()
plt.title('Počet vyplnění za den, vše červen')
#plt.gca().set_xticklabels([dt.strftime("%#d. %#m.") for dt in feedback_times.index])
plt.gca().set_xticklabels([dt.strftime("%#d.") for dt in feedback_times.index])
plt.xticks(rotation=0)
plt.show()

In [None]:
program_ratings = df_form[program_columns_ratings].apply(lambda x: x.value_counts(), axis=0)

In [None]:
attended_col = (program_ratings.loc['dobré'].fillna(0) + program_ratings.loc['v pohodě'].fillna(0) + program_ratings.loc['špatné'].fillna(0)).rename('Zúčastnil(a) jsem se')
program_attends = pd.concat((attended_col, program_ratings.loc['Nedostal(a) jsem se']), axis=1)
program_attends.head()

In [None]:
program_ratings = program_ratings.drop('Nezúčastnil(a) jsem se')

In [None]:
df_form[program_rating_columns].shape, len(program_rating_columns)

In [None]:
program_ratings

In [None]:
def remove_suffix(string):
    return string.replace(' [Dozvěděl(a) jsem se zajímavé informace]', '').replace(' [Bavil(a) jsem se]', '')
program_ratings.groupby(program_ratings.columns.map(remove_suffix), axis=1).max()

In [None]:
type_to_color = {'přednášky': 'g', 'workshopy': 'purple', 'soutěže': 'yellow', 'doplňkový program': 'b', 'promítání': 'r', 'divadlo': 'pink'}
def patch_label_coords(p):
    offset = 0
    if p.get_width() < 0:
        offset = - 0.03
    return p.get_x() + p.get_width() + offset, p.get_y() - 0.25

In [None]:
program_attends.T.groupby(program_ratings.columns.map(remove_suffix), axis=1).max().T.sort_values('Zúčastnil(a) jsem se', ascending=True).plot.barh(stacked=True, figsize=(30, 50))

#### splitting program to categories

In [None]:
categories = {
    'soutěže': [ 
        'Animekvíz', 'Cosplay debut', 'Cosplay soutěž', 'Cosplay video', 'Festdance', 'Soutěžní AMV', 'Vyhlášení výsledků', 
    ], 
    'přednášky': [
        '12 ran cosplayerových', '2. světová válka z pohledu Japonska a život císaře Hirohita', '3D tisk v cosplayi: Od modelování po barvení', 'Alternativní móda: Od ponožky po klobouk', 'An Introduction to Leather Crafting', 
        'Anime světy, ve kterých (ne)chcete žít', 'BJD od Ludvíka XIV. až po BTS', 'Bojuj podle svého charakteru', 'Cosplay and Otaku History in Japan', 'Cosplay armor: From reference to wearable costume', 
        'Crossdressing - the hell is dat?', 'Designing Male Characters Fanservice: The Struggle', 'Do Japonska za idoly', 'Doll Photography', 'Fake Is Sad/Bootleg Panel', 'Filmoví skladatelé Japonska č. 2', 
        'Gača hry aneb Lootboxy na asijský způsob', 'Gejša: Tajemství za stěnami čajovny', 'Ghibli známé neznámé', 'Godzilla, just a rubber monster, right?', 'Gothic – hudba, móda, subkultura', 
        'Historická přesnost zbrojí v anime na vybraných příkladech', 'Indonésie – země ohně', 'Jak na anime make-up', 'Jak na psaní – Od teorie k praxi', 'Jak se připravit na cosplay focení', 'Jak sehnat (nejen) jaoi v totalitním státu', 
        'Jak si plnit sny pomocí anime', 'Japanacorps, WTF?!', 'Japonský rok v emodži', 'Letem jiným světem', 'Lolitou každý den', 'Líčení pro trdla od trdla', 'Madoka Magica a ti druzí, co selhali', 'Manga novinky u nás!', 
        'Manga pro dospívající dívky: Co na ní milujeme a nesnášíme', 'Maul Cosplay Q&A', 'My Hero Academy', 'Módní přehlídka 101', 'Nebojte se zahraničních soutěží!', 'Nový kreslíř na scéně: umělá inteligence!', 
        'Očekávání vs. realita: Člověk 2.0, mecha a vesmírné lodě', 'Pen & Paper role-playing hry', 'Proč (ne)jet do Jižní Koreje', 'Receptář tetičky Mitsu nejen pro začínající lolity', 'Remaky anime', 'Reputace & renesance D&D', 
        'Resident Evil – Od zrození po současnost', 'Rámen po česku', 'Sekiro, Nioh a ti další…', 'Slasti a strasti japonského randění', 'Slavnostní zahájení + křest Vějíře', 'Stereotyp – NÁMITKA!', 'Svět japonských idolů', 
        'Taková normální japonská rodinka', 'Viktoriánské úpravy vlasů', 'World cosplay panel', 'Zakončení conu', 'Zákeřné vody videoherního pirátství', 
    ], 
    'workshopy': [
        'Aikido Ikigai Dojo Brno ', 'Aikikai Aikido Brno ', 'Boj dýkou a nožem', 'Boj tesákem', 'Choker', 'Cosplay Act Workshop', 'Yoshinkan aikido', 'Kaligrafie', 'Kendo', 'Kensei Dojo Brno ', 'Kimono workshop', 'Sraz AMV', 
        'Háčkování plyšových zvířátek', 'I pád je posun vpřed', 'Jak se při cosplayi neztrapnit se zbraní', 'Jo, bokken, tanto aneb Obrana proti japonským zbraním', 'Květiny Ikebana', 'Mák a jeho klacek aneb I monk si s holí leccos dovolí', 
        'Náušnice ze skleněných kapek', 'Od základů po pokročilejší retuše nejen cosplay fotografie', 'Omalovánky', 'Origami Workshop', 'Rozcvička pro družinku aneb Dračí doupě po ránu', 'Rytíř, meč a štít aneb Líný šerm', 
        'Růže ze saténových stužek', 'Sebeobrana nejen pro dámy', 'Sebeobrana po japonsku', 'Taneční k-pop workshop', 'Vyšívání', 'Válečník mazlivě obouručákem tě mlaskne', 'Výroba vlastního diáře/skicáku', 
        'Workshop animace v Clip Studio Paint', 'Základy svícení s profesionálními záblesky a jejich modifikátory'
    ], 
    'promítání': [
        '3D holka', 'A to je špatně, když se chodím seznamovat do kobek? Orionův šíp', 'Bůh žehnej tomuto nádhernému světu', 'Fashion Mix', 'Gamers!', 'Já malý čarodějka', 'Květina zaslíbená rannímu loučení', 'Lolita Music Mix: Novinky', 
        'Mirai, dívka z budoucnosti', 'Módní kolekce 2019', 'Noc je krátká, tak kráčej dál, děvče', 'Penguin Highway', 'Pohodářky', 'ReLIFE', 'Symfonie z jiného světa', 'Tipy pro život mimo realitu', 'Vzestup hrdiny štítu', 
        'Zombie Land Saga', 
    ],
    'doplňkový program': [
        'AMV Budíček', 'AMV Mortal Combat', 'AMV Nočník', 'AMV Večerníček', 'BTS Army sraz', 'Vějíř – autogramiáda a beseda', 'Anime novinky očima protřelých fanoušků', 'Budoucnost českých anime conů', 
        'K-pop – random dance CZHW', 'Sčítání žije!', 'Turnaj v šermu Aréna Alerie', 'Dračí doupě', 
    ],
    'divadlo': ['Festovní koncert', 'Kamui – The Samurai Sword Artists', 'Lolita Fashion Show', 'Malé divadlo kjógenu', ],
    }

In [None]:
program_attendance = program_attends.T.groupby(program_ratings.columns.map(remove_suffix), axis=1).max().T['Zúčastnil(a) jsem se'].to_frame()
program_attendance['type'] = program_attendance.index.to_series().map(col_to_category)

sorted_attendance = program_attendance.sort_values(by='Zúčastnil(a) jsem se', ascending=True)
sorted_attendance['Zúčastnil(a) jsem se'].sort_values(ascending=True).plot.barh(stacked=True, figsize=(30, 50), color=sorted_attendance['type'].map(type_to_color))
for p in plt.gca().patches:
    plt.gca().annotate("%.0f" % p.get_width(), patch_label_coords(p), xytext=(5, 10), textcoords='offset points')

In [None]:
col_to_category = {col: category for category, cols in categories.items() for col in cols}
col_to_category

In [None]:
program_attendance['type'] = program_attendance.index.to_series().map(col_to_category)
program_attendance.head()

In [None]:
program_attendance.groupby('type')['Zúčastnil(a) jsem se'].sum().sort_values(ascending=True).plot.barh()

In [None]:
program_attendance.groupby('type')['Zúčastnil(a) jsem se'].mean().sort_values(ascending=True).plot.barh()

In [None]:
program_attendance.groupby('type')['Zúčastnil(a) jsem se'].count().sort_values(ascending=True).plot.barh()

In [None]:
sns.violinplot(x='type', y='Zúčastnil(a) jsem se', data=program_attendance, inner='stick', bw=.3)
plt.title('návštěvnost')
plt.xticks(rotation=15)

In [None]:
rating_to_num = {'špatné': -1, 'v pohodě': 0, 'dobré': 1}
fill_to_num = {'chci hodnotit stručně': -1, 'chci hodnotit podrobně (je toho opravdu hodně, čím víc vyplníte, tím vděčnější budeme)': 1}
app_to_num = {'Ne': -1, 'Ne, nevědel sem o ní': -1, 'Ne, z jiného důvodu': -1, 'Ne, nemám podporované zařízení': -1, 'Ne, nedokázal jsem ji spustit': -1, 'Ne, nezajímá mě': -1, np.nan: 0, 'Ano': 1}
bool_to_num = {'Ne': -1, np.nan: 0, 'Ano': 1}
age_to_num = {'13-15': 1, '16-18': 2, '19-25': 3, '26 a více': 4}
    
#sns.pairplot(df_form[cols_to_plot], hue='Pohlaví')
plt.figure(figsize=(20, 20))
g = sns.pairplot(df_form[['Věk', 'Pohlaví', 'Jak podrobně chcete hodnotit?', 'Připadá vám AF téma pro zážitek na conu důležité?', 'Používali jste Animefest aplikaci?']].replace({
    'Věk': age_to_num, 'Jak podrobně chcete hodnotit?': fill_to_num, 'Připadá vám AF téma pro zážitek na conu důležité?': bool_to_num, 'Používali jste Animefest aplikaci?': app_to_num
}), hue='Pohlaví')
[plt.setp(ax.xaxis.get_label(), rotation=15) for ax in g.axes.flat]
[plt.setp(ax.yaxis.get_label(), rotation=75) for ax in g.axes.flat]


In [None]:
program_ratings_fun = program_ratings[program_columns + fun_suffix].loc[['dobré', 'špatné', 'v pohodě']].T.fillna(0)
program_ratings_fun.head()

In [None]:
program_ratings_info = program_ratings[program_columns + info_suffix].loc[['dobré', 'špatné', 'v pohodě']].T.fillna(0)
program_ratings_info.head()

In [None]:
program_fun_score = (program_ratings_fun['dobré'] * 1 + program_ratings_fun['v pohodě'] * 0 + program_ratings_fun['špatné'] * -1) / program_ratings_fun.sum(axis=1)
program_fun_score.index = program_fun_score.index.str.replace(fun_suffix, '', regex=False)
program_fun_score.head()

In [None]:
program_info_score = (program_ratings_info['dobré'] * 1 + program_ratings_info['v pohodě'] * 0 + program_ratings_info['špatné'] * -1) / program_ratings_info.sum(axis=1)
program_info_score.index = program_info_score.index.str.replace(info_suffix, '', regex=False)
program_info_score.head()


In [None]:
program_fun_score = program_fun_score.to_frame('score')
program_fun_score['type'] = program_fun_score.index.to_series().map(col_to_category)
program_fun_score.head()

In [None]:
program_info_score = program_info_score.to_frame('score')
program_info_score['type'] = program_info_score.index.to_series().map(col_to_category)
program_info_score.head()

In [None]:
sorted_score = program_fun_score.sort_values(by='score', ascending=True)
sorted_score['score'].plot.barh(figsize=(30, 50), color=sorted_score['type'].map(type_to_color))
for p in plt.gca().patches:
    plt.gca().annotate("%.2f" % p.get_width(), patch_label_coords(p), xytext=(5, 10), textcoords='offset points')

In [None]:
sorted_score = program_info_score.sort_values(by='score', ascending=True)
sorted_score['score'].plot.barh(figsize=(30, 50), color=sorted_score['type'].map(type_to_color))
for p in plt.gca().patches:
    plt.gca().annotate("%.2f" % p.get_width(), patch_label_coords(p), xytext=(5, 10), textcoords='offset points')

In [None]:
sns.violinplot(x='type', y='score', data=program_fun_score, inner='stick', bw=.3)
plt.title('zábavnost')
plt.xticks(rotation=15)

In [None]:
sns.violinplot(x='type', y='score', data=program_info_score, inner='stick', bw=.3)
plt.title('informovanost')
plt.xticks(rotation=15)

In [None]:
### can't see number of them, need parallel sets

In [None]:
{i: df_form[i].unique() for i in cols_to_plot}

In [None]:
import plotly.graph_objects as go
import pandas as pd

titanic_df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")

# Create dimensions
class_dim = go.parcats.Dimension(
    values=titanic_df.Pclass,
    categoryorder='category ascending', label="Class"
)

gender_dim = go.parcats.Dimension(values=titanic_df.Sex, label="Gender")

survival_dim = go.parcats.Dimension(
    values=titanic_df.Survived, label="Outcome", categoryarray=[0, 1], 
    ticktext=['perished', 'survived']
)

# Create parcats trace
color = titanic_df.Survived;
colorscale = [[0, 'lightsteelblue'], [1, 'mediumseagreen']];

fig = go.Figure(data = [go.Parcats(dimensions=[class_dim, gender_dim, survival_dim],
        line={'color': color, 'colorscale': colorscale},
        hoveron='color', hoverinfo='count+probability',
        labelfont={'size': 18, 'family': 'Times'},
        tickfont={'size': 16, 'family': 'Times'},
        arrangement='freeform')])

fig.show()

### analysis of open answers

In [None]:
from urllib import request

data = request.urlopen('https://raw.githubusercontent.com/stopwords-iso/stopwords-cs/master/stopwords-cs.txt')
all_stopwords = [line.decode('utf-8').replace('\n', '') for line in data]
# todo: split them correctly and for vocalulary calculation use only emotes filtering
emotes_stopwords = [':d', ':', '\?', ';', ':-d', '\^\^', ':dd', 'xd', ':3', '=d', ':p',  ':/', ':>', '\+', 'o_o', 'd:', '>', ':\'d', ':"d', '\n', ':dd', ':ddd', ':dddd', 'x', 'xp']
my_stopwords = ['no', '', 'jo', 'sa', 'the', '=d', 'fakt', 'celkem', 'sem', 'ja', 'som', 'ako', 'of', 'nekdo', 'bych', 'sou', '2', 'jj', 'is', 'mam', '3', '\n']
all_stopwords += my_stopwords
all_stopwords += emotes_stopwords

def messages_to_words_hist(mess_series):
    mess_series = mess_series.fillna('')
    all_words = mess_series.str.split(' ', expand=True).stack().reset_index(drop=True, level=1)
    words_historgram = all_words.str.lower().str.strip('.,?-–()').value_counts()
    stopwords = list(set(all_stopwords).intersection(set(words_historgram.index)))
    words_historgram_cleaned = words_historgram.drop(stopwords)
    return words_historgram_cleaned


In [None]:
best_mess = messages_to_words_hist(df_form['S čím jste byli letos nejvíce spokojeni / co se vám nejvíce líbilo?'])
best_mess[:30].plot.bar(figsize=(30, 10), title='S čím jste byli letos nejvíce spokojeni / co se vám nejvíce líbilo?')
plt.xticks(rotation=30)

In [None]:
with pd.option_context('display.max_colwidth', 150):
    display(df_form[df_form['S čím jste byli letos nejvíce spokojeni / co se vám nejvíce líbilo?'].str.contains('přednášky', regex=False)]['S čím jste byli letos nejvíce spokojeni / co se vám nejvíce líbilo?'])

In [None]:
best_mess = messages_to_words_hist(df_form['Co vás letos nejvíc zklamalo / nelíbilo se vám?'])
best_mess[:30].plot.bar(figsize=(30, 10), title='Co vás letos nejvíc zklamalo / nelíbilo se vám?')
plt.xticks(rotation=30)

In [None]:
with pd.option_context('display.max_colwidth', 150):
    display(df_form[df_form['Co vás letos nejvíc zklamalo / nelíbilo se vám?'].str.contains('přednášky', regex=False)]['Co vás letos nejvíc zklamalo / nelíbilo se vám?'])

In [None]:
best_mess = messages_to_words_hist(df_form['Co bychom podle vás měli do příštího roku zlepšit?'])
best_mess[:30].plot.bar(figsize=(30, 10), title='Co bychom podle vás měli do příštího roku zlepšit?')
plt.xticks(rotation=30)

In [None]:
best_mess = messages_to_words_hist(df_form['Co bychom podle vás měli do příštího roku zlepšit?'])
best_mess[:7].plot.bar(figsize=(30, 10), title='Co bychom podle vás měli do příštího roku zlepšit?')
plt.xticks(rotation=30)