In [2]:
import pandas as pd
df = pd.read_csv('survivorship_dataset_highrisk.csv')


In [2]:
df

Unnamed: 0,Startup,RiskTolerance,Survived5Years
0,Startup_01,0.91,True
1,Startup_02,0.79,False
2,Startup_03,0.77,True
3,Startup_04,0.87,False
4,Startup_05,0.92,True
5,Startup_06,0.83,True
6,Startup_07,0.99,True
7,Startup_08,0.91,True
8,Startup_09,0.84,False
9,Startup_10,0.82,True


In [4]:
import altair as alt

#Nur Survivors filtern
survivors = df[df['Survived5Years'] == True]

#Durchschnitt berechnen
avg_risk = survivors['RiskTolerance'].mean()

#Balkendiagramm der Risikobereitschaft der Survivors
bars = alt.Chart(survivors).mark_bar().encode(
    x=alt.X('Startup:N', title='Startup (Überlebende)', sort=None),
    y=alt.Y('RiskTolerance:Q', title='Risikobereitschaft')
)

#Horizontale Linie für den Durchschnitt
avg_line = alt.Chart(pd.DataFrame({
    'y': [avg_risk]
})).mark_rule(color='red', strokeDash=[5, 5]).encode(
    y='y:Q'
)

#Textlabel für die Durchschnittslinie
avg_text = alt.Chart(pd.DataFrame({
    'y': [avg_risk],
    'text': [f'Durchschnitt: {avg_risk:.2f}']
})).mark_text(align='left', dx=5, dy=-5, color='red').encode(
    y='y:Q',
    text='text:N'
)

#Kombinieren und anzeigen
chart = (bars + avg_line + avg_text).properties(
    title='Risikobereitschaft der Survivors nach 5 Jahren',
    width=600,
    height=400
).configure_axisX(
    labelAngle=45
)

chart


In [5]:
#Nur Nicht-Survivors filtern
non_survivors = df[df['Survived5Years'] == False]

#Durchschnitt berechnen
avg_risk_non = non_survivors['RiskTolerance'].mean()

#Balkendiagramm der Risikobereitschaft der Nicht-Survivors
bars_non = alt.Chart(non_survivors).mark_bar().encode(
    x=alt.X('Startup:N', title='Startup (Nicht-Überlebende)', sort=None),
    y=alt.Y('RiskTolerance:Q', title='Risikobereitschaft')
)

#Horizontale Linie für den Durchschnitt
avg_line_non = alt.Chart(pd.DataFrame({
    'y': [avg_risk_non]
})).mark_rule(color='red', strokeDash=[5, 5]).encode(
    y='y:Q'
)

#Textlabel für die Durchschnittslinie
avg_text_non = alt.Chart(pd.DataFrame({
    'y': [avg_risk_non],
    'text': [f'Durchschnitt: {avg_risk_non:.2f}']
})).mark_text(align='left', dx=5, dy=-5, color='red').encode(
    y='y:Q',
    text='text:N'
)

#Kombinieren und anzeigen
chart_non = (bars_non + avg_line_non + avg_text_non).properties(
    title='Risikobereitschaft der Nicht-Survivors nach 5 Jahren',
    width=600,
    height=400
).configure_axisX(
    labelAngle=45
)

chart_non


In [6]:
#Status-Spalte hinzufügen
df['Status'] = df['Survived5Years'].map({True: 'Survivor', False: 'Nicht-Survivor'})

#Durchschnittswerte pro Gruppe berechnen
avg_df = (
    df.groupby('Status')['RiskTolerance']
      .mean()
      .reset_index()
      .rename(columns={'RiskTolerance': 'AvgRisk'})
)

#Balken für alle Startups, gefärbt nach Status
bars = alt.Chart(df).mark_bar().encode(
    x=alt.X(
        'Startup:N',
        title='Startup',
        sort=None,
        axis=alt.Axis(
            labelAngle=-90,      
            labelFontSize=10,  
            labelPadding=2     
        )
    ),
    y=alt.Y('RiskTolerance:Q', title='Risikobereitschaft'),
    color=alt.Color('Status:N', title='Status', scale=alt.Scale(scheme='set1'))
)

#Zwei horizontale Linien für die beiden Durchschnittswerte
rules = alt.Chart(avg_df).mark_rule(strokeDash=[5, 5]).encode(
    y='AvgRisk:Q',
    color=alt.Color('Status:N', title='Status', scale=alt.Scale(scheme='set1'))
)

#Labels für die Durchschnittslinien (Textfarbe fest auf schwarz gesetzt)
texts = alt.Chart(avg_df).mark_text(
    dx=5,
    dy=-5,
    fontWeight='bold',
    color='black'    
).encode(
    y='AvgRisk:Q',
    text=alt.Text('Status:N')
)

#Alles zusammenfügen
chart = (bars + rules + texts).properties(
    width=800,   
    height=400,
    title='Risikobereitschaft: Survivors vs. Nicht-Survivors'
)

chart
