# Project 1 - Data Engineering
## 2 Data Exploration and Analysis
This notebook is for the implementation of task "2 Data Exploration and Analysis", as listed in the **Project Instructions**.

Explicitly list which notebook toolset was used (jupyter lab/jupyter notebook/VS Code/etc.) 

**here**: Jupyter Notebook, Pycharm

Explicitly and clearly state the chosen dataset number and title:
### Arbeitsmarkt ODÖ 
## 99. Gesamtübersicht über die Arbeitslosigkeit - Bestand, Zugang, Abgang


## E1 - Obtain and Scrub

In [2]:
# E0: setup imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import seaborn as sns
import geopandas as gpd
import plotly.express as px
import re


In [None]:
# E1:
# Personen in Schulung nach Alter und Berufswunsch - Bestand
# read csv file
df = pd.read_csv('Bestand_SC_Alter_Berufswunsch_RGS.csv', sep=';', encoding = 'ISO-8859-1', parse_dates=["Datum"])

df.info(), df['Unnamed: 8'].nunique()
# df['Unnamed 8'].describe()

In [None]:
# drop unnötige Column
df.drop('Unnamed: 8', axis = 1, inplace = True)
df.head()

In [None]:
# definiere Geschlecht als Category, da nie mehr Werte zugelassen sein sollen
df['Geschlecht'] = df['Geschlecht'].astype('category') # only 2 values
df

In [None]:
# Altersgruppe aufteilen, um Nummern separat als Int zu speichern (plotten, sortieren)
def sep_age(age_range):
    numbers = re.findall(r'\d+', age_range)
    if len(numbers) == 1:
        if age_range.startswith('bis'):
            return pd.Series([0, int(numbers[0])]) # bis 19 Jahre
        else:
            return pd.Series([int(numbers[0]), 99]) # 65 Jahre und älter
    elif len(numbers) == 2:
        # If two numbers, extract both as lower and upper bounds
        return pd.Series([int(numbers[0]), int(numbers[1])])
    return pd.Series([None, None])  # Fallback case (if no match)
 # Fill age_to with the found number
age = df['Altersgruppe'].apply(sep_age)
age

In [None]:
# erstellen neuer Columns, um Altersgrenzen zu speichern
df['Alter_von'] = age[0]
df['Alter_bis'] = age[1]
df

In [None]:
# Anzahlen von BerufsCode und Bezeichnung vergleichen
print(df['Berufs4Steller'].nunique(), df['Berufs4StellerBez'].nunique())
df['Datum'].value_counts()

In [None]:
# fehlende Daten pro column anschauen
missing_data = df.isnull().sum()
missing_percentages = round((missing_data / len(df)) * 100, 2)

missing_percentages.sort_values(ascending=False)

In [None]:
# erstellen eines neuen Datasets, welche Nan-Values enthält - für spätere Untersuchung
df_nan = df[df['Berufs4StellerBez'].isnull()] # dataset with NaN values (521 rows)
print(df.shape)
df.dropna(inplace=True)
print(df.shape)

In [None]:
# erstellen eines neuen Datasets, welche "unbestimmte"-Values enthält - für spätere Untersuchung
df_unbest = df[df['Berufs4Steller']=='B9999'] # unbestimmt (nur Pst) ~Personenstammdaten? 
df_missing = pd.concat([df_unbest, df_nan])
print(df_unbest.shape)
print(f"Missing values percentage: {round((len(df_unbest) / len(df)) * 100, 2)}")
df_missing

In [None]:
# "unbestimmte" Daten aus dem Haupt-Dataset entfernen
print(df.shape)
df.drop(df[df['Berufs4Steller']=='B9999'].index, inplace=True)
print(df.shape)

In [None]:
# duplikate anzeigen; mit allen und einem Subset von Columns
print(df[df.duplicated(keep=False)]) # completely duplicated rows
subset = df.columns
subset = subset.drop('BESTAND')
print(df[df.duplicated(subset=subset, keep=False)])

In [None]:
# bereinigte Daten in ein csv File speichern (zu viele Daten für Excel)
df.to_csv('clean_data.csv')

In [None]:
# alle Datentypen anzeigen
df.info()

In [None]:
# kleinstes, größtes und median Datum anzeigen
df['Datum'].min(), df['Datum'].median(), df['Datum'].max(),

In [None]:
# Anzahl der einzigartigen RGSCodes anzeigen und ihre Häufigkeit
print(df['RGSCode'].nunique())
df['RGSCode'].value_counts()

In [None]:
# Anzahl der einzigartigen RGSNamen anzeigen und ihre Häufigkeit
print(df['RGSName'].nunique())
df['RGSName'].value_counts()

In [None]:
# Anzahl der einzigartigen Geschlechter anzeigen und ihre Häufigkeit
print(df['Geschlecht'].nunique())
df['Geschlecht'].value_counts()

In [None]:
# Anzahl der einzigartigen Altersgruppen anzeigen und ihre Häufigkeit
print(df['Altersgruppe'].nunique())
df['Altersgruppe'].value_counts()

In [None]:
# kleinste, größte und median untere Altersgrenze 
df['Alter_von'].min(), df['Alter_von'].median(), df['Alter_von'].max()

In [None]:
# kleinste, größte und median obere Altersgrenze 
df['Alter_bis'].min(), df['Alter_bis'].median(), df['Alter_bis'].max()

In [None]:
# Anzahl der einzigartigen Berufs4Steller anzeigen und ihre Häufigkeit
print(df['Berufs4Steller'].nunique())
df['Berufs4Steller'].value_counts()

In [None]:
# Anzahl der einzigartigen Berufs4StellerBezeichnungen anzeigen und ihre Häufigkeit
print(df['Berufs4StellerBez'].nunique())
df['Berufs4StellerBez'].value_counts()

In [None]:
# Anzahl der einzigartigen Bestände anzeigen + kleinste, größte und median von Bestand
print(df['BESTAND'].nunique())
print(df['BESTAND'].min(), df['BESTAND'].median(), df['BESTAND'].max())
df['BESTAND'].value_counts()


In [None]:
# E2:


In [None]:
# geopandas_dataframe für Bundesländergrenzen laden
gdf = gpd.read_file("laender_95_geo.json")

gdf.plot()
plt.show()

In [None]:
gdf.head()

In [None]:
# dataframe für Kategorisierung der Berufe laden
df_zuordnungen = pd.read_excel('24-598_AMS-Berufssystematik_Stand_05-2024.xlsx', dtype=str)
df_zuordnungen

In [None]:
# Anzahl der unterschiedlichen Kategorien vergleichen
df_zuordnungen['1-St.'].nunique(), df_zuordnungen['2-St.'].nunique()
#print(df_zuordnungen['Berufsabteilung'].nunique()) # 7 verschiedene da Stufe 1,2,3 gleich sind


In [None]:
# B von Berufscodes entfernen, um mit den Kategorien zu mergen
df['Berufs4Steller'] = df['Berufs4Steller'].replace('B', '', regex=True)
df

In [None]:
# Auswahl der interessanten Columns, um keine unnötigen Daten hinzuzufügen
# Mergen des Originaldatensets mit der Auswahl der Kategorie-Columns
df_zuordnungen_small = df_zuordnungen[['4-St.', 'Berufsobergruppe']].drop_duplicates()
merged_df = df.merge(df_zuordnungen_small, left_on='Berufs4Steller', right_on='4-St.', how='inner')
#df_zuordnungen_small
merged_df

In [None]:
# https://www.ams.at/content/dam/download/allgemeine-informationen/001_amd-online_verzeichnis_arbeitsmarktbezirke.pdf
# manuelles Mappen der Bundesländer, um aus der ersten Ziffer der RGSCodes auf das zugehörige Bundesland zu schließen
bundesland_mapping = {
    '1': 'Burgenland',
    '2': 'Kärnten',
    '3': 'Niederösterreich',
    '4': 'Oberösterreich',
    '5': 'Salzburg',
    '6': 'Steiermark',
    '7': 'Tirol',
    '8': 'Vorarlberg',
    '9': 'Wien'
}

# extract first character of RGSCode and map to Bundesland
merged_df['Bundesland'] = merged_df['RGSCode'].astype(str).str[0].map(bundesland_mapping)
merged_df.drop('4-St.', axis=1, inplace=True) # doppelte Daten, nur zum Mergen benötigt

In [None]:
# ein neues Dataframe erzeugen, um die Geodaten der Bundesländer hinzuzufügen
geo_df = merged_df.merge(gdf, left_on='Bundesland', right_on='name', how='inner')
geo_df.drop(['iso', 'name'], axis=1, inplace=True)
geo_df

In [None]:
# fehlende Daten bei neu gemergeden dataframe checken
missing_data = merged_df.isnull().sum()
missing_percentages = round((missing_data / len(merged_df)) * 100, 2)

missing_percentages.sort_values(ascending=False)

In [None]:
# exportieren der gemergeden Daten als csv
merged_df.to_csv('merged_data.csv')
merged_df

In [None]:
# Top-10 Bestand überprüfen, um mögliche Outlier zu identifizieren
df_top_10_bestand = merged_df.sort_values(by='BESTAND', ascending=False)[:10]
df_top_10_bestand

In [None]:
# Anzahl der SchulungsteilnehmerInnen pro Bundesland in Summe von 2019 bis 2024

grouped_data = merged_df.groupby('Bundesland')['BESTAND'].sum().reset_index()

plt.figure(figsize=(10, 6))
ax = sns.barplot(data=grouped_data, x='Bundesland', y='BESTAND', hue='Bundesland')

plt.title('SchulungsteilnehmerInnen pro Bundesland Summe von 2019 - 2024')
plt.ylabel('Summe vom BESTAND')
plt.xticks(rotation=45)
plt.gca().yaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.0f}'))

for container in ax.containers:
    ax.bar_label(container, fmt='{:,.0f}', label_type='edge', padding=5)

plt.grid()
plt.show()

In [None]:
# Anzahl der SchulungsteilnehmerInnen pro Geschlecht in Summe von 2019 bis 2024
grouped_data = merged_df.groupby('Geschlecht', observed = False)['BESTAND'].sum().reset_index()

plt.figure(figsize=(10, 6))
ax = sns.barplot(data=grouped_data, x='Geschlecht', y='BESTAND', width=0.5, hue='Geschlecht')

plt.title('SchulungsteilnehmerInnen pro Geschlecht Summe insgesamt von 2019 - 2024')
plt.ylabel('Summe vom BESTAND')
plt.xticks(rotation=45)
plt.gca().yaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.0f}'))

max_value = grouped_data['BESTAND'].max()
plt.ylim(0, max_value * 1.1)

for container in ax.containers:
    ax.bar_label(container, fmt='{:,.0f}', label_type='edge', padding=5)

plt.show()

In [None]:
# Anzahl der SchulungsteilnehmerInnen pro Jahr und Geschlecht 2019 bis 2024
grouped_data = merged_df.groupby([merged_df['Datum'].dt.year, 'Geschlecht'], observed=False)['BESTAND'].sum().reset_index()
plt.figure(figsize=(10, 6))
ax = sns.barplot(data=grouped_data, x='Datum', y='BESTAND', hue='Geschlecht')
plt.xticks(rotation=45, ha='right')
plt.gca().yaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.0f}'))
plt.ylabel('Summe von Bestand')
plt.title('SchulungsteilnehmerInnen pro Jahr und Geschlecht 2019 - 2024')

max_value = grouped_data['BESTAND'].max()
plt.ylim(0, max_value * 1.1)

for container in ax.containers:
    ax.bar_label(container, fmt='{:,.0f}', label_type='edge', padding=5)



In [None]:
# Vorbereitung der Daten für Plot 
grouped_data = merged_df.groupby(['Altersgruppe', 'Alter_von','Geschlecht'], observed=True)['BESTAND'].sum().reset_index()
# Bestände von 0 sind immer überflüssige Rows
grouped_data.drop(grouped_data[grouped_data['BESTAND'] == 0].index, inplace=True)
grouped_data.sort_values(by='Alter_von', inplace=True)
grouped_data

In [None]:
# Anzahl der SchulungsteilnehmerInnen pro Altersgruppe pro Geschlecht von 2019 bis 2024
plt.figure(figsize=(15, 8))
ax = sns.barplot(data=grouped_data, x='Altersgruppe', y='BESTAND', hue='Geschlecht')

plt.title('SchulungsteilnehmerInnen pro Altersgruppe pro Geschlecht von 2019 - 2024')
plt.ylabel('Summe von SchulungsteilnehmerInnen')
plt.xticks(rotation=45, ha='right')
plt.gca().yaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.0f}'))

for container in ax.containers:
    ax.bar_label(container, fmt='{:,.0f}', label_type='edge', padding=5, )

plt.grid()
plt.show()

In [None]:
# Anzahl der SchulungsteilnehmerInnen pro Altersgruppe von 2019 bis 2024
grouped_data = merged_df.groupby(['Altersgruppe', 'Alter_von'])['BESTAND'].sum().reset_index().sort_values(by='Alter_von')

plt.figure(figsize=(10, 6))
ax = sns.barplot(data=grouped_data, x='Altersgruppe', y='BESTAND', hue='Altersgruppe')

plt.title('SchulungsteilnehmerInnen pro Altersgruppe von 2019 - 2024')
plt.ylabel('Summe von SchulungsteilnehmerInnen')
plt.xticks(rotation=45, ha='right')
plt.gca().yaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.0f}'))

max_value = grouped_data['BESTAND'].max()
plt.ylim(0, max_value * 1.1)

for container in ax.containers:
    ax.bar_label(container, fmt='{:,.0f}', label_type='edge', padding=5)

plt.grid()
plt.show()

In [None]:
# Veränderung der Anzahl der SchulungsteilnehmerInnen von 2019 bis 2024
grouped_data = df.groupby('Datum')['BESTAND'].sum().reset_index()

plt.figure(figsize=(10, 6))
sns.lineplot(data=grouped_data, x='Datum', y='BESTAND', marker='o')

plt.title('SchulungsteilnehmerInnen-Veränderung von 2019 - 2024')
plt.xlabel('Datum')
plt.ylabel('Summe von SchulungsteilnehmerInnen')
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

In [None]:
# Anzahl der SchulungsteilnehmerInnen mit unbestimmtem Berufswunsch von 2019 bis 2024
grouped_data = df_unbest.groupby(['Datum'])['BESTAND'].sum().reset_index()

plt.figure(figsize=(10, 6))
ax = sns.lineplot(data=grouped_data, x='Datum', marker='o', y='BESTAND')

plt.title('SchulungsteilnehmerInnen mit unbestimmten Berufswunsch von 2019 - 2024')
plt.ylabel('Summe von SchulungsteilnehmerInnen')
plt.xticks(rotation=45, ha='right')

plt.grid(True)
plt.show()

In [None]:
# Anzahl der SchulungsteilnehmerInnen mit NaN Berufswunsch von 2019 bis 2024
grouped_data = df_nan.groupby(['Datum'])['BESTAND'].sum().reset_index()

plt.figure(figsize=(10, 6))
ax = sns.lineplot(data=grouped_data, x='Datum', marker='o', y='BESTAND')

plt.title('SchulungsteilnehmerInnen mit unbestimmten Berufswunsch von 2019 - 2024')
plt.ylabel('Summe von SchulungsteilnehmerInnen')
plt.xticks(rotation=45, ha='right')

plt.grid(True)
plt.show()

In [None]:
# Anzahl der SchulungsteilnehmerInnen pro Berufsobergruppe von 2019 bis 2024
grouped_data = merged_df.groupby(['Berufsobergruppe'])['BESTAND'].sum().reset_index()
ilp = px.bar(grouped_data, 
    x='Berufsobergruppe', 
    y='BESTAND', 
    color='Berufsobergruppe',
    title="SchulungsteilnehmerInnen pro Berufsobergruppe von 2019 - 2024",
    labels={"Berufsobergruppe": "Obergruppen der Berufe", "BESTAND": "Bestand"} # labels the axes
    )


# add legend
ilp.update_layout(
    xaxis=dict(showticklabels=False),
    legend_title_text='Berufsobergruppe', 
    width=1200, 
    height=600,
    legend=dict(
        orientation="v", # vertical
        font=dict(size=10)
    )
)

ilp.show()


In [None]:
# Anzahl der SchulungsteilnehmerInnen pro Berufsobergruppe von 2019 bis 2024
grouped_data = merged_df.groupby(['Berufsobergruppe'])['BESTAND'].sum().reset_index()

fig = px.treemap(
    grouped_data, 
    path=['Berufsobergruppe'],
    values='BESTAND',
    title='SchulungsteilnehmerInnen pro Berufsobergruppe von 2019 - 2024',
    color='BESTAND',
    color_continuous_scale='Viridis'
)

# Update layout to ensure clear labeling
fig.update_traces(textinfo='label+value+percent entry')  # Show label, value, and percentage on each box
fig.update_traces(hovertemplate='<b>Label:</b> %{label}<br>'
                                '<b>Value:</b> %{value}<br>'
                                '<b>Percentage:</b> %{percentRoot:.0%}<extra></extra>')

fig.show()

In [None]:
# Top 10 Jobwünsche von 2019 bis 2024
grouped_data = merged_df.groupby(['Berufs4StellerBez'])['BESTAND'].sum().reset_index().sort_values(by='BESTAND', ascending=False)
grouped_data = grouped_data[:10]

plt.figure(figsize=(10, 6))
ax = sns.barplot(data=grouped_data, x='Berufs4StellerBez', y='BESTAND', hue='Berufs4StellerBez')

plt.title('Top 10 Jobwünsche von 2019 - 2024')
plt.ylabel('Summe von Jobwünschen')
plt.xticks(rotation=45, ha='right')
plt.gca().yaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.0f}'))

max_value = grouped_data['BESTAND'].max()
plt.ylim(0, max_value * 1.1)

for container in ax.containers:
    ax.bar_label(container, fmt='{:,.0f}', label_type='edge', padding=5)

plt.grid()
plt.show()

In [None]:
# Top 3 Berufswünsche pro Jahr auswählen
grouped_data = merged_df.groupby([merged_df['Datum'].dt.year, 'Berufs4StellerBez'])['BESTAND'].sum().reset_index()
grouped_data = grouped_data.groupby('Datum').apply(lambda x: x.nlargest(3, 'BESTAND')).reset_index(drop=True)

grouped_data

In [None]:
# Top 3 Jobwünsche pro Jahr von 2019 bis 2024
plt.figure(figsize=(16, 8))
ax = sns.barplot(data=grouped_data, x='Datum', y='BESTAND', hue='Berufs4StellerBez', width=0.5)

plt.title('Top 3 Jobwünsche pro Jahr von 2019 - 2024')
plt.ylabel('Summe von Jobwünschen')
plt.xticks(rotation=45, ha='right')
plt.gca().yaxis.set_major_formatter(ticker.StrMethodFormatter('{x:,.0f}'))

max_value = grouped_data['BESTAND'].max()
plt.ylim(0, max_value * 1.1)

for container in ax.containers:
    labels = ax.bar_label(container, fmt='{:,.0f}', label_type='edge', padding=3)
    for label in labels:
        #label.set_rotation(45)
        label.set_horizontalalignment('left')     
    
plt.legend(title='Berufsbezeichnung', bbox_to_anchor=(1, 1), loc='upper left')
plt.grid()
plt.show()

## E3 - Formulate hypotheses

*Note: Read this section entirely and understand it - every group member.*

A hypothesis is an idea or explanation for something that is based on known facts but has not yet been proved. A hypothesis is a compact, concise statement, such as: "Individuals with higher income have (on average) more offspring.", that will be answered based on facts (the data). https://gradcoach.com/what-is-a-research-hypothesis-or-scientific-hypothesis/

Formulate *N* non-trivial hypotheses, 1 per group member, and regard the following criteria: 
- State the hypothesis explicitly in concise language. 
- The hypothesis must be **motivated** by either **EDA results** or **literature** (citation in the report needed).
- The hypothesis must refer to **endpoints** that are **testable**. Specifically, the endpoint must be derived from the data.
- Think of real-life use cases/consequences of your results (textual description). 
- For each hypothesis explain all executed steps. 
- In case of extreme or implausible results check the validity of your data.
- For each hypothesis export the artifacts (figures, tables, etc.) required for the report.
- If you decide to use a statistical test, use it properly. In particular, check the validity and comparability of the samples.

Do not:
- State nebulous, vague hypotheses. These don't contain endpoints and are unclear to test (i.e., answer).
- Use post-hoc hypotheses. Portraying an empirically inspired **post hoc hypothesis as a priori** violates the **falsification principle** crucial for hypothesis-driven (that is, confirmatory) empirical research. Falsification is severe scientific fraud.
- State trivial hypotheses (e.g., hypthesis 2: "Not Hypothesis 1").
- Answer based on "common knowledge".
- Try to **produce positively tested hypotheses**. If a well motivated hypothesis is negative, this is an important finding (see Simpson's Paradox). The value of a tested hypothesis lies in the information or learning it provides.

Example: The homework with Simpson's Paradox. The pooled overall comparison between the genders would be the EDA motivating the hypothesis: "At UC Berkeley the by-department admissions rate for females is lower than for males." It should be tested using samples of department admission rates for the 2 **groups** male and female. No steps of the test should be done in EDA (or a priory to stating the hypothesis). The groups should be compared graphically, e.g., via a stripplot overlayed with a boxplot. The figure should be labelled properly and exported for the report. A (paired) t-test **may** be used (it's optional) to test this hypothesis statistically. For different data (e.g., time series) different approaches may be required. You don't have to use statistical tests, in particular if you don't know what they are doing.


### E3-H1: "xxx"
Author: Group member 1


In [None]:
# hypothesen:
# Anzahl der Frauen, die Ausb. im Bereich Technik machen, ist von 2019 bis 2024 signifikant angestiegen
# Anzahl der Frauen, die Ausb. im Bereich Technik machen, ist in Wien (und Graz) signifikant höher als im Rest Österreichs

### E3-H2: "xxx"
Author: Group member 2



### E3-H3: "xxx"
Author: Group member 3


### E3-H4: "xxx"
Author: Group member 4


### E3-H5: "xxx"
Author: Group member 5
