# Analyse von Regierungsdaten

---

- Was sind die 5 häufigsten Betriebssysteme, mit denen auf https://usa.gov zugegriffen wird?

---

Datenquelle: https://analytics.usa.gov/data -> `Operating systems`

LLM-Chat: https://chatgpt.com/share/6932a30d-b100-8009-ab85-f168a43a65f3

## Daten einlesen

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("https://analytics.usa.gov/data/live/os-90-days.csv")

Rohdaten lokal sichern - sicher ist sicher!

In [None]:
#df.to_csv("os-90-days.csv")

Falls die Online-Datenquelle einmal nicht verfügbar ist, lesen wir unsere Sicherungskopie ein

In [None]:
#df = pd.read_csv("os-90-days.csv")

Ein erster Blick auf die Daten

In [None]:
df

## Daten vorbereiten

Wir Teilen die Spalte 'Month-Year' in zwei Spalten

In [None]:
df[['Month', 'Year']] = df['Month-Year'].str.split(' ', expand=True)

In [None]:
df

## Daten analysieren

Einen ersten Überblick verschaffen

In [None]:
df.groupby(["Year", "os"]).describe()

Um sinnvollen Aussagen treffen zu können, müssen wir die OS-Namen auf einige wenige Kategorien zurückführen.

In [None]:
import numpy as np

def map_os_category(os_name):
    os_name = str(os_name).lower()

    if any(x in os_name for x in ["win32", "win64", "windows", "windows phone", "xbox"]):
        return "Windows"

    elif any(x in os_name for x in ["mac os", "macos", "macintosh", "macintel", "ios"]):
        return "MacOS"

    elif any(x in os_name for x in ["linux", "freebsd", "openbsd", "netbsd", "sunos", "unix", "android", "samsung"]):
        return "Linux"

    elif any(x in os_name for x in ["chrome", "ChromeOS"]):
        return "ChromeOS"

    elif any(x in os_name for x in [
        "xbox", "playstation", "nintendo", "ps3", "ps4", "ps5", "wii"
    ]):
        return "GameConsole"

    else:
        return os_name
        #return "Other"

In [None]:
df["os_category"] = df["os"].apply(map_os_category)

In [None]:
df.groupby(["os_category"]).describe()

In [None]:
df.groupby(["os_category"])["Active Users"].sum().sort_values(ascending=False)

Die ersten `n` Betriebssysteme als Balkendiagramm

In [None]:
n = 7

In [None]:
df.groupby(["os_category"])["Active Users"].sum().sort_values(ascending=False).head(n).plot.bar()

und noch in Prozent statt absoluten Zahlen

In [None]:
df_os_pct = (
    df.groupby("os_category", as_index=False)["Active Users"]
      .sum()
      .assign(Percentage=lambda x: 100 * x["Active Users"] / x["Active Users"].sum())
      .sort_values("Active Users", ascending=False)
)

In [None]:
df_os_pct

In [None]:
df_os_pct.set_index("os_category")[["Percentage"]].head(n).plot.bar()