In [None]:
import pandas as pd
df = pd.read_excel ("C:\TEMP\COVID-19-geographic-disbtribution-worldwide (1).xlsx")
pd.set_option ("display.max_columns", 100)  # dadurch werden alle Spalten ausgegeben
pd.set_option ("display.max_rows", 100)  # dadurch werden alle Zeilen ausgegeben

In [None]:
# Zeilenanzahl, Spaltenanzahl
df.shape

In [None]:
# Infos zu Spalten
df.info()

In [None]:
# Ausgabe der ersten 5 Zeilen
df.head(5)

In [None]:
# Ausgbe der letzten 5 Zeilen
df.tail(5)

In [None]:
#  Ausgabe einer bestimmten Spalte (2 verschiedene Möglichkeiten)
df["countriesAndTerritories"]
df.countriesAndTerritories[0:5]

In [None]:
# Wenn nur eine Spalte ausgewählt ist, handelt es sich um eine Serie  
type(df["countriesAndTerritories"])

In [None]:
df[["countriesAndTerritories","geoId"]][0:5]

In [None]:
# Ausgabe der Spaltennamen
df.columns

In [None]:
# Ausgabe der Anzahl der Werte in einer Spalte
df.countriesAndTerritories.value_counts()

In [None]:
# Outputs the First Row
df.iloc[0]

In [None]:
# Ausgabe der ersten beiden Zeilen
df.iloc[[0,1]]

In [None]:
# Ausgabe der ersten Spalte für die ersten beiden Zeilen
df.iloc[[0,1],0]

In [None]:
# Ausgabe der ersten beiden Zeilen - mit den Spalten 6+7
df.iloc[[0,1],[5,6]]

In [None]:
# Ausgabe der Spalten day + month für die ersten beiden Zeilen
df.loc[[0,1],["day","month"]]

In [None]:
# Ausgabe der ersten 10 Zeilen für die Spalten day+month
df.loc[0:10,["day","month"]][0:5]

In [None]:
# Ausgabe der ersten 10 Zeilen für die Spalten von day bis deaths
df.loc[0:10,"day":"deaths"][0:5]

In [None]:
# Setzt Index auf eine bestimmte Spalte (ohne inplace wird es nicht angewandt - nur ausprobiert)
df.set_index("countriesAndTerritories", inplace=True)
df[0:5]

In [None]:
# Abfrage auf den zuvor definierten Index
df.loc["Germany"][0:5]

In [None]:
# Absteigende Sortierung nach Index
df.sort_index(ascending=False, inplace=True)
df[0:5]

In [None]:
# Aufsteigende Sortierung nach Index
df.sort_index(inplace=True)
df[0:5]

In [None]:
# Index wird wieder zurückgesetzt
df.reset_index(inplace=True)
df[0:5]

In [None]:
# Filterung auf den Wert einer Spalte
filt = (df["countriesAndTerritories"] == "Austria")
df[filt][0:5]

In [None]:
# Anwendung des Filters mit Ausgabew nur einer Spalte
df.loc[filt, "deaths"][0:5]

In [None]:
# Filterung nach den 2 Ländern Austria und Germany
filt2 = (df["countriesAndTerritories"] == "Austria") | (df["countriesAndTerritories"] == "Germany")
df.loc[filt2][0:5]

In [None]:
# Filterung auf mehr als 100 Tote pro Tag mit Ausgabe von bestimmten Spalten

high_deaths = (df["deaths"] > 100)
df.loc[high_deaths, ["dateRep","countriesAndTerritories","deaths"]][0:5]

In [None]:
# Filterung auf mehrere Einträge aus einer Liste
countries =["Austria","Germany","Switzerland"]
filt3 = df["countriesAndTerritories"].isin(countries)
df[filt3][0:5]


In [None]:
# Änderung der Spaltenbezeichnung auf Großschreibung
df.columns = [x.upper() for x in df.columns]
df[0:2]

In [None]:
# Kleinschreibung der Überschrift und 2 Spalten umbenennen
df.columns = [x.lower() for x in df.columns]
df.rename(columns={"countriesandterritories":"land","continentexp":"continent"},inplace=True)
df[2:4]

In [None]:
# (1) Änderungen des Satzes mit Index=2 für land und year mit neuen Werten
# (2) Änderungen des Satzes mit Index=3 für continent
df.loc[2, ["land","year"]] = ["NewLand","2099"]
df.loc[3,"continent"] =  "NewCont"
df.loc[2:3]

In [None]:
# Spalte geoid auf Kleinschreibung umstellen
df["geoid"] = df["geoid"].str.lower()
df.loc[2:3]

In [None]:
df.columns

In [None]:
# Apply - kann auf Dataframe und Series angewandt werden
# Verwendung einer Funktion für Elemente
df["countryterritorycode"][0:5].apply(len)

In [None]:
# Definition einer eigenen Funktion die dann auf die Spalte continent angewandt und neu zugeordnet wird
def update_cont(continent):
    return continent.upper()
df["continent"] = df["continent"].apply(update_cont)
df[0:3]

In [None]:
# Gleich Anwendung mit Lambda-Funktin - Spalte wird klein geschrieben
df["continent"] = df["continent"].apply(lambda x: x.lower())
df[0:3]

In [None]:
# Anwendung von Apply auf ein ganzes Dataframe => Zählung der Anzahl pro Spalte
df.apply(len)[0:5]

In [None]:
# Kann auch auf die Spalten angewandet werden - d.h. hier bekommt man die Anzahl der einzelnen Zeilen
df.apply(len, axis="columns")[0:3]

In [None]:
df.columns

In [None]:
# durch map erfolgt  Umbennenung der von Austria und Germany
# alle anderen Länder werden aber auf NaN geändert
df["countryterritorycode"].map({"Austria":"Österreich","Germany":"Deutschland"})

In [None]:
# mit replace werden die anderen Felder nicht angegriffen
df["countriesAndTerritories"] = df["land"].replace({"Austria":"Österreich","Germany":"Deutschland"})
df[0:3]

In [None]:
# Neu Spalte hinufügen am Ende des Dataframe
df["fullgeo"] = df["geoid"] + df["countryterritorycode"]
df[0:3]

In [None]:
# Löschen der beiden Spalten geoid und countryterritorycode
df.drop(columns=["geoid","countryterritorycode"], inplace=True)

In [None]:
df[0:3]

In [None]:
# Neuer Satz wird hinzugefügt
df.append({"land":"AAANeuesLand"},ignore_index=True).tail(3)

In [None]:
# Zusammenfügen von 2 Dataframes - Index muss ignoriert werden
# df.append(df2, ignore_index=True)

In [None]:
# alle Zeilen mit land = Zimbabwe werden gelöscht
filt = df["land"] == "Zimbabwe"
df.drop(index=df[filt].index)[5:]

In [None]:
# Sortierung nach einer Spalte aufsteigend
df.sort_values(by="daterep")

In [None]:
# Sortierung nach einer Spalte absteigend
df.sort_values(by="daterep", ascending=False)

In [None]:
# Sortierung nach 2 Argumenten absteigend - zuerst nach dateRep und dann nach cases
df.sort_values(by=["daterep","cases"], ascending=False)

In [None]:
# Sortierung nach 2 Argumenten absteigend - zuerst nach dateRep und dann nach cases - 
# aber der erste Wert absteigend und der zweite aufsteigend
# durch inplace = True erfolgt die Sortierung dauerhaft im Dataframe
df.sort_values(by=["daterep","cases"], ascending=[False,True], inplace=True)

In [None]:
# Sortierung wird wieder rückgängig gemacht (indem Sortierung nach dem Index erfolgt)
df.sort_index()

In [None]:
# Es können auch einzelne Series sortiert werden - und nicht das ganze Dataframe
# Hier die Spalte Land absteigend
df["land"].sort_values(ascending=False)

In [None]:
# Ausgabe der 5 höchsten Werte in der deaths Spalte
df["deaths"].nlargest(5)

In [None]:
# Ausgabe der 5 höchsten Werte in der death Spalte - aber mit allen Werten
df.nlargest(5, "deaths")

In [None]:
# Ausgabe der 5 kleinsten Werte in der popdata2018 Spalte
df.nsmallest(5, "popdata2018")

In [None]:
# Medianwert für die Spalte popdata2018
df["popdata2018"].median()

In [None]:
# Medianwert für alle (möglichen) Werte bzw. welche float64 sind
df.median()

In [None]:
# Ausgabe verschiedener statistischer Werte für den ganzen Dataframe
df.describe()

In [None]:
# Anzahl der Sätze pro Land
df["land"].value_counts()

In [None]:
# Ausgabe von vbalue_counts in Prozentwerte (34% Europa, 26% Asia, usw.) durch normalize=True
df["continent"].value_counts(normalize=True)

In [None]:
df["land"].value_counts()

In [None]:
# Gruppierung nach Spalte Land
land_grp = df.groupby(["land"])
land_grp

In [None]:
# Zugriff auf die Gruppierung und Auswahl eines Landes
land_grp.get_group("Austria")

In [None]:
# gleiches Ergebnis auch durch einen Filter erreichbar
filt = df["land"] == "Austria"
df.loc[filt]

In [None]:
# Ausgabe der maximalen deaths nur für Österreich
filt = df["land"] == "Austria"
df.loc[filt]["deaths"].value_counts()

In [None]:
# Gruppierung nach land und Auswertung dieser Gruppierung nach der Spalte deaths mit value_counts
land_grp["deaths"].value_counts().head(50)

In [None]:
# Ausgabe des Wertes für drei Ländern
land_grp["deaths"].value_counts().loc[["Austria","Germany","Switzerland"]]

In [None]:
# Gruppierung nach Ländern mit Ausgabe von Median pro Land
land_grp["cases"].median()

In [None]:
# Gruppierung nach Ländern mit Ausgabe von Median mit Einschränkung auf 3 Länder
land_grp["cases"].median().loc[["Austria","Germany","Switzerland"]]

In [361]:
# Gruppierung nach mehreren Statistiken und Einschränkung auf Ländern
land_grp["cases"].agg(["median","mean"]).loc[["Austria","Germany","Switzerland"]]b

Unnamed: 0_level_0,median,mean
land,Unnamed: 1_level_1,Unnamed: 2_level_1
Austria,2.0,128.254237
Germany,7.0,1306.567797
Switzerland,0.5,244.161017


In [442]:
# Zuerste Filterung aller 0-Werte und dann Gruppierung nach Land und Ausgabe nach median()
non_zero_df = df[df["cases"]!=0]
land_grp = non_zero_df.groupby(["land"])
land_grp.median()

Unnamed: 0_level_0,day,month,cases,deaths,popdata2018
land,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Afghanistan,17.0,4.0,33.0,1.0,37172386.0
Albania,16.5,4.0,13.5,0.0,2866376.0
Algeria,17.0,4.0,65.0,4.0,42228429.0
Andorra,17.0,4.0,16.0,1.0,77006.0
Angola,14.0,4.0,2.0,0.0,30809762.0
...,...,...,...,...,...
Vietnam,13.0,3.0,4.0,0.0,95540395.0
Western_Sahara,26.0,4.0,6.0,0.0,
Yemen,10.0,4.0,1.0,0.0,28498687.0
Zambia,21.0,4.0,3.0,0.0,17351822.0
