## Willkommen beim Workshop DataScience mit Python

In diesem Workshop wirst du einen Einblick erhalten in: 


*   Grundbegriffe wie Variablen, Methoden und Bibliotheken
*   Visualisierung und Verarbeitung von Daten
*   Gestaltung von Diagrammen mit Python

## Lass uns direkt mit den Grundlagen loslegen! 

### Was ist eine Variable?

Variablen dienen der vorübergehenden Speicherung von Daten. Du kannst sie dir wie eine Box vorstellen in der Dinge aufbewahrt werden. Abgespeichert werden können zum Beispiel:  

*   Werte wie Zahlen, Temperaturen oder Zeichenketten
*   Ganze Dateien oder Verzeichnisse

<img src="./tutorial_images/variable_pic.png" width=30%/>

### Was ist eine Bibliothek?

Eine Bibliothek in der Programmierung ist wie ein Buch das wir ausleihen, um das Wissen des Buchs für unsere Zwecke zu nutzen. 

<img src="https://cdn.pixabay.com/photo/2013/07/13/12/43/girl-160172_960_720.png" width=15% height=100% />

### Was ist eine Methode? 

Da wir ein Buch ausgeliehen haben, können wir einzelne Kapitel für uns nutzen. Du kannst dir eine Methode in der Programmierung wie ein Kapitel in einem Buch verstehen. Es gibt die Möglichkeit deine eigenen Methoden zu schreiben oder wie wir es tun werden, Methoden (Kapitel) aus Bibliotheken zu nutzen. 

Methoden tun Dinge für uns und können zum Beispiel unsere Variablen verändern oder mit ihnen arbeiten.

## Nun können wir auch schon anfangen zu Programmieren

Um mit unseren Datensätzen arbeiten zu können, importieren wir zunächst zwei Programmbibliotheken.

Wir importieren sie direkt in eine neue Codezelle.

Dies passiert in Python mit dem keyword "import". <br>

**Matplotlib** ist eine Programmbibliothek die es erlaubt, mathematische Darstellungen aller Art anzufertigen.

Um beim Aufruf einer Funktion aus dieser Bibliothekt nicht immer den ganzen Namen der Bibliothek angeben zu müssen, weisen wir dieser einen neuen Namen zu. Dafür nutzen wir **as**.

In [None]:
import matplotlib.pyplot as pyplot

Als zweite Programmbibliothek importieren wir **pandas**, welche Hilfsmittel für die Verwaltung von Daten und deren Analyse anbietet. Insbesondere enthält sie Datenstrukturen und Operatoren für den Zugriff auf numerische Tabellen und Zeitreihen. 

In [None]:
import pandas 

### Einlesen der Datensätze

Als Datensätze benutzen wir zwei Datensätze. Der eine Datensatz ist der aktuelle (2021) von Stackoverflow und beinhaltet verschiedene Fragen, die sich an ProgrammiererInnen aus aller Welt gerichtet haben. 

Wie zum Beispiel Fragen zum Thema: Alter, Herkunft, Geschlecht, Gehalt, etc.

Der zweite Datensatz wurde aus den 5 letzten Datensätzen von Stackoverflow erstellt und beinhaltet den Frauenanteil der letzten 5 Jahre.



Nun erstellen wir zwei Variablen, unsere Boxen, für die Datensätze. 

Diese Variablen sollten unbedingt einen aussagekräftigen Namen haben.

Da wir sogenannte DataFrames benutzen, nennen wir unsere Variablen (Boxen) einfach **data_frame1** und **data_frame2**.

Die Variablenzuweisung erfolgt durch ein "=".

Zu dem Namen wird dann zugeordnet welcher Datensatz das sein soll. Hierfür rufst du die Funktion "pandas.read_csv()" auf. In die Klammern kommt dann der Dateipfad deines Datensatzes. Da DataFrames automatisch durchnummeriert werden (Indizes) und unser erster Datensatz bereits eine eigene Nummerierung hat (ResponseId), möchten wir eine doppelte Nummerierung vermeiden und legen fest, dass die vorhandene Nummerierung die automatische ersetzt.


In [None]:
data_frame1=pandas.read_csv("./stack-overflow-developer-survey-2021/survey_results_public.csv",index_col="ResponseId")
data_frame2=pandas.read_csv("./frauenanteil_so.csv")

### Aber was ist eigentlich ein DataFrame?

Die grundlegende Idee von DataFrames basiert auf Tabellen. Wir können die Daten-Struktur eines DataFrames als tabellarisch und tabellenähnlich ansehen. Ein DataFrame beinhaltet eine geordnete Sammlung von Spalten. Jede Spalte besteht aus einem eindeutigen Datentypen aber verschiedene Spalten haben verschiedene Typen. <br>


### Zusammengefasst ergibt sich:

In [None]:
import matplotlib.pyplot as pyplot
import pandas as pandas
data_frame1=pandas.read_csv("./stack-overflow-developer-survey-2021/survey_results_public.csv",index_col="ResponseId")
data_frame2=pandas.read_csv("./frauenanteil_so.csv")

Mit einem Klick auf den Run Button wird der Code ausgeführt. 

### Jetzt wollen wir endlich etwas sehen!

Glücklicher Weise geht das ganz einfach mit einer Methode aus unserer importierten Bibliothek. 

**head()**

Mit der Funktion head() kannst du dir die ersten Zeilen aus dem Datensatz anzeigen lassen.

Probiere das doch mal für den Datensatz frauenanteil_so.csv (die Variable data_frame2) aus!

In [None]:
data_frame2.head()

Wenn du auf Run klickst, siehst nun du die ersten fünf Zeilen unseres DataFrames.

Schreib doch mal in die Klammer eine Zahl zwischen 1 und 5 und schau was passiert 😉

# Eine Tabelle ist nicht ganz so spannend

## Wie können wir unsere Daten jetzt noch schöner darstellen?

Für unseren doch recht kleinen Datensatz eignet sich zum Beispiel ein Balkendiagramm.

Vorüberlegung wie wir das Balkendiagram gestalten wollen: 

*   Jahre: horizontale Achse
*   Prozentualer Anteil: vertikale Achse 

Wir bestimmen eine Variable (grouped_data) und weisen ihr den entsprechenden Datensatz zu. 

In [None]:
grouped_data=data_frame2.groupby(['Jahr']).Prozent.sum()

Mit "groupby" geben wir an, nach was das Diagramm sortiert sein soll (horizontale Achse). 

Die Methode **sum()** summiert alle Prozentzahlen eines Jahrs, da wir jeweils nur eine pro Jahr haben, wird uns diese angezeigt und mit dem entsprechenden Jahr verknüpft.

### Zuletzt kümmern wir uns um das Diagrammdesign:

Wir rufen die "plot"-Methode für die Variable auf und darin übergeben wir, welche Art Diagramm wir haben möchten ('bar'). <br>


Farben können wir auch auswählen. Hier kannst du gern ein wenig rumspielen (per default (=wenn du keine Farbwerte ausgewählt hast) ist die Farbe einheitlich blau).
Mit einem Klick auf Run führst du den Code aus, das machst du immer am Ende eines Codeblocks den du ausführen möchtest. 

In [None]:
grouped_data=data_frame2.groupby(['Jahr']).Prozent.sum()
my_colors=['b', 'r', 'c', 'y', 'g', 'm']
grouped_data.plot(kind='bar', color=my_colors, ylabel='Anteil in Prozent', title='Frauenanteil im Laufe der Jahre')
pyplot.show()

## Fragst du dich: Wozu das Ganze???

### Lohnt es sich wirklich programmieren zu lernen?

![Alt text](https://www.animierte-gifs.net/data/media/1512/animiertes-dagobert-duck-bild-0054.gif)

#### Lass uns ein Diagramm zu den Gehältern in der IT Branche erstellen.

Für dieses Diagramm nutzen wir nun den Datensatz, den wir in der Variable **data_frame1** gespeichert haben.

Den schauen wir uns jetzt zunächst einmal an!

Schaue doch mal wie wir uns die ersten paar Zeilen eines DataFrames im allerersten Beispiel ausgegeben haben lassen.

In [None]:
data_frame1.head()

Du merkst schon: der Datensatz ist sehr groß!

Lass uns alle Spalten des Datensatzes ausgeben. Dies funktioniert mit:

In [None]:
data_frame1.info()

## Liniendiagramm

Da wir uns nur die Gehälter anschauen möchten, brauchen wir Spalte 47 (**ConvertedCompYearly**). <br>
Das speichern wir direkt in einer neuen Variable: **salary** ab.

In [None]:
salary=data_frame1.ConvertedCompYearly

Für bessere Übersicht erstellen wir uns jetzt einen neuen DataFrame **new_data_frame**.

In diesen neuen DataFrame speichern wir salary und wenden die Funktion **sort_values** an, um den DataFrame nach **ConvertedCompYearly** zu sortieren.

In [None]:
new_data_frame=pandas.DataFrame(salary).sort_values(by='ConvertedCompYearly')

Da es in dem Datensatz viele nicht-verwendbare Einträge gibt, müssen wir erstmal aufräumen (Datenbereinigung).

![Alt text](https://media.giphy.com/media/LwHkZcEhYZYFhDrh8X/giphy.gif)

Dies passiert mit der Funktion **dropna()**. **dropna()** entfernt sogenannte **NaN**-Werte, was für "Not a number" steht. Da wir Gehälter (also Zahlen) betrachten wollen, können wir mit diesen Werten nichts anfangen.

In [None]:
new_data_frame=new_data_frame.dropna()

Weil Ordnung das halbe Leben ist, sortieren wir unsere Daten noch der Größe nach mit **sort_values**.

In [None]:
new_data_frame=pandas.DataFrame(salary).sort_values(by='ConvertedCompYearly')

Wir haben den Dataframe nach seinen Werten sortiert (Gehalt von klein nach groß), wir möchten auch, dass dieser beim plotten so angezeigt wird und um das zu gewährleisten, müssen wir die Indizes dementsprechend anpassen. Dies tun wir mit **resetindex**. So bekommt das niedrigste Gehalt den niedrigsten Index zugewiesen. 

In [None]:
new_data_frame=new_data_frame.reset_index(drop = True)

Als letzten Datenbereinigunsschritt werden wir noch die ersten und letzten 2000 Daten abschneiden um extreme "Auswüchse" zu entfernen.

In [None]:
new_data_frame=new_data_frame.drop(new_data_frame.tail(2000).index)
new_data_frame=new_data_frame.drop(new_data_frame.head(2000).index)

![Alt text](https://media.giphy.com/media/XeeUDlRgrsSA8kUsvI/giphy.gif)

Wie beim oberen Balkendiagramm kommt jetzt noch die **plot**-Methode um den Graphen erstellen zu lassen. Etwas Farbe fehlt noch und natürlich die Beschriftung der Achsen.



In [None]:
new_data_frame.plot(xlabel='Index', ylabel='Gehalt in Dollar', color='green')

### All in all:

In [None]:
# Get col of a dataframe
salary=data_frame1.ConvertedCompYearly
new_data_frame=pandas.DataFrame(salary).sort_values(by='ConvertedCompYearly')
new_data_frame=new_data_frame.dropna()
new_data_frame=new_data_frame.reset_index(drop = True)

#Die oberen und unteren ca 5% werden abgeschnitten um eine aussagekräftigere Kurve zu erhalten.
new_data_frame=new_data_frame.drop(new_data_frame.tail(2000).index)
new_data_frame=new_data_frame.drop(new_data_frame.tail(2000).index)

new_data_frame.plot(xlabel='Index', ylabel='Gehalt in Dollar', color='green')
pyplot.show()

Der große Datensatz beinhaltet noch viele andere spannende Daten z.B in welchen Bereichen ITler*innen arbeiten. Wir lernen jetzt, wie wir diese Daten in einem Kreisdiagramm darstellen können.

### Kreisdiagramm

Unsere neue Variable befüllen wir mit einem DataFrame. Vorher sortieren wir den DataFrame nach "DevType" also der Art von EntwicklerIn. 

Mit **value_counts()**  wird zusammengezählt, wie viele EntwicklerInnen es von jedem der angegebenen Typen gibt. Da unsere Daten bei Anwendung der Methode **value_counts()** in ein anderes Datenformat gespeichert werden, müssen sie mit der Methode **to_frame()** zurück in ein DataFrame umgewandelt werden. 

In [None]:
developer_type=data_frame1["DevType"].value_counts().to_frame()

Wir verwenden nun wieder die Methode **plot()**-Methode zusammen mit der **pie()**-Methode, um dieses Mal statt eines Säulendiagramms ein Kuchendiagramm zu zeichnen. 

In [None]:
developer_type[:6].plot.pie(subplots=True, legend=False)

Wir wollen die 6 Top Kategorien von EntwicklerInnen in unserem Diagramm darstellen. Diese beinhalten vier verschiede Grundtypen von EntwicklerInnen: 

*   front-end (Design und Nutzerbedienung)
*   back-end (Datenbanken, Server, etc.)
*   mobile (Apps-Entwicklung, etc.)
*   full-stack (Eine EntwicklerIn, die sowohl Front-end als auch Back-end entwickelt.)

Die Einstellungen **subplots=True** und **legend=False** sind default-Werte für unser gewünschtes Ergebnis.

**pyplot.ylabel('')** sagt lediglich aus, dass wir keine weitere Beschriftung unseres Diagramms haben möchten.

In [None]:
developer_type=data_frame1["DevType"].value_counts().to_frame()
#developer_type[:6].plot(kind='bar')
developer_type[:6].plot.pie(subplots=True,legend=False)
pyplot.ylabel('')
pyplot.show()

Versuche jetzt doch mal das **#** am Anfang der zweiten Zeile zu löschen und stattdessen eins in der dritten Zeile zu setzen. <br>
Mit einem **#** kannst du Text in Python zu einem Kommentar machen.<br>
Das bedeutet, dein Programm weiß, dass es sich bei deinem Text nicht um Code sondern lediglich um Text handelt.

Führe den Code aus. Was passiert?

## Bisher haben wir alles in Python gemacht

Wie du bestimmt weißt, gibt es noch zahlreiche, andere Programmiersprachen. 
Im Gegensatz zu normalen Sprachen wie Englisch und Deutsch gibt es bei Programmiersprachen stetig neue Sprachen und Sprachen die im Trend sind. 

Python, die Sprache, die du gerade kennenlernst, ist momentan der Renner!


![Alt text](https://media.giphy.com/media/VeyCyriTsxn3i/giphy.gif)

In unserem nächsten Diagramm schauen wir uns an, welche Sprachen aktuell (2021) am häufigsten genutzt werden. 

Wie wir das bereits aus dem vorherigen Beispiel kennen, brauchen wir wieder eine Variable (**languages**). 

Nun tauschen wir lediglich die Kategorie aus nach der wir unsere Werte aufsummieren (**LanguageHaveWorkedWith**). 

In [None]:
languages=data_frame1['LanguageHaveWorkedWith'].value_counts().to_frame()
languages[:6].plot.pie(subplots=True,legend=False)
pyplot.ylabel('')
pyplot.show()

## Wie wichtig ist es das mehr Frauen Informatik studieren?

### A: Sehr wichtig
### B: Mega wichtig

![Alt text](https://media.giphy.com/media/kKKxPTD3E96sqq26O0/giphy.gif)

#### Da wir das nun geklärt haben:

Lass uns nun ein Diagramm erstellen, indem wir die Gehälter von Männern und Frauen in der Informatik vergleichen. 

Dieses Diagramm eignet sich auch gut für andere Gegenüberstellungen von Datensätzen mit zwei unterschiedlichen Kategorien.

# Schablone


Wir beginnen wieder mit dem bereits bekannten Prinzip der Definition von zwei Variablen. 

Da wir in unserem Fall den Mittelwert der Gehälter beider Geschlechter gegenüberstellen wollen, nennen wir die Variablen einfach:

**mean_man** und **mean_women**

Wir nehmen uns den ersten DataFrame zu Hand und suchen in diesem jeweils alle Zeilen raus, wo das Geschlecht als **Man** angegeben ist. Für jede dieser Zeilen nehmen wir den Wert der in der Spalte **ConvertedCompYearly** steht und wenden schließlich die Methode **mean()** an um den Mittelwert all dieser Werte zu berechnen. 

In [None]:
mean_man = data_frame1[data_frame1['Gender']=='Man'].ConvertedCompYearly.mean()

Das selbe führen wir auch für die Spalte aus, in der das Geschlecht als **Woman** angegeben wurde:

In [None]:
mean_woman = data_frame1[data_frame1['Gender']=='Woman'].ConvertedCompYearly.mean()

Nachdem wir unsere Variablen befüllt haben, erstellen wir einen neuen DataFrame mit einer Spalte, die wir **Mean Income** nennen. Dieser Spalte weisen unsere beiden Variablen als Werte zu- wir haben also zwei Zeilen (für jede Variable eine Zeile). Bisher hatten wir als Index immer nur automatisch zugeordnete Zahlen, jetzt möchten wir hingegen als Index Worte nutzen. **Male** für die eine Zeile, **Female** für die andere Zeile. 

Zuletzt erstellen wir mit der Methode **plot()** unser Diagramm aus unserem DataFrame.

Als Typ verwenden wir hier wieder **'bar'**.



In [None]:
mean_man = data_frame1[data_frame1['Gender']=='Man'].ConvertedCompYearly.mean()
mean_woman = data_frame1[data_frame1['Gender']=='Woman'].ConvertedCompYearly.mean()
mwmean = pandas.DataFrame(
    {
    'Mean Income': [mean_man, mean_woman]
    }, index=['Male', 'Female']
)
mwmean.plot(kind='bar')
pyplot.show()

### **Herzlichen Glückwunsch**, du hast gewonnen und zwar eine wohlverdiente Pause!
![Alt text](https://media.giphy.com/media/muCo9BLS7vjErTON27/giphy.gif)