# Zeckenstich Simulation mit Loop


Nun geht es weiter mit unserer Zeckenstich Monte-Carlo Simulation. Schritte 1 und 2 haben wir bereits erleidgt. Nun packen wir Schritt 3 an:

- Schritt 1: Einen Einzelpunkt zufällig verschieben ✓
- Schritt 2: Alle Punkte einer DataFrame zufällig verschieben (1 "Run") ✓
- **Schritt 3: Alle Punkte einer DataFrame mehrfach zufällig verschieben (z.B. 50 "Runs")**
- Schritt 4: Anteil der Punkte im Wald pro "Run" ermitteln
- Schritt 5: Verteilung dieser Mittelwerte visualisieren 

Ladet dafür die nötigen Module (`pandas` und `random`), holt euch die Funktion `offset_point()` und importiert den Datensatz `zeckenstiche.csv`.


In [7]:
import pandas as pd
import random

def offset_coordinate(old, distance = 1000):
    new = old + random.normalvariate(0,distance)

    return(new)

zeckenstiche = pd.read_csv("zeckenstiche.csv").head(10)


## Übung 1: Mit For-Loop `zeckenstiche` mehrfach verschieben


Um euer Gedächnis etwas aufzufrischen: Letzte Woche hatten wir mit `apply()` sowie unserer eigenen *Function* `offset_coordinate` alle Koordinaten einer *DataFrame* verschoben und die neuen Koordinaten als neue Spalten abgespeichert. 

In [8]:
zeckenstiche["x_sim"] = zeckenstiche["x"].apply(offset_coordinate)
zeckenstiche["y_sim"] = zeckenstiche["y"].apply(offset_coordinate)
zeckenstiche

Unnamed: 0,ID,accuracy,x,y,x_sim,y_sim
0,0,65.617154,2678971.0,1240824.0,2678674.0,1239479.0
1,1,257.492052,2679837.0,1240858.0,2681026.0,1241682.0
2,2,163.533834,2687539.0,1240881.0,2687749.0,1241728.0
3,3,185.0,2674848.0,1240913.0,2675226.0,1240703.0
4,4,228.215231,2681771.0,1240922.0,2682391.0,1242440.0
5,5,257.492053,2690119.0,1240932.0,2689737.0,1241241.0
6,6,17.951638,2678477.0,1240956.0,2676949.0,1241362.0
7,7,287.211395,2687505.0,1241029.0,2686983.0,1239484.0
8,8,301.748542,2681288.0,1241081.0,2682503.0,1240268.0
9,9,301.748542,2681268.0,1241111.0,2681688.0,1241730.0


Kombiniere dies nun mit deinem Wissen über Loops, um die Punkte der *DataFrame* nicht einmal, sondern 50 mal zu verschieben. Dazu brauchst du vor dem Loop eine leere Liste (z.B. `monte_carlo = []`) damit du den Output aus jedem Loop mit `append()`  abspeichern kannst. Erstelle auch eine neue Spalte `Run_Nr` mit der Nummer der Durchführung (die du vom Platzhalter erhältst).

```{figure} montepython.jpg
Quelle [twitter.com](https://twitter.com/GregoryRHancock/status/1179734188716707846?s=20)
```

<blockquote class="twitter-tweet"><p lang="en" dir="ltr">If someone does a Monte Carlo simulation study using Python, can we call it a “Monte Python” study? <br>Please?</p>&mdash; Gregory R. Hancock (@GregoryRHancock) <a href="https://twitter.com/GregoryRHancock/status/1179734188716707846?ref_src=twsrc%5Etfw">October 3, 2019</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> 

In [21]:
# Musterlösung

monte_carlo = []
for i in range(50):
    zeckenstiche["x_sim"] = zeckenstiche["x"].apply(offset_coordinate)
    zeckenstiche["y_sim"] = zeckenstiche["y"].apply(offset_coordinate)
    zeckenstiche["Run_Nr"] = i
    monte_carlo.append(zeckenstiche)
    


## Übung 2: DataFrames aus Simulation zusammenführen

Schau dir die Outputs an. 

- Mit `type()`: 
  - Was für ein Datentyp ist `zeckenstiche_sim`?
  - Was für ein Datentyp ist `monte_carlo`?
- Mit `len()`: 
  - Wie vielen Elemente hat `zeckenstiche_sim`?
  - Wie viele Elemente hat `monte_carlo`?

Worauf ich hinaus will: `zeckenstiche_sim` ist eine *DataFrame* und `monte_carlo` ist eine Liste von *DataFrames*. Glücklicherweise kann man eine Liste von ähnlichen GeoDataFrames (ähnlich im Sinne von: gleiche Spaltennamen und -typen) mit der Funktion `concat()` aus `pandas` zu einer einzigen *DataFrame* zusammenführen. Führe die Funktion aus und speichere den Output als `monte_carlo_df`.  


In [27]:
type(zeckenstiche)

pandas.core.frame.DataFrame

In [28]:
type(monte_carlo)

list

In [30]:
len(zeckenstiche)

1

In [31]:
len(monte_carlo)

50

In [32]:
monte_carlo_df = pd.concat(monte_carlo)

## Übung 3: Simulierte Daten visualisieren

Exploriere nun `monte_carlo_df`? Was ist es für ein Datentyp? Was hat es für Spalten? Visualisiere den Datensatz räumlich mit `monte_carlo_df.plot.scatter()`. 

In [33]:
monte_carlo_df

Unnamed: 0,ID,accuracy,x,y,x_sim,y_sim,Run_Nr
0,0,65.617154,2678971.0,1240824.0,2679457.0,1240045.0,49
0,0,65.617154,2678971.0,1240824.0,2679457.0,1240045.0,49
0,0,65.617154,2678971.0,1240824.0,2679457.0,1240045.0,49
0,0,65.617154,2678971.0,1240824.0,2679457.0,1240045.0,49
0,0,65.617154,2678971.0,1240824.0,2679457.0,1240045.0,49
0,0,65.617154,2678971.0,1240824.0,2679457.0,1240045.0,49
0,0,65.617154,2678971.0,1240824.0,2679457.0,1240045.0,49
0,0,65.617154,2678971.0,1240824.0,2679457.0,1240045.0,49
0,0,65.617154,2678971.0,1240824.0,2679457.0,1240045.0,49
0,0,65.617154,2678971.0,1240824.0,2679457.0,1240045.0,49


In [None]:
monte_carlo_df.plot.scatter("x_sim","y_sim")