## Aggregation and grouping on exoplanet discovery record ##

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

We will use the Planets dataset, available via the Seaborn package. It gives information on planets that astronomers have discovered around other stars (known as extrasolar planets or exoplanets for short). It can be downloaded with a simple Seaborn command:

Wir werden den Planets-Datensatz verwenden, der über das Seaborn-Paket verfügbar ist. Er enthält Informationen über Planeten, die Astronomen um andere Sterne entdeckt haben (bekannt als extrasolare Planeten oder kurz Exoplaneten). Er kann mit einem einfachen Seaborn-Befehl heruntergeladen werden:

In [None]:
df = sns.load_dataset('planets')

First check out what is inside this dataset. 

Sehen Sie sich zunächst an, was in diesem Datensatz enthalten ist. 

In [None]:
df

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.300000,7.10,77.40,2006
1,Radial Velocity,1,874.774000,2.21,56.95,2008
2,Radial Velocity,1,763.000000,2.60,19.84,2011
3,Radial Velocity,1,326.030000,19.40,110.62,2007
4,Radial Velocity,1,516.220000,10.50,119.47,2009
...,...,...,...,...,...,...
1030,Transit,1,3.941507,,172.00,2006
1031,Transit,1,2.615864,,148.00,2007
1032,Transit,1,3.191524,,174.00,2007
1033,Transit,1,4.125083,,293.00,2008


In [None]:
df.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


In [None]:
# Deleting NA values
planets = df.dropna()
planets

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.30000,7.100,77.40,2006
1,Radial Velocity,1,874.77400,2.210,56.95,2008
2,Radial Velocity,1,763.00000,2.600,19.84,2011
3,Radial Velocity,1,326.03000,19.400,110.62,2007
4,Radial Velocity,1,516.22000,10.500,119.47,2009
...,...,...,...,...,...,...
640,Radial Velocity,1,111.70000,2.100,14.90,2009
641,Radial Velocity,1,5.05050,1.068,44.46,2013
642,Radial Velocity,1,311.28800,1.940,17.24,1999
649,Transit,1,2.70339,1.470,178.00,2013


In [None]:
planets.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,498.0,498.0,498.0,498.0,498.0
mean,1.73494,835.778671,2.50932,52.068213,2007.37751
std,1.17572,1469.128259,3.636274,46.596041,4.167284
min,1.0,1.3283,0.0036,1.35,1989.0
25%,1.0,38.27225,0.2125,24.4975,2005.0
50%,1.0,357.0,1.245,39.94,2009.0
75%,2.0,999.6,2.8675,59.3325,2011.0
max,6.0,17337.5,25.0,354.0,2014.0


Simple aggregations can give you a flavor of your dataset, but often we would prefer to aggregate conditionally on some label or index: this is implemented in the so-called groupby operation. 

Einfache Aggregationen können Ihnen einen Eindruck von Ihrem Datensatz vermitteln, aber oft würden wir es vorziehen, eine Aggregation bedingt durch ein Label oder einen Index vorzunehmen: Dies wird durch die so genannte groupby-Operation realisiert. 

Now take the `planets` dataframe and group it by `method`, to show the median values of the `orbital period`.
The result should list `method` in the first column and the associated median values in the second column.

Nehmen Sie nun den Datenrahmen `planets` und gruppieren Sie ihn nach `method`, um die Medianwerte der `orbital period` anzuzeigen.
Das Ergebnis sollte `method` in der ersten Spalte und die zugehörigen Medianwerte in der zweiten Spalte auflisten.

In [None]:
df["orbital_period"].groupby(df["method"]).median()

method
Astrometry                         631.180000
Eclipse Timing Variations         4343.500000
Imaging                          27500.000000
Microlensing                      3300.000000
Orbital Brightness Modulation        0.342887
Pulsar Timing                       66.541900
Pulsation Timing Variations       1170.000000
Radial Velocity                    360.200000
Transit                              5.714932
Transit Timing Variations           57.011000
Name: orbital_period, dtype: float64

Group by `method`, to compile `year`s when those methods were used. Show a statistical summary of this grouping. The result should list `method` in the first column and the relevant summary statistics in the other columns.

Gruppieren Sie nach `method`, um die `year` zusammenzustellen, in denen diese Methoden verwendet wurden. Zeigen Sie eine statistische Zusammenfassung dieser Gruppierung an. Das Ergebnis sollte in der ersten Spalte `method` und in den anderen Spalten die entsprechenden zusammenfassenden Statistiken enthalten.

In [None]:
grouped = df["year"].groupby(df["method"])
grouped.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Astrometry,2.0,2011.5,2.12132,2010.0,2010.75,2011.5,2012.25,2013.0
Eclipse Timing Variations,9.0,2010.0,1.414214,2008.0,2009.0,2010.0,2011.0,2012.0
Imaging,38.0,2009.131579,2.781901,2004.0,2008.0,2009.0,2011.0,2013.0
Microlensing,23.0,2009.782609,2.859697,2004.0,2008.0,2010.0,2012.0,2013.0
Orbital Brightness Modulation,3.0,2011.666667,1.154701,2011.0,2011.0,2011.0,2012.0,2013.0
Pulsar Timing,5.0,1998.4,8.38451,1992.0,1992.0,1994.0,2003.0,2011.0
Pulsation Timing Variations,1.0,2007.0,,2007.0,2007.0,2007.0,2007.0,2007.0
Radial Velocity,553.0,2007.518987,4.249052,1989.0,2005.0,2009.0,2011.0,2014.0
Transit,397.0,2011.236776,2.077867,2002.0,2010.0,2012.0,2013.0,2014.0
Transit Timing Variations,4.0,2012.5,1.290994,2011.0,2011.75,2012.5,2013.25,2014.0


Interpret the results; e.g., the vast majority of planets have been discovered by ....

TYPE YOUR ANSWER HERE

Interpretieren Sie die Ergebnisse; z. B. wurde die überwiegende Mehrheit der Planeten von .... entdeckt.

GEBEN SIE IHRE ANTWORT HIER EIN

Antwort : 
Die meisten Planeten wurden mit der Radialgeschwindigkeitsmethode entdeckt. Im Durchschnitt wurden diese Planeten im Jahr 2007 entdeckt.
Der älteste wurde 1989 entdeckt, der jüngste 2014.

Display the numbers of discovered planets by method and by decade. To do this, 

1. Create a series of string-type, named `decade`, which you produce from `planets['year']`. 

2. Group by `method` and `decade`, to aggregate the sum of the `number`, by filling NaNs with zeros. 

The resulting table should list `method` downwards and `decade` rightwards, and for each method it should give the number of planets discovered in a given decade. 

Anzeige der Anzahl der entdeckten Planeten nach Methode und Jahrzehnt. Um dies zu tun,

1. Erstellen Sie eine Reihe vom Typ 'string' mit dem Namen `decade`, die Sie aus `planets['year']` erzeugen.

2. Gruppieren Sie nach `method` und `decade`, um die Summe der Anzahl zu aggregieren, indem Sie NaNs mit Nullen auffüllen.

Die resultierende Tabelle sollte die `method` von oben nach unten und das `decade` von rechts nach links auflisten und für jede Methode die Anzahl der in einem bestimmten Jahrzehnt entdeckten Planeten angeben.

In [None]:
decade = 10*(df['year'] // 10)
decade = decade.astype(str) + 's'
decade.name = 'decade'
decade

0       2000s
1       2000s
2       2010s
3       2000s
4       2000s
        ...  
1030    2000s
1031    2000s
1032    2000s
1033    2000s
1034    2000s
Name: decade, Length: 1035, dtype: object

In [None]:
df.groupby(['method', decade])['number'].sum().unstack().fillna(0)

decade,1980s,1990s,2000s,2010s
method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Astrometry,0.0,0.0,0.0,2.0
Eclipse Timing Variations,0.0,0.0,5.0,10.0
Imaging,0.0,0.0,29.0,21.0
Microlensing,0.0,0.0,12.0,15.0
Orbital Brightness Modulation,0.0,0.0,0.0,5.0
Pulsar Timing,0.0,9.0,1.0,1.0
Pulsation Timing Variations,0.0,0.0,1.0,0.0
Radial Velocity,1.0,52.0,475.0,424.0
Transit,0.0,0.0,64.0,712.0
Transit Timing Variations,0.0,0.0,0.0,9.0
