# Pandas Groupby

We first need to read the files `2017_german_election_overall.csv` and `2017_german_election_party.csv` from the german-election-2017 dataset.

In [1]:
import pandas as pd

In [2]:
german_party = pd.read_csv('ex-data/german-election-2017/2017_german_election_party.csv')
german_overall = pd.read_csv('ex-data/german-election-2017/2017_german_election_overall.csv')

In [3]:
german_party.head()

Unnamed: 0.1,Unnamed: 0,area_id,area_name,state,party,votes_first_vote,votes_second_vote
0,1,1,Flensburg – Schleswig,Schleswig-Holstein,Christlich.Demokratische.Union.Deutschlands,68102,58307
1,2,2,Nordfriesland – Dithmarschen Nord,Schleswig-Holstein,Christlich.Demokratische.Union.Deutschlands,62260,52933
2,3,3,Steinburg – Dithmarschen Süd,Schleswig-Holstein,Christlich.Demokratische.Union.Deutschlands,54812,47367
3,4,4,Rendsburg-Eckernförde,Schleswig-Holstein,Christlich.Demokratische.Union.Deutschlands,66625,56584
4,5,5,Kiel,Schleswig-Holstein,Christlich.Demokratische.Union.Deutschlands,45691,40011


In [4]:
german_overall.head()

Unnamed: 0.1,Unnamed: 0,area_id,area_names,state,registered.voters,total_votes,invalid_first_votes,invalid_second_votes,valid_first_votes,valid_second_votes
0,1,1,Flensburg – Schleswig,Schleswig-Holstein,225659,171905,1647,1509,170258,170396
1,2,2,Nordfriesland – Dithmarschen Nord,Schleswig-Holstein,186384,139200,1299,1125,137901,138075
2,3,3,Steinburg – Dithmarschen Süd,Schleswig-Holstein,175950,132016,1133,1141,130883,130875
3,4,4,Rendsburg-Eckernförde,Schleswig-Holstein,199632,157387,1285,1119,156102,156268
4,5,5,Kiel,Schleswig-Holstein,204650,151463,1657,1290,149806,150173


## For each state, compute the total number of registered voters

Hint: avoid using dictionaries and loops, leveraging on the functionalities provided by Pandas.

In [5]:
registered_voters = german_overall.groupby('state')['registered.voters'].sum()
registered_voters

state
Baden-Württemberg          7732570
Bayern                     9519914
Berlin                     2503053
Brandenburg                2051507
Bremen                      474097
Hamburg                    1296624
Hessen                     4409241
Mecklenburg-Vorpommern     1323999
Niedersachsen              6124125
Nordrhein-Westfalen       13174480
Rheinland-Pfalz            3081062
Saarland                    777263
Sachsen                    3328669
Sachsen-Anhalt             1854982
Schleswig-Holstein         2258129
Thüringen                  1765814
Name: registered.voters, dtype: int64

In [6]:
type(registered_voters)

pandas.core.series.Series

## How many registered voters are there in Bayern or Saarland (compute the voters in each state and the sum of the two numbers)

Using the previous Series, this exercise becomes trivial.

In [7]:
bayern_voters = registered_voters['Bayern']
saarland_voters = registered_voters['Saarland']
print(bayern_voters + saarland_voters)

10297177


## For each state, compute the number of votes (first vote) for each party

In [8]:
state_party_votes = german_party.groupby(['state', 'party']).sum()['votes_first_vote']
state_party_votes

state              party                                                     
Baden-Württemberg  Ab.jetzt...Demokratie.durch.Volksabstimmung                        0
                   Allianz.Deutscher.Demokraten                                       0
                   Allianz.für.Menschenrechte.Tier..und.Naturschutz                   0
                   Alternative.für.Deutschland                                   689893
                   Bayernpartei                                                       0
                                                                                  ...  
Thüringen          UNABHÄNGIGE.für.bürgernahe.Demokratie                              0
                   V.Partei³...Partei.für.Veränderung..Vegetarier.und.Veganer      1204
                   bergpartei..die.überpartei                                         0
                   Ökologisch.Demokratische.Partei                                 5291
                   Übrige                 

## For each state and each party, compute the area where the party has taken the most total votes (first votes)

Hint: using `max()` after a `groupby` returns the maximum **value** in the group, not the row that includes such value.
Therefore, we need to use `idxmax()`.

In [9]:
german_party.loc[german_party.groupby(['state', 'party'])['votes_first_vote'].idxmax()]

Unnamed: 0.1,Unnamed: 0,area_id,area_name,state,party,votes_first_vote,votes_second_vote
4443,4444,258,Stuttgart I,Baden-Württemberg,Ab.jetzt...Demokratie.durch.Volksabstimmung,0,0
6237,6238,258,Stuttgart I,Baden-Württemberg,Allianz.Deutscher.Demokraten,0,0
6536,6537,258,Stuttgart I,Baden-Württemberg,Allianz.für.Menschenrechte.Tier..und.Naturschutz,0,203
2060,2061,267,Heilbronn,Baden-Württemberg,Alternative.für.Deutschland,28574,30088
4144,4145,258,Stuttgart I,Baden-Württemberg,Bayernpartei,0,0
...,...,...,...,...,...,...,...
12447,12448,189,Eichsfeld – Nordhausen – Kyffhäuserkreis,Thüringen,UNABHÄNGIGE.für.bürgernahe.Demokratie,0,0
10060,10061,194,Gera – Greiz – Altenburger Land,Thüringen,V.Partei³...Partei.für.Veränderung..Vegetarier...,1204,726
6766,6767,189,Eichsfeld – Nordhausen – Kyffhäuserkreis,Thüringen,bergpartei..die.überpartei,0,0
3477,3478,189,Eichsfeld – Nordhausen – Kyffhäuserkreis,Thüringen,Ökologisch.Demokratische.Partei,1929,1164


Let's manually test whether the maximum amount of votes that `Christlich.Demokratische.Union.Deutschlands` got in Baden-Württemberg was 7750.

In [10]:
german_party[(german_party['state'] == 'Baden-Württemberg') & \
             (german_party['party'] == 'Christlich.Demokratische.Union.Deutschlands')]

Unnamed: 0.1,Unnamed: 0,area_id,area_name,state,party,votes_first_vote,votes_second_vote
257,258,258,Stuttgart I,Baden-Württemberg,Christlich.Demokratische.Union.Deutschlands,51116,46243
258,259,259,Stuttgart II,Baden-Württemberg,Christlich.Demokratische.Union.Deutschlands,46066,40071
259,260,260,Böblingen,Baden-Württemberg,Christlich.Demokratische.Union.Deutschlands,75318,69009
260,261,261,Esslingen,Baden-Württemberg,Christlich.Demokratische.Union.Deutschlands,53661,44747
261,262,262,Nürtingen,Baden-Württemberg,Christlich.Demokratische.Union.Deutschlands,65566,56106
262,263,263,Göppingen,Baden-Württemberg,Christlich.Demokratische.Union.Deutschlands,50891,45285
263,264,264,Waiblingen,Baden-Württemberg,Christlich.Demokratische.Union.Deutschlands,64958,58371
264,265,265,Ludwigsburg,Baden-Württemberg,Christlich.Demokratische.Union.Deutschlands,66430,57999
265,266,266,Neckar-Zaber,Baden-Württemberg,Christlich.Demokratische.Union.Deutschlands,73445,60708
266,267,267,Heilbronn,Baden-Württemberg,Christlich.Demokratische.Union.Deutschlands,64588,58754


## For each party, compute the area where the party has taken the most and the least votes (first vote), as a percentage of the overall registered voters in the state.

To compute the required field we can use the `registered_voters` Series we computed before, together with `apply`.

In [None]:
german_party['percentage'] = german_party.apply(lambda row:\
                                                row['votes_first_vote'] / registered_voters[row['state']] * 100,
                                                axis=1)
german_party.head()

Now we can use `idxmin` and `idxmax` to solve the problem

In [12]:
least_perc_index = german_party.groupby('party')['percentage'].idxmin()
german_party.loc[least_perc_index][['party', 'state', 'area_name', 'percentage']]

Unnamed: 0,party,state,area_name,percentage
4186,Ab.jetzt...Demokratie.durch.Volksabstimmung,Schleswig-Holstein,Flensburg – Schleswig,0.0
5980,Allianz.Deutscher.Demokraten,Schleswig-Holstein,Flensburg – Schleswig,0.0
6279,Allianz.für.Menschenrechte.Tier..und.Naturschutz,Schleswig-Holstein,Flensburg – Schleswig,0.0
1817,Alternative.für.Deutschland,Niedersachsen,Aurich – Emden,0.0
3887,Bayernpartei,Schleswig-Holstein,Flensburg – Schleswig,0.0
1098,BÜNDNIS.90.DIE.GRÜNEN,Rheinland-Pfalz,Bitburg,0.0
10166,Bündnis.C...Christen.für.Deutschland,Schleswig-Holstein,Flensburg – Schleswig,0.0
6877,Bündnis.Grundeinkommen,Schleswig-Holstein,Flensburg – Schleswig,0.0
5083,Bürgerrechtsbewegung.Solidarität,Schleswig-Holstein,Flensburg – Schleswig,0.0
211,Christlich.Demokratische.Union.Deutschlands,Bayern,Altötting,0.0


In [13]:
max_perc_index = german_party.groupby('party')['percentage'].idxmax()
german_party.loc[max_perc_index][['party', 'state', 'area_name', 'percentage']]

Unnamed: 0,party,state,area_name,percentage
4282,Ab.jetzt...Demokratie.durch.Volksabstimmung,Nordrhein-Westfalen,Rhein-Sieg-Kreis I,0.040783
5980,Allianz.Deutscher.Demokraten,Schleswig-Holstein,Flensburg – Schleswig,0.0
6279,Allianz.für.Menschenrechte.Tier..und.Naturschutz,Schleswig-Holstein,Flensburg – Schleswig,0.0
1848,Alternative.für.Deutschland,Bremen,Bremen II – Bremerhaven,3.49844
4109,Bayernpartei,Bayern,Bad Tölz-Wolfratshausen – Miesbach,0.058425
950,BÜNDNIS.90.DIE.GRÜNEN,Bremen,Bremen I,4.671407
10210,Bündnis.C...Christen.für.Deutschland,Niedersachsen,Gifhorn – Peine,0.011806
6877,Bündnis.Grundeinkommen,Schleswig-Holstein,Flensburg – Schleswig,0.0
5240,Bürgerrechtsbewegung.Solidarität,Sachsen,Sächsische Schweiz-Osterzgebirge,0.069698
53,Christlich.Demokratische.Union.Deutschlands,Bremen,Bremen I,9.472323


## For each area, compute the difference between the valid first votes and the valid second votes

In [14]:
german_party['difference'] = german_party['votes_first_vote'] - german_party['votes_second_vote']
german_party.groupby('area_name').sum()['difference']

area_name
Aachen I                    -445
Aachen II                   -443
Aalen – Heidenheim          -627
Ahrweiler                   -395
Altmark                     -410
                            ... 
Worms                       -491
Wuppertal I                 -562
Würzburg                    -621
Zollernalb – Sigmaringen    -536
Zwickau                    -5433
Name: difference, Length: 299, dtype: int64

## For each state, compute the difference between the valid first votes and the valid second votes

In [15]:
german_party.groupby('state').sum()['difference']

state
Baden-Württemberg        -11811
Bayern                   -21451
Berlin                    -3340
Brandenburg               -2427
Bremen                    -1625
Hamburg                   -2767
Hessen                    -4323
Mecklenburg-Vorpommern     -644
Niedersachsen            -11723
Nordrhein-Westfalen      -39164
Rheinland-Pfalz          -10622
Saarland                    123
Sachsen                   -9646
Sachsen-Anhalt            -8551
Schleswig-Holstein        -2650
Thüringen                 -1706
Name: difference, dtype: int64

## For each party, compute the difference between the first votes and the second votes

In [16]:
german_party.groupby('party').sum()['difference']

party
Ab.jetzt...Demokratie.durch.Volksabstimmung                                                        -3579
Allianz.Deutscher.Demokraten                                                                      -41178
Allianz.für.Menschenrechte.Tier..und.Naturschutz                                                  -32218
Alternative.für.Deutschland                                                                      -560999
Bayernpartei                                                                                        4604
BÜNDNIS.90.DIE.GRÜNEN                                                                            -440128
Bündnis.C...Christen.für.Deutschland                                                                1715
Bündnis.Grundeinkommen                                                                            -97386
Bürgerrechtsbewegung.Solidarität                                                                    9258
Christlich.Demokratische.Union.Deutschlands      

## For each state and each party, compute the difference between the first votes and the second votes

In [18]:
german_party.groupby(['state', 'party']).sum()['difference']

state              party                                                     
Baden-Württemberg  Ab.jetzt...Demokratie.durch.Volksabstimmung                       0
                   Allianz.Deutscher.Demokraten                                      0
                   Allianz.für.Menschenrechte.Tier..und.Naturschutz             -13498
                   Alternative.für.Deutschland                                  -40372
                   Bayernpartei                                                      0
                                                                                 ...  
Thüringen          UNABHÄNGIGE.für.bürgernahe.Demokratie                             0
                   V.Partei³...Partei.für.Veränderung..Vegetarier.und.Veganer    -2264
                   bergpartei..die.überpartei                                        0
                   Ökologisch.Demokratische.Partei                               -1111
                   Übrige                           