# Python DataFrames

Een DataFrame is meer dan een Series. Terwijl een Series een lijst is met allerlei waarden erin, is een DataFrame een tabel met meerdere kolommen.

Hier het verschil tussen een pandas Series object en een pandas DataFrame met een voorbeeld van gegevens van bezoekers uit een restaurant:

<img src="files/Series vs DataFrame.png">

We gaan een DataFrame maken met gegevens van een voetbalcompetitie erin:

In [1]:
import pandas as pd

data = {'jaar': [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012],
       'team': ['Ajax', 'Ajax', 'Ajax', 'PSV', 'PSV', 'AZ', 'AZ', 'AZ'],
       'win': [11, 8, 10, 15, 11, 6, 10, 4],
       'verlies': [5, 8, 6, 1, 5, 10, 6, 12]}


dfVoetbal = pd.DataFrame(data)

En laten we even kijken naar de inhoud van ```dfVoetbal```

In [16]:
dfVoetbal

Unnamed: 0,jaar,team,verlies,win
0,2010,Ajax,5,11
1,2011,Ajax,8,8
2,2012,Ajax,6,10
3,2011,PSV,1,15
4,2012,PSV,5,11
5,2010,AZ,10,6
6,2011,AZ,6,10
7,2012,AZ,12,4


Je ziet hierboven inderdaad een tabel met de kolommen jaar, team, win en verlies. Merk op dat, zoals bij een Series, de eerste kolom de index is.

Eigenlijk mag je variabelenamen zelf bepalen. Maar het is een goed gebruik om variabelen voor een DataFrame te beginnen met de letters df. Zo weet iedereen die je code leest dat er een DataFrame in de variabele zit.

Het maken van een DataFrame ziet er wat moeilijk uit, maar met een beetje kopieer en plakwerk, moet het je wel lukken. We gaan er in dit stadium nog niet al te diep op in.

_Als je goed kijkt zul je zien dat elke rij en elke kolom in een DataFrame eigenlijk een Series is._

## Kolommen selecteren
Je kunt ook specifieke kolommen selecteren uit een DataFrame object. Dat doe je door blokhaken [] te gebruiken.

In [3]:
dfVoetbal["jaar"]

0    2010
1    2011
2    2012
3    2011
4    2012
5    2010
6    2011
7    2012
Name: jaar, dtype: int64

Je kunt ook meerdere kolommen selecteren. Voor de overzichtelijkheid maken we een aparte variabele met een lijst van de gewenste kolommen: 

``` kolommen = ["team", "win"] ```

In [5]:
kolommen = ["team", "win"]
dfVoetbal[kolommen]

Unnamed: 0,team,win
0,Ajax,11
1,Ajax,8
2,Ajax,10
3,PSV,15
4,PSV,11
5,AZ,6
6,AZ,10
7,AZ,4


## Inlezen van een bestand in een DataFrame
Je kunt ook bestanden inlezen in een DataFrame. We gaan een CSV-bestand inlezen. CSV staat voor ```Comma Separated Values```. Het zijn bestanden met veel gegevens in een tabel waarbij de waarden van elkaar worden gescheiden door een komma (of een ander teken). We hebben voor jullie een CSV-bestand met allerlei informatie over de verkoopcijfers van games. Hij is hier te downloaden.

Het is een joekel van een bestand met gegevens over ruim 16000 spellen!
Download het CSV-bestand en zet hem in dezelfde map als je Python-bestanden.

Laten we eerst het bestand inlezen en kijken welke kolommen het DataFrame bevat:

In [17]:
import pandas as pd

dfGames = pd.read_csv("games.csv")

dfGames.columns

Index(['Name', 'Platform', 'Year_of_Release', 'Genre', 'Publisher', 'NA_Sales',
       'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales', 'Critic_Score',
       'Critic_Count', 'User_Score', 'User_Count', 'Developer', 'Rating'],
      dtype='object')

Dat zijn veel kolommen! Wel 16! Laten we de volgende kolommen selecteren: ```Name```, ```Platform```, ```Year_of_release``` en ```Genre```. En we gaan iets bijzonders doen .. We gaan namelijk de DataFrame met de geselecteerde kolommen (```dfGames[kolommen]```) even in een andere variabele zetten. Deze noemen we ```dfGamesKlein```

In [18]:
kolommen = ["Name", "Platform", "Year_of_Release", "Genre"]

dfGamesKlein = dfGames[kolommen]

dfGamesKlein

Unnamed: 0,Name,Platform,Year_of_Release,Genre
0,Wii Sports,Wii,2006.0,Sports
1,Super Mario Bros.,NES,1985.0,Platform
2,Mario Kart Wii,Wii,2008.0,Racing
3,Wii Sports Resort,Wii,2009.0,Sports
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing
5,Tetris,GB,1989.0,Puzzle
6,New Super Mario Bros.,DS,2006.0,Platform
7,Wii Play,Wii,2006.0,Misc
8,New Super Mario Bros. Wii,Wii,2009.0,Platform
9,Duck Hunt,NES,1984.0,Shooter


## De eerste 5 rijen
Dat zijn veel rijen! Gelukkig kunnen we ook de eerste 5 rijen selecteren. Dat doen met de methode ```head()```

In [19]:
dfGamesKlein.head()

Unnamed: 0,Name,Platform,Year_of_Release,Genre
0,Wii Sports,Wii,2006.0,Sports
1,Super Mario Bros.,NES,1985.0,Platform
2,Mario Kart Wii,Wii,2008.0,Racing
3,Wii Sports Resort,Wii,2009.0,Sports
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing


### Opdracht 
Print nu de eerste 15 games uit de oorspronkelijke tabel. Maar wel met de volgende kolommen: Name (naam van het spel) en EU_Sales (hoeveel geld in miljoenen het spel in Europa heeft opgeleverd).

_TIP_: Je kunt de methode head() ook een getal meegeven. Dan geeft hij niet de eerste 5 rijen terug maar wordt het aantal beperkt met het getal dat jij hebt meegegeven. 

## Sorteren
Stel dat je de eerste 10 oudste spellen in de tabel wilt zien. Dan is het handig als je kan sorteren op de kolom ```Year_of_Release```. Dit kan vrij eenvoudig in Pandas door de methode ```sort_values()``` te gebruiken.

In [20]:
dfGamesKleinSorted = dfGamesKlein.sort_values(by=["Year_of_Release"])
dfGamesKleinSorted.head(10)

Unnamed: 0,Name,Platform,Year_of_Release,Genre
262,Asteroids,2600,1980.0,Shooter
5360,Freeway,2600,1980.0,Action
546,Missile Command,2600,1980.0,Shooter
2650,Boxing,2600,1980.0,Fighting
4019,Ice Hockey,2600,1980.0,Sports
6301,Bridge,2600,1980.0,Misc
1764,Kaboom!,2600,1980.0,Misc
6876,Checkers,2600,1980.0,Misc
1968,Defender,2600,1980.0,Misc
4123,Grand Prix,2600,1981.0,Racing


## Sorteren in omgekeerde richting
Je kunt ook in omgekeerde richting sorteren. Dat is handig als je bijvoorbeeld een top 5 wilt maken van de meest opgeleverde spellen aller tijden! Je geeft de methode ```sort_values()``` een tweede argument mee: ```ascending=False```. Ascending betekent dat je van klein naar groot (oplopend) wilt sorteren. Het omgekeerde is descending (aflopend).

In [26]:
kolommen = ["Name", "Year_of_Release", "Global_Sales", "Platform"]

dfGamesKlein = dfGames[kolommen]
dfGamesKleinSorted = dfGamesKlein.sort_values(by=["Global_Sales"], ascending=False)
dfGamesKleinSorted.head(5)

Unnamed: 0,Name,Year_of_Release,Global_Sales,Platform
0,Wii Sports,2006.0,82.53,Wii
1,Super Mario Bros.,1985.0,40.24,NES
2,Mario Kart Wii,2008.0,35.52,Wii
3,Wii Sports Resort,2009.0,32.77,Wii
4,Pokemon Red/Pokemon Blue,1996.0,31.37,GB


## Selecteren
Met Pandas Series konden we met een voorwaarde bepaalde waarden selecteren door de selectievoorwaarde tussen blokhaken [] te plaatsen. Dat zag er zo uit:

In [13]:
import pandas as pd
serLijst = pd.Series([23,43,102,76,8,98,90])
serGroterdan20 = serLijst[serLijst > 30]
print (serGroterdan20) 

1     43
2    102
3     76
5     98
6     90
dtype: int64


Hetzelfde kunnen we ook met DataFrames doen. Stel dat we een top 5 van verkochte spellen voor de NES willen selecteren. Dat doen we zo (zie vooral ook de gemarkeerde stukken):

In [27]:
dfNesGames = dfGamesKleinSorted[dfGamesKleinSorted.Platform == "NES"]
dfNesGames.head(5)

Unnamed: 0,Name,Year_of_Release,Global_Sales,Platform
1,Super Mario Bros.,1985.0,40.24,NES
9,Duck Hunt,1984.0,28.31,NES
22,Super Mario Bros. 3,1988.0,17.28,NES
98,Super Mario Bros. 2,1988.0,7.46,NES
124,The Legend of Zelda,1986.0,6.51,NES


Merk op dat we tussen de blokhaken de voorwaarde ```dfGamesKleinSorted.Platform == "NES"``` hebben geplaatst. Je mag ```dfGamesKleinSorted.Platform``` alleen gebruiken, omdat in de kolommenlijst ook het kopje "Platform" is geplaatst.	

### Opdracht
* Maak een top 10 van de in Europa minst verkochte Playstationspellen.
* Maak een top 5 van de nieuwste spellen voor de Wii.