# Pandas â€“ Lesvoorbeeld 2.

## The Dataframe Data Structure

Dit notebook komt van de Coursera cursus 
Introduction to Data Science in Python - week 2
University of Michigan

In [1]:
# importeren van de numpy en pandas bibliotheek; Pandas gebruikt numpy bij verwerkingen
import numpy as np
import pandas as pd


De DataFrame Data Structure is bedoeld voor het opslaan en verwerken twee-dimensionale gegevens.
Je kunt dit vergelijken met de inhoud van een database tabel. 

In [2]:
# Aanmaken van een DataFrame door drie series toe te voegen:
# - verkoopgegevens van drie winkels in een Pandas Series zetten

purchase_1 = pd.Series({'Name': 'Chris',
                        'Item Purchased': 'Dog Food',
                        'Cost': 22.50})
purchase_2 = pd.Series({'Name': 'Kevyn',
                        'Item Purchased': 'Kitty Litter',
                        'Cost': 2.50})
purchase_3 = pd.Series({'Name': 'Vinod',
                        'Item Purchased': 'Bird Seed',
                        'Cost': 5.00})

# De gegevens omzetten naar een dataframe 
# zowel voor de kolommen als de rijen is een 'index' nodig
# - de kolommen index komt uit de series
# - de rij index moeten we toevoegen
df = pd.DataFrame([purchase_1, purchase_2, purchase_3], index=['Store 1', 'Store 1', 'Store 2'])

#afdrukken van de dataframe variabele
df

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 1,Kevyn,Kitty Litter,2.5
Store 2,Vinod,Bird Seed,5.0


## Selecteren van gegevens

In [3]:
# opvragen van een rij via de index (expliciete key)
df.loc['Store 2']

Name                  Vinod
Item Purchased    Bird Seed
Cost                      5
Name: Store 2, dtype: object

In [4]:
# de opgevraagde rij is een Series data structuur
type(df.loc['Store 2'])

pandas.core.series.Series

In [5]:
# een index hoeft niet uniek te zijn: dan worden alle rijen getoond als een datastructuur
df.loc['Store 1']

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 1,Kevyn,Kitty Litter,2.5


In [6]:
# opvragen van een rij via de impliciet index (=rijvolgnr)
df.iloc[0]

Name                 Chris
Item Purchased    Dog Food
Cost                  22.5
Name: Store 1, dtype: object

In [7]:
# opvragen van een kolom met waarden
df['Cost']

Store 1    22.5
Store 1     2.5
Store 2     5.0
Name: Cost, dtype: float64

In [8]:
# Opvragen kan ook met de '.' notatie, mits de kolomnaam geen spaties bevat en niet hetzelfde is als een interne functienaam
df.Cost

Store 1    22.5
Store 1     2.5
Store 2     5.0
Name: Cost, dtype: float64

In [9]:
# opvragen van meerdere kolommen met waarden. let op de dubbele [[ ]] die nodig zijn !!
df[['Cost','Name']]

Unnamed: 0,Cost,Name
Store 1,22.5,Chris
Store 1,2.5,Kevyn
Store 2,5.0,Vinod


In [10]:
# opvragen van een combinatie van een rij en een kolom. Let op de komma: er zijn nu 2 parameters !!
df.loc['Store 1','Cost']


Store 1    22.5
Store 1     2.5
Name: Cost, dtype: float64

In [11]:
# bij df.loc voor een dataframe is het volgende aan de hand
# - is er maar 1 parameter dan worden de kolommen bedoeld
# - zijn er 2 paramaters, dan verwijst de eerste parameter naar de rij-selectie en de 2e parameter naar de kolom-selectie


In [12]:
# Om het allemaal nog verwarrender te maken kan som de ',' kommma vervangen worden door ][
# Probeer zelf de volgende maar eens uit
#df.loc['Store 1','Cost']
#df.loc['Store 1']['Cost']
#df.loc['Store 1'][['Name','Cost']]


In [13]:
# Met behulp van de reeks ":" aanduiding kan een vanaf - tot/met waarde opgegeven worden
df.loc['Store 1':'Store 2','Cost':'Name']  # alle rijen vanaf Store 1 t/m Store 2 en de kolommen Cost t/m Name


Store 1
Store 1
Store 2


## Logische selecties

In [14]:
# Alle rijen met Cost >= 5
df[df['Cost'] >= 5]

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 2,Vinod,Bird Seed,5.0


In [15]:
# Alle namen met Cost >= 5
df['Name'][df['Cost'] >= 5]


Store 1    Chris
Store 2    Vinod
Name: Name, dtype: object

In [16]:
# Dit werkt ook !
df[df['Cost'] >= 5]['Name']

Store 1    Chris
Store 2    Vinod
Name: Name, dtype: object

## Wijzigen van kolommen en rijen


In [17]:
#toevoegen van een kolom
df['Amount'] = [5, 7, 9]    # met een waarde voor elke regel
df['Location'] = 'Utrecht'  # met enkele waarde: wordt aan elke regel toegekend
df

Unnamed: 0,Name,Item Purchased,Cost,Amount,Location
Store 1,Chris,Dog Food,22.5,5,Utrecht
Store 1,Kevyn,Kitty Litter,2.5,7,Utrecht
Store 2,Vinod,Bird Seed,5.0,9,Utrecht


In [18]:
# Toevoegen van een berekende kolom
df['Bedrag'] = df['Cost'] * df['Amount']
df

Unnamed: 0,Name,Item Purchased,Cost,Amount,Location,Bedrag
Store 1,Chris,Dog Food,22.5,5,Utrecht,112.5
Store 1,Kevyn,Kitty Litter,2.5,7,Utrecht,17.5
Store 2,Vinod,Bird Seed,5.0,9,Utrecht,45.0


In [19]:
# het laten vervallen van een rij (let op ! maakt een kopie)
df.drop('Store 1')

Unnamed: 0,Name,Item Purchased,Cost,Amount,Location,Bedrag
Store 2,Vinod,Bird Seed,5.0,9,Utrecht,45.0


In [20]:
# dropna maaakt een kopie van de data, origineel is nog aanwezig
df

Unnamed: 0,Name,Item Purchased,Cost,Amount,Location,Bedrag
Store 1,Chris,Dog Food,22.5,5,Utrecht,112.5
Store 1,Kevyn,Kitty Litter,2.5,7,Utrecht,17.5
Store 2,Vinod,Bird Seed,5.0,9,Utrecht,45.0


In [21]:
# Maken van een kopie waaruit de rijen met Store 1 verdwenen zijn:
copy_df = df.copy()
copy_df = copy_df.drop('Store 1')
copy_df

Unnamed: 0,Name,Item Purchased,Cost,Amount,Location,Bedrag
Store 2,Vinod,Bird Seed,5.0,9,Utrecht,45.0


In [22]:
# verwijderen van een kolom
copy_df = copy_df.drop('Location', axis=1)
copy_df

Unnamed: 0,Name,Item Purchased,Cost,Amount,Bedrag
Store 2,Vinod,Bird Seed,5.0,9,45.0
