# Pandas – Lesvoorbeeld 1.
## The Series Data Structure

Dit notebook komt van de Coursera cursus 
Introduction to Data Science in Python - week 2
University of Michigan

In [1]:
# importeren van de numpy en pandas bibliotheek; Pandas gebruikt numpy bij verwerkingen
import numpy as np
import pandas as pd


In [2]:
# Vullen van een Series datastructuur vanuit een Python List
animals = ['Tiger', 'Bear', 'Moose']
pd.Series(animals)

0    Tiger
1     Bear
2    Moose
dtype: object

In [3]:
numbers = [1, 2, 3]
pd.Series(numbers)

0    1
1    2
2    3
dtype: int64

In [4]:
# onbekende gegevens worden met None-objecten of NAN-getallen weergegeven:
animals = ['Tiger', 'Bear', None]
tekstserie = pd.Series(animals)
tekstserie

0    Tiger
1     Bear
2     None
dtype: object

In [5]:
numbers = [1, 2, None]
numberserie = pd.Series(numbers)
numberserie

0    1.0
1    2.0
2    NaN
dtype: float64

In [6]:
# None kan direct gecontroleerd worden
# NaN controleren kan met de functie: np.isnan(..)
print(tekstserie.loc[2] == None)
print(numberserie.loc[2] == np.nan)  # werkt niet
print(np.isnan(numberserie.iloc[2]))

True
False
True


In [7]:
# Vullen van een Series datastructuur via een Python Dictionary
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

Archery           Bhutan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
dtype: object

In [8]:
# index is zelfstandig op te vragen:
s.index

Index(['Archery', 'Golf', 'Sumo', 'Taekwondo'], dtype='object')

In [9]:
# Vullen van een Series datastructuur via een eigen list van Indexen
s = pd.Series(['Tiger', 'Bear', 'Moose'], index=['India', 'America', 'Canada'])
s

India      Tiger
America     Bear
Canada     Moose
dtype: object

# Querying a Series

Het opvragen van de gegevens uit een Series datastructuur

In [10]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

Archery           Bhutan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
dtype: object

In [11]:
# opvragen via de impliciete key: het volgnummer van de rij
s.iloc[3]

'South Korea'

In [12]:
# opvragen via de expliciete key: de index waarde van de rij
s.loc['Golf']

'Scotland'

In [13]:
# verkorte opvraging via de impliciete key: werkt alleen als de indexen niet-nummeriek zijn !!
s[3]

'South Korea'

In [14]:
# verkort opvraging via de expliciet key: werkt altijd maar is verwarend bij DataFrame z (zie verder in dit document !)
s['Golf']

'Scotland'

In [15]:
sports = {99: 'Bhutan',
          100: 'Scotland',
          101: 'Japan',
          102: 'South Korea'}
s = pd.Series(sports)
s

99          Bhutan
100       Scotland
101          Japan
102    South Korea
dtype: object

In [16]:
# s[0] # Dit werkt niet omdat de indexen nummeriek zijn 
# Dit werkt wel, maar dit is opvragen via de expliciet key: de index
s.loc[100]

'Scotland'

In [17]:
# Wijzigen van een waarde
s.loc[100] = 'Great Brittain'
s

99             Bhutan
100    Great Brittain
101             Japan
102       South Korea
dtype: object

## Aantonen van de snelheid van de interne verwerkingen

In [18]:
# Aanmaken van een series van 100.000 random getallen
s = pd.Series(np.random.randint(0,1000,100000))
s.head()

0    974
1    795
2    695
3     86
4    856
dtype: int32

In [19]:
# hoeveel getallen
len(s)

100000

In [20]:
import timeit

start_time = timeit.default_timer()
# Optellen via een for lus
summary = 0
for item in s:
    summary+=item
# code you want to evaluate
timeit.default_timer() - start_time


0.021770601041974237

In [21]:
start_time = timeit.default_timer()
# Optellen via de numpy sum methode
summary = np.sum(s)
# code you want to evaluate
timeit.default_timer() - start_time


0.0015122143878231464

In [22]:
s+=2 #adds two to each item in s using broadcasting
s.head()

0    976
1    797
2    697
3     88
4    858
dtype: int32

In [23]:
for label, value in s.iteritems():
    s.set_value(label, value+2)
s.head()

  


0    978
1    799
2    699
3     90
4    860
dtype: int32

In [24]:
%%timeit -n 10
s = pd.Series(np.random.randint(0,1000,1000))
for label, value in s.iteritems():
    s.loc[label]= value+2

134 ms ± 5.36 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [25]:
%%timeit -n 10
s = pd.Series(np.random.randint(0,1000,1000))
s+=2


437 µs ± 126 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


## Samenvoegen van Series

In [26]:
original_sports = pd.Series({'Archery': 'Bhutan',
                             'Golf': 'Scotland',
                             'Sumo': 'Japan',
                             'Taekwondo': 'South Korea'})
cricket_loving_countries = pd.Series(['Australia',
                                      'Barbados',
                                      'Pakistan',
                                      'England'], 
                                   index=['Cricket',
                                          'Cricket',
                                          'Cricket',
                                          'Cricket'])
all_countries = original_sports.append(cricket_loving_countries)

In [27]:
original_sports

Archery           Bhutan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
dtype: object

In [28]:
cricket_loving_countries

Cricket    Australia
Cricket     Barbados
Cricket     Pakistan
Cricket      England
dtype: object

In [29]:
all_countries

Archery           Bhutan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
Cricket        Australia
Cricket         Barbados
Cricket         Pakistan
Cricket          England
dtype: object

In [30]:
all_countries.loc['Cricket']

Cricket    Australia
Cricket     Barbados
Cricket     Pakistan
Cricket      England
dtype: object