# Pandas – Lesvoorbeeld 5.

## Merging Dataframes


In [None]:
import numpy as np
import pandas as pd

Het samenvoegen van gegevens uit meerdere dataframes tot één geheel

In [None]:
# Staff en student gegevens, waarbij een student ook staff (=student-assistent) kan zijn
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR'},
                         {'Name': 'Sally', 'Role': 'Course liasion'},
                         {'Name': 'James', 'Role': 'Grader'}])
# zorgen voor de index op Name
staff_df = staff_df.set_index('Name')
print(staff_df)

student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business'},
                           {'Name': 'Mike', 'School': 'Law'},
                           {'Name': 'Sally', 'School': 'Engineering'}])
student_df = student_df.set_index('Name')
print(student_df)

Op vergelijkbare wijze als bij SQL zijn er 4 join mogelijkheden

In [None]:
pd.merge(staff_df, student_df, how='outer', left_index=True, right_index=True)

In [None]:
pd.merge(staff_df, student_df, how='inner', left_index=True, right_index=True)

In [None]:
pd.merge(staff_df, student_df, how='left', left_index=True, right_index=True)

In [None]:
pd.merge(staff_df, student_df, how='right', left_index=True, right_index=True)

In [None]:
# merging is ook mgeljk zonder index, maar door het aangeven van de kolomnamen
staff_df = staff_df.reset_index()
student_df = student_df.reset_index()
pd.merge(staff_df, student_df, how='left', left_on='Name', right_on='Name')

In [None]:
# Wanneer er bij het mergen 'identieke' kolommen in beide dataframes staan, dan worden de voorzien van een postfix
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR', 'Location': 'State Street'},
                         {'Name': 'Sally', 'Role': 'Course liasion', 'Location': 'Washington Avenue'},
                         {'Name': 'James', 'Role': 'Grader', 'Location': 'Washington Avenue'}])

student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business', 'Location': '1024 Billiard Avenue'},
                           {'Name': 'Mike', 'School': 'Law', 'Location': 'Fraternity House #22'},
                           {'Name': 'Sally', 'School': 'Engineering', 'Location': '512 Wilson Crescent'}])

pd.merge(staff_df, student_df, how='left', left_on='Name', right_on='Name')

In [None]:
# Merging kan ook op meerdere kolommen 
staff_df = pd.DataFrame([{'First Name': 'Kelly', 'Last Name': 'Desjardins', 'Role': 'Director of HR'},
                         {'First Name': 'Sally', 'Last Name': 'Brooks', 'Role': 'Course liasion'},
                         {'First Name': 'James', 'Last Name': 'Wilde', 'Role': 'Grader'}])
student_df = pd.DataFrame([{'First Name': 'James', 'Last Name': 'Hammond', 'School': 'Business'},
                           {'First Name': 'Mike', 'Last Name': 'Smith', 'School': 'Law'},
                           {'First Name': 'Sally', 'Last Name': 'Brooks', 'School': 'Engineering'}])
pd.merge(staff_df, student_df, how='inner', left_on=['First Name','Last Name'], right_on=['First Name','Last Name'])

# Date Functionality in Pandas

Pandas heeft de volgende datastructuren voor datum en tijd functionaliteiten
- Timestamp: weergave van een datum-tijd punt
- Period: verzameling van datums of tijd van een bepaald type: bijv. Dagen, Minuten, Nanoseconden
- TimeDelta: weergave van de tijdsduur tussen 2 datum-tijd waarden

### Timestamp

In [None]:
# Vormen van een timestamp (datum en tijd punt) uit een tekst.
pd.Timestamp('9/1/2016 10:05AM')

In [None]:
# aanmaken van een reeks van timestamps uren 
pd.date_range('2016-01-09 00:00:00', periods = 6, freq = 'H')

### Period

In [None]:
# aanmaken van een periode van het type Maand
pd.Period('1/2016')

In [None]:
pd.Period('3/5/2016')

In [None]:
# aanmaken van een reeks van perioden van het type Maand
pd.period_range('2016-01',periods=6, freq='M')

### DatetimeIndex

In [None]:
# Aanmaken van een Series, waarbij de indes een timestamp is
t1 = pd.Series(list('abc'), [pd.Timestamp('2016-09-01'), pd.Timestamp('2016-09-02'), pd.Timestamp('2016-09-03')])
t1

In [None]:
type(t1.index)

### PeriodIndex

In [None]:
# Aanmaken van een Series, waarbij de index een periode is
t2 = pd.Series(list('def'), [pd.Period('2016-09'), pd.Period('2016-10'), pd.Period('2016-11')])
t2

In [None]:
type(t2.index)

### Converting to Datetime

In [None]:
# Vullen van een dataframe, waarbij de datums als verschillende soorten tekst in de index gezet worden:
d1 = ['2 June 2013', 'Aug 29, 2014', '2015-06-26', '7/12/16']
ts3 = pd.DataFrame(np.random.randint(10, 100, (4,2)), index=d1, columns=list('ab'))
ts3

In [None]:
# Omvormen van de index van teksten naar een index met timestamps
ts3.index = pd.to_datetime(ts3.index)
ts3

In [None]:
pd.to_datetime('4.7.12', dayfirst=True)

### Timedeltas

In [None]:
# Berekenen van de tijdsduur tussen 2 datums (Amerikaanse notatie !) 
pd.Timestamp('9/3/2016')-pd.Timestamp('9/1/2016')

In [None]:
# Berekenen van een timestamp door optellen met een TimeDelta
pd.Timestamp('9/2/2016 8:10AM') + pd.Timedelta('12D 3H')

### Working with Dates in a Dataframe

In [None]:
# aanmaken van een reeks van timestamps (1x per 14 dagen)
dates = pd.date_range('10-01-2016', periods=9, freq='2W-SUN')
dates

In [None]:
# aanmaken van een datafram uit 2 dictionary lijsten met als index de reeks van timestamps
df = pd.DataFrame({'Count 1': 100 + np.random.randint(-5, 10, 9).cumsum(),
                  'Count 2': 120 + np.random.randint(-5, 10, 9)}, index=dates)
df

In [None]:
# Tonen van dagnamen van de index
df.index.weekday_name

In [None]:
# Berekenen van de verschillen tussen 2 opeenvolgende rijen
df.diff()

In [None]:
# Omvormen naar maand weergave en dan gemiddelde berekenen
df.resample('M').mean()

In [None]:
# selecteren van het jaar 2017
df['2017']

In [None]:
# selecteren van december 2016
df['2016-12']

In [None]:
# selecteren vanaf december 2016 tot einde van de reeks
df['2016-12':]

In [None]:
# Omvormen naar maand weergave en dan de waarde opvullen 'forward fill'
df.asfreq('W', method='ffill')

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

df.plot()

In [None]:
# Einde