# data bewerken

In [1]:
import bluebelt as blue

In [2]:
blue.set_language("nl")

### dummy data
Met de functies `dummy_series` en `dummy_frame` kan een fictieve dataset worden samengesteld. Hierbij kan het aantal jaren, de resolutie en een fractie van willekeurige fouten worden ingesteld. Voor het `dummy_frame` kan ook nog het aantal skills worden ingesteld.

De default instellingen zijn:

`bluebelt.dummy_series(years=1, resolution=0.25, frac=0.02)`

`bluebelt.dummy_frame(years=1, skills=4, resolution=0.25, frac=0.02)`


In [5]:
# 2 jaar, 4 skills, uren afronden op halve uren, geen fouten
blue.dummy_frame(years=2, skills=4, resolution=0.5, frac=0)

Unnamed: 0,skill A,skill B,skill C,skill D
2021-01-04,459.5,506.0,439.0,540.0
2021-01-05,508.0,610.5,597.0,558.0
2021-01-06,359.5,398.5,373.5,366.5
2021-01-07,495.5,513.0,417.5,329.5
2021-01-08,501.0,544.5,589.0,442.0
...,...,...,...,...
2022-12-28,657.5,696.0,796.0,594.5
2022-12-29,757.0,629.0,766.0,681.0
2022-12-30,779.0,796.5,933.0,828.0
2022-12-31,189.0,231.0,240.0,206.0


### fouten vervangen

Met de functie `fill_na()` wordt missende data opgevuld. Dit kan handig zijn om een beter beeld te kunnen geven van workload maar moet wel voorzichtig worden gebruikt. De missende data wordt per weekdag gevuld met het gemiddelde van de zelfde weekdag van voorgaande en volgende week.

In [10]:
series = blue.dummy_series(frac=0.2)

In [12]:
series.head(25)

2019-12-30    574.75
2019-12-31    526.00
2020-01-01    464.50
2020-01-02    407.00
2020-01-03    471.75
2020-01-04    136.25
2020-01-05     24.75
2020-01-06       NaN
2020-01-07       NaN
2020-01-08    357.00
2020-01-09    402.75
2020-01-10    582.25
2020-01-11    142.75
2020-01-12     25.75
2020-01-13       NaN
2020-01-14    376.75
2020-01-15       NaN
2020-01-16    477.25
2020-01-17    594.25
2020-01-18    138.75
2020-01-19     23.00
2020-01-20    510.50
2020-01-21    492.00
2020-01-22       NaN
2020-01-23    331.50
Freq: D, Name: hours, dtype: float64

In [13]:
series._.fill_na().head(25)

2019-12-30    574.750000
2019-12-31    526.000000
2020-01-01    464.500000
2020-01-02    407.000000
2020-01-03    471.750000
2020-01-04    136.250000
2020-01-05     24.750000
2020-01-06    553.333333
2020-01-07    451.375000
2020-01-08    357.000000
2020-01-09    402.750000
2020-01-10    582.250000
2020-01-11    142.750000
2020-01-12     25.750000
2020-01-13    531.916667
2020-01-14    376.750000
2020-01-15    384.000000
2020-01-16    477.250000
2020-01-17    594.250000
2020-01-18    138.750000
2020-01-19     23.000000
2020-01-20    510.500000
2020-01-21    492.000000
2020-01-22    411.000000
2020-01-23    331.500000
Name: hours, dtype: float64

In [3]:
frame = blue.dummy_frame(1, 4) # 1 jaar, 4 skills
frame.head(7) # geef alleen de eerste 5 regels weer

Unnamed: 0,skill A,skill B,skill C,skill D
2022-01-03,458.5,556.5,468.5,469.5
2022-01-04,453.25,506.25,467.25,474.5
2022-01-05,330.25,489.25,519.75,425.25
2022-01-06,441.0,400.0,266.75,321.5
2022-01-07,459.25,521.5,570.0,
2022-01-08,96.25,162.75,119.75,144.0
2022-01-09,21.5,20.5,,24.5


### weekenden

De weekenden kunnen op verschillende manieren uit de data worden gefilterd. De standaard manier is dat de data van weekenden worden vervangen door `np.nan` (not a number, ofwel een blanco waarde). De tweede optie is om de weekenden helemaal te laten vervallen. Hiervoor moet de optie `drop=True` worden gebruikt.

In de onderstaande voorbeelden wordt telkens alleen de eerste 7 regels van het DataFrame weergegeven door de toevoeging `.head(7)` om de leesbaarheid te vergroten.

In [4]:
# de weekenden vervangen
frame._.not_weekend().head(7)

Unnamed: 0,skill A,skill B,skill C,skill D
2022-01-03,458.5,556.5,468.5,469.5
2022-01-04,453.25,506.25,467.25,474.5
2022-01-05,330.25,489.25,519.75,425.25
2022-01-06,441.0,400.0,266.75,321.5
2022-01-07,459.25,521.5,570.0,
2022-01-08,,,,
2022-01-09,,,,


In [5]:
# de weekenden helemaal weg, dus regel 6 en 7 bevatten de maandag en dinsdag van de tweede week
frame._.not_weekend(drop=True).head(7)

Unnamed: 0,skill A,skill B,skill C,skill D
2022-01-03,458.5,556.5,468.5,469.5
2022-01-04,453.25,506.25,467.25,474.5
2022-01-05,330.25,489.25,519.75,425.25
2022-01-06,441.0,400.0,266.75,321.5
2022-01-07,459.25,521.5,570.0,
2022-01-10,310.75,529.75,521.0,539.25
2022-01-11,493.0,436.25,552.75,556.25


Uiteraard is het ook mogelijk om alleen de weekenden weergeven of de waarden van overige weekdagen te vervangen door `np.nan`.

In [6]:
frame._.weekend().head(7)

Unnamed: 0,skill A,skill B,skill C,skill D
2022-01-03,,,,
2022-01-04,,,,
2022-01-05,,,,
2022-01-06,,,,
2022-01-07,,,,
2022-01-08,96.25,162.75,119.75,144.0
2022-01-09,21.5,20.5,,24.5


In [7]:
frame._.weekend(drop=True).head(7)

Unnamed: 0,skill A,skill B,skill C,skill D
2022-01-08,96.25,162.75,119.75,144.0
2022-01-09,21.5,20.5,,24.5
2022-01-15,132.5,146.5,152.0,133.75
2022-01-16,18.75,18.0,19.25,22.25
2022-01-22,156.5,106.25,130.5,160.0
2022-01-23,23.5,23.75,23.0,26.25
2022-01-29,183.75,132.5,187.0,134.0


### feestdagen

Het is ook mogelijk de feestdagen te filteren. Voor ieder jaar wordt met behulpt van een algoritme berekend op welke datum een bepaalde feestdag valt.

In [8]:
year = 2022
print(f"nieuwjaarsdag       {blue.helpers.holidays._new_years_day(year).date()}")
print(f"goede vrijdag       {blue.helpers.holidays._good_friday(year).date()}")
print(f"eerste paasdag      {blue.helpers.holidays._easter(year).date()}")
print(f"tweede paasdag      {blue.helpers.holidays._easter_monday(year).date()}")
print(f"koningsdag          {blue.helpers.holidays._kings_day(year).date()}")
if blue.helpers.holidays._liberation_day(year):
    print(f"bevrijdingsdag      {blue.helpers.holidays._liberation_day(year).date()}")
else:
    print("bevrijdingsdag      -")
print(f"hemelvaartsdag      {blue.helpers.holidays._ascension_day(year).date()}")
print(f"eerste pinksterdag  {blue.helpers.holidays._pentecost(year).date()}")
print(f"tweede pinksterdag  {blue.helpers.holidays._whit_monday(year).date()}")
print(f"eerste kerstdag     {blue.helpers.holidays._christmas(year).date()}")
print(f"tweede kerstdag     {blue.helpers.holidays._boxing_day(year).date()}")

nieuwjaarsdag       2022-01-01
goede vrijdag       2022-04-15
eerste paasdag      2022-04-17
tweede paasdag      2022-04-18
koningsdag          2022-04-27
bevrijdingsdag      -
hemelvaartsdag      2022-05-26
eerste pinksterdag  2022-06-05
tweede pinksterdag  2022-06-06
eerste kerstdag     2022-12-25
tweede kerstdag     2022-12-26


Zo is het dus mogelijk om in een DataFrame te kijken op welke feestdagen is of wordt gewerkt.

In [21]:
frame._.holiday(drop=True)

Unnamed: 0,skill A,skill B,skill C,skill D
2022-04-15,546.75,535.25,513.5,557.75
2022-04-17,21.5,28.75,24.0,24.25
2022-04-18,599.25,596.0,553.25,597.0
2022-04-27,476.0,501.25,538.75,561.25
2022-05-26,452.75,574.5,474.25,508.5
2022-06-05,27.0,27.0,22.0,21.0
2022-06-06,535.0,501.25,582.0,556.5
2022-12-25,25.5,28.0,29.25,24.5
2022-12-26,710.0,,625.25,577.0
2023-01-01,27.25,25.25,27.0,29.75


En de feestdagen kunnen net als de weekenden worden gefilterd. Met de optie `drop=True` worden ze helemaal weggehaald. Daarnaast bestaat ook de mogelijkheid om bepaalde feestdagen over te slaan met de optie `skip`. Hiermee worden deze dus niet uit het DataFrame gefilterd. `skip` accepteert een `str` of een `list` als waarde.

In [22]:
frame._.not_holiday(drop=False, skip="goede vrijdag")

Unnamed: 0,skill A,skill B,skill C,skill D
2022-01-03,458.50,556.50,468.50,469.50
2022-01-04,453.25,506.25,467.25,474.50
2022-01-05,330.25,489.25,519.75,425.25
2022-01-06,441.00,400.00,266.75,321.50
2022-01-07,459.25,521.50,570.00,
...,...,...,...,...
2022-12-28,561.50,461.00,478.50,478.00
2022-12-29,485.75,569.50,619.75,532.00
2022-12-30,769.50,605.50,653.00,593.00
2022-12-31,206.50,142.25,176.50,163.25


### werkdagen

De functionaliteit van het filteren van weekenden en feestdagen zijn samengevoegd in de functie `workdays`. Ook hier is het weer mogelijk om de weekenden en feestdagen te vervangen door `np.nan` of helemaal te verwijderen met `drop=True`.

In [11]:
frame._.workdays(drop=True)

Unnamed: 0,skill A,skill B,skill C,skill D
2022-01-03,458.50,556.50,468.50,469.50
2022-01-04,453.25,506.25,467.25,474.50
2022-01-05,330.25,489.25,519.75,425.25
2022-01-06,441.00,400.00,266.75,321.50
2022-01-07,459.25,521.50,570.00,
...,...,...,...,...
2022-12-23,435.00,541.50,537.00,551.00
2022-12-27,570.75,466.25,629.75,491.25
2022-12-28,561.50,461.00,478.50,478.00
2022-12-29,485.75,569.50,619.75,532.00


### subsets

Als laatste is het mogelijk om een deel van een dataset te filteren op basis van de waarden in een kolom met de functie `subset`.

In [12]:
dfx = blue.dummy_frame(1, 4).melt(ignore_index=False)

In [13]:
dfx

Unnamed: 0,variable,value
2022-01-03,skill A,415.75
2022-01-04,skill A,526.00
2022-01-05,skill A,348.00
2022-01-06,skill A,423.50
2022-01-07,skill A,426.75
...,...,...
2022-12-28,skill D,530.50
2022-12-29,skill D,568.00
2022-12-30,skill D,639.25
2022-12-31,skill D,160.75


In [14]:
dfx._.subset(variable="skill C")

Unnamed: 0,variable,value
2022-01-03,skill C,420.75
2022-01-04,skill C,513.50
2022-01-05,skill C,488.50
2022-01-06,skill C,473.75
2022-01-07,skill C,583.75
...,...,...
2022-12-28,skill C,588.25
2022-12-29,skill C,534.50
2022-12-30,skill C,703.75
2022-12-31,skill C,180.75
