# GroupBy & Missing Data


In [55]:
import numpy as np
import pandas as pd

np.random.seed(42)

companies = ['GOOG', 'MSFT', 'FB', 'AMZN', 'AAPL']
regions = ['US', 'EU', 'ASIA', 'AFRICA', None]
products = ['Cloud', 'Ads', 'Mobile', 'Hardware', 'AI', None]

data = {
    'Company': np.random.choice(companies, 40),
    'Region': np.random.choice(regions, 40),
    'Product': np.random.choice(products, 40),
    # Sales tussen 50 en 500, met 20% kans op NaN
    'Sales': np.where(
        np.random.rand(40) < 0.2,
        np.nan,
        np.random.randint(50, 500, 40)
    )
}

df = pd.DataFrame(data)



In [77]:
df.head()

Unnamed: 0,Company,Region,Product,Sales
0,AMZN,AFRICA,AI,201.0
1,AAPL,US,Cloud,364.0
2,FB,AFRICA,AI,
3,AAPL,EU,AI,209.0
4,AAPL,EU,Cloud,


## 1. GroupBy


#### Oefening 1.1

- Maak een GroupBy-object `by_company` dat groepeert op `Company`.
- Bereken de gemiddelde `Sales` per `Company`
- Bereken in 1 lijn code eveneens de som en het aantal waarden van 'Sales'

(voorlopig hoef je nog niet te kijken naar ontbrekende waarden)

In [57]:
# Jouw code hier


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x118d2d550>

In [58]:
# Jouw code hier


Company
AAPL    302.833333
AMZN    216.888889
FB      266.875000
GOOG    300.800000
MSFT    282.200000
Name: Sales, dtype: float64

In [59]:
# Jouw code hier



Unnamed: 0,Company,sum,count
0,AAPL,1817.0,6
1,AMZN,1952.0,9
2,FB,2135.0,8
3,GOOG,1504.0,5
4,MSFT,1411.0,5


#### Oefening 1.2

- Maak een GroupBy-object `by_comp_region` dat groepeert op 'Company' en 'Region'`.
- Bereken de **som van `Sales`** per combinatie van `(Company, Region)`

In [60]:
# Jouw code hier


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x118d2d250>

Company  Region
AAPL     AFRICA    1082.0
         EU         371.0
         US         364.0
AMZN     AFRICA    1160.0
         ASIA       436.0
         EU         130.0
FB       AFRICA     103.0
         EU         988.0
         US         661.0
GOOG     AFRICA     954.0
         EU         550.0
MSFT     AFRICA     296.0
         EU         236.0
         US         444.0
Name: Sales, dtype: float64

## Oefening 1.3

#### Oefening 3.1

- Haal met één methode de descriptive statistics (mean, std, kwantielen) o
- Selecteer de rij voor `Company == 'GOOG'` en sla op in `goog_stats`.



In [62]:
# Jouw code hier



In [63]:
# Jouw code hier


Unnamed: 0,Company,count,mean,std,min,25%,50%,75%,max
3,GOOG,5.0,300.8,171.572725,102.0,179.0,269.0,465.0,489.0


## 2. Missing Data


#### Oefening 2.1

- Bereken het aantal missing values per kolom
- Bereken het aantal missing values per rij


In [64]:
# Jouw code hier


Company    0
Region     6
Product    3
Sales      7
dtype: int64

In [65]:
# Jouw code hier


0     0
1     0
2     1
3     0
4     1
5     0
6     0
7     1
8     0
9     0
10    0
11    1
12    0
13    1
14    0
15    0
16    0
17    0
18    0
19    0
20    0
21    1
22    1
23    0
24    0
25    1
26    0
27    1
28    0
29    1
30    0
31    1
32    2
33    0
34    1
35    2
36    0
37    0
38    0
39    0
dtype: int64

#### Oefening 2.2

- Maak een DataFrame `df_complete` waarin je **alle rijen** met minstens één NaN weglaat.
- Maak een DataFrame `df_complete_sales` waarin je enkel rijen behoudt waar `Sales` **niet** NaN is
- Print `df_drop_rows` en `df_drop_sales`.


In [76]:
# Jouw code hier


Unnamed: 0,Company,Region,Product,Sales
0,AMZN,AFRICA,AI,201.0
1,AAPL,US,Cloud,364.0
3,AAPL,EU,AI,209.0
5,MSFT,US,Cloud,282.0
6,FB,EU,Cloud,229.0


In [75]:
df_complete_sales = df.dropna(subset=['Sales'])


Unnamed: 0,Company,Region,Product,Sales
0,AMZN,AFRICA,AI,201.0
1,AAPL,US,Cloud,364.0
3,AAPL,EU,AI,209.0
5,MSFT,US,Cloud,282.0
6,FB,EU,Cloud,229.0


#### Oefening 2.3

- Vul de missende waarden in `Product` op met de string `'Unknown'`.
- Vulde missende waarden in `Sales` op met het **gemiddelde** van `Sales`.



In [74]:
# Jouw code hier
df['Product'] = df['Product'].fillna('Unknown') # of nog: df.fillna({'Product':'Unknown'}, inplace=True)


Unnamed: 0,Company,Region,Product,Sales
0,AMZN,AFRICA,AI,201.0
1,AAPL,US,Cloud,364.0
2,FB,AFRICA,AI,
3,AAPL,EU,AI,209.0
4,AAPL,EU,Cloud,


Reflectievraag: navigator leg uit

- Wanneer is het zinvol om NaN in een numerieke kolom te vervangen door het gemiddelde?
- Wanneer kan dat een slecht idee zijn (denk aan scheve verdelingen, outliers, …)?

Super goed gedaan!

In [79]:
# Jouw code hier


np.float64(267.2424242424242)

In [80]:
# Jouw code hier


Unnamed: 0,Company,Region,Product,Sales
0,AMZN,AFRICA,AI,201.0
1,AAPL,US,Cloud,364.0
2,FB,AFRICA,AI,267.242424
3,AAPL,EU,AI,209.0
4,AAPL,EU,Cloud,267.242424
