# TESTI: itse määriteltyjä sarakkeita esikäsittelijällä

Tässä testissä testataan osaa itse määritellyistä sarakkeista, jotka myös esikäsittelijä osaa luoda. Lisäksi testataan uutta mode-valikoimaa, joka on nyt `['none', 'minimal', 'common']`.

## Mode: 'common'

'common' on oletus, joten sitä ei välttämättä tarvitse antaa kutsun parametriksi. Mode pyrkii karsimaan virheellisen datan pois ja tekee kaikki pyydetyt itse määritellyt sarakkeet. Tässä testataan:

- 'customer_segment_3'
  - Jako: RES, SMALL NON-RES, LARGE NON-RES
  - NON-RES koostettu alkuperäisistä ryhmistä COM, GOV, SCHOOL, NON-PROFIT, NON-RES
  - Raja määritellään parametrilla `large-limit`, joka on oletuksena 100 kW
  - Raja-arvo kuuluu ryhmään 'SMALL NON-RES'
- 'battery_storage'
  - bool sarake
  - arvo 1 : järjestelmässä (arviolta) on akku
  - arvo 0 : järjestelmässä (arviolta) ei ole akkua
  - arvioon voi sisällyttää teslan asennuksia kolmella tavalla
    - 'none' asettaa kaikkiin arvon 0
    - 'neutral' antaa akun määräytyä muiden kriteerien perusteella
    - 'all' asettaa kaikkiin arvon 1

In [1]:
import importlib.util
import sys
file_path = "../Tehtava-03/preprocessor.py"; module_name = "preprocessor"; spec = importlib.util.spec_from_file_location(module_name, file_path)
esik = importlib.util.module_from_spec(spec); sys.modules[module_name] = esik; spec.loader.exec_module(esik)

cols = ['customer_segment_3', 'system_size_DC', 'battery_storage', 'installer_name']

df_none = esik.esik(cols, large_limit=120, tesla_battery='none')
df_neutral = esik.esik(cols, large_limit=120, tesla_battery='neutral', sshi_with_battery=False)
df_all = esik.esik(cols, large_limit=120, tesla_battery='all')


In [2]:
print("df_all.shape:", df_all.shape)
display(df_all.describe())
display(df_all.groupby(['customer_segment_3']).agg({'system_size_DC': ['size', 'count', 'min', 'max'], 'battery_storage': ['count', 'mean']}))
display(df_all.groupby(['battery_storage']).agg({'system_size_DC': ['size', 'count', 'min', 'max']}))


df_all.shape: (1000000, 4)


Unnamed: 0,system_size_DC,battery_storage
count,808686.0,1000000.0
mean,9.22886,0.180785
std,47.269687,0.38484
min,0.068,0.0
25%,3.9,0.0
50%,5.44,0.0
75%,7.59,0.0
max,13305.61,1.0


Unnamed: 0_level_0,system_size_DC,system_size_DC,system_size_DC,system_size_DC,battery_storage,battery_storage
Unnamed: 0_level_1,size,count,min,max,count,mean
customer_segment_3,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
LARGE NON-RES,5278,5278,120.06,13305.61,5278,0.101933
NON-RES,5330,0,,,5330,0.102064
RES,974311,788327,0.068,1106.56,974311,0.183033
SMALL NON-RES,15081,15081,0.23,120.0,15081,0.090975


Unnamed: 0_level_0,system_size_DC,system_size_DC,system_size_DC,system_size_DC
Unnamed: 0_level_1,size,count,min,max
battery_storage,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,819215,657604,0.068,7586.5625
1,180785,151082,0.225,13305.61


### Akut Tesla Energyllä

In [3]:
df = df_none.copy()
df = df[(df['battery_storage'] == 1) & (df['installer_name'] == 'Tesla Energy')]
print("df_none.shape: ", df.shape)
df = df_neutral.copy()
df = df[(df['battery_storage'] == 1) & (df['installer_name'] == 'Tesla Energy')]
print("df_neutral.shape: ", df.shape)
df = df_all.copy()
df = df[(df['battery_storage'] == 1) & (df['installer_name'] == 'Tesla Energy')]
print("df_all.shape: ", df.shape)
# sshi_battery True
# 0
# 4808
# 170110

df_none.shape:  (0, 4)
df_neutral.shape:  (4774, 4)
df_all.shape:  (170110, 4)


## Mode: 'none'

### Itse määriteltyjä sarakkeita

Kielletään varsinainen esikäsittely, mutta yritetään ladata itse määriteltyjä sarakkeita. Pitäisi tulostaa huomautuksen ja ladata vain alkuperäisiin kuuluvat sarakkeet.

In [4]:
cols = ['customer_segment_3', 'system_size_DC', 'battery_storage']
df_all = esik.esik(cols, 'none')
print("df_all.shape:", df_all.shape)
display(df_all.describe())


############################################################
Itse määriteltyjä sarakkeita ei ladattu.
############################################################
df_all.shape: (1000000, 1)


Unnamed: 0,system_size_DC
count,988692.0
mean,9.325515
std,47.06502
min,0.0055
25%,3.924
50%,5.52
75%,7.75
max,13305.61


### Vain alkuperäisiä sarakkeita

Testataan, että mode toimii myös oikein käytettynä.

In [5]:
cols = ['total_installed_price', 'system_size_DC']
df_all = esik.esik(cols, 'none')
print("df_all.shape:", df_all.shape)
display(df_all.describe())


df_all.shape: (1000000, 2)


Unnamed: 0,total_installed_price,system_size_DC
count,814364.0,988692.0
mean,38247.08,9.325515
std,191948.1,47.06502
min,0.01,0.0055
25%,16282.0,3.924
50%,24042.56,5.52
75%,34249.95,7.75
max,61507190.0,13305.61
