In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import sys
import os

In [9]:
raw_path = os.path.join(os.path.dirname(os.path.abspath('')), "data/raw")
train = pd.read_csv(os.path.join(raw_path, "train.csv"))
test = pd.read_csv(os.path.join(raw_path, "test.csv"))

In [30]:
TARGET_COLS = ['Артериальная гипертензия', 'ОНМК', 'Стенокардия, ИБС, инфаркт миокарда', 'Сердечная недостаточность', 'Прочие заболевания сердца']
ID_COL = 'ID'
UNNECESSARY_ID = 'ID_y'
EDU_COL = 'Образование'
SEX_COL = 'Пол'
CAT_COLS = [
    'Пол', 'Семья', 'Этнос', 'Национальность', 'Религия', 'Образование', 
    'Профессия', 'Статус Курения', 'Частота пасс кур', 'Алкоголь',
    'Время засыпания', 'Время пробуждения'
]
OHE_COLS = [
    'Вы работаете?', 'Выход на пенсию', 'Прекращение работы по болезни', 'Сахарный диабет', 'Гепатит',
    'Онкология', 'Хроническое заболевание легких', 'Бронжиальная астма', 'Туберкулез легких ', 'ВИЧ/СПИД',
    'Регулярный прим лекарственных средств', 'Травмы за год', 'Переломы','Пассивное курение', 'Сон после обеда', 
    'Спорт, клубы', 'Религия, клубы'
]
REAL_COLS = ['Возраст курения', 'Сигарет в день', 'Возраст алког']

In [28]:
def set_idx(df : pd.DataFrame, idx_col : str) -> pd.DataFrame:
    return df.set_index(idx_col)

In [22]:
def drop_col(df : pd.DataFrame, colname : str) -> pd.DataFrame:
    return df.drop(colname, axis=1) if colname in df.columns else df

In [23]:
def fill_sex(df: pd.DataFrame) -> pd.DataFrame:
    most_freq = df[SEX_COL].value_counts().index[0]
    df[SEX_COL] = df[SEX_COL].fillna(most_freq)
    return df

In [24]:
def cast_types(df: pd.DataFrame) -> pd.DataFrame:
    df[CAT_COLS] = df[CAT_COLS].astype('category')

    ohe_int_cols = train[OHE_COLS].select_dtypes('number').columns
    df[ohe_int_cols] = df[ohe_int_cols].astype(np.int8)

    df[REAL_COLS] = df[REAL_COLS].astype(np.float32)
    return df

In [25]:
def preprocess(df: pd.DataFrame) -> pd.DataFrame:
    df = set_idx(df, ID_COL)
    df = drop_col(df, UNNECESSARY_ID)
    df = fill_sex(df)
    df = cast_types(df)
    return df

In [31]:
processed_data = preprocess(train)

In [32]:
processed_data.dtypes

Пол                                      category
Семья                                    category
Этнос                                    category
Национальность                           category
Религия                                  category
Образование                              category
Профессия                                category
Вы работаете?                                int8
Выход на пенсию                              int8
Прекращение работы по болезни                int8
Сахарный диабет                              int8
Гепатит                                      int8
Онкология                                    int8
Хроническое заболевание легких               int8
Бронжиальная астма                           int8
Туберкулез легких                            int8
ВИЧ/СПИД                                     int8
Регулярный прим лекарственных средств        int8
Травмы за год                                int8
Переломы                                     int8


In [1]:
import pickle

In [2]:
with open("../data/interim/train.pkl", "rb") as f:
    train = pickle.load(f)