In [None]:
import os
import warnings

warnings.filterwarnings("ignore")

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from pandas_profiling import ProfileReport
from scipy import stats
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import (
    Normalizer,
    OneHotEncoder,
    OrdinalEncoder,
    StandardScaler,
)

In [None]:
pd.set_option("display.max_columns", None)
pd.set_option("display.max_colwidth", None)
plt.rcParams["figure.figsize"] = (8, 6)
plt.rcParams["figure.dpi"] = 100
plt.style.use("bmh")

In [None]:
os.chdir("..")

In [None]:
df = pd.read_csv("data/cleaned.csv", index_col=0)
df.reset_index(inplace=True, drop=True)

In [None]:
df.head()

# Enkodowanie, standaryzacja

## Cechy numeryczne

### Licza\_dni\_od\_ost\_kontaktu

In [None]:
bins = [5, 10, 15, 20, 25, 30, 1000]

In [None]:
df.liczba_dni_od_ost_kontaktu = np.digitize(df.liczba_dni_od_ost_kontaktu, bins)

##### Wyjaśnienie
Zamieniamy liczbe dni od ostatniego kontaktu na zakresy w, których te kontakty się odbywały

### Wiek

In [None]:
ss = StandardScaler()

In [None]:
subset = ["euribor3m", "wiek", "liczba_pracownikow"]
subset.extend(df.columns[df.columns.str.startswith("wsk")])
subset

In [None]:
fig, axs = plt.subplots(len(subset), 1, figsize=(8, 14))


for ind, feature in enumerate(subset):
    df[feature].plot(kind="hist", ax=axs[ind], title=feature)

plt.subplots_adjust(hspace=0.3)

In [None]:
df.liczba_pracownikow = np.log(df.liczba_pracownikow)
df.wsk_zauf_konsum = ss.fit_transform(np.asarray(df.wsk_zauf_konsum).reshape(-1, 1))
df.wsk_cen_konsum = ss.fit_transform(np.asarray(df.wsk_cen_konsum).reshape(-1, 1))
df.wsk_zmien_zatrudnienia = np.log(df.wsk_zmien_zatrudnienia + 10)
df.wiek = ss.fit_transform(np.asarray(df.wiek).reshape(-1, 1))

##### Wyjasnienie
Używamy transformaty logarytmicznej dla zmiennych, które posiadają rozkład nie gaussowski, zaś standaryzacji wartości dla zmiennych o rozkładzie zbliżonym do normalnego

## Cechy cykliczne

In [None]:
miesiace = {
    "mar": 3,
    "apr": 4,
    "may": 5,
    "jun": 6,
    "jul": 7,
    "aug": 8,
    "sep": 9,
    "oct": 10,
    "nov": 11,
    "dec": 12,
}
df.miesiac = df.miesiac.map(miesiace) / 12 * np.pi
df.miesiac = np.sin(df.miesiac) * np.cos(df.miesiac)

##### Wyjaśnienie 
Musimy dokonać takiej transformacji ponieważ miesiące są cykliczne, nie możemy powiedzieć, że styczeń jest mniejszy od grudnia. Dlatego musimy dokonać transformacji sinusoidowej, dzięki model nie będzie uważał późniejszych miesięcy za coś większego

## Cechy kategoryczne (z pominieciem _wyksztalcenie_ i _zawod_, gdyz te beda poddane procesowi _feature enginnering_)

In [None]:
def pred_categorical_with_knn(df: pd.DataFrame, attrib: str, neighbours=3) -> None:
    model = KNeighborsClassifier(n_neighbors=3)
    X_train = df[~(df[attrib] == "unknown")]
    y_train = X_train[attrib]
    X_train = X_train.drop(attrib, axis=1)

    X_pred = df[df[attrib] == "unknown"]
    y_pred = X_pred[attrib]
    X_pred = X_pred.drop(attrib, axis=1)

    model.fit(X_train, y_train)
    df.loc[X_pred.index, attrib] = model.predict(X_pred)

In [None]:
df["aktywnie_pracujacy"] = ~df.zawod.isin(["student", "unemployed", "retired"]) + 0

In [None]:
subset = df.select_dtypes(include="object")
subset = subset[subset.columns.difference(["wyksztalcenie"])]

zawod_array = df.zawod

In [None]:
encoder = OneHotEncoder()
encoded_df = encoder.fit_transform(subset).toarray()
encoded_df = pd.DataFrame(encoded_df, columns=encoder.get_feature_names_out())
encoded_df = encoded_df.drop("sposob_kontaktu_cellular", axis=1)

df = df.join(encoded_df)
df = df.drop(subset.columns, axis=1)

### Wyksztalcenie (zamiana wartosci _unknown_, przy pomocy algorytmu __KNN__)

In [None]:
attrib = "wyksztalcenie"

In [None]:
pred_categorical_with_knn(df, attrib, 3)

In [None]:
df.wyksztalcenie.value_counts()

In [None]:
map_wyksztalcenie_do_liczby = {
    "illiterate": 0,
    "basic.4y": 1,
    "basic.6y": 2,
    "basic.9y": 3,
    "high.school": 4,
    "professional.course": 5,
    "university.degree": 6,
}

In [None]:
df.wyksztalcenie = df.wyksztalcenie.map(map_wyksztalcenie_do_liczby)

##### Wyjaśnienie
Wykształcenie jest atrybutem kategorycznym porządkowym, mapujemy go więc na liczby, które potem będziemy mogli łatwo porównywać

### Zawod

In [None]:
attrib = "zawod"

In [None]:
subset = df.columns.str.startswith("zawod")
df = df.iloc[:, ~subset]
df[attrib] = zawod_array

In [None]:
pred_categorical_with_knn(df, attrib)

In [None]:
df.zawod.value_counts()

In [None]:
attrib = "zawod"
df = df.drop(attrib, axis=1).join(pd.get_dummies(df.zawod))

##### Wyjasnienie
Do modelu potrzebujemy nie mieć żadnych danych tekstowych w tabeli, więc trzeba przemapować kolumne zawód na dodatkowe kolumny unikatowych wartości zatrudnienia w których będzie wpisane 0 jeżeli nie pracuje w tym zawodzie i 1 jeżeli dany klient pracuje w tym zawodzie

In [None]:
df.head()

In [None]:
# ProfileReport(df, dark_mode=True).to_widgets()

In [None]:
df.to_csv("data/totrain.csv")