In [None]:
import os

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats

In [None]:
pd.set_option("display.max_columns", None)
pd.set_option("display.max_colwidth", None)
plt.rcParams["figure.figsize"] = (8, 6)
plt.rcParams["figure.dpi"] = 100
plt.style.use("bmh")

In [None]:
os.chdir("..")

In [None]:
df = pd.read_csv("data/precleaned.csv", index_col=0)

In [None]:
df = df.reset_index(drop=True)

In [None]:
df.head()

# Quickstart
1. [Import danych](#Import-danych-i-podstawowe-informacje-o-zbiorze)
2. [Wykresy](#Wykresy-i-wnioski-przyblizajace-zbior-danych)
3. [Potencjalne pytania](#Pytania,-ktore-moga-potencjalnie-naprowadzic-na-cechy,-ktore-maja-wieksze-znaczenie-dla-predykcji-targetu)
4. [Key takeaways](#Key-takeaways)

# Detekcja wartosci odstajacych

In [None]:
df.describe()

## Cechy numeryczne

In [None]:
subset = df.select_dtypes(exclude="object")

In [None]:
fig, axs = plt.subplots(len(subset.columns), dpi=200, figsize=(12, 22))

for ind, feature in enumerate(subset.columns):
    sns.boxplot(data=df, x=df[feature], y="target", ax=axs[ind], orient="h")

plt.subplots_adjust(hspace=0.7)

#### Jakies spostrzezenia dla tych cech gdzie cos ciekawego widac
-
-
-

### wiek

In [None]:
wiek_subset = np.abs(stats.zscore(df["wiek"]))
wiek_subset.plot(kind="hist", bins=6, logy=True, title="Zscore dla wieku");

In [None]:
threshold = 3
df = df.iloc[np.where(wiek_subset <= threshold)[0]]

### dl_polaczenia

In [None]:
sns.histplot(data=df.dl_polaczenia)

#### Jakies spostrzezenia
-
-
-

In [None]:
df[(df.dl_polaczenia <= 0)]

#### Nie nalezy porzucac tych obserwacji, gdyz sa naturalnym wynikiem rozlaczenia sie klienta z konsultantem

In [None]:
df = df[~(df.dl_polaczenia <= 0)]

In [None]:
subset = stats.boxcox(df["dl_polaczenia"])[0]

#### Sprawdzamy, czy _dl\_polaczenia_, po transformacji ma rozklad normalny.

In [None]:
sns.histplot(data=subset);

In [None]:
df[df.dl_polaczenia > 2000].target.value_counts()

#### Dlugie rozmowy maja duze znaczenie dla modelu, bo mozna zauwazyc, ze im dluzsze sa rozmowy, tym wieksza szansa na to, ze osoba bedzie zainteresowana depozytem, wiec nie sa to tzw. wartosci odstajace.

#### Kolumna _dl\_polaczenia_ jest jedynie cecha pozwalajaca na walidacje modelu, wiec zostanie ona pominieta.

### liczba_polaczen_aktualnej_kampanii

In [None]:
pd.crosstab(index=df.liczba_polaczen_aktualnej_kampanii, columns=df.target).T

#### Na podstawie powyzszego zestawienia moznaby pokusic sie o porzucenie obserwacji, gdzie _liczba\_polaczen\_aktualnej\_kampanii_ przekracza wartosc 11, bo znaczaca wiekszosc takich obserwacji, sprowadza sie do nieudanej proby namowienia klienta do depozytu.

In [None]:
df = df[df.liczba_polaczen_aktualnej_kampanii <= 18]

In [None]:
sns.countplot(
    data=df[df.liczba_polaczen_aktualnej_kampanii < 20],
    x="liczba_polaczen_aktualnej_kampanii",
    hue="target",
);

### liczba_dni_od_ost_kontaktu

In [None]:
sns.countplot(data=df, x="liczba_dni_od_ost_kontaktu", hue="target")
plt.yscale("log")

#### Jako ze jest to skala logarytmiczna, moze sie wydawac ze roznica miedzy iloscia ludzi, ktorzy zdecydowali sie na depozyt, a tymi ktorzy sie na to nie zdecydowali, jest minimalna, jednak w rzeczywistosci jest ona bardzo duza.

In [None]:
df[df.liczba_dni_od_ost_kontaktu == 999].target.value_counts()

### WAZNE! Zastanowic sie co zrobic z tymi 999, czy zamienic je na pd.NA? Tutaj 999 oznacza, ze po prostu nie bylo wczesniejszego kontaktu z klientem, w sensie nie kontaktowano sie z nim w ramach poprzedniej kampanii, oraz jest to pierwsza kampania, w ktorej sie z nim kontaktujemy.

### liczba_polaczen_przed_aktualna_kampania

In [None]:
ctab = pd.crosstab(df.target, df.liczba_polaczen_przed_aktualna_kampania).T
ctab

#### Co ciekawe, im dokonano wiecej polaczen przed aktualna kampania, to wiekszy procent osob decydowal sie na depozyt.

In [None]:
ctab["%"] = ctab[1] / ctab.sum(axis=1)

In [None]:
ctab

In [None]:
sns.countplot(data=df, x=df.liczba_polaczen_przed_aktualna_kampania, hue="target")

In [None]:
df = df[df.liczba_polaczen_przed_aktualna_kampania <= 3]

### Wspolczynniki rynkowe

In [None]:
wspolczynniki = (
    "wsk_zmien_zatrudnienia",
    "wsk_cen_konsum",
    "wsk_zauf_konsum",
    "liczba_pracownikow",
)
fig, axs = plt.subplots(len(wspolczynniki), figsize=(12, 24), dpi=200)

for ind, wsp in enumerate(wspolczynniki):
    sns.countplot(
        data=df,
        x=df[wsp],
        ax=axs[ind],
        hue="target",
        dodge=False,
    )

#### Jakies spostrzezenia
-
-
-

In [None]:
pd.crosstab([df.liczba_pracownikow, df.wsk_zmien_zatrudnienia], df.target)

#### euribor3m

In [None]:
sns.kdeplot(
    data=df,
    x="euribor3m",
    hue="target",
);

#### Jakies spostrzezenia
-
-
-

In [None]:
ctab = (
    pd.crosstab(df.euribor3m, df.target)
    .sort_values(by=[0, 1], ascending=False)
    .head(100)
)
ctab["%"] = ctab[1] / ctab.sum(axis=1) * 100

In [None]:
ctab

In [None]:
ctab = (
    pd.crosstab(df.euribor3m, df.target)
    .sort_values(by=[1, 0], ascending=False)
    .head(100)
)
ctab["%"] = ctab[1] / ctab.sum(axis=1) * 100
ctab = ctab.sort_values(by="%", ascending=False)

In [None]:
ctab

In [None]:
sns.scatterplot(data=ctab, x=ctab.index, y="%")

#### Im nizsza stopa procentowa, tym wiekszy % osob chce dokonac depozytu.

## Dane kategoryczne

W tej czesci skupimy sie na obserwacjach o wartosciach _unknown_.

In [None]:
subset = df.select_dtypes(include="object")

In [None]:
fig, axs = plt.subplots(len(subset.columns) - 3, dpi=200, figsize=(12, 22))

for ind, feature in enumerate(subset.columns):
    if "unknown" in subset[feature].values:
        sns.countplot(data=df, x=df[feature], hue="target", ax=axs[ind], orient="h")
        axs[ind].bar_label(axs[ind].containers[0])
        axs[ind].bar_label(axs[ind].containers[1])
plt.subplots_adjust(hspace=0.7)

#### Jakies spostrzezenia
-
-
-

### Ma_pozyczke, ma_kredyt, kredyt_mieszkaniowy

In [None]:
df = df[~(df.ma_pozyczke == "unknown")]
df = df[~(df.ma_kredyt == "unknown")]
df = df[~(df.kredyt_mieszkaniowy == "unknown")]

df.ma_kredyt = (df.ma_kredyt == "no") + 0
df.ma_pozyczke = (df.ma_pozyczke == "no") + 0
df.kredyt_mieszkaniowy = (df.kredyt_mieszkaniowy == "no") + 0

In [None]:
df.to_csv("data/cleaned.csv")