In [None]:
import os

import matplotlib.pyplot as plt
import missingno as msno
import numpy as np
import pandas as pd
import seaborn as sns
from pandas_profiling import ProfileReport
from statsmodels.graphics.mosaicplot import mosaic

In [None]:
pd.set_option("display.max_columns", None)
pd.set_option("display.max_colwidth", None)
plt.rcParams["figure.figsize"] = (8, 6)
plt.rcParams["figure.dpi"] = 100
plt.style.use("bmh")

In [None]:
os.chdir("..")

# Quickstart
1. [Import danych](#Import-danych-i-podstawowe-informacje-o-zbiorze)
2. [Wykresy](#Wykresy-i-wnioski-przyblizajace-zbior-danych)
3. [Potencjalne pytania](#Pytania,-ktore-moga-potencjalnie-naprowadzic-na-cechy,-ktore-maja-wieksze-znaczenie-dla-predykcji-targetu)
4. [Key takeaways](#Key-takeaways)

# Import danych i podstawowe informacje o zbiorze

In [None]:
df = pd.read_csv("data/bank-additional-full.csv", sep=";")

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.nunique()

In [None]:
df = df.rename(columns={"y": "target"})
df["target"] = df.target.map({"yes": 1, "no": 0})
df = df.astype({"target": "int0"})

#  Wykresy i wnioski przyblizajace zbior danych

In [None]:
fig, axs = plt.subplots(10, figsize=(15, 24))

for ind, feature in enumerate(df.select_dtypes("object")):
    sns.countplot(data=df, x=feature, hue="target", ax=axs[ind])

plt.subplots_adjust(hspace=0.3)

### Wnioski
- Najwiecej rozmow przeprowadza sie w okresie letnim.
- Znaczna wiekszosc osob nie bralo kredytu.
- Podobna ilosc osob maja do splacenia kredyt mieszkaniowy, do osob ktore takowego kredytu nie posiadaja w ogole.
- Pomijalna ilosc osob, ktore maja do splacenia wlasny kredyt.
- Wiekszosc osob ma wyksztalcenie wyzsze, lub srednie.
- Wiecej niz polowa osob jest w zwiążku małżeńskim. Co wazniejsze, porownujac target dla osob, bedacych singlami, do osob bedacych w związku, to mimo ze singli jest dwa razy mniej, to ilosc osob, dla ktorych _target_ jest rowny __1__, jest podobna.
- Znaczna wiekszosc osob ze zbioru danych to; _technician_, _admin_, lub _blue collar_.

In [None]:
fig, axs = plt.subplots(11, figsize=(18, 24))

for ind, feature in enumerate(df.select_dtypes(exclude="object")):
    sns.histplot(
        data=df,
        x=feature,
        hue="target",
        ax=axs[ind],
        bins=(2 * int(np.sqrt(df[feature].nunique()))),
    )

plt.subplots_adjust(hspace=0.4)

### Wnioski
- Im dłużej trwa rozmowa tym większa procentowo szansa na akceptację oferty.
- Głównym targetem kampanii byłu osoby między 27 a 37 rokiem życia.
- Nie warto przeprowadzać więcej niż około 5 rozmów z klientem oferując mu tę samą kampanię.
- Większość osób, które niedawno akceptowały poprzednią ofertę akceptują też tą oferte
- Ofertę akceptują głównie osoby, które rzadko zmieniają pracę
- Procentowo więcej osób akceptuję oferte gdy ich nr_employed jest mniejszy (około 4950-5050), pomimo faktu że głównym targetem były osoby z nr_employed około 5170-5230

In [None]:
plt.figure(
    dpi=300,
)
subset = df[~df["education"].isin(["unknown", "illiterate"])]
subset = df[~df["job"].isin(["unknown", "housemaid"])]
mosaic(
    subset,
    ["education", "job"],
    labelizer=lambda x: "" + x[1][:4] + "--" + x[0][:4],
    label_rotation=[45, 0],
    gap=0.02,
)
plt.show()

In [None]:
subset = pd.crosstab([df.education, df.job], df.target)
subset.xs(("university.degree"), level="education").T[
    ["admin.", "technician", "management"]
]

In [None]:
subset = pd.crosstab([df.education, df.job], df.target)
subset.xs(("high.school"), level="education").T[["admin.", "services"]]

#### Wnioski
- Admini ze stopniem naukowym chętniej akceptuja ofertę depozytu niż osoby pracujące jako admin z wykształceniem średnim

In [None]:
sns.pairplot(
    df.sample(1000).select_dtypes(exclude="object"),
    hue="target",
    markers="o",
    diag_kind="kde",
)

#### Wnioski
- Wiekszość par nie pomaga nam w jednoznacznym określeniu czy klient zgodzi się na ofertę, czy nię. Najlepszy efekty daje jednak połączoenie kolumn pdays i emp.var.rate oraz previous i pdays

In [None]:
sns.catplot(
    hue="target",
    x="poutcome",
    y="campaign",
    kind="point",
    data=df,
)
sns.catplot(
    hue="target",
    x="poutcome",
    y="cons.conf.idx",
    kind="point",
    data=df,
)

### Wnioski
- Jeżeli bank kontaktował się w sprawie poprzedniej oferty, to bez względu na jej rezultat, przy tej kampanii potrzeba było mniej kontaktów z klientem, aby określić czy jest zainteresowany oferta
- Osoby, które zgodziły się na poprzednią ofertę potrzebują mało kontaktów (mniej niż 2), aby określic czy są czy nie zainteresowani
- Klienci, którzy zgadzają się na oferty banku mają wyższy indeks klienta.
- Najwyższe indeksy klienta mają osoby które bardzo często zgadzają się na oferty banku.

In [None]:
sns.scatterplot(data=df, x="age", y="campaign", hue="target");

### Wnioski
- Bez względu na wiek większość osób zgadza się na zaakceptowanie kampanii po max kilku kontaktach
- Osoby z którymi kontaktowano się więcej niż 10 razy praktycznie nie zgadzają się na ofertę.
- Żadna z grup wiekowych znacząco nie wyróżnia pod względem ilości kontaków potrzebnych do zaakceptowania kampanii
- Praktycznie bezsensowne jest kontaktowanie z klientem więcej niż kilka razy, ponieważ jeżeli osoba nie zgodziła się w kilku pierwszych podejściach to nie zgodzi się i w kolejnych

In [None]:
sns.heatmap(
    data=df.select_dtypes(exclude="object").corr(),
);

#### Wnioski
- Silna korelacja cechy _duration_ z _target'em_
- Warto zwrocic uwage na silna korelacje miedzy wartosciami z grupy cech _social and economic context attributes_.
- Wzglednie silna korelacja miedzy _pdays_, a cechami _nr\_employed_, oraz silnie ujemna z _previous_.
- Kolumny euribor3m i nr.employed mają wysoki poziom korelacji warto rozważyć usunięcie jednej z tych kolumn ponieważ jej dane nie będą wnosiły wiele do modelu
- Podobna sytuacja występuje dla kolumn euribor3m i emp.var.rate

In [None]:
msno.bar(df);

#### Wnioski
Zbior danych, nie zawiera zadnych brakow.

#### Usuniecie wierszy zduplikowanych, czyli bedacych powtorzeniem wiersza, ktory wczesniej juz wystapil (te, nie sa brane pod uwage.

In [None]:
df = df.loc[~df.duplicated()]

##### Profile Report report jako widget (odkomentowac komorke ponizej)

In [None]:
# pr = ProfileReport()
# pr.to_widgets()

# Pytania, ktore moga potencjalnie naprowadzic na cechy, ktore maja wieksze znaczenie dla predykcji targetu
- Zbior danych zawiera wiele kolumn bedacych tekstem. Z tego tez powodu, nalezy pochylic sie nad procesem zamiany tekstu na wartosci liczbowe za pomoca roznego typu procesow _encoding_.
- Czy kolumny zwiazane z _social and economic context attributes_ maja faktyczne znaczenie dla predykcji? Sa bowiem one zmienne w okresach kwartalnych/miesiecznych i sa niezmienne dla pewnej grupy obserwacji.
- Kolumny z wczesniej wymienionej kategorii moga miec duze znaczenie dla zbioru danych, gdyz wskazuja na stopien zatrudnienia w kraju i stope procentowa, a ta moze miec ogromne znaczenie dla checi klientow do depozytu. Sa to bardzo wazne wspolczynniki, gdyz pozwola uogolnic model, do jego szerszego przystosowania.

# Key takeaways
- Trzeba pamietac, ze _unknown_ mozna uznac za klase, lub zmapowac jako pd.NA, bo nie znamy tej wartosci. Warto przyjrzec sie poszczegolnym cechom, w ktorej mozna zaobserwowac obiekty o wartosci cech _unknown_ i sprobowac aproksymowac wartosc tej cechy, na podstawie grupy obiektow, lub tez wyrzucic te obiekty, ktore maja ceche _unknown_, jesli ilosc jej obserwacji jest znikoma na tle calego zbioru danych.
- Warto zmapowac kolumny yes/no/unkown na 1/0/-1
- wartosc __999__ w kolumnie _pdays_ oznacza, ze nie kontaktowano sie z dana osoba
- kolumna _duration_, nie powinna pod zadnym pozorem zostac uzyta do trenowania modelu, a jedynie jego walidacji
- Wskaznik _Euribor_ to srednia arytmetyczna wiborow (stop procentowych,  podawanych przez banki UE 

In [None]:
dict_eng_to_pl = {
    "y": "target",
    "emp.var.rate": "wsk_zmien_zatrudnienia",
    "cons.price.idx": "wsk_cen_konsum",
    "cons.conf.idx": "wsk_zauf_konsum",
    "nr.employed": "liczba_pracownikow",
    "age": "wiek",
    "job": "zawod",
    "marital": "stan_cywilny",
    "education": "wyksztalcenie",
    "default": "ma_kredyt",
    "housing": "kredyt_mieszkaniowy",
    "loan": "ma_pozyczke",
    "contact": "sposob_kontaktu",
    "month": "miesiac",
    "campaign": "liczba_polaczen_aktualnej_kampanii",
    "pdays": "liczba_dni_od_ost_kontaktu",
    "previous": "liczba_polaczen_przed_aktualna_kampania",
    "poutcome": "wynik_poprzedniej_kampanii",
    "duration": "dl_polaczenia",
}
df = df.rename(columns=dict_eng_to_pl)

In [None]:
df.to_csv("data/precleaned.csv")