#### API Usage

In [73]:
import requests
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

def search_declarations(name, document_type=1, declaration_type=1):
    """Search declarations with filters"""
    url = "https://public-api.nazk.gov.ua/v2/documents/list"
    params = {
        "query": name,
        "document_type": document_type,
        "declaration_type": declaration_type
    }
    response = requests.get(url, params=params)
    if response.status_code == 200:
        return response.json().get("data", [])
    else:
        print(f"Error: {response.status_code}, {response.text}")
        return []

def get_declaration(document_id):
    """Load declaration"""
    url = f"https://public-api.nazk.gov.ua/v2/documents/{document_id}"
    response = requests.get(url)
    if response.status_code == 200:
        if "declaration_year" in response.json()["data"]["step_0"]["data"]:
            return response.json()
    else:
        print(f"Error: {response.status_code}, {response.text}")
        return None

#### Financial Summary

In [148]:
def get_declarations_summary(declarations):
    df_FINALE = {"Рік": [], "Вартість нерухомості": [], "Вартість рухомого майна": [],
                 "Вартість транспортних засобів": [], "Прибуток": [], "Дохід": [], "Видатки": [], "ID Декларації": [], "Посада": []}

    for i in range(len(declarations)):
        # print(declarations[i]["data"]["step_0"]["data"]["declaration_year"])
        df_FINALE["Рік"].append(declarations[i]["data"]["step_0"]["data"]["declaration_year"])
        df_FINALE["ID Декларації"].append(declarations[i]["id"])
        df_FINALE["Посада"].append(declarations[i]["data"]["step_1"]["data"]["workPost"])
        # print()

        # for salary
        try:
            df_salary = pd.json_normalize(declarations[i]['data']['step_11']['data'])
            df_salary['sizeIncome'] = pd.to_numeric(df_salary['sizeIncome'], errors='coerce')
            salary = df_salary['sizeIncome'].sum()
            # print(salary)
        except:
            # print("no data for зарплата")
            salary = 0
        df_FINALE["Дохід"].append(salary)

        # for нерухомість
        try:
            json_ner = declarations[i]['data']['step_3']['data']
            ner_dict = {"Власність": [], "Вартість": []}
            for j in range(len(json_ner)):
                df_ner = pd.json_normalize(json_ner[j])
                df_ner['objectType'] = df_ner['objectType'].astype(str)

                vlasnist = df_ner['objectType'][0]
                if "otherObjectType" in list(df_ner.columns):
                    df_ner['otherObjectType'] = df_ner['otherObjectType'].astype(str)
                    vlasnist += ": " + df_ner['otherObjectType'][0]
                ner_dict["Власність"].append(vlasnist)

                if "costDate" in list(df_ner.columns):
                    if df_ner['costDate'][0] != "[Не застосовується]" and df_ner['costDate'][0] != "[Не відомо]" and df_ner['costDate'][0] != "[Член сім'ї не надав інформацію]":
                        df_ner['costDate'] = df_ner['costDate'].astype(float)
                    ner_dict["Вартість"].append(df_ner['costDate'][0])
                else:
                    if df_ner['cost_date_assessment'][0] != "[Не застосовується]" and df_ner['cost_date_assessment'][0] != "[Не відомо]" and df_ner['cost_date_assessment'][0] != "[Член сім'ї не надав інформацію]":
                        df_ner['cost_date_assessment'] = df_ner['cost_date_assessment'].astype(float)
                    ner_dict["Вартість"].append(df_ner['cost_date_assessment'][0])

            dataframe_ner_final = pd.DataFrame.from_dict(ner_dict)
            # print(dataframe_ner_final)

            dataframe_ner_final['Вартість'] = pd.to_numeric(dataframe_ner_final['Вартість'], errors='coerce')
            neruh_tsina = dataframe_ner_final['Вартість'].sum()
            # print(f"Вартість нерухомості {neruh_tsina:,.0f} UAH")
        except:
            # print("no data for нерухомість")
            neruh_tsina = 0
        df_FINALE["Вартість нерухомості"].append(neruh_tsina)

        # for рухоме майно
        try:
            df_ruh = pd.json_normalize(declarations[i]['data']['step_5']['data'])
            df_ruh = df_ruh.loc[:, df_ruh.columns.intersection(['costDateUse', 'trademark', 'objectType', 'otherObjectType', 'propertyDescr'])]
            # print(df_ruh)
            df_ruh['costDateUse'] = pd.to_numeric(df_ruh['costDateUse'], errors='coerce')
            ruh_tsina = df_ruh['costDateUse'].sum()
            # print(f"Вартість рухомого майна {ruh_tsina:,.0f} UAH")
        except:
            # print("no data for рухоме майно")
            ruh_tsina = 0
        df_FINALE["Вартість рухомого майна"].append(ruh_tsina)

        # for транспортні засоби
        try:
            df_tr = pd.json_normalize(declarations[i]['data']['step_6']['data'])
            df_tr = df_tr.loc[:, df_tr.columns.intersection(['costDate', 'model', 'graduationYear', 'brand', 'objectType'])]
            # print(df_ruh)
            df_tr['costDate'] = pd.to_numeric(df_tr['costDate'], errors='coerce')
            ts_tsina = df_tr['costDate'].sum()
            # print(f"Вартість транспортних засобів {ts_tsina:,.0f} UAH")
        except:
            # print("no data for тз")
            ts_tsina = 0
        df_FINALE["Вартість транспортних засобів"].append(ts_tsina)

        # видатки
        try:
            json_vyd = declarations[i]['data']['step_14']['data']
            vyd_dict = {"Вид правочину": [], "Розмір": []}
            if list(json_vyd[0].keys())[0] == 'specConsequencesSubject':
                for k in range(len(json_vyd)):
                    df_vyd = json_vyd[k]

                    try:
                        vydatok_type = df_vyd['specExpenses']
                        if "specOtherExpenses" in list(df_vyd.keys()):
                            vydatok_type += ": " + df_vyd['specOtherExpenses']
                        vyd_dict["Вид правочину"].append(vydatok_type)

                        costt = df_vyd["expenses"][list(df_vyd["expenses"].keys())[0]]["costAmount"]
                        if costt != "[Не застосовується]":
                            vyd_dict["Розмір"].append(float(costt))
                        else:
                            vyd_dict["Розмір"].append(costt)
                    except:
                        continue
            else:
                for k in range(len(json_vyd)):
                    df_vyd = json_vyd[k]
                    try:
                        vydatok_type = df_vyd['specExpensesSubject']
                        if "specOtherExpensesSubject" in list(df_vyd.keys()):
                            vydatok_type += ": " + df_vyd['specOtherExpensesSubject']

                        vyd_dict["Вид правочину"].append(vydatok_type)

                        costt = df_vyd["costAmount"]
                        vyd_dict["Розмір"].append(float(costt))
                    except:
                        continue
            len_ = len(vyd_dict["Розмір"])
            vyd_dict["Вид правочину"] = vyd_dict["Вид правочину"][:len_]
            dataframe_vyd_final = pd.DataFrame.from_dict(vyd_dict)

            dataframe_vyd_final['Розмір'] = pd.to_numeric(dataframe_vyd_final['Розмір'], errors='coerce')
            vydatky = dataframe_vyd_final['Розмір'].sum()
        except:
            # print("no data for видатки")
            vydatky = 0
        df_FINALE["Видатки"].append(vydatky)

        diff = salary - vydatky
        df_FINALE["Прибуток"].append(diff)
        # print(f"Прибуток {diff:,.0f} UAH")
        # print("-----------------------------")

    return df_FINALE

#### Property Changes through Years

In [111]:
def validate_property_changes(df):
    df = df.copy()
    df["Загальна вартість майна"] = (
        df["Вартість нерухомості"] +
        df["Вартість рухомого майна"] +
        df["Вартість транспортних засобів"]
    )
    # df = df.drop(["Вартість нерухомості", "Вартість рухомого майна", "Вартість транспортних засобів"], axis=1)
    base_year = df.loc[df["Рік"] == min(df["Рік"])]
    df["Вплив Загальна вартість майна"] = (df["Загальна вартість майна"] -
                                            base_year["Загальна вартість майна"].values[0])

    df['Cumulative Дохід'] = df['Дохід'].cumsum()

    # Adjust the first row by subtracting "Вплив Загальна вартість майна"
    df.loc[0, 'Cumulative Дохід'] -= df.loc[0, 'Вплив Загальна вартість майна']

    # For each subsequent row, adjust the cumulative sum with the previous value, add the "Вплив Загальна вартість майна", and then add the "Дохід"
    for i in range(1, len(df)):
        df.loc[i, 'Cumulative Дохід'] = (df.loc[i-1, 'Cumulative Дохід'] -
                                         df.loc[i-1, 'Вплив Загальна вартість майна']) + df.loc[i, 'Дохід']
    id_messages = [(f"В декларції {row['ID Декларації']} {row['Рік']} року виявлено невідоме збільшення майна на"
                    f" {-row['Cumulative Дохід']:,.0f} UAH")
                   for _, row in df.iterrows() if row['Cumulative Дохід'] < 0]
    return df, id_messages

In [112]:
def validate_total_years_income(df):
    return int(df['Прибуток'].sum())

#### Suspicious Income

In [74]:
suspicious_income_list = ['подарун', 'благодійн', 'пенсія']
def suspicious_income(df):
    suspicious_filter = df['objectType'].apply(lambda x: any(inc in x.lower() for inc in suspicious_income_list))
    suspicious_df = df[suspicious_filter]
    return suspicious_df['percentage_total'].sum()

In [117]:
def plot_income_distribution(df):
    df_filtered = df[df['percentage_total'] > 2]
    total_income = df['sizeIncome'].sum()
    percentages = (df_filtered.groupby('objectType')['sizeIncome'].sum() / total_income) * 100

    suspicious_colors = sns.color_palette("Reds", len(df_filtered))
    other_colors = sns.color_palette("Blues", len(df_filtered))
    colors = []
    i = j = 0
    for inc_type in percentages.index:
        if any(inc in inc_type.lower() for inc in suspicious_income_list):
            colors.append(suspicious_colors[i])
            i += 1
        else:
            colors.append(other_colors[j])
            j += 1

    def autopct_function(pct):
        absolute = int(round(pct / 100 * total_income))
        formatted_value = f"{absolute:,.0f} UAH"
        return f"{pct:.1f}%\n({formatted_value})"

    plt.figure(figsize=(10, 10))
    wedges, texts, autotexts = plt.pie(
        percentages,
        labels=percentages.index,
        autopct=lambda pct: autopct_function(pct),
        colors=colors,
        textprops={'fontsize': 10}
    )
    plt.title("Income Type Distribution", fontsize=14)
    plt.tight_layout()
    plt.show()

def validate_income_distribution(declarations, threshold=20, visualize=False):
    for declaration in declarations:
        try:
            df = pd.json_normalize(declaration['data']['step_11']['data'])
        except:
            continue
        df['sizeIncome'] = pd.to_numeric(df['sizeIncome'], errors='coerce')
        df['percentage_total'] = df['sizeIncome'] / df['sizeIncome'].sum() * 100
        suspicious_percentage = suspicious_income(df)
        if suspicious_percentage>threshold:
            print(f"Відсоток підозрілого доходу: {round(suspicious_income(df), 2)}% для "
                  f"декларації: {declaration["id"]} {declaration["data"]["step_0"]["data"]["declaration_year"]} року")
            if visualize:
                plot_income_distribution(df)
                print("\n\n")

#### Declaration "losing weight"

In [170]:
def check_declaration_decreasing(df, threshold=30):
    df['Зміна посади'] = df['Посада'] != df['Посада'].shift()
    df['Зменшення майна'] = (
        df['Загальна вартість майна'].pct_change() * -100
    )
    messages = [(f"В декларції {row['ID Декларації']} {row['Рік']} року виявлено 'схуднення' майна на "
                    f"{row['Зменшення майна']:,.0f} %")
               for _, row in df.iterrows() if (row['Зменшення майна'] > 30) & (row['Зміна посади'])]
    return df[['Рік', 'Посада', 'Загальна вартість майна', 'Зменшення майна']], messages

#### Usage

In [133]:
declarations_meta = search_declarations("Шевченко Євгеній Олександрович")
declarations_full = [get_declaration(doc.get("id")) for doc in declarations_meta]
if None in declarations_full:
    declarations_full.remove(None)
declarations_full = sorted(declarations_full, key=lambda x: x["data"]["step_0"]["data"]["declaration_year"])

In [122]:
# Check user declarant id
unique1 = {}
for declaration in declarations_full:
    id = declaration["user_declarant_id"]
    unique1[id] = unique1.get(id, 0) + 1
unique1

{269801: 5, 155953: 1, 1215744: 7}

In [162]:
declarations = list(filter(lambda x: x["user_declarant_id"]==1215744, declarations_full))

In [163]:
df_final_dict = get_declarations_summary(declarations)

In [164]:
df_FINALE = pd.DataFrame.from_dict(df_final_dict)

In [165]:
df_FINALE

Unnamed: 0,Рік,Вартість нерухомості,Вартість рухомого майна,Вартість транспортних засобів,Прибуток,Дохід,Видатки,ID Декларації,Посада
0,2016,0.0,0,0,158510,158510,0,f393881a-dd4c-4b91-a9c6-8a951f1347aa,Начальник сектору кримінальної поліції відділу...
1,2017,0.0,0,45000,254899,254899,0,8ffb5693-a138-44a9-a3c6-5769de01460a,Дільничний інспектор поліції відділу поліції з...
2,2018,0.0,0,70000,179266,179266,0,a68e96fd-1dee-4749-a28d-93dce3f71ca6,Старший дільничний офіцер поліції відділу полі...
3,2019,0.0,0,70000,191584,191584,0,c6593e1a-ab5b-4d9e-9f80-7b0f91430399,Старший дільничний офіцер поліції відділу полі...
4,2020,0.0,0,70000,246185,246185,0,4e1ea3ae-28db-41a1-8ba4-5a3bd407aac4,Старший дільничний офіцер поліції відділу полі...


In [166]:
property_changes_df, messages = validate_property_changes(df_FINALE)
property_changes_df

Unnamed: 0,Рік,Вартість нерухомості,Вартість рухомого майна,Вартість транспортних засобів,Прибуток,Дохід,Видатки,ID Декларації,Посада,Загальна вартість майна,Вплив Загальна вартість майна,Cumulative Дохід
0,2016,0.0,0,0,158510,158510,0,f393881a-dd4c-4b91-a9c6-8a951f1347aa,Начальник сектору кримінальної поліції відділу...,0.0,0.0,158510
1,2017,0.0,0,45000,254899,254899,0,8ffb5693-a138-44a9-a3c6-5769de01460a,Дільничний інспектор поліції відділу поліції з...,45000.0,45000.0,413409
2,2018,0.0,0,70000,179266,179266,0,a68e96fd-1dee-4749-a28d-93dce3f71ca6,Старший дільничний офіцер поліції відділу полі...,70000.0,70000.0,547675
3,2019,0.0,0,70000,191584,191584,0,c6593e1a-ab5b-4d9e-9f80-7b0f91430399,Старший дільничний офіцер поліції відділу полі...,70000.0,70000.0,669259
4,2020,0.0,0,70000,246185,246185,0,4e1ea3ae-28db-41a1-8ba4-5a3bd407aac4,Старший дільничний офіцер поліції відділу полі...,70000.0,70000.0,845444


In [167]:
total_years_income = validate_total_years_income(df_FINALE)
if total_years_income < 0:
    print(f"{-total_years_income}:,.0f UAH of negative income")

In [168]:
validate_income_distribution(declarations, threshold=20, visualize=False)

In [173]:
res, messages = check_declaration_decreasing(property_changes_df)
res

Unnamed: 0,Рік,Посада,Загальна вартість майна,Зменшення майна
0,2016,Начальник сектору кримінальної поліції відділу...,0.0,
1,2017,Дільничний інспектор поліції відділу поліції з...,45000.0,-inf
2,2018,Старший дільничний офіцер поліції відділу полі...,70000.0,-55.555556
3,2019,Старший дільничний офіцер поліції відділу полі...,70000.0,-0.0
4,2020,Старший дільничний офіцер поліції відділу полі...,70000.0,-0.0
