# Import libraries

In [12]:
import pandas as pd
import os

# Functions

In [13]:
def get_new_columns(df1,df2,mapping):
    """
    Returns new columns in df 1 that are not present in df2
    """
    new_columns = []
    for column in df1.columns:
        if column not in df2.columns and (column not in mapping.keys()):
            new_columns.append(column)
    return new_columns

def get_absent_columns(df1,df2,mapping):
    """
    Returns absent columns in df 1 that are present in df2
    """
    new_columns = []
    for column in df1.columns:
        if column not in df2.columns and (column not in mapping.values()):
            new_columns.append(column)
    return new_columns

# Read original data

In [14]:
csv_master_name = 'csv-master'
csv_master_folders = os.listdir(csv_master_name)
salary_folder_path = os.path.join(csv_master_name,'salaries')
salary_folder_files = os.listdir(salary_folder_path)
salary_folder_files

['2019_dec_mini.csv',
 '2019_dec_raw.csv',
 '2019_june_final.csv',
 '2019_june_mini.csv',
 '2019_june_raw.csv',
 '2020_dec_raw.csv',
 '2020_june_mini.csv',
 '2021_dec_raw.csv',
 '2021_june_raw.csv',
 '2022_dec_raw.csv',
 '2022_june_dev.csv',
 '2022_june_other.csv',
 '2022_june_qa.csv',
 '2023_dec_raw.csv',
 '2023_june_raw.csv']

In [15]:
def read_files(salary_file):
    'Reads a csv file based on its file name'
    salary_file_path = os.path.join(salary_folder_path,salary_file)
    try:
        return pd.read_csv(salary_file_path)
    except:
        return pd.read_csv(salary_file_path,sep=';')

# Dec 2023 

In [16]:
dec_2023_df = read_files('2023_dec_raw.csv')
dec_2023_df.head()

Unnamed: 0,Timestamp,Ваша основна зайнятість в ІТ зараз...,"Зарплата / дохід у $$$ за місяць, лише ставка \nЧИСТИМИ - після сплати податків",Оберіть вашу основну посаду,Ваш тайтл на цій посаді,Вкажіть вашу спеціалізацію - Game Design,Вкажіть вашу спеціалізацію - Sound,Вкажіть вашу спеціалізацію - QA,Оберіть вашу посаду - Design,GameDev розробники - оберіть вашу спеціалізацію,...,"В якій сфері проєкт, в якому ви зараз працюєте?","Основний напрям роботи компанії, в якій працюєте",Кількість спеціалістів у вашій компанії (в Україні/з України),Загальний стаж роботи за нинішньою ІТ-спеціальністю,Яка у вас освіта?,Знання англійської мови,Де ви зараз живете?,В якій області ви зараз живете?,Ваша стать,Ваш вік
0,12/4/2023 9:07:12,Працюю full-time в ІТ-компанії чи ІТ-відділі,4500.0,Software Engineer / Programmer,Senior,,,,,,...,E-commerce,Аутстафінгова,до 1000,6.0,"Вища (бакалавр, спеціаліст, магістр) - одна аб...",Upper-Intermediate,В Україні,Суми чи область,Чоловік,28
1,12/4/2023 9:07:50,Працюю full-time в ІТ-компанії чи ІТ-відділі,7000.0,"Data Science, Machine Learning, AI, Big Data, ...",Tech Lead,,,,,,...,"Big Data, Data Science, Gambling",Продуктова,до 1000,5.0,"Вища (бакалавр, спеціаліст, магістр) - одна аб...",Upper-Intermediate,В Україні,Київ чи область,Чоловік,36
2,12/4/2023 9:08:11,Працюю full-time в ІТ-компанії чи ІТ-відділі,1750.0,Software Engineer / Programmer,Junior,,,,,,...,Insurance,Аутсорсингова,до 1000,2.0,"Вища (бакалавр, спеціаліст, магістр) - одна аб...",Upper-Intermediate,В Україні,Харків чи область,Чоловік,34
3,12/4/2023 9:08:42,Працюю full-time в ІТ-компанії чи ІТ-відділі,3560.0,"QA / AQA Engineer (Junior, Middle, Senior, Tea...",Senior,,,Manual QA,,,...,"E-commerce, Legal, Public services / Government",Продуктова,до 1000,6.0,"Вища (бакалавр, спеціаліст, магістр) - одна аб...",Upper-Intermediate,В Україні,Львів чи область,Чоловік,37
4,12/4/2023 9:09:23,Працюю full-time в ІТ-компанії чи ІТ-відділі,2750.0,Software Engineer / Programmer,Senior,,,,,,...,Retail,Продуктова,до 1000,3.0,"Вища (бакалавр, спеціаліст, магістр) - одна аб...",Upper-Intermediate,В Україні,Київ чи область,Чоловік,34


Map columns to one standart

In [17]:
columns_map_2023 = {
    'Зарплата / дохід у $$$ за місяць, лише ставка \nЧИСТИМИ - після сплати податків': 'Зарплата / дохід у $$$ за місяць, лише ставка після сплати податків',
    'Ваша посада - DevOps': 'Ваша посада DevOps, SRE',
    'Ваша спеціалізація - Support': 'Ваша спеціалізація Support',
    'Ваша посада - Top management':'Ваша посада CTO, Director',
    'Ваша посада - DS':'Ваша посада Data Science',
    'Ваша посада - Analyst': 'Ваша посада Analyst',
    'GameDev розробники - оберіть вашу спеціалізацію': 'GameDev розробники - оберіть вашу спеціалізацію',
    'Оберіть вашу посаду - Design': 'Оберіть вашу посаду Designer / Artist',
    'Вкажіть вашу спеціалізацію - Sound': 'Вкажіть вашу спеціалізацію Sound',
    'Вкажіть вашу спеціалізацію - Game Design': 'Вкажіть вашу спеціалізацію Game Design',
    'GameDev розробники - оберіть вашу спеціалізацію':'Якщо ви працюєте в GameDev,  оберіть вашу спеціалізацію',
    'Оберіть вашу основну посаду': 'Спеціалізація',
    'Ваша посада - PM': 'Ваша посада Management',
    'Оберіть вашу посаду - HR': 'Оберіть вашу посаду HR',
    'Ваша посада - Marketing' : 'Ваша посада Marketing'
    

}

In [18]:
dec_2023_df.rename(columns=columns_map_2023,inplace=True)

----

# June 2023 

In [19]:
june_2023_df = read_files('2023_june_raw.csv')
june_2023_df.head()

Unnamed: 0,Timestamp,Ваша основна зайнятість в ІТ зараз...,"Зарплата / дохід у $$$ за місяць, лише ставка після сплати податків",Спеціалізація,Ваш тайтл на цій посаді,Вкажіть вашу спеціалізацію Game Design,Вкажіть вашу спеціалізацію Sound,Вкажіть вашу спеціалізацію - QA,Оберіть вашу посаду Designer / Artist,"Якщо ви працюєте в GameDev, оберіть вашу спеціалізацію",...,"В якій сфері проєкт, в якому ви зараз працюєте?","Основний напрям роботи компанії, в якій працюєте",Кількість спеціалістів у вашій компанії (в Україні/з України),Загальний стаж роботи за нинішньою ІТ-спеціальністю,Яка у вас освіта?,Знання англійської мови,Де ви зараз живете?,В якій області ви зараз живете?,Ваша стать,Ваш вік
0,5.26.2023 13:40:35,Працюю full-time в ІТ-компанії чи ІТ-відділі,2300,"Marketing, PR, SEO, Copywriter",Senior,,,,,,...,Інша,Аутсорсингова,до 200,4,"Вища (бакалавр, спеціаліст, магістр) - одна аб...",Advanced,В Україні,Київ чи область,Чоловік,28
1,5.26.2023 13:40:36,Працюю full-time в ІТ-компанії чи ІТ-відділі,3450,Software Engineer,Middle,,,,,,...,Medtech / Healthcare,Аутсорсингова,понад 1000,4,"Вища (бакалавр, спеціаліст, магістр) - одна аб...",Pre-Intermediate,В Україні,Київ чи область,Чоловік,28
2,5.26.2023 13:41:02,Працюю full-time в ІТ-компанії чи ІТ-відділі,900,"Marketing, PR, SEO, Copywriter",Team Lead,,,,,,...,E-commerce,Продуктова,до 200,5,"Вища (бакалавр, спеціаліст, магістр) - одна аб...",Upper-Intermediate,В Україні,Миколаїв чи область,Жінка,27
3,5.26.2023 13:41:19,Працюю full-time в ІТ-компанії чи ІТ-відділі,4000,Software Engineer,Middle,,,,,,...,E-commerce,Аутстафінгова,понад 1000,5,"Вища (бакалавр, спеціаліст, магістр) - одна аб...",Upper-Intermediate,В Україні,Суми чи область,Чоловік,27
4,5.26.2023 13:41:34,Працюю full-time в ІТ-компанії чи ІТ-відділі,2700,"Analyst (Business, Data, System etc)",Middle,,,,,,...,Medtech / Healthcare,Продуктова,до 1000,3,"Вища (бакалавр, спеціаліст, магістр) - одна аб...",Upper-Intermediate,В Україні,Київ чи область,Жінка,27


In [20]:
june_2023_df = pd.concat([dec_2023_df, june_2023_df], ignore_index=True)
june_2023_df.columns

Index(['Timestamp', 'Ваша основна зайнятість в ІТ зараз...',
       'Зарплата / дохід у $$$ за місяць, лише ставка після сплати податків',
       'Спеціалізація', 'Ваш тайтл на цій посаді',
       'Вкажіть вашу спеціалізацію Game Design',
       'Вкажіть вашу спеціалізацію Sound', 'Вкажіть вашу спеціалізацію - QA',
       'Оберіть вашу посаду Designer / Artist',
       'Якщо ви працюєте в GameDev,  оберіть вашу спеціалізацію',
       'Ваша посада Marketing', 'Оберіть вашу посаду HR',
       'Ваша посада Management', 'Ваша посада Analyst',
       'Ваша посада Data Science', 'Ваша посада DevOps, SRE',
       'Ваша посада CTO, Director', 'Ваша спеціалізація Support',
       'Чи використовуєте ви у своїй роботі мови програмування (одну чи декілька)?',
       'Основна мова програмування', 'Вкажіть вашу основну спеціалізацію',
       'В якій сфері проєкт, в якому ви зараз працюєте?',
       'Основний напрям роботи компанії, в якій працюєте',
       'Кількість спеціалістів у вашій компанії (в

----


# Dec 2022

In [21]:
dec_2022_df = read_files('2022_dec_raw.csv')
dec_2022_df.head()

Unnamed: 0,Timestamp,Ви працюєте зараз в ІТ?,Де ви зараз живете?,В якій області ви зараз живете?,"Зарплата у $$$ за місяць, лише ставка після сплати податків",Ваша стать,Ваш вік,Яка у вас освіта?,Чи є у вас науковий ступінь?,Знання англійської мови,...,Ваша посада4,Ваша посада5,Ваша посада6,Ваша посада7,Чи використовуєте ви у своїй роботі мови програмування (одну чи декілька)?,Основна мова програмування,Вкажіть вашу основну спеціалізацію,В якій сфері працюєте?,Тип компанії,Загальний стаж роботи за спеціальністю
0,11.30.2022 10:26:37,"Так, працюю part-time",В Україні,Івано-Франківськ чи область,4000.0,Чоловік,29,"Вища (бакалавр, спеціаліст, магістр)",Немає,Intermediate,...,,,,,,,,Blockchain,Стартап,8 років
1,11.30.2022 10:26:39,"Так, працюю full-time","За кордоном (переїхали через війну, але планую...",,,Чоловік,36,"Вища (бакалавр, спеціаліст, магістр)",Немає,Advanced,...,,,,,,Ruby,Full Stack розробка,Public services / Government,Продуктова,3 роки
2,11.30.2022 10:26:58,"Так, працюю full-time",В Україні,Київ чи область,2500.0,Чоловік,34,"Вища (бакалавр, спеціаліст, магістр)",Немає,Elementary,...,,,,,,C# / .NET,Full Stack розробка,"Adtech / Advertising, Security, Telecom",Продуктова,4 роки
3,11.30.2022 10:27:31,"Так, працюю full-time",В Україні,Львів чи область,500.0,Жінка,23,"Вища (бакалавр, спеціаліст, магістр)",Немає,Pre-Intermediate,...,,,,,"Ні, не використовую",,,Telecom,Продуктова,Пів року
4,11.30.2022 10:27:34,"Ні, тимчасово не працюю",В Україні,Житомир чи область,2800.0,Жінка,33,"Вища (бакалавр, спеціаліст, магістр)",Немає,Upper-Intermediate,...,,,,,"Ні, не використовую",,,Automotive,Продуктова,6 років


Map columns to one standart

In [22]:
dec_2022_columns_map ={
    'В якій сфері працюєте?': 'В якій сфері проєкт, в якому ви зараз працюєте?',
    'Ваш тайтл': 'Ваш тайтл на цій посаді',
    'Ваша посада6': 'Ваша посада DevOps, SRE',
    'Ваша посада5': 'Ваша посада Data Science' ,
    'Ваша посада7': 'Ваша посада CTO, Director',
    'Ваша посада4' : 'Ваша посада Analyst',
    'Ваша посада' : 'Ваша посада Marketing',
    'Ваша посада3': 'Ваша посада Management',
    'Загальний стаж роботи за спеціальністю': 'Загальний стаж роботи за нинішньою ІТ-спеціальністю',
    'Зарплата у $$$ за місяць, лише ставка після сплати податків': 'Зарплата / дохід у $$$ за місяць, лише ставка після сплати податків',
    'Вкажіть вашу спеціалізацію' : 'Вкажіть вашу спеціалізацію - QA',
    'Ваша спеціалізація' : 'Якщо ви працюєте в GameDev,  оберіть вашу спеціалізацію',
    'Оберіть вашу посаду2' : 'Оберіть вашу посаду HR',
    'Оберіть вашу спеціалізацію' : 'Оберіть вашу посаду Designer / Artist',
    'Тип компанії': 'Основний напрям роботи компанії, в якій працюєте',
    'Ви працюєте зараз в ІТ?': 'Ваша основна зайнятість в ІТ зараз...',
    'Оберіть вашу посаду' :'Спеціалізація'
    
}

In [23]:
get_new_columns(dec_2022_df,june_2023_df,dec_2022_columns_map)

['Чи є у вас науковий ступінь? ']

In [24]:
get_absent_columns(june_2023_df,dec_2022_df,dec_2022_columns_map)

['Вкажіть вашу спеціалізацію Game Design',
 'Вкажіть вашу спеціалізацію Sound',
 'Ваша спеціалізація Support',
 'Кількість спеціалістів у вашій компанії (в Україні/з України)']

In [25]:
dec_2022_df_renamed = dec_2022_df.rename(columns=dec_2022_columns_map)
d_22_j_23_df =pd.concat([dec_2022_df_renamed, june_2023_df], ignore_index=True) # consolidate the processed data
d_22_j_23_df.columns

Index(['Timestamp', 'Ваша основна зайнятість в ІТ зараз...',
       'Де ви зараз живете? ', 'В якій області ви зараз живете?',
       'Зарплата / дохід у $$$ за місяць, лише ставка після сплати податків',
       'Ваша стать', 'Ваш вік', 'Яка у вас освіта?',
       'Чи є у вас науковий ступінь? ', 'Знання англійської мови',
       'Спеціалізація', 'Ваш тайтл на цій посаді',
       'Якщо ви працюєте в GameDev,  оберіть вашу спеціалізацію',
       'Вкажіть вашу спеціалізацію - QA',
       'Оберіть вашу посаду Designer / Artist', 'Ваша посада Marketing',
       'Оберіть вашу посаду HR', 'Ваша посада Management',
       'Ваша посада Analyst', 'Ваша посада Data Science',
       'Ваша посада DevOps, SRE', 'Ваша посада CTO, Director',
       'Чи використовуєте ви у своїй роботі мови програмування (одну чи декілька)?',
       'Основна мова програмування', 'Вкажіть вашу основну спеціалізацію',
       'В якій сфері проєкт, в якому ви зараз працюєте?',
       'Основний напрям роботи компанії, в як

# June 2021

In [26]:
june_2021_df = read_files('2021_june_raw.csv')


Title column consolidation

In [27]:
titles = ['Ваш тайтл',
    'Ваш тайтл_2',
 'Ваш тайтл_3',
 'Ваш тайтл_5',
 'Ваш тайтл_7',
 'Ваш тайтл_9',
 'Ваш тайтл_11',
 'Ваш тайтл_13',
 'Middle']

for i in titles:
    for j in titles:
        if i!= j and june_2021_df[(june_2021_df[i].notna()) & (june_2021_df[j].notna())].shape[0]!=0:
            print('Titles intersect')


for i,title in enumerate(titles):
    title_values_index = june_2021_df[title].dropna().index.tolist()
    title_values = june_2021_df[title][title_values_index].tolist()
    june_2021_df.loc[title_values_index,'Ваш тайтл'] = title_values

june_2021_df = june_2021_df.drop(columns=titles[1:])

Programming language column consolidation

In [28]:
pr_languages = [
    'Основна мова програмування',
    'Яку мову програмування використовуєте в роботі?'
]
for i,lang in enumerate(pr_languages):
    lang_values_index = june_2021_df[lang].dropna().index.tolist()
    lang_values = june_2021_df[lang][lang_values_index].tolist()
    june_2021_df.loc[lang_values_index,'Основна мова програмування'] = lang_values

june_2021_df = june_2021_df.drop(columns=pr_languages[1:])

In [29]:
june_2021_columns_map = {
    'Позначка часу': 'Timestamp',
    'Де ви мешкаєте?': 'В якій області ви зараз живете?',
    'Зарплата у $$$ за місяць, лише ставка після сплати податків': 'Зарплата / дохід у $$$ за місяць, лише ставка після сплати податків',
    'Тип компанії': 'Основний напрям роботи компанії, в якій працюєте',
    'Чи працюєте ви зараз?': 'Ваша основна зайнятість в ІТ зараз...',
    'Загальний стаж роботи за нинішньою спеціалізацією': 'Загальний стаж роботи за нинішньою ІТ-спеціальністю',
    'В якій сфері працюєте ви / ваш поточний проєкт?' : 'В якій сфері проєкт, в якому ви зараз працюєте?',
    'Кількість спеціалістів у вашій компанії (в Україні)': 'Кількість спеціалістів у вашій компанії (в Україні/з України)',
    # 'Яку мову програмування використовуєте в роботі?':'Основна мова програмування',
    'Вкажіть вашу спеціалізацію':'Вкажіть вашу спеціалізацію - QA',
    'Оберіть вашу посаду_1' :  'Оберіть вашу посаду Designer / Artist',
    'Ваша посада': 'Ваша посада Marketing',
    'Оберіть вашу посаду_4': 'Оберіть вашу посаду HR',
    'Ваша посада_6' : 'Ваша посада Management',
    'Ваша посада_8' :'Ваша посада Analyst',
    'Ваша посада_10' :'Ваша посада Data Science',
    'Ваша посада_12':'Ваша посада DevOps, SRE',
    'Ваша посада_14':'Ваша посада CTO, Director',
    'Оберіть вашу посаду': 'Спеціалізація',
    'Ваш тайтл' : 'Ваш тайтл на цій посаді'
}

In [30]:
june_2021_df.loc[june_2021_df['Позначка часу'].isna(),'Позначка часу'] = pd.Timestamp(year=2021, month=6, day=1) #fill empty values in Timestamp

In [31]:
get_new_columns(june_2021_df,june_2023_df,june_2021_columns_map)

['Загальний стаж роботи в ІТ',
 'Інші мови програмування',
 'Фреймворки, бібліотеки та платформи',
 'Платформи, для яких розробляєте на поточному місці роботи?',
 'Стаж на поточному місці роботи',
 'Наскільки змінилась ваша зарплата за останні 12 місяців?',
 'Чи отримуєте ви грошові бонуси до зарплати?',
 'Вкажіть суму цього бонуса у  після податків',
 'Вкажіть ваш основний заклад вищої освіти (якщо вчилися в кількох – той, де провели найбільше часу)']

In [32]:
get_absent_columns(june_2023_df,june_2021_df,june_2021_columns_map)

['Вкажіть вашу спеціалізацію Game Design',
 'Вкажіть вашу спеціалізацію Sound',
 'Якщо ви працюєте в GameDev,  оберіть вашу спеціалізацію',
 'Ваша спеціалізація Support',
 'Чи використовуєте ви у своїй роботі мови програмування (одну чи декілька)?',
 'Де ви зараз живете? ']

In [33]:
june_2021_df_renamed = june_2021_df.rename(columns=june_2021_columns_map)
j_21_d_22_j_23_df =pd.concat([june_2021_df_renamed, d_22_j_23_df],ignore_index=True) # consolidate the processed data

---

# Dec 2021

In [34]:
dec_2021_df = read_files( '2021_dec_raw.csv')
dec_2021_df.columns

Index(['Timestamp', 'Ви працюєте зараз в ІТ?', 'Де ви мешкаєте?',
       'Де ви працюєте?', 'Ваша стать', 'Ваш вік', 'Яка у вас освіта?',
       'Чи є у вас науковий ступінь? ', 'Знання англійської мови',
       'Оберіть вашу посаду', 'Ваш тайтл', 'Ваш тайтл.1',
       'Вкажіть вашу спеціалізацію', 'Оберіть вашу посаду.1', 'Ваш тайтл.2',
       'Ваша посада', 'Ваш тайтл.3', 'Оберіть вашу посаду.2', 'Ваш тайтл.4',
       'Ваша посада.1', 'Ваш тайтл.5', 'Ваша посада.2', 'Ваш тайтл.6',
       'Ваша посада.3', 'Ваш тайтл.7', 'Ваша посада.4', 'Ваш тайтл.8',
       'Ваш тайтл.9', 'Ваша посада.5',
       'Чи використовуєте ви у своїй роботі мови програмування (одну чи декілька)?',
       'Основна мова програмування', 'Інші мови програмування',
       'Платформи, для яких розробляєте на поточному місці роботи?',
       'Вкажіть вашу основну спеціалізацію', 'В якій сфері працюєте?',
       'Тип компанії', 'Кількість спеціалістів у вашій компанії (в Україні)',
       'Загальний стаж роботи в ІТ'

In [35]:
dec_2021_columns_map = {
    'Ви працюєте зараз в ІТ?': 'Ваша основна зайнятість в ІТ зараз...',
    'Де ви мешкаєте?': 'В якій області ви зараз живете?',
    'Вкажіть суму цього бонуса у  після податків': 'Вкажіть суму цього бонуса у $$$ після податків',
    'Ваша посада': 'Ваша посада Marketing',
    'Оберіть вашу посаду.1': 'Оберіть вашу посаду Designer / Artist',
    'Оберіть вашу посаду.2': 'Оберіть вашу посаду HR',
    'Ваша посада.1': 'Ваша посада Management',
    'Ваша посада.2': 'Ваша посада Analyst',
    'Ваша посада.3': 'Ваша посада Data Science',
    'Ваша посада.4': 'Ваша посада DevOps, SRE',
    'Ваша посада.5': 'Ваша посада CTO, Director',
    'Оберіть вашу посаду': 'Спеціалізація',
    'Ваш тайтл': 'Ваш тайтл на цій посаді',
    'Вкажіть вашу спеціалізацію':'Вкажіть вашу спеціалізацію - QA',
    'В якій сфері працюєте?':'В якій сфері проєкт, в якому ви зараз працюєте?',
    'Тип компанії': 'Основний напрям роботи компанії, в якій працюєте',
    'Кількість спеціалістів у вашій компанії (в Україні)' : 'Кількість спеціалістів у вашій компанії (в Україні/з України)',
    'Загальний стаж роботи за спеціальністю': 'Загальний стаж роботи за нинішньою ІТ-спеціальністю',
    'Зарплата у $$$ за місяць, лише ставка після сплати податків':'Зарплата / дохід у $$$ за місяць, лише ставка після сплати податків',
     'Вкажіть суму цього бонуса у $$$ після податків': 'Вкажіть суму цього бонуса у  після податків'

    
    
    
}

Title column consolidation

In [36]:
titles = ['Ваш тайтл',
    'Ваш тайтл.1',
 'Ваш тайтл.2',
 'Ваш тайтл.3',
 'Ваш тайтл.4',
 'Ваш тайтл.5',
 'Ваш тайтл.6',
 'Ваш тайтл.7',
 'Ваш тайтл.8',
 'Ваш тайтл.9',]
for i in titles:
    for j in titles:
        if i!= j and dec_2021_df[(dec_2021_df[i].notna()) & (dec_2021_df[j].notna())].shape[0]!=0:
            print('Titles intersect')


for i,title in enumerate(titles):
    title_values_index =  dec_2021_df[title].dropna().index.tolist()
    title_values = dec_2021_df[title][title_values_index].tolist()
    dec_2021_df.loc[title_values_index,'Ваш тайтл'] = title_values

dec_2021_df = dec_2021_df.drop(columns=titles[1:])

In [37]:
get_new_columns(dec_2021_df,j_21_d_22_j_23_df,dec_2021_columns_map)

['Де ви працюєте?',
 "У скількох компаніях встигли попрацювати за час ІТ-кар'єри?",
 'Ставка у $$$ за годину, яку ви виставляєте клієнтам']

In [38]:
get_absent_columns(j_21_d_22_j_23_df,dec_2021_df,dec_2021_columns_map)

['Фреймворки, бібліотеки та платформи',
 'Стаж на поточному місці роботи',
 'Вкажіть ваш основний заклад вищої освіти (якщо вчилися в кількох – той, де провели найбільше часу)',
 'Де ви зараз живете? ',
 'Якщо ви працюєте в GameDev,  оберіть вашу спеціалізацію',
 'Вкажіть вашу спеціалізацію Game Design',
 'Вкажіть вашу спеціалізацію Sound',
 'Ваша спеціалізація Support']

In [39]:
dec_2021_df_renamed = dec_2021_df.rename(columns=dec_2021_columns_map)
d_21_j_21_d_22_j_23_df =pd.concat([dec_2021_df_renamed, j_21_d_22_j_23_df],ignore_index=True)
d_21_j_21_d_22_j_23_df.columns

Index(['Timestamp', 'Ваша основна зайнятість в ІТ зараз...',
       'В якій області ви зараз живете?', 'Де ви працюєте?', 'Ваша стать',
       'Ваш вік', 'Яка у вас освіта?', 'Чи є у вас науковий ступінь? ',
       'Знання англійської мови', 'Спеціалізація', 'Ваш тайтл на цій посаді',
       'Вкажіть вашу спеціалізацію - QA',
       'Оберіть вашу посаду Designer / Artist', 'Ваша посада Marketing',
       'Оберіть вашу посаду HR', 'Ваша посада Management',
       'Ваша посада Analyst', 'Ваша посада Data Science',
       'Ваша посада DevOps, SRE', 'Ваша посада CTO, Director',
       'Чи використовуєте ви у своїй роботі мови програмування (одну чи декілька)?',
       'Основна мова програмування', 'Інші мови програмування',
       'Платформи, для яких розробляєте на поточному місці роботи?',
       'Вкажіть вашу основну спеціалізацію',
       'В якій сфері проєкт, в якому ви зараз працюєте?',
       'Основний напрям роботи компанії, в якій працюєте',
       'Кількість спеціалістів у вашій 

----

# Dec 2020

In [40]:
dec_2020_df = read_files('2020_dec_raw.csv')
dec_2020_df.columns

Index(['Отметка времени', 'Ви працюєте зараз в ІТ?', 'Де ви мешкаєте?',
       'Де ви працюєте?', 'Ваша стать', 'Ваш вік', 'Яка у вас освіта?',
       'Вкажіть заклад вищої освіти', 'Знання англійської мови',
       'Оберіть вашу посаду', 'Ваш тайтл', 'Вкажіть вашу спеціалізацію',
       'Основна мова програмування', 'Інші мови програмування',
       'Фреймворки, бібліотеки та платформи',
       'Платформи, для яких розробляєте на поточному місці роботи?',
       'Ваш тайтл_1', 'Вкажіть вашу спеціалізацію_2',
       'Яку мову програмування використовуєте у роботі?',
       'Оберіть вашу посаду_3', 'Ваш тайтл_4', 'Ваша посада', 'Ваш тайтл_5',
       'Оберіть вашу посаду_6', 'Ваш тайтл_7', 'Ваша посада_8', 'Ваш тайтл_9',
       'Ваша посада_10', 'Ваш тайтл_11', 'Ваша посада_12', 'Ваш тайтл_13',
       'Ваша посада_14', 'Ваш тайтл_15', 'Ваша посада_16',
       'В якій сфері працюєте?', 'Тип компанії',
       'Кількість спеціалістів у вашій компанії (в Україні)',
       'Загальний стаж роб

Programming language column consolidation

In [41]:
pr_languages = [
    'Основна мова програмування',
    'Яку мову програмування використовуєте у роботі?'
]

for i,lang in enumerate(pr_languages):
    lang_values_index = dec_2020_df[lang].dropna().index.tolist()
    lang_values = dec_2020_df[lang][lang_values_index].tolist()
    dec_2020_df.loc[lang_values_index,'Основна мова програмування'] = lang_values

dec_2020_df = dec_2020_df.drop(columns=pr_languages[1:])

Title column consolidation

In [42]:
titles = ['Ваш тайтл',
    'Ваш тайтл_1',
 'Ваш тайтл_4',
 'Ваш тайтл_5',
 'Ваш тайтл_7',
 'Ваш тайтл_9',
 'Ваш тайтл_11',
 'Ваш тайтл_13',
 'Ваш тайтл_15',]
for i in titles:
    for j in titles:
        if i!= j and dec_2020_df[(dec_2020_df[i].notna()) & (dec_2020_df[j].notna())].shape[0]!=0:
            print('Titles intersect')

titles_values_index = dec_2020_df[titles].apply(lambda x: x.dropna().index.tolist())
for i,title in enumerate(titles):
    title_values_index = dec_2020_df[title].dropna().index.tolist()
    title_values = dec_2020_df[title][title_values_index].tolist()
    dec_2020_df.loc[title_values_index,'Ваш тайтл'] = title_values

dec_2020_df = dec_2020_df.drop(columns=titles[1:])

In [43]:
dec_2020_columns_map = {
        'Отметка времени': 'Timestamp',
        'Ви працюєте зараз в ІТ?': 'Ваша основна зайнятість в ІТ зараз...',
        'Де ви мешкаєте?': 'В якій області ви зараз живете?',
        'Тип компанії': 'Основний напрям роботи компанії, в якій працюєте',
        'В якій сфері працюєте?': 'В якій сфері проєкт, в якому ви зараз працюєте?',
        'Кількість спеціалістів у вашій компанії (в Україні)':'Кількість спеціалістів у вашій компанії (в Україні/з України)',
        'Загальний стаж роботи за спеціальністю': 'Загальний стаж роботи за нинішньою ІТ-спеціальністю',
        'Зарплата у $$$ за місяць, лише ставка після сплати податків': 'Зарплата / дохід у $$$ за місяць, лише ставка після сплати податків',
        'Вкажіть заклад вищої освіти': 'Вкажіть ваш основний заклад вищої освіти (якщо вчилися в кількох – той, де провели найбільше часу)',
        'Оберіть вашу посаду': 'Спеціалізація',
        'Вкажіть суму цього бонуса у $$$ після податків': 'Вкажіть суму цього бонуса у  після податків',
        'Ваш тайтл': 'Ваш тайтл на цій посаді',
        'Вкажіть вашу спеціалізацію_2': 'Вкажіть вашу спеціалізацію - QA',
        'Оберіть вашу посаду_3' : 'Оберіть вашу посаду Designer / Artist',
        'Оберіть вашу посаду_6':  'Оберіть вашу посаду HR',
        'Ваша посада_8' :  'Ваша посада Management',
        'Ваша посада_10' :  'Ваша посада Analyst',
        'Ваша посада_12' : 'Ваша посада Data Science',
        'Ваша посада_14': 'Ваша посада DevOps, SRE',
        'Ваша посада_16':'Ваша посада CTO, Director',
        'Ваша посада': 'Ваша посада Marketing',
        'Вкажіть вашу спеціалізацію': 'Вкажіть вашу основну спеціалізацію'
}

In [44]:
get_new_columns(dec_2020_df,d_21_j_21_d_22_j_23_df,dec_2020_columns_map)

[]

In [45]:
get_absent_columns(d_21_j_21_d_22_j_23_df,dec_2020_df,dec_2020_columns_map)

['Чи є у вас науковий ступінь? ',
 'Чи використовуєте ви у своїй роботі мови програмування (одну чи декілька)?',
 'Загальний стаж роботи в ІТ',
 'Ставка у $$$ за годину, яку ви виставляєте клієнтам',
 'Де ви зараз живете? ',
 'Якщо ви працюєте в GameDev,  оберіть вашу спеціалізацію',
 'Вкажіть вашу спеціалізацію Game Design',
 'Вкажіть вашу спеціалізацію Sound',
 'Ваша спеціалізація Support']

In [46]:
dec_2020_df_renamed = dec_2020_df.rename(columns=dec_2020_columns_map)
d_20_d_21_j_21_d_22_j_23_df = pd.concat([dec_2020_df_renamed, d_21_j_21_d_22_j_23_df],ignore_index=True) 
d_20_d_21_j_21_d_22_j_23_df.columns

Index(['Timestamp', 'Ваша основна зайнятість в ІТ зараз...',
       'В якій області ви зараз живете?', 'Де ви працюєте?', 'Ваша стать',
       'Ваш вік', 'Яка у вас освіта?',
       'Вкажіть ваш основний заклад вищої освіти (якщо вчилися в кількох – той, де провели найбільше часу)',
       'Знання англійської мови', 'Спеціалізація', 'Ваш тайтл на цій посаді',
       'Вкажіть вашу основну спеціалізацію', 'Основна мова програмування',
       'Інші мови програмування', 'Фреймворки, бібліотеки та платформи',
       'Платформи, для яких розробляєте на поточному місці роботи?',
       'Вкажіть вашу спеціалізацію - QA',
       'Оберіть вашу посаду Designer / Artist', 'Ваша посада Marketing',
       'Оберіть вашу посаду HR', 'Ваша посада Management',
       'Ваша посада Analyst', 'Ваша посада Data Science',
       'Ваша посада DevOps, SRE', 'Ваша посада CTO, Director',
       'В якій сфері проєкт, в якому ви зараз працюєте?',
       'Основний напрям роботи компанії, в якій працюєте',
       'К

------

In [47]:
d_20_d_21_j_21_d_22_j_23_df.to_csv('processed_data\data.csv')

----
