# Data Cleaning & Transformation



**Input:** `data/parsed_data/parsed_data_wokua.csv`

**Output:** `data/cleaned_data/cleaned_data_workua_data.csv`

## Imports

In [14]:
import pandas as pd
import numpy as np
import os

if not os.path.exists("requirements.txt"):
    os.chdir("..")

from data_cleaning_service.utils.utils_workua import parse_salary, clean_and_normalize_skills

## Data upload

In [15]:
df = pd.read_csv("data/parsed_data/parsed_data_workua.csv")

df.head()

Unnamed: 0,specialization,title,company,salary,location,office,remote,years_of_experience,skills
0,python,Python Developer,"Будыкин С.А., ФЛП",0,0,0,1,0,"Відповідальність,Уважність"
1,python,Senior Python Engineer,UKEESS Software House,0,0,0,1,5,"SQL,Git,Python,Jenkins,AWS,Terraform,NoSQL,CI/CD"
2,python,"Вчитель з програмування (створення ігор, вебро...",ITishniki school,10000–20000,0,0,1,1,"Відповідальність,Доброзичливість,Python,HTML,C..."
3,python,Програміст для розробки інтерфейсів вимірюваль...,"Новотест, ООО",40000–80000,Дніпро,1,0,0,"Відповідальність,Самостійність"
4,python,Python developer (FastAPI),Halo Lab,0,0,0,1,1,"SQL,Git,JavaScript,Python,PostgreSQL,React,Doc..."


In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105 entries, 0 to 104
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   specialization       105 non-null    object
 1   title                105 non-null    object
 2   company              105 non-null    object
 3   salary               105 non-null    object
 4   location             105 non-null    object
 5   office               105 non-null    int64 
 6   remote               105 non-null    int64 
 7   years_of_experience  105 non-null    int64 
 8   skills               105 non-null    object
dtypes: int64(3), object(6)
memory usage: 7.5+ KB


In [17]:
df.describe()

Unnamed: 0,office,remote,years_of_experience
count,105.0,105.0,105.0
mean,0.485714,0.514286,1026.733333
std,0.502193,0.502193,7634.096888
min,0.0,0.0,0.0
25%,0.0,0.0,0.0
50%,0.0,1.0,1.0
75%,1.0,1.0,2.0
max,1.0,1.0,67496.0


## Salary column cleaning and transformation

In [18]:
salary_metrics = df["salary"].apply(parse_salary)

df["min_salary"] = [x[0] for x in salary_metrics]
df["max_salary"] = [x[1] for x in salary_metrics]
df["avg_salary"] = [x[2] for x in salary_metrics]

print(f"Salaries parsed. Missing salary count: {df['avg_salary'].isna().sum()}")
df.head(10)

Salaries parsed. Missing salary count: 54


Unnamed: 0,specialization,title,company,salary,location,office,remote,years_of_experience,skills,min_salary,max_salary,avg_salary
0,python,Python Developer,"Будыкин С.А., ФЛП",0,0,0,1,0,"Відповідальність,Уважність",,,
1,python,Senior Python Engineer,UKEESS Software House,0,0,0,1,5,"SQL,Git,Python,Jenkins,AWS,Terraform,NoSQL,CI/CD",,,
2,python,"Вчитель з програмування (створення ігор, вебро...",ITishniki school,10000–20000,0,0,1,1,"Відповідальність,Доброзичливість,Python,HTML,C...",10000.0,20000.0,15000.0
3,python,Програміст для розробки інтерфейсів вимірюваль...,"Новотест, ООО",40000–80000,Дніпро,1,0,0,"Відповідальність,Самостійність",40000.0,80000.0,60000.0
4,python,Python developer (FastAPI),Halo Lab,0,0,0,1,1,"SQL,Git,JavaScript,Python,PostgreSQL,React,Doc...",,,
5,python,"Python, AI Chatbot Developer",OnLifeTime,40000–100000,0,0,1,1,"JavaScript,Ведення CRM,Python,Аналітичне мисле...",40000.0,100000.0,70000.0
6,python,Спеціаліст з автоматизації процесів (Python),"AMZ, Recruiting Agency",0,0,0,1,0,"Відповідальність,Організованість,Уважність,AI,...",,,
7,python,"Викладач курсу Python для дітей (9-16 р., онлайн)",Академія покоління IT,25000–45000,0,0,1,1,Відповідальність,25000.0,45000.0,35000.0
8,python,"Програміст С, С++, Python",6 центр рекрутингу Сил Безпілотних Систем (СБС),50000,Вся Україна,1,0,1,0,50000.0,50000.0,50000.0
9,python,Python Developer (Odoo),ToDo,0,0,0,1,1,"Користувач ОС Linux,Python,PostgreSQL,JSON,Від...",,,


In [19]:
df.drop("salary", axis=1, inplace=True)

df.head(5)

Unnamed: 0,specialization,title,company,location,office,remote,years_of_experience,skills,min_salary,max_salary,avg_salary
0,python,Python Developer,"Будыкин С.А., ФЛП",0,0,1,0,"Відповідальність,Уважність",,,
1,python,Senior Python Engineer,UKEESS Software House,0,0,1,5,"SQL,Git,Python,Jenkins,AWS,Terraform,NoSQL,CI/CD",,,
2,python,"Вчитель з програмування (створення ігор, вебро...",ITishniki school,0,0,1,1,"Відповідальність,Доброзичливість,Python,HTML,C...",10000.0,20000.0,15000.0
3,python,Програміст для розробки інтерфейсів вимірюваль...,"Новотест, ООО",Дніпро,1,0,0,"Відповідальність,Самостійність",40000.0,80000.0,60000.0
4,python,Python developer (FastAPI),Halo Lab,0,0,1,1,"SQL,Git,JavaScript,Python,PostgreSQL,React,Doc...",,,


## Skills column cleaning and transformation

In [20]:
df["skills_normalized"] = df["skills"].apply(clean_and_normalize_skills)

skills_dummies = df["skills_normalized"].str.get_dummies(sep=",")

df_final = pd.concat([df, skills_dummies], axis=1)

df_final.head(5)

Unnamed: 0,specialization,title,company,location,office,remote,years_of_experience,skills,min_salary,max_salary,...,Тестування api,Тестування мобільних застосунків,Тестування пз,Уважність,Уміння аналізувати,Уміння мотивувати,Управління командою,Фінансове планування,Цілеспрямованість,Чесність
0,python,Python Developer,"Будыкин С.А., ФЛП",0,0,1,0,"Відповідальність,Уважність",,,...,0,0,0,1,0,0,0,0,0,0
1,python,Senior Python Engineer,UKEESS Software House,0,0,1,5,"SQL,Git,Python,Jenkins,AWS,Terraform,NoSQL,CI/CD",,,...,0,0,0,0,0,0,0,0,0,0
2,python,"Вчитель з програмування (створення ігор, вебро...",ITishniki school,0,0,1,1,"Відповідальність,Доброзичливість,Python,HTML,C...",10000.0,20000.0,...,0,0,0,0,0,1,0,0,0,0
3,python,Програміст для розробки інтерфейсів вимірюваль...,"Новотест, ООО",Дніпро,1,0,0,"Відповідальність,Самостійність",40000.0,80000.0,...,0,0,0,0,0,0,0,0,0,0
4,python,Python developer (FastAPI),Halo Lab,0,0,1,1,"SQL,Git,JavaScript,Python,PostgreSQL,React,Doc...",,,...,0,0,0,0,0,0,0,0,0,0


In [21]:
df_final.drop(["skills", "skills_normalized"], axis=1, inplace=True)

df_final.head(5)

Unnamed: 0,specialization,title,company,location,office,remote,years_of_experience,min_salary,max_salary,avg_salary,...,Тестування api,Тестування мобільних застосунків,Тестування пз,Уважність,Уміння аналізувати,Уміння мотивувати,Управління командою,Фінансове планування,Цілеспрямованість,Чесність
0,python,Python Developer,"Будыкин С.А., ФЛП",0,0,1,0,,,,...,0,0,0,1,0,0,0,0,0,0
1,python,Senior Python Engineer,UKEESS Software House,0,0,1,5,,,,...,0,0,0,0,0,0,0,0,0,0
2,python,"Вчитель з програмування (створення ігор, вебро...",ITishniki school,0,0,1,1,10000.0,20000.0,15000.0,...,0,0,0,0,0,1,0,0,0,0
3,python,Програміст для розробки інтерфейсів вимірюваль...,"Новотест, ООО",Дніпро,1,0,0,40000.0,80000.0,60000.0,...,0,0,0,0,0,0,0,0,0,0
4,python,Python developer (FastAPI),Halo Lab,0,0,1,1,,,,...,0,0,0,0,0,0,0,0,0,0


## Location column cleaning and transformation

In [22]:
df_final["location"] = df_final["location"].replace("0", "Unknown")

df_final.head(5)

Unnamed: 0,specialization,title,company,location,office,remote,years_of_experience,min_salary,max_salary,avg_salary,...,Тестування api,Тестування мобільних застосунків,Тестування пз,Уважність,Уміння аналізувати,Уміння мотивувати,Управління командою,Фінансове планування,Цілеспрямованість,Чесність
0,python,Python Developer,"Будыкин С.А., ФЛП",Unknown,0,1,0,,,,...,0,0,0,1,0,0,0,0,0,0
1,python,Senior Python Engineer,UKEESS Software House,Unknown,0,1,5,,,,...,0,0,0,0,0,0,0,0,0,0
2,python,"Вчитель з програмування (створення ігор, вебро...",ITishniki school,Unknown,0,1,1,10000.0,20000.0,15000.0,...,0,0,0,0,0,1,0,0,0,0
3,python,Програміст для розробки інтерфейсів вимірюваль...,"Новотест, ООО",Дніпро,1,0,0,40000.0,80000.0,60000.0,...,0,0,0,0,0,0,0,0,0,0
4,python,Python developer (FastAPI),Halo Lab,Unknown,0,1,1,,,,...,0,0,0,0,0,0,0,0,0,0


## Years of expirience column cleaning and transformation

In [23]:
df_final["years_of_experience"].describe()

count      105.000000
mean      1026.733333
std       7634.096888
min          0.000000
25%          0.000000
50%          1.000000
75%          2.000000
max      67496.000000
Name: years_of_experience, dtype: float64

In [24]:
df_final["years_of_experience"] = df_final["years_of_experience"].apply(
    lambda x: np.nan if x > 30 else x
)

df_final.head(5)

Unnamed: 0,specialization,title,company,location,office,remote,years_of_experience,min_salary,max_salary,avg_salary,...,Тестування api,Тестування мобільних застосунків,Тестування пз,Уважність,Уміння аналізувати,Уміння мотивувати,Управління командою,Фінансове планування,Цілеспрямованість,Чесність
0,python,Python Developer,"Будыкин С.А., ФЛП",Unknown,0,1,0.0,,,,...,0,0,0,1,0,0,0,0,0,0
1,python,Senior Python Engineer,UKEESS Software House,Unknown,0,1,5.0,,,,...,0,0,0,0,0,0,0,0,0,0
2,python,"Вчитель з програмування (створення ігор, вебро...",ITishniki school,Unknown,0,1,1.0,10000.0,20000.0,15000.0,...,0,0,0,0,0,1,0,0,0,0
3,python,Програміст для розробки інтерфейсів вимірюваль...,"Новотест, ООО",Дніпро,1,0,0.0,40000.0,80000.0,60000.0,...,0,0,0,0,0,0,0,0,0,0
4,python,Python developer (FastAPI),Halo Lab,Unknown,0,1,1.0,,,,...,0,0,0,0,0,0,0,0,0,0


In [25]:
df_final["years_of_experience"].describe()

count    103.000000
mean       1.077670
std        1.311258
min        0.000000
25%        0.000000
50%        1.000000
75%        2.000000
max        5.000000
Name: years_of_experience, dtype: float64

## Saving the cleaned and transformed data

In [26]:
df_final.to_csv("data/cleaned_data/cleaned_data_workua.csv", index=False)