# Cleaning Skills Data

## Libraries & Utilities

In [79]:
import re
import warnings
import numpy as np
import pandas as pd
from utils import *
from tqdm import tqdm
from deep_translator import GoogleTranslator
from nltk.corpus import stopwords
warnings.filterwarnings('ignore')

translator = GoogleTranslator(source='auto', target='en')
path = '../../../datasets/garanti-bbva-data-camp/skills.csv'
output_path = '../../../datasets/garanti-bbva-data-camp/clean_skills_v2.csv'

In [80]:
df = pd.read_csv(path)
print(f'skills data shape: {df.shape}')
print(f'skills classes: {df["skill"].nunique()}')
df.head()

skills data shape: (1398443, 2)
skills classes: 53025


Unnamed: 0,user_id,skill
0,1,Mühendislik
1,1,Eğitim
2,2,Android
3,2,Java
4,2,3D Studio Max


In [81]:
df['skill'] = df['skill'].apply(lambda x: x.strip())

df.loc[df['skill'].isin(['Javasript', 'Javscript', 'JS', 'JScript', 'js', 'Java Script', 'java script', 'Java Script /JS/ (Orta Derecede)', 'Java script', 'JAVA SCRİPT', 'Java Script(Jquery)']), 'skill'] = 'JavaScript'

df.loc[df['skill'].isin(['R programlama Dili', 'R programlama dili''R Programlama', 'R programming',
 'R programlama', 'R (Programming Language)', 'R Programlama']), 'skill'] = 'R'

df.loc[df['skill'].isin(['postgresql', 'POSTGRESQL', 'postgreSQL', 'PostGreSql', 'postgre', 'postgres', 'POSTGRES']), 'skill'] = 'PostgreSQL'

df.loc[df['skill'].isin(['MongoDb', 'Mongodb', 'Mongo DB', 'Mongo Db', 'MONGODB', 'Mongo db', 'Mongo', 'mongodb', 'mongoDB', 'mongo', 'mongo db', 'Mongo Database', 'mongo DB', 'MONGO DB', 'MongoDB Compass', 'MongoDB-compass', 'MongoDB Atlas', 'mongoDb', 'MongoDB Administration', 'Mongo.db', 'NoSql(Mongo DB)', 'Mongo-Db']), 'skill'] = 'MongoDB'

df.loc[df['skill'].isin(['React.js', 'ReactJS', 'React JS', 'Reactjs', 'ReactJs', 'React.Js', 'React js', 'React Js']), 'skill'] = 'React.js'

df.loc[df['skill'].isin(['C Programming', 'C Programming Language', 'C Programing Language', 'C Programing', 'C Programmin Language', 'Advanced C Programming', 'Embedded C Programming', 'C Progamming', 'C Programming Languages', 'C programlama dili', 'c programlama']), 'skill'] = 'C'

df.loc[df['skill'].isin(['C# ile programlama', 'c sharp', 'C #', '•C #', 'c #', 'WinForms application developer using C #', 'C# Programming', 'C# Programlama Dili', 'C# Programming Language', 'C# Programlamaya Giriş', 'C# Programlama,', 'C# programlama', 'c#', '.c#', 'C Sharp', 'C sharp', '-C sharp programming']), 'skill'] = 'C#'

df.loc[df['skill'].isin(['familiarity with C++', 'C++ Language', 'Dev C++', 'C++ ile programlama', 'C++ Programming', 'C++ programming', 'C++ Programming Language', 'C++ Programming (Beginner Level)', 'C++ Programlama Dili', 'C++ developer', 'C++ Builder', 'C++ (Programming Language)', 'Dev-C++', 'c++',
'C ++']), 'skill'] = 'C++'

df.loc[df['skill'].isin(['react native', 'React-Native', 'React native', 'react-native', 'React-native', 'react Native', 'React Native Developer', 'React, React-Native, Rethink, Socket, VB. Javascript Araçları', 'React NATİVE', 'React Native Router Flux', 'React - React Native', 'REACT NATİVE', 'React Native with Expo', 'React Native (Expo)', 'React Native (Başlangıç)', 'React Native Expo', 'React Native App Development', 'React Native / Hooks / Context API']), 'skill'] = 'React Native'

df.loc[df['skill'].isin(['macOS', 'macOS', 'MacOs', 'macOs', 'Mac OS', 'Mac OS', 'Mac OS X','Mac OS X Server','MAC Os','Mac osx','Mac os x','Mac os','mac os']), 'skill'] = 'MacOS'

df.loc[df['skill'].isin(['iOS development', 'iOS Geliştirme', 'IOS Development', 'Ios Development','ios developer','Native IOS Development', 'iOS Developing','IOS Developer','ios developing', 'ios development']), 'skill'] = 'iOS Development'

df.loc[df['skill'].isin(['R&D', 'Research and Development (R&D)', 'R&d', 'Product R&D', 'Arge', 'arge', 'ARGE PROJELERİ YÖNETİMİ', 'ARGE', 'Araştırma ve  Geliştirme', 'Araştırma Geliştirme Becerisi', 'Ar-Ge', 'AR-GE', 'Ar-Ge Merkezi Oluşumu', 'Ar-Ge Uzmanı', 'Ar-Ge Mühendisi', 'Ar-ge ve inovasyon', 'Ar ge']), 'skill'] = 'Research and Development'

df.loc[df['skill'].isin(['Ağ Mühendisliği', 'Network engineering', 'Network Engineer(Cisco,Juniper)', 'Network Enginner', 'Network Engineer']), 'skill'] = 'Network Engineering'

df.loc[df['skill'].isin(['Electrical engineer', 'Electrical Engineer', 'Interest of Electrical Engineering Topics', 'Elektrik Mühendisliği']), 'skill'] = 'Electrical Engineering'

df.loc[df['skill'].isin(['Web Geliştirme', 'web development', 'WEB GELİŞTİRM', 'Web Developer', 'Web Developers']), 'skill'] = 'Web Development'

df.loc[df['skill'].isin(['git', 'GİT', '.git']), 'skill'] = 'Git'

df.loc[df['skill'].isin(['Ms Excel', 'Microsoft Office Excel', 'Excel', 'Excell', 'Ms Excel', 'MS Excel', 'MS Excell', 'Excel VBA', 'MS Excel Pivot Tables', 'EXCEL', 'İleri Excel', 'Advanced Excel', 'Excel Pivot', 'Excel VBA Makro', 'Excel Makro', 'EXCELL', 'Excel Macros', 'Advanced Excel knowledge', 'microsoft excel', 'excel eğitmeni', 'excel makro', 'macro excel', 'ileri excel']), 'skill'] = 'Microsoft Excel'

df.loc[df['skill'].isin(['machine learning', 'Machine learning', 'Makine Öğrenmesi/Machine Learning', 'Makine Öğrenmesi', 'Makine öğrenmesi', 'Makine ögrenmesi', 'Machine Learning Algorithms', 'Machine Learninig', 'machine learninig', 'MAKİNE ÖĞRENMESİ', 'makine öğrenmesi', 'makine öğrenmesi', 'Makina Öğrenmesi', 'Makina Öğrenimi', 'Makina öğrenmesi', 'makina öğrenmesi', 'makina öğrenimi', 'Makina Ögrenemesi', 'makina ögrenmesi']), 'skill'] = 'Machine Learning'

df.loc[df['skill'].isin(['MsSQL database', 'MsSQL Server', 'MsSQL', 'Mssql', 'mssql', 'ms sql', 'Microsoft SQL', 'Microsoft Sql Server', 'Microsoft Sql', 'Microsoft SQL Server 2016 and T-SQL', 'microsoft sql server', 'MS-SQL', 'MS SQL', 'MS SQL SERVER', 'SQL Server Management Studio', 'MSQL', 'MS SQL Server', 'MSSQL', 'MSSQL Server', 'MSSQL SERVER', 'MSSQL Server 2012', 'MSSQL DATABASE MANAGEMENT', 'MSSQL DB', 'MSSQL Server and SQL Coding', 'MSSQL SERVER 2000/2005/2008', 'Microsoft mssql', 'Mssql Server', 'Ms sql', 'Ms Sql', 'Ms Sql server', 'Ms Sql Server Managemant Studio', 'Ms Sql 2000', 'Ms Sql 2008', 'Ms SQL', 'Ms SQL Server', 'Microsoft sql', 'Ms SQL Server - TSQL', 'MS Sql Server', 'MS Sql', 'MS SQl', 'MS SQL server', 'SQL/MS SQL', 'MS SQLServer', 'MS SQL Server, T-SQL', 'MS SQL Server Management Studio', 'MsSql', 'MSSql', 'MsSql Database management', 'msSql', 'MSSQLSERVER', 'MSSQL Management',  'MS/SQL', 'Ms-SQL', 'MS-Sql', 'MS-SQL Server', 'MS-SQL Server Management Studio', 'Ms-sql', 'Ms-SQL Server', 'MS SQL Server Compact', 'Microsoft SQL Server 2008', 'Server Microsoft SQL', 'MICROSOFT SQL SERVER', 'Microsoft SQL Server 2008, 2005', 'Microsoft SQL Server 2014 - 2016', 'Microsoft SQL Server Admin', 'Microsoft SQL Server Cluster', 'Microsoft SQL Server (2008/2005/2000/7.0/6.5)', 'MİCROSOFT SQL SERVER', 'Microsoft SQL Server 2008 Integration Services', 'Microsoft SQL Server 2008 Analysis Services', 'Microsoft SQL Server 2008 Reporting Services', 'Microsoft SQL Server Administration', 'Microsoft SQL Server 2012', 'microsoft SQL', 'Microsoft SQL MANAGEMENT', 'Microsoft SQL Server Management Studio', 'Microsoft SQL Server Integration Services', 'Microsoft Sql Server Data Tools', 'Administering Microsoft SQL Server 2014 Databases', 'Developing Microsoft SQL Server 2014 Databases', 'Microsoft SQL SERVER', 'Microsoft Sql server', 'MSSQL : Management, Maintenance, Performance & Analysys']), 'skill'] = 'Microsoft SQL Server'

df.loc[df['skill'].isin(['docker', 'docker-compose', 'docker in docker', 'docker swarm', 'Docker Containerization (Python-Java APP docker containerization, Private-Cloud Docker Registry)', 'Docker Products', 'Containerization (Docker)', 'Docker (Compose - Stac - Swarm)', 'Docker Container', 'Dockerize', 'Docker Swarm', 'Docker Compose', 'Docker-compose', 'Docker & Docker Compose', 'Docker Containerization', 'DOCKER', 'DOCKERS', 'Dockers', 'Docker Containers', 'DockerSwarm']), 'skill'] = 'Docker'

df.loc[df['skill'].isin(['Python (Programming Language)', 'Python (Programmiersprache)', 'Python Programming Language', 'Ptyhon', 'Phyton', 'Python Programming', 'Python Programlama', 'Pyhton', 'Python 3', 'Python3', 'Pyhton Basics', 'pyhton', 'pyhton & django', 'Python##(Pandas-Numpy-Matplotlib-pyQt5-Selenium)', 'PYTHON PROGRAMLAMA DİLİ']), 'skill'] = 'Python'

df.loc[df['skill'].isin(['bigdata', 'Bigdata', 'BigData', 'Büyük Veri']), 'skill'] = 'Big Data'

df.loc[df['skill'].isin(['kubernetes', 'KUBERNETES']), 'skill'] = 'Kubernetes'

df.loc[df['skill'].isin(['object oriented programming', 'Object oriented programming','Object-Oriented Programming (OOP)','Object Oriented Programming (OOP)','OOP (Nesne Yönelimli Programlama)','OOP(Object Oriented Programming)','OOP (Object Oriented Programming)','Objektorientierte Programmierung (OOP)','Object-Oriented Programming(OOP)','OOP(Object Orianted Programming)','OOP (Nesne Yönelimli Programlama','OOP programming and implementing design patterns','OOP(Object-Oriented Programming)','Nesne Yönelimli Programlama(OOP)','Object Oriented Programming(OOP)','Programación orientada a objetos (OOP)','OOP ( Object Oriented Programming )','OOP (Object-Oriented Programming)', 'OOP ( Object - Oriented Programming )','OOP(Nesne Yönelimli Programlama)','Object-oriented Programming (OOP)','OOP Design','Advanced OOP','nesneye yönelik programlama','Nesne tabanlı programlama','Nesneye yönelik programlama','Nesne Yönelimli Programlama','Nesne Tabanlı Programlama', 'Oop', 'oop', 'OOP', 'Nesneye Yönelik Programlama', 'Nesneye Yönelimli Programlama', 'Nesne yönelimli programlama', 'Object Oriented Programing', 'Object-Oriented Programming', 'Object-oriented Programming', 'Object-Oriented Programing', 'Object-oriented programming', 'Object-Oriented Programming (OPP)']), 'skill'] = 'Object Oriented Programming'

df.loc[df['skill'].isin(['asp.net', 'asp.net core', 'asp. net core', 'asp.net webapi', 'asp core',]), 'skill'] = 'ASP.NET'

df.loc[df['skill'].isin(['Amazon Web Services (AWS)', 'Amazon Web Hizmetleri (AWS)', 'Amazon Web Services']), 'skill'] = 'AWS'

df.loc[df['skill'].isin(['MS office', 'MS Office', 'MS Office Programları (Word, Excell, Powerpoint)', 'MS Office Programları', 'MS Office Applications', 'MS Office tools', 'MS Office Tools',]), 'skill'] = 'Microsoft Office'

df.loc[df['skill'].isin(['Postgresql', 'Postgre SQL', 'Postgres', 'PostgreSql', 'Postgre', 'PostgreSQL 9.6', 'PostgreSQL = 5/10', 'PostgreSQL Server', 'Postgre sql', 'Postgresql Administration',]), 'skill'] = 'PostgreSQL'

df.loc[df['skill'].isin(['Oracle PL/SQL Development', 'PL SQL', 'Oracle PL/SQL', 'PL-SQL', 'PL/SQL Developer', 'PL/SQL, PostgreSQL, MySQL', 'Pl/Sql', 'pl/sql', 'Oracle PL SQL', 'Oracle(PL Sql)', 'Oracle Pl/SQL', 'PL/SQL Server Pages', 'pl/sql developer', 'Development PL/SQL', 'Advanced PL/SQL', 'Oracle(PL/SQL)', 'Oracle PL-SQL yazılım geliştirme', 'Oracle, SQL, PL-SQL', 'Pl-Sql', 'PL/SQl', 'Pl/SQL', 'Oracle Pl Sql', 'Oracle(PL-SQL)', 'Oracle (PL/SQL)', 'PL/SQL Expertise', 'Pl Sql Developer', 'Oracle - PL/SQL', 'pl-sql', 'PL/SQL Oracle', 'PL/Sql']), 'skill'] = 'PL/SQL'

df.loc[df['skill'].isin(['No Sql', 'No-SQL', 'No sql', 'No-Sql', 'NO-SQL', 'no sql', 'No SQL']), 'skill'] = 'NoSQL'

df.loc[df['skill'].isin(['Mysql', 'mysql', 'MYSQL', 'SQL MYSQL', 'mysqli', 'My Sql', 'MY SQL', 'my SQL', 'My-sql']), 'skill'] = 'MySQL'

df.loc[df['skill'].isin(['Advanced Excel VBA', 'İLERİ EXCELL', 'Macro Excel', 'Excel Macro', 'Excel Dashboards']), 'skill'] = 'Microsoft Excel'

df.loc[df['skill'].isin(['GCP','Google Cloud Platform (GCP)', 'Google Cloud Platform', 'Google Cloud', 'Google Cloud Functions', 'Google cloud', 'google cloud platform', 'Google Cloud Storage', 'Google Clouds', 'Google Cloud Dataflow', 'Google Cloud Run', 'google cloud', 'Google cloude', 'Google Cloud Services', 'Google cloud functions', 'Google Cloud Functions For Firebase', 'Google Cloud Messaging', 'Google Cloud Server', 'Google cloud platform', 'Google Cloud Platform(GCP)']), 'skill'] = 'Google Cloud Platform'

df.loc[df['skill'].isin(['Veri analizi', 'veri analizi']), 'skill'] = 'Data Analysis'

df.loc[df['skill'].isin(['Veri bilimi', 'data science', 'Data science', 'Data Scientist', 'data scientist', 'Data Science & Machine Lerning', 'Data Science with python', 'data scienctst', 'Data Science with R', 'Data scientist']), 'skill'] = 'Data Science'

df.loc[df['skill'].isin(['Web Programlama', 'Web programlama', 'WEB PROGRAMMING', 'Web programming']), 'skill'] = "Web Programming"

df.loc[df['skill'].isin(['SDLC (Sistem Geliştirme Yaşam Döngüsü)', 'SDLC (Software Development Life Cycle)', 'Software Development Life Cycle', 'Software development lifecycle', 'Software Development Lifecycle (SDLC)']), 'skill'] = 'Software Development Lifecycle'

df.loc[df['skill'].isin(['Communication Skills', 'İletişim']), 'skill'] = 'Communication'

df.loc[df['skill'].isin(['Problem solving', 'problem solving', 'Problem Solving Skill', 'Problem Solving Methods', 'Sorun Çözme', 'Problem Çözme', 'Problem çözme', 'problem çözme', 'Problem çözme teknikleri']), 'skill'] = 'Problem Solving'

df.loc[df['skill'].isin(['css', 'Css']), 'skill'] = 'CSS'

df.loc[df['skill'].isin(['java', 'java dili', 'Sun Certified Java Programmer', 'Java Programming', 'Java Programming Language', 'Sun Sertifikalı Java Programcısı', 'Java Programlama', 'Java Programlama 1 (SE) (İsmek- 09.2017  12.2017)', 'Java Programlama 3 (Spring Core & MVC) (İsmek- 12.2017 04.2018)', 'Java Programlama 2 (EE) (İsmek- 12.2017  04.2018)', 'Java Programlama Dili İle Uygulama Geliştirme', 'Java Program Geliştirme', 'Java Programmer', 'java programming language',]), 'skill'] = 'Java'

df.loc[df['skill'].isin(['Agile Metotları', 'Agile Methodolgy', 'agile methodologies', 'agile methodology', 'agile methodoligies', 'AGILE METHODOLOGIES']), 'skill'] = 'Agile Methodologies'

df.loc[df['skill'].isin(['Yazılım mühendisliği', 'Software Engineering Practices', 'Software Engineers', 'Software Engineer', 'Software Enginering', 'Software Engine', 'Object Oriented Software Engineering', 'Embeded Software Engineering', 'software engineering', 'software engineer',]), 'skill'] = 'Software Engineering'

df.loc[df['skill'].isin(['Game Developer', 'Game Developers', 'Game Developing', 'game developer', 'Game development', 'game development', 'Oyun Geliştirici', ]), 'skill'] = 'Game Development'

df.loc[df['skill'].isin(['Full Stack Developer', 'Full Stack Development', 'Full-Stack Developer', 'FullStack', 'Full Stack', 'Full Stack Web Development',
'full stack developer', 'full stack', 'Full stack development', 'Full stack developer', 'Full stack', 'Full-Stack Web Developer', 'Web Development ( Full Stack )', 'Full Stack Devoloper', 'Full Stack Web Developer', 'Full Stack Software Developer', 'FULL STACK DEVELOPER', 'Full Stack Python Developer', 'FullStack Dev (HTML5, CSS3, JS, JQuery, AngularJS | Node.js, RESTful, OData)', 'Fullstack Web Developer', 'fullstack developer', 'Fullstack Web Development', 'Fullstack', 'Fullstack developer']), 'skill'] = 'Full-Stack Development'

df.loc[df['skill'].isin(['Front-end', 'Front-End Development', 'Front-end Coding', 'Front-end Design', 'Frontend Development', 'Front End Development', 'Front End Developer', 'Front End Developers', 'Front-End', 'Frontend', 'Frontend Developer', 'Front End', 'Front-end Developer','frontend', 'front-end development', 'Front end Development', 'Front end', 'Front end development', 'Expert Front-end Developer', 'front-end', 'Web Frontend', 'front end', 'Front end developer', 'Front-end Web Development (HTML 5, CSS, Javascript, Jquery, Ajax, Bootstrap)', 'Front End Developments', 'Web Front End',  'Front-end Developing', 'Front-End Developer', 'Front-end Web Development', 'Front-End Web Tasarım', 'front end developer', 'Front-end development', 'Front End  Development', 'Web Designing, Front End Developer', 'Ön Uç Geliştirme', 'Front-End Web Development', 'Frontend developement', 'Front-End Coding', 'Front-End Coding', 'Frontend Develepment', 'FrontEnd-Developer', 'frontend development', 'Web Frontend Development', 'Frontend (Html, Css, JQuery)',]), 'skill'] = 'Front-end Development'

df.loc[df['skill'].isin(['Back-End Web Development', 'Back-end Development', 'Back-end Operations', 'Back-end Programming', 'Back-End Development', 'Back-end', 'Back-End', 'Back-end Developer', 'Back-end  Development', 'Back-end developer', 'Back-End Programming', 'Back-end Testing', 'Back-end Web Development', 'BACK-END TESTING', 'back-end applications', 'Back-end development', 'Back-End Web Development', 'Back End Developer', 'Back End Development', 'Back End', 'Back end development', 'Back End Developments .net 4.0 <', 'Back end', 'Back End Web Development', 'back end', 'Arka Plan Web Geliştirmesi', 'Backend Development', 'Backend Developer', 'Backend Develepment', 'Backend', 'backend', 'Backend Web Development', 'Backend developer', 'Back-End Development : Node.JS, Spring Boot', 'backend developement', 'backend development',]), 'skill'] = 'Back-end Development'

df.loc[df['skill'].isin(['Transact-SQL (T-SQL)', 'T-SQL Stored Procedures', 'Transact SQL', 't-sql', 'T-Sql', 'Transact SQL (T-SQL)', 'T/SQL', 'T-sql', 't-SQL', 'Transact-SQL', 'Tsql', 'TSql', 'tsql', 'Veritabanı Tsql', 'TransactSQL', 'transact sql', 't sql', 'transact sql', '•\tT-sql']), 'skill'] = 'T-SQL'

df.loc[df['skill'].isin(['vue.js', 'Vue JS', 'Vue js', 'Vue.JS', 'Vue Js', 'Vue.Js', 'vue js', 'Vue.js,', 'VUE JS', 'VUE.JS', 'Vue JS Framework', 'Vue.js / Vuex', 'Vue js.', 'Vue-JS', 'Vue Js.', 'Vue.js/Vuex', 'vue JS', 'Vue.js & Nuxt', 'VUE.js', 'laravel and vue.js', 'VueJS', 'VueJs', 'Vuejs', 'vuejs', 'VUEJS', 'vueJs', 'vueJS']), 'skill'] = 'Vue.js'

df.loc[df['skill'].isin(['node.js', 'Node JS', 'Node.Js', 'node js', 'Node.JS', 'Node Js', 'NODE.JS', 'SAP Cloud Application Programming Model with Node.js', 'Node.js (Orta Seviye)', 'Node.js (Express.js)', 'Senior Node.js Developer', 'Node.js API Development', 'node js socket', 'Node js.', 'Node.js(restify)', 'Node.js / NPM', 'Web Application with Node.js', 'NodeJS', 'NodeJs', 'nodeJS', 'NODEJS', 'nodeJs', 'Mean (MongoDB, Express,AngularJS,NodeJs)', 'NodeJS Programmer', 'nodejs CLI', 'Nodejs Visual Studio Visual Studio Code']), 'skill'] = 'Node.js'

df.loc[df['skill'].isin(['express.js','Express js','Express Js','Express JS','express js','Express.Js','Express.JS']), 'skill'] = 'Express.js'

df.loc[df['skill'].isin(['Angular JS', 'Angular js', 'Angular Js', 'angular js', 'angular.js', 'ANGULAR JS', 'ANGULAR.JS', 'Angular.Js', 'Angular Js 5', 'Angular.JS', 'Angular JS 1.x', 'Angular JS, jQuery&Bootstrap', 'Angular Js2', 'AngularJS', 'AngularJs']), 'skill'] = 'Angular.js'

df.loc[df['skill'].isin(['Team work', 'team work', 'Takim calismasi', 'Takım çalışması', 'Takım Çalışması']), 'skill'] = 'Teamwork'

df.loc[df['skill'].isin(['scikit-learn', 'Scikit Learn', 'Scikit-learn', 'ScikitLearn', 'SciKit', 'scikit', 'Scikit', 'Scikitlearn', 'scikit learn', 'Sklearn', 'sklearn', 'sklearn python']), 'skill'] = 'Scikit-Learn'

df.loc[df['skill'].isin(['İngilizce', 'english', 'English B2', 'English C1', 'advance in english', 'ingilizce', 'Yabancı Dil Olarak İngilizce Öğretimi', 'İkinci Dil Olarak İngilizce Öğretimi', 'İngilizce Öğretimi', 'İNGİLİZCE', 'İngiliz Edebiyatı', 'İngiliz', 'İngiliz Grameri', 'Yabancı Dil(ingilizce)', 'İngilizce B1', 'İngilizce (C1)', 'İngilizce - İyi derecede']), 'skill'] = 'English'

df.loc[df['skill'].isin(['Ado.Net', 'ADO.Net', 'Ado.net', 'ADO/ADO.NET', 'Ado.net EntityFramework', 'ADO.NET Entity Framework', 'Ado.NET', 'ADO.Net Mimarisi', 'ADO.NET Web Forms', 'ADO.NET Core', 'ADO:NET', 'ADO.NET EntityFramework', 'Ado.net Entity Framework']), 'skill'] = 'ADO.NET'

df.loc[df['skill'].isin(['matlab', 'MATLAB', 'MATLAB®', '•\tMatlab', 'MATLAB at Beginner Level']), 'skill'] = 'Matlab'

df.loc[df['skill'].isin(['Assembly Dili', 'Assembly Language',]), 'skill'] = 'Assembly'

df.loc[df['skill'].isin(['CI&CD', 'CI CD', 'CI-CD', 'Continuous Integration and Continuous Delivery (CI/CD)']), 'skill'] = 'CI/CD'

df.loc[df['skill'].isin(['REST APIs', 'Rest API', 'Rest Api', 'rest api', 'Rest api', 'REST Api', 'Rest APIs', 'REST APİ', 'Python Django Web Framework with REST Api', 'REST-API', 'REST API Design', 'MVP,MVVM,Dagger,Rest Api', 'Spring Rest Api', 'Rest API Testing', 'REST API Servers', 'SOAP / REST API', 'SOAP & REST APIs,', 'Server Side Rest Api', 'Rest Api / Json', 'REST-API Communication', 'Rest APİ', 'Python3 Rest Api', 'REST API s', 'Wordpress Rest Api', 'REST APIS', 'Rest Api Testing', 'Django Rest API', 'RestApi', 'RestAPI', 'restapi', 'RestAPIs', 'RESTAPI', 'RESTapi', 'RestApis',]), 'skill'] = 'REST API'

df.loc[df['skill'].isin(['Tensorflow', 'tensorflow', 'TensorFlow.js', 'Tensorflow Lite', 'TENSORFLOW', 'TensorFlow Keras', 'Tensorflow ile derin öğrenme', 'Keras/tensorflow', 'tensor flow', 'Tensor Analysis', 'Tensor Flow', 'Recursive Neural Tensor Networks']), 'skill'] = 'TensorFlow'

df.loc[df['skill'].isin(['html5', 'html 5', 'HTML 5', 'Html5', 'Html 5', 'html', 'Html']), 'skill'] = 'HTML'

df.loc[df['skill'] == 'Web Uygulamaları', 'skill'] = 'Web Applications'
df.loc[df['skill'] == 'Proje Yönetimi', 'skill'] = 'Project Management'
df.loc[df['skill'] == 'Programlama', 'skill'] = 'Programming'
df.loc[df['skill'] == 'Microsoft Teknolojileri', 'skill'] = 'Microsoft Technologies'
df.loc[df['skill'] == 'Microsoft Sunucular', 'skill'] = 'Microsoft Servers'
df.loc[df['skill'] == 'microsoft', 'skill'] = 'Microsoft'
df.loc[df['skill'] == 'Artificial Intelligence (AI)', 'skill'] = 'Artificial Intelligence'
df.loc[df['skill'] == 'Artificial intelligence', 'skill'] = 'Artificial Intelligence'
df.loc[df['skill'] == 'Yazılım Proje Yönetimi', 'skill'] = 'Software Project Management'
df.loc[df['skill'] == 'Proje Planlama', 'skill'] = 'Project Planning'
df.loc[df['skill'] == 'Yazılım Geliştirme', 'skill'] = 'Software Development'
df.loc[df['skill'] == 'Yazılım Mühendisliği', 'skill'] = 'Software Engineering'
df.loc[df['skill'] == 'Yazılım Mühendisleri', 'skill'] = 'Software Engineering'
df.loc[df['skill'] == 'Yazılım Tasarımı', 'skill'] = 'Software Design'
df.loc[df['skill'] == 'Yazılım', 'skill'] = 'Software'
df.loc[df['skill'] == 'yazılım', 'skill'] = 'Software'
df.loc[df['skill'] == 'Açık Kaynak Yazılımı', 'skill'] = 'Open Source Software'
df.loc[df['skill'] == 'Yazılım Geliştirme Metodolojileri', 'skill'] = 'Software Development Methodologies'
df.loc[df['skill'] == 'Yazılım Kalitesi', 'skill'] = 'Software Quality'
df.loc[df['skill'] == 'Yazılım Konfigürasyon Yönetimi', 'skill'] = 'Software Configuration Management'
df.loc[df['skill'] == 'Yazılım Çözümleri', 'skill'] = 'Software Solutions'
df.loc[df['skill'] == 'Yazılım Dokümantasyonu', 'skill'] = 'Software Documentation'
df.loc[df['skill'] == 'Yazılım Kalite Güvencesi', 'skill'] = 'Software Quality Assurance'
df.loc[df['skill'] == 'Php', 'skill'] = 'PHP'
df.loc[df['skill'] == 'jquery', 'skill'] = 'jQuery' 
df.loc[df['skill'] == 'proje yönetimi', 'skill'] = 'Project Management'
df.loc[df['skill'] == 'project management', 'skill'] = 'Project Management'
df.loc[df['skill'] == 'Proje Yönetim', 'skill'] = 'Project Management'
df.loc[df['skill'] == 'linux', 'skill'] = 'Linux'
df.loc[df['skill'] == 'sql', 'skill'] = 'SQL'
df.loc[df['skill'] == 'Agile Proje Yönetimi', 'skill'] = 'Agile Project Management'
df.loc[df['skill'] == 'JQUERY', 'skill'] = 'jQuery'

df.loc[df['skill'] == 'scrum', 'skill'] = 'Scrum'
df.loc[df['skill'] == 'programlama', 'skill'] = 'Programming'
df.loc[df['skill'] == 'excel', 'skill'] = 'Microsoft Excel'
df.loc[df['skill'] == 'Mühendislik', 'skill'] = 'Engineering'
df.loc[df['skill'] == 'mühendislik', 'skill'] = 'Engineering'
df.loc[df['skill'] == 'yazılım mühendisliği', 'skill'] = 'Software Engineering'
df.loc[df['skill'] == 'bilgisayar mühendisliği', 'skill'] = 'Computer Engineering'
df.loc[df['skill'] == 'Microcontroller 68hc811 hardware and software engineer', 'skill'] = 'Software Engineering'
df.loc[df['skill'] == 'x86 based microcontroller hardware and software engineer', 'skill'] = 'Software Engineering'
df.loc[df['skill'] == 'model based software engineering', 'skill'] = 'Software Engineering'
df.loc[df['skill'] == 'software development', 'skill'] = 'Software Development'
df.loc[df['skill'] == 'software developer', 'skill'] = 'Software Development'
df.loc[df['skill'] == 'ms office', 'skill'] = 'Microsoft Office'
df.loc[df['skill'] == 'ASP.Net', 'skill'] = 'ASP.NET'
df.loc[df['skill'] == 'ORACLE', 'skill'] = 'Oracle'
df.loc[df['skill'] == 'php', 'skill'] = 'PHP'
df.loc[df['skill'] == 'jira', 'skill'] = 'JIRA'
df.loc[df['skill'] == 'Jira', 'skill'] = 'JIRA'
df.loc[df['skill'] == 'Atlassian Jira', 'skill'] = 'JIRA'
df.loc[df['skill'] == '.net', 'skill'] = '.NET'
df.loc[df['skill'] == '.Net', 'skill'] = '.NET'
df.loc[df['skill'] == 'Asp.Net', 'skill'] = 'ASP.NET'
df.loc[df['skill'] == 'json', 'skill'] = 'JSON'

df.loc[df['skill'] == 'android', 'skill'] = 'Android'
df.loc[df['skill'] == 'Swift (Programming Language)', 'skill'] = 'Swift'
df.loc[df['skill'] == 'Go (Programming Language)', 'skill'] = 'Go'
df.loc[df['skill'] == 'C (Programming Language)', 'skill'] = 'C'
df.loc[df['skill'] == 'c', 'skill'] = 'C'
df.loc[df['skill'] == 'C programming', 'skill'] = 'C'
df.loc[df['skill'] == 'C programlama', 'skill'] = 'C'
df.loc[df['skill'] == 'C Programlama', 'skill'] = 'C'
df.loc[df['skill'] == 'Java programming language', 'skill'] = 'Java'
df.loc[df['skill'] == 'SAS programming', 'skill'] = 'SAS'
df.loc[df['skill'] == 'computer programming', 'skill'] = 'Computer Programming'
df.loc[df['skill'] == 'programming', 'skill'] = 'Programming'
df.loc[df['skill'] == 'Swift programming language', 'skill'] = 'Swift'
df.loc[df['skill'] == 'Software programming Fundamentals', 'skill'] = 'Software Programming'
df.loc[df['skill'] == 'Introduction to JAVA programming', 'skill'] = 'Java'
df.loc[df['skill'] == 'bilgisayar programlama', 'skill'] = 'Computer Programming' 
df.loc[df['skill'] == 'Bilgisayar programlama', 'skill'] = 'Computer Programming'
df.loc[df['skill'] == 'SAS Programlama', 'skill'] = 'SAS'
df.loc[df['skill'] == 'Web geliştirme', 'skill'] = 'Web Development'
df.loc[df['skill'] == 'SCRUM', 'skill'] = 'Scrum'
df.loc[df['skill'] == 'scrump', 'skill'] = 'Scrum'
df.loc[df['skill'] == 'reactjs', 'skill'] = 'React.js'
df.loc[df['skill'] == 'JAVA', 'skill'] = 'Java'
df.loc[df['skill'] == 'My SQL', 'skill'] = 'MySQL'

df.loc[df['skill'] == 'CSS 3', 'skill'] = 'CSS3'
df.loc[df['skill'] == 'Cascading Style Sheets (CSS)', 'skill'] = 'CSS'
df.loc[df['skill'] == 'Web Hizmetleri', 'skill'] = 'Web Services'
df.loc[df['skill'] == 'Web Tasarımı', 'skill'] = 'Web Design'
df.loc[df['skill'] == 'Web design', 'skill'] = 'Web Design'
df.loc[df['skill'] == 'web design', 'skill'] = 'Web Design'
df.loc[df['skill'] == 'nodejs', 'skill'] = 'Node.js'
df.loc[df['skill'] == 'Nodejs', 'skill'] = 'Node.js'
df.loc[df['skill'] == 'Node js', 'skill'] = 'Node.js'
df.loc[df['skill'] == 'TSQL', 'skill'] = 'T-SQL'
df.loc[df['skill'] == 'Software Design Patterns', 'skill'] = 'Software Design'
df.loc[df['skill'] == 'Software Development Methodologies', 'skill'] = 'Software Development'
df.loc[df['skill'] == 'Software Development Life Cycle (SDLC)', 'skill'] = 'Software Development'
df.loc[df['skill'] == 'Teamworking', 'skill'] = 'Teamwork'
df.loc[df['skill'] == 'teamwork', 'skill'] = 'Teamwork'
df.loc[df['skill'] == 'Ekip Çalışması', 'skill'] = 'Teamwork'
df.loc[df['skill'] == 'Ekip Liderliği', 'skill'] = 'Team Leadership'
df.loc[df['skill'] == 'Team Work', 'skill'] = 'Teamwork'
df.loc[df['skill'] == 'ekip çalışması', 'skill'] = 'Teamwork'
df.loc[df['skill'] == 'ekip çakışması', 'skill'] = 'Teamwork'
df.loc[df['skill'] == 'Analitik Beceriler', 'skill'] = 'Analytical Skills'
df.loc[df['skill'] == 'Analatik Beceriler', 'skill'] = 'Analytical Skills'
df.loc[df['skill'] == 'analitik beceriler', 'skill'] = 'Analytical Skills'
df.loc[df['skill'] == 'Sunum Becerileri', 'skill'] = 'Presentation Skills'
df.loc[df['skill'] == 'Yönetim', 'skill'] = 'Management'
df.loc[df['skill'] == 'Yönetim', 'skill'] = 'Management'
df.loc[df['skill'] == 'Ürün Yönetimi', 'skill'] = 'Product Management'
df.loc[df['skill'] == 'Ekip Yönetimi', 'skill'] = 'Team Management'
df.loc[df['skill'] == 'Android Geliştirme', 'skill'] = 'Android Development'
df.loc[df['skill'] == 'İş Analizi', 'skill'] = 'Business Analysis'
df.loc[df['skill'] == 'Veri Analizi', 'skill'] = 'Data Analysis'
df.loc[df['skill'] == 'Analizler', 'skill'] = 'Analysis'
df.loc[df['skill'] == 'Analiz', 'skill'] = 'Analysis'
df.loc[df['skill'] == 'Gereksinim Analizi', 'skill'] = 'Requirements Analysis'
df.loc[df['skill'] == 'Gereksinim Analizi', 'skill'] = 'Requirements Analysis'
df.loc[df['skill'] == 'FMEA (Hata Türleri ve Etkileri Analizi)', 'skill'] = 'Failure Modes and Effects Analysis'
df.loc[df['skill'] == 'Failure Mode and Effects Analysis (FMEA)', 'skill'] = 'Failure Modes and Effects Analysis'
df.loc[df['skill'] == 'FMEA ( Failure Modes and Effects Analysis)', 'skill'] = 'Failure Modes and Effects Analysis'
df.loc[df['skill'] == '(FMEA) Failure Mode and Effects Analysis', 'skill'] = 'Failure Modes and Effects Analysis'
df.loc[df['skill'] == 'FMEA (Failure Mode Effects Analysis)', 'skill'] = 'Failure Modes and Effects Analysis'
df.loc[df['skill'] == 'Teknik Analiz', 'skill'] = 'Technical Analysis'
df.loc[df['skill'] == 'Nümerik Analiz', 'skill'] = 'Numerical Analysis'
df.loc[df['skill'] == 'Raporlama ve Analiz', 'skill'] = 'Reporting & Analysis'
df.loc[df['skill'] == 'Raporlama', 'skill'] = 'Reporting'
df.loc[df['skill'] == 'İş Geliştirme', 'skill'] = 'Business Development'
df.loc[df['skill'] == 'İş Zekası', 'skill'] = 'Business Intelligence'
df.loc[df['skill'] == 'Business Intelligence (BI)', 'skill'] = 'Business Intelligence'
df.loc[df['skill'] == 'İş Süreçlerini İyileştirme', 'skill'] = 'Business Process Improvement'
df.loc[df['skill'] == 'İş Planı', 'skill'] = 'Business Planning'
df.loc[df['skill'] == 'İş İngilizcesi', 'skill'] = 'Business English'
df.loc[df['skill'] == 'Yeni İş Geliştirme', 'skill'] = 'New Business Development'
df.loc[df['skill'] == 'İş Analitiği', 'skill'] = 'Business Analytics'
df.loc[df['skill'] == 'Bilgisayar Bilimleri', 'skill'] = 'Computer Science'
df.loc[df['skill'] == 'Bilgisayar Mühendisliği', 'skill'] = 'Computer Engineering'
df.loc[df['skill'] == 'Bilgisayar Güvenliği', 'skill'] = 'Computer Security'
df.loc[df['skill'] == 'Bilgisayarla Görme', 'skill'] = 'Computer Vision'
df.loc[df['skill'] == 'Bilgisayar Ağları', 'skill'] = 'Computer Networking'
df.loc[df['skill'] == 'Bilgisayar Grafiği', 'skill'] = 'Computer Graphics'
df.loc[df['skill'] == 'Bilgisayar Programcılığı', 'skill'] = 'Computer Programming'
df.loc[df['skill'] == 'Bilgisayar Donanımı', 'skill'] = 'Computer Hardware'
df.loc[df['skill'] == 'Bilgisayar Onarımı', 'skill'] = 'Computer Repair'
df.loc[df['skill'] == 'Bilgisayar Tamiri', 'skill'] = 'Computer Repair'
df.loc[df['skill'] == 'CAD (Bilgisayar Destekli Tasarım)', 'skill'] = 'Computer-Aided Design (CAD)'
df.loc[df['skill'] == 'Computer vision', 'skill'] = 'Computer Vision'
df.loc[df['skill'] == 'Veritabanları', 'skill'] = 'Databases'
df.loc[df['skill'] == 'Oracle Veritabanı', 'skill'] = 'Oracle Database'
df.loc[df['skill'] == 'Veri Yapıları', 'skill'] = 'Data Structures'
df.loc[df['skill'] == 'Veri Madenciliği', 'skill'] = 'Data Mining'
df.loc[df['skill'] == 'Veri Bilimi', 'skill'] = 'Data Science'
df.loc[df['skill'] == 'Veritabanı Tasarımı', 'skill'] = 'Database Design'
df.loc[df['skill'] == 'Veritabanı Yönetimi', 'skill'] = 'Database Administration'
df.loc[df['skill'] == 'Veritabanı Geliştirme', 'skill'] = 'Database Development'
df.loc[df['skill'] == 'Müşteri Hizmetleri', 'skill'] = 'Customer Service'
df.loc[df['skill'] == 'Müşteri Memnuniyeti', 'skill'] = 'Customer Satisfaction'
df.loc[df['skill'] == 'Customer Experience', 'skill'] = 'Müşteri Deneyimi'
df.loc[df['skill'] == 'Müşteri Desteği', 'skill'] = 'Customer Support'
df.loc[df['skill'] == 'Nesne Yönelimli Tasarım', 'skill'] = 'Object Oriented Design'
df.loc[df['skill'] == 'Tasarım Örüntüleri', 'skill'] = 'Design Patterns'
df.loc[df['skill'] == 'Tasarım', 'skill'] = 'Design'
df.loc[df['skill'] == 'Ürün Geliştirme', 'skill'] = 'Product Development'
df.loc[df['skill'] == 'Stratejik Planlama', 'skill'] = 'Strategic Planning'
df.loc[df['skill'] == 'Planlama', 'skill'] = 'Planning'
df.loc[df['skill'] == 'ERP (Kurumsal Kaynak Planlaması)', 'skill'] = 'Enterprise Resource Planning (ERP)'
df.loc[df['skill'] == 'ERP', 'skill'] = 'Enterprise Resource Planning (ERP)'
df.loc[df['skill'] == 'Yazılım Ürün Yönetimi', 'skill'] = 'Software Project Management'
df.loc[df['skill'] == 'Linux Sistem Yönetimi', 'skill'] = 'Linux System Administration'
df.loc[df['skill'] == 'Sistem Yönetimi', 'skill'] = 'System Administration'
df.loc[df['skill'] == 'Sistem Analizi', 'skill'] = 'Systems Analysis'
df.loc[df['skill'] == 'Sistem Mühendisliği', 'skill'] = 'Systems Engineering'
df.loc[df['skill'] == 'Kalite Sistemi', 'skill'] = 'Quality System'
df.loc[df['skill'] == 'Sistem Testi', 'skill'] = 'System Testing'
df.loc[df['skill'] == 'Systems Design', 'skill'] = 'System Design'
df.loc[df['skill'] == 'Sistem Mimarisi', 'skill'] = 'System Architecture'
df.loc[df['skill'] == 'Veri Görselleştirme', 'skill'] = 'Data Visualization'
df.loc[df['skill'] == 'İstatistiksel Veri Analizi', 'skill'] = 'Statistical Data Analysis'
df.loc[df['skill'] == 'İlişkisel Veritabanları', 'skill'] = 'Relational Databases'
df.loc[df['skill'] == 'Veri Merkezi', 'skill'] = 'Data Center'
df.loc[df['skill'] == 'Veri Modelleme', 'skill'] = 'Data Modeling'
df.loc[df['skill'] == 'Data Modelling', 'skill'] = 'Data Modeling'
df.loc[df['skill'] == 'Veri Entegrasyonu', 'skill'] = 'Data Integration'
df.loc[df['skill'] == 'Mobil Uygulamalar', 'skill'] = 'Mobile Applications'
df.loc[df['skill'] == 'Mobil Uygulama Geliştirme', 'skill'] = 'Mobile Application Development'
df.loc[df['skill'] == 'Android Uygulama Geliştirme', 'skill'] = 'Android Application Development'
df.loc[df['skill'] == 'Android Application Developer', 'skill'] = 'Android Application Development'
df.loc[df['skill'] == 'Takım Oluşturma', 'skill'] = 'Team Building'
df.loc[df['skill'] == 'Veri Tabanı', 'skill'] = 'Databases'
df.loc[df['skill'] == 'Veri Tabanları', 'skill'] = 'Databases'
df.loc[df['skill'] == 'Veri tabanı', 'skill'] = 'Databases'
df.loc[df['skill'] == 'Veri tabanları', 'skill'] = 'Databases'
df.loc[df['skill'] == 'Veri tabanı yönetimi', 'skill'] = 'Database Administration'
df.loc[df['skill'] == 'Satış Yönetimi', 'skill'] = 'Sales Management'
df.loc[df['skill'] == 'BT Hizmeti Yönetimi', 'skill'] = 'IT Service Management'
df.loc[df['skill'] == 'Operasyon Yönetimi', 'skill'] = 'Operations Management'
df.loc[df['skill'] == 'Değişiklik Yönetimi', 'skill'] = 'Change Management'
df.loc[df['skill'] == 'Zaman Yönetimi', 'skill'] = 'Time Management'
df.loc[df['skill'] == 'Risk Yönetimi', 'skill'] = 'Risk Management'
df.loc[df['skill'] == 'Risk Yönetimi', 'skill'] = 'Risk Management'
df.loc[df['skill'] == 'Risk Analizi', 'skill'] = 'Risk Analysis'
df.loc[df['skill'] == 'Risk Analizleri', 'skill'] = 'Risk Analysis'
df.loc[df['skill'] == 'Finansal Analizler', 'skill'] = 'Financial Analysis'
df.loc[df['skill'] == 'Yazılım Test Yaşam Döngüsü (STLC)', 'skill'] = 'Software Testing Life Cycle (STLC)'
df.loc[df['skill'] == 'Yazılım Sektörü', 'skill'] = 'Software'
df.loc[df['skill'] == 'Yazılım Testi', 'skill'] = 'Software Testing'
df.loc[df['skill'] == 'Kriz Yönetimi', 'skill'] = 'Crisis Management'
df.loc[df['skill'] == 'Kriz anlarında karar verebilme.', 'skill'] = 'Crisis Management'
df.loc[df['skill'] == 'HACCP', 'skill'] = 'Hazard Analysis and Critical Control Points'
df.loc[df['skill'] == 'HACCP (Tehlike Analizleri ve Kritik Kontrol Noktaları)', 'skill'] = 'Hazard Analysis and Critical Control Points'
df.loc[df['skill'] == 'Hazard Analysis and Critical Control Points (HACCP)', 'skill'] = 'Hazard Analysis and Critical Control Points'
df.loc[df['skill'] == 'Pazarlama', 'skill'] = 'Marketing'
df.loc[df['skill'] == 'Pazarlama Stratejisi', 'skill'] = 'Marketing Strategy'
df.loc[df['skill'] == 'Dijital Pazarlama', 'skill'] = 'Digital Marketing'
df.loc[df['skill'] == 'Sosyal Medya Pazarlaması', 'skill'] = 'Social Media Marketing'
df.loc[df['skill'] == 'Satış', 'skill'] = 'Sales'
df.loc[df['skill'] == 'Satış Operasyonları', 'skill'] = 'Sales Operations'
df.loc[df['skill'] == 'Oyun Geliştirme', 'skill'] = 'Game Development'
df.loc[df['skill'] == 'Makine Öğrenimi', 'skill'] = 'Machine Learning'
df.loc[df['skill'] == 'Makine Mühendisliği', 'skill'] = 'Mechanical Engineering'
df.loc[df['skill'] == 'Makine öğrenme', 'skill'] = 'Machine Learning'
df.loc[df['skill'] == 'Go (Programming Language)', 'skill'] = 'Go'
df.loc[df["skill"] == "Teknik Destek", "skill"] = "Technical Support"
df.loc[df["skill"] == "Teknik Liderlik", "skill"] = "Technical Leadership"
df.loc[df["skill"] == "Teknik Servisler", "skill"] = "Technical Services"
df.loc[df["skill"] == "Teknik Sunumlar", "skill"] = "Technical Presentations"
df.loc[df["skill"] == "Teknik Tasarım", "skill"] = "Technical Design"
df.loc[df["skill"] == "Teknik İşe Alım", "skill"] = "Technical Recruitment"
df.loc[df["skill"] == "Teknik Raporlar", "skill"] = "Technical Reports"
df.loc[df["skill"] == "Teknik Mimari", "skill"] = "Technical Architecture"
df.loc[df["skill"] == "Teknik Yazı", "skill"] = "Technical Writing"
df.loc[df["skill"] == "Teknik Resim", "skill"] = "Technical Drawing"
df.loc[df["skill"] == "Teknik Yazım", "skill"] = "Technical Writing"
df.loc[df["skill"] == "Teknik Çeviri", "skill"] = "Technical Translation"
df.loc[df["skill"] == "Teknik İletişim", "skill"] = "Technical Communication"
df.loc[df["skill"] == "Bilgisayar Yeterliliği", "skill"] = "Computer Proficiency"
df.loc[df["skill"] == "Etik Bilgisayar Korsanlığı", "skill"] = "Ethical Hacking"
df.loc[df["skill"] == "Bilgisayar Ağı Operasyonları", "skill"] = "Computer Network Operations"
df.loc[df["skill"] == "Bilgisayar Mimarisi", "skill"] = "Computer Architecture"
df.loc[df["skill"] == "Bilgisayar Bakımı", "skill"] = "Computer Maintenance"
df.loc[df["skill"] == "Bilgisayar Donanımı Sorun Giderme", "skill"] = "Computer Hardware Troubleshooting"
df.loc[df["skill"] == "İnsan Bilgisayar Etkileşimi", "skill"] = "Human Computer Interaction"
df.loc[df["skill"] == "Bilgisayar Simülasyonu", "skill"] = "Computer Simulation"
df.loc[df["skill"] == "Bilgisayar Yazılımı", "skill"] = "Computer Software"
df.loc[df["skill"] == "Bilgisayar", "skill"] = "Computer"
df.loc[df["skill"] == "Dizüstü Bilgisayarlar", "skill"] = "Laptops"
df.loc[df["skill"] == "Masaüstü Bilgisayarlar", "skill"] = "Desktop Computers"
df.loc[df["skill"] == "Bilgisayarla görme", "skill"] = "Computer Vision"
df.loc[df["skill"] == "Bilgisayar programcılığı", "skill"] = "Computer programming"
df.loc[df["skill"] == "Bilgisayar yazılım", "skill"] = "computer software"
df.loc[df["skill"] == "CAM (Bilgisayar Destekli İmalat)", "skill"] = "CAM (Computer Aided Manufacturing)"
df.loc[df["skill"] == "Bilgisayarlı Görme", "skill"] = "Computer Vision"
df.loc[df["skill"] == "Bilgisayar Grafikleri", "skill"] = "Computer Graphics"
df.loc[df["skill"] == "Bilgisayarlı Görü", "skill"] = "Computer Vision"
df.loc[df["skill"] == "Bilgisayarlı Sistem Validasyonu", "skill"] = "Computerized System Validation"
df.loc[df["skill"] == "Bilgisayar Donanım", "skill"] = "Computer Hardware"
df.loc[df["skill"] == "Görüntü İşleme", "skill"] = "Image Processing"
df.loc[df["skill"] == "İş Stratejisi", "skill"] = "Business Strategy"
df.loc[df["skill"] == "İşletim Sistemleri", "skill"] = "Operating Systems"
df.loc[df["skill"] == "Bulut Bilgi İşlem", "skill"] = "Cloud Computing"
df.loc[df["skill"] == "Doğal Dil İşleme", "skill"] = "Natural Language Processing"
df.loc[df["skill"] == "Gerçek Zamanlı İşletim Sistemleri (RTOS)", "skill"] = "Real Time Operating Systems (RTOS)"
df.loc[df["skill"] == "RTOS", "skill"] = "Real Time Operating Systems (RTOS)"
df.loc[df["skill"] == "Real-Time Operating Systems (RTOS)", "skill"] = "Real Time Operating Systems (RTOS)"
df.loc[df["skill"] == "Sinyal İşleme", "skill"] = "Signal Processing"
df.loc[df["skill"] == "Mikro İşlemciler", "skill"] = "Microprocessors"
df.loc[df["skill"] == "Bilgi İşlem", "skill"] = "Computing"
df.loc[df["skill"] == "İşletme", "skill"] = "Business"
df.loc[df["skill"] == "Dijital Sinyal İşleme", "skill"] = "Digital Signal Processing"
df.loc[df["skill"] == "Dijital Görüntü İşleme", "skill"] = "Digital Image Processing"
df.loc[df["skill"] == "İş Süreci", "skill"] = "Business Process"
df.loc[df["skill"] == "İş Zekası Araçları", "skill"] = "Business Intelligence Tools"
df.loc[df["skill"] == "İşe Alma", "skill"] = "Recruitment"
df.loc[df["skill"] == "İş Denetim Dili (JCL)", "skill"] = "Job Control Language (JCL)"
df.loc[df["skill"] == "VMware İş İstasyonu", "skill"] = "Vmware Workstation"
df.loc[df["skill"] == "İş Süreci Yönetimi", "skill"] = "Business Process Management"
df.loc[df["skill"] == "Gıda İşleme", "skill"] = "Food Processing"
df.loc[df["skill"] == "Liman İşçisi", "skill"] = "Docker"
df.loc[df["skill"] == "İş Süreci Tasarımı", "skill"] = "Business Process Design"
df.loc[df["skill"] == "İşlemciler", "skill"] = "Processors"
df.loc[df["skill"] == "İş İlişkisi Yönetimi", "skill"] = "Business Relationship Management"
df.loc[df["skill"] == "İş Modellemesi", "skill"] = "Business Modeling"
df.loc[df["skill"] == "Isıl İşlem", "skill"] = "Heat Treatment"
df.loc[df["skill"] == "E-İş", "skill"] = "E-Business"
df.loc[df["skill"] == "İş Sürekliliği Planlaması", "skill"] = "Business Continuity Planning"
df.loc[df["skill"] == "Uluslararası İşletme", "skill"] = "International Business"
df.loc[df["skill"] == "Kanal İş Ortakları", "skill"] = "Channel Partners"
df.loc[df["skill"] == "İşaret Dili", "skill"] = "Sign Language"
df.loc[df["skill"] == "İş Uygulamaları", "skill"] = "Business Applications"
df.loc[df["skill"] == "İş Gücü Planlaması", "skill"] = "Workforce Planning"
df.loc[df["skill"] == "Uluslararası İş Geliştirme", "skill"] = "International Business Development"
df.loc[df["skill"] == "Toplu İşlem", "skill"] = "Batch Processing"
df.loc[df["skill"] == "İş Ağı Oluşturma", "skill"] = "Business Networking"
df.loc[df["skill"] == "Ödeme Kartı İşleme", "skill"] = "Payment Card Processing"
df.loc[df["skill"] == "İş İçgörüleri", "skill"] = "Business Insights"
df.loc[df["skill"] == "Küçük İşletmeler", "skill"] = "Small Business"
df.loc[df["skill"] == "İşaret dili", "skill"] = "Sign Language"
df.loc[df["skill"] == "İş Değerlendirmesi", "skill"] = "Job Evaluation"
df.loc[df["skill"] == "Küçük İşletme Yönetimi", "skill"] = "Small Business Management"
df.loc[df["skill"] == "İş analizi", "skill"] = "Business Analysis"
df.loc[df["skill"] == "Ses İşleme", "skill"] = "Audio Processing"
df.loc[df["skill"] == "BT İşe Alımı", "skill"] = "It Recruitment"
df.loc[df["skill"] == "İş Gücü Geliştirme", "skill"] = "Workforce Development"
df.loc[df["skill"] == "Paralel Bilgi İşlem", "skill"] = "Parallel Computing"
df.loc[df["skill"] == "İş Devamlılığı", "skill"] = "Business Continuity"
df.loc[df["skill"] == "İş Analisti", "skill"] = "Business Analyst"
df.loc[df["skill"] == "İş Akış Yönetimi", "skill"] = "Workflow Management"
df.loc[df["skill"] == "Ağ Yönetimi", "skill"] = "Network Management"
df.loc[df["skill"] == "Kalite Yönetimi", "skill"] = "Quality Management"
df.loc[df["skill"] == "Test Yönetimi", "skill"] = "Test Management"
df.loc[df["skill"] == "Sunucu Yönetimi", "skill"] = "Server Management"
df.loc[df["skill"] == "BT Yönetimi", "skill"] = "IT Management"
df.loc[df["skill"] == "Veritabanı Yönetimi Sistemi (DBMS)", "skill"] = "Database Management System (DBMS)"
df.loc[df["skill"] == "Bilgi Güvenliği Yönetimi", "skill"] = "Information Security Management"
df.loc[df["skill"] == "Etkinlik Yönetimi", "skill"] = "Event Management"
df.loc[df["skill"] == "Web Projesi Yönetimi", "skill"] = "Web Project Management"
df.loc[df["skill"] == "Program Yönetimi", "skill"] = "Program Management"
df.loc[df["skill"] == "İçerik Yönetimi", "skill"] = "Content Management"
df.loc[df["skill"] == "Mühendislik Yönetimi", "skill"] = "Engineering Management"
df.loc[df["skill"] == "Lojistik Yönetimi", "skill"] = "Logistics Management"
df.loc[df["skill"] == "Veri Yönetimi", "skill"] = "Data Management"
df.loc[df["skill"] == "Üretim Yönetimi", "skill"] = "Production Management"
df.loc[df["skill"] == "Problem Yönetimi", "skill"] = "Problem Management"
df.loc[df["skill"] == "Tedarikçi Yönetimi", "skill"] = "Supplier Management"
df.loc[df["skill"] == "Stres Yönetimi", "skill"] = "Stress Management"
df.loc[df["skill"] == "Gereksinim Yönetimi", "skill"] = "Requirements Management"
df.loc[df["skill"] == "Sözleşme Yönetimi", "skill"] = "Contract Management"
df.loc[df["skill"] == "Hesap Yönetimi", "skill"] = "Account Management"
df.loc[df["skill"] == "Konfigürasyon Yönetimi", "skill"] = "Configuration Management"
df.loc[df["skill"] == "Yönetim Kurulu", "skill"] = "Board Of Directors"
df.loc[df["skill"] == "BT Altyapı Yönetimi", "skill"] = "IT Infrastructure Management"
df.loc[df["skill"] == "Bulut Yönetimi", "skill"] = "Cloud Management"
df.loc[df["skill"] == "İnsan Yönetimi", "skill"] = "People Management"
df.loc[df["skill"] == "Marka Yönetimi", "skill"] = "Brand Management"
df.loc[df["skill"] == "Güvenlik Yönetimi", "skill"] = "Security Management"
df.loc[df["skill"] == "Ürün Yaşam Döngüsü Yönetimi", "skill"] = "Product Lifecycle Management"
df.loc[df["skill"] == "Pazarlama Yönetimi", "skill"] = "Marketing Management"
df.loc[df["skill"] == "İnşaat Yönetimi", "skill"] = "Construction Management"
df.loc[df["skill"] == "Müşteri Yönetimi", "skill"] = "Customer Management"
df.loc[df["skill"] == "Yönetim Danışmanlığı", "skill"] = "Management Consulting"
df.loc[df["skill"] == "Stratejik Yönetim", "skill"] = "Strategic Management"
df.loc[df["skill"] == "Bilgi Yönetimi", "skill"] = "Information Management"
df.loc[df["skill"] == "Kurumsal İçerik Yönetimi", "skill"] = "Enterprise Content Management"
df.loc[df["skill"] == "Sanat Yönetimi", "skill"] = "Art Direction"
df.loc[df["skill"] == "Kaynak Yönetimi", "skill"] = "Resource Management"
df.loc[df["skill"] == "Gönüllü Yönetimi", "skill"] = "Volunteer Management"
df.loc[df["skill"] == "Depo Yönetimi", "skill"] = "Warehouse Management"
df.loc[df["skill"] == "Reklam Yönetimi", "skill"] = "Advertising Management"
df.loc[df["skill"] == "Çevre Yönetimi Sistemleri", "skill"] = "Environmental Management Systems"
df.loc[df["skill"] == "Enerji Yönetimi", "skill"] = "Energy Management"
df.loc[df["skill"] == "Sürüm Yönetimi", "skill"] = "Release Management"
df.loc[df["skill"] == "Maliyet Yönetimi", "skill"] = "Cost Management"
df.loc[df["skill"] == "BT Yönetim", "skill"] = "It Management"
df.loc[df["skill"] == "Proje Yönetimi Bilgi Tabanı (PMBOK)", "skill"] = "Project Management Knowledge Base (PMBOK)"
df.loc[df["skill"] == "Acil Durum Yönetimi", "skill"] = "Emergency Management"
df.loc[df["skill"] == "Yalın Yönetim", "skill"] = "Lean Management"
df.loc[df["skill"] == "Paydaş Yönetimi", "skill"] = "Stakeholder Management"
df.loc[df["skill"] == "Şikayet Yönetimi", "skill"] = "Complaint Management"
df.loc[df["skill"] == "Olay Yönetimi", "skill"] = "Incident Management"
df.loc[df["skill"] == "Çatışma Yönetimi", "skill"] = "Conflict Management"
df.loc[df["skill"] == "Topluluk Yönetimi", "skill"] = "Community Management"
df.loc[df["skill"] == "Mobil Cihaz Yönetimi", "skill"] = "Mobile Device Management"
df.loc[df["skill"] == "Uluslararası Proje Yönetimi", "skill"] = "International Project Management"
df.loc[df["skill"] == "Kurumsal Risk Yönetimi", "skill"] = "Enterprise Risk Management"
df.loc[df["skill"] == "Grafik Tasarımı", "skill"] = "Graphic Design"
df.loc[df["skill"] == "PCB Tasarım", "skill"] = "PCB Design"
df.loc[df["skill"] == "Oyun Tasarımı", "skill"] = "Game Design"
df.loc[df["skill"] == "Adobe Tasarım Programları", "skill"] = "Adobe Design Programs"
df.loc[df["skill"] == "Kullanıcı Arabirimi Tasarımı", "skill"] = "User Interface Design"
df.loc[df["skill"] == "Algoritma Tasarımı", "skill"] = "Algorithm Design"
df.loc[df["skill"] == "Ağ Tasarımı", "skill"] = "Network Design"
df.loc[df["skill"] == "Devre Tasarımı", "skill"] = "Circuit Design"
df.loc[df["skill"] == "Kontrol Sistemleri Tasarımı", "skill"] = "Control Systems Design"
df.loc[df["skill"] == "Sistem Tasarımı", "skill"] = "System Design"
df.loc[df["skill"] == "Kullanıcı Deneyimi Tasarımı (UED)", "skill"] = "User Experience Design (UED)"
df.loc[df["skill"] == "WordPress Tasarımı", "skill"] = "Wordpress Design"
df.loc[df["skill"] == "Analog Devre Tasarımı", "skill"] = "Analog Circuit Design"
df.loc[df["skill"] == "Ürün Tasarımı", "skill"] = "Product Design"
df.loc[df["skill"] == "Web Uygulama Tasarımı", "skill"] = "Web Application Design"
df.loc[df["skill"] == "Tasarım Mühendisliği", "skill"] = "Design Engineering"
df.loc[df["skill"] == "Tasarımcı Düşünce", "skill"] = "Design Thinking"
df.loc[df["skill"] == "Kullanıcı Deneyimi Tasarımı", "skill"] = "User Experience Design"
df.loc[df["skill"] == "3D Tasarımı", "skill"] = "3D Design"
df.loc[df["skill"] == "Mobil Tasarım", "skill"] = "Mobile Design"
df.loc[df["skill"] == "Öğretim Tasarımı", "skill"] = "Instructional Design"
df.loc[df["skill"] == "Elektriksel Tasarım", "skill"] = "Electrical Design"
df.loc[df["skill"] == "Tümleşik Devre Tasarımı", "skill"] = "Integrated Circuit Design"
df.loc[df["skill"] == "Güvenlik Mimarisi Tasarımı", "skill"] = "Security Architecture Design"
df.loc[df["skill"] == "Tasarım Araştırması", "skill"] = "Design Research"
df.loc[df["skill"] == "Proje Tasarımı", "skill"] = "Project Design"
df.loc[df["skill"] == "Proses Tasarımı", "skill"] = "Process Design"
df.loc[df["skill"] == "Makine Tasarımı", "skill"] = "Machine Design"
df.loc[df["skill"] == "Mühendislik Tasarımı", "skill"] = "Engineering Design"
df.loc[df["skill"] == "Ses Tasarımı", "skill"] = "Sound Design"
df.loc[df["skill"] == "İmalat İçin Tasarım", "skill"] = "Design For Manufacturing"
df.loc[df["skill"] == "Seviye Tasarımı", "skill"] = "Level Design"
df.loc[df["skill"] == "Kavramsal Tasarım", "skill"] = "Conceptual Design"
df.loc[df["skill"] == "Tasarım Yönetimi", "skill"] = "Design Management"
df.loc[df["skill"] == "Etkileşim Tasarımı", "skill"] = "Interaction Design"
df.loc[df["skill"] == "Grafik Tasarım", "skill"] = "Graphic Design"
df.loc[df["skill"] == "Uçak Tasarımı", "skill"] = "Aircraft Design"
df.loc[df["skill"] == "Kentsel Tasarım", "skill"] = "Urban Design"
df.loc[df["skill"] == "Tasarım Gözden Geçirme", "skill"] = "Design Review"
df.loc[df["skill"] == "Kurumsal Yazılım", "skill"] = "Enterprise Software"
df.loc[df["skill"] == "ERP Yazılımı", "skill"] = "Erp Software"
df.loc[df["skill"] == "Tümleşik Yazılım", "skill"] = "Embedded Software"
df.loc[df["skill"] == "Yazılım Uygulama", "skill"] = "Software Application"
df.loc[df["skill"] == "Arena Simülasyon Yazılımı", "skill"] = "Arena Simulation Software"
df.loc[df["skill"] == "Kötü Amaçlı Yazılım Analizi", "skill"] = "Malware Analysis"
df.loc[df["skill"] == "Yazılım Projeleri", "skill"] = "Software Projects"
df.loc[df["skill"] == "Gömülü Yazılım", "skill"] = "Embedded Software"
df.loc[df["skill"] == "Yazılım Yaşam Döngüsü", "skill"] = "Software Lifecycle"
df.loc[df["skill"] == "Yazılım Gereksinimleri", "skill"] = "Software Requirements"
df.loc[df["skill"] == "Muhasebe Yazılımı", "skill"] = "Accounting Software"
df.loc[df["skill"] == "Proje Yönetimi Yazılımı", "skill"] = "Project Management Software"
df.loc[df["skill"] == "Autodesk Yazılımı", "skill"] = "Autodesk Software"
df.loc[df["skill"] == "Gömülü Sistem Yazılımı", "skill"] = "Embedded System Software"
df.loc[df["skill"] == "Yazılım Test", "skill"] = "Software Testing"
df.loc[df["skill"] == "Kurumsal Yazılım Geliştirme", "skill"] = "Enterprise Software Development"
df.loc[df["skill"] == "Yazılım Mimarisi", "skill"] = "Software Architecture"
df.loc[df["skill"] == "Yazılım Destek", "skill"] = "Software Support"
df.loc[df["skill"] == "Kurumsal Yazılım Mimarisi", "skill"] = "Enterprise Software Architecture"
df.loc[df["skill"] == "Yazılım Analizi", "skill"] = "Software Analysis"
df.loc[df["skill"] == "Yazılım test", "skill"] = "Software Testing"
df.loc[df["skill"] == "Yazılım Test Otomasyon", "skill"] = "Software Test Automation"
df.loc[df["skill"] == "Yazılımcı", "skill"] = "Programmer"
df.loc[df["skill"] == "Emniyet Kritik Yazılım Geliştirme", "skill"] = "Safety Critical Software Development"
df.loc[df["skill"] == "Özgür Yazılım", "skill"] = "Free Software"
df.loc[df["skill"] == "Yazılım Varlık Yönetimi", "skill"] = "Software Asset Management"
df.loc[df["skill"] == "Yazılım Test Mühendisi", "skill"] = "Software Test Engineer"
df.loc[df["skill"] == "Kontrol Yazılımı", "skill"] = "Control Software"
df.loc[df["skill"] == "Kurumsal Yazılım", "skill"] = "Enterprise Software"
df.loc[df["skill"] == "ERP Yazılımı", "skill"] = "Erp Software"
df.loc[df["skill"] == "Tümleşik Yazılım", "skill"] = "Embedded Software"
df.loc[df["skill"] == "Yazılım Uygulama", "skill"] = "Software Application"
df.loc[df["skill"] == "Arena Simülasyon Yazılımı", "skill"] = "Arena Simulation Software"
df.loc[df["skill"] == "Kötü Amaçlı Yazılım Analizi", "skill"] = "Malware Analysis"
df.loc[df["skill"] == "Yazılım Projeleri", "skill"] = "Software Projects"
df.loc[df["skill"] == "Gömülü Yazılım", "skill"] = "Embedded Software"
df.loc[df["skill"] == "Yazılım Yaşam Döngüsü", "skill"] = "Software Lifecycle"
df.loc[df["skill"] == "Yazılım Gereksinimleri", "skill"] = "Software Requirements"
df.loc[df["skill"] == "Muhasebe Yazılımı", "skill"] = "Accounting Software"
df.loc[df["skill"] == "Proje Yönetimi Yazılımı", "skill"] = "Project Management Software"
df.loc[df["skill"] == "Autodesk Yazılımı", "skill"] = "Autodesk Software"
df.loc[df["skill"] == "Gömülü Sistem Yazılımı", "skill"] = "Embedded System Software"
df.loc[df["skill"] == "Yazılım Test", "skill"] = "Software Testing"
df.loc[df["skill"] == "Kurumsal Yazılım Geliştirme", "skill"] = "Enterprise Software Development"
df.loc[df["skill"] == "Yazılım Mimarisi", "skill"] = "Software Architecture"
df.loc[df["skill"] == "Yazılım Destek", "skill"] = "Software Support"
df.loc[df["skill"] == "Kurumsal Yazılım Mimarisi", "skill"] = "Enterprise Software Architecture"
df.loc[df["skill"] == "Yazılım Analizi", "skill"] = "Software Analysis"
df.loc[df["skill"] == "Yazılım test", "skill"] = "Software Testing"
df.loc[df["skill"] == "Yazılım Test Otomasyon", "skill"] = "Software Test Automation"
df.loc[df["skill"] == "Yazılımcı", "skill"] = "Programmer"
df.loc[df["skill"] == "Emniyet Kritik Yazılım Geliştirme", "skill"] = "Safety Critical Software Development"
df.loc[df["skill"] == "Özgür Yazılım", "skill"] = "Free Software"
df.loc[df["skill"] == "Yazılım Varlık Yönetimi", "skill"] = "Software Asset Management"
df.loc[df["skill"] == "Yazılım Test Mühendisi", "skill"] = "Software Test Engineer"
df.loc[df["skill"] == "Kontrol Yazılımı", "skill"] = "Control Software"
df.loc[df["skill"] == "Proje Mühendisliği", "skill"] = "Project Engineering"
df.loc[df["skill"] == "Proje Koordinasyonu", "skill"] = "Project Coordination"
df.loc[df["skill"] == "Proje Kontrolü", "skill"] = "Project Control"
df.loc[df["skill"] == "Proje Teslimi", "skill"] = "Project Delivery"
df.loc[df["skill"] == "Proje Tahmini", "skill"] = "Project Estimation"
df.loc[df["skill"] == "Proje Uygulaması", "skill"] = "Project Implementation"
df.loc[df["skill"] == "Proje Ekipleri", "skill"] = "Project Teams"
df.loc[df["skill"] == "Proje Portföy Yönetimi", "skill"] = "Project Portfolio Management"
df.loc[df["skill"] == "Proje Planları", "skill"] = "Project Plans"
df.loc[df["skill"] == "Proje Yöneticileri", "skill"] = "Project Management"
df.loc[df["skill"] == "Proje Geliştirme", "skill"] = "Project Development"
df.loc[df["skill"] == "Dijital Proje Yönetimi", "skill"] = "Digital Project Management"
df.loc[df["skill"] == "Proje Yazımı", "skill"] = "Project Writing"
df.loc[df["skill"] == "Proje Dökümantasyon", "skill"] = "Project Documentation"
df.loc[df["skill"] == "Kuruluş Proje Yönetimi (EPM)", "skill"] = "Enterprise Project Management (EPM)"
df.loc[df["skill"] == "Proje Takibi", "skill"] = "Project Tracking"
df.loc[df["skill"] == "Agile Proje Management", "skill"] = "Agile Project Management"
df.loc[df["skill"] == "Proje Yöneticiliği", "skill"] = "Project Management"
df.loc[df["skill"] == "Proje Analizi", "skill"] = "Project Analysis"
df.loc[df["skill"] == "Problem Analizi", "skill"] = "Problem Analysis"
df.loc[df["skill"] == "Kök Neden Analizi", "skill"] = "Root Cause Analysis"
df.loc[df["skill"] == "Sonlu Elemanlar Analizi", "skill"] = "Finite Element Analysis"
df.loc[df["skill"] == "Hata Analizi", "skill"] = "Error Analysis"
df.loc[df["skill"] == "Yapısal Analiz", "skill"] = "Structural Analysis"
df.loc[df["skill"] == "Regresyon Analizi", "skill"] = "Regression Analysis"
df.loc[df["skill"] == "Piyasa Analizi", "skill"] = "Market Analysis"
df.loc[df["skill"] == "Zaman Serisi Analizi", "skill"] = "Time Series Analysis"
df.loc[df["skill"] == "Pazarlama Analizleri", "skill"] = "Marketing Analytics"
df.loc[df["skill"] == "Trend Analizi", "skill"] = "Trend Analysis"
df.loc[df["skill"] == "Algoritma Analizi", "skill"] = "Algorithm Analysis"
df.loc[df["skill"] == "Proses Analizi", "skill"] = "Process Analysis"
df.loc[df["skill"] == "İhtiyaç Analizi", "skill"] = "Needs Analysis"
df.loc[df["skill"] == "Görüntü Analizi", "skill"] = "Image Analysis"
df.loc[df["skill"] == "Analiz Hizmetleri", "skill"] = "Analysis Services"
df.loc[df["skill"] == "Fonksiyonel Analiz", "skill"] = "Functional Analysis"
df.loc[df["skill"] == "Müşteri Analizi", "skill"] = "Customer Analysis"
df.loc[df["skill"] == "Tehlike Analizi", "skill"] = "Hazard Analysis"
df.loc[df["skill"] == "Sayısal Analiz", "skill"] = "Numerical Analysis"
df.loc[df["skill"] == "Devre Analizi", "skill"] = "Circuit Analysis"
df.loc[df["skill"] == "Paydaş Analizi", "skill"] = "Stakeholder Analysis"
df.loc[df["skill"] == "İstihbarat Analizi", "skill"] = "Intelligence Analysis"
df.loc[df["skill"] == "Uzamsal Analiz", "skill"] = "Spatial Analysis"
df.loc[df["skill"] == "Stres Analizi", "skill"] = "Stress Analysis"
df.loc[df["skill"] == "Kredi Analizi", "skill"] = "Credit Analysis"
df.loc[df["skill"] == "Zafiyet Analizi", "skill"] = "Vulnerability Analysis"
df.loc[df["skill"] == "Duygu Analizi", "skill"] = "Sentiment Analysis"
df.loc[df["skill"] == "Teknoloji İhtiyaçları Analizi", "skill"] = "Technology Needs Analysis"
df.loc[df["skill"] == "Temel Analiz", "skill"] = "Fundamental Analysis"
df.loc[df["skill"] == "Fiyatlandırma Analizi", "skill"] = "Pricing Analysis"
df.loc[df["skill"] == "Eğitim", "skill"] = "Education"
df.loc[df["skill"] == "Profesyonel Eğitim", "skill"] = "Professional Education"
df.loc[df["skill"] == "Çalışan Eğitimi", "skill"] = "Employee Training"
df.loc[df["skill"] == "Kişisel Eğitim", "skill"] = "Personal Training"
df.loc[df["skill"] == "Uzaktan Eğitim", "skill"] = "Distance Learning"
df.loc[df["skill"] == "Uçuş Eğitimi", "skill"] = "Flight Training"
df.loc[df["skill"] == "Matematik Eğitimi", "skill"] = "Mathematics Education"
df.loc[df["skill"] == "Yetişkin Eğitimi", "skill"] = "Adult Education"
df.loc[df["skill"] == "Son Kullanıcı Eğitimi", "skill"] = "End User Training"
df.loc[df["skill"] == "Fitness Eğitimi", "skill"] = "Fitness Training"
df.loc[df["skill"] == "Müzik Eğitimi", "skill"] = "Music Education"
df.loc[df["skill"] == "Eğitimci", "skill"] = "Trainer"
df.loc[df["skill"] == "Mesleki Eğitim", "skill"] = "Vocational Education"
df.loc[df["skill"] == "Güvenlik Eğitimi", "skill"] = "Safety Training"
df.loc[df["skill"] == "K-12 Eğitimi", "skill"] = "K-12 Education"
df.loc[df["skill"] == "Sağlık Eğitimi", "skill"] = "Health Education"
df.loc[df["skill"] == "Anket Tasarımı", "skill"] = "Survey Design"
df.loc[df["skill"] == "Basım Tasarımı", "skill"] = "Print Design"
df.loc[df["skill"] == "Sayısal Tasarım", "skill"] = "Digital Design"
df.loc[df["skill"] == "Elektronik Devre Tasarımı", "skill"] = "Electronic Circuit Design"
df.loc[df["skill"] == "Tasarım Odaklı Düşünme", "skill"] = "Design Thinking"
df.loc[df["skill"] == "Elektronik Donanım Tasarımı", "skill"] = "Electronic Hardware Design"
df.loc[df["skill"] == "Aydınlatma Tasarımı", "skill"] = "Lighting Design"
df.loc[df["skill"] == "Gömülü Sistem Tasarımı", "skill"] = "Embedded System Design"
df.loc[df["skill"] == "Optik Tasarım", "skill"] = "Optical Design"
df.loc[df["skill"] == "Hareket Tasarımı", "skill"] = "Motion Design"
df.loc[df["skill"] == "Tasarım Düşüncesi", "skill"] = "Design Thinking"
df.loc[df["skill"] == "Müfredat Tasarımı", "skill"] = "Curriculum Design"
df.loc[df["skill"] == "Tasarım Stratejisi", "skill"] = "Design Strategy"
df.loc[df["skill"] == "Elektronik Tasarım", "skill"] = "Electronic Design"
df.loc[df["skill"] == "Dergi Tasarım", "skill"] = "Magazine Design"
df.loc[df["skill"] == "Tasarım Desenleri", "skill"] = "Design Patterns"
df.loc[df["skill"] == "Responsive Web Tasarım", "skill"] = "Responsive Web Design"
df.loc[df["skill"] == "Marka Tasarımı", "skill"] = "Brand Design"
df.loc[df["skill"] == "İç Mekan Tasarımı", "skill"] = "Interior Design"
df.loc[df["skill"] == "Veri Tabanı Tasarım", "skill"] = "Database Design"
df.loc[df["skill"] == "Tekstil Tasarımı", "skill"] = "Textile Design"
df.loc[df["skill"] == "Ön Uç Mühendislik Tasarımı (FEED)", "skill"] = "Front End Engineering Design (FEED)"
df.loc[df["skill"] == "Mekanik Tasarım", "skill"] = "Mechanical Design"
df.loc[df["skill"] == "Organizasyonel Tasarım", "skill"] = "Organizational Design"
df.loc[df["skill"] == "Deneyim Tasarımı", "skill"] = "Experience Design"
df.loc[df["skill"] == "Çelik Tasarım", "skill"] = "Steel Design"
df.loc[df["skill"] == "Fonksiyonel Tasarım", "skill"] = "Functional Design"
df.loc[df["skill"] == "Donanım Tasarımı", "skill"] = "Hardware Design"
df.loc[df["skill"] == "RTL Tasarımı", "skill"] = "RTL Design"
df.loc[df["skill"] == "Uygulama Geliştirme", "skill"] = "Application Development"
df.loc[df["skill"] == "iOS Uygulaması Geliştirme", "skill"] = "IOS App Development"
df.loc[df["skill"] == "Test Odaklı Geliştirme", "skill"] = "Test Driven Development"
df.loc[df["skill"] == "Program Geliştirme", "skill"] = "Program Development"
df.loc[df["skill"] == "İçerik Geliştirme", "skill"] = "Content Development"
df.loc[df["skill"] == "iPhone Uygulama Geliştirme", "skill"] = "Iphone Application Development"
df.loc[df["skill"] == "Marka Geliştirme", "skill"] = "Brand Development"
df.loc[df["skill"] == "Müfredat Geliştirme", "skill"] = "Curriculum Development"
df.loc[df["skill"] == "Platformlar Arası Geliştirme", "skill"] = "Cross-Platform Development"
df.loc[df["skill"] == "Bulut Uygulama Geliştirme", "skill"] = "Cloud Application Development"
df.loc[df["skill"] == "Tedarikçi Geliştirme", "skill"] = "Supplier Development"
df.loc[df["skill"] == "Sistem Geliştirme", "skill"] = "System Development"
df.loc[df["skill"] == "Geliştirme Projeleri", "skill"] = "Development Projects"
df.loc[df["skill"] == "Çözüm Geliştirme", "skill"] = "Solution Development"
df.loc[df["skill"] == "Web Sitesi Geliştirme", "skill"] = "Web Development"
df.loc[df["skill"] == "Yenilik Geliştirme", "skill"] = "Innovation Development"
df.loc[df["skill"] == "SaaS Geliştirme", "skill"] = "Saas Development"
df.loc[df["skill"] == "Yazlım Geliştirme", "skill"] = "Software Development"
df.loc[df["skill"] == "BT Geliştirme", "skill"] = "IT Development"
df.loc[df["skill"] == "Prosedür Geliştirme", "skill"] = "Procedure Development"
df.loc[df["skill"] == "Kariyer Geliştirme", "skill"] = "Career Development"
df.loc[df["skill"] == "Geliştirme Araçları", "skill"] = "Development Tools"
df.loc[df["skill"] == "Yemek Tarifi Geliştirme", "skill"] = "Recipe Development"
df.loc[df["skill"] == "Menü Geliştirme", "skill"] = "Menu Development"
df.loc[df["skill"] == "İlaç Geliştirme", "skill"] = "Drug Development"
df.loc[df["skill"] == "Hızlı Uygulama Geliştirme (RAD)", "skill"] = "Rapid Application Development (RAD)"
df.loc[df["skill"] == "Sunum Geliştirme", "skill"] = "Presentation Development"
df.loc[df["skill"] == "Masaüstü Uygulama Geliştirme", "skill"] = "Desktop Application Development"
df.loc[df["skill"] == "Algoritma Geliştirme", "skill"] = "Algorithm Development"
df.loc[df["skill"] == "Arduino Geliştirme", "skill"] = "Arduino Development"
df.loc[df["skill"] == "Piyasa Geliştirme", "skill"] = "Market Development"
df.loc[df["skill"] == "Web Uygulama Geliştirme", "skill"] = "Web Application Development"
df.loc[df["skill"] == "Yöntem Geliştirme", "skill"] = "Method Development"
df.loc[df["skill"] == "Use Case Analizi", "skill"] = "Use Case Analizi"
df.loc[df["skill"] == "Algoritma Tasarımı ve Analizi", "skill"] = "Algorithm Design And Analysis"
df.loc[df["skill"] == "Arıza Analizleri", "skill"] = "Fault Analysis"
df.loc[df["skill"] == "Kümeleme Analizi", "skill"] = "Cluster Analysis"
df.loc[df["skill"] == "Faktör Analizi", "skill"] = "Factor Analysis"
df.loc[df["skill"] == "ANSYS Yapısal Analiz", "skill"] = "ANSYS Structural Analysis"
df.loc[df["skill"] == "Tolerans Analizi", "skill"] = "Tolerance Analysis"
df.loc[df["skill"] == "Test Analiz", "skill"] = "Test Analysis"
df.loc[df["skill"] == "Veri Tabanı Analizi", "skill"] = "Database Analysis"
df.loc[df["skill"] == "Adli Bilişim Analizi", "skill"] = "Forensic Analysis"
df.loc[df["skill"] == "Malware Analizi", "skill"] = "Malware Analizi"
df.loc[df["skill"] == "Ağ Analizi", "skill"] = "Network Analysis"
df.loc[df["skill"] == "Uygulama Programlaması Arayüzleri", "skill"] = "Application Programming Interfaces"
df.loc[df["skill"] == "Grafik Kullanıcı Arayüzü (GUI)", "skill"] = "Graphical User Interface (GUI)"
df.loc[df["skill"] == "İnsan Makine Arayüzü", "skill"] = "Human Machine Interface"
df.loc[df["skill"] == "Arayüzler", "skill"] = "Interfaces"
df.loc[df["skill"] == "Uygulama Programlama Arayüzü", "skill"] = "Application Programming Interface"
df.loc[df["skill"] == "Kullanıcı Arayüzü Tasarımı", "skill"] = "User Interface Design"
df.loc[df["skill"] == "Talep Yönetimi", "skill"] = "Demand Management"
df.loc[df["skill"] == "Kalite Yönetim", "skill"] = "Quality Management"
df.loc[df["skill"] == "Altyapı Yönetimi", "skill"] = "Infrastructure Management"
df.loc[df["skill"] == "Tesis Yönetimi (FM)", "skill"] = "Facility Management (FM)"
df.loc[df["skill"] == "Müşteri Hizmet Yönetimi", "skill"] = "Customer Service Management"
df.loc[df["skill"] == "Mağaza Yönetimi", "skill"] = "Store Management"
df.loc[df["skill"] == "Teknoloji Yönetimi", "skill"] = "Technology Management"
df.loc[df["skill"] == "Bayi Yönetimi", "skill"] = "Dealer Management"
df.loc[df["skill"] == "Sistemler Yönetimi", "skill"] = "Systems Management"
df.loc[df["skill"] == "Dosya Yönetimi", "skill"] = "File Management"
df.loc[df["skill"] == "İhale Yönetimi", "skill"] = "Tender Management"
df.loc[df["skill"] == "Depolama Yönetimi", "skill"] = "Storage Management"
df.loc[df["skill"] == "Uygulama Yaşam Döngüsü Yönetimi", "skill"] = "Application Lifecycle Management"
df.loc[df["skill"] == "Ulaştırma Yönetimi", "skill"] = "Transportation Management"
df.loc[df["skill"] == "Finansal Risk Yönetimi", "skill"] = "Financial Risk Management"
df.loc[df["skill"] == "Kalite Yönetim Sistemleri", "skill"] = "Quality Management Systems"
df.loc[df["skill"] == "Hastane Bilgi Yönetim Sistemi", "skill"] = "Hospital Information Management System"
df.loc[df["skill"] == "Veri Tabanı Yönetimi", "skill"] = "Database Management"
df.loc[df["skill"] == "Laboratuvar Bilgi Yönetim Sistemi (LIMS)", "skill"] = "Laboratory Information Management System (LIMS)"
df.loc[df["skill"] == "Mali Raporlama", "skill"] = "Financial Reporting"
df.loc[df["skill"] == "Performans Raporlama", "skill"] = "Performance Reporting"
df.loc[df["skill"] == "Finansal Raporlama", "skill"] = "Financial Reporting"
df.loc[df["skill"] == "Veri Raporlama", "skill"] = "Data Reporting"
df.loc[df["skill"] == "Araştırıcı Raporlama", "skill"] = "Investigative Reporting"
df.loc[df["skill"] == "Raporlama Gereksinimleri", "skill"] = "Reporting Requirements"
df.loc[df["skill"] == "Raporlama Aracı", "skill"] = "Reporting Tool"
df.loc[df["skill"] == "A3 Raporlama", "skill"] = "A3 Raporlama"
df.loc[df["skill"] == "Finansal Raporlamalar", "skill"] = "Financial Reporting"
df.loc[df["skill"] == "Maliyet Raporlama", "skill"] = "Cost Reporting"
df.loc[df["skill"] == "Topluluk Önünde Konuşma", "skill"] = "Public Speaking"
df.loc[df["skill"] == "Satış Öncesi", "skill"] = "Pre-Sales"
df.loc[df["skill"] == "Önleyici Bakım", "skill"] = "Preventive Maintenance"
df.loc[df["skill"] == "Ön muhasebe", "skill"] = "Accounting"
df.loc[df["skill"] == "Önleme", "skill"] = "Prevention"
df.loc[df["skill"] == "Veri Ön İşleme", "skill"] = "Data Preprocessing"
df.loc[df["skill"] == "Mobil Oyunlar", "skill"] = "Mobile Games"
df.loc[df["skill"] == "Mobil Cihazlar", "skill"] = "Mobile Devices"
df.loc[df["skill"] == "Mobil Platformlar", "skill"] = "Mobile Platforms"
df.loc[df["skill"] == "Mobil İletişimler", "skill"] = "Mobile Communications"
df.loc[df["skill"] == "Mobil Reklamcılık", "skill"] = "Mobile Advertising"
df.loc[df["skill"] == "Mobil Ödemeler", "skill"] = "Mobile Payments"
df.loc[df["skill"] == "Mobil Programlama", "skill"] = "Mobile Programming"
df.loc[df["skill"] == "Mobil Pazarlama", "skill"] = "Mobile Marketing"
df.loc[df["skill"] == "Mobil Uygulama Testi", "skill"] = "Mobile Application Testing"
df.loc[df["skill"] == "Mobil Uygulama Tasarımı", "skill"] = "Mobile Application Design"
df.loc[df["skill"] == "Android Mobil Uygulama Geliştirme", "skill"] = "Android Mobile Application Development"
df.loc[df["skill"] == "Mobil Güvenlik", "skill"] = "Mobile Security"
df.loc[df["skill"] == "Mobil Uygulama", "skill"] = "Mobile Application"
df.loc[df["skill"] == "Mobil Yazılım", "skill"] = "Mobile Software"
df.loc[df["skill"] == "Mobil Uygulama Test", "skill"] = "Mobile Application Testing"
df.loc[df["skill"] == "Mobil Uygulama Gelistirme", "skill"] = "Mobile Application Development"
df.loc[df["skill"] == "Mobil Yazılm", "skill"] = "Mobile Software"
df.loc[df['skill'] == 'C/C++', 'skill'] = "C, C++"
df.loc[df['skill'] == 'Jquery', 'skill'] = "jQuery"
df.loc[df['skill'] == 'E-ticaret', 'skill'] = 'E-commerce'
df.loc[df['skill'] == 'Objective C', 'skill'] = 'Objective-C'
df.loc[df['skill'] == 'Objective c', 'skill'] = 'Objective-C'
df.loc[df['skill'] == 'E-Eğitim', 'skill'] = 'E-Learning'
df.loc[df['skill'] == 'Test Etme', 'skill'] = 'Testing'
df.loc[df['skill'] == 'Test Otomasyonu', 'skill'] = 'Test Automation'
df.loc[df['skill'] == 'RF ENGINEER', 'skill'] = 'RF Engineering'
df.loc[df['skill'] == 'Dev-Ops', 'skill'] = 'DevOps'
df.loc[df['skill'] == 'Dev Ops', 'skill'] = 'DevOps'
df.loc[df['skill'] == 'HTML/CSS', 'skill'] = 'HTML, CSS'
df.loc[df['skill'] == 'HTML-CSS-Javascript', 'skill'] = 'HTML, CSS, JavaScript'
df.loc[df['skill'] == 'HTML-CSS and PHP', 'skill'] = 'HTML, CSS, PHP'
df.loc[df['skill'] == 'HTML/CSS/PHP/MYSQL', 'skill'] = 'HTML, CSS, PHP, MySQL'
df.loc[df['skill'] == 'HTML+CSS', 'skill'] = 'HTML, CSS'
df.loc[df['skill'] == 'HTML + CSS', 'skill'] = 'HTML, CSS'
df.loc[df['skill'].isin(['Data base', 'Database']), 'skill'] = 'Databases'
df.loc[df['skill'].isin(['Data Base Management', 'Data Base Management Systems', 'DBMS', 'dbms']), 'skill'] = 'Database Management System (DBMS)'
df.loc[df['skill'].isin(['Extract, Transform, Load (ETL)']), 'skill'] = 'ETL'

In [82]:
multiple_skills = ['HTML, CSS', 'HTML, CSS, PHP, MySQL', 'C, C++', 'C, C++, C#', 'HTML, CSS, JavaScript', 'HTML, CSS, PHP', 'Docker, Kubernetes', 'C,C++', 'NoSql, MongoDb', 'Java, Kotlin, C/C++', 'Java, C/C++', 'SQL, T-SQL, PL/SQL', 'Oracle,SQL', 'C, C#, Java, MATLAB', 'C, C++, Ada, Java, Corba, Vhdl', 'Java, Python', 'Java,SQL,C,Python,Assembly,Verilog,VHDL,HTML,Fortran 95', 'Object Oriented Design, SaaS, Cloud Computing, Java, OSGi, Spring, Web Services', 'Java, Java EE', 'JAVA, WEB,Jsp-Servlet, JSF, JPA, EJB yazılım geliştirme', 'java,c,c#,delphi,silverlight,linux,windows,ns2,opnet', 'PHP, Java, JavaScript, Python, C, C#, VBasic, R, Ruby, Arduino, Assembly, Lisp, Dart, Turbo Pascal', 'Java, J2EE, JSP, Servlet, Swing', 'C++, Java, Wickd, Python', 'PVsyst, Dev c++, Visual Studio, Eclipse java, Wireshark, NetBeans, phpMyAdmin', 'Programming with C, C++, Java, SQL, Assembly, OpenGl', 'Rxjava, Dagger', 'ASP.NET, C#.NET, Java, Javascript,C/C++, SQL , HTML,XML, Android MySQL, MS-SQL,', 'JAVA, JEE, Hibernate', 'Microsoft Office, MATLAB, Java, C#, Unity 3D, Pspice, LTSpice, Eagle', 'Java, JavaScript, .Net, XML, J2EE, HTML, TCP/IP, REST, SOAP, SOA, Visual Studio', 'Microsoft Operating Systems&Program,Publisher,Oracle,SQL,ITIL V.3 Foundation', 'Sql Management Studio, MS SQL,  Sql Developer, Toad, Sql Assistant', 'Java,SQL,C,Python,Assembly,Verilog,VHDL,HTML,Fortran 95', 'Eclipse, MySQL, Xilinx, Microsoft Office, Ubuntu, Visual Studio, VMware, DevC++', 'MS Access, MySQL, MSSQL, Transactional SQL.', 'MySQL, MsSQL, PostgreSQL, SQLite, PDO, Access, MongoDB', 'MsSql,MySqlDatabases', 'PL-SQL, T-SQL, PostgreSQL', 'MySQL, MSSQL', '(Databases) MSSQL, mySQL', 'Linux Server Service (DHCP,bindDNS, Apache2,MYSQL,Freeradius,Postfix,) config.', 'Programming with C, C++, Java, SQL, Assembly, OpenGl', 'Cobol, Vision Database, POSTGRESQL, .NET', 'Database (Postgresql, Cassandra, Redis and Sentinel, ElasticSearch, Oracle, Apache Kafka, SQLite)', 'Databases(MSSQL,MySQL,MariaDb,PostgreSql,MongoDb,H2,SQLite)', 'SQL, T-SQL', 'ASP.NET, C#.NET, Java, Javascript,C/C++, SQL , HTML,XML, Android MySQL, MS-SQL,', 'Programming Language : COBOL, PL1, NATURAL, PRO C, PL/SQL, C, IBM SQL', 'Managing database with MySQL,MSSQL', 'Veritabanı MS SqlServer 2014, SQLite, MySQL, T-SQL']

multiple_skills_df = df.loc[df['skill'].isin(multiple_skills)]
df = df.loc[~df['skill'].isin(multiple_skills)]

for i, j in zip(multiple_skills_df["user_id"], multiple_skills_df["skill"]):
    for s in j.split(','):
        df = df.append(pd.DataFrame({"user_id": [i], "skill": [s]}))

print(df.shape)
df.tail()

(1398978, 2)


Unnamed: 0,user_id,skill
0,65665,CSS
0,65892,C
0,65892,C++
0,66150,C
0,66150,C++


In [83]:
multiple_skills = ['C / C++', 'c/c++', 'C/C++/C#', 'C/C#']

multiple_skills_df = df.loc[df['skill'].isin(multiple_skills)]
df = df.loc[~df['skill'].isin(multiple_skills)]

for i, j in zip(multiple_skills_df["user_id"], multiple_skills_df["skill"]):
    for s in j.split('/'):
        df = df.append(pd.DataFrame({"user_id": [i], "skill": [s]}))

print(df.shape)
df.tail()

(1399007, 2)


Unnamed: 0,user_id,skill
0,65044,C++
0,65668,c
0,65668,c++
0,66005,C
0,66005,C++


In [None]:
#df['skill'] = df['skill'].apply(lambda x: re.sub('C[\s]#|C[\-./\s]sharp', 'C#', x, flags=re.IGNORECASE))
#df['skill'] = df['skill'].apply(lambda x: re.sub('react[\-./|\s]?js', 'react.js', x, flags=re.IGNORECASE))
#df['skill'] = df['skill'].apply(lambda x: re.sub('no[\-./|\s]?sql', 'nosql', x, flags=re.IGNORECASE))
#df['skill'] = df['skill'].apply(lambda x: re.sub('node[\-./|\s]?js', 'node.js', x, flags=re.IGNORECASE))
#df['skill'] = df['skill'].apply(lambda x: re.sub('angular[\-./|\s]?js', 'angular.js', x, flags=re.IGNORECASE))
#df['skill'] = df['skill'].apply(lambda x: re.sub('vue[\-,./|\s]?js', 'vue.js', x, flags=re.IGNORECASE))
#df['skill'] = df['skill'].apply(lambda x: re.sub('express[\-,./|\s]?js', 'express.js', x, flags=re.IGNORECASE))
#df['skill'] = df['skill'].apply(lambda x: re.sub('java[\-./|\s]?script', 'javascript', x, flags=re.IGNORECASE))
#df['skill'] = df['skill'].apply(lambda x: re.sub('my[\-./|\s]?sql', 'mysql', x, flags=re.IGNORECASE))
#df['skill'] = df['skill'].apply(lambda x: re.sub('python|pyhton|phyton|ptyhon[\-./|\s]?', 'python', x, flags=re.IGNORECASE))
#df['skill'] = df['skill'].apply(lambda x: re.sub('git[\-,./|\s]?hub|git[\-,./|\s]?hup', 'github', x, flags=re.IGNORECASE))

In [84]:
keywords_tr = ['mühendis', 'geliş', 'ürün', 'bilgi', 'analiz', 'analitik','veri', 'süreç', 'otomasyon', 'kodlama', 'programlama', 'öğre', 'bilim', 'almanca', 'kontrol', 'teknik', 'eğit', 'müşteri', 'görsel', 'yazılım', 'araç', 'satış', 'ekip', 'takım', 'iş', 'yönetim', 'sistem', 'tasarım', 'uygulama', 'ağ', 'ticaret', 'kullanıcı']

skill_translated = dict()
for kw in keywords_tr:
    print(f'keyword: {kw}')
    for i in tqdm(df.loc[df['skill'].str.contains(kw, case = False), 'skill'].unique()):
        if i not in skill_translated.keys():
            try:
                skill_translated[i] = translator.translate(i)
            except:
                skill_translated[i] = i

for key in skill_translated.keys():
    df.loc[df['skill'] == key, 'skill'] = skill_translated[key]

df['skill'] = df['skill'].apply(lambda x: x.lower().strip())
df['skill'] = df['skill'].apply(lambda x: translation(x))
df = df.drop_duplicates()
print(f'skills data shape: {df.shape}')
print(f'skills classes: {df["skill"].nunique()}')
#df.to_csv('../../../datasets/garanti-bbva-data-camp/clean_skills_v2.csv', index = False)

keyword: mühendis


100%|██████████| 91/91 [01:04<00:00,  1.42it/s]


keyword: geliş


100%|██████████| 145/145 [01:36<00:00,  1.50it/s]


keyword: ürün


100%|██████████| 53/53 [00:35<00:00,  1.49it/s]


keyword: bilgi


100%|██████████| 106/106 [01:21<00:00,  1.30it/s]


keyword: analiz


100%|██████████| 117/117 [01:11<00:00,  1.64it/s]


keyword: analitik


100%|██████████| 16/16 [00:10<00:00,  1.54it/s]


keyword: veri


100%|██████████| 224/224 [02:18<00:00,  1.62it/s]


keyword: süreç


100%|██████████| 47/47 [00:25<00:00,  1.82it/s]


keyword: otomasyon


100%|██████████| 48/48 [00:41<00:00,  1.14it/s]


keyword: kodlama


100%|██████████| 15/15 [00:09<00:00,  1.58it/s]


keyword: programlama


100%|██████████| 108/108 [01:30<00:00,  1.19it/s]


keyword: öğre


100%|██████████| 47/47 [00:29<00:00,  1.60it/s]


keyword: bilim


100%|██████████| 21/21 [00:08<00:00,  2.46it/s]


keyword: almanca


100%|██████████| 4/4 [00:01<00:00,  2.02it/s]


keyword: kontrol


100%|██████████| 66/66 [00:45<00:00,  1.45it/s]


keyword: teknik


100%|██████████| 51/51 [00:43<00:00,  1.17it/s]


keyword: eğit


100%|██████████| 106/106 [01:04<00:00,  1.65it/s]


keyword: müşteri


100%|██████████| 46/46 [00:31<00:00,  1.47it/s]


keyword: görsel


100%|██████████| 25/25 [00:13<00:00,  1.85it/s]


keyword: yazılım


100%|██████████| 127/127 [01:10<00:00,  1.81it/s]


keyword: araç


100%|██████████| 24/24 [00:15<00:00,  1.52it/s]


keyword: satış


100%|██████████| 40/40 [00:29<00:00,  1.35it/s]


keyword: ekip


100%|██████████| 29/29 [00:21<00:00,  1.34it/s]


keyword: takım


100%|██████████| 18/18 [00:08<00:00,  2.00it/s]


keyword: iş


100%|██████████| 731/731 [06:11<00:00,  1.97it/s]


keyword: yönetim


100%|██████████| 330/330 [02:49<00:00,  1.94it/s]


keyword: sistem


100%|██████████| 317/317 [02:23<00:00,  2.21it/s]


keyword: tasarım


100%|██████████| 150/150 [01:35<00:00,  1.56it/s]


keyword: uygulama


100%|██████████| 103/103 [01:00<00:00,  1.71it/s]


keyword: ağ


100%|██████████| 184/184 [01:28<00:00,  2.08it/s]


keyword: ticaret


100%|██████████| 28/28 [00:12<00:00,  2.27it/s]


keyword: kullanıcı


100%|██████████| 18/18 [00:09<00:00,  1.88it/s]


skills data shape: (1384241, 2)
skills classes: 41869


In [87]:
#df['skill'].value_counts()[:20]

In [88]:
#df['skill'].value_counts()[:20]

In [89]:
#df.loc[df['skill'].str.contains('C++', case=False, regex=False), 'skill'].value_counts()

In [90]:
#df['skill'].nunique()

In [4]:
#skill_translated = dict()
#for i in tqdm(df['skill'].dropna().unique()):
#    try:
#        skill_translated[i] = translator.translate(i)
#    except:
#        skill_translated[i] = i
#for key in skill_translated.keys():
#    df.loc[df['skill'] == key, 'skill'] = skill_translated[key]
#df.loc[df['skill'].notnull(), 'skill'] = df.loc[df['skill'].notnull(), 'skill'].apply(lambda x: x.lower())
#    
#print(f'skills data shape: {df.shape}')
#print(f'skills classes: {df["skill"].nunique()}')
#df.head()

100%|██████████| 50586/50586 [4:51:55<00:00,  2.89it/s]   


skills data shape: (1398443, 2)
skills classes: 40490


Unnamed: 0,user_id,skill
0,1,engineering
1,1,education
2,2,android
3,2,java
4,2,3d studio max


In [5]:
#df.to_csv(output_path, index = False)

In [None]:
#df.to_csv(output_path, index = False)