# Разведывательный анализ данных

# Intelligence data analysis


In [None]:
from google.colab import drive
drive.mount('/content/drive')

# drive.mount هي دالة تُستخدم في بيئة Google Colab لربط حساب Google Drive الخاص بك مع بيئة العمل في Colab.

Mounted at /content/drive


# Смысл разведывательного анализа данных
# The meaning of intelligence data analysis


когда мы работаем с небольшими данными, мы хотя бы в общих чертах понимаем основные характеристики датафрейма: сколько в нем данных, насколько одни разнородны, что их объединяет, могут ли быть колонки связаны друг с другом


In [None]:
import pandas as pd

data = {
    'Name': ['Вася', 'Коля', 'Маша', None],
    'Age': [20, 21, None, 18],
    'Height': [183, 176, 163, 180],
}

simple_data_frame = pd.DataFrame(data)
simple_data_frame

Unnamed: 0,Name,Age,Height
0,Вася,20.0,183
1,Коля,21.0,176
2,Маша,,163
3,,18.0,180


In [None]:
simple_data_frame['Age'].fillna(0)   # https://chat.hix.ai/ar/share/cm0j99khz1k1a2tfekt9wzu12

Unnamed: 0,Age
0,20.0
1,21.0
2,0.0
3,18.0


все эти строки данных у нас как на ладони. Однако чем больше будет строк - сотни, тысячи, сотни тысяч - тем меньше возможно понимать с чем вы работаете. Внимание человека, в отличие от компьютера, не может одновременно концентрироваться на таком количестве данных.

In [None]:
# импортируем библиотеки
import pandas as pd  # مكتبة تُستخدم لتحليل ومعالجة البيانات، وتوفر هياكل بيانات مثل DataFrame لتنظيم البيانات الجدولية وإجراء عمليات مثل الفلترة والتجميع بسهولة.
import numpy as np   # مكتبة تُستخدم للعمليات الرياضية والعلمية، وتوفر هياكل بيانات مثل المصفوفات لسرعة الأداء في الحسابات.

from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import os     # https://www.w3schools.com/python/module_os.asp

cwd = os.getcwd()  # Этот код на Python выводит текущую рабочую директорию
print(cwd)

# https://chat.hix.ai/ar/share/clzwsq1kx03ukoprfa3c0347c

/content


# Исследование структуры данных

1. Читаем данные

In [None]:
# hh_data = pd.read_csv('drive/MyDrive/hh.csv', sep=';')

hh_data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/hh (1).csv', sep=';')


# الفارزة المنقوطة (؛) في الكود الذي استخدمته تحدد نوع الفاصل بين القيم في ملف
# CSV أثناء قراءته باستخدام `pd.read_csv`.
# ### لماذا نستخدم الفارزة المنقوطة (؛)؟
# 1. **نوع الفاصل**: في بعض الملفات، يكون الفاصل بين القيم هو الفارزة المنقوطة بدلاً من الفارزة العادية (،). وهذا يعني أن الصفوف في الملف تكون مفصولة بفواصل منقوطة.
# 2. **تجنب الأخطاء**: إذا حاولت قراءة الملف بدون تحديد
# `sep=';'`، سيستخدم `pandas` الفارق الافتراضي، وهو الفارزة (،). إذا كانت القيم في الملف مفصولة بفواصل منقوطة، فإن
# `pandas` لن يتمكن من قراءة البيانات بشكل صحيح، مما سيؤدي إلى حدوث أخطاء.

# ### مثال:
# - إذا كان في الملف:
# ```
#  اسم;عمر;مدينة
# علي;25;القاهرة
# سارة;30;الإسكندرية
# ```
# يجب استخدام `sep=';'` ليتمكن `pandas` من تفسير القيم بشكل صحيح.

# ### ملخص:
# استخدام الفارزة المنقوطة (؛) هو الطريقة الصحيحة لقراءة البيانات عند استخدام فاصل مختلف عن الفاصلة الافتراضية، وبالتالي تجنب حدوث أخطاء أثناء قراءة الملف.

# `sep=';'` используется, чтобы указать разделитель, с помощью которого данные в CSV-файле разделены на колонки أعمدة.
# В данном случае это точка с запятой (`;`), а не запятая, которая используется по умолчанию.

In [None]:
hh_data

Unnamed: 0,"Пол, возраст",ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Образование и ВУЗ,Обновление резюме,Авто
0,"Мужчина , 39 лет , родился 27 ноября 1979",29000 руб.,Системный администратор,"Советск (Калининградская область) , не готов к...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...",Опыт работы 16 лет 10 месяцев Август 2010 — п...,"МАОУ ""СОШ № 1 г.Немана""",Системный администратор,Неоконченное высшее образование 2000 Балтийск...,16.04.2019 15:59,Имеется собственный автомобиль
1,"Мужчина , 60 лет , родился 20 марта 1959",40000 руб.,Технический писатель,"Королев , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Опыт работы 19 лет 5 месяцев Январь 2000 — по...,Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",Высшее образование 1981 Военно-космическая ак...,12.04.2019 08:42,Не указано
2,"Женщина , 36 лет , родилась 12 августа 1982",20000 руб.,Оператор,"Тверь , не готова к переезду , не готова к ком...",полная занятость,полный день,Опыт работы 10 лет 3 месяца Октябрь 2004 — Де...,ПАО Сбербанк,Кассир-операционист,Среднее специальное образование 2002 Профессио...,16.04.2019 08:35,Не указано
3,"Мужчина , 38 лет , родился 25 июня 1980",100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"Саратов , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",Опыт работы 18 лет 9 месяцев Август 2017 — Ап...,OpenSoft,Инженер-программист,Высшее образование 2002 Саратовский государст...,08.04.2019 14:23,Не указано
4,"Женщина , 26 лет , родилась 3 марта 1993",140000 руб.,Региональный менеджер по продажам,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 5 лет 7 месяцев Региональный мене...,Мармелад,Менеджер по продажам,Высшее образование 2015 Кгу Психологии и педаг...,22.04.2019 10:32,Не указано
...,...,...,...,...,...,...,...,...,...,...,...,...
44739,"Мужчина , 30 лет , родился 17 января 1989",50000 руб.,"Финансист, аналитик, экономист, бухгалтер, мен...","Тверь , готов к переезду (Москва, Химки) , гот...",полная занятость,"полный день, удаленная работа","Опыт работы 7 лет 7 месяцев Финансист, аналит...","ООО ""IAS"" (независимый участник объединения Ru...",Руководитель субгруппы,Высшее образование 2015 Московский гуманитарн...,22.04.2019 12:32,Не указано
44740,"Мужчина , 27 лет , родился 5 марта 1992",39000 руб.,"Системный администратор, IT-специалист","Липецк , готов к переезду , готов к командировкам","проектная работа, частичная занятость, полная ...","удаленная работа, гибкий график, полный день, ...","Опыт работы 7 лет Системный администратор, IT...",ИП Пестрецов,Предприниматель,Высшее образование (Бакалавр) 2016 Воронежски...,22.04.2019 13:11,Не указано
44741,"Женщина , 48 лет , родилась 26 декабря 1970",40000 руб.,"Аналитик данных, Математик","Челябинск , готова к переезду , готова к редки...",полная занятость,"полный день, удаленная работа",Опыт работы 21 год 5 месяцев Январь 1998 — по...,"ОАО «ЧМК», Исследовательско-Технологический Це...",Начальник группы аналитики,Высшее образование 2000 Южно-Уральский госуда...,09.04.2019 05:07,Не указано
44742,"Мужчина , 24 года , родился 6 октября 1994",20000 руб.,Контент-менеджер,"Тамбов , не готов к переезду , не готов к кома...","частичная занятость, полная занятость",удаленная работа,Опыт работы 3 года 10 месяцев Контент-менедже...,IQ-Maxima,Менеджер проектов,Высшее образование 2015 Тамбовский государств...,26.04.2019 14:25,Имеется собственный автомобиль


2. Вывод первых строк

In [None]:
hh_data.head(5)

Unnamed: 0,"Пол, возраст",ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Образование и ВУЗ,Обновление резюме,Авто
0,"Мужчина , 39 лет , родился 27 ноября 1979",29000 руб.,Системный администратор,"Советск (Калининградская область) , не готов к...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...",Опыт работы 16 лет 10 месяцев Август 2010 — п...,"МАОУ ""СОШ № 1 г.Немана""",Системный администратор,Неоконченное высшее образование 2000 Балтийск...,16.04.2019 15:59,Имеется собственный автомобиль
1,"Мужчина , 60 лет , родился 20 марта 1959",40000 руб.,Технический писатель,"Королев , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Опыт работы 19 лет 5 месяцев Январь 2000 — по...,Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",Высшее образование 1981 Военно-космическая ак...,12.04.2019 08:42,Не указано
2,"Женщина , 36 лет , родилась 12 августа 1982",20000 руб.,Оператор,"Тверь , не готова к переезду , не готова к ком...",полная занятость,полный день,Опыт работы 10 лет 3 месяца Октябрь 2004 — Де...,ПАО Сбербанк,Кассир-операционист,Среднее специальное образование 2002 Профессио...,16.04.2019 08:35,Не указано
3,"Мужчина , 38 лет , родился 25 июня 1980",100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"Саратов , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",Опыт работы 18 лет 9 месяцев Август 2017 — Ап...,OpenSoft,Инженер-программист,Высшее образование 2002 Саратовский государст...,08.04.2019 14:23,Не указано
4,"Женщина , 26 лет , родилась 3 марта 1993",140000 руб.,Региональный менеджер по продажам,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 5 лет 7 месяцев Региональный мене...,Мармелад,Менеджер по продажам,Высшее образование 2015 Кгу Психологии и педаг...,22.04.2019 10:32,Не указано


3. Основная информация о числе непустых значений в столбцах и их типах в таблице.

In [None]:
hh_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44744 entries, 0 to 44743
Data columns (total 12 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   Пол, возраст                     44744 non-null  object
 1   ЗП                               44744 non-null  object
 2   Ищет работу на должность:        44744 non-null  object
 3   Город, переезд, командировки     44744 non-null  object
 4   Занятость                        44744 non-null  object
 5   График                           44744 non-null  object
 6   Опыт работы                      44576 non-null  object
 7   Последнее/нынешнее место работы  44743 non-null  object
 8   Последняя/нынешняя должность     44742 non-null  object
 9   Образование и ВУЗ                44744 non-null  object
 10  Обновление резюме                44744 non-null  object
 11  Авто                             44744 non-null  object
dtypes: object(12)
memory usage: 4.1+

4. Сумма непустых значений

In [None]:
hh_data.isnull()

Unnamed: 0,"Пол, возраст",ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Образование и ВУЗ,Обновление резюме,Авто
0,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
44739,False,False,False,False,False,False,False,False,False,False,False,False
44740,False,False,False,False,False,False,False,False,False,False,False,False
44741,False,False,False,False,False,False,False,False,False,False,False,False
44742,False,False,False,False,False,False,False,False,False,False,False,False


In [None]:
hh_data.isnull().sum()

Unnamed: 0,0
"Пол, возраст",0
ЗП,0
Ищет работу на должность:,0
"Город, переезд, командировки",0
Занятость,0
График,0
Опыт работы,168
Последнее/нынешнее место работы,1
Последняя/нынешняя должность,2
Образование и ВУЗ,0


5. Основная статистическая информация о столбцах.


In [None]:
hh_data.describe(include='object')                 # https://chat.hix.ai/ar/share/clzwtcdiq043mn5je8kz38fts

# hh_data: Это наш DataFrame, содержащий данные.
# .describe(): Метод, который генерирует статистическую сводку ملخصًا إحصائيًا для DataFrame.
# include='object': Указывает, что вы хотите получить статистику только для столбцов с типом данных object.

Unnamed: 0,"Пол, возраст",ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Образование и ВУЗ,Обновление резюме,Авто
count,44744,44744,44744,44744,44744,44744,44576,44743,44742,44744,44744,44744
unique,16003,690,14929,10063,38,47,44413,30214,16927,40148,18838,2
top,"Мужчина , 32 года , родился 17 сентября 1986",50000 руб.,Системный администратор,"Москва , не готов к переезду , не готов к кома...",полная занятость,полный день,Опыт работы 10 лет 8 месяцев Апрель 2018 — по...,Индивидуальное предпринимательство / частная п...,Системный администратор,Высшее образование 1987 Военный инженерный Кра...,07.05.2019 09:50,Не указано
freq,18,4064,3099,1261,30026,22727,3,935,2062,4,25,32268


In [None]:
# freq التكرار выводит сколько повторении в каждей строке
# и так получаеться в столбцах возраст, опыт работы, образование и вуз == не так польезно потому что мало повторении

6. Размерность таблицы

In [None]:
hh_data.shape

(44744, 12)

In [None]:
# The result (44744, 12) is a tuple that represents the shape of the hh_data DataFrame.

# In this tuple:
# 44744 is the number of rows (also called the "length" or "size") in the DataFrame.
# 12 is the number of columns (also called the "width") in the DataFrame.
# So, the hh_data DataFrame has 44744 rows and 12 columns.

# Преобразование данных


# 1. Образование

 Создадим с помощью функции-преобразования новый признак لافتة **"Образование"**, который будет иметь 4 категории: "высшее", "неоконченное высшее", "среднее специальное" и "среднее".



In [None]:
#### FULL CODE OF THE NEXT EX
# https://chatgpt.com/c/671340e2-098c-8010-880e-89ff0889cb24

# hh_data['Образование и ВУЗ']

hh_data['Образование и ВУЗ'].to_list()[:5]

# s = 'Высшее образование 1981  Военно-космическая академия им. А.Ф. Можайского, Санкт-Петербург АСУ, АСУ'
# # s.split()
# s.split()[0]  # "Высшее"

# s = 'Среднее специальное образование 2002 Профессиональный лицей 39 г. Твери Экономический, Банковское дело'
# # s.split()[:2]
# ' '.join(s.split()[:2]) # "Среднее специально"
# هذه الأكواد فقط لتحليل وفهم النص... ولا علاقة لها بالدالة التاليه، ويمكن حذفها

# إنشاء دالة لمعالجة البيانات
def education(x):
    x = x.split()
    if x[1] == 'образование':
        return ' '.join(x[:1])
    return ' '.join(x[:2])
# هذه دالة تأخذ سلسلة نصية كمدخل وتقوم بتقسيمها.
# إذا كانت الكلمة الثانية في النص هي "образование" (تعني "التعليم")، فإننا نعيد فقط الكلمة الأولى.
# إذا لم تكن الكلمة الثانية "образование"، فإننا نعيد أول كلمتين من النص.
# الهدف من هذه الدالة هو استخراج نوع التعليم بطريقة صحيحة بغض النظر عن تفاصيل النص


hh_data['Образование'] = hh_data['Образование и ВУЗ'].apply(education)
hh_data


Unnamed: 0,"Пол, возраст",ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Образование и ВУЗ,Обновление резюме,Авто,Образование
0,"Мужчина , 39 лет , родился 27 ноября 1979",29000 руб.,Системный администратор,"Советск (Калининградская область) , не готов к...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...",Опыт работы 16 лет 10 месяцев Август 2010 — п...,"МАОУ ""СОШ № 1 г.Немана""",Системный администратор,Неоконченное высшее образование 2000 Балтийск...,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее
1,"Мужчина , 60 лет , родился 20 марта 1959",40000 руб.,Технический писатель,"Королев , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Опыт работы 19 лет 5 месяцев Январь 2000 — по...,Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",Высшее образование 1981 Военно-космическая ак...,12.04.2019 08:42,Не указано,Высшее
2,"Женщина , 36 лет , родилась 12 августа 1982",20000 руб.,Оператор,"Тверь , не готова к переезду , не готова к ком...",полная занятость,полный день,Опыт работы 10 лет 3 месяца Октябрь 2004 — Де...,ПАО Сбербанк,Кассир-операционист,Среднее специальное образование 2002 Профессио...,16.04.2019 08:35,Не указано,Среднее специальное
3,"Мужчина , 38 лет , родился 25 июня 1980",100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"Саратов , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",Опыт работы 18 лет 9 месяцев Август 2017 — Ап...,OpenSoft,Инженер-программист,Высшее образование 2002 Саратовский государст...,08.04.2019 14:23,Не указано,Высшее
4,"Женщина , 26 лет , родилась 3 марта 1993",140000 руб.,Региональный менеджер по продажам,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 5 лет 7 месяцев Региональный мене...,Мармелад,Менеджер по продажам,Высшее образование 2015 Кгу Психологии и педаг...,22.04.2019 10:32,Не указано,Высшее
...,...,...,...,...,...,...,...,...,...,...,...,...,...
44739,"Мужчина , 30 лет , родился 17 января 1989",50000 руб.,"Финансист, аналитик, экономист, бухгалтер, мен...","Тверь , готов к переезду (Москва, Химки) , гот...",полная занятость,"полный день, удаленная работа","Опыт работы 7 лет 7 месяцев Финансист, аналит...","ООО ""IAS"" (независимый участник объединения Ru...",Руководитель субгруппы,Высшее образование 2015 Московский гуманитарн...,22.04.2019 12:32,Не указано,Высшее
44740,"Мужчина , 27 лет , родился 5 марта 1992",39000 руб.,"Системный администратор, IT-специалист","Липецк , готов к переезду , готов к командировкам","проектная работа, частичная занятость, полная ...","удаленная работа, гибкий график, полный день, ...","Опыт работы 7 лет Системный администратор, IT...",ИП Пестрецов,Предприниматель,Высшее образование (Бакалавр) 2016 Воронежски...,22.04.2019 13:11,Не указано,Высшее
44741,"Женщина , 48 лет , родилась 26 декабря 1970",40000 руб.,"Аналитик данных, Математик","Челябинск , готова к переезду , готова к редки...",полная занятость,"полный день, удаленная работа",Опыт работы 21 год 5 месяцев Январь 1998 — по...,"ОАО «ЧМК», Исследовательско-Технологический Це...",Начальник группы аналитики,Высшее образование 2000 Южно-Уральский госуда...,09.04.2019 05:07,Не указано,Высшее
44742,"Мужчина , 24 года , родился 6 октября 1994",20000 руб.,Контент-менеджер,"Тамбов , не готов к переезду , не готов к кома...","частичная занятость, полная занятость",удаленная работа,Опыт работы 3 года 10 месяцев Контент-менедже...,IQ-Maxima,Менеджер проектов,Высшее образование 2015 Тамбовский государств...,26.04.2019 14:25,Имеется собственный автомобиль,Высшее


In [None]:
# نفس الكود كامل ولكن بدون تعليقات.. لاحظ كم هو قليل

hh_data["Образование и ВУЗ"].to_list()[:5]

def education(x):
    x = x.split()
    if x[1] == 'образование':
      return ' '.join(x[:1])
    return ' '.join(x[:2])

hh_data["Образование"] = hh_data["Образование и ВУЗ"].apply(education)
hh_data

Unnamed: 0,"Пол, возраст",ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Образование и ВУЗ,Обновление резюме,Авто,Образование
0,"Мужчина , 39 лет , родился 27 ноября 1979",29000 руб.,Системный администратор,"Советск (Калининградская область) , не готов к...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...",Опыт работы 16 лет 10 месяцев Август 2010 — п...,"МАОУ ""СОШ № 1 г.Немана""",Системный администратор,Неоконченное высшее образование 2000 Балтийск...,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее
1,"Мужчина , 60 лет , родился 20 марта 1959",40000 руб.,Технический писатель,"Королев , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Опыт работы 19 лет 5 месяцев Январь 2000 — по...,Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",Высшее образование 1981 Военно-космическая ак...,12.04.2019 08:42,Не указано,Высшее
2,"Женщина , 36 лет , родилась 12 августа 1982",20000 руб.,Оператор,"Тверь , не готова к переезду , не готова к ком...",полная занятость,полный день,Опыт работы 10 лет 3 месяца Октябрь 2004 — Де...,ПАО Сбербанк,Кассир-операционист,Среднее специальное образование 2002 Профессио...,16.04.2019 08:35,Не указано,Среднее специальное
3,"Мужчина , 38 лет , родился 25 июня 1980",100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"Саратов , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",Опыт работы 18 лет 9 месяцев Август 2017 — Ап...,OpenSoft,Инженер-программист,Высшее образование 2002 Саратовский государст...,08.04.2019 14:23,Не указано,Высшее
4,"Женщина , 26 лет , родилась 3 марта 1993",140000 руб.,Региональный менеджер по продажам,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 5 лет 7 месяцев Региональный мене...,Мармелад,Менеджер по продажам,Высшее образование 2015 Кгу Психологии и педаг...,22.04.2019 10:32,Не указано,Высшее
...,...,...,...,...,...,...,...,...,...,...,...,...,...
44739,"Мужчина , 30 лет , родился 17 января 1989",50000 руб.,"Финансист, аналитик, экономист, бухгалтер, мен...","Тверь , готов к переезду (Москва, Химки) , гот...",полная занятость,"полный день, удаленная работа","Опыт работы 7 лет 7 месяцев Финансист, аналит...","ООО ""IAS"" (независимый участник объединения Ru...",Руководитель субгруппы,Высшее образование 2015 Московский гуманитарн...,22.04.2019 12:32,Не указано,Высшее
44740,"Мужчина , 27 лет , родился 5 марта 1992",39000 руб.,"Системный администратор, IT-специалист","Липецк , готов к переезду , готов к командировкам","проектная работа, частичная занятость, полная ...","удаленная работа, гибкий график, полный день, ...","Опыт работы 7 лет Системный администратор, IT...",ИП Пестрецов,Предприниматель,Высшее образование (Бакалавр) 2016 Воронежски...,22.04.2019 13:11,Не указано,Высшее
44741,"Женщина , 48 лет , родилась 26 декабря 1970",40000 руб.,"Аналитик данных, Математик","Челябинск , готова к переезду , готова к редки...",полная занятость,"полный день, удаленная работа",Опыт работы 21 год 5 месяцев Январь 1998 — по...,"ОАО «ЧМК», Исследовательско-Технологический Це...",Начальник группы аналитики,Высшее образование 2000 Южно-Уральский госуда...,09.04.2019 05:07,Не указано,Высшее
44742,"Мужчина , 24 года , родился 6 октября 1994",20000 руб.,Контент-менеджер,"Тамбов , не готов к переезду , не готов к кома...","частичная занятость, полная занятость",удаленная работа,Опыт работы 3 года 10 месяцев Контент-менедже...,IQ-Maxima,Менеджер проектов,Высшее образование 2015 Тамбовский государств...,26.04.2019 14:25,Имеется собственный автомобиль,Высшее


In [None]:
hh_data['Образование']

Unnamed: 0,Образование
0,Неоконченное высшее
1,Высшее
2,Среднее специальное
3,Высшее
4,Высшее
...,...
44739,Высшее
44740,Высшее
44741,Высшее
44742,Высшее


In [None]:
hh_data['Образование и ВУЗ']

Unnamed: 0,Образование и ВУЗ
0,Неоконченное высшее образование 2000 Балтийск...
1,Высшее образование 1981 Военно-космическая ак...
2,Среднее специальное образование 2002 Профессио...
3,Высшее образование 2002 Саратовский государст...
4,Высшее образование 2015 Кгу Психологии и педаг...
...,...
44739,Высшее образование 2015 Московский гуманитарн...
44740,Высшее образование (Бакалавр) 2016 Воронежски...
44741,Высшее образование 2000 Южно-Уральский госуда...
44742,Высшее образование 2015 Тамбовский государств...


In [None]:
hh_data['Образование и ВУЗ'].to_list()[:5]     # https://chat.hix.ai/ar/share/cm0m1ox4y0ipv6wg0o9pfsui2

['Неоконченное высшее образование 2000  Балтийская государственная академия рыбопромыслового флота, Калининград судоводительский, Организация и безопасность движения',
 'Высшее образование 1981  Военно-космическая академия им. А.Ф. Можайского, Санкт-Петербург АСУ, АСУ',
 'Среднее специальное образование 2002 Профессиональный лицей 39 г. Твери Экономический, Банковское дело',
 'Высшее образование 2002  Саратовский государственный университет им. Н.Г. Чернышевского, Саратов Филологический, филология (лингвистика), Красный диплом, специализация: филолог (лингвист), доп. специализация: информационные технологии в филологии',
 'Высшее образование 2015 Кгу Психологии и педагогики, Педагогика и психология (педагог-психолог) 2015 Российский государственный социальный университет, Москва Журналистика, Журналистика (бакалавр журналистики)']

In [None]:
s = 'Высшее образование 1981  Военно-космическая академия им. А.Ф. Можайского, Санкт-Петербург АСУ, АСУ'
# s.split()
s.split()[0]

'Высшее'

In [None]:
s = 'Среднее специальное образование 2002 Профессиональный лицей 39 г. Твери Экономический, Банковское дело'
# s.split()[:2]    # ['Среднее', 'специальное']
' '.join(s.split()[:2])   # 'Среднее специальное'    #так лучше

# `join` объединяет элементы списка в строку, вставляя между ними указанный разделитель.
# В данном случае `' '.join(s.split()[:2])` соединяет первые два слова из строки `s`, разделяя их пробелом.

# join и split используются для обработки строк более эффективно и читаемо. В примере ' '.join(s.split()[:2]):
# s.split() разбивает строку s на список слов.
# [:2] выбирает первые два слова из этого списка ['Среднее', 'специальное'].
# ' '.join(...) объединяет эти слова обратно в строку, вставляя между ними пробел.

'Среднее специальное'

In [None]:
hh_data["Образование и ВУЗ"]

Unnamed: 0,Образование и ВУЗ
0,Неоконченное высшее образование 2000 Балтийск...
1,Высшее образование 1981 Военно-космическая ак...
2,Среднее специальное образование 2002 Профессио...
3,Высшее образование 2002 Саратовский государст...
4,Высшее образование 2015 Кгу Психологии и педаг...
...,...
44739,Высшее образование 2015 Московский гуманитарн...
44740,Высшее образование (Бакалавр) 2016 Воронежски...
44741,Высшее образование 2000 Южно-Уральский госуда...
44742,Высшее образование 2015 Тамбовский государств...


In [None]:
def education(x):
    x = x.split()

    if x[1] == 'образование':
        return ' '.join(x[:1])  # Высшее образование 1981 Военно-космическая ак...
        #Если условие if x[1] == 'образование' выполнено, то функция возвращает только первую часть строки,
        #объединяя слова от начала списка до индекса 1 (не включая его). Тут это будет 'Высшее'

    return ' '.join(x[:2])  # Неоконченное высшее образование 2000 Балтийск...
    #Если условие if x[1] == 'образование' не выполнено, то функция возвращает объединение первых двух частей строки
    #Тут это будет 'Неоконченное высшее'

hh_data['Образование'] = hh_data['Образование и ВУЗ'].apply(education)
hh_data
# hh_data['Образование'] = hh_data['Образование'].astype('category')

# https://chatgpt.com/c/ea5de12d-e414-458a-88b8-2df20927def3
# https://chat.hix.ai/ar/share/cm0m95h3z04864taia7tfk7k7
# https://chat.hix.ai/ar/share/cm0m96c8q046c6a3iy0ew4q0r

Unnamed: 0,"Пол, возраст",ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Образование и ВУЗ,Обновление резюме,Авто,Образование
0,"Мужчина , 39 лет , родился 27 ноября 1979",29000 руб.,Системный администратор,"Советск (Калининградская область) , не готов к...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...",Опыт работы 16 лет 10 месяцев Август 2010 — п...,"МАОУ ""СОШ № 1 г.Немана""",Системный администратор,Неоконченное высшее образование 2000 Балтийск...,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее
1,"Мужчина , 60 лет , родился 20 марта 1959",40000 руб.,Технический писатель,"Королев , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Опыт работы 19 лет 5 месяцев Январь 2000 — по...,Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",Высшее образование 1981 Военно-космическая ак...,12.04.2019 08:42,Не указано,Высшее
2,"Женщина , 36 лет , родилась 12 августа 1982",20000 руб.,Оператор,"Тверь , не готова к переезду , не готова к ком...",полная занятость,полный день,Опыт работы 10 лет 3 месяца Октябрь 2004 — Де...,ПАО Сбербанк,Кассир-операционист,Среднее специальное образование 2002 Профессио...,16.04.2019 08:35,Не указано,Среднее специальное
3,"Мужчина , 38 лет , родился 25 июня 1980",100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"Саратов , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",Опыт работы 18 лет 9 месяцев Август 2017 — Ап...,OpenSoft,Инженер-программист,Высшее образование 2002 Саратовский государст...,08.04.2019 14:23,Не указано,Высшее
4,"Женщина , 26 лет , родилась 3 марта 1993",140000 руб.,Региональный менеджер по продажам,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 5 лет 7 месяцев Региональный мене...,Мармелад,Менеджер по продажам,Высшее образование 2015 Кгу Психологии и педаг...,22.04.2019 10:32,Не указано,Высшее
...,...,...,...,...,...,...,...,...,...,...,...,...,...
44739,"Мужчина , 30 лет , родился 17 января 1989",50000 руб.,"Финансист, аналитик, экономист, бухгалтер, мен...","Тверь , готов к переезду (Москва, Химки) , гот...",полная занятость,"полный день, удаленная работа","Опыт работы 7 лет 7 месяцев Финансист, аналит...","ООО ""IAS"" (независимый участник объединения Ru...",Руководитель субгруппы,Высшее образование 2015 Московский гуманитарн...,22.04.2019 12:32,Не указано,Высшее
44740,"Мужчина , 27 лет , родился 5 марта 1992",39000 руб.,"Системный администратор, IT-специалист","Липецк , готов к переезду , готов к командировкам","проектная работа, частичная занятость, полная ...","удаленная работа, гибкий график, полный день, ...","Опыт работы 7 лет Системный администратор, IT...",ИП Пестрецов,Предприниматель,Высшее образование (Бакалавр) 2016 Воронежски...,22.04.2019 13:11,Не указано,Высшее
44741,"Женщина , 48 лет , родилась 26 декабря 1970",40000 руб.,"Аналитик данных, Математик","Челябинск , готова к переезду , готова к редки...",полная занятость,"полный день, удаленная работа",Опыт работы 21 год 5 месяцев Январь 1998 — по...,"ОАО «ЧМК», Исследовательско-Технологический Це...",Начальник группы аналитики,Высшее образование 2000 Южно-Уральский госуда...,09.04.2019 05:07,Не указано,Высшее
44742,"Мужчина , 24 года , родился 6 октября 1994",20000 руб.,Контент-менеджер,"Тамбов , не готов к переезду , не готов к кома...","частичная занятость, полная занятость",удаленная работа,Опыт работы 3 года 10 месяцев Контент-менедже...,IQ-Maxima,Менеджер проектов,Высшее образование 2015 Тамбовский государств...,26.04.2019 14:25,Имеется собственный автомобиль,Высшее


In [None]:
hh_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44744 entries, 0 to 44743
Data columns (total 13 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   Пол, возраст                     44744 non-null  object
 1   ЗП                               44744 non-null  object
 2   Ищет работу на должность:        44744 non-null  object
 3   Город, переезд, командировки     44744 non-null  object
 4   Занятость                        44744 non-null  object
 5   График                           44744 non-null  object
 6   Опыт работы                      44576 non-null  object
 7   Последнее/нынешнее место работы  44743 non-null  object
 8   Последняя/нынешняя должность     44742 non-null  object
 9   Образование и ВУЗ                44744 non-null  object
 10  Обновление резюме                44744 non-null  object
 11  Авто                             44744 non-null  object
 12  Образование                     

.astype('category')

In [None]:
hh_data['Образование'] = hh_data['Образование'].astype('category')

# СМОТРИ НА ТИП ДАННЫХ В РЕЗУЛТАТЕ, Образование = category
# تحويل العمود "Образование" إلى نوع "category" يُعتبر خطوة مثالية لتحسين أداء البيانات واستخدام الذاكرة، بالإضافة إلى تسهيل التحليل والإحصاءات.
# يساعد هذا في جعل البيانات أكثر تنظيمًا وفاعلية عند التعامل معها في التحليلات والنمذجة.
# "Преобразовать столбец 'Образование' в тип 'category'
# تحويل العمود "Образование" إلى نوع "category"
# https://chat.hix.ai/ar/share/cm0mah6ft05526a3iv09udqnf

In [None]:
hh_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44744 entries, 0 to 44743
Data columns (total 13 columns):
 #   Column                           Non-Null Count  Dtype   
---  ------                           --------------  -----   
 0   Пол, возраст                     44744 non-null  object  
 1   ЗП                               44744 non-null  object  
 2   Ищет работу на должность:        44744 non-null  object  
 3   Город, переезд, командировки     44744 non-null  object  
 4   Занятость                        44744 non-null  object  
 5   График                           44744 non-null  object  
 6   Опыт работы                      44576 non-null  object  
 7   Последнее/нынешнее место работы  44743 non-null  object  
 8   Последняя/нынешняя должность     44742 non-null  object  
 9   Образование и ВУЗ                44744 non-null  object  
 10  Обновление резюме                44744 non-null  object  
 11  Авто                             44744 non-null  object  
 12  Обра

Удалим признак لافتة 'Образование и ВУЗ'

In [None]:
hh_data = hh_data.drop(['Образование и ВУЗ'], axis=1)

#if we will enter this code again, it's give an error. because the selected column was deleted

Сколько соискателей имеет средний уровень образования (школьное образование)?

In [None]:
hh_data['Образование'].value_counts()

# https://chat.hix.ai/ar/share/cm0mc2aq6053312q22br0qou3

Unnamed: 0_level_0,count
Образование,Unnamed: 1_level_1
Высшее,33863
Среднее специальное,5765
Неоконченное высшее,4557
Среднее,559


In [None]:
###########################################################################

# 2. Пол, возраст

 Создадим два столбца **Пол**, **возраст** из столбца **"Пол, возраст"**

In [None]:
hh_data.head()

Unnamed: 0,"Пол, возраст",ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование
0,"Мужчина , 39 лет , родился 27 ноября 1979",29000 руб.,Системный администратор,"Советск (Калининградская область) , не готов к...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...",Опыт работы 16 лет 10 месяцев Август 2010 — п...,"МАОУ ""СОШ № 1 г.Немана""",Системный администратор,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее
1,"Мужчина , 60 лет , родился 20 марта 1959",40000 руб.,Технический писатель,"Королев , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Опыт работы 19 лет 5 месяцев Январь 2000 — по...,Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",12.04.2019 08:42,Не указано,Высшее
2,"Женщина , 36 лет , родилась 12 августа 1982",20000 руб.,Оператор,"Тверь , не готова к переезду , не готова к ком...",полная занятость,полный день,Опыт работы 10 лет 3 месяца Октябрь 2004 — Де...,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное
3,"Мужчина , 38 лет , родился 25 июня 1980",100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"Саратов , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",Опыт работы 18 лет 9 месяцев Август 2017 — Ап...,OpenSoft,Инженер-программист,08.04.2019 14:23,Не указано,Высшее
4,"Женщина , 26 лет , родилась 3 марта 1993",140000 руб.,Региональный менеджер по продажам,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 5 лет 7 месяцев Региональный мене...,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее


In [None]:
###############################################
######## ПОЛЬНЫЙ КОД СЛЕДУШЕГО ПРИМЕРА ########
###############################################

# hh_data['Пол, возраст'].to_list()[:10]

# ['Мужчина ,  39 лет , родился 27 ноября 1979',
#  'Мужчина ,  60 лет , родился 20 марта 1959',
#  'Женщина ,  36 лет , родилась 12 августа 1982',
#  'Мужчина ,  38 лет , родился 25 июня 1980',
#  'Женщина ,  26 лет , родилась 3 марта 1993',
#  'Мужчина ,  29 лет , родился 5 октября 1989',
#  'Мужчина ,  46 лет , родился 19 сентября 1972',
#  'Мужчина ,  29 лет , родился 9 июля 1989',
#  'Мужчина ,  29 лет , родился 11 июля 1989',
#  'Мужчина ,  34 года , родился 26 мая 1984']



#  ######## достать пол
# x = 'Мужчина ,  39 лет , родился 27 ноября 1979'
# x = x.replace('  ', ' ')                         # чтобы привести к нормальному ряду пробелов. вместе многих пробелов, оставим по одному пробелу
# x = x.split(' , ')                               # чтобы получить пол и возраст отдельно, можно тут идти по запитой и разелить их
# x[0]                                             # чтобы достать пол, а пол тут у нас всегда находится на [0] индекс.  дает 'Мужчина'
# x[0][0]                                          # дает 'М'



# ######## достать возраст
# x = 'Мужчина ,  39 лет , родился 27 ноября 1979'
# x = x.replace('  ', ' ')                         # Мужчина , 39 лет , родился 27 ноября 1979
# x = x.split(' , ')                               # ['Мужчина', '39 лет', 'родился 27 ноября 1979']
# x = x[1]                                         # '39 лет'
# x = x.split(' ')                                 # ['39', 'лет']
# x = x[0]                                         # '39'  ===> достали чисто возраст, но в виде строки
# x = int(x)                                       # 39    ===> поменяли в виде цифру



# def gender(x):
#     x = x.replace('  ', ' ')
#     x = x.split(' , ')
#     return str(x[0][0])

# def age(x):
#     x = x.replace('  ', ' ')
#     return int(x.split(' , ')[1].split(' ')[0])

# hh_data['Пол'] = hh_data['Пол, возраст'].apply(gender)
# hh_data['Возраст'] = hh_data['Пол, возраст'].apply(age)


In [None]:
########### НАЧАЛО ПРИМЕРА

In [None]:
hh_data["Пол, возраст"]

Unnamed: 0,"Пол, возраст"
0,"Мужчина , 39 лет , родился 27 ноября 1979"
1,"Мужчина , 60 лет , родился 20 марта 1959"
2,"Женщина , 36 лет , родилась 12 августа 1982"
3,"Мужчина , 38 лет , родился 25 июня 1980"
4,"Женщина , 26 лет , родилась 3 марта 1993"
...,...
44739,"Мужчина , 30 лет , родился 17 января 1989"
44740,"Мужчина , 27 лет , родился 5 марта 1992"
44741,"Женщина , 48 лет , родилась 26 декабря 1970"
44742,"Мужчина , 24 года , родился 6 октября 1994"


In [None]:
# hh_data["Пол, возраст"].to_list()

In [None]:
hh_data['Пол, возраст'].to_list()[:10]     # https://chatgpt.com/c/f2296e41-0ef2-468e-b227-eec82a2cd135

['Мужчина ,  39 лет , родился 27 ноября 1979',
 'Мужчина ,  60 лет , родился 20 марта 1959',
 'Женщина ,  36 лет , родилась 12 августа 1982',
 'Мужчина ,  38 лет , родился 25 июня 1980',
 'Женщина ,  26 лет , родилась 3 марта 1993',
 'Мужчина ,  29 лет , родился 5 октября 1989',
 'Мужчина ,  46 лет , родился 19 сентября 1972',
 'Мужчина ,  29 лет , родился 9 июля 1989',
 'Мужчина ,  29 лет , родился 11 июля 1989',
 'Мужчина ,  34 года , родился 26 мая 1984']

In [None]:
s = '  ff  k k'
s.replace('  ', ' ')

' ff k k'

In [None]:
######## достать пол

x = 'Мужчина ,  39 лет , родился 27 ноября 1979'
x = x.replace('  ', ' ')   # 'Мужчина , 39 лет , родился 27 ноября 1979'        # чтобы привести к нормальному ряду пробелов. вместе многих пробелов, оставим по одному пробелу
x = x.split(' , ')         # ['Мужчина', '39 лет', 'родился 27 ноября 1979']    # чтобы получить пол и возраст отдельно, можно тут идти по запитой и разелить их
x[0]                       # 'Мужчина'                                          # чтобы достать пол, а пол тут у нас всегда находится на [0] индекс.  дает 'Мужчина'
x[0][0]                    # 'М'
x


['Мужчина', '39 лет', 'родился 27 ноября 1979']

In [None]:
######## достать возраст

x = 'Мужчина ,  39 лет , родился 27 ноября 1979'
x = x.replace('  ', ' ')                         # Мужчина , 39 лет , родился 27 ноября 1979
x = x.split(' , ')                               # ['Мужчина', '39 лет', 'родился 27 ноября 1979']
x = x[1]                                         # '39 лет'
x = x.split(' ')                                 # ['39', 'лет']
x = x[0]                                         # '39'  ===> достали чисто возраст, но в виде строки
x = int(x)                                       # 39    ===> поменяли в виде цифру
x

39

In [None]:
# https://chatgpt.com/c/66f9847e-df18-8010-8024-3539c33ffc0d

def gender(x):
    x = x.replace('  ', ' ')
    x = x.split(' , ')
    return str(x[0][0])

def age(x):
    x = x.replace('  ', ' ')
    return int(x.split(' , ')[1].split(' ')[0])

hh_data['Пол'] = hh_data['Пол, возраст'].apply(gender)
hh_data['Возраст'] = hh_data['Пол, возраст'].apply(age)

In [None]:
hh_data    # в конце датафрема есть два новых столбцов пол и возраст

Unnamed: 0,"Пол, возраст",ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,Возраст
0,"Мужчина , 39 лет , родился 27 ноября 1979",29000 руб.,Системный администратор,"Советск (Калининградская область) , не готов к...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...",Опыт работы 16 лет 10 месяцев Август 2010 — п...,"МАОУ ""СОШ № 1 г.Немана""",Системный администратор,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее,М,39
1,"Мужчина , 60 лет , родился 20 марта 1959",40000 руб.,Технический писатель,"Королев , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Опыт работы 19 лет 5 месяцев Январь 2000 — по...,Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",12.04.2019 08:42,Не указано,Высшее,М,60
2,"Женщина , 36 лет , родилась 12 августа 1982",20000 руб.,Оператор,"Тверь , не готова к переезду , не готова к ком...",полная занятость,полный день,Опыт работы 10 лет 3 месяца Октябрь 2004 — Де...,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,36
3,"Мужчина , 38 лет , родился 25 июня 1980",100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"Саратов , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",Опыт работы 18 лет 9 месяцев Август 2017 — Ап...,OpenSoft,Инженер-программист,08.04.2019 14:23,Не указано,Высшее,М,38
4,"Женщина , 26 лет , родилась 3 марта 1993",140000 руб.,Региональный менеджер по продажам,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 5 лет 7 месяцев Региональный мене...,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,26
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44739,"Мужчина , 30 лет , родился 17 января 1989",50000 руб.,"Финансист, аналитик, экономист, бухгалтер, мен...","Тверь , готов к переезду (Москва, Химки) , гот...",полная занятость,"полный день, удаленная работа","Опыт работы 7 лет 7 месяцев Финансист, аналит...","ООО ""IAS"" (независимый участник объединения Ru...",Руководитель субгруппы,22.04.2019 12:32,Не указано,Высшее,М,30
44740,"Мужчина , 27 лет , родился 5 марта 1992",39000 руб.,"Системный администратор, IT-специалист","Липецк , готов к переезду , готов к командировкам","проектная работа, частичная занятость, полная ...","удаленная работа, гибкий график, полный день, ...","Опыт работы 7 лет Системный администратор, IT...",ИП Пестрецов,Предприниматель,22.04.2019 13:11,Не указано,Высшее,М,27
44741,"Женщина , 48 лет , родилась 26 декабря 1970",40000 руб.,"Аналитик данных, Математик","Челябинск , готова к переезду , готова к редки...",полная занятость,"полный день, удаленная работа",Опыт работы 21 год 5 месяцев Январь 1998 — по...,"ОАО «ЧМК», Исследовательско-Технологический Це...",Начальник группы аналитики,09.04.2019 05:07,Не указано,Высшее,Ж,48
44742,"Мужчина , 24 года , родился 6 октября 1994",20000 руб.,Контент-менеджер,"Тамбов , не готов к переезду , не готов к кома...","частичная занятость, полная занятость",удаленная работа,Опыт работы 3 года 10 месяцев Контент-менедже...,IQ-Maxima,Менеджер проектов,26.04.2019 14:25,Имеется собственный автомобиль,Высшее,М,24


Удалим признак «Пол, возраст» из таблицы.

In [None]:
hh_data = hh_data.drop(['Пол, возраст'], axis=1)

In [None]:
hh_data    # старый столбец "пол и возраст" исчез, сделали вместе его два разных столбца пол и возраст

Unnamed: 0,ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,Возраст
0,29000 руб.,Системный администратор,"Советск (Калининградская область) , не готов к...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...",Опыт работы 16 лет 10 месяцев Август 2010 — п...,"МАОУ ""СОШ № 1 г.Немана""",Системный администратор,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее,М,39
1,40000 руб.,Технический писатель,"Королев , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Опыт работы 19 лет 5 месяцев Январь 2000 — по...,Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",12.04.2019 08:42,Не указано,Высшее,М,60
2,20000 руб.,Оператор,"Тверь , не готова к переезду , не готова к ком...",полная занятость,полный день,Опыт работы 10 лет 3 месяца Октябрь 2004 — Де...,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,36
3,100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"Саратов , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",Опыт работы 18 лет 9 месяцев Август 2017 — Ап...,OpenSoft,Инженер-программист,08.04.2019 14:23,Не указано,Высшее,М,38
4,140000 руб.,Региональный менеджер по продажам,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 5 лет 7 месяцев Региональный мене...,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,26
...,...,...,...,...,...,...,...,...,...,...,...,...,...
44739,50000 руб.,"Финансист, аналитик, экономист, бухгалтер, мен...","Тверь , готов к переезду (Москва, Химки) , гот...",полная занятость,"полный день, удаленная работа","Опыт работы 7 лет 7 месяцев Финансист, аналит...","ООО ""IAS"" (независимый участник объединения Ru...",Руководитель субгруппы,22.04.2019 12:32,Не указано,Высшее,М,30
44740,39000 руб.,"Системный администратор, IT-специалист","Липецк , готов к переезду , готов к командировкам","проектная работа, частичная занятость, полная ...","удаленная работа, гибкий график, полный день, ...","Опыт работы 7 лет Системный администратор, IT...",ИП Пестрецов,Предприниматель,22.04.2019 13:11,Не указано,Высшее,М,27
44741,40000 руб.,"Аналитик данных, Математик","Челябинск , готова к переезду , готова к редки...",полная занятость,"полный день, удаленная работа",Опыт работы 21 год 5 месяцев Январь 1998 — по...,"ОАО «ЧМК», Исследовательско-Технологический Це...",Начальник группы аналитики,09.04.2019 05:07,Не указано,Высшее,Ж,48
44742,20000 руб.,Контент-менеджер,"Тамбов , не готов к переезду , не готов к кома...","частичная занятость, полная занятость",удаленная работа,Опыт работы 3 года 10 месяцев Контент-менедже...,IQ-Maxima,Менеджер проектов,26.04.2019 14:25,Имеется собственный автомобиль,Высшее,М,24


Сколько процентов женских резюме представлено в наших данных?

In [None]:
# hh_data[hh_data['Пол'] == 'Ж'].shape[0]
hh_data[hh_data['Пол'] == 'Ж']   #все стольбцы только с Полом Ж

# .shape: Применяется к этому отфильтрованному DataFrame hh_data[hh_data['Пол'] == 'Ж'] и возвращает кортеж (число_строк, число_столбцов).

Unnamed: 0,ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,Возраст
2,20000 руб.,Оператор,"Тверь , не готова к переезду , не готова к ком...",полная занятость,полный день,Опыт работы 10 лет 3 месяца Октябрь 2004 — Де...,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,36
4,140000 руб.,Региональный менеджер по продажам,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 5 лет 7 месяцев Региональный мене...,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,26
10,55000 руб.,Менеджер / оператор интернет-магазина,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 11 лет 5 месяцев Январь 2008 — по...,Сеть свадебных салон Primavera,Администратор интернет-магазина и салона,11.04.2019 10:56,Не указано,Среднее специальное,Ж,35
13,90000 руб.,SMM-менеджер/ SEO/ creator,"Москва , не готова к переезду , готова к коман...",полная занятость,удаленная работа,Опыт работы 6 лет 11 месяцев Февраль 2017 — п...,ГРУППА ИМА,SMM-менеджер/ SEO,16.04.2019 11:27,Не указано,Высшее,Ж,27
14,25000 руб.,Менеджер проекта,"Калининград , не готова к переезду , не готова...",полная занятость,полный день,Опыт работы 1 год 5 месяцев Октябрь 2017 — Фе...,Ays отель,Старший официант,18.04.2019 19:05,Не указано,Среднее специальное,Ж,21
...,...,...,...,...,...,...,...,...,...,...,...,...,...
44723,130000 руб.,Аналитик,"Москва , м. Теплый Стан , не готова к переезд...",полная занятость,"гибкий график, полный день",Опыт работы 2 года 11 месяцев Аналитик 130 00...,Аплана. Центр Разработки,Аналитик,22.04.2019 11:04,Не указано,Высшее,Ж,25
44724,55000 руб.,Специалист технической поддержки,"Санкт-Петербург , м. Международная , не готов...","частичная занятость, полная занятость","гибкий график, полный день",Опыт работы 13 лет 11 месяцев Специалист техн...,"ООО ""Комплайт"" (перевод в ООО ""Бариант"")","Вед.специалист отдела ИТ (тех.поддержка), руко...",26.04.2019 10:41,Имеется собственный автомобиль,Высшее,Ж,43
44729,90000 руб.,UX-исследователь/ UX-аналитик,"Москва , м. Славянский бульвар , готова к пер...",полная занятость,"гибкий график, полный день, удаленная работа",Опыт работы 3 года 1 месяц Октябрь 2018 — Дек...,"Островок.ру, ООО",UX-аналитик,05.04.2019 19:27,Не указано,Высшее,Ж,25
44730,70000 руб.,Редактор-аналитик,"Москва , м. Комсомольская , не готова к перее...",полная занятость,полный день,Опыт работы 1 год 9 месяцев Редактор-аналитик...,AT Consulting,Редактор-аналитик,26.04.2019 15:56,Не указано,Высшее,Ж,23


In [None]:
# считаем количество женщин

hh_data[hh_data['Пол'] == 'Ж'].shape[0]

# .shape: Применяется к этому отфильтрованному DataFrame hh_data[hh_data['Пол'] == 'Ж'] и возвращает кортеж (число_строк, число_столбцов).
# .shape[0]: Возвращает первое значение из этого кортежа, то есть количество строк (в данном случае, количество женщин).

8533

In [None]:
# считаем количество женщин

len(hh_data[hh_data['Пол'] == 'Ж'])

# Альтернативный способ подсчета количества женщин طريقة بديلة لحساب عدد النساء
# len(...): Функция len возвращает количество элементов в переданном объекте.
# Здесь используется для подсчета количества строк в отфильтрованном DataFrame, где пол 'Ж'.
# Этот способ аналогичен предыдущему и также возвращает количество женщин в данных.

8533

In [None]:
# считаем количество женщин

sum(hh_data['Пол'] == 'Ж')

8533

In [None]:
# считаем количество женщин

c = hh_data['Пол'] == 'Ж'
c.sum()

8533

In [None]:
hh_data[hh_data['Пол'] == 'Ж']

# Этот код возвращает все строки DataFrame hh_data, где пол 'Ж'.
# Это полезно для просмотра всех записей, соответствующих этому условию.

Unnamed: 0,ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,Возраст
2,20000 руб.,Оператор,"Тверь , не готова к переезду , не готова к ком...",полная занятость,полный день,Опыт работы 10 лет 3 месяца Октябрь 2004 — Де...,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,36
4,140000 руб.,Региональный менеджер по продажам,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 5 лет 7 месяцев Региональный мене...,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,26
10,55000 руб.,Менеджер / оператор интернет-магазина,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 11 лет 5 месяцев Январь 2008 — по...,Сеть свадебных салон Primavera,Администратор интернет-магазина и салона,11.04.2019 10:56,Не указано,Среднее специальное,Ж,35
13,90000 руб.,SMM-менеджер/ SEO/ creator,"Москва , не готова к переезду , готова к коман...",полная занятость,удаленная работа,Опыт работы 6 лет 11 месяцев Февраль 2017 — п...,ГРУППА ИМА,SMM-менеджер/ SEO,16.04.2019 11:27,Не указано,Высшее,Ж,27
14,25000 руб.,Менеджер проекта,"Калининград , не готова к переезду , не готова...",полная занятость,полный день,Опыт работы 1 год 5 месяцев Октябрь 2017 — Фе...,Ays отель,Старший официант,18.04.2019 19:05,Не указано,Среднее специальное,Ж,21
...,...,...,...,...,...,...,...,...,...,...,...,...,...
44723,130000 руб.,Аналитик,"Москва , м. Теплый Стан , не готова к переезд...",полная занятость,"гибкий график, полный день",Опыт работы 2 года 11 месяцев Аналитик 130 00...,Аплана. Центр Разработки,Аналитик,22.04.2019 11:04,Не указано,Высшее,Ж,25
44724,55000 руб.,Специалист технической поддержки,"Санкт-Петербург , м. Международная , не готов...","частичная занятость, полная занятость","гибкий график, полный день",Опыт работы 13 лет 11 месяцев Специалист техн...,"ООО ""Комплайт"" (перевод в ООО ""Бариант"")","Вед.специалист отдела ИТ (тех.поддержка), руко...",26.04.2019 10:41,Имеется собственный автомобиль,Высшее,Ж,43
44729,90000 руб.,UX-исследователь/ UX-аналитик,"Москва , м. Славянский бульвар , готова к пер...",полная занятость,"гибкий график, полный день, удаленная работа",Опыт работы 3 года 1 месяц Октябрь 2018 — Дек...,"Островок.ру, ООО",UX-аналитик,05.04.2019 19:27,Не указано,Высшее,Ж,25
44730,70000 руб.,Редактор-аналитик,"Москва , м. Комсомольская , не готова к перее...",полная занятость,полный день,Опыт работы 1 год 9 месяцев Редактор-аналитик...,AT Consulting,Редактор-аналитик,26.04.2019 15:56,Не указано,Высшее,Ж,23


In [None]:
hh_data['Пол'] == 'Ж'

# Возвращает только столбец Пол, и со значениями True(Ж) и False(всем остальным)
# Как и ранее, это создает булевый массив, где True соответствует строкам с полом 'Ж', а False — всем остальным.

Unnamed: 0,Пол
0,False
1,False
2,True
3,False
4,True
...,...
44739,False
44740,False
44741,True
44742,False


Получить долю

In [None]:
# Процент женщин в данных

round(len(hh_data[hh_data['Пол'] == 'Ж']) / len(hh_data) * 100, 2)

# len(hh_data[hh_data['Пол'] == 'Ж']): Подсчитывает يحسب количество строк, где пол 'Ж'.
# len(hh_data): Подсчитывает общее количество строк в DataFrame hh_data.
# /: Делит количество женщин на общее количество записей, чтобы получить долю женщин в данных.
# * 100: Преобразует эту долю в процент.
# round(..., 2): Округляет полученный процент до двух знаков после запятой.
# Этот код вычисляет и возвращает процент женщин в наборе данных هذا الكود يحسب ويعيد نسبة النساء في مجموعة البيانات.

19.07

In [None]:
# Статистическое описание данных الوصف الإحصائي للبيانات

hh_data.describe(include='object')

# describe(include='object'): Функция describe выдает статистическое описание всех столбцов DataFrame. С опцией خيار include='object' она возвращает описание только текстовых (строковых) столбцов:
# count: Количество ненулевых значений.
# unique: Количество уникальных значений.
# top: Самое частое значение (мода).
# freq: Частота самого частого значения.

Unnamed: 0,ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Пол
count,44744,44744,44744,44744,44744,44576,44743,44742,44744,44744,44744
unique,690,14929,10063,38,47,44413,30214,16927,18838,2,2
top,50000 руб.,Системный администратор,"Москва , не готов к переезду , не готов к кома...",полная занятость,полный день,Опыт работы 10 лет 8 месяцев Апрель 2018 — по...,Индивидуальное предпринимательство / частная п...,Системный администратор,07.05.2019 09:50,Не указано,М
freq,4064,3099,1261,30026,22727,3,935,2062,25,32268,36211


Чему равен средний возраст соискателей?

In [None]:
round(hh_data['Возраст'].mean(), 1)

32.2

In [None]:
################## КОНЕЦ ПРИМЕРА

In [None]:
###########################################################################

# 3. Преобразуем признак **"Опыт работы"**(в месяцах).

Его текущий формат - это: **<Опыт работы: n лет m месяцев, периоды работы в различных компаниях…>**.
выделим общий опыт работы соискателя в месяцах, новый признак назовем "Опыт работы (месяц)"

وصف الفكرة والغرض:

الهدف من هذا العمل هو تحويل وصف الخبرة العملية (مثل "16 سنوات و10 أشهر") في عمود "Опыт работы" إلى عدد من الأشهر. هذا التحويل يساعد في تحسين تحليل البيانات لأن تحويل الفترة الزمنية إلى وحدة موحدة (الأشهر) يسمح بإجراء حسابات إحصائية أكثر دقة واستخدامها في النماذج التحليلية بشكل أسهل. بمجرد الحصول على عدد الأشهر، يمكننا مقارنة الخبرة بين المتقدمين للوظائف بشكل أكثر وضوحًا.

In [None]:
hh_data['Опыт работы'].to_list()[:5]
# https://chatgpt.com/c/67054233-6c54-8010-b2bc-196515a3b411

['Опыт работы 16 лет 10 месяцев  Август 2010 — по настоящее время 8 лет 10 месяцев МАОУ "СОШ № 1 г.Немана" Системный администратор Обслуживание ПК,установка ПО, ремонт, периферийной техники, Интернет локальная сеть. Ведение Электронного журнала, сайта организации.  Август 2002 — Август  2010 8 лет 1 месяц ТС "ВЕСТЕР-ИНФО" Старший продавец, директор отдела Продажи компьютерной техники',
 'Опыт работы 19 лет 5 месяцев  Январь 2000 — по настоящее время 19 лет 5 месяцев Временный трудовой коллектив Москва Информационные технологии, системная интеграция, интернет ... Разработка программного обеспечения Системная интеграция, автоматизации технологических и бизнес-процессов предприятия, ИТ-консалтинг Менеджер проекта, Аналитик, Технический писатель Весь цикл ПО, кроме программирования.',
 'Опыт работы 10 лет 3 месяца  Октябрь 2004 — Декабрь  2014 10 лет 3 месяца ПАО Сбербанк Кассир-операционист Работа с денежной наличностью, обслуживание клиентов, операции с иностранной валютой, проведение ин

In [None]:
arg = 'Опыт работы 16 лет 10 месяцев  Август 2010 — по настоящее время 8 лет 10 месяцев МАОУ "С'
year_words = ['год', 'года', 'лет']
month_words = ['месяц', 'месяца', 'месяцев']
arg_splitted = arg.split(' ')[:7]    # ['Опыт', 'работы', '16', 'лет', '10', 'месяцев', '']
years = 0
months = 0
for index, item in enumerate (arg_splitted):
    if item in year_words:
        years = int(arg_splitted[index-1])

In [None]:
arg_splitted

['Опыт', 'работы', '16', 'лет', '10', 'месяцев', '']

In [None]:
print(index, item)

6 


In [None]:
index

6

In [None]:
item

''

In [None]:
years

16

In [None]:
def get_experience(arg):
    # Проверяем, если данные отсутствуют
    if arg is np.nan or arg == 'Не указано':
        return None

    # Списки ключевых слов для поиска лет и месяцев
    year_words = ['год', 'года', 'лет']
    month_words = ['месяц', 'месяца', 'месяцев']

    # Разделяем строку на слова для дальнейшего анализа
    arg_splitted = arg.split(' ')[:7]

    # Инициализация переменных для подсчета лет и месяцев
    # تهيئة المتغيرات لحساب السنوات والأشهر
    years = 0
    months = 0

    # Перебираем слова и ищем нужные значения
    for index, item in enumerate(arg_splitted):
        if item in year_words:
            years = int(arg_splitted[index-1])
        if item in month_words:
            months = int(arg_splitted[index-1])

# Используем метод apply() для того, чтобы применить нашу функцию ко всему столбцу "Опыт работы":
hh_data['Опыт работы (месяц)'] = hh_data['Опыт работы'].apply(get_experience)

In [None]:
hh_data['Опыт работы (месяц)'].head()

Unnamed: 0,Опыт работы (месяц)
0,
1,
2,
3,
4,


In [None]:
hh_data

Unnamed: 0,ЗП,Ищет работу на должность:,"Город, переезд, командировки",Занятость,График,Опыт работы,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,Возраст,Опыт работы (месяц)
0,29000 руб.,Системный администратор,"Советск (Калининградская область) , не готов к...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...",Опыт работы 16 лет 10 месяцев Август 2010 — п...,"МАОУ ""СОШ № 1 г.Немана""",Системный администратор,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее,М,39,
1,40000 руб.,Технический писатель,"Королев , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Опыт работы 19 лет 5 месяцев Январь 2000 — по...,Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",12.04.2019 08:42,Не указано,Высшее,М,60,
2,20000 руб.,Оператор,"Тверь , не готова к переезду , не готова к ком...",полная занятость,полный день,Опыт работы 10 лет 3 месяца Октябрь 2004 — Де...,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,36,
3,100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"Саратов , не готов к переезду , готов к редким...","частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",Опыт работы 18 лет 9 месяцев Август 2017 — Ап...,OpenSoft,Инженер-программист,08.04.2019 14:23,Не указано,Высшее,М,38,
4,140000 руб.,Региональный менеджер по продажам,"Москва , не готова к переезду , готова к коман...",полная занятость,полный день,Опыт работы 5 лет 7 месяцев Региональный мене...,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,26,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44739,50000 руб.,"Финансист, аналитик, экономист, бухгалтер, мен...","Тверь , готов к переезду (Москва, Химки) , гот...",полная занятость,"полный день, удаленная работа","Опыт работы 7 лет 7 месяцев Финансист, аналит...","ООО ""IAS"" (независимый участник объединения Ru...",Руководитель субгруппы,22.04.2019 12:32,Не указано,Высшее,М,30,
44740,39000 руб.,"Системный администратор, IT-специалист","Липецк , готов к переезду , готов к командировкам","проектная работа, частичная занятость, полная ...","удаленная работа, гибкий график, полный день, ...","Опыт работы 7 лет Системный администратор, IT...",ИП Пестрецов,Предприниматель,22.04.2019 13:11,Не указано,Высшее,М,27,
44741,40000 руб.,"Аналитик данных, Математик","Челябинск , готова к переезду , готова к редки...",полная занятость,"полный день, удаленная работа",Опыт работы 21 год 5 месяцев Январь 1998 — по...,"ОАО «ЧМК», Исследовательско-Технологический Це...",Начальник группы аналитики,09.04.2019 05:07,Не указано,Высшее,Ж,48,
44742,20000 руб.,Контент-менеджер,"Тамбов , не готов к переезду , не готов к кома...","частичная занятость, полная занятость",удаленная работа,Опыт работы 3 года 10 месяцев Контент-менедже...,IQ-Maxima,Менеджер проектов,26.04.2019 14:25,Имеется собственный автомобиль,Высшее,М,24,


In [None]:
# hh_data['Опыт работы (месяц)'] = hh_data['Опыт работы (месяц)'].astype(int)

Медианный опыт работы (в месяцах)?

In [None]:
hh_data['Опыт работы (месяц)'].median()
# https://chatgpt.com/c/6715ecee-693c-8010-97ee-2d11c9e68fcc

  return np.nanmean(a, axis, out=out, keepdims=keepdims)


nan

In [None]:
hh_data['Опыт работы (месяц)'].dropna().median()

nan

In [None]:
hh_data['Опыт работы (месяц)'].mean()

nan

Удалим столбец «Опыт работы» из таблицы.

In [None]:
hh_data = hh_data.drop(['Опыт работы'], axis=1)

In [None]:
################################################################################

# 4. Создадим отдельные признаки **"Город"**, **"Готовность к переезду"**, **"Готовность к командировкам"**.

При этом важно учесть:
* Признак **"Город"** должен содержать только 4 категории: "Москва", "Санкт-Петербург" и "город-миллионник", остальные обозначим как "другие".
* Признак **"Готовность к переезду"** должен иметь два возможных варианта: True или False.
* Признак **"Готовность к командировкам"** должен иметь два возможных варианта: True или False.
    

In [None]:
hh_data['Город, переезд, командировки'].to_list()[:10]
# https://chatgpt.com/c/6715d9a2-accc-8010-8b15-a0ecbccc5b88

['Советск (Калининградская область) , не готов к переезду , не готов к командировкам',
 'Королев , не готов к переезду , готов к редким командировкам',
 'Тверь , не готова к переезду , не готова к командировкам',
 'Саратов , не готов к переезду , готов к редким командировкам',
 'Москва , не готова к переезду , готова к командировкам',
 'Старый Оскол , не готов к переезду , не готов к командировкам',
 'Москва , не готов к переезду , готов к редким командировкам',
 'Москва ,  м. Бульвар Рокоссовского , готов к переезду , готов к командировкам',
 'Москва ,  м. Шоссе Энтузиастов , готов к переезду , готов к командировкам',
 'Москва ,  м. Теплый Стан , не готов к переезду , не готов к командировкам']

Город:

In [None]:
# Задачa: писать код обрабатывает города из столбца данных и классифицирует يصنف их в 4 категории:
# "Москва", "Санкт-Петербург", "город-миллионник" и "другие"

In [None]:
def city_f(x):
    # Список городов-миллионников(сами придумали)
    million_cities = ['Новосибирск', 'Екатеринбург', 'Нижний Новгород', 'Казань', 'Челябинск', 'Омск',
                      'Самара', 'Ростов-на-Дону', 'Уфа', 'Красноярск', 'Пермь', 'Воронеж', 'Волгоград']

    # Удаляем двойные пробелы и разделяем строку по первому вхождению ' , ', берем первый элемент
    x = x.replace('  ', ' ').split(' , ')[0]

    if x == 'Москва':
        return 'Москва'

    if x == 'Санкт-Петербург':
        return 'Санкт-Петербург'

    if x in million_cities:
        return 'город-миллионник'

    # Если город не попадает ни под одно из условий, возвращаем 'другие'
    return 'другие'

# Применяем функцию city_f к столбцу 'Город, переезд, командировки' и создаем новый столбец 'Город'
hh_data['Город'] = hh_data['Город, переезд, командировки'].apply(city_f)

# Преобразуем столбец 'Город' в категориальный тип данных для оптимизации памяти تحسين الذاكرة
hh_data['Город'] = hh_data['Город'].astype('category')


In [None]:
hh_data['Город']

Unnamed: 0,Город
0,другие
1,другие
2,другие
3,другие
4,Москва
...,...
44739,другие
44740,другие
44741,город-миллионник
44742,другие


Готовность к переезду:

In [None]:
def removal_f(x):
    x = x.replace('  ', ' ').split(' , ')
    if x[1][0] == 'м':
        x = x[2]
    else:
        x = x[1]
    x = x.split(' ')
    for i in x:
        if i == 'не':
            return False
    return True

hh_data['Готовность к переезду'] = hh_data['Город, переезд, командировки'].apply(removal_f)

In [None]:
hh_data['Готовность к переезду']

Unnamed: 0,Готовность к переезду
0,False
1,False
2,False
3,False
4,False
...,...
44739,True
44740,True
44741,True
44742,False


Готовность к командировкам:

In [None]:
def business_trips_f(x):
    if x is np.nan:
        return False
    x = x.replace('  ', ' ').split(' , ')
    if len(x) < 3 or x[1][0] == 'м' and len(x) <= 3:
        return False
    if x[1][0] == 'м':
        x = x[3]
    else:
        x = x[2]
    x = x.split(' ')

    for i in x:
        if i == 'не':
            return False
    return True

hh_data['Готовность к командировкам'] = hh_data['Город, переезд, командировки'].apply(business_trips_f)

In [None]:
hh_data['Готовность к командировкам']

Unnamed: 0,Готовность к командировкам
0,False
1,True
2,False
3,True
4,True
...,...
44739,True
44740,True
44741,True
44742,False


Сколько процентов соискателей живут в Санкт-Петербурге?

In [None]:
hh_data[hh_data['Город'] == 'Санкт-Петербург'].shape
# https://chatgpt.com/c/6717c9dc-4250-8010-8b52-2cbdffa96117

(4937, 16)

In [None]:
# الطريقه الأولى

hh_data[hh_data['Город'] == 'Санкт-Петербург'].shape[0] / hh_data.shape[0] * 100
# https://chatgpt.com/c/67170ddf-b3c4-8010-ba69-068f86b2a261

11.033881637761487

In [None]:
# الطريقه الثانيه

# Общее количество соискателей
total_candidates = len(hh_data)
# Количество соискателей, проживающих в Санкт-Петербурге
spb_candidates = len(hh_data[hh_data['Город'] == 'Санкт-Петербург'])
# Процент соискателей из Санкт-Петербурга
percent_spb = (spb_candidates / total_candidates) * 100

print(f"Процент соискателей, проживающих в Санкт-Петербурге: {percent_spb:.2f}%")

Процент соискателей, проживающих в Санкт-Петербурге: 11.03%


Сколько процентов соискателей готовы одновременно и к переездам, и к командировкам?

In [None]:
# الخطوه الأولى
hh_data[(hh_data['Готовность к переезду'] == True) & (hh_data['Готовность к командировкам'] == True)].shape[0]

14265

In [None]:
# الخطوه الثانيه
hh_data.shape[0]

44744

In [None]:
# الخطوات كامله
hh_data[(hh_data['Готовность к переезду'] == True) & (hh_data['Готовность к командировкам'] == True)].shape[0] / hh_data.shape[0] * 100

31.88136956910424

Удалим столбец "Город, переезд, командировки"

In [None]:
hh_data = hh_data.drop(['Город, переезд, командировки'], axis=1)

In [None]:
hh_data

Unnamed: 0,ЗП,Ищет работу на должность:,Занятость,График,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,Возраст,Опыт работы (месяц),Город,Готовность к переезду,Готовность к командировкам
0,29000 руб.,Системный администратор,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...","МАОУ ""СОШ № 1 г.Немана""",Системный администратор,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее,М,39,,другие,False,False
1,40000 руб.,Технический писатель,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",12.04.2019 08:42,Не указано,Высшее,М,60,,другие,False,True
2,20000 руб.,Оператор,полная занятость,полный день,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,36,,другие,False,False
3,100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",OpenSoft,Инженер-программист,08.04.2019 14:23,Не указано,Высшее,М,38,,другие,False,True
4,140000 руб.,Региональный менеджер по продажам,полная занятость,полный день,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,26,,Москва,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44739,50000 руб.,"Финансист, аналитик, экономист, бухгалтер, мен...",полная занятость,"полный день, удаленная работа","ООО ""IAS"" (независимый участник объединения Ru...",Руководитель субгруппы,22.04.2019 12:32,Не указано,Высшее,М,30,,другие,True,True
44740,39000 руб.,"Системный администратор, IT-специалист","проектная работа, частичная занятость, полная ...","удаленная работа, гибкий график, полный день, ...",ИП Пестрецов,Предприниматель,22.04.2019 13:11,Не указано,Высшее,М,27,,другие,True,True
44741,40000 руб.,"Аналитик данных, Математик",полная занятость,"полный день, удаленная работа","ОАО «ЧМК», Исследовательско-Технологический Це...",Начальник группы аналитики,09.04.2019 05:07,Не указано,Высшее,Ж,48,,город-миллионник,True,True
44742,20000 руб.,Контент-менеджер,"частичная занятость, полная занятость",удаленная работа,IQ-Maxima,Менеджер проектов,26.04.2019 14:25,Имеется собственный автомобиль,Высшее,М,24,,другие,False,False


# 5. ЗП (преобразуем заработную плату в единую валюту, в рублях)

In [None]:
################################################################################
################################## Лекция 11 ###################################
################################################################################

In [None]:
# ########## FULL CODE AND COMMENTS


# # Соискатель указывает зарплату в различных валютах, преобразуем заработную плату в единую валюту, например, в рублях. Возникает вопрос, а где взять курс валют по отношению к рублю?
# # Сделаем выгрузку курсов валют, которые встречаются в наших данных за период с 29.12.2017 по 05.12.2019. И сохраним в csv файл.

# # Создайте новый DataFrame из полученного файла. В полученной таблице будут столбцы:

# # "currency" - наименование валюты в ISO кодировке,
# # "date" - дата,
# # "proportion" - пропорция,
# # "close" - цена закрытия (последний зафиксированный курс валюты на указанный день).
# # В признаке "Обновление резюме", содержится дата и время, когда соискатель выложил текущий вариант своего резюме. По дате и будем сопоставлять курсы валют.

# hh_data.head()  #среди столбцов есть столбец ЗП

# # Считаем данные курса из файла
# exch_data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/ExchangeRates.csv', sep=',')
# exch_data.head()
# currency	per	date	time	close	vol	proportion
# 0	USD	D	29/12/17	00:00	57.6291	0	1
# 1	USD	D	30/12/17	00:00	57.6002	0	1
# 2	USD	D	31/12/17	00:00	57.6002	0	1
# 3	USD	D	01/01/18	00:00	57.6002	0	1
# 4	USD	D	02/01/18	00:00	57.6002	0	1

# # Переведём признак "Обновление резюме" из таблицы с резюме в формат datetime и создадим столбец с датой. В тот же формат приведем признак "date" из таблицы с валютами.
# hh_data['date'] = pd.to_datetime(hh_data['Обновление резюме'], dayfirst=True).dt.date # 2024-01-01 / 01.01.2024
# exch_data['date'] = pd.to_datetime(exch_data['date'], dayfirst=True).dt.date
# <ipython-input-93-9862bd48a313>:2: UserWarning: Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.
#   exch_data['date'] = pd.to_datetime(exch_data['date'], dayfirst=True).dt.date

# exch_data.head()
# currency	per	date	time	close	vol	proportion
# 0	USD	D	2017-12-29	00:00	57.6291	0	1
# 1	USD	D	2017-12-30	00:00	57.6002	0	1
# 2	USD	D	2017-12-31	00:00	57.6002	0	1
# 3	USD	D	2018-01-01	00:00	57.6002	0	1
# 4	USD	D	2018-01-02	00:00	57.6002	0	1

# # Выделим из столбца "ЗП" сумму желаемой заработной платы и наименование валюты, в которой она исчисляется. Наименование валюты переведем в стандарт ISO.
# def get_salary_sum(x): # получаем зп
#     return float(x.split(' ')[0])
# def get_salary_currency(arg): # получаем курс
#     currency_dict = {
#         'USD': 'USD', 'KZT': 'KZT',
#         'грн': 'UAH', 'белруб': 'BYN',
#         'EUR': 'EUR', 'KGS': 'KGS',
#         'сум': 'UZS', 'AZN': 'AZN',
#         'руб': 'RUB'
#     }
#     curr = arg.split(' ')[1].replace('.', '')
#     return currency_dict[curr]
# hh_data['ЗП (tmp)'] = hh_data['ЗП'].apply(get_salary_sum)

# hh_data.head()

# # Присоединим к таблице с резюме таблицу с курсами по столбцам с датой и названием валюты. Значение close для рубля заполним единицей (курс рубля самого к себе)
# merged = hh_data.merge(   # MERG is mergs تدمج two dataframes    # https://chatgpt.com/c/66de6f99-d440-8010-a174-b060ee3891fd
#     exch_data,
#     left_on=['Курс (tmp)', 'date'],
#     right_on=['currency', 'date'],
#     how='left'
# )
# merged['close'] = merged['close'].fillna(1) # заполним пропуски
# merged['proportion'] = merged['proportion'].fillna(1)

# merged.head()

# # Умножим сумму желаемой заработной платы на присоединенный курс валюты (close) и разделить на пропорцию.
# hh_data['ЗП (руб)'] = merged['close'] * merged['ЗП (tmp)'] / merged['proportion']

# # Чему равна желаемая медианная заработная плата соискателей?
# hh_data['ЗП (руб)'].median()

# # Удалим исходный столбец заработной платы "ЗП" и все промежуточные столбцы.
# hh_data = hh_data.drop(['ЗП', 'ЗП (tmp)', 'Курс (tmp)','date'], axis=1)


# # Очистка данных
# # удаляйте столбец, если число пропусков в нем более 30-40 %. В остальных случаях лучше удалять записи.
# #  1.Найдием полные дубликаты в таблице с резюме и удалим их.
# # Дубликатами называются записи, для которых значения (всех или большинства) признаков совпадают.
# duplicates = hh_data[hh_data.duplicated(subset=hh_data.columns)]
# #  subset — список признаков, по которым производится поиск дубликатов.
# # По умолчанию используются все столбцы в DataFrame и ищутся полные дубликаты.
# hh_data = hh_data.drop_duplicates()
# duplicates.shape[0]

# #  2. Выведем информацию о числе пропусков в столбцах.
# hh_data.isnull().sum()
# 	0
# Ищет работу на должность:	0
# Занятость	0
# График	0
# Последнее/нынешнее место работы	1
# Последняя/нынешняя должность	2
# Обновление резюме	0
# Авто	0
# Образование	0
# Пол	0
# Возраст	0
# Опыт работы (месяц)	44579
# Город	0
# Готовность к переезду	0
# Готовность к командировкам	0
# ЗП (руб)	0
# dtype: int64

# # 3. Eсть пропуски в 3ех столбцах: "Опыт работы (месяц)", "Последнее/нынешнее место работы", "Последняя/нынешняя должность". Поступим следующим образом: удалиv строки, где есть пропуск в столбцах с местом работы и должностью. Пропуски в столбце с опытом работы заполним медианным значением.
# hh_data = hh_data.dropna(subset=['Последнее/нынешнее место работы', 'Последняя/нынешняя должность'])
# hh_data['Опыт работы (месяц)'] = hh_data['Опыт работы (месяц)'].fillna(hh_data['Опыт работы (месяц)'].median())
# /usr/local/lib/python3.10/dist-packages/numpy/lib/nanfunctions.py:1215: RuntimeWarning: Mean of empty slice
#   return np.nanmean(a, axis, out=out, keepdims=keepdims)
# <ipython-input-104-e5d19a4dec5e>:2: FutureWarning: Downcasting object dtype arrays on .fillna, .ffill, .bfill is deprecated and will change in a future version. Call result.infer_objects(copy=False) instead. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)`
#   hh_data['Опыт работы (месяц)'] = hh_data['Опыт работы (месяц)'].fillna(hh_data['Опыт работы (месяц)'].median())
# <ipython-input-104-e5d19a4dec5e>:2: SettingWithCopyWarning:
# A value is trying to be set on a copy of a slice from a DataFrame.
# Try using .loc[row_indexer,col_indexer] = value instead

# See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
#   hh_data['Опыт работы (месяц)'] = hh_data['Опыт работы (месяц)'].fillna(hh_data['Опыт работы (месяц)'].median())

# hh_data.isnull().sum()
# 0
# Ищет работу на должность:	0
# Занятость	0
# График	0
# Последнее/нынешнее место работы	0
# Последняя/нынешняя должность	0
# Обновление резюме	0
# Авто	0
# Образование	0
# Пол	0
# Возраст	0
# Опыт работы (месяц)	44577
# Город	0
# Готовность к переезду	0
# Готовность к командировкам	0
# ЗП (руб)	0
# dtype: int64

# # Теперь удалим выбросы и аномалии
# #  4. Удалим резюме, в которых указана заработная плата либо выше 1 млн. рублей, либо ниже 1 тыс. рублей.
# hh_data.describe()
# Возраст	Опыт работы (месяц)	ЗП (руб)
# count	44577.000000	0.0	4.457700e+04
# mean	32.194809	NaN	7.653459e+04
# std	7.923659	NaN	1.361241e+05
# min	14.000000	NaN	1.000000e+00
# 25%	27.000000	NaN	3.710960e+04
# 50%	31.000000	NaN	5.903800e+04
# 75%	36.000000	NaN	9.500000e+04
# max	100.000000	NaN	2.430488e+07

# delete_data = hh_data[(hh_data['ЗП (руб)'] > 1e6) | (hh_data['ЗП (руб)'] < 1e3)]
# hh_data = hh_data.drop(delete_data.index)
# print(f'Удалено {delete_data.shape[0]} записей')
# # Удалено 89 записей

# #  5. Удалим резюме, в которых опыт работы в годах превышает возраст соискателя.
# delete_data = hh_data[hh_data['Опыт работы (месяц)']/12 >= hh_data['Возраст']]
# hh_data = hh_data.drop(delete_data.index)
# print(f'Удалено {delete_data.shape[0]} записей')
# # Удалено 0 записей

# type(delete_data.index)
# pandas.core.indexes.base.Index

Соискатель указывает зарплату в различных валютах, преобразуем تحويل заработную плату в единую валюту, например, в рублях. Возникает вопрос, а где взять курс валют по отношению к рублю?

Сделаем выгрузку بتحميل курсов валют, которые встречаются в наших данных за период с 29.12.2017 по 05.12.2019. И сохраним в csv файл.

Создайте новый DataFrame из полученного файла. В полученной таблице будут столбцы:
* "currency" - наименование валюты в ISO кодировке بترميز,
* "date" - дата,
* "proportion" - пропорция نسبة,
* "close" - цена закрытия (последний зафиксированный курс валюты на указанный день).

В признаке **"Обновление резюме"**, содержится дата и время, когда соискатель выложил текущий вариант своего резюме. По дате и будем сопоставлять يقارن курсы валют.


Считаем قراءة данные курса из файла

In [None]:
# exch_data = pd.read_csv('drive/MyDrive/ExchangeRates.csv', sep=',')

exch_data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/ExchangeRates.csv', sep=',')

In [None]:
exch_data.head()

Unnamed: 0,currency,per,date,time,close,vol,proportion
0,USD,D,29/12/17,00:00,57.6291,0,1
1,USD,D,30/12/17,00:00,57.6002,0,1
2,USD,D,31/12/17,00:00,57.6002,0,1
3,USD,D,01/01/18,00:00,57.6002,0,1
4,USD,D,02/01/18,00:00,57.6002,0,1


In [None]:
hh_data.head()

Unnamed: 0,ЗП,Ищет работу на должность:,Занятость,График,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,Возраст,Опыт работы (месяц),Город,Готовность к переезду,Готовность к командировкам
0,29000 руб.,Системный администратор,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...","МАОУ ""СОШ № 1 г.Немана""",Системный администратор,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее,М,39,,другие,False,False
1,40000 руб.,Технический писатель,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",12.04.2019 08:42,Не указано,Высшее,М,60,,другие,False,True
2,20000 руб.,Оператор,полная занятость,полный день,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,36,,другие,False,False
3,100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",OpenSoft,Инженер-программист,08.04.2019 14:23,Не указано,Высшее,М,38,,другие,False,True
4,140000 руб.,Региональный менеджер по продажам,полная занятость,полный день,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,26,,Москва,False,True


Переведём признак "Обновление резюме" из таблицы с резюме в формат datetime и создадим столбец с датой. В тот же формат приведем признак "date" из таблицы с валютами.

In [None]:
# https://chatgpt.com/c/671a8282-26d4-8010-97bd-958e1b570f6c

hh_data['date'] = pd.to_datetime(hh_data['Обновление резюме'], dayfirst=True).dt.date # 2024-01-01 / 01.01.2024
exch_data['date'] = pd.to_datetime(exch_data['date'], dayfirst=True).dt.date

  exch_data['date'] = pd.to_datetime(exch_data['date'], dayfirst=True).dt.date


In [None]:
hh_data.head()

Unnamed: 0,ЗП,Ищет работу на должность:,Занятость,График,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,Возраст,Опыт работы (месяц),Город,Готовность к переезду,Готовность к командировкам,date
0,29000 руб.,Системный администратор,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...","МАОУ ""СОШ № 1 г.Немана""",Системный администратор,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее,М,39,,другие,False,False,2019-04-16
1,40000 руб.,Технический писатель,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",12.04.2019 08:42,Не указано,Высшее,М,60,,другие,False,True,2019-04-12
2,20000 руб.,Оператор,полная занятость,полный день,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,36,,другие,False,False,2019-04-16
3,100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",OpenSoft,Инженер-программист,08.04.2019 14:23,Не указано,Высшее,М,38,,другие,False,True,2019-04-08
4,140000 руб.,Региональный менеджер по продажам,полная занятость,полный день,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,26,,Москва,False,True,2019-04-22


In [None]:
exch_data.head()

Unnamed: 0,currency,per,date,time,close,vol,proportion
0,USD,D,2017-12-29,00:00,57.6291,0,1
1,USD,D,2017-12-30,00:00,57.6002,0,1
2,USD,D,2017-12-31,00:00,57.6002,0,1
3,USD,D,2018-01-01,00:00,57.6002,0,1
4,USD,D,2018-01-02,00:00,57.6002,0,1


Выделим نختار из столбца "ЗП" сумму желаемой заработной платы и наименование валюты, в которой она исчисляется التي يتم حسابه بها. Наименование валюты переведем بتحويل в стандарт ISO.

In [None]:
def get_salary_sum(x): # получаем зп
    return float(x.split(' ')[0])


def get_salary_currency(arg): # получаем курс
    currency_dict = {
        'USD': 'USD', 'KZT': 'KZT',
        'грн': 'UAH', 'белруб': 'BYN',
        'EUR': 'EUR', 'KGS': 'KGS',
        'сум': 'UZS', 'AZN': 'AZN',
        'руб': 'RUB'
    }
    curr = arg.split(' ')[1].replace('.', '')
    return currency_dict[curr]

hh_data['ЗП (tmp)'] = hh_data['ЗП'].apply(get_salary_sum)
hh_data['Курс (tmp)'] = hh_data['ЗП'].apply(get_salary_currency)

# https://chatgpt.com/c/671a87d4-a4f8-8010-a414-fc6c0d40a208
# https://chatgpt.com/c/671bc3a0-39ec-8010-8580-55d736b1ce5e

In [None]:
hh_data.head()

Unnamed: 0,ЗП,Ищет работу на должность:,Занятость,График,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,Возраст,Опыт работы (месяц),Город,Готовность к переезду,Готовность к командировкам,date,ЗП (tmp),Курс (tmp)
0,29000 руб.,Системный администратор,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...","МАОУ ""СОШ № 1 г.Немана""",Системный администратор,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее,М,39,,другие,False,False,2019-04-16,29000.0,RUB
1,40000 руб.,Технический писатель,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",12.04.2019 08:42,Не указано,Высшее,М,60,,другие,False,True,2019-04-12,40000.0,RUB
2,20000 руб.,Оператор,полная занятость,полный день,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,36,,другие,False,False,2019-04-16,20000.0,RUB
3,100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",OpenSoft,Инженер-программист,08.04.2019 14:23,Не указано,Высшее,М,38,,другие,False,True,2019-04-08,100000.0,RUB
4,140000 руб.,Региональный менеджер по продажам,полная занятость,полный день,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,26,,Москва,False,True,2019-04-22,140000.0,RUB


Присоединим к таблице с резюме таблицу с курсами по столбцам с датой и названием валюты. Значение close для рубля заполним единицей (курс рубля самого к себе)

In [None]:
merged = hh_data.merge(
    exch_data,
    left_on=['Курс (tmp)', 'date'],
    right_on=['currency', 'date'],
    how='left'
)
merged['close'] = merged['close'].fillna(1) # заполним пропуски
merged['proportion'] = merged['proportion'].fillna(1)

# MERG is mergs تدمج two dataframes
# https://chatgpt.com/c/671de268-1fc4-8010-a7d1-6c8d97f38cb7

In [None]:
merged.head()

Unnamed: 0,ЗП,Ищет работу на должность:,Занятость,График,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,...,Готовность к командировкам,date,ЗП (tmp),Курс (tmp),currency,per,time,close,vol,proportion
0,29000 руб.,Системный администратор,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...","МАОУ ""СОШ № 1 г.Немана""",Системный администратор,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее,М,...,False,2019-04-16,29000.0,RUB,,,,1.0,,1.0
1,40000 руб.,Технический писатель,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",12.04.2019 08:42,Не указано,Высшее,М,...,True,2019-04-12,40000.0,RUB,,,,1.0,,1.0
2,20000 руб.,Оператор,полная занятость,полный день,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,...,False,2019-04-16,20000.0,RUB,,,,1.0,,1.0
3,100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",OpenSoft,Инженер-программист,08.04.2019 14:23,Не указано,Высшее,М,...,True,2019-04-08,100000.0,RUB,,,,1.0,,1.0
4,140000 руб.,Региональный менеджер по продажам,полная занятость,полный день,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,...,True,2019-04-22,140000.0,RUB,,,,1.0,,1.0


Умножим сумму желаемой заработной платы на присоединенный курс валюты (close) и разделить на пропорцию.

لنضرب مبلغ الراتب المطلوب في سعر الصرف المرفق (الإغلاق) ونقسمه على النسبة.

In [None]:
hh_data['ЗП (руб)'] = merged['close'] * merged['ЗП (tmp)'] / merged['proportion']

# https://chatgpt.com/c/671de68a-2f38-8010-b0da-8acd25ed87b4

In [None]:
hh_data

Unnamed: 0,ЗП,Ищет работу на должность:,Занятость,График,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,Возраст,Опыт работы (месяц),Город,Готовность к переезду,Готовность к командировкам,date,ЗП (tmp),Курс (tmp),ЗП (руб)
0,29000 руб.,Системный администратор,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...","МАОУ ""СОШ № 1 г.Немана""",Системный администратор,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее,М,39,,другие,False,False,2019-04-16,29000.0,RUB,29000.0
1,40000 руб.,Технический писатель,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",12.04.2019 08:42,Не указано,Высшее,М,60,,другие,False,True,2019-04-12,40000.0,RUB,40000.0
2,20000 руб.,Оператор,полная занятость,полный день,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,36,,другие,False,False,2019-04-16,20000.0,RUB,20000.0
3,100000 руб.,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",OpenSoft,Инженер-программист,08.04.2019 14:23,Не указано,Высшее,М,38,,другие,False,True,2019-04-08,100000.0,RUB,100000.0
4,140000 руб.,Региональный менеджер по продажам,полная занятость,полный день,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,26,,Москва,False,True,2019-04-22,140000.0,RUB,140000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44739,50000 руб.,"Финансист, аналитик, экономист, бухгалтер, мен...",полная занятость,"полный день, удаленная работа","ООО ""IAS"" (независимый участник объединения Ru...",Руководитель субгруппы,22.04.2019 12:32,Не указано,Высшее,М,30,,другие,True,True,2019-04-22,50000.0,RUB,50000.0
44740,39000 руб.,"Системный администратор, IT-специалист","проектная работа, частичная занятость, полная ...","удаленная работа, гибкий график, полный день, ...",ИП Пестрецов,Предприниматель,22.04.2019 13:11,Не указано,Высшее,М,27,,другие,True,True,2019-04-22,39000.0,RUB,39000.0
44741,40000 руб.,"Аналитик данных, Математик",полная занятость,"полный день, удаленная работа","ОАО «ЧМК», Исследовательско-Технологический Це...",Начальник группы аналитики,09.04.2019 05:07,Не указано,Высшее,Ж,48,,город-миллионник,True,True,2019-04-09,40000.0,RUB,40000.0
44742,20000 руб.,Контент-менеджер,"частичная занятость, полная занятость",удаленная работа,IQ-Maxima,Менеджер проектов,26.04.2019 14:25,Имеется собственный автомобиль,Высшее,М,24,,другие,False,False,2019-04-26,20000.0,RUB,20000.0


Чему равна желаемая медианная заработная плата соискателей?

In [None]:
hh_data['ЗП (руб)'].median()

59019.0

Удалим исходный столбец заработной платы "ЗП" и все промежуточные الوسيطة столбцы.

In [None]:
hh_data = hh_data.drop(['ЗП', 'ЗП (tmp)', 'Курс (tmp)','date'], axis=1)

In [None]:
hh_data

Unnamed: 0,Ищет работу на должность:,Занятость,График,Последнее/нынешнее место работы,Последняя/нынешняя должность,Обновление резюме,Авто,Образование,Пол,Возраст,Опыт работы (месяц),Город,Готовность к переезду,Готовность к командировкам,ЗП (руб)
0,Системный администратор,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, ва...","МАОУ ""СОШ № 1 г.Немана""",Системный администратор,16.04.2019 15:59,Имеется собственный автомобиль,Неоконченное высшее,М,39,,другие,False,False,29000.0
1,Технический писатель,"частичная занятость, проектная работа, полная ...","гибкий график, полный день, сменный график, уд...",Временный трудовой коллектив,"Менеджер проекта, Аналитик, Технический писатель",12.04.2019 08:42,Не указано,Высшее,М,60,,другие,False,True,40000.0
2,Оператор,полная занятость,полный день,ПАО Сбербанк,Кассир-операционист,16.04.2019 08:35,Не указано,Среднее специальное,Ж,36,,другие,False,False,20000.0
3,Веб-разработчик (HTML / CSS / JS / PHP / базы ...,"частичная занятость, проектная работа, полная ...","гибкий график, удаленная работа",OpenSoft,Инженер-программист,08.04.2019 14:23,Не указано,Высшее,М,38,,другие,False,True,100000.0
4,Региональный менеджер по продажам,полная занятость,полный день,Мармелад,Менеджер по продажам,22.04.2019 10:32,Не указано,Высшее,Ж,26,,Москва,False,True,140000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
44739,"Финансист, аналитик, экономист, бухгалтер, мен...",полная занятость,"полный день, удаленная работа","ООО ""IAS"" (независимый участник объединения Ru...",Руководитель субгруппы,22.04.2019 12:32,Не указано,Высшее,М,30,,другие,True,True,50000.0
44740,"Системный администратор, IT-специалист","проектная работа, частичная занятость, полная ...","удаленная работа, гибкий график, полный день, ...",ИП Пестрецов,Предприниматель,22.04.2019 13:11,Не указано,Высшее,М,27,,другие,True,True,39000.0
44741,"Аналитик данных, Математик",полная занятость,"полный день, удаленная работа","ОАО «ЧМК», Исследовательско-Технологический Це...",Начальник группы аналитики,09.04.2019 05:07,Не указано,Высшее,Ж,48,,город-миллионник,True,True,40000.0
44742,Контент-менеджер,"частичная занятость, полная занятость",удаленная работа,IQ-Maxima,Менеджер проектов,26.04.2019 14:25,Имеется собственный автомобиль,Высшее,М,24,,другие,False,False,20000.0


# Очистка данных

удаляйте столбец, если число пропусков в нем более 30-40 %. В остальных случаях лучше удалять записи.

1. Найдием полные дубликаты в таблице с резюме и удалим их.

Дубликатами называются записи, для которых значения (всех или большинства) признаков совпадают.

In [None]:
duplicates = hh_data[hh_data.duplicated(subset=hh_data.columns)]
hh_data = hh_data.drop_duplicates()
duplicates.shape[0]

# https://chatgpt.com/c/671e47aa-5224-8010-92e9-44574de95353

165

In [None]:
# len(hh_data.duplicated(subset=hh_data.columns)) #بلا معنى من عندي

In [None]:
# len(hh_data) #بلا معنى من عندي

:2. Выведем информацию о числе пропусков в столбцах.

In [None]:
# الشرح حتى النهايه
# https://chatgpt.com/c/671e4faf-1b44-8010-b23a-a8cd73db9e88

In [None]:
hh_data.isnull().sum()

Unnamed: 0,0
Ищет работу на должность:,0
Занятость,0
График,0
Последнее/нынешнее место работы,1
Последняя/нынешняя должность,2
Обновление резюме,0
Авто,0
Образование,0
Пол,0
Возраст,0


3. Eсть пропуски в 3ех столбцах: **"Опыт работы (месяц)"**, **"Последнее/нынешнее место работы"**, **"Последняя/нынешняя должность"**. Поступим следующим образом: удалиv строки, где есть пропуск в столбцах с местом работы и должностью. Пропуски в столбце с опытом работы заполним медианным значением.

In [None]:
hh_data = hh_data.dropna(subset=['Последнее/нынешнее место работы', 'Последняя/нынешняя должность'])
hh_data['Опыт работы (месяц)'] = hh_data['Опыт работы (месяц)'].fillna(hh_data['Опыт работы (месяц)'].median())

# what is subset?   # https://chat.hix.ai/ar/share/cm0wl24xb1sj23vmpx32nlbjn

  return np.nanmean(a, axis, out=out, keepdims=keepdims)
  hh_data['Опыт работы (месяц)'] = hh_data['Опыт работы (месяц)'].fillna(hh_data['Опыт работы (месяц)'].median())


In [None]:
hh_data.isnull().sum()

Unnamed: 0,0
Ищет работу на должность:,0
Занятость,0
График,0
Последнее/нынешнее место работы,0
Последняя/нынешняя должность,0
Обновление резюме,0
Авто,0
Образование,0
Пол,0
Возраст,0


#### Теперь удалим выбросы и аномалии
الآن دعونا نزيل القيم المتطرفة والشذوذ

4. Удалим резюме, в которых указана заработная плата либо выше 1 млн. рублей, либо ниже 1 тыс. рублей.

In [None]:
hh_data.describe()

Unnamed: 0,Возраст,Опыт работы (месяц),ЗП (руб)
count,44577.0,0.0,44577.0
mean,32.194809,,76534.59
std,7.923659,,136124.1
min,14.0,,1.0
25%,27.0,,37109.6
50%,31.0,,59038.0
75%,36.0,,95000.0
max,100.0,,24304880.0


In [None]:
delete_data = hh_data[(hh_data['ЗП (руб)'] > 1e6) | (hh_data['ЗП (руб)'] < 1e3)]
hh_data = hh_data.drop(delete_data.index)
print(f'Удалено {delete_data.shape[0]} записей')

# https://chatgpt.com/c/671f1e26-0690-8010-9b5e-a9185541b837
# https://chatgpt.com/c/671e5cb0-c1ac-8010-93ec-029dd5bfb13d

Удалено 89 записей


5. Удалим резюме, в которых опыт работы в годах превышает возраст соискателя.


In [None]:
delete_data = hh_data[hh_data['Опыт работы (месяц)']/12 >= hh_data['Возраст']]
hh_data = hh_data.drop(delete_data.index)
print(f'Удалено {delete_data.shape[0]} записей')

Удалено 0 записей


In [None]:
type(delete_data.index)

pandas.core.indexes.base.Index