Исследование структур данных

In [146]:
import pandas as pd

data = pd.read_csv("hh_database.csv", delimiter=';')

print(data.shape)


(44744, 12)


In [147]:
print(data.head())

                                   Пол, возраст           ЗП  \
0    Мужчина ,  39 лет , родился 27 ноября 1979   29000 руб.   
1     Мужчина ,  60 лет , родился 20 марта 1959   40000 руб.   
2  Женщина ,  36 лет , родилась 12 августа 1982   20000 руб.   
3      Мужчина ,  38 лет , родился 25 июня 1980  100000 руб.   
4     Женщина ,  26 лет , родилась 3 марта 1993  140000 руб.   

                           Ищет работу на должность:  \
0                            Системный администратор   
1                               Технический писатель   
2                                           Оператор   
3  Веб-разработчик (HTML / CSS / JS / PHP / базы ...   
4                  Региональный менеджер по продажам   

                        Город, переезд, командировки  \
0  Советск (Калининградская область) , не готов к...   
1  Королев , не готов к переезду , готов к редким...   
2  Тверь , не готова к переезду , не готова к ком...   
3  Саратов , не готов к переезду , готов к редким...  

In [148]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44744 entries, 0 to 44743
Data columns (total 12 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   Пол, возраст                     44744 non-null  object
 1   ЗП                               44744 non-null  object
 2   Ищет работу на должность:        44744 non-null  object
 3   Город, переезд, командировки     44744 non-null  object
 4   Занятость                        44744 non-null  object
 5   График                           44744 non-null  object
 6   Опыт работы                      44576 non-null  object
 7   Последнее/нынешнее место работы  44743 non-null  object
 8   Последняя/нынешняя должность     44742 non-null  object
 9   Образование и ВУЗ                44744 non-null  object
 10  Обновление резюме                44744 non-null  object
 11  Авто                             44744 non-null  object
dtypes: object(12)
memory usage: 4.1+

In [149]:
print(data.isnull().sum())

Пол, возраст                         0
ЗП                                   0
Ищет работу на должность:            0
Город, переезд, командировки         0
Занятость                            0
График                               0
Опыт работы                        168
Последнее/нынешнее место работы      1
Последняя/нынешняя должность         2
Образование и ВУЗ                    0
Обновление резюме                    0
Авто                                 0
dtype: int64


In [150]:
# Статистическая информация по числовым столбцам
print(data.describe())

# Количество уникальных значений в "Опыт работы"
print(data['Опыт работы'].nunique())

# Самая распространённая должность
print(data['Последняя/нынешняя должность'].mode()[0])


                                         Пол, возраст          ЗП  \
count                                           44744       44744   
unique                                          16003         690   
top     Мужчина ,  32 года , родился 17 сентября 1986  50000 руб.   
freq                                               18        4064   

       Ищет работу на должность:  \
count                      44744   
unique                     14929   
top      Системный администратор   
freq                        3099   

                             Город, переезд, командировки         Занятость  \
count                                               44744             44744   
unique                                              10063                38   
top     Москва , не готов к переезду , не готов к кома...  полная занятость   
freq                                                 1261             30026   

             График                                        Опыт работы  \
cou

In [151]:
import pandas as pd
# Функция для извлечения уровня образования
def extract_education(text):
    # Разбиваем строку на слова
    words = text.split()
    # Определяем уровень образования по первым трём словам
    if 'Высшее' in words[:3]:
        return 'высшее'
    elif 'Неоконченное' in words[:3]:
        return 'неоконченное высшее'
    elif 'Среднее' in words[:3] and 'специальное' in words[:3]:
        return 'среднее специальное'
    else:
        return 'среднее'

# Применяем функцию для создания нового столбца "Образование"
data['Образование'] = data['Образование и ВУЗ'].apply(extract_education)

# Проверяем уникальные значения в столбце "Образование"
print(data['Образование'].unique())

# Сколько соискателей имеет средний уровень образования 
count_medium_education = (data['Образование'] == 'среднее').sum()
print(f"Количество соискателей с средним образованием: {count_medium_education}")

['неоконченное высшее' 'высшее' 'среднее специальное' 'среднее']
Количество соискателей с средним образованием: 559


In [152]:
import pandas as pd

# Функция для извлечения пола
def extract_gender(text):
    if 'Мужчина' in text:
        return 'М'
    elif 'Женщина' in text:
        return 'Ж'
    else:
        return None

# Функция для извлечения возраста
def extract_age(text):
    # Разделим строку на части, чтобы извлечь возраст
    parts = text.split(' , ')
    # Возраст всегда в виде <число> лет/год
    age_str = parts[1] if len(parts) > 1 else ''
    # Оставим только число
    age = int(age_str.split()[0])  # Возраст всегда первое число
    return age

# Применяем функции для создания новых столбцов
data['Пол'] = data['Пол, возраст'].apply(extract_gender)
data['Возраст'] = data['Пол, возраст'].apply(extract_age)

# Проверяем результат
print(data[['Пол', 'Возраст']].head())

# 1. Считаем процент женских резюме
female_count = (data['Пол'] == 'Ж').sum()
total_count = len(data)
female_percentage = (female_count / total_count) * 100

# 2. Средний возраст соискателей
average_age = data['Возраст'].mean()

# Выводим результаты
print(f"Процент женских резюме: {female_percentage:.2f}%")
print(f"Средний возраст соискателей: {average_age:.1f} лет")


  Пол  Возраст
0   М       39
1   М       60
2   Ж       36
3   М       38
4   Ж       26
Процент женских резюме: 19.07%
Средний возраст соискателей: 32.2 лет


In [153]:
import numpy as np

# Функция для извлечения опыта работы в месяцах
def extract_work_experience(text):
    if pd.isna(text) or text == 'Не указано':
        return np.nan
    
    # Преобразуем текст в список слов
    parts = text.split()
    
    years = 0
    months = 0
    
    # Списки ключевых слов для лет и месяцев
    years_keywords = ['год', 'года', 'лет']
    months_keywords = ['месяц', 'месяца', 'месяцев']
    
    # Ищем количество лет
    if any(keyword in parts for keyword in years_keywords):
        # Находим индекс слова, которое связано с годами
        year_index = next(i for i, word in enumerate(parts) if word in years_keywords)
        try:
            years = int(parts[year_index - 1])  # Число перед словом "год"/"года"/"лет"
        except ValueError:
            years = 0  # Если перед словом нет числа, ставим 0
    
    # Ищем количество месяцев
    if any(keyword in parts for keyword in months_keywords):
        # Находим индекс слова, которое связано с месяцами
        month_index = next(i for i, word in enumerate(parts) if word in months_keywords)
        try:
            months = int(parts[month_index - 1])  # Число перед словом "месяц"/"месяца"/"месяцев"
        except ValueError:
            months = 0  # Если перед словом нет числа, ставим 0
    
    # Переводим опыт в месяцы
    total_months = years * 12 + months
    return total_months

# Применяем функцию к столбцу "Опыт работы"
data['Опыт работы'] = data['Опыт работы'].apply(extract_work_experience)

# Проверяем результат
print(data[['Опыт работы']].head())


   Опыт работы
0        202.0
1        233.0
2        123.0
3        225.0
4         67.0


In [154]:
median_experience = data['Опыт работы'].median()
print(f"Медианный опыт работы: {median_experience} месяцев")



Медианный опыт работы: 100.0 месяцев


In [155]:
# Функция для извлечения города
def extract_city(obj_str):
    million_cities = ['Новосибирск', 'Екатеринбург','Нижний Новгород','Казань', 'Челябинск','Омск', 'Самара', 'Ростов-на-Дону', 'Уфа', 'Красноярск', 'Пермь', 'Воронеж','Волгоград']
    city = str(obj_str).split(',')[0].strip()
    if city == 'Москва' or city == 'Санкт-Петербург':
        return city
    elif city in million_cities:
        return 'город-миллионник'
    else:
        return 'другие'

# Функция для извлечения готовности к переезду
def extract_reloc_status(obj_str):
    reloc_str_spl = str(obj_str).split(',')
    for i, val in enumerate(reloc_str_spl[1:]):
        if 'перее' in val:
            reloc_str = val
    
            if 'не ' in reloc_str:
                return False
    return True  # Если нет информации, считаем, что готовы

# Функция для извлечения готовности к командировкам
def extract_trip_status(obj_str):
    trip_str_spl = str(obj_str).split(',')
    trip_str = None
    for i, val in enumerate(trip_str_spl[1:]):
        if 'командир' in val:
            trip_str = val
    
    if trip_str is None:
        return False  # Если нет информации, считаем, что не готовы
    elif 'не ' in trip_str:
        return False
    else:
        return True

# Применяем функции к столбцу "Город, переезд, командировки"
data['Готовность к переезду'] = data['Город, переезд, командировки'].apply(extract_reloc_status)
data['Город'] = data['Город, переезд, командировки'].apply(extract_city)
data['Готовность к командировкам'] = data['Город, переезд, командировки'].apply(extract_trip_status)

# Рассчитываем процент соискателей из Санкт-Петербурга
spb_proc = data[data['Город'] == 'Санкт-Петербург']['Город'].count() / data.shape[0] * 100
print(f'{round(spb_proc, 0)}% соискателей из Питера')

# Рассчитываем процент соискателей, готовых одновременно и к переезду, и к командировкам
rel_trip_proc = data[data['Готовность к переезду'] & data['Готовность к командировкам']].shape[0] / data.shape[0] * 100
print(f'{round(rel_trip_proc, 0)}% соискателей готовы и к переездам, и к командировкам')

# Удаляем столбец "Город, переезд, командировки"
data.drop('Город, переезд, командировки', axis=1, inplace=True)

# Проверка результатов
print(data[['Город', 'Готовность к переезду', 'Готовность к командировкам']].head())


11.0% соискателей из Питера
32.0% соискателей готовы и к переездам, и к командировкам
    Город  Готовность к переезду  Готовность к командировкам
0  другие                  False                       False
1  другие                  False                        True
2  другие                  False                       False
3  другие                  False                        True
4  Москва                  False                        True


In [156]:
# Задаем категории для One Hot Encoding
employment_categories = ['полная занятость', 'частичная занятость', 'проектная работа', 'волонтерство', 'стажировка']
schedule_categories = ['полный день', 'сменный график', 'гибкий график', 'удалённая работа', 'вахтовый метод']

# Функция для создания признаков для занятости
def apply_employment_categories(text):
    return {category: (category in text) for category in employment_categories}

# Функция для создания признаков для графика
def apply_schedule_categories(text):
    return {category: (category in text) for category in schedule_categories}

# Применяем функцию для "Занятость" и "График"
employment_df = data['Занятость'].apply(lambda x: pd.Series(apply_employment_categories(x)))
schedule_df = data['График'].apply(lambda x: pd.Series(apply_schedule_categories(x)))

# Объединяем данные с оригинальной таблицей
data = pd.concat([data, employment_df, schedule_df], axis=1)

# Удаляем старые столбцы "Занятость" и "График"
data.drop(columns=['Занятость', 'График'], inplace=True)

# Проверяем результат
print(data.head())



            ЗП                          Ищет работу на должность:  \
0   29000 руб.                            Системный администратор   
1   40000 руб.                               Технический писатель   
2   20000 руб.                                           Оператор   
3  100000 руб.  Веб-разработчик (HTML / CSS / JS / PHP / базы ...   
4  140000 руб.                  Региональный менеджер по продажам   

   Опыт работы Последнее/нынешнее место работы  \
0        202.0         МАОУ "СОШ № 1 г.Немана"   
1        233.0    Временный трудовой коллектив   
2        123.0                    ПАО Сбербанк   
3        225.0                        OpenSoft   
4         67.0                        Мармелад   

                       Последняя/нынешняя должность Обновление резюме  \
0                           Системный администратор  16.04.2019 15:59   
1  Менеджер проекта, Аналитик, Технический писатель  12.04.2019 08:42   
2                               Кассир-операционист  16.04.2019 0

In [157]:
project_volunteer_count = data[(data['проектная работа'] == True) & (data['волонтерство'] == True)].shape[0]
print(f"Количество людей, ищущих проектную работу и волонтёрство: {project_volunteer_count}")


Количество людей, ищущих проектную работу и волонтёрство: 436


In [158]:
shift_vahov_count = data[(data['вахтовый метод'] == True) & (data['гибкий график'] == True)].shape[0]
print(f"Количество людей, готовых работать вахтовым методом и с гибким графиком: {shift_vahov_count}")


Количество людей, готовых работать вахтовым методом и с гибким графиком: 2311


Доделаю потом (ЗП)

Очистка