<h2>Оценка качества данных</h2>
<h4>Задачи:</h4>
<p>Общая оценка датасета</p>
<p>Так как api hh.ru отбирает вакансии не по названию, а по вхождению запроса в описание вакансии, необходимо отсортировать датасэт для дальнейшей аналитике именно по вакансиям 'Аналитик данных', так как у нас получился более широкий датасэт</p>
<p>Проверьте наличие пропущенных значений.</p>
<p>Оцените типы данных в столбцах и их соответствие содержимому.</p>
<p>Поиск дубликатов.</p>
<p>Анализ уникальности значений в ключевых столбцах.</p>

In [1]:
import pandas as pd
# Загрузите данные из файла Excel
df = pd.read_excel('../data/raw/vacancies.xlsx')

In [2]:
# Просмотр информации о DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6000 entries, 0 to 5999
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      6000 non-null   int64  
 1   name                    6000 non-null   object 
 2   area                    6000 non-null   object 
 3   salary                  1910 non-null   float64
 4   valuta                  1910 non-null   object 
 5   alternate_url           6000 non-null   object 
 6   employer_name           6000 non-null   object 
 7   snippet_requirement     5978 non-null   object 
 8   snippet_responsibility  5980 non-null   object 
 9   schedule                6000 non-null   object 
 10  working_time_intervals  56 non-null     object 
 11  professional_roles      6000 non-null   object 
 12  experience              6000 non-null   object 
 13  employment              6000 non-null   object 
 14  published_at            6000 non-null   

In [3]:
df.head()

Unnamed: 0,id,name,area,salary,valuta,alternate_url,employer_name,snippet_requirement,snippet_responsibility,schedule,working_time_intervals,professional_roles,experience,employment,published_at
0,103492205,Заместитель генерального директора по продажам,Москва,,,https://hh.ru/vacancy/103492205,PeptidPro,Хороший уровень понимания тонкостей составлени...,Обеспечение роста выручки и операционной прибы...,Полный день,,Коммерческий директор (CCO),От 3 до 6 лет,Полная занятость,2024-07-08T11:53:25+0300
1,102940512,Менеджер проектов / Project manager МТС,Москва,100000.0,RUR,https://hh.ru/vacancy/102940512,Changellenge,...процессы и работать с большим объемом <high...,Погрузиться в специфику создания и улучшения в...,Полный день,,Другое,От 1 года до 3 лет,Полная занятость,2024-06-28T17:30:36+0300
2,102927044,Продуктовый аналитик,Москва,80000.0,RUR,https://hh.ru/vacancy/102927044,Changellenge,Понимание SQL и его диалектов. Опыт работы с E...,Участвовать в развитии продукта. Анализировать...,Полный день,,Продуктовый аналитик,Нет опыта,Полная занятость,2024-06-28T14:26:16+0300
3,103321160,Главный Бухгалтер с функциями Финансового Дире...,Москва,340000.0,RUR,https://hh.ru/vacancy/103321160,Cfoclub (ИП Валуев Кирилл Владимирович),Опыт настройки управленческого учета. Глубокие...,"Организация финансового, налогового и управлен...",Полный день,,Финансовый директор (CFO),Более 6 лет,Полная занятость,2024-07-04T22:11:45+0300
4,101662103,Аналитик данных / DS (SolarCloud),Москва,,,https://hh.ru/vacancy/101662103,Солар,Уверенное знание Python. Самостоятельность и ж...,Подготовка исследований и поиск наилучших подх...,Удаленная работа,,Дата-сайентист,От 1 года до 3 лет,Полная занятость,2024-06-10T17:32:53+0300


In [4]:
# Сортируем вакансии по названию
sorted_df = df.sort_values('name', ascending=True)

In [5]:
# Фильтруйем только те строки, где в названии вакансий встречается "аналитик данных"
#Выбор зависит от регистра букв, поэтому приводим и строки, и фильтрующее значение к нижнему регистру
df = sorted_df[sorted_df['name'].str.lower().str.contains('аналитик данных')]


In [6]:
# Проверка на наличие дубликатов
duplicate = df.duplicated().sum()
print("Дубликаты:", df.duplicated().sum())
if duplicate:
    # Нахождение дубликатов (отмечаем все вхождения дубликатов)
    duplicates_mask = df.duplicated(keep=False)
    # Вывод дубликатов
    duplicates = df[duplicates_mask]
    print(duplicates)
    # Удаление дубликатов из DataFrame
    df = df.drop_duplicates()
    # Сброс индекса после удаления
    df = df.reset_index(drop=True)
    # Повторная проверка на наличие дубликатов
    print("Дубликаты после удаления:", df.duplicated().sum())

Дубликаты: 0


In [7]:
# Проверка на наличие пропущенных значений в каждом столбце
missing_values_count = df.isnull().sum()
# Вывод количества пропущенных значений по каждому столбцу
print("Количество пропущенных значений по столбцам:")
print(missing_values_count)

Количество пропущенных значений по столбцам:
id                          0
name                        0
area                        0
salary                    120
valuta                    120
alternate_url               0
employer_name               0
snippet_requirement         1
snippet_responsibility      1
schedule                    0
working_time_intervals    161
professional_roles          0
experience                  0
employment                  0
published_at                0
dtype: int64


In [8]:
# Проверяем, есть ли в столбце 'valuta' значения 'USD'
if 'USD' in df['valuta'].unique():
    # Находим индекс строки с зарплатой в долларах
    usd_index = df[df['valuta'] == 'USD'].index
    # Курс доллара к рублю
    exchange_rate = 85
    # Конвертируем зарплату из долларов в рубли
    df.loc[usd_index, 'salary'] = df.loc[usd_index, 'salary'] * exchange_rate
    # Обновляем валюту в рубли
    df.loc[usd_index, 'valuta'] = 'RUR'


print("\nРаспределение данных в категориальном столбце 'valuta':")
print(df['valuta'].value_counts())


Распределение данных в категориальном столбце 'valuta':
valuta
RUR    41
Name: count, dtype: int64


In [9]:
# Сохраняем отфильтрованные и отсортированные данные в новый Excel файл:
df.to_excel('../data/processed/analiz.xlsx', index=False)