Для начала работы с датасетом, во-первых нужно установить библиотеки для более удобной работы, а во-вторых установить и импортировать сам датасет

# Импорт необходимых библиотек:

Первая библиотека - Pandas. Эта библиотека для работы с данными, которая предоставляет высокоуровневые структуры данных и инструменты для анализа данных в Python.

Вторая библиотека - Seaborn. Данная библиотека предназначена для визуализации данных, построенная на основе Matplotlib. Seaborn упрощает создание привлекательных и информативных графиков и включает множество встроенных тем и палитр.

Третья библиотека - Matplotlib. Matplotlib — это базовая библиотека для создания статических, анимированных и интерактивных визуализаций в Python. Она предоставляет низкоуровневый интерфейс для построения графиков и может использоваться для создания сложных визуализаций. 

In [41]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Загрузка датасета:
При помощи библиотеки pandas загружаем датасет в переменную для дальнейшей работы с ним

In [42]:
df = pd.read_csv('Dataset_salary_2024.csv')

# Работа с датасетом:

Функция df.head() выводит первые 5 строк датафрейма df. Это позволяет быстро увидеть, как выглядят данные и какие столбцы в них содержатся. Функция df.info() выводит информацию о датасете, включая количество непустых (ненулевых) значений в каждом столбце, типы данных каждого столбца, а также объем памяти, занимаемый датасетом. Функция df.describe() выводит статистическое описание числовых данных в датасете. Она показывает такие показатели, как среднее значение (mean), стандартное отклонение (std), минимальное (min) и максимальное (max) значения, а также значения квартилей (25%, 50%, 75%). Функция df.isnull().sum() считает количество пропущенных значений (NaN) в каждом столбце и выводит их.

In [43]:
print("Первые 5 строк датасета: ")
print(df.head())
print("Информация датасета: ")
print(df.info())
print("Статистическое описание: ")
print(df.describe())
print("Проверка датасета на наличие пропущенных значений: ")
print(df.isnull().sum())

Первые 5 строк датасета: 
   work_year experience_level employment_type                  job_title  \
0       2024               SE              FT                AI Engineer   
1       2024               SE              FT                AI Engineer   
2       2024               SE              FT              Data Engineer   
3       2024               SE              FT              Data Engineer   
4       2024               SE              FT  Machine Learning Engineer   

   salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
0  202730             USD         202730                 US             0   
1   92118             USD          92118                 US             0   
2  130500             USD         130500                 US             0   
3   96000             USD          96000                 US             0   
4  190000             USD         190000                 US             0   

  company_location company_size  
0               US  

Удаление столбцов в датасете. 
Команда df.drop(columns=['work_year'], inplace=True) удаляет столбец work_year из датафрейма df.

In [44]:
df.drop(columns=['work_year'], inplace=True)
print(df.head())

  experience_level employment_type                  job_title  salary  \
0               SE              FT                AI Engineer  202730   
1               SE              FT                AI Engineer   92118   
2               SE              FT              Data Engineer  130500   
3               SE              FT              Data Engineer   96000   
4               SE              FT  Machine Learning Engineer  190000   

  salary_currency  salary_in_usd employee_residence  remote_ratio  \
0             USD         202730                 US             0   
1             USD          92118                 US             0   
2             USD         130500                 US             0   
3             USD          96000                 US             0   
4             USD         190000                 US             0   

  company_location company_size  
0               US            M  
1               US            M  
2               US            M  
3         

Команда df.drop_duplicates(inplace=True) позволяет удалить дубликаты из датафрейма на месте, то есть без создания нового объекта датафрейма.

In [45]:
df.drop_duplicates(inplace=True)

Данная команда сортирует значения столбца salary_in_usd по убыванию.

In [46]:
df.sort_values(by='salary_in_usd', inplace=True)
print(df.head())

      experience_level employment_type                        job_title  \
15639               EN              FT       Machine Learning Developer   
10800               MI              FT  Business Intelligence Developer   
13011               EX              FT               Staff Data Analyst   
15936               EN              FT                     Data Analyst   
11061               MI              FT                     Data Analyst   

       salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
15639   15000             USD          15000                 TH           100   
10800   15000             USD          15000                 GH           100   
13011   15000             USD          15000                 NG             0   
15936   15000             USD          15000                 ID             0   
11061  866000             PHP          15680                 PH            50   

      company_location company_size  
15639               TH  

Теперь можно из датасета выбрать целевую переменную, то есть столбец, который будет использоваться для анализа данных. Я выбрал данную переменную, так как она имеет несколько повторяющихся значений, которые будет удобно сортировать и выводить различными способами.

In [47]:
target_column = 'employment_type'
print("Целевая переменная выбрана")

Целевая переменная выбрана


Для сохранения датасета в файл можно использовать метод "to_csv()". Достаточно выбрать новое название датасета и он сохранится в директоии проекта в формате csv

In [48]:
processed_dataset = "processed_data_eng_salary_2024.csv"
df.to_csv(processed_dataset, index=False)
print("Датасет сохранён")

Датасет сохранён
