In [4]:
import pandas as pd

# загружаем данные
df = pd.read_csv('../datasets/kaggle_survey_2022_responses.csv', low_memory=False)

# выбираем только строки опрашиваемых с указанными курсами
course_cols = [f'Q6_{i}' for i in range(1, 13)]
course_data = df.loc[df[course_cols].notna().any(axis=1), course_cols]

# подсчитываем количество упоминаний каждого курса
course_counts = course_data.melt().value_counts()

# выводим топ-3 курсов
print(course_counts.head(3))

variable  value                                                
Q6_1      Coursera                                                 9699
Q6_10     University Courses (resulting in a university degree)    6780
Q6_3      Kaggle Learn Courses                                     6628
dtype: int64


In [7]:
import pandas as pd

# загружаем данные
df = pd.read_csv('../datasets/kaggle_survey_2022_responses.csv', low_memory=False)

# выбираем только строки опрашиваемых с указанными языками программирования
lang_cols = [f'Q12_{i}' for i in range(1, 16)]
lang_data = df.loc[df[lang_cols].notna().any(axis=1), lang_cols]

# подсчитываем количество упоминаний каждого языка
lang_counts = lang_data.melt().value_counts()

# выводим топ-5 языков программирования
print(lang_counts.head(5))

variable  value 
Q12_1     Python    18653
Q12_3     SQL        9620
Q12_2     R          4571
Q12_6     C++        4549
Q12_7     Java       3862
dtype: int64


In [10]:
import pandas as pd

# загрузка данных из CSV-файла
df = pd.read_csv('../datasets/kaggle_survey_2022_responses.csv', low_memory=False)

# выбираем только строки опрашиваемых с указанными языками программирования
lang_cols = [f'Q12_{i}' for i in range(1, 16)]
lang_data = df.loc[df[lang_cols].notna().any(axis=1), lang_cols]

# подсчитываем количество упоминаний каждого языка
lang_counts = lang_data.melt().value_counts()

# преобразуем объект Series в датафрейм
lang_df = pd.DataFrame({'Язык программирования': lang_counts.index.get_level_values(1), 'Количество упоминаний': lang_counts})

# отсортировать таблицу по количеству упоминаний языков
lang_df = lang_df.sort_values(by='Количество упоминаний', ascending=False)

# выводим только топ-5 языков программирования
top_lang_df = lang_df.head(5)
top_lang_df.index = range(1, 6)
print(top_lang_df.to_string(index=True))

  Язык программирования  Количество упоминаний
1                Python                  18653
2                   SQL                   9620
3                     R                   4571
4                   C++                   4549
5                  Java                   3862


In [5]:
import pandas as pd
# загрузка данных из файла
data = pd.read_csv('../datasets/kaggle_survey_2022_responses.csv', low_memory=False)

# выборка только столбцов с ответами на вопрос Q6 (образовательные курсы)
q6_columns = [col for col in data.columns if col.startswith('Q6')]

# создание словаря для подсчета количества упоминаний каждого курса
courses = {}
for response in q6_columns:
    if isinstance(response, str):
        courses_list = response.split(', ')
        for course in courses_list:
            course = course.strip()
            courses[course] = courses.get(course, 0) + 1

# сортировка курсов по убыванию количества упоминаний и вывод топ-3
top_courses = sorted(courses.items(), key=lambda x: x[1], reverse=True)[:3]
for i, (course, count) in enumerate(top_courses):
    print(f'{i+1}. {course}: {count} упоминаний')

1. Q6_1: 1 упоминаний
2. Q6_2: 1 упоминаний
3. Q6_3: 1 упоминаний


In [11]:
import pandas as pd
import math

# загрузка данных из CSV-файла
df = pd.read_csv('../datasets/kaggle_survey_2022_responses.csv', low_memory=False)

# установим показатель отображения всех столбцов
pd.set_option('display.max_columns', None)

# выберем только строки, в которых пользователи указали свою должность
ds_data = df.loc[df['Q23'] == 'Data Scientist']

# выберем только строки, в которых пользователи указали специальность 'Machine Learning/ MLops Engineer'
mlops_data = df.loc[df['Q23'] == 'Machine Learning/ MLops Engineer']

# функция для вычисления среднего значения из диапазона
def average_range(range_str):
    if range_str == '$100,000 or more ($USD)':
        return 1000000
    else:
        range_str = range_str.replace(',', '').replace('$', '').replace('<', '').replace('>', '').replace('+', '')
        range_list = range_str.split('-')
        lower = int(range_list[0].strip())
        upper = int(range_list[1].strip()) if len(range_list) > 1 else lower
        return (lower + upper) / 2

# вычисление среднего дохода Data Scientists
ds_salary = math.ceil(ds_data['Q29'].dropna().apply(average_range).mean())

# вычисление среднего дохода Machine Learning/MLops Engineers
mlops_salary = math.ceil(mlops_data['Q29'].dropna().apply(average_range).mean())

# вывод результатов
print(f'Средний доход Data Scientist: ${ds_salary}')
print(f'Средний доход Machine Learning/MLops Engineer: ${mlops_salary}')

Средний доход Data Scientist: $70337
Средний доход Machine Learning/MLops Engineer: $67438
