**Analysis of Stackoverflow Survey for 2024.**

---



In [4]:
import pandas as pd


survey_file = "survey_results_public.csv"
schema_file = "survey_results_schema.csv"
data_df = pd.read_csv(survey_file)
schema_df = pd.read_csv(schema_file)

1. Скільки респондентів пройшли опитування?

In [None]:
print("Кількість респондентів пройшли опитування:", data_df.shape[0])

Кількість респондентів пройшли опитування: 65437


2. Скільки респондентів відповіли на всі запитання?

In [None]:
# Отримуємо список питань із колонки "qname"
question_columns = set(schema_df["qname"].dropna())

# Перетинаємо зі стовпцями таблиці опитування (залишаємо тільки ті, що є у питанні)
valid_columns = list(question_columns.intersection(data_df.columns))

# Фільтруємо таблицю лише за цими стовпцями
filtered_data = data_df[valid_columns]

# Рахуємо кількість респондентів, які відповіли на всі ці питання
full_responses = filtered_data.dropna().shape[0]
print("Кількість респондентів, які відповіли на всі запитання:", full_responses)

Кількість респондентів, які відповіли на всі запитання: 6306


3. Які значення мір центральної тенденції для досвіду (WorkExp) респондентів?

In [None]:
# Переконаємось, що WorkExp є числовим типом
data_df['WorkExp'] = pd.to_numeric(data_df['WorkExp'], errors='coerce')

# Обчислюємо міри центральної тенденції
mean_value = round(data_df['WorkExp'].mean(), 2) # Середнє значення
median_value = data_df['WorkExp'].median()  # Медіана
mode_value = data_df['WorkExp'].mode()   # Мода (може бути кілька значень)

print(f"Середнє значення (Mean): {mean_value}")
print(f"Медіана (Median): {median_value}")
print(f"Мода (Mode): {mode_value.tolist()}")

Середнє значення (Mean): 11.47
Медіана (Median): 9.0
Мода (Mode): [3.0]


4. Скільки респондентів працює віддалено?

In [None]:
# Фільтруємо респондентів, які працюють віддалено (зі значенням "Remote")
remote_workers_ = data_df[data_df['RemoteWork'].notna()]
remote_workers = data_df[data_df['RemoteWork'] == 'Remote']

# Кількість респондентів, які працюють віддалено
remote_count = remote_workers.shape[0]
print(f"Кількість респондентів, які працюють віддалено: {remote_count}")

Кількість респондентів, які працюють віддалено: 20831


5. Який відсоток респондентів програмує на Python?

In [None]:
# # Перевіримо як називається стовпець з мовами
# print(list(data_df.columns))

# Стовпець з мовами називається 'LanguageHaveWorkedWith'
# Перевіряємо, чи містить кожен рядок 'Python'
python_users = data_df['LanguageHaveWorkedWith'].dropna().str.contains('Python', na=False)

# Обчислюємо відсоток
percentage_python = round((python_users.sum() / len(data_df)) * 100, 2)
print(f"Відсоток респондентів, які програмують на Python: {percentage_python}%")

Відсоток респондентів, які програмують на Python: 47.06%


6. Скільки респондентів навчалося програмувати за допомогою онлайн курсів?


In [None]:
data_df['learned_with_online_courses'] = data_df.LearnCode.str.contains('online courses', case=False, na=False)
online_count = data_df.learned_with_online_courses.sum()
print("Кількість респондентів навчалося програмувати за допомогою онлайн курсів -", online_count)

Кількість респондентів навчалося програмувати за допомогою онлайн курсів - 30271


7. Серед респондентів що програмують на Python в групуванні по країнам, яка середня та медіанна сума компенсації (ConvertedCompYearly) в кожній країні?

In [None]:
# Фільтруємо респондентів, які вказали, що програмують на Python
python_devs = data_df[data_df['LanguageHaveWorkedWith'].notna() & data_df['LanguageHaveWorkedWith'].str.contains('Python', na=False)]

# Групуємо за країнами та обчислюємо середнє та медіану зарплати
compensation_stats = python_devs.groupby('Country')['ConvertedCompYearly'].agg(['mean', 'median']).round(1)

# # Встановлюємо максимальну кількість рядків для виведення
# pd.set_option('display.max_rows', None)  # Показуємо всі рядки

# Виводимо результат
print(compensation_stats)


                                                        mean    median
Country                                                               
Afghanistan                                           4543.0    4768.5
Albania                                              56295.0   56295.0
Algeria                                               9053.3    6230.0
Andorra                                             193331.0  193331.0
Angola                                                   6.0       6.0
Argentina                                            40806.9   24000.0
Armenia                                              17329.7    6450.0
Australia                                           101653.4   85886.0
Austria                                              63766.0   61361.0
Azerbaijan                                           39478.8   29444.0
...                                                      ...       ...
United Kingdom of Great Britain and Northern Ir...  104081.5   84713.0
United

8. Які рівні освіти мають 5 респондентів з найбільшою компенсацією?

In [None]:
data_df[['ResponseId', 'EdLevel', 'ConvertedCompYearly']].sort_values(by='ConvertedCompYearly', ascending=False).reset_index(drop=True).head(5)

Unnamed: 0,ResponseId,EdLevel,ConvertedCompYearly
0,15838,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",16256603.0
1,12724,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",13818022.0
2,28380,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",9000000.0
3,17594,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",6340564.0
4,17673,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",4936778.0


Бонусні запитання:
1. В кожній віковій категорії, який відсоток респондентів програмує на Python?

In [None]:
# Глянемо, які відповіді зазначені у стовпцю 'Age'.
unique_responses_ = data_df['Age'].unique()
print("Унікальні відповіді:", unique_responses_)

Унікальні відповіді: ['Under 18 years old' '35-44 years old' '45-54 years old'
 '18-24 years old' '25-34 years old' '55-64 years old' 'Prefer not to say'
 '65 years or older']


In [None]:
# Унікальні вікові категорії
age_categories = ['Prefer not to say', 'Under 18 years old', '18-24 years old', '25-34 years old',
                  '35-44 years old', '45-54 years old', '55-64 years old', '65 years or older']

# Перевірка чи респонденти програмують на Python
python_devs = data_df[data_df['LanguageHaveWorkedWith'].str.contains('Python', na=False)]

# Створення порожнього словника для результатів
age_python_percent = {}

# Для кожної вікової категорії
for category in age_categories:
    # Відбираємо респондентів з цієї вікової категорії
    age_group = data_df[data_df['Age'] == category]

    # Респонденти в Python
    python_in_group = python_devs[python_devs['Age'] == category]

    # Обчислюємо відсоток
    percent = (len(python_in_group) / len(age_group)) * 100 if len(age_group) > 0 else 0
    age_python_percent[category] = percent

# Виводимо відсотки для кожної вікової категорії
for category, percent in age_python_percent.items():
    print(f"Вікова категорія: {category} - Відсоток програмістів на Python: {percent:.2f}%")

Вікова категорія: Prefer not to say - Відсоток програмістів на Python: 45.34%
Вікова категорія: Under 18 years old - Відсоток програмістів на Python: 64.88%
Вікова категорія: 18-24 years old - Відсоток програмістів на Python: 55.92%
Вікова категорія: 25-34 years old - Відсоток програмістів на Python: 45.77%
Вікова категорія: 35-44 years old - Відсоток програмістів на Python: 41.52%
Вікова категорія: 45-54 years old - Відсоток програмістів на Python: 41.91%
Вікова категорія: 55-64 years old - Відсоток програмістів на Python: 40.43%
Вікова категорія: 65 years or older - Відсоток програмістів на Python: 37.56%


2. Серед респондентів що знаходяться в 75 перцентилі за компенсацією середнього і працюють віддалено, які індустрії є найрозповсюдженішими?

In [None]:
# Перевіримо як називаються потрібні колонки до цього запитання.
print(list(data_df.columns))

['ResponseId', 'MainBranch', 'Age', 'Employment', 'RemoteWork', 'Check', 'CodingActivities', 'EdLevel', 'LearnCode', 'LearnCodeOnline', 'TechDoc', 'YearsCode', 'YearsCodePro', 'DevType', 'OrgSize', 'PurchaseInfluence', 'BuyNewTool', 'BuildvsBuy', 'TechEndorse', 'Country', 'Currency', 'CompTotal', 'LanguageHaveWorkedWith', 'LanguageWantToWorkWith', 'LanguageAdmired', 'DatabaseHaveWorkedWith', 'DatabaseWantToWorkWith', 'DatabaseAdmired', 'PlatformHaveWorkedWith', 'PlatformWantToWorkWith', 'PlatformAdmired', 'WebframeHaveWorkedWith', 'WebframeWantToWorkWith', 'WebframeAdmired', 'EmbeddedHaveWorkedWith', 'EmbeddedWantToWorkWith', 'EmbeddedAdmired', 'MiscTechHaveWorkedWith', 'MiscTechWantToWorkWith', 'MiscTechAdmired', 'ToolsTechHaveWorkedWith', 'ToolsTechWantToWorkWith', 'ToolsTechAdmired', 'NEWCollabToolsHaveWorkedWith', 'NEWCollabToolsWantToWorkWith', 'NEWCollabToolsAdmired', 'OpSysPersonal use', 'OpSysProfessional use', 'OfficeStackAsyncHaveWorkedWith', 'OfficeStackAsyncWantToWorkWith',

In [None]:
# Перевіримо наявних значень у стовпці RemoteWork
print(data_df['RemoteWork'].unique())

['Remote' nan 'In-person' 'Hybrid (some remote, some in-person)']


In [6]:
print(data_df[(data_df.ConvertedCompYearly > data_df.ConvertedCompYearly.quantile(0.75)) & \
              (data_df.RemoteWork == 'Remote')].Industry.value_counts().reset_index())

                                      Industry  count
0                         Software Development    768
1                                       Other:    239
2                                   Healthcare    156
3                                      Fintech    156
4   Internet, Telecomm or Information Services    145
5                 Retail and Consumer Services    106
6                 Media & Advertising Services    103
7         Computer Systems Design and Services     69
8                   Banking/Financial Services     69
9                                   Government     69
10             Transportation, or Supply Chain     67
11                                   Insurance     50
12                               Manufacturing     48
13                            Higher Education     42
14                                      Energy     36
