# Stack Overflow Developer Survey 2025  
## Аналіз результатів опитування розробників

Цей ноутбук містить аналіз результатів щорічного опитування Stack Overflow Developer Survey 2025.
Мета проєкту — застосувати інструменти Pandas для дослідження професійного профілю розробників,
їх досвіду, формату роботи, технологій та компенсації.


## Завантаження та підготовка даних


In [1]:
# Імпорт необхідних бібліотек:
# zipfile — для роботи з архівом з даними опитування
# pandas — основна бібліотека для аналізу та обробки даних

import zipfile
import pandas as pd

# Шлях до ZIP-архіву з результатами Stack Overflow Developer Survey 2025
zip_path = r"C:\Users\user\Downloads\stack-overflow-developer-survey-2025.zip"

# Відкриваємо архів, перевіряємо його вміст
# та розпаковуємо файли у папку 'survey_data'

with zipfile.ZipFile(zip_path, "r") as z:
    print("Files in zip:", z.namelist())
    z.extractall("survey_data")

# Завантажуємо основний датасет з відповідями респондентів
df = pd.read_csv("survey_data/survey_results_public.csv")

# Переглядаємо перші 5 рядки для розуміння структури даних
df.head(5)




Files in zip: ['2025_Developer_Survey_Tool.pdf', 'survey_results_public.csv', 'survey_results_schema.csv']


  df = pd.read_csv("survey_data/survey_results_public.csv")


Unnamed: 0,ResponseId,MainBranch,Age,EdLevel,Employment,EmploymentAddl,WorkExp,LearnCodeChoose,LearnCode,LearnCodeAI,...,AIAgentOrchestration,AIAgentOrchWrite,AIAgentObserveSecure,AIAgentObsWrite,AIAgentExternal,AIAgentExtWrite,AIHuman,AIOpen,ConvertedCompYearly,JobSat
0,1,I am a developer by profession,25-34 years old,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)",Employed,"Caring for dependents (children, elderly, etc.)",8.0,"Yes, I am not new to coding but am learning ne...",Online Courses or Certification (includes all ...,"Yes, I learned how to use AI-enabled tools for...",...,Vertex AI,,,,ChatGPT,,When I don’t trust AI’s answers,"Troubleshooting, profiling, debugging",61256.0,10.0
1,2,I am a developer by profession,25-34 years old,"Associate degree (A.A., A.S., etc.)",Employed,,2.0,"Yes, I am not new to coding but am learning ne...",Online Courses or Certification (includes all ...,"Yes, I learned how to use AI-enabled tools for...",...,,,,,,,When I don’t trust AI’s answers;When I want to...,All skills. AI is a flop.,104413.0,9.0
2,3,I am a developer by profession,35-44 years old,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)","Independent contractor, freelancer, or self-em...",None of the above,10.0,"Yes, I am not new to coding but am learning ne...",Online Courses or Certification (includes all ...,"Yes, I learned how to use AI-enabled tools for...",...,,,,,ChatGPT;Claude Code;GitHub Copilot;Google Gemini,,When I don’t trust AI’s answers;When I want to...,"Understand how things actually work, problem s...",53061.0,8.0
3,4,I am a developer by profession,35-44 years old,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",Employed,None of the above,4.0,"Yes, I am not new to coding but am learning ne...","Other online resources (e.g. standard search, ...","Yes, I learned how to use AI-enabled tools for...",...,,,,,ChatGPT;Claude Code,,When I don’t trust AI’s answers;When I want to...,,36197.0,6.0
4,5,I am a developer by profession,35-44 years old,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)","Independent contractor, freelancer, or self-em...","Caring for dependents (children, elderly, etc.)",21.0,"No, I am not new to coding and did not learn n...",,"Yes, I learned how to use AI-enabled tools for...",...,,,,,,,When I don’t trust AI’s answers,"critical thinking, the skill to define the tas...",60000.0,7.0


In [2]:
list(df.columns)

['ResponseId',
 'MainBranch',
 'Age',
 'EdLevel',
 'Employment',
 'EmploymentAddl',
 'WorkExp',
 'LearnCodeChoose',
 'LearnCode',
 'LearnCodeAI',
 'AILearnHow',
 'YearsCode',
 'DevType',
 'OrgSize',
 'ICorPM',
 'RemoteWork',
 'PurchaseInfluence',
 'TechEndorseIntro',
 'TechEndorse_1',
 'TechEndorse_2',
 'TechEndorse_3',
 'TechEndorse_4',
 'TechEndorse_5',
 'TechEndorse_6',
 'TechEndorse_7',
 'TechEndorse_8',
 'TechEndorse_9',
 'TechEndorse_13',
 'TechEndorse_13_TEXT',
 'TechOppose_1',
 'TechOppose_2',
 'TechOppose_3',
 'TechOppose_5',
 'TechOppose_7',
 'TechOppose_9',
 'TechOppose_11',
 'TechOppose_13',
 'TechOppose_16',
 'TechOppose_15',
 'TechOppose_15_TEXT',
 'Industry',
 'JobSatPoints_1',
 'JobSatPoints_2',
 'JobSatPoints_3',
 'JobSatPoints_4',
 'JobSatPoints_5',
 'JobSatPoints_6',
 'JobSatPoints_7',
 'JobSatPoints_8',
 'JobSatPoints_9',
 'JobSatPoints_10',
 'JobSatPoints_11',
 'JobSatPoints_13',
 'JobSatPoints_14',
 'JobSatPoints_15',
 'JobSatPoints_16',
 'JobSatPoints_15_TEXT',
 

In [3]:
# Завантажуємо файл зі схемою датасету (опис колонок)
schema = pd.read_csv("survey_data/survey_results_schema.csv")
schema.columns


Index(['qid', 'qname', 'question', 'type', 'sub', 'sq_id'], dtype='object')

## 1. Підрахунок загальної кількості респондентів


In [4]:
# У даному завданні визначаємо загальну кількість респондентів,
# які взяли участь в опитуванні Stack Overflow Developer Survey 2025.
# Оскільки кожен рядок датасету відповідає одному респонденту,
# кількість респондентів дорівнює кількості рядків у DataFrame.

df.shape[0]


49191

## 2. Аналіз повноти відповідей респондентів


In [5]:
# Отримуємо список імен питань (назв колонок), які описані у файлі schema
schema_qnames = schema["qname"].dropna().unique()
len(schema_qnames)


139

In [6]:
# Беремо лише ті питання зі schema, які реально присутні серед колонок основного датасету df
common_cols = sorted(set(schema_qnames).intersection(df.columns))

# Перевіримо, скільки таких колонок знайшлося
len(common_cols)


126

In [7]:
# Перевіряємо для кожного респондента, чи заповнені ВСІ ці колонки (немає NaN)
complete_mask = df[common_cols].notna().all(axis=1)

# Кількість респондентів, які відповіли на всі питання (без пропусків)
complete_count = complete_mask.sum()
complete_count


np.int64(0)

In [8]:
# Додатково: який відсоток респондентів заповнив все?
complete_pct = complete_count / len(df) * 100
complete_pct


np.float64(0.0)

# Примітка:
# Отриманий результат показує, що жоден респондент не надав відповіді на всі питання опитування без пропусків.
# е є очікуваним для Stack Overflow Developer Survey, оскільки опитування містить велику кількість
# необовʼязкових та умовних запитань, які відображаються не для всіх учасників.


## 3. Статистичний аналіз досвіду респондентів (WorkExp)


In [9]:
# Аналізуємо досвід роботи респондентів у роках (WorkExp).
# Перетворюємо значення в числовий тип, щоб коректно рахувати статистики.
# Помилкові/текстові значення (якщо є) перетворяться на NaN і не вплинуть на розрахунки.

workexp = pd.to_numeric(df["WorkExp"], errors="coerce")

# Розраховуємо міри центральної тенденції (NaN автоматично ігноруються)
workexp_mean = round(workexp.mean(),2)

workexp_median = round(workexp.median(),2)

workexp_mode = round(workexp.mode().iloc[0],2)  # беремо найпоширеніше значення

# Виводимо результат у зручному табличному форматі
pd.DataFrame({
    "metric": ["mean", "median", "mode"],
    "value": [workexp_mean, workexp_median, workexp_mode]
})


Unnamed: 0,metric,value
0,mean,13.37
1,median,10.0
2,mode,10.0


### Висновок

За результатами статистичного аналізу досвіду роботи респондентів (WorkExp) можна зробити такі висновки:
- середній досвід роботи становить близько --13.37 років--;
- медіанний досвід дорівнює --10 рокам--, що означає, що половина респондентів має досвід не більше 10 років;
- мода також дорівнює --10 рокам--, тобто це найпоширеніше значення досвіду серед опитаних.

Те, що середнє значення є вищим за медіану, свідчить про наявність респондентів з дуже великим досвідом роботи, які зміщують середнє значення вгору.


## 4. Аналіз віддаленої роботи (remote)

In [10]:
# Аналізуємо формат роботи респондентів.
# Колонка RemoteWork містить інформацію про те,
# чи працює респондент віддалено, гібридно або в офісі.

# Переглянемо унікальні значення, щоб переконатися у форматах відповідей
df["RemoteWork"].value_counts()


RemoteWork
Remote                                                                          10931
Hybrid (some remote, leans heavy to in-person)                                   6732
In-person                                                                        6042
Hybrid (some in-person, leans heavy to flexibility)                              5831
Your choice (very flexible, you can come in when you want or just as needed)     4244
Name: count, dtype: int64

In [11]:
# Визначаємо кількість респондентів, які працюють повністю віддалено.
# Для цього відфільтровуємо значення 'Remote' у колонці RemoteWork.

remote_count = df[df["RemoteWork"] == "Remote"].shape[0]

remote_count


10931

### Висновок

За результатами аналізу формату роботи респондентів встановлено, що 10 931 учасник опитування працює повністю віддалено. 
Це свідчить про значну поширеність віддаленого формату роботи серед розробників, 
які взяли участь в опитуванні Stack Overflow Developer Survey 2025.


## 5. Визначення популярності Python


In [12]:
# Мета: обчислити відсоток респондентів, які вказали Python серед мов програмування.
# Спочатку знаходимо правильну колонку з мовами, потім рахуємо частку респондентів з Python.

# 1) Перевіряємо, які колонки пов’язані з мовами програмування
language_cols = [col for col in df.columns if "Language" in col]
language_cols



['LanguageChoice',
 'LanguageHaveWorkedWith',
 'LanguageWantToWorkWith',
 'LanguageAdmired',
 'LanguagesHaveEntry',
 'LanguagesWantEntry']

In [13]:
# 2) Переконуємось через schema, що колонка LanguageHaveWorkedWith відповідає питанню про мови,
# з якими респондент працював (це допомагає не помилитися з вибором колонки).

schema.loc[schema["qname"] == "LanguageHaveWorkedWith", ["qname", "question"]]


Unnamed: 0,qname,question


In [14]:
# 3) Дивимось приклади значень у колонці, щоб побачити формат (зазвичай мови розділені ';')
df["LanguageHaveWorkedWith"].dropna().head(5)


0                     Bash/Shell (all shells);Dart;SQL
1                                                 Java
2                  Dart;HTML/CSS;JavaScript;TypeScript
3                                      Java;Kotlin;SQL
4    C;C#;C++;Delphi;HTML/CSS;Java;JavaScript;Lua;P...
Name: LanguageHaveWorkedWith, dtype: object

In [15]:
# 4) Створюємо булеву маску: True для респондентів, у яких серед мов є Python.
# Використовуємо str.contains, бо в полі може бути декілька мов.
# na=False означає, що пропуски не вважаються такими, що містять Python.

python_mask = df["LanguageHaveWorkedWith"].str.contains("Python", case=False, na=False)

# 5) Рахуємо кількість респондентів з Python та відсоток від усіх респондентів
python_count = python_mask.sum()
total_respondents = len(df)
python_percentage = round(python_count / total_respondents * 100, 2)

python_percentage


np.float64(37.54)

In [16]:
# (Опційно) Вивід у більш читабельному вигляді
print(f"Python використовують {python_count} респондентів із {total_respondents}, тобто {python_percentage}%.")


Python використовують 18466 респондентів із 49191, тобто 37.54%.


### Висновок

За результатами аналізу встановлено, що Python використовують 18 466 респондентів, 
що становить приблизно 37.54 відсотка від загальної кількості учасників опитування. 
Це свідчить про високу популярність Python серед розробників, які взяли участь в опитуванні Stack Overflow Developer Survey 2025.


### 6.Аналіз шляхів навчання

In [17]:
# Перевіряємо, чи присутня колонка LearnCode у схемі датасету
schema.loc[schema["qname"] == "LearnCode", ["qname", "question"]]


Unnamed: 0,qname,question
56,LearnCode,How did you learn to code in the past year? Se...


In [18]:
# Переглядаємо кілька прикладів значень у колонці LearnCode,
# щоб зрозуміти формат відповідей (чи може бути декілька варіантів в одному полі)
df["LearnCode"].dropna().head(5)


0    Online Courses or Certification (includes all ...
1    Online Courses or Certification (includes all ...
2    Online Courses or Certification (includes all ...
3    Other online resources (e.g. standard search, ...
5    Online Courses or Certification (includes all ...
Name: LearnCode, dtype: object

In [19]:
# Створюємо булеву маску для респондентів,
# які обрали "Online Courses or Certification"
# Використовуємо str.contains, оскільки можливі множинні відповіді.
# na=False — пропущені значення не враховуємо.
online_courses_mask = df["LearnCode"].str.contains("Online Courses or Certification", na=False)

# Підраховуємо кількість таких респондентів
online_courses_count = online_courses_mask.sum()

# Виводимо фінальний результат
online_courses_count


np.int64(10973)

## Висновок

За результатами аналізу встановлено, що 10 973 респонденти зазначили онлайн-курси або сертифікації як один зі способів навчання програмуванню. 
Це свідчить про те, що онлайн-курси є поширеним та важливим інструментом навчання серед учасників опитування Stack Overflow Developer Survey 2025. Отриманий результат підкреслює значну роль онлайн-освіти у формуванні навичок програмування.

## 7. Географічний аналіз компенсації Python-розробників

In [20]:
# Перевіряємо у schema, яка колонка відповідає за країну респондента
schema.loc[schema["qname"] == "Country",["qname", "question"]]


Unnamed: 0,qname,question
72,Country,Where do you live?


In [21]:
# Переглядаємо приклади значень у колонці Country
df["Country"].dropna().head()


0        Ukraine
1    Netherlands
2        Ukraine
3        Ukraine
4        Ukraine
Name: Country, dtype: object

In [22]:
# Перевіряємо у schema опис колонки з компенсацією
schema.loc[schema["qname"] == "ConvertedCompYearly",["qname", "question"]]


Unnamed: 0,qname,question


In [23]:
# Переглядаємо приклади значень річної компенсації
df["ConvertedCompYearly"].dropna().head()


0     61256.0
1    104413.0
2     53061.0
3     36197.0
4     60000.0
Name: ConvertedCompYearly, dtype: float64

In [54]:
# Відбираємо респондентів, які програмують на Python
# Використовуємо str.contains через можливість множинних значень
python_devs = df[df["LanguageHaveWorkedWith"].str.contains("Python", case=False, na=False)]

# Залишаємо лише необхідні колонки
python_devs = python_devs[["Country", "ConvertedCompYearly"]]

# Видаляємо рядки з пропущеними значеннями компенсації
python_devs = python_devs.dropna(subset=["ConvertedCompYearly"])

# Групуємо дані за країнами та обчислюємо
# середню та медіанну компенсацію
comp_by_country = (python_devs.groupby("Country")["ConvertedCompYearly"].agg(mean_compensation="mean",median_compensation="median").reset_index())
comp_by_country = comp_by_country.round(2)

# Виводимо підсумкову таблицю
comp_by_country


Unnamed: 0,Country,mean_compensation,median_compensation
0,Afghanistan,22328.67,1000.0
1,Albania,47217.60,50000.0
2,Algeria,20187.29,7088.0
3,Andorra,226103.50,226103.5
4,Antigua and Barbuda,1.00,1.0
...,...,...,...
148,"Venezuela, Bolivarian Republic of...",9908.65,3000.0
149,Viet Nam,218837.17,8254.0
150,Yemen,32929.50,23672.0
151,Zambia,5424.25,3206.0


Unnamed: 0_level_0,mean,median
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Oman,390135.0,390135.0
Andorra,226103.5,226103.5
United States of America,173298.590211,150000.0
Israel,135828.365385,142594.0
Switzerland,156456.6,142592.0
Nomadic,120131.571429,139218.0
Ireland,120523.918919,116015.0
Luxembourg,116014.714286,109054.0
Kyrgyzstan,106008.5,106008.5
Belize,102121.0,102121.0


### Висновок

У результаті аналізу було розглянуто респондентів, які програмують на Python,
та досліджено їхню річну компенсацію у розрізі країн.

Після фільтрації даних і видалення пропущених значень
було обчислено середнє та медіанне значення компенсації
для кожної країни.

Отримані результати дозволяють порівняти рівень компенсації
Python-розробників між різними країнами.


## 8. Аналіз освіти найбільш оплачуваних спеціалістів

In [25]:
# Перевіряємо, що означають колонки, які будемо використовувати
schema.loc[schema["qname"].isin(["ConvertedCompYearly", "EdLevel"]), ["qname", "question"]]


Unnamed: 0,qname,question
51,EdLevel,Which of the following best describes the high...


In [26]:
# Видаляємо рядки без компенсації (інакше не можна коректно знайти топ)
top_paid = df.dropna(subset=["ConvertedCompYearly"])

# Сортуємо за компенсацією у спадному порядку
top_paid = top_paid.sort_values("ConvertedCompYearly", ascending=False)

# Беремо топ-5 респондентів з найбільшою компенсацією
top_5_paid = top_paid.head(5)

# Показуємо, що це справді топ-5: компенсація + рівень освіти
top_5_paid[["ConvertedCompYearly", "EdLevel"]]



Unnamed: 0,ConvertedCompYearly,EdLevel
34267,50000000.0,"Associate degree (A.A., A.S., etc.)"
28700,33552715.0,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)"
43143,18387548.0,"Associate degree (A.A., A.S., etc.)"
35353,15430267.0,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)"
45971,13921760.0,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)"


### Висновок

У ході аналізу було досліджено річну компенсацію респондентів, які програмують на Python,
як у розрізі країн, так і на рівні окремих респондентів.

Агреговані показники компенсації (середнє та медіанне значення) по країнах
не містять різко аномальних значень, оскільки поодинокі дуже великі компенсації
згладжуються під час усереднення та майже не впливають на медіану.

Водночас під час аналізу п’яти респондентів з найбільшою річною компенсацією
виявлено надзвичайно високі значення доходу, що, ймовірно, є аномаліями
або результатом особливостей самозаповнення даних у межах опитування.

Таким чином, агрегований аналіз дає більш репрезентативне уявлення
про рівень компенсації Python-розробників у різних країнах,
тоді як аналіз індивідуальних максимальних значень дозволяє виявити
наявність викидів у даних.



## 9. Аналіз популярності Python за віковими категоріями


In [27]:
# Перевіряємо через schema, що колонка Age відповідає віковим категоріям
schema.loc[schema["qname"] == "Age", ["qname", "question"]]


Unnamed: 0,qname,question
50,Age,What is your age?


In [31]:
# Створюємо булеву колонку, яка показує,
# чи використовує респондент Python серед мов програмування
python_mask = df["LanguageHaveWorkedWith"].str.contains("Python", case=False, na=False)


In [32]:
# Створюємо допоміжний DataFrame з віком та ознакою використання Python
age_python_df = df[["Age"]].copy()
age_python_df["uses_python"] = python_mask


In [33]:
# Групуємо дані за віковими категоріями та розраховуємо
# відсоток респондентів, які використовують Python у кожній групі
python_by_age = (age_python_df.groupby("Age")["uses_python"].mean() .mul(100).round(2).reset_index())

python_by_age


Unnamed: 0,Age,uses_python
0,18-24 years old,40.0
1,25-34 years old,36.94
2,35-44 years old,36.72
3,45-54 years old,38.63
4,55-64 years old,37.24
5,65 years or older,31.63
6,Prefer not to say,31.22


### Висновок

Аналіз популярності Python за віковими категоріями показав, що частка респондентів, які використовують Python, 
є досить стабільною в більшості вікових груп. У категоріях від 18 до 64 років Python використовують приблизно від 36 до 40 відсотків респондентів, 
що свідчить про широку поширеність цієї мови програмування незалежно від віку. Дещо нижчі показники спостерігаються у віковій групі 65 років і старше, 
а також серед респондентів, які не вказали свій вік, однак загальна картина підтверджує універсальність 
Python серед розробників різних вікових категорій.



## 10. Аналіз індустрій серед високооплачуваних віддалених працівників


In [36]:
# Розраховуємо 75-й перцентиль річної компенсації.
# Це значення, вище якого знаходяться лише 25% респондентів.
comp_75 = df["ConvertedCompYearly"].quantile(0.75)

comp_75


np.float64(120596.0)

In [39]:
# Відфільтровуємо респондентів, які:
# 1) мають компенсацію вище 75-го перцентилю
# 2) працюють повністю віддалено
# Пропущені значення компенсації автоматично виключаються з порівняння.

high_paid_remote = df[(df["ConvertedCompYearly"] > comp_75) &(df["RemoteWork"] == "Remote")]

high_paid_remote.shape[0]



2461

In [40]:
# Аналізуємо розподіл індустрій серед високооплачуваних віддалених працівників.
# Підраховуємо кількість респондентів у кожній індустрії
# та сортуємо результат за спаданням.

industry_counts = (high_paid_remote["Industry"].value_counts().reset_index())

industry_counts.columns = ["Industry", "count"]

industry_counts


Unnamed: 0,Industry,count
0,Software Development,1186
1,Fintech,190
2,Healthcare,188
3,Other:,176
4,"Internet, Telecomm or Information Services",138
5,Banking/Financial Services,88
6,Government,78
7,Media & Advertising Services,75
8,Retail and Consumer Services,65
9,"Transportation, or Supply Chain",63


### Висновок

Аналіз індустрій серед високооплачуваних віддалених працівників показав, що найбільша кількість таких респондентів працює у сфері розробки
програмного забезпечення. Значно меншою, але помітною є присутність галузей фінансових технологій та охорони здоров’я. 
Отримані результати свідчать про те, що саме технологічно орієнтовані індустрії найчастіше поєднують високий рівень компенсації з 
можливістю повністю віддаленої роботи.
