In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('survey_results_public.csv')
schema = pd.read_csv('survey_results_schema.csv')

### Скільки респондентів пройшли опитування?

In [3]:
df.ResponseId.nunique()

89184

### Скільки респондентів відповіли на всі запитання?

In [4]:
questions = set(schema.qname.unique()) & set(df.columns)
df.dropna(subset=questions).shape[0]

2032

### Які значення мір центральної тенденції для досвіду (WorkExp) респондентів?

In [5]:
print(f'Mean: {round(df.WorkExp.mean(), 1)}')
print(f'Mode: {round(df.WorkExp.mode()[0], 1)}')
print(f'Median: {round(df.WorkExp.median(), 1)}')

Mean: 11.4
Mode: 5.0
Median: 9.0


### Скільки респондентів працює віддалено?

In [19]:
df[df.RemoteWork == 'Remote'].shape[0]

30566

### Який відсоток респондентів програмує на Python?

In [73]:
# Первый вариант
df['worked_with_python'] = df.LanguageHaveWorkedWith.apply(lambda x: 1 if 'python' in str(x).lower() else 0)
round(df.worked_with_python.sum() / df.ResponseId.nunique(), 2)

0.48

In [6]:
# Второй вариант вариант
df['worked_with_python'] = df.LanguageHaveWorkedWith.str.contains('python', case=False, na=False)
round(df.worked_with_python.sum() / df.ResponseId.nunique(), 2)

0.48

### Скільки респондентів навчалося програмувати за допомогою онлайн курсів?

In [74]:
# Первый вариант
df['learned_with_online_courses'] = df.LearnCode.apply(lambda x: 1 if 'online courses' in str(x).lower() else 0)
df.learned_with_online_courses.sum()

43201

In [7]:
# Второй вариант
df['learned_with_online_courses'] = df.LearnCode.str.contains('online courses', case=False, na=False)
df.learned_with_online_courses.sum()

43201

### Серед респондентів що програмують на Python в групуванні по країнам, яка середня та медіанна сума компенсації (ConvertedCompYearly) в кожній країні?

In [55]:
py_progers_by_country = df[df.worked_with_python == 1].dropna(subset='ConvertedCompYearly') \
                                                      .groupby('Country', as_index=False) \
                                                      .agg({'ConvertedCompYearly': ['mean', 'median']}).droplevel(1, axis=1)
py_progers_by_country.columns = ['country', 'mean_comp', 'median_comp']
py_progers_by_country = py_progers_by_country.astype({'mean_comp': 'int', 'median_comp': 'int'})
py_progers_by_country

Unnamed: 0,country,mean_comp,median_comp
0,Afghanistan,665,48
1,Albania,28008,11844
2,Algeria,8336,6586
3,Andorra,32127,32127
4,Angola,662,662
...,...,...,...
153,"Venezuela, Bolivarian Republic of...",24973,12000
154,Viet Nam,20191,13401
155,Yemen,8373,9000
156,Zambia,13051,9687


### Які рівні освіти мають 5 респондентів з найбільшою компенсацією?

In [57]:
df[['ResponseId', 'EdLevel', 'ConvertedCompYearly']].sort_values(by='ConvertedCompYearly', ascending=False).reset_index(drop=True).head(5)

Unnamed: 0,ResponseId,EdLevel,ConvertedCompYearly
0,53269,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",74351432.0
1,77849,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",73607918.0
2,66224,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",72714292.0
3,28122,Primary/elementary school,57513831.0
4,19680,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",36573181.0


### В кожній віковій категорії, який відсоток респондентів програмує на Python?

In [77]:
py_progers_share_by_age = df.groupby('Age', as_index=False).agg({'ResponseId': 'count', 'worked_with_python': 'sum'})
py_progers_share_by_age['work_with_python_share'] = round(py_progers_share_by_age.worked_with_python / py_progers_share_by_age.ResponseId, 2)
py_progers_share_by_age

Unnamed: 0,Age,ResponseId,worked_with_python,work_with_python_share
0,18-24 years old,17931,11008,0.61
1,25-34 years old,33247,15818,0.48
2,35-44 years old,20532,8509,0.41
3,45-54 years old,8334,3205,0.38
4,55-64 years old,3392,1238,0.36
5,65 years or older,1171,362,0.31
6,Prefer not to say,449,185,0.41
7,Under 18 years old,4128,2833,0.69


### Серед респондентів що знаходяться в 75 перцентилі за компенсацією середнього і працюють віддалено, які індустрії є найрозповсюдженішими?

In [12]:
df[(df.ConvertedCompYearly > df.ConvertedCompYearly.quantile(0.75)) & (df.RemoteWork == 'Remote')].Industry.value_counts().reset_index()

Unnamed: 0,Industry,count
0,"Information Services, IT, Software Development...",1800
1,Financial Services,535
2,Other,441
3,Healthcare,365
4,Retail and Consumer Services,243
5,"Manufacturing, Transportation, or Supply Chain",168
6,Advertising Services,121
7,Insurance,96
8,Higher Education,65
9,Legal Services,21
