In [31]:
import pandas as pd
import numpy as np

In [32]:
df = pd.read_csv('survey_results_public.csv')

### Скільки респондентів пройшли опитування?

In [42]:
# варіант 1 - використовуючи shape
print("Total respondents:", df.shape[0])

# варіант 2 - використовуючи функцію unique()
# nunique() returns the number of unique values in a column
print("Total respondents:", df.ResponseId.nunique())

Total respondents: 89184
Total respondents: 89184


### Скільки респондентів відповіли на всі запитання?

!!! читаємо readme і дізнаємось які колонки відповідають питанням? - описані в survey_results_schema.csv

In [38]:
schema = pd.read_csv("survey_results_schema.csv")

In [39]:
schema.head(5)

Unnamed: 0,qid,qname,question,force_resp,type,selector
0,QID16,S0,"<div><span style=""font-size:19px;""><strong>Hel...",False,DB,TB
1,QID12,MetaInfo,Browser Meta Info,False,Meta,Browser
2,QID310,Q310,"<div><span style=""font-size:19px;""><strong>You...",False,DB,TB
3,QID312,Q120,,True,MC,SAVR
4,QID1,S1,"<span style=""font-size:22px; font-family: aria...",False,DB,TB


In [40]:
questions = set(schema.qname.unique()) & set(df.columns)  # вибираємо за допомогою множин тільки ті стовпці, які є в обох датафреймах

In [41]:
questions

{'AIAcc',
 'AIBen',
 'AISelect',
 'AISent',
 'Age',
 'BuyNewTool',
 'CodingActivities',
 'CompTotal',
 'Country',
 'Currency',
 'DevType',
 'EdLevel',
 'Employment',
 'Frequency_1',
 'Frequency_2',
 'Frequency_3',
 'ICorPM',
 'Industry',
 'Knowledge_1',
 'Knowledge_2',
 'Knowledge_3',
 'Knowledge_4',
 'Knowledge_5',
 'Knowledge_6',
 'Knowledge_7',
 'Knowledge_8',
 'LearnCode',
 'LearnCodeCoursesCert',
 'LearnCodeOnline',
 'MainBranch',
 'NEWSOSites',
 'OrgSize',
 'ProfessionalTech',
 'PurchaseInfluence',
 'Q120',
 'RemoteWork',
 'SOAI',
 'SOAccount',
 'SOComm',
 'SOPartFreq',
 'SOVisitFreq',
 'SurveyEase',
 'SurveyLength',
 'TBranch',
 'TechList',
 'TimeAnswering',
 'TimeSearching',
 'WorkExp',
 'YearsCode',
 'YearsCodePro'}

In [None]:
schema = pd.read_csv("survey_results_schema.csv")
questions = set(schema.qname.unique()) & set(
    df.columns
)  # вибираємо за допомогою множин тільки ті стовпці, які є в обох датафреймах

# спосіб 1 - використовуючи підсемпл даних
print(f"Total respondents with full answers: {df[list(questions)].dropna().shape[0]}")

# спосіб 2 - використовуючи функцію dropna() видаляємо рядки, в яких є хоча б один пропуск, і рахуємо кількість рядків
print(f"Total respondents with full answers: {df.dropna(subset=questions).shape[0]}")

### Які значення мір центральної тенденції для досвіду (WorkExp) респондентів?

In [45]:
print(f'Mean: {round(df.WorkExp.mean(), 1)}')
print(f'Mode: {round(df.WorkExp.mode()[0], 1)}')
print(f'Median: {round(df.WorkExp.median(), 1)}')

Mean: 11.4
Mode: 5.0
Median: 9.0


### Скільки респондентів працює віддалено?

In [None]:
df["RemoteWork"].unique()

In [None]:
df[df.RemoteWork == "Remote"].shape[0]

### Який відсоток респондентів програмує на Python?

In [46]:
# Варіант 1 - використовуючи функцію .str.contains
df["worked_with_python"] = df.LanguageHaveWorkedWith.str.contains(
    "python", case=False, na=False
)  # case=False - не враховуємо регістр, na=False - не враховуємо пропуски
# round(df.worked_with_python.sum() / df.ResponseId.nunique(), 2)
round(df.worked_with_python.sum() / df.shape[0])

0

In [47]:
# Варіант 1 - використовуючи функцію .str.contains попередньо привівши до нижнього регістру
df["LanguageHaveWorkedWith"] = df["LanguageHaveWorkedWith"].str.lower()
df["worked_with_python"] = df["LanguageHaveWorkedWith"].str.contains("python")


print(f"Total = {round(df[df['worked_with_python'] == True].shape[0] / df.shape[0], 4)}")
print(f"Total = {round(df.worked_with_python.sum() / df.shape[0], 4)}")

Total = 0.4839
Total = 0.4839


In [None]:
df[["LanguageHaveWorkedWith", "worked_with_python"]]

In [None]:
# Варіант 1.2 - використовуючи функцію .str.contains з параметрами

df["worked_with_python"] = df.LanguageHaveWorkedWith.str.contains(
    "python", case=False, na=False
)  # case=False - не враховуємо регістр, na=False - не враховуємо пропуски (домовленність розрахунків)

print(f"Total = {round(df.worked_with_python.sum() / df.shape[0], 4)}")
print(f"Total = {round(df.worked_with_python.sum() / df.ResponseId.nunique(), 4)}")

In [None]:
# Варіант 2 - Використовуючи лямбда-функції для розмітки рядків
df["worked_with_python"] = df.LanguageHaveWorkedWith.apply(
    lambda x: 1 if "python" in str(x).lower() else 0
)

print(f"Total = {round(df.worked_with_python.sum() / df.shape[0], 4)}")
print(f"Total = {round(df.worked_with_python.sum() / df.ResponseId.nunique(), 4)}")

### Скільки респондентів навчалося програмувати за допомогою онлайн курсів?

In [None]:
# Варіант 1 - використовуючи функцію .str.contains

print( f"Total={df[df['LearnCode'].str.contains('online courses', case=False, na=False)].shape[0]}")

In [None]:
# Варіант 2

df["learned_with_online_courses"] = df.LearnCode.str.contains("online courses", case=False, na=False)

print(f"Total={df.learned_with_online_courses.sum()}")

In [None]:
# Варіант 3 - використовуючи лямбда-функції
df["learned_with_online_courses"] = df.LearnCode.apply(lambda x: 1 if "online courses" in str(x).lower() else 0)

print(f"Total={df.learned_with_online_courses.sum()}")

### Серед респондентів що програмують на Python в групуванні по країнам, яка середня та медіанна сума компенсації (ConvertedCompYearly) в кожній країні?

In [48]:
# варіант 1
filtered_df = df[(df["worked_with_python"] == 1) & (df["ConvertedCompYearly"].isna() == False)]
print(filtered_df.shape[0])

21636


In [None]:
# варіант 2
filtered_df = df[df.worked_with_python == 1].dropna(subset=["ConvertedCompYearly"])
print(filtered_df.shape[0])

In [49]:
# варіант 3

# Фільтрація респондентів, які працюють з Python (Метод: query() використовується для фільтрації рядків у DataFrame на основі заданої умови. Умова вказується як рядок.)
python_devs = df.query("worked_with_python == 1").dropna(subset=["ConvertedCompYearly"])

# Групування за країною і розрахунок середнього та медіани
python_devs.groupby("Country")["ConvertedCompYearly"].agg(["mean", "median"])

Unnamed: 0_level_0,mean,median
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,665.000000,48.0
Albania,28008.600000,11844.0
Algeria,8336.333333,6586.0
Andorra,32127.000000,32127.0
Angola,662.000000,662.0
...,...,...
"Venezuela, Bolivarian Republic of...",24973.529412,12000.0
Viet Nam,20191.870370,13401.0
Yemen,8373.000000,9000.0
Zambia,13051.000000,9687.0


In [None]:
df[df.worked_with_python == 1].dropna(subset="ConvertedCompYearly").groupby(
    "Country",
    as_index=False,  # as_index=False - не робити індексом стовпець, по якому групуємо (не принципово!!!!)
).agg({"ConvertedCompYearly": ["mean", "median"]}).droplevel(
    1, axis=1
)  # droplevel(1, axis=1) - видаляємо перший рівень індексу (в даному випадку - "ConvertedCompYearly")

In [None]:
# ще один варіант - додаємо ренейми стовпців і переводимо в int
py_progers_by_country = df[df.worked_with_python == 1].dropna(subset='ConvertedCompYearly') \
                                                      .groupby('Country', as_index=False) \
                                                      .agg({'ConvertedCompYearly': ['mean', 'median']}).droplevel(1, axis=1)
py_progers_by_country.columns = ['country', 'mean_comp', 'median_comp']
py_progers_by_country = py_progers_by_country.astype({'mean_comp': 'int', 'median_comp': 'int'})
py_progers_by_country

### Які рівні освіти мають 5 респондентів з найбільшою компенсацією?

In [50]:
df[["ResponseId", "EdLevel", "ConvertedCompYearly"]].sort_values( by="ConvertedCompYearly", ascending=False).head(5)

Unnamed: 0,ResponseId,EdLevel,ConvertedCompYearly
53268,53269,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",74351432.0
77848,77849,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",73607918.0
66223,66224,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",72714292.0
28121,28122,Primary/elementary school,57513831.0
19679,19680,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",36573181.0


In [51]:
df[['ResponseId', 'EdLevel', 'ConvertedCompYearly']].sort_values(by='ConvertedCompYearly', ascending=False).reset_index(drop=True).head(5)

Unnamed: 0,ResponseId,EdLevel,ConvertedCompYearly
0,53269,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",74351432.0
1,77849,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",73607918.0
2,66224,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",72714292.0
3,28122,Primary/elementary school,57513831.0
4,19680,"Professional degree (JD, MD, Ph.D, Ed.D, etc.)",36573181.0


### В кожній віковій категорії, який відсоток респондентів програмує на Python?

In [52]:
df.groupby("Age").agg({"ResponseId": "count", "worked_with_python": "sum"})

Unnamed: 0_level_0,ResponseId,worked_with_python
Age,Unnamed: 1_level_1,Unnamed: 2_level_1
18-24 years old,17931,11008
25-34 years old,33247,15818
35-44 years old,20532,8509
45-54 years old,8334,3205
55-64 years old,3392,1238
65 years or older,1171,362
Prefer not to say,449,185
Under 18 years old,4128,2833


In [55]:
df.groupby("Age", as_index=False).agg({"ResponseId": "count", "worked_with_python": "sum"})

Unnamed: 0,Age,ResponseId,worked_with_python
0,18-24 years old,17931,11008
1,25-34 years old,33247,15818
2,35-44 years old,20532,8509
3,45-54 years old,8334,3205
4,55-64 years old,3392,1238
5,65 years or older,1171,362
6,Prefer not to say,449,185
7,Under 18 years old,4128,2833


In [None]:
py_progers_share_by_age = df.groupby("Age", as_index=False).agg(
    {"ResponseId": "count", "worked_with_python": "sum"}
)  # as_index=False - не робити індексом стовпець, по якому групуємо (не принципово!!!!)
py_progers_share_by_age["work_with_python_share"] = round(
    py_progers_share_by_age.worked_with_python / py_progers_share_by_age.ResponseId, 2
)
py_progers_share_by_age

### Серед респондентів що знаходяться в 75 перцентилі за компенсацією середнього і працюють віддалено, які індустрії є найрозповсюдженішими?

In [None]:
df[(df.ConvertedCompYearly > df.ConvertedCompYearly.quantile(0.75)) & (df.RemoteWork == 'Remote')].Industry.value_counts().reset_index()

# Чому краще звертатись до стовпців через квадратні дужки?

In [33]:
df.ConvertedCompYearly

0             NaN
1        285000.0
2        250000.0
3        156000.0
4         23456.0
           ...   
89179         NaN
89180         NaN
89181         NaN
89182         NaN
89183         NaN
Name: ConvertedCompYearly, Length: 89184, dtype: float64

In [34]:
df["ConvertedCompYearly"]

0             NaN
1        285000.0
2        250000.0
3        156000.0
4         23456.0
           ...   
89179         NaN
89180         NaN
89181         NaN
89182         NaN
89183         NaN
Name: ConvertedCompYearly, Length: 89184, dtype: float64

In [35]:

df.head(2)
df['Oклад за рік, $']  = df['ConvertedCompYearly']

In [36]:
df["Oклад за рік, $"]

0             NaN
1        285000.0
2        250000.0
3        156000.0
4         23456.0
           ...   
89179         NaN
89180         NaN
89181         NaN
89182         NaN
89183         NaN
Name: Oклад за рік, $, Length: 89184, dtype: float64

In [37]:
df.Oклад за рік, $ # не працює, бо в назві стовпця є пробіл 

SyntaxError: invalid syntax (2657301242.py, line 1)