# Введение в Pandas

**Pandas** - это быстрая, мощная, гибкая и простая в использовании библиотека Python, которая предоставляет широкие возможности для анализа данных. Специалисты по анализу данных часто работают с данными, хранящимися в табличных форматах, таких как .csv, .tsv или .xlsx. Pandas позволяет удобно загружать, обрабатывать и анализировать такие табличные данные с помощью SQL-подобных запросов. В сочетании с библиотеками Matplotlib и Seaborn, Pandas предоставляет широкие возможности для визуального анализа табличных данных.

Можно сказать **Pandas - Excel 'на стероидах'**.

<center><img src="../misc/images/pandas-meme.jpg" width="440" height="200"/> <center/>

Библиотека не входит стандартную библиотеку Python. Поэтому давай установим её с помощью пакетной утилиты [pip](https://pip.pypa.io/en/stable/#)

In [1]:
pip install pandas # Установка библиотеки Pandas

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [1]:
import pandas as pd # Импортируем библиотеку Pandas и чтобы к ней обращаться сокращаем ее название до pd
pd.set_option('display.max_rows', 10) # Укаываем сколько строк будет во умолчанию выводить Pandas

**Перед тем, как приступить к заданию пройтите 10 минутное введение в [Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)** \
**Также полезно будет посмотреть набор туториалов по [Pandas](https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/index.html)**

Какие данные будем анализировать? \
На протяжении 7 лет, платформа для соренований по анализу данных Kaggle проводит общеотраслевой опрос, представляющий действительно всеобъемлющий взгляд на состояние науки о данных. В 2022 году в этом опросе приняли участие 23997 датасаентистов. Результаты опроса включают в себя необработанные цифры о том, кто как работает с данными, что происходит с машинным обучением в различных отраслях, а также о лучших способах прорыва в эту сферу для начинающих специалистов по изучению данных. Предлагаем тебе самостоятельно исследовать эти данные и заодно познакомится с библиотекой Pandas.

Загрузим наши данные:

In [4]:
data = pd.read_csv('../datasets/kaggle_survey_2022_responses.csv') # Указываем путь к файлу

  data = pd.read_csv('../datasets/kaggle_survey_2022_responses.csv') # Указываем путь к файлу


In [5]:
data.head(5) # Метод .head() позволяет посмотреть первые n записей в таблице

Unnamed: 0,Duration (in seconds),Q2,Q3,Q4,Q5,Q6_1,Q6_2,Q6_3,Q6_4,Q6_5,...,Q44_3,Q44_4,Q44_5,Q44_6,Q44_7,Q44_8,Q44_9,Q44_10,Q44_11,Q44_12
0,Duration (in seconds),What is your age (# years)?,What is your gender? - Selected Choice,In which country do you currently reside?,"Are you currently a student? (high school, uni...",On which platforms have you begun or completed...,On which platforms have you begun or completed...,On which platforms have you begun or completed...,On which platforms have you begun or completed...,On which platforms have you begun or completed...,...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...
1,121,30-34,Man,India,No,,,,,,...,,,,,,,,,,
2,462,30-34,Man,Algeria,No,,,,,,...,,,,,,,,,,
3,293,18-21,Man,Egypt,Yes,Coursera,edX,,DataCamp,,...,,"Kaggle (notebooks, forums, etc)",,"YouTube (Kaggle YouTube, Cloud AI Adventures, ...","Podcasts (Chai Time Data Science, O’Reilly Dat...",,,,,
4,851,55-59,Man,France,No,Coursera,,Kaggle Learn Courses,,,...,,"Kaggle (notebooks, forums, etc)","Course Forums (forums.fast.ai, Coursera forums...",,,"Blogs (Towards Data Science, Analytics Vidhya,...",,,,


Видим, что ответы на вопрос идут только с 1ой строки. В нулевой строке содержится сам вопрос. \
Давай в отдельно сохраним первую строку, чтобы иметь связь имя вопроса - текст вопроса. А из самой таблицы удалим текст вопроса.

## Выборка по строкам

С помощью метода ```.iloc``` мы можем обратиться к конкретной строке по ее позиции

In [6]:
name2question = data.iloc[0]

In [7]:
name2question

Duration (in seconds)                                Duration (in seconds)
Q2                                             What is your age (# years)?
Q3                                  What is your gender? - Selected Choice
Q4                               In which country do you currently reside?
Q5                       Are you currently a student? (high school, uni...
                                               ...                        
Q44_8                    Who/what are your favorite media sources that ...
Q44_9                    Who/what are your favorite media sources that ...
Q44_10                   Who/what are your favorite media sources that ...
Q44_11                   Who/what are your favorite media sources that ...
Q44_12                   Who/what are your favorite media sources that ...
Name: 0, Length: 296, dtype: object

In [8]:
name2question.loc['Q2'] # Теперь зная имя вопроса можно получить его текст 

'What is your age (# years)?'

В этом примере мы использовали метод ```.loc``` и ```.iloc```. Узнай какая разница между этими методами

## Удаление строки

Теперь мы можем удалить строку с текстом вопроса, чтобы в нашей таблице хранились только ответы.
Воспользуемся методом ```.drop```

In [9]:
data.drop(0); # Как будто строка удалилась

In [10]:
data.head(2)

Unnamed: 0,Duration (in seconds),Q2,Q3,Q4,Q5,Q6_1,Q6_2,Q6_3,Q6_4,Q6_5,...,Q44_3,Q44_4,Q44_5,Q44_6,Q44_7,Q44_8,Q44_9,Q44_10,Q44_11,Q44_12
0,Duration (in seconds),What is your age (# years)?,What is your gender? - Selected Choice,In which country do you currently reside?,"Are you currently a student? (high school, uni...",On which platforms have you begun or completed...,On which platforms have you begun or completed...,On which platforms have you begun or completed...,On which platforms have you begun or completed...,On which platforms have you begun or completed...,...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...,Who/what are your favorite media sources that ...
1,121,30-34,Man,India,No,,,,,,...,,,,,,,,,,


Видим, что ничего не изменилось. 

Так происходит потому что в Python есть **inplace методы** и **не inplace методы**. \
**inplace методы** сразу изменяют объект, к которому применяются и ничего не возвращают. \
**Не inplace** возвращающают копию измененного объекта.

В Pandas в некоторых методах есть параметр, чтобы сделать его Inplace.

In [11]:
data.drop(0, inplace=True) # Видим, что код нам ничего не возвращает

In [12]:
data.head(3) # Столбец удален

Unnamed: 0,Duration (in seconds),Q2,Q3,Q4,Q5,Q6_1,Q6_2,Q6_3,Q6_4,Q6_5,...,Q44_3,Q44_4,Q44_5,Q44_6,Q44_7,Q44_8,Q44_9,Q44_10,Q44_11,Q44_12
1,121,30-34,Man,India,No,,,,,,...,,,,,,,,,,
2,462,30-34,Man,Algeria,No,,,,,,...,,,,,,,,,,
3,293,18-21,Man,Egypt,Yes,Coursera,edX,,DataCamp,,...,,"Kaggle (notebooks, forums, etc)",,"YouTube (Kaggle YouTube, Cloud AI Adventures, ...","Podcasts (Chai Time Data Science, O’Reilly Dat...",,,,,


## Информация о таблице

Наша объект ```data``` как раз экземпляр класса DataFrame. Давай посмотреть на размерность этой таблицы. Выведи атрибут ```.shape```

In [13]:
data.shape # В нашей таблице 23998 строк и 296 колонок

(23997, 296)

Для того, чтобы вывести название колонок выведи атрибут ```.columns```

In [14]:
data.columns

Index(['Duration (in seconds)', 'Q2', 'Q3', 'Q4', 'Q5', 'Q6_1', 'Q6_2', 'Q6_3',
       'Q6_4', 'Q6_5',
       ...
       'Q44_3', 'Q44_4', 'Q44_5', 'Q44_6', 'Q44_7', 'Q44_8', 'Q44_9', 'Q44_10',
       'Q44_11', 'Q44_12'],
      dtype='object', length=296)

Для того, чтобы вывести индексы таблицы вызови атрибут ```.index```

In [15]:
data.index

RangeIndex(start=1, stop=23998, step=1)

In [16]:
data.info() # Приводит сводку о таблице

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23997 entries, 1 to 23997
Columns: 296 entries, Duration (in seconds) to Q44_12
dtypes: object(296)
memory usage: 54.2+ MB


In [17]:
data.describe() # Метод приводит краткое описание таблциы

Unnamed: 0,Duration (in seconds),Q2,Q3,Q4,Q5,Q6_1,Q6_2,Q6_3,Q6_4,Q6_5,...,Q44_3,Q44_4,Q44_5,Q44_6,Q44_7,Q44_8,Q44_9,Q44_10,Q44_11,Q44_12
count,23997,23997,23997,23997,23997,9699,2474,6628,3718,944,...,2678,11181,4006,11957,2120,7766,3804,1726,1268.0,835
unique,4328,11,5,58,2,1,1,1,1,1,...,1,1,1,1,1,1,1,1,1.0,1
top,230,18-21,Man,India,No,Coursera,edX,Kaggle Learn Courses,DataCamp,Fast.ai,...,"Reddit (r/machinelearning, etc)","Kaggle (notebooks, forums, etc)","Course Forums (forums.fast.ai, Coursera forums...","YouTube (Kaggle YouTube, Cloud AI Adventures, ...","Podcasts (Chai Time Data Science, O’Reilly Dat...","Blogs (Towards Data Science, Analytics Vidhya,...","Journal Publications (peer-reviewed journals, ...","Slack Communities (ods.ai, kagglenoobs, etc)",,Other
freq,59,4559,18266,8792,12036,9699,2474,6628,3718,944,...,2678,11181,4006,11957,2120,7766,3804,1726,1268.0,835


## Подсчет значений

Попробуем посмотреть ворпос Q3:

In [26]:
name2question['Q3']

'What is your gender? - Selected Choice'

In [28]:
data['Q3'] # Возвращает pd.Series - колонку значений - пол респондента

1          Man
2          Man
3          Man
4          Man
5          Man
         ...  
23993      Man
23994      Man
23995      Man
23996    Woman
23997      Man
Name: Q3, Length: 23997, dtype: object

In [31]:
data['Q3'].value_counts() # Подсчитывает частоту уникальных значений в колонке

Man                        18266
Woman                       5286
Prefer not to say            334
Nonbinary                     78
Prefer to self-describe       33
Name: Q3, dtype: int64

## Работа со строками

In [22]:
name2question['Q4'] # Посмотрим на вопрос Q4

'In which country do you currently reside?'

Давай узнаем есть ли в ответах Россия

In [32]:
data['Q4'].str.contains('Russia') # Работаем со значениями в колонке Q4, как со строками
# И проверяем содержит ли значение "Russia'

1        False
2        False
3        False
4        False
5        False
         ...  
23993    False
23994    False
23995    False
23996    False
23997    False
Name: Q4, Length: 23997, dtype: bool

Нам вернулся список с False и True. Давай просуммируем всю колонку. \
Так как при суммировании False - это 0. А True - это 1

In [24]:
(data['Q4'].str.contains('Russia')).sum() # В опросе приняло участие 324 русских

324

## Фильтрация

С помощью ```[]``` можно осуществлять фильтрацию по условию

In [25]:
data[
    data['Q4'].str.contains('Russia')
] # Выведем только те строки, у которых в колонке Q4 ответ 'Russia' 

Unnamed: 0,Duration (in seconds),Q2,Q3,Q4,Q5,Q6_1,Q6_2,Q6_3,Q6_4,Q6_5,...,Q44_3,Q44_4,Q44_5,Q44_6,Q44_7,Q44_8,Q44_9,Q44_10,Q44_11,Q44_12
63,642,18-21,Man,Russia,Yes,Coursera,,Kaggle Learn Courses,,,...,,,,,,,,,,
77,632,25-29,Man,Russia,Yes,,,Kaggle Learn Courses,,,...,,,,,,,,,,
183,335,18-21,Man,Russia,Yes,Coursera,,,,,...,"Reddit (r/machinelearning, etc)",,,,,,,,,
407,10406,45-49,Man,Russia,No,,,,,,...,,"Kaggle (notebooks, forums, etc)",,"YouTube (Kaggle YouTube, Cloud AI Adventures, ...","Podcasts (Chai Time Data Science, O’Reilly Dat...","Blogs (Towards Data Science, Analytics Vidhya,...","Journal Publications (peer-reviewed journals, ...","Slack Communities (ods.ai, kagglenoobs, etc)",,Other
414,303,18-21,Man,Russia,Yes,Coursera,,,,,...,,"Kaggle (notebooks, forums, etc)",,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23228,928,45-49,Woman,Russia,No,,,,,,...,,"Kaggle (notebooks, forums, etc)","Course Forums (forums.fast.ai, Coursera forums...","YouTube (Kaggle YouTube, Cloud AI Adventures, ...",,"Blogs (Towards Data Science, Analytics Vidhya,...","Journal Publications (peer-reviewed journals, ...",,,
23239,498,40-44,Man,Russia,No,,,,,,...,,,,,,,,,,
23480,632,40-44,Man,Russia,No,,,Kaggle Learn Courses,,,...,,,,"YouTube (Kaggle YouTube, Cloud AI Adventures, ...",,,,,,
23732,576,30-34,Man,Russia,No,,,,,,...,,,,,,"Blogs (Towards Data Science, Analytics Vidhya,...",,,,


Также можно составлять сложные условия с помощью логических операторов:
* & - Оператор 'И' 
* | - Оператор 'ИЛИ'

In [26]:
data[
    (data['Q4'].str.contains('Russia')) & 
    (data['Q2'] == '25-29')
] # Выведем только те строки, у которых в колонке Q4 ответ 'Russia' и чей возраст 25-29

Unnamed: 0,Duration (in seconds),Q2,Q3,Q4,Q5,Q6_1,Q6_2,Q6_3,Q6_4,Q6_5,...,Q44_3,Q44_4,Q44_5,Q44_6,Q44_7,Q44_8,Q44_9,Q44_10,Q44_11,Q44_12
77,632,25-29,Man,Russia,Yes,,,Kaggle Learn Courses,,,...,,,,,,,,,,
485,1108,25-29,Man,Russia,No,,,,,,...,,"Kaggle (notebooks, forums, etc)",,"YouTube (Kaggle YouTube, Cloud AI Adventures, ...",,,,,,
855,403,25-29,Prefer to self-describe,Russia,No,,,Kaggle Learn Courses,,,...,,"Kaggle (notebooks, forums, etc)",,"YouTube (Kaggle YouTube, Cloud AI Adventures, ...",,,,,,
1058,348,25-29,Man,Russia,Yes,,,,,,...,,,"Course Forums (forums.fast.ai, Coursera forums...","YouTube (Kaggle YouTube, Cloud AI Adventures, ...",,,,"Slack Communities (ods.ai, kagglenoobs, etc)",,
1106,582,25-29,Man,Russia,Yes,Coursera,,Kaggle Learn Courses,,,...,,"Kaggle (notebooks, forums, etc)",,,,,,"Slack Communities (ods.ai, kagglenoobs, etc)",,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19849,788,25-29,Man,Russia,No,,,Kaggle Learn Courses,,,...,,"Kaggle (notebooks, forums, etc)",,"YouTube (Kaggle YouTube, Cloud AI Adventures, ...",,"Blogs (Towards Data Science, Analytics Vidhya,...",,"Slack Communities (ods.ai, kagglenoobs, etc)",,
20037,762,25-29,Man,Russia,No,,,,,,...,,,,,,,"Journal Publications (peer-reviewed journals, ...",,,
20455,332,25-29,Man,Russia,No,,,Kaggle Learn Courses,,,...,,,,,,"Blogs (Towards Data Science, Analytics Vidhya,...",,,,
22877,664,25-29,Woman,Russia,No,Coursera,,,,,...,,"Kaggle (notebooks, forums, etc)",,"YouTube (Kaggle YouTube, Cloud AI Adventures, ...","Podcasts (Chai Time Data Science, O’Reilly Dat...","Blogs (Towards Data Science, Analytics Vidhya,...",,,,Other


## Подсчет статистики

Pandas позволяет применять различные функция к колонкам. Посмотрим на примере колонки длительности ответа

In [31]:
data['Duration (in seconds)']

1        121
2        462
3        293
4        851
5        232
        ... 
23993    331
23994    330
23995    860
23996    597
23997    303
Name: Duration (in seconds), Length: 23997, dtype: object

Видим, что dtype колонки - object, хотя должен быть int, т.к длительность измеряется в секундах. \
Приведем колонку к типу int

In [32]:
data['Duration (in seconds)'] = data['Duration (in seconds)'].astype(int)

In [33]:
data['Duration (in seconds)'] # Теперь колонка типа int

1        121
2        462
3        293
4        851
5        232
        ... 
23993    331
23994    330
23995    860
23996    597
23997    303
Name: Duration (in seconds), Length: 23997, dtype: int64

In [34]:
print('Максимальное время заполнения опроса: %s секунд' % data['Duration (in seconds)'].max())
print('Минимальное время заполнения опроса: %s секунд' % data['Duration (in seconds)'].min())

Максимальное время заполнения опроса: 2533678 секунд
Минимальное время заполнения опроса: 120 секунд


## Объединение в одину колонку

In [39]:
name2question.loc['Q7_1']

'What products or platforms did you find to be most helpful when you first started studying data science?  (Select all that apply) - Selected Choice - University courses'

In [40]:
name2question.loc['Q7_2']

'What products or platforms did you find to be most helpful when you first started studying data science?  (Select all that apply) - Selected Choice - Online courses (Coursera, EdX, etc)'

Посмотри на вопрос Q7 - Какие продукты или платформы оказались для вас наиболее полезными, когда вы только начинали изучать науку о данных? 

Видим, что вопрос Q7 - это вопрос, на который можно давать несколько вариантов ответа. Выберем колонки, которые относятся к вопросу Q7 и заодно познакомимся с List Comprehension. \
Нам нужно найти те названия колонок, которые начинаются на Q7

In [33]:
q7_columns = []
for col in data.columns: # Итерируемся по названиями колонок
    if col.startswith('Q7'): # Если строка начинается с Q7
        q7_columns.append(col) # То добавляем её в список
q7_columns

['Q7_1', 'Q7_2', 'Q7_3', 'Q7_4', 'Q7_5', 'Q7_6', 'Q7_7']

У нас получилось, но выглядит это как-то громозко. Можно использовать более компактную конструкцию:

In [34]:
#            [действие for переменная in контейнер if условие == True]
q7_columns = [col for col in data.columns if col.startswith('Q7')]
q7_columns

['Q7_1', 'Q7_2', 'Q7_3', 'Q7_4', 'Q7_5', 'Q7_6', 'Q7_7']

In [35]:
data[q7_columns]

Unnamed: 0,Q7_1,Q7_2,Q7_3,Q7_4,Q7_5,Q7_6,Q7_7
1,,,,,,,
2,University courses,,,,"Kaggle (notebooks, competitions, etc)",,
3,,"Online courses (Coursera, EdX, etc)",,"Video platforms (YouTube, Twitch, etc)","Kaggle (notebooks, competitions, etc)",,
4,,"Online courses (Coursera, EdX, etc)",,,"Kaggle (notebooks, competitions, etc)",,
5,University courses,,,,,,
...,...,...,...,...,...,...,...
23993,University courses,,,"Video platforms (YouTube, Twitch, etc)","Kaggle (notebooks, competitions, etc)",,Other
23994,University courses,,,"Video platforms (YouTube, Twitch, etc)",,,
23995,,"Online courses (Coursera, EdX, etc)","Social media platforms (Reddit, Twitter, etc)","Video platforms (YouTube, Twitch, etc)","Kaggle (notebooks, competitions, etc)",,
23996,,,,,"Kaggle (notebooks, competitions, etc)",,


Чтобы объединить все колонки в одну можно использовать метод ```.melt```

In [36]:
platforms = data[q7_columns].melt(var_name='вопрос', value_vars=q7_columns)

In [37]:
platforms

Unnamed: 0,вопрос,value
0,Q7_1,
1,Q7_1,University courses
2,Q7_1,
3,Q7_1,
4,Q7_1,University courses
...,...,...
167974,Q7_7,Other
167975,Q7_7,
167976,Q7_7,
167977,Q7_7,


In [45]:
platforms['value'].value_counts().iloc[:5] # Top 5 Полезных платформ для обучения анализу данных

Online courses (Coursera, EdX, etc)              13714
Video platforms (YouTube, Twitch, etc)           12871
Kaggle (notebooks, competitions, etc)            12700
University courses                                6851
Social media platforms (Reddit, Twitter, etc)     3310
Name: value, dtype: int64

## Перекрестная таблица

Если ты хочешь получить простую перекрестную табуляцию двух (или более) колонкам - воспользуйте методом ```.crosstab()```
По умолчанию вычисляет таблицу частот, если не передан массив значений и функция агрегирования.

In [48]:
name2question['Q2']

'What is your age (# years)?'

In [49]:
name2question['Q29']

'What is your current yearly compensation (approximate $USD)?'

In [50]:
pd.crosstab(data["Q2"], data["Q29"], margins=True) # Таблица возраст/заработок

Q29,$0-999,"$500,000-999,999","1,000-1,999","10,000-14,999","100,000-124,999","125,000-149,999","15,000-19,999","150,000-199,999","2,000-2,999","20,000-24,999",...,"40,000-49,999","5,000-7,499","50,000-59,999","60,000-69,999","7,500-9,999","70,000-79,999","80,000-89,999","90,000-99,999",">$1,000,000",All
Q2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
18-21,25,0,5,5,0,0,2,0,1,6,...,1,6,2,1,6,1,0,1,1,83
22-24,197,2,51,71,5,5,26,2,31,23,...,22,86,6,6,62,14,3,7,0,743
25-29,290,3,114,122,39,24,76,25,65,78,...,97,115,51,42,107,21,23,23,5,1604
30-34,180,8,90,89,72,50,58,52,56,49,...,68,60,60,60,66,59,44,32,4,1430
35-39,143,8,72,72,68,47,45,65,35,51,...,63,37,57,55,35,46,38,30,1,1207
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
50-54,31,8,13,23,36,30,20,40,11,29,...,37,13,32,32,16,22,26,20,1,567
55-59,22,5,11,16,30,18,8,29,5,22,...,14,6,26,17,6,24,22,13,2,359
60-69,38,1,11,4,31,23,11,27,10,12,...,17,6,12,19,7,16,10,19,1,341
70+,12,0,1,1,2,6,3,7,1,1,...,2,3,4,2,1,4,1,2,1,64


## Группировка

Для группировки результатов есть метод ```groupby()```, в качестве аргумента которого передаём список названий колонок, которые используем для группировки.

Давай узнаем сколько человек работают в области науки о данных в различных индустриях?

In [73]:
name2question['Q24']

'In what industry is your current employer/contract (or your most recent employer if retired)? - Selected Choice'

In [74]:
data['Q24'].value_counts()

Computers/Technology           2321
Academics/Education            1447
Accounting/Finance              802
Other                           750
Manufacturing/Fabrication       561
                               ... 
Insurance/Risk Assessment       256
Marketing/CRM                   246
Non-profit/Service              194
Broadcasting/Communications     179
Shipping/Transportation         150
Name: Q24, Length: 15, dtype: int64

In [66]:
name2question['Q26']

'Approximately how many individuals are responsible for data science workloads at your place of business?'

In [67]:
data['Q26'].value_counts()

20+      2270
1-2      1815
0        1457
3-4      1392
5-9      1141
10-14     653
15-19     262
Name: Q26, dtype: int64

Видим, что значения показаны в промежутка, а не цифрах( \
Задайте упросим задачу, переделаем промежутов в среднее между этого промежутка

In [69]:
employees_mapping = {
    '20+': 20, '1-2': 1, '0': 0, '3-4': 3, '5-9': 7, '10-14': 12, '15-19': 17,
}

In [71]:
data['Q26-NEW'] = data['Q26'].map(employees_mapping)

In [80]:
data['Q26-NEW'].value_counts()

20.0    2270
1.0     1815
0.0     1457
3.0     1392
7.0     1141
12.0     653
17.0     262
Name: Q26-NEW, dtype: int64

In [84]:
employees = data[['Q24', 'Q26-NEW']].dropna()
employees

Unnamed: 0,Q24,Q26-NEW
4,Online Service/Internet-based Services,1.0
8,Insurance/Risk Assessment,20.0
9,Government/Public Service,20.0
11,Manufacturing/Fabrication,20.0
14,Computers/Technology,20.0
...,...,...
23985,Accounting/Finance,20.0
23990,Broadcasting/Communications,1.0
23991,Computers/Technology,0.0
23995,Energy/Mining,0.0


In [94]:
employees.groupby(['Q24']).mean().sort_values('Q26-NEW', ascending=False)

Unnamed: 0_level_0,Q26-NEW
Q24,Unnamed: 1_level_1
Accounting/Finance,10.135000
Insurance/Risk Assessment,10.020000
Broadcasting/Communications,9.067039
Online Service/Internet-based Services,8.951965
Computers/Technology,8.732487
...,...
Energy/Mining,7.121875
Marketing/CRM,6.959016
Manufacturing/Fabrication,6.443841
Other,5.964529
