### Task

Download a dataframe from the `extraversion.csv` file

The file contains the results of an educational psychometric study, the purpose of which is to identify the relationship between the level of extraversion of a person and his propensity to participate in volunteer activities.
The DataFrame contains the following columns:

* 'sex`: gender of the respondent (Female, Male);
* 'volunteer`: regular participation in volunteer activities (Yes, No);
* `Q 1 ' - ' Q 57`: answers to questions on the Eysenck questionnaire (Yes, No), information about the questionnaire and the questions themselves can be found on [this](http://ipp.hse.ru/57-testytest-ajzenka-ekstraversiya-introversiya-nejrotizm) the page.

1-Determine how many rows and columns are in the dataframe.

2-Rename columns 'Q 1-Q 57' to ' Q1-Q57`, remove spaces in the middle in the names of all columns (if any).

3-Select the columns ' Q1, Q3, Q8, Q10, Q13, Q17, Q22, Q25, Q27, Q39, Q44, Q46, Q49, Q53, Q56` and save them to a separate dataframe `extra_yes`.

Select the columns ' Q5, Q15, Q20, Q29, Q32, Q34,Q37, Q41, Q51` and save them in a separate dataframe `extra_no`.

These columns will be used to calculate the extraversion index!

4-Calculate the number of"Yes" answers for each row in the "extra_yes" dataframe and save the result to the "extra_yes_sum" variable. Calculate for each row in the dataframe `extra_no` the number of responses `"No"` and save the result to the variable `extra_no_sum`.

5-Add the `extra ' column to the source dataframe, which is the extraversion index, which is calculated as follows: the sum of the number of "Yes" answers in ' extra_yes` and the number of "No" answers in `extra_no`.

6-Add the `female` column to the source dataframe, consisting of the values 0 and 1 (0-Male, 1-Female).

7-Select rows from the source dataframe that correspond to either volunteers with an extraversion index above 15, or non-volunteers with an extraversion index below 15. Save to the `pure ' dataframe.

8-Create two variables and determine how many volunteers and non-volunteers are in the `pure ' dataframe.

9-Determine the minimum, maximum, average and median value of the extraversion index in the `pure ' dataframe. Save the results in separate variables (there should be 4 of them).

Add a `high` column to the `pure` dataframe, consisting of 0 and 1, where 1 corresponds to respondents whose extraversion level is higher than $m = \max\{\text{median}, \text{mean}\}$, that is, the maximum of the median and average values, and 0 corresponds to respondents with an extraversion level not higher than $m$.

### Decision

In [2]:
# UTF-8 encoding, so that the Cyrillic alphabet is correctly read on Windows

import pandas as pd

ps = pd.read_csv("extraversion.csv", encoding = "UTF-8")

# 1
# .shape-calculates the dimension of the data frame

ps.shape
# outputs (52, 61), where 52 are rows and 61 is a column

# 2
# .columns-label by columns
# .map-used to replace each value in the Series with another value
# .replace-replaces the values " with the value "

ps.columns = ps.columns.map(lambda name: name.replace(' ', ''))

# 3
# Gives access to a group of rows and columns by labels or a logical array
extra_yes = ps.loc[:, ['Q1', 'Q3', 'Q8', 'Q10', 'Q13', 'Q17', 'Q22',
                       'Q25', 'Q27', 'Q39', 'Q44', 'Q46', 'Q49', 'Q53', 'Q56']]
extra_no = ps.loc[:, ['Q5', 'Q15', 'Q20', 'Q29', 'Q32', 'Q34', 'Q37', 'Q41', 'Q51']]
                                                       
# 4
#. isin - used for filtering, helps in selecting rows
#with a certain (or multiple) value in a certain column
#. sum (axis=1) - return the sum of values on the requested axis, (axis = 1) - on the columns
extra_yes_sum = extra_yes.isin(['Да']).sum(axis=1)
extra_no_sum = extra_no.isin(['Нет']).sum(axis=1)

# 5
# ps['extra'] - create a new column
ps['extra'] = extra_yes_sum + extra_no_sum

# 6
ps['female'] = ps['sex'].map({'Женский': 1, 'Мужской': 0})

# 7
pure = ps.loc[((ps['volunteer'] == 'Да') & (ps['extra'] > 15)) | ((ps['volunteer'] == 'Нет') & (ps['extra'] < 15))]
pure.loc[ps['volunteer'] == 'Да']

# 8
vol = pure[pure['volunteer'] == 'Да'].count()[0]
no_vol = pure[pure['volunteer'] == 'Нет'].count()[0]

# 9
# .min () - returns the minimum number
# .max () - returns the maximum number of
# .means () - returns the average value of the number
# .median () - returns the median of the number
# .type ('int32') - Cast the panda object to the specified type
min_z = pure['extra'].min()
max_x = pure['extra'].max()
sr = pure['extra'].mean()
med = pure['extra'].median()

pure['high'] = (pure['extra'] > max(sr, med)).astype('int32')
pure

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pure['high'] = (pure['extra'] > max(sr, med)).astype('int32')


Unnamed: 0,Unnamed:0,Unnamed:0.1,sex,volunteer,Q1,Q2,Q3,Q4,Q5,Q6,...,Q51,Q52,Q53,Q54,Q55,Q56,Q57,extra,female,high
0,0,1,Женский,Нет,Да,Нет,Нет,Да,Да,Да,...,Да,Да,Нет,Нет,Нет,Нет,Да,5,1,0
1,1,2,Женский,Да,Да,Да,Нет,Да,Да,Да,...,Нет,Нет,Да,Нет,Да,Да,Нет,16,1,1
3,3,4,Женский,Нет,Да,Да,Нет,Нет,Да,Да,...,Да,Нет,Нет,Нет,Да,Нет,Нет,4,1,0
4,4,5,Женский,Нет,Да,Да,Нет,Да,Да,Да,...,Нет,Да,Да,Да,Да,Да,Нет,13,1,1
7,7,8,Женский,Да,Да,Да,Да,Нет,Да,Да,...,Нет,Да,Да,Да,Да,Да,Нет,21,1,1
8,8,9,Женский,Нет,Да,Да,Нет,Да,Да,Да,...,Нет,Да,Да,Нет,Да,Да,Нет,12,1,1
9,9,10,Женский,Да,Да,Да,Нет,Нет,Да,Нет,...,Нет,Нет,Да,Да,Да,Да,Нет,19,1,1
10,10,11,Мужской,Нет,Нет,Да,Нет,Нет,Да,Да,...,Да,Нет,Да,Да,Да,Да,Нет,8,0,0
11,11,12,Женский,Да,Да,Да,Нет,Да,Да,Да,...,Нет,Да,Да,Да,Да,Да,Нет,17,1,1
14,14,15,Женский,Нет,Нет,Нет,Нет,Да,Да,Нет,...,Да,Да,Нет,Да,Да,Нет,Нет,6,1,0


### Задание

Загрузить датафрейм из файла `extraversion`.csv

Файл содержит результаты учебного психометрического исследования, целью которого является выявление связи между уровнем экстраверсии человека и его склонности к участию в волонтёрской деятельности. 
DataFrame содержит следующие столбцы:

* `sex`: пол респондента (Женский, Мужской);
* `volunteer`: регулярное участие в волонтёрской деятельности (Да, Нет);
* `Q 1` - `Q 57`: ответы на вопросы по анкете Айзенка (Да, Нет), информацию об анкете и сами вопросы можно найти на [этой](http://ipp.hse.ru/57-testytest-ajzenka-ekstraversiya-introversiya-nejrotizm) странице.

1 - Определить, сколько в датафрейме строк и столбцов.

2 - Переименовать столбцы `Q 1-Q 57` в `Q1-Q57`, убрать в названиях всех столбцов пробелы в середине (если есть).

3 - Выбрать столбцы `Q1, Q3, Q8, Q10, Q13, Q17, Q22, Q25, Q27, Q39, Q44, Q46, Q49, Q53, Q56` и сохранить их в отдельный датафрейм `extra_yes`.

Выбрать столбцы `Q5, Q15, Q20, Q29, Q32, Q34, Q37,Q41, Q51` и сохранить их в отдельный датафрейм `extra_no`.

Эти столбцы будут использоваться для вычисления индекса экстраверсии!

4 - Посчитать для каждой строки в датафрейме `extra_yes` число ответов `"Да"` и полученный результат сохранить в переменную `extra_yes_sum`. Посчитать для каждой строки в датафрейме `extra_no` число ответов `"Нет"` и полученный результат сохранить в переменную `extra_no_sum`.

5 - Добавить в исходный датафрейм столбец `extra`, который представляет собой индекс экстраверсии, который считается так: сумма числа ответов "Да" в `extra_yes` и числа ответов "Нет" в `extra_no`.

6 - Добавить в исходный датафрейм столбец `female`, состоящий из значений 0 и 1 (0 — Мужской, 1 — Женский).

7 - Выбрать из исходного датафрейма строки, которые соответствуют либо волонтёрам с индексом экстраверсии выше 15, либо не-волонтёрам с индексом экстраверсии ниже 15. Сохранить в датафрейм `pure`.

8 - Создать две переменные и определить сколько волонтёров и не-волонтёров в датафрейме `pure`.

9 - Определить минимальное, максимальное, среднее и медианное значение индекса экстраверсии в датафрейме `pure`. Сохранить полученные результаты в отдельные переменные (их должно быть 4).

Добавить в датафрейм `pure` столбец `high`, состоящий из 0 и 1, где 1 соответствует респондентам, уровень экстраверсии которых выше значения $m = \max\{\text{median}, \text{mean}\}$, то есть максимума из медианного и среднего значения, а 0 — респондентам с уровнем экстраверсии не выше $m$.

### Решение

In [1]:
# кодировка UTF-8, чтобы кириллица корректно считывалась на Windows

import pandas as pd

ps = pd.read_csv("extraversion.csv", encoding = "UTF-8")

# 1
# .shape - вычисляет размерность DataFrame

ps.shape
# выводит (52, 61), где 52 - строки, а 61 - столбец

# 2
# .columns - метка по столбцам
# .map - используется для замены каждого значения в Series другим значением
# .replace - заменяет значения ' ' на значение ''

ps.columns = ps.columns.map(lambda name: name.replace(' ', ''))

# 3
# Даёт доступ к группе строк и столбцов по меткам или логическому массиву
extra_yes = ps.loc[:, ['Q1', 'Q3', 'Q8', 'Q10', 'Q13', 'Q17', 'Q22',
                       'Q25', 'Q27', 'Q39', 'Q44', 'Q46', 'Q49', 'Q53', 'Q56']]
extra_no = ps.loc[:, ['Q5', 'Q15', 'Q20', 'Q29', 'Q32', 'Q34', 'Q37', 'Q41', 'Q51']]

# 4
# .isin - используется для фильтрации, помогает в выборе строк 
#с определенным (или множественным) значением в определенном столбце
# .sum(axis=1) - вернуть сумму значений по запрошенной оси, (axis=1) - по столбцам
extra_yes_sum = extra_yes.isin(['Да']).sum(axis=1)
extra_no_sum = extra_no.isin(['Нет']).sum(axis=1)

# 5
# ps['extra'] - создание нового столбца
ps['extra'] = extra_yes_sum + extra_no_sum

# 6
ps['female'] = ps['sex'].map({'Женский': 1, 'Мужской': 0})

# 7 
pure = ps.loc[((ps['volunteer'] == 'Да') & (ps['extra'] > 15)) | ((ps['volunteer'] == 'Нет') & (ps['extra'] < 15))]
pure.loc[ps['volunteer'] == 'Да']

# 8
vol = pure[pure['volunteer'] == 'Да'].count()[0]
no_vol = pure[pure['volunteer'] == 'Нет'].count()[0]

# 9
# .min() - вернет минимальное число
# .max() - вернет максимальное число
# .mean() - вернет среднее значение числа
# .median() - вернет медиану числа
# .astype('int32') - Приведите объект pandas к указанному типу
min_z = pure['extra'].min()
max_x = pure['extra'].max()
sr = pure['extra'].mean()
med = pure['extra'].median()

pure['high'] = (pure['extra'] > max(sr, med)).astype('int32')
pure

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pure['high'] = (pure['extra'] > max(sr, med)).astype('int32')


Unnamed: 0,Unnamed:0,Unnamed:0.1,sex,volunteer,Q1,Q2,Q3,Q4,Q5,Q6,...,Q51,Q52,Q53,Q54,Q55,Q56,Q57,extra,female,high
0,0,1,Женский,Нет,Да,Нет,Нет,Да,Да,Да,...,Да,Да,Нет,Нет,Нет,Нет,Да,5,1,0
1,1,2,Женский,Да,Да,Да,Нет,Да,Да,Да,...,Нет,Нет,Да,Нет,Да,Да,Нет,16,1,1
3,3,4,Женский,Нет,Да,Да,Нет,Нет,Да,Да,...,Да,Нет,Нет,Нет,Да,Нет,Нет,4,1,0
4,4,5,Женский,Нет,Да,Да,Нет,Да,Да,Да,...,Нет,Да,Да,Да,Да,Да,Нет,13,1,1
7,7,8,Женский,Да,Да,Да,Да,Нет,Да,Да,...,Нет,Да,Да,Да,Да,Да,Нет,21,1,1
8,8,9,Женский,Нет,Да,Да,Нет,Да,Да,Да,...,Нет,Да,Да,Нет,Да,Да,Нет,12,1,1
9,9,10,Женский,Да,Да,Да,Нет,Нет,Да,Нет,...,Нет,Нет,Да,Да,Да,Да,Нет,19,1,1
10,10,11,Мужской,Нет,Нет,Да,Нет,Нет,Да,Да,...,Да,Нет,Да,Да,Да,Да,Нет,8,0,0
11,11,12,Женский,Да,Да,Да,Нет,Да,Да,Да,...,Нет,Да,Да,Да,Да,Да,Нет,17,1,1
14,14,15,Женский,Нет,Нет,Нет,Нет,Да,Да,Нет,...,Да,Да,Нет,Да,Да,Нет,Нет,6,1,0
