# Pandas - продолжаем разговор.

## Описание занятия

Научимся фильтровать и преобразовывать данные:

+ Познакомимся с методом query
+ Освоим другие приемы по работе с данными

## Фильтрация с помощью loc()

In [1]:
import pandas as pd
import numpy as np

In [3]:
students_performance = pd.read_csv('StudentsPerformance.csv')
students_performance.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


Отберём только те наблюдения в нашем dataframe, которые соответствуют условию: **пол = female**.

Как это сделать?

На прошлом занятии когда речь шла о методе loc(), мы говорили о том, тчо к данным можно обращаться по лейблам, но умолчали про то, что можно использовать булевы выражения.

Это нам сейчас и поможет.

Что содержит колонка gender? 

**Количество выводимых строк в примерах ниже я намеренно сокрадащю, указав метод head(), чтобы не делать данный ноутбук менее читабельным. При желании вы можете убрать этот метод и посмотреть более подробную выдачу.**

In [16]:
students_performance.gender.head(14)

0     female
1     female
2     female
3       male
4       male
5     female
6     female
7       male
8       male
9     female
10      male
11      male
12    female
13      male
Name: gender, dtype: object

Это объект серия, которая может содержать значения: **male** и **female**.

Объекты серии в pandas можно сравнивать с каким-то значением при помощи оператора **==**.

In [15]:
(students_performance.gender == 'female').head(9)

0     True
1     True
2     True
3    False
4    False
5     True
6     True
7    False
8    False
Name: gender, dtype: bool

Вместо значений мы уже получаем булевый результат равно соответствующее значение в серии тому объекту, на равенство которому мы проверяем весь столбец, или не равно.

Как теперь использовать результаты этого сравнения для фильтрации нашего dataframe?

Очень просто!

Берём выражение выше и подставляем его в качестве аргумента в метод loc().

In [11]:
students_performance.loc[students_performance.gender == 'female'].head(7)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
9,female,group B,high school,free/reduced,none,38,60,50
12,female,group B,high school,standard,none,65,81,73


Всё верно!

Мы отобрали только те записи, у которых gender = female.

Можно дополнить запрос и получить только нужные столбцы, а не все.

In [10]:
students_performance.loc[students_performance.gender == 'female', ['gender', 'writing score']].head(10)

Unnamed: 0,gender,writing score
0,female,74
1,female,88
2,female,93
5,female,78
6,female,92
9,female,50
12,female,73
14,female,58
15,female,78
17,female,28


Отберём теперь такие строки, у которых значение writing score превышает среднее значение в этом dataframe.

In [17]:
students_performance.loc[students_performance['writing score'] > students_performance['writing score'].mean()].head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
12,female,group B,high school,standard,none,65,81,73
13,male,group A,some college,standard,completed,78,72,70
15,female,group C,some high school,standard,none,69,75,78
16,male,group C,high school,standard,none,88,89,86


А можно нужное нам среднее значение сохранить в виде переменной и использовать её при фильтрации.

Давайте так и сделаем.

In [20]:
mean_writing_score = students_performance['writing score'].mean()
students_performance.loc[students_performance['writing score'] > mean_writing_score].head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
12,female,group B,high school,standard,none,65,81,73
13,male,group A,some college,standard,completed,78,72,70
15,female,group C,some high school,standard,none,69,75,78
16,male,group C,high school,standard,none,88,89,86


Мы видим тот же самый результат.

## Объединение условий при фильтрации

В python для объединения условий используются булевы операторы `or` и `and`.

In [18]:
True and False

False

In [19]:
True or False

True

Предположим, мы хотим скомбинировать 2 предыдущих примера. Как нам задать в этом случае общее условие фильтрации?

Сделать вот так не получится:

In [22]:
students_performance.gender == 'female' and students_performance['writing score'] > mean_writing_score

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

Поскольку слева и справа от оператора `and` у нас не булевы примитивы (False или True), а серии pandas.

С ними нужно работать чуть по-другому.

Преобразуем этот запрос:
+ каждое условие возьмём в скобки
+ and заменим на &

А результат запроса свяжем с переменной full_condition.

In [31]:
full_condition = (students_performance.gender == 'female') & (students_performance['writing score'] > mean_writing_score)

In [32]:
full_condition.head()

0     True
1     True
2     True
3    False
4    False
dtype: bool

In [33]:
students_performance.loc[full_condition].head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92


Как мы видим такая запись выражения отработала корректно, а значит мы справились!

**Вопрос:**

Запрос, с and, но с квадратными скобками, а не круглыми:
```python
[students_performance.gender == 'female'] and [students_performance['writing score'] > mean_writing_score]
```
даёт вектор из True и False, но этот вектор отличается от вектора, получаемого при запросе:
```python
(students_performance.gender == 'female') & (students_performance['writing score'] > mean_writing_score)
```
Почему так происходит?

**Ответ:**

Это:
```python
(students_performance.gender == 'female') & (students_performance['writing score'] > mean_writing_score)
```
пандасовская векторизированная операция - все действия (сравнения, логическое и) выполняются поэлементно.

А с квадратными скобками вместо круглых, получается встроенный тип данных с python - список
```python
[students_performance.gender == 'female'] # this is a list with pd.Series
```
Оператор `and` в питоне работает следующим образом - если 1-ый операнд True, то он возвращает 2-ой, в противном случае возвращается первый. 

In [28]:
3 and 5

5

In [29]:
0 and 3

0

У списком булиновские значения такие:
```python
[] => False
```
```python
[что-нибудь] => True
```
Таким образом, мы просто получаем 2-ой список

## Фильтрация при помощи query

Есть специальный метод query, также позволяющий нам фильтровать dataframe.

Но сначала давайте переименуем в нашем dataframe все колонки, содержащие символ пробела в своём имени.

Для этого выведем названия всех столбцов нашего dataframe и выберем названия с пробелами.

In [None]:
students_performance.columns

Теперь вставим все названия нужных столбцов в запрос ниже и выполнм его:

In [36]:
students_performance = students_performance \
.rename(columns = {
    'parental level of education': 'parental_level_of_education',
    'test preparation course': 'test_preparation_course',
    'math score': 'math_score',
    'reading score': 'reading_score',
    'writing score': 'writing_score'
})

In [37]:
students_performance.columns

Index(['gender', 'race/ethnicity', 'parental_level_of_education', 'lunch',
       'test_preparation_course', 'math_score', 'reading_score',
       'writing_score'],
      dtype='object')

Всё переименовалось!

Теперь мы можем работать с методом query.

Как с ним работать?

Очень просто. Метод query принимает строковый аргумент - запрос, по которому мы хотим получить нужные данные.

In [39]:
students_performance.query('math_score > 75').head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
2,female,group B,master's degree,standard,none,90,95,93
4,male,group C,some college,standard,none,76,78,75
6,female,group B,some college,standard,completed,88,95,92
13,male,group A,some college,standard,completed,78,72,70
16,male,group C,high school,standard,none,88,89,86


Внутри нашего query можно без проблем проводить сравнения со строкой

In [40]:
students_performance.query('gender == "female"').head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92


Точно так же, как мы и рассматривали примеры ранее - в query мы моежем комбинировать наши запросы фильтрации

In [41]:
students_performance.query('gender == "female" & math_score > 75').head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
2,female,group B,master's degree,standard,none,90,95,93
6,female,group B,some college,standard,completed,88,95,92
56,female,group E,associate's degree,standard,completed,82,85,86
86,female,group C,some college,free/reduced,none,76,83,88
94,female,group B,some college,standard,none,79,86,92


Внутри query можно проводить сравнения с переменными, используя экранирование при помощи `@`

In [42]:
math_score_value = 78
students_performance.query('gender == "female" & math_score > math_score_value').head()

UndefinedVariableError: name 'math_score_value' is not defined

In [43]:
students_performance.query('gender == "female" & math_score > @math_score_value').head()

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
2,female,group B,master's degree,standard,none,90,95,93
6,female,group B,some college,standard,completed,88,95,92
56,female,group E,associate's degree,standard,completed,82,85,86
94,female,group B,some college,standard,none,79,86,92
102,female,group D,associate's degree,standard,none,85,91,89


## Фильрация выводимых колонок

В примерах выше мы фильтровали все строки нашего исходного dataframe по каким-то условиям. То есть отбирали только некоторые из полного числа строк.

А что если нам нужно отобрать все строки, но нужны нам не все столбцы а только часть с определённым словом в имени. 

Как это сделать?

Предположим, в нашем dataframe есть не 3, а гораздо больше столбцов с оценками по разным предметам. И в каждом из этих столбцов в названии есть слово score.

Можно указать их явно

In [44]:
students_performance[['math_score', 'reading_score', 'writing_score']].head()

Unnamed: 0,math_score,reading_score,writing_score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75


Все имена колонок можно получить так:

In [45]:
list(students_performance)

['gender',
 'race/ethnicity',
 'parental_level_of_education',
 'lunch',
 'test_preparation_course',
 'math_score',
 'reading_score',
 'writing_score']

или так:

In [48]:
students_performance.columns

Index(['gender', 'race/ethnicity', 'parental_level_of_education', 'lunch',
       'test_preparation_course', 'math_score', 'reading_score',
       'writing_score'],
      dtype='object')

Давайте отберём нужные нам названия столбцов:

In [49]:
column_names_exist_score = [name for name in list(students_performance) if 'score' in name]

In [50]:
column_names_exist_score

['math_score', 'reading_score', 'writing_score']

In [51]:
students_performance[column_names_exist_score].head()

Unnamed: 0,math_score,reading_score,writing_score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75


Всё работает, но это более "ручной" способ решения такой задачи, подходящий когда в именах столбцов стоят сложные конструкции. Есть более подходящий способ решения такой задачи с точки зрения использования возможностей pandas.

В нашем случае мы можем использовать метод filter, в который в качестве аргумента like передадим нужное нам слово для фильтрации имён столбцов.

In [53]:
students_performance.filter(like='score').head()

Unnamed: 0,math_score,reading_score,writing_score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75


Всё работает!

Но если мы хотим фильтровать не по названиям столбцов, а по лейблам строк, то мы можем использовать аргумент axis.

+ axis = 1 - фильтрация по названиям столбцов
+ axis = 0 - фильтрация по лейблам строк

In [54]:
students_performance.filter(like='score', axis=1).head()

Unnamed: 0,math_score,reading_score,writing_score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75
