# Series

**Series** — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 

Для каждой *Series* присваивается тип данных её элементов (например int64) и может быть определено имя всего массива. В итоге мы получаем некоторый гибрид списка и словаря.

*Series* в какой-то степени является единицей хранения информации в Pandas. Её можно рассматривать как именованный столбец таблицы с индексами строк.

## Создание Series

В общепринятой практике Pandas импортируется и используется под псевдонимом `pd`:

In [41]:
import pandas as pd

**Способ 1**

Из списка с использованием параметров функции `pd.Series()`:

In [42]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    # Имя для Series.
    name = 'countries'
)
# display() аналог print(), но для табличных данных и работает только в файлах .ipynb.
display(countries) 

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

**Примечание**\
Если оставить параметр `index` пустым, то метки будут присвоены автоматически в виде порядковых номеров элементов.

**Способ 2**

Из словаря, в котором ключами являются будущие метки, а значениями — будущие значения *Series*, при этом использование параметра `name` также возможно:

In [43]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

## Доступ к данным в Series

Доступ к элементам осуществляется с использованием `loc` или `iloc`.

In [44]:
print(countries.loc['US'])
# США

США


In [45]:
# Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список.
print(countries.loc[['US', 'RU', 'UK']])

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object


In [1]:
# .iloc принимает на вход порядковые номера элементов Series (нумерация начинаются с 0). 
print(countries.iloc[6])
# Казахстан

NameError: name 'countries' is not defined

In [47]:
print(countries.iloc[1:4])

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


# DataFrame

*DataFrame* является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в *DataFrame* выступают объекты *Series*, а строки формируются из их элементов. Также в *DataFrame* есть метки (индексы), которые соответствуют каждой строке таблицы.

## Создание DataFrame

*DataFrame* создаётся с помощью функции `pd.DataFrame()`.

**Способ 1**

Из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов:

In [48]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
display(countries_df)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


In [49]:
# Так как мы не задали индексы DataFrame, они были сгенерированы автоматически. Исправим это.
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


**Способ 2**

Можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [50]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    # Параметр, с помощью которого мы задаём имена столбцов.
    columns = ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


## Axis в DataFrame

При работе с *Pandas* важно уметь указывать направление работы метода, который используется. Для этого вводится понятие ***axis*** (ось, координата). Движение по строкам в таблице обозначается *axis* с индексом 0, а движение по столбцам — *axis* с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них `axis=0`, то есть они выполняют операции со строками, если не задавать *axis* вручную.

Считаем среднее по строкам (`axis = 0`) в каждом столбце:

In [51]:
# Так как не все столбцы в нашей таблице являются числовыми, то нам необходимо установить параметр numeric_only в значение True (вести расчёт только по числовым столбцам).
countries_df.mean(axis=0, numeric_only=True)

population    9.070000e+01
square        5.800860e+06
dtype: float64

Считаем среднее по столбцам (`axis = 1`) в каждой строке:

In [52]:
countries_df.mean(axis=1, numeric_only=True)

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

## Доступ к данным в DataFrame

Можно обратиться к *DataFrame* по имени столбца через точку:

In [53]:
# Использование такого способа возможно только тогда, когда имя столбца указано без пробелов.
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Другой вариант — обратиться к *DataFrame* по индексу и указать имя столбца:

In [54]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам `loc` и `iloc`.

При этом, в соответствии с механизмом работы *axis*, при обращении к *DataFrame* по индексам с помощью `loc` (`iloc`) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

In [55]:
# Площадь Великобритании.
countries_df.loc['UK', 'square']

133396

In [56]:
# Население и площадь, соответствующие России.
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

In [57]:
# Информация о населении и площади, соответствующие Украине, Беларуси и Казахстану.
countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [58]:
# Или:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


## Запись в csv-файл

Предположим, что мы захотели сохранить созданный нами ранее *DataFrame*. Самым простым и распространённым источником табличных данных является формат **csv** (comma-separated values). В данном формате ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.

Экспорт данных в формат **csv* осуществляется с помощью метода `DataFrame to_csv()`.

Основные параметры метода `DataFrame to_csv()`:

* `path_or_buf` — путь до файла, в который будет записан *DataFrame* (например, `data/my_data.csv`);
* `sep` — разделитель данных в выходном файле (по умолчанию `','`);
* `decimal` — разделитель чисел на целую и дробную части в выходном файле (по умолчанию `'.'`);
* `columns` — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
* `index` — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию `True`).

Заранее создадим папку `data` в директории, где лежит наш ноутбук. Теперь сохраним наш *DataFrame* с информацией о странах в *csv*-файл `countries.csv` и положим файл в папку `data`. При этом укажем, что разделителем в нашем файле будет являться символ `';'`, а также то, что нам не нужен дополнительный столбец с индексами строк:

In [59]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('data/countries.csv', index=False, sep=';')

## Чтение csv-файла

Для чтения таблицы из *csv*-файла используется функция модуля *Pandas* `read_csv`. Функция возвращает *DataFrame* и имеет несколько важных параметров.

Основные параметры функции `read_csv()`:

* `filepath_or_buffer` — путь до файла, который мы читаем;
* `sep` — разделитель данных (по умолчанию `','`);
* `decimal` — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию `'.'`);
* `names` — список с названиями столбцов для чтения;
* `skiprows` — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).

Убедимся, что сохранённый нами ранее файл создался верно. Для этого прочитаем его в переменную `countries_data` и выведем её на экран. Не забудем также о том, что мы использовали в качестве разделителя `';'`:

In [60]:
countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


In [63]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

## Чтение csv-файла по ссылке

Если файл находится в открытом доступе по ссылке (например, на *Google Диске* или *GitHub*), его можно прочитать и из интернета — для этого достаточно в функции `read_csv()` вместо пути до файла указать ссылку на файл.

In [61]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


## Запись и чтение в других форматах

<u>Методы для записи таблиц</u> в файлы отличных от *csv* форматов:
* `to_excel()` — запись *DataFrame* в формат *Excel*-таблицы (`.xlsx`);
* `to_json()` — запись *DataFrame* в формат *JSON* (`.json`);
* `to_xml()` — запись *DataFrame* в формат *XML*-документа (`.xml);
* `to_sql()` — запись *DataFrame* в базу данных *SQL* (для реализации этого метода необходимо установить соединение с базой данных).

<u>Методы для чтения таблиц</u> из файлов отличных от *csv* форматах:
* `read_excel()` — чтение из формата *Excel*-таблицы (`.xlsx`) в *DataFrame*;
* `read_json()` — чтение из формата *JSON* (`.json`) в *DataFrame*;
* `read_xml()` — чтение из формата *XML*-документа (`.xml`) в *DataFrame*;
* `read_sql()` — чтение из базы данных *SQL* в *DataFrame* (также необходимо установить соединение с базой данных).

# Исследование структуры DataFrame

## Вывод первых и последних строк

В большинстве случаев для того, чтобы понять структуру *DataFrame* и удостовериться, что таблица подгрузилась верно, достаточно вывести несколько первых или последних строк.

Для этого у *DataFrame* есть методы `head()` и `tail()`, которые возвращают *n* первых и *n* последних строк таблицы соответственно (по умолчанию `n = 5`).

Example: `display(melb_data.head())`

Example: `melb_data.tail(7)`

## Размерность таблицы

Узнать размер таблицы — количество строк и количество столбцов. Это можно сделать с помощью атрибута `shape`, который возвращает кортеж с количеством строк и столбцов.

Example: `melb_data.shape`

## Получение информации о столбцах

Для того чтобы получить более детальную информацию о столбцах таблицы, можно использовать метод *DataFrame* `info()`:

Example: `melb_data.info()`

Данный метод выводит:
* информацию об индексах;
* информацию об общем количестве столбцов;
* таблицу, в которой содержится информация об именах столбцов (*Column*), количестве непустых значений (*Non-Null Count*) в каждом столбце и типе данных столбца (*Dtype*), количестве столбцов, в которых используется определённый тип данных;
* количество оперативной памяти в мегабайтах, которое тратится на хранение данных.

**Пустыми, или пропущенными, значениями** называются значения в ячейках таблицы, которые не заполнены по какой-либо причине, то есть на их месте стоит пустое место. В *Pandas* такие значения обозначаются символом *NaN* (*Not-a-Number*).

## Изменение типа данных в столбце

Чтобы исправить тип данных, можно воспользоваться методом `astype()`, который позволяет преобразовать тип данных столбца:

Example: `melb_data['Car'] = melb_data['Car'].astype('int64')`

## Получение описательной статистики

Часто при работе с таблицей нужно быстро посмотреть на основные статистические свойства её столбцов. Для этого можно воспользоваться методом *DataFrame* `describe()`.

По умолчанию метод работает с числовыми (*int64* и *float64*) столбцами и показывает число непустых значений (*count*), среднее (*mean*), стандартное отклонение (*std*), минимальное значение (*min*),  квантили уровней 0.25, 0.5 (медиана) и 0.75 (25%, 50%, 75%) и максимальное значение (*max*) для каждого столбца исходной таблицы.

Example: `melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]`

Метод `describe()` можно применять не только к числовым признакам. С помощью параметра `include` можно указать тип данных, для которого нужно вывести описательную информацию.

Например, для типа данных *object* метод `describe()` возвращает *DataFrame*, в котором указаны:

* количество непустых строк (*count*);
* количество уникальных значений (*unique*);
* самое частое значение — мода —  (*top*);
* частота — объём использования — этого значения (*freq*) для каждого столбца типа *object* исходной таблицы.

Example: `melb_data.describe(include=['object'])`

## Получение частоты уникальных значений в столбце

Для того чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания), используется метод `value_counts()`.

Данный метод возвращает объект *Series*, в котором в качестве индексов выступают уникальные категории столбца, а значениями — соответствующая им частота.

Example: `melb_data['Regionname'].value_counts()`

Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром `normalize`. При установке значения этого параметра на *True* результат будет представляться в виде доли (относительной частоты).

Example: `melb_data['Regionname'].value_counts(normalize=True)`

## Агрегирующие методы

**Агрегирующим** (статистическими) в *Pandas* называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).
* `.count()` - Количество непустых значений;
* `.mean()` - Среднее значение;
* `.min()` - Минимальное значение;
* `.max()` - Максимальное значение;
* `.var()` - Дисперсия;
* `.std()` - Стандартное отклонение;
* `.sum()` - Сумма;
* `.quantile(x)` - Квантиль уровня *x*;
* `.nunique()` - Число уникальных значений;

В каждый метод можно передать некоторые параметры, среди которых:
* `axis` — определяет, подсчитывать параметр по строкам или по столбцам;
* `numeric_only` — определяет, вычислять параметры только по числовым столбцам/строкам или нет (*True/False*).

In [64]:
# Вычислим среднюю цену на объекты недвижимости:

print(melb_data['Price'].mean())

1075684.079455081


In [65]:
# Найдём максимальное количество парковочных мест:

print(melb_data['Car'].max())

10.0


In [66]:
# А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. 
# Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 1752934775.88


In [67]:
# Найдём, насколько медианная площадь территории отличается от её среднего значения. 
# Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
# abs() - возвращает абсолютное значение числа
print(abs(landsize_median - landsize_mean)/landsize_mean)

# В результате получаем долю отклонения медианы от среднего значения. Умножив результат на 100, получим его в процентах. 
# Отклонение медианы от среднего значения на 21% является довольно большим, и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий.

0.21205713983546193


## Модальное значение

Статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода `mode()`.

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод `mode()`, в отличие от агрегирующих методов, возвращает не одно число, а серию.

Метод `mode()` может быть использован не только с числовыми столбцами, но и со столбцами типа *object*. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

`melb_data['Regionname'].mode()`

In [68]:
# Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


## Фильтрация данных

Часто возникает необходимость исследовать определённую группу объектов по какому-то условию, например найти здания с ценой меньше 1 миллиона или выделить из всей таблицы помещения с двумя комнатами. Такие задачи называются **задачами фильтрации**.

Под **фильтрацией** в *DataFrame* подразумевается получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 

Разберём классический способ фильтрации в *DataFrame* — фильтрацию с помощью масок.

**Маской** называется *Series*, которая состоит из булевых значений, при этом значения *True* соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение *False* (например, цена > 2 млн).

In [69]:
# Создадим маску и положим её в переменную с именем mask.

mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

In [70]:
# Для фильтрации нужно просто подставить переменную mask в индексацию DataFrame. 
# Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие — убирать (выведем первые пять строк отфильтрованной таблицы):

display(melb_data[mask].head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0.0,211.0,198.0,1890.0,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280.0,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1.0,153.0,180.0,1880.0,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280.0,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1.0,199.0,107.0,1900.0,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280.0,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1.0,177.0,181.0,1880.0,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280.0,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1.0,237.0,126.0,1970.0,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280.0,"-37.8436, 144.9557"


Вовсе не обязательно заносить маску в отдельную переменную — можно сразу вставлять условие в операцию индексации *DataFrame*, например:

`melb_data[melb_data['Price'] > 2000000]`

In [72]:
# Найдём количество зданий с тремя комнатами. 
# Для этого отфильтруем таблицу по условию: обратимся к результирующей таблице по столбцу Rooms и найдём число строк в ней с помощью атрибута shape:

melb_data[melb_data['Rooms'] == 3].shape[0]

5881

Условия можно комбинировать, используя операторы `&` (логическое И) и `|` (логическое ИЛИ). Условия при этом заключаются в скобки.

In [73]:
# Найдём число трёхкомнатных домов с ценой менее 300 тысяч:

melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

3

In [74]:
# Теперь нас будут интересовать дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:

melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

68

**Примечание!**

Использование привычных операторов `and` и `or` будет неверным и приведёт к ошибке, так как они выполняют логические операции между двумя булевыми числами. В нашем случае слева и справа от оператора стоят маски (объекты *Series*), для которых логическую операцию надо совершить поэлементно, а операторы `and` и `or` для такого не предназначены.

In [75]:
# Найдём максимальное количество комнат в таунхаусах. 
# Так как в результате фильтрации получается DataFrame, то обратимся к нему по столбцу Rooms и найдём максимальное значение:

melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

In [76]:
# Найдём медианную площадь здания у объектов, чья цена выше средней. 
# Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:

mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

126.0

Под **очисткой данных** понимается удаление из данных аномальных значений (выбросов), пропусков и данных, которые не несут информацию.