In [6]:
import pandas as pd
print(pd.__name__)

pandas


In [7]:
import pandas as pd
pd.__version__

'1.4.4'

# SERIES КАК СТРУКТУРА ДАННЫХ

**Series** — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 

Эту структуру можно сравнить со списком: каждому элементу ставится в соответствие индекс, однако, в отличие от списка, индексами могут быть не только порядковые номера — фактически что угодно, например названия компаний, даты, идентификаторы, наименования продуктов.

Также для каждой Series присваивается тип данных её элементов (например int64) и может быть определено имя всего массива. В итоге мы получаем некоторый гибрид списка и словаря.

Пример объекта Series:

![image](https://lms.skillfactory.ru/assets/courseware/v1/9e2398c7773a49bd481cab9693e3dfff/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst3-u1-md10_2_1.png)

→ Series в какой-то степени является единицей хранения информации в Pandas. Её можно рассматривать как именованный столбец таблицы с индексами строк.

Перейдём от сухой теории к практике — научимся создавать серии и работать с ними.

## СОЗДАНИЕ SERIES

→ Для создания объекта Series используется команда pd.Series().

Рассмотрим несколько способов создания Series на примере со списком названий стран.

**Способ 1** — из списка с использованием параметров функции pd.Series():

In [10]:
countries = pd.Series(
    data = ['England', 'Canada', 'USA', 
'Russia', 'Ukrain', 'Belaruss',
'Kazakhstan'],
    index = ['UK', 'CA', 'US', 'RU', 'UA',
'BY', 'KZ'],
    name = 'countries'
)
display(countries)

UK       England
CA        Canada
US           USA
RU        Russia
UA        Ukrain
BY      Belaruss
KZ    Kazakhstan
Name: countries, dtype: object

Примечание. Функция display() является аналогом функции print() в файлах формата .ipynb (ноутбуках/блокнотах), но чаще используется для вывода табличных данных. 

Здесь и в дальнейшем функция display() используется для более красивого вывода таблиц в файлах формата .ipynb.

Обратите внимание, что если вы пишете код в файлах с расширением .py, функция display() не будет вам доступна.

Также стоит отметить, что в файлах формата .ipynb результат работы последней строки в ячейке автоматически выводится на экран.

Например:

![](https://lms.skillfactory.ru/assets/courseware/v1/44c9d426579b33ed02edff2047da4476/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst3-u1-md10_2_2_1.png)

В результате выполнения кода выше мы получаем объект Series. При его выводе на экран можно увидеть заданные в параметре index метки — коды стран, соответствующие им значения (названия стран), которые мы задали в параметре data. Также с помощью аргумента name мы явно задали имя для Series.

Внизу, под выводом содержимого, можно увидеть тип данных объектов, хранимых в Series. Типом данных object в Pandas обозначаются строки и смешанные типы данных (кортежи, списки, текст, смешанный с числами, и т. д.).

Примечание. Если оставить параметр index пустым, то метки будут присвоены автоматически в виде порядковых номеров элементов, например:

![](https://lms.skillfactory.ru/assets/courseware/v1/8a1348d39276a0c4c120aa73620d6958/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst3-u1-md10_2_3.png)

**Способ 2** — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно:

In [17]:
countries = pd.Series({
    'UK': 'England',
    'CA': 'Canada',
    'US': 'USA',
    'RU': 'Russia',
    'UA': 'Ukrain',
    'BY': 'Belaruss',
    'KZ': 'Kazakhstan'},
    name = 'counties'
)
display(countries)

UK       England
CA        Canada
US           USA
RU        Russia
UA        Ukrain
BY      Belaruss
KZ    Kazakhstan
Name: counties, dtype: object

## ДОСТУП К ДАННЫМ В SERIES

Доступ к элементам осуществляется с использованием loc или iloc.

.loc вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, так и список, чтобы получилось несколько элементов. 

Например, для получения названия страны по коду "US" можно выполнить следующий код:

In [13]:
print(countries.loc['US'])

USA


Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список:

In [18]:
print(countries.loc[['US', 'RU', 'UK']])

US        USA
RU     Russia
UK    England
Name: counties, dtype: object


**Примечание.** Обратите внимание, что в случае обращения по одному индексу возвращается строка. Если же обратиться по нескольким элементам, возвращается объект Series.

.iloc также вызывается с квадратными скобками и принимает на вход порядковые номера элементов Series (нумерация начинаются с 0). В него можно так же передавать как один индекс, так и диапазон чисел. 

Например, для получения элемента по индексу "KZ" нужно обратиться через .iloc по номеру 6:

In [19]:
print(countries.iloc[6])

Kazakhstan


Получим срез из исходной Series с первого по третий элемент:

In [21]:
print(countries.iloc[1:4])

CA    Canada
US       USA
RU    Russia
Name: counties, dtype: object


**Примечание.** Важно, что в последнем примере конечное значение диапазона не включается в результат (берутся элементы с порядковыми номерами от 1 до 4, не включая последний).

На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[‘UK’, 'US', ‘UA’] или countries[0, 2, 4]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.

## ЗАДАНИЕ 2.4

В аптеку поступают партии лекарств. Их названия находятся в списке names, количество единиц товара находится в списке counts.

Например:

names=['chlorhexidine', 'cyntomycin', 'afobazol']
counts=[15, 18, 7]
Напишите функцию create_medications(names, counts), создающую Series medications, индексами которого являются названия лекарств names, а значениями — их количество в партии counts.

Также напишите функцию get_percent(medications, name), которая возвращает долю товара с именем name от общего количества товаров в партии в процентах.

In [25]:
import pandas as pd

def create_medications(names, counts):
    medications = pd.Series(index = names, data = counts)
    return medications

def get_percent(medications, name):
    return (medications.loc[name]/sum(medications) * 100)

names=['chlorhexidine', 'cyntomycin', 'afobazol']
counts=[15, 18, 7]
medications = create_medications(names, counts)
print(get_percent(medications, 'chlorhexidine'))

37.5


# DATAFRAME КАК СТРУКТУРА ДАННЫХ

✍ Наиболее популярным и понятным является табличное представление данных. Для работы с такими данными в Pandas существует объект DataFrame.

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

Приведём пример такой структуры:

ФИО	ВОЗРАСТ	ДОХОД	РАЗМЕР КРЕДИТА
0	Иванов И. И.	32	120	250
1	Авербух А. В.	28	44	320
2	Вестяк А. В.	86	250	500

Примечание. В дальнейшем слова DataFrame и таблица будут употребляться как синонимы. Также синонимами в Data Science являются слова столбец таблицы и признак.

## СОЗДАНИЕ DATAFRAME

DataFrame создаётся с помощью функции pd.DataFrame(). Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

#### СПОСОБ 1

Самый простой способ создания DataFrame — из словаря, **ключами** которого являются **имена столбцов** будущей таблицы, а **значениями** — списки, в которых хранится **содержимое этих столбцов**:

In [27]:
countries_df = pd.DataFrame({
    'country': ['England', 'Canada', 'USA', 'Russia', 'Ukrain', 'Belaruss', 'Kazakhstan'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df

Unnamed: 0,country,population,square
0,England,56.29,133396
1,Canada,38.05,9984670
2,USA,322.28,9826630
3,Russia,146.24,17125191
4,Ukrain,45.5,603628
5,Belaruss,9.5,207600
6,Kazakhstan,17.04,2724902


**Примечание.** В данном коде мы создаём таблицу, столбцы которой соответствуют названиям стран, их населению в миллионах человек и площади в квадратных километрах.

Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. Исправим это, задав индексы вручную:

In [28]:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,square
UK,England,56.29,133396
CA,Canada,38.05,9984670
US,USA,322.28,9826630
RU,Russia,146.24,17125191
UA,Ukrain,45.5,603628
BY,Belaruss,9.5,207600
KZ,Kazakhstan,17.04,2724902


#### СПОСОБ 2

Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [29]:
countries_df = pd.DataFrame(
    data = [
        ['England', 56.29, 133396],
        ['Canada', 38.05, 9984670],
        ['USA', 322.28, 9826630],
        ['Russia', 146.24, 17125191],
        ['Ukrain', 45.5, 603628],
        ['Belaruss', 9.5, 207600],
        ['Kazakhstan', 17.04, 2724902]
    ],
    columns = ['countru', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,countru,population,square
UK,England,56.29,133396
CA,Canada,38.05,9984670
US,USA,322.28,9826630
RU,Russia,146.24,17125191
UA,Ukrain,45.5,603628
BY,Belaruss,9.5,207600
KZ,Kazakhstan,17.04,2724902


В данном варианте создания DataFrame мы задаём имена столбцов в списке с помощью параметра columns, а также инициализируем параметр index для задания меток стран.

## AXIS В DATAFRAME

→ Как уже было сказано, DataFrame является двумерной структурой данных, что означает наличие двух возможных направлений движения в ней: вдоль строк и вдоль столбцов. 

Например, мы можем удалять как строки, так и столбцы таблицы, вычислять среднее значение как по столбцам, так и по строкам таблицы.

При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие axis (ось, координата). Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

Схема ниже демонстрирует направления axis в DataFrame:

![](https://lms.skillfactory.ru/assets/courseware/v1/8fe1bbe5aa3a13390e0f876c8bf9824b/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst3-u1-md10_3_4.png)

Рассмотрим разницу в результатах работы методов в зависимости от параметра axis на примере использования метода DataFrame mean() — вычисление среднего по таблице.

Считаем **среднее по строкам (axis = 0)** в каждом столбце:

In [30]:
countries_df.mean(axis=0)

  countries_df.mean(axis=0)


population    9.070000e+01
square        5.800860e+06
dtype: float64

В данном случае среднее было рассчитано по строкам для столбцов population и square.

Считаем среднее по **столбцам (axis = 1)** в каждой строке:

In [31]:
countries_df.mean(axis=1)

  countries_df.mean(axis=1)


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

Здесь среднее было рассчитано по числовым столбцам для каждой строки в таблице.

## ДОСТУП К ДАННЫМ В DATAFRAME

Доступ к столбцу можно получить разными способами:

Можно обратиться к DataFrame по имени столбца через точку:

In [32]:
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.

Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:


In [33]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Примечание. Обратите внимание, что, как и ожидалось, при обращении к столбцу DataFrame мы получаем объект Series с именем, соответствующим имени столбца. Удостовериться в этом можно с помощью функции type():

In [34]:
type(countries_df.population)

pandas.core.series.Series

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.

При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам с помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

Рассмотрим на примерах:

1. Получим площадь Великобритании:

In [35]:
countries_df.loc['UK', 'square']

133396

2. Получим население и площадь, соответствующие России:

In [36]:
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

3. Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:

In [37]:
countries_df.loc[['UA', 'BY', 'KZ'], ['population', 'square']]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


или

In [38]:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


## ЗАДАНИЕ 3.5

Вы работаете аналитиком в компании ScienceYou. Ваша задача — проанализировать чистую прибыль.

Доходы (incomes), расходы (expenses) и годы (years), соответствующие им, предоставлены вам в виде списков. 

Создайте функцию create_companyDF(incomes, expenses, years), которая  возвращает DataFrame, составленный из входных данных со столбцами Incomes и Expenses и индексами, соответствующими годам рассматриваемого периода. Пример такого DataFrame представлен ниже.

Incomes	Expenses
2018	478	156
2019	512	130
2020	196	270

Также напишите функцию get_profit(df, year), которая возвращает разницу между доходом и расходом, записанными в таблице df, за год year. Учтите, что если информация за запрашиваемый год не указана в вашей таблице, вам необходимо вернуть None.

In [48]:
def create_companyDF(incomes, expenses, years):
    df = pd.DataFrame({
        'Incomes': incomes,
        'Expenses': expenses
        },
        index = years
    )
    return df
def get_profit(df, year):
    if year in df.index:
        profit = df.loc[year, 'Incomes'] - df.loc[year, 'Expenses']
    else:
        profit=None
    return profit

incomes = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]
scienceyou = create_companyDF(incomes, expenses, years)
print(get_profit(scienceyou, 2020))

-74


# Работа с различными источниками данных в Pandas

✍ Из рассмотренных ранее примеров создания DataFrame становится понятно, что создавать таблицы вручную довольно проблематично и затратно как по объёму кода, так и по времени его написания. Возникает вопрос: всегда ли так приходится делать? Ответ — конечно же, не всегда.

В работе Data Scientist чаще всего сталкивается с уже собранными данными, хранящимися в виде файлов и других источников, таких как базы данных и web-источники. Проблема заключается в том, что каждый источник данных представляет разный формат: например, если данные приходят к вам из отдела бухгалтерии, то это, скорее всего, будет формат Excel-таблицы, результаты web-запросов чаще всего представлены в формате JSON или XML и так далее.

Благодаря функциональности Pandas можно быстро и легко читать данные самых распространённых форматов и преобразовывать их в DataFrame. При этом данные могут быть прочитаны с вашего диска или же по сети. Более того, раз данные можно прочитать, значит, их можно и сохранить — для этого Pandas также предоставляет возможности.

## ЗАПИСЬ В CSV-ФАЙЛ

Предположим, что мы захотели сохранить созданный нами ранее DataFrame. Самым простым и распространённым источником табличных данных является формат csv (comma-separated values). В данном формате ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.

Экспорт данных в формат csv осуществляется с помощью метода DataFrame to_csv(). 

### Основные параметры метода DataFrame to_csv():

* path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
* sep — разделитель данных в выходном файле (по умолчанию ',');
* decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
* columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
* index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь давайте сохраним наш DataFrame с информацией о странах в csv-файл countries.csv и положим файл в папку data. При этом укажем, что разделителем в нашем файле будет являться символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк:

In [50]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('data/countries.csv', index = False, sep = ';')

## ЧТЕНИЕ CSV-ФАЙЛА

Для чтения таблицы из csv-файла используется функция модуля Pandas read_csv. Функция возвращает DataFrame и имеет несколько важных параметров.

### Основные параметры функции read_csv()

* filepath_or_buffer — путь до файла, который мы читаем;
* sep — разделитель данных (по умолчанию ',');
* decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
* names — список с названиями столбцов для чтения;
* skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).

Убедимся, что сохранённый нами ранее файл создался верно. Для этого прочитаем его в переменную countries_data и выведем её на экран. Не забудем также о том, что мы использовали в качестве разделителя ';':

In [51]:
countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


## ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ

На самом деле файл с данными не обязательно должен храниться у вас на компьютере. Если он находится в открытом доступе по ссылке (например, на Google Диске или GitHub), его можно прочитать и из интернета — для этого достаточно в функции read_csv() вместо пути до файла указать ссылку на файл. Например:

In [54]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


## ЗАПИСЬ И ЧТЕНИЕ В ДРУГИХ ФОРМАТАХ

Как уже говорилось ранее, Pandas способен работать со многими распространёнными форматами данных.

#### Методы для записи таблиц в файлы отличных от csv форматов:

* to_excel() — запись DataFrame в формат Excel-таблицы (.xslx);
* to_json() — запись DataFrame в формат JSON (.json);
* to_xml() — запись DataFrame в формат XML-документа (.xml);
* to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).

#### Методы для чтения таблиц из файлов в отличных от csv форматах:

* read_excel() — чтение из формата Excel-таблицы(.xslx) в DataFrame;
* read_json() — чтение из формата JSON (.json) в DataFrame;
* read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
* read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

# Знакомимся с данными: недвижимость

✍ Дальнейший разбор инструментария Pandas мы будем проводить на наборе данных с учебного соревнования по анализу данных на Kaggle.

Данные, с которыми мы будем работать — это обработанный датасет об объектах недвижимости в Мельбурне (Австралия) и его пригородах.

Данные представляют собой таблицу, в которой содержится 23 столбца:

1. index — номер строки
2. Suburb — наименование пригорода
3. Address — адрес
4. Rooms — количество комнат в помещении
5. Type — тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
6. Price — цена помещения
7. Method — метод продажи 
8. SellerG — риэлторская компания
9. Date — дата продажи (в формате день/месяц/год)
10. Distance — расстояния до объекта от центра Мельбурна 
11. Postcode — почтовый индекс
12. Bedroom — количество спален
13. Bathroom — количество ванных комнат
14. Car — количество парковочных мест
15. Landsize — площадь прилегающей территории
16. BuildingArea — площадь здания
17. YearBuilt — год постройки
18. CouncilArea — региональное управление
19. Lattitude — географическая широта
20. Longitude — географическая долгота
21. Regionname — наименование района Мельбурна
22. Propertycount — количество объектов недвижимости в районе
23. Coordinates — широта и долгота, объединённые в кортеж

Прочитаем наши данные о недвижимости из csv-файла и запишем результирующий DataFrame в переменную melb_data:

In [55]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

In [60]:
print(melb_data.loc[3521, 'Landsize']/melb_data.loc[1690, 'Landsize'])

2.7857142857142856


# Исследование структуры DataFrame

## ВЫВОД ПЕРВЫХ И ПОСЛЕДНИХ СТРОК

→ Часто бывает такое, что вывести на экран все строки таблицы является ресурсозатратной операцией, а иногда и вовсе не представляется возможным. В большинстве случаев для того, чтобы понять структуру DataFrame и удостовериться, что таблица подгрузилась верно, достаточно вывести несколько первых или последних строк.

Для этого у DataFrame есть методы head() и tail(), которые возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5).

Выведем первые пять строк нашей таблицы:

In [61]:
display(melb_data.head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"


Следующий код выведет семь последних строк нашей таблицы:

In [62]:
display(melb_data.tail(7))

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
13573,13573,Werribee,5 Nuragi Ct,4,h,635000.0,S,hockingstuart,26/08/2017,14.7,...,1.0,662.0,172.0,1980.0,,-37.89327,144.64789,Western Metropolitan,16166.0,"-37.89327, 144.64789"
13574,13574,Westmeadows,9 Black St,3,h,582000.0,S,Red,26/08/2017,16.5,...,2.0,256.0,126.0,1970.0,,-37.67917,144.8939,Northern Metropolitan,2474.0,"-37.67917, 144.8939"
13575,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2.0,652.0,126.0,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0,"-37.90562, 145.16761"
13576,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0,"-37.85927, 144.87904"
13577,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4.0,436.0,126.0,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0,"-37.85274, 144.88738"
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,"-37.85908, 144.89299"
13579,13579,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0,"-37.81188, 144.88449"


## РАЗМЕРНОСТЬ ТАБЛИЦЫ

Далее хотелось бы узнать размер таблицы — количество строк и количество столбцов. Это можно сделать с помощью атрибута shape, который возвращает кортеж с количеством строк и столбцов:

In [63]:
melb_data.shape

(13580, 23)

Таким образом, в наших данных содержится информация о 13 580 объектах недвижимости, и их описывают 23 признака.

## ПОЛУЧЕНИЕ ИНФОРМАЦИИ О СТОЛБЦАХ

Для того чтобы получить более детальную информацию о столбцах таблицы, можно использовать метод DataFrame info():

In [64]:
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  float64
 12  Bathroom       13580 non-null  float64
 13  Car            13580 non-null  float64
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  float64
 17  CouncilArea    12211 non-null  object 
 18  Lattit

Данный метод выводит:

* информацию об индексах;
* информацию об общем количестве столбцов;
* таблицу, в которой содержится информация об именах столбцов (Column), количестве непустых значений (Non-Null Count) в каждом столбце и типе данных столбца (Dtype), количестве столбцов, в которых используется определённый тип данных;
* количество оперативной памяти в мегабайтах, которое тратится на хранение данных.

Из вывода метода info() становится понятно, что в нашей таблице есть столбец CouncilArea с пропущенными значениями — количество непустых значений в столбце меньше, чем количество строк в таблице (12211 < 13580).

Пустыми, или пропущенными, значениями называются значения в ячейках таблицы, которые не заполнены по какой-либо причине, то есть на их месте стоит пустое место. В Pandas такие значения обозначаются символом NaN (Not-a-Number).

→ Мы будем говорить о работе с пропусками в отдельном модуле, посвящённом очистке данных, а пока что не будем обращать на них внимания.

## ИЗМЕНЕНИЕ ТИПА ДАННЫХ В СТОЛБЦЕ

→ Если присмотреться внимательнее к выводу метода info(), а конкретнее — к типам данных столбцов, становится понятно, что некоторые признаки кодируются не совсем корректными типами данных. 

Например, данные в столбцах, которые отражают количество, должны, по идее, выражаться целым числом (Car, Bedroom, Bathroom и Propertyсount), однако кодируются float64 — числом с плавающей запятой размером 64 бита.

Наконец, данные в столбце с годом постройки (YearBuilt) также представлены в формате чисел с плавающей точкой.

Чтобы исправить это, можно воспользоваться методом astype(), который позволяет преобразовать тип данных столбца:

In [65]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

В данном коде мы при помощи метода astype() последовательно переопределяем столбцы на них же самих, только с изменённым типом данных: int64 — целочисленное число размером 64 бита.

Примечание. При работе с очень большими объёмами данных такая перекодировка может сыграть большую роль, позволяя сэкономить объём занимаемой таблицей памяти.

## ПОЛУЧЕНИЕ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ

→ Часто при работе с таблицей нужно быстро посмотреть на основные статистические свойства её столбцов. Для этого можно воспользоваться методом DataFrame describe().

По умолчанию метод работает с числовыми (int64 и float64) столбцами и показывает:
* число непустых значений (count), 
* среднее (mean), 
* стандартное отклонение (std), 
* минимальное значение (min),  
* квантили уровней 0.25, 0.5 (медиана) и 0.75 (25%, 50%, 75%) 
* максимальное значение (max) для каждого столбца исходной таблицы.

Чтобы не увязнуть в обилии информации, выведем на экран значение статистических параметров только для столбцов Distance (расстояние от объекта недвижимости до центра Мельбурна), BuildingArea (площадь здания) и Price (цена объекта):

In [66]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea', 'Price']]

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


Какие интересные выводы мы можем сделать, исходя из построенной таблицы?

Столбец **Distance** (расстояние до центра города)

* В нашем наборе данных представлены объекты, удалённые от центра города на расстояние до 48 километров.

Столбец **BuildingArea** (площадь здания)

* В нашей таблице представлены участки, на которых отсутствует само здание (его площадь равна 0), то есть владельцы продавали участок земли без строений на нём.
* Большая часть объектов (75%) имеет площадь здания до 130 квадратных метров, однако в нашей таблице есть настоящий дворец (судя по его размерам) с площадью в 44 515 квадратных метров.

Столбец **Price** (цена)

* Диапазон цен на недвижимость в Мельбурне варьируется от 85 тысяч до 9 миллионов австралийских долларов.

→ На самом деле метод describe() можно применять не только к числовым признакам. С помощью параметра include можно указать тип данных, для которого нужно вывести описательную информацию.

Например, для типа данных object метод describe() возвращает DataFrame, в котором указаны:

* количество непустых строк (count);
* количество уникальных значений (unique);
* самое частое значение — мода —  (top);
* частота — объём использования — этого значения (freq) для каждого столбца типа object исходной таблицы.

In [67]:
melb_data.describe(include=['object'])

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


Также приведём несколько выводов, которые можно сделать из полученной таблицы:

Столбец **Suburb** (пригород)

* Наибольшее количество проданных объектов (359) находилось в пригороде Reservoir.

Столбец **Type** (тип здания)

* Самый популярный тип дома — h (дом, вилла, коттедж).

Столбец **SellerG** (риелтор)

* В наших данных нам известно о 268 различных риэлторских компаниях, однако самой главной «акулой» в этом бизнесе является компания Nelson — они продали 1 565 различных домов.

Столбец **Date** (дата продажи)

В нашей таблице содержится информация за 58 дней, при этом наибольшее число продаж (473) пришлось на 27 мая 2017 года.

## ПОЛУЧЕНИЕ ЧАСТОТЫ УНИКАЛЬНЫХ ЗНАЧЕНИЙ В СТОЛБЦЕ

→ Для того чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания), используется метод value_counts().

Данный метод возвращает объект Series, в котором в качестве индексов выступают уникальные категории столбца, а значениями — соответствующая им частота.

Рассмотрим работу value_counts() на примере столбца с названиями районов:

In [69]:
melb_data['Regionname'].value_counts()

Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: Regionname, dtype: int64

Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром normalize. При установке значения этого параметра на True результат будет представляться в виде доли (относительной частоты):

In [70]:
melb_data['Regionname'].value_counts(normalize=True)

Southern Metropolitan         0.345729
Northern Metropolitan         0.286451
Western Metropolitan          0.217084
Eastern Metropolitan          0.108321
South-Eastern Metropolitan    0.033137
Eastern Victoria              0.003903
Northern Victoria             0.003019
Western Victoria              0.002356
Name: Regionname, dtype: float64

Из результатов мы можем сделать вывод, что наименьшее количество объектов (менее 1%) было продано в районах Victoria, а наибольшее — в районах Metropolitan.

In [72]:
melb_data.describe()

Unnamed: 0,index,Rooms,Price,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0
mean,6789.5,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.611856,558.416127,139.633972,1966.788218,-37.809203,144.995216,7454.417378
std,3920.352663,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.960793,3990.669241,392.217403,29.088642,0.07926,0.103916,4378.581772
min,0.0,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,3394.75,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,122.0,1960.0,-37.856822,144.9296,4380.0
50%,6789.5,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,10184.25,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,129.94,1975.0,-37.7564,145.058305,10331.0
max,13579.0,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


In [73]:
melb_data['Type'].value_counts(normalize=True)

h    0.695803
u    0.222165
t    0.082032
Name: Type, dtype: float64

## АГРЕГИРУЮЩИЕ МЕТОДЫ

✍ Мы научились выводить информацию о статистических показателях с помощью метода describe(). Однако этот метод становится не очень удобным, когда необходимо найти только один статистический параметр, например только среднюю цену,  и использовать их в дальнейшем коде. Поэтому в Pandas предусмотрены инструменты быстрого вычисления показателей с помощью агрегирующих методов. 

Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

Ниже приведена таблица основных агрегирующих методов:

#### МЕТОД	       СТАТИСТИЧЕСКИЙ ПАРАМЕТР

.count()	    Количество непустых значений

.mean()	        Среднее значение

.min()	        Минимальное значение

.max()	        Максимальное значение

.deviance()	    Дисперсия

.std()	        Стандартное отклонение

.sum()	        Сумма

.quantile(x)	Квантиль уровня x

.nunique()	    Число уникальных значений

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

axis  — определяет, подсчитывать параметр по строкам или по столбцам;
numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).
Разберём агрегирующие функции на примерах.

Вычислим среднюю цену на объекты недвижимости:

In [74]:
print(melb_data['Price'].mean())

1075684.079455081


Найдём максимальное количество парковочных мест:

In [75]:
print(melb_data['Car'].max())

10


А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

In [77]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 1752934775.88


Найдём, насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

In [79]:
landsize_median = melb_data['Landsize'].median()
landsize_mean = melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


В результате получаем долю отклонения медианы от среднего значения. Умножив результат на 100, получим его в процентах. Отклонение медианы от среднего значения на 21% является довольно большим, и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. 

## МОДАЛЬНОЕ ЗНАЧЕНИЕ

→ Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [80]:
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


Примечание. Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

In [81]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

Чему равно максимальное количество домов на продажу в районе (Propertycount)?

In [82]:
melb_data['Propertycount'].max()

21650

Чему равно стандартное отклонение (разброс) расстояния от центра города до объекта недвижимости?

In [83]:
melb_data['Distance'].std()

5.868724943071711

Чему равно отклонение (в процентах) медианного значения площади здания от его среднего значения?

In [85]:
buildingarea_median = melb_data['BuildingArea'].median()
buildingarea_mean = melb_data['BuildingArea'].mean()
print(abs((buildingarea_median - buildingarea_mean)/buildingarea_mean))

0.09764079662364533


Сколько спален чаще всего встречается в домах в Мельбурне?

In [89]:
melb_data['Bedroom'].mode()

0    3
Name: Bedroom, dtype: int64

# Фильтрация данных в DataFrame

✍ Часто возникает необходимость исследовать определённую группу объектов по какому-то условию, например найти здания с ценой меньше 1 миллиона или выделить из всей таблицы помещения с двумя комнатами.

Такие задачи называются **задачами фильтрации**.

Под **фильтрацией** в DataFrame подразумевается получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 

Разберём классический способ фильтрации в DataFrame — фильтрацию с помощью масок.

**Маской** называется Series, которая состоит из булевых значений, при этом значения True соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение False (например, цена > 2 млн).

Создадим маску и положим её в переменную с именем mask. Синтаксис очень прост:

In [90]:
mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

Для фильтрации нужно просто подставить переменную mask в индексацию DataFrame. Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие — убирать (выведем первые пять строк отфильтрованной таблицы):

In [92]:
display(melb_data[mask].head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280,"-37.8436, 144.9557"


Примечание. В результате выполнения фильтрации возвращается новый DataFrame, полученный из исходного, при этом исходная таблица melb_data остаётся без изменений.

Также вовсе не обязательно заносить маску в отдельную переменную — можно сразу вставлять условие в операцию индексации DataFrame, например:

In [93]:
melb_data[melb_data['Rooms'] == 3].shape[0]

5881

Условия можно комбинировать, используя операторы & (логическое И) и | (логическое ИЛИ). Условия при этом заключаются в скобки.

Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:

In [94]:
melb_data[(melb_data['Rooms'] ==3) & (melb_data['Price'] < 300000)].shape[0]

3

Таких зданий оказалось всего три. Немного «ослабим» условие: теперь нас будут интересовать дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:

In [95]:
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

68

Примечание. Обратите внимание, что использование привычных операторов and и or будет неверным и приведёт к ошибке, так как они выполняют логические операции между двумя булевыми числами. В нашем случае слева и справа от оператора стоят маски (объекты Series), для которых логическую операцию надо совершить поэлементно, а операторы and и or для такого не предназначены.

Фильтрацию часто сочетают со статистическими методами. Давайте найдём максимальное количество комнат в таунхаусах. Так как в результате фильтрации получается DataFrame, то обратимся к нему по столбцу Rooms и найдём максимальное значение:

In [96]:
melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

А теперь более сложный трюк: найдём медианную площадь здания у объектов, чья цена выше средней. Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:

In [97]:
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

126.0

Фильтрация находит применение в очистке данных.

Под очисткой данных понимается удаление из данных аномальных значений (выбросов), пропусков и данных, которые не несут информацию.

Причин появления таких дефектов в данных множество: неправильная передача по сети, неверная выгрузка из базы, человеческий фактор и т. д.

→ Проблема аномальных значений состоит в том, что если мы обучаем модель на данных, содержащих выбросы, то мы имеем немалый шанс получить менее верный прогноз, чего нам, конечно же, не хотелось бы.

У скольких объектов недвижимости из таблицы melb_data отсутствуют ванные комнаты?

In [98]:
melb_data[melb_data['Bathroom'] == 0].shape[0]

34

Сколько в таблице melb_data объектов недвижимости, которые были проданы риелторской компанией Nelson и стоимость которых составила больше 3 миллионов?

In [101]:
melb_data[(melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3000000)].shape[0]

5

Какова минимальная стоимость участка без здания (площадь здания равна 0) в таблице melb_data?

In [103]:
melb_data[melb_data['BuildingArea'] == 0]['Price'].min()

412500.0

Какова средняя цена объектов недвижимости в таблице melb_data с ценой менее одного миллиона, в которых либо количество комнат больше пяти, либо здание моложе 2015 года?

In [110]:
melb_data[(melb_data['Price'] < 1e6) & ((melb_data['Rooms'] > 5) | (melb_data['YearBuilt'] > 2015))]['Price'].mean()

769238.6363636364

In [111]:
melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3e6)]['Regionname'].mode()

0    Northern Metropolitan
Name: Regionname, dtype: object

* gender — пол;
* race/ethnicity — раса/этническая принадлежность;
* parental level of education — уровень образования родителей;
* lunch — какие обеды получал студент во время обучения (standard — платный, free/reduced — бесплатный);
* test preparation course — посещал ли студент курсы подготовки к экзаменам (none — не посещал, completed — посещал);
* math score, reading score, writing score — баллы по математике, чтению и письму по сто балльной шкале.

In [114]:
students_data = pd.read_csv('data/students_performance.csv')
display(students_data)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


Каков балл по письму у студента под индексом 155?

In [119]:
print(students_data.loc[155])

gender                               female
race/ethnicity                      group C
parental level of education    some college
lunch                              standard
test preparation course           completed
math score                               70
reading score                            89
writing score                            88
Name: 155, dtype: object


In [120]:
students_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


Каков у студентов средний балл по математике?

In [124]:
students_data['math score'].mean()

66.089

Какая расовая группа является самой крупной в учебном заведении?

In [127]:
students_data.describe(include='object')

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course
count,1000,1000,1000,1000,1000
unique,2,5,6,2,2
top,female,group C,some college,standard,none
freq,518,319,226,645,642


Каков средний балл по чтению у студентов, которые посещали курсы подготовки к экзаменам?

In [129]:
students_data[students_data['test preparation course'] == 'completed']['reading score'].mean()

73.89385474860335

Сколько студентов получили 0 баллов по математике?

In [132]:
students_data[students_data['math score'] == 0].shape[0]

1

Проверьте гипотезу: у студентов с оплачиваемым питанием средний балл по математике выше, чем у студентов с льготным питанием.
В качестве ответа напишите наибольший средний балл по математике среди этих групп студентов.

In [138]:
lunch_paid = students_data[students_data['lunch'] == 'standard']['math score'].mean()
lunch_free = students_data[students_data['lunch'] == 'free/reduced']['math score'].mean()

print(lunch_paid)
print(lunch_free)

70.03410852713178
58.92112676056338


Каков процент студентов, родители которых имеют высшее образование уровня бакалавриата (bachelor's degree)?

In [139]:
students_data['parental level of education'].value_counts(normalize=True)

some college          0.226
associate's degree    0.222
high school           0.196
some high school      0.179
bachelor's degree     0.118
master's degree       0.059
Name: parental level of education, dtype: float64

Насколько медианный балл по письму у студентов в расовой группе А отличается от среднего балла по письму у студентов в расовой группе C?

In [140]:
a = students_data[students_data['race/ethnicity'] == 'group A']['writing score'].median()
c = students_data[students_data['race/ethnicity'] == 'group C']['writing score'].mean()
print(abs(a - c))


5.827586206896555
