In [None]:
# СОЗДАНИЕ SERIES

# Импорт библиотеки pandas — при выполнении последовательно всех примеров ниже, импорт библиотеки pandas 
# выполняется один раз.
import pandas as pd

# Способ 1 — из списка с использованием параметров функции pd.Series():

countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
print(countries)

# Способ 2 — из словаря, в котором ключами являются будущие метки, 
# а значениями — будущие значения Series, при этом использование параметра name также возможно:

countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
print(countries)

In [None]:
# ДОСТУП К ДАННЫМ В SERIES

# Доступ к элементам осуществляется с использованием loc или iloc.
# .loc вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, 
# так и список, чтобы получилось несколько элементов. 

# Например, для получения названия страны по коду "US" можно выполнить следующий код:
print(countries.loc['US'])

# Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список:
print(countries.loc[['US', 'RU', 'UK']])

# Примечание. Обратите внимание, что в случае обращения по одному индексу возвращается строка. 
# Если же обратиться по нескольким элементам, возвращается объект Series.

# .iloc также вызывается с квадратными скобками и принимает на вход порядковые номера элементов Series 
# (нумерация начинаются с 0). В него можно так же передавать как один индекс, так и диапазон чисел. 

# Например, для получения элемента по индексу "KZ" нужно обратиться через .iloc по номеру 6:
print(countries.iloc[6])

# Получим срез из исходной Series с первого по третий элемент:
print(countries.iloc[1:4])

# Примечание. Важно, что в последнем примере конечное значение диапазона не включается в результат 
# (берутся элементы с порядковыми номерами от 1 до 4, не включая последний).

# На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, 
# например countries[[‘UK’, 'US', ‘UA’]] или countries[[0, 2, 4]]. Оба варианта являются равноправными для Series, 
# однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, 
# а в контексте этой структуры эти варианты уже неравноправны.

In [None]:
# ЗАДАНИЕ 2.4

# Напишите функцию create_medications(names, counts), 
# создающую Series medications, индексами которого являются названия лекарств names, а значениями — их количество в партии counts.
# Также напишите функцию get_percent(medications, name), которая возвращает долю товара с именем name от общего количества товаров 
# в партии в процентах.

import pandas as pd
def create_medications(names, counts):
    medications = pd.Series(index=names, data=counts)
    return medications
def get_percent(medications, name):
    return(medications.loc[name]/sum(medications) * 100)

In [None]:
# DATAFRAME КАК СТРУКТУРА ДАННЫХ

# СОЗДАНИЕ DATAFRAME

# DataFrame создаётся с помощью функции pd.DataFrame(). 
# Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

# СПОСОБ 1

# Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, 
# а значениями — списки, в которых хранится содержимое этих столбцов:

countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

# Примечание. В данном коде мы создаём таблицу, столбцы которой соответствуют названиям стран, 
# их населению в миллионах человек и площади в квадратных километрах.

# Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. 
# Исправим это, задав индексы вручную:

countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
print(countries_df)

# СПОСОБ 2

# Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
countries_df

In [None]:
# AXIS В DATAFRAME

# Как уже было сказано, DataFrame является двумерной структурой данных, 
# что означает наличие двух возможных направлений движения в ней: вдоль строк и вдоль столбцов. 

# Например, мы можем удалять как строки, так и столбцы таблицы, вычислять среднее значение как по столбцам, так и по строкам таблицы.

# При работе с Pandas важно уметь указывать направление работы метода, который используется. 
# Для этого вводится понятие axis (ось, координата). Движение по строкам в таблице обозначается axis с индексом 0, 
# а движение по столбцам — axis с индексом 1.

# Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, 
# то есть они выполняют операции со строками, если не задавать axis вручную.

# Рассмотрим разницу в результатах работы методов в зависимости от 
# параметра axis на примере использования метода DataFrame mean() — вычисление среднего по таблице.

# Считаем среднее по строкам (axis = 0) в каждом столбце:
print(countries_df.mean(axis=0))

# Считаем среднее по столбцам (axis = 1) в каждой строке:
print(countries_df.mean(axis=1))

In [None]:
# ДОСТУП К ДАННЫМ В DATAFRAME

# Доступ к столбцу можно получить разными способами:
# # Можно обратиться к DataFrame по имени столбца через точку:
print(countries_df.population)
# Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.

# Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:
print(countries_df['population'])

# При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам 
# с помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, 
# а вторым — имя (порядковый номер) столбца.

# Рассмотрим на примерах:

# 1
# Получим площадь Великобритании:
print(countries_df.loc['UK', 'square'])

# 2
# Получим население и площадь, соответствующие России:
print(countries_df.loc['RU', ['population', 'square']])

# 3
# Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:
print(countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']])
# или
print(countries_df.iloc[4:8, 1:3])

In [None]:
# ЗАДАНИЕ 3.5

# Создайте функцию create_companyDF(income, expenses, years), которая  возвращает DataFrame,
# составленный из входных данных со столбцами Income и Expenses и индексами, соответствующими годам рассматриваемого периода. 
# Пример такого DataFrame представлен ниже.
# Также напишите функцию get_profit(df, year), которая возвращает разницу между доходом и расходом, 
# записанными в таблице df, за год year. 
# Учтите, что если информация за запрашиваемый год не указана в вашей таблице, вам необходимо вернуть None.

def create_companyDF(income, expenses, years):
    df = pd.DataFrame({
        'Income': income,
        'Expenses': expenses
        },
        index = years
    )
    return df
def get_profit(df, year):
    if year in df.index:
        profit = df.loc[year, 'Income'] - df.loc[year, 'Expenses']
    else:
        profit=None
    return profit

In [None]:
# ЗАПИСЬ В CSV-ФАЙЛ

# Предположим, что мы захотели сохранить созданный нами ранее DataFrame. 
# Самым простым и распространённым источником табличных данных является формат csv (comma-separated values). 
# В данном формате ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.

# Экспорт данных в формат csv осуществляется с помощью метода DataFrame to_csv().  

# Кликните на плашку, чтобы увидеть информацию ↓

# Основные параметры метода DataFrame to_csv()
# path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
# sep — разделитель данных в выходном файле (по умолчанию ',');
# decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
# columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
# index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).
# Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь давайте сохраним наш DataFrame с информацией о странах 
# в csv-файл countries.csv и положим файл в папку data. При этом укажем, что разделителем в нашем файле будет являться символ ';', 
# а также то, что нам не нужен дополнительный столбец с индексами строк:

countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('data/countries.csv', index=False, sep=';')

In [None]:
# ЧТЕНИЕ CSV-ФАЙЛА

# Для чтения таблицы из csv-файла используется функция модуля Pandas read_csv. 
# Функция возвращает DataFrame и имеет несколько важных параметров.

# Кликните на плашку, чтобы увидеть информацию ↓

# Основные параметры функции read_csv()
# Убедимся, что сохранённый нами ранее файл создался верно. Для этого прочитаем его в переменную countries_data и выведем её на экран. 
# Не забудем также о том, что мы использовали в качестве разделителя ';':

countries_data = pd.read_csv('data/countries.csv', sep=';')
countries_data

In [None]:
# ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ

# На самом деле файл с данными не обязательно должен храниться у вас на компьютере. 
# Если он находится в открытом доступе по ссылке (например, на Google Диске или GitHub), 
# его можно прочитать и из интернета — для этого достаточно в функции read_csv() вместо пути до файла указать ссылку на файл. Например:

data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
data

In [None]:
# Данные представляют собой таблицу, в которой содержится 23 столбца:

# index — номер строки
# Suburb — наименование пригорода
# Address — адрес
# Rooms — количество комнат в помещении
# Type — тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
# Price — цена помещения
# Method — метод продажи 
# SellerG — риэлторская компания
# Date — дата продажи (в формате день/месяц/год)
# Distance — расстояния до объекта от центра Мельбурна 
# Postcode — почтовый индекс
# Bedroom — количество спален
# Bathroom — количество ванных комнат
# Car — количество парковочных мест
# Landsize — площадь прилегающей территории
# BuildingArea — площадь здания
# YearBuilt — год постройки
# CouncilArea — региональное управление
# Lattitude — географическая широта
# Longitude — географическая долгота
# Regionname — наименование района Мельбурна
# Propertycount — количество объектов недвижимости в районе
# Coordinates — широта и долгота, объединённые в кортеж
# Прочитаем наши данные о недвижимости из csv-файла и запишем результирующий DataFrame в переменную melb_data:

melb_data = pd.read_csv('data/melb_data.csv', sep=',')

In [None]:
# ЗАДАНИЕ 5.1

# Какова цена объекта недвижимости под индексом 15?
print(melb_data.loc[15, 'Price'])

# ЗАДАНИЕ 5.2

# Когда был продан объект под индексом 90?
print(melb_data.loc[90, 'Date'])

# ЗАДАНИЕ 5.3

# Во сколько раз площадь участка, на котором находится здание с индексом 3521, больше площади участка, 
# на котором находится здание с индексом 1690? Ответ округлите до целого числа.
round(melb_data.loc[3521, 'Landsize'] / melb_data.loc[1690, 'Landsize'])

In [None]:
# Исследование структуры DataFrame

# Ранее мы прочитали файл melb_data.csv в DataFrame. Теперь настало время исследовать структуру данных и их основные характеристики.

# ВЫВОД ПЕРВЫХ И ПОСЛЕДНИХ СТРОК

# Часто бывает такое, что вывести на экран все строки таблицы является ресурсозатратной операцией, 
# а иногда и вовсе не представляется возможным. В большинстве случаев для того, чтобы понять структуру DataFrame и удостовериться, 
# что таблица подгрузилась верно, достаточно вывести несколько первых или последних строк.

# Для этого у DataFrame есть методы head() и tail(), которые возвращают n первых и n последних строк таблицы соответственно 
# (по умолчанию n = 5).

# Выведем первые пять строк нашей таблицы:
melb_data.head()

# Следующий код выведет семь последних строк нашей таблицы:
melb_data.tail(7)

In [None]:
# РАЗМЕРНОСТЬ ТАБЛИЦЫ

# Далее хотелось бы узнать размер таблицы — количество строк и количество столбцов. 
# Это можно сделать с помощью атрибута shape, который возвращает кортеж с количеством строк и столбцов:
melb_data.shape

# Таким образом, в наших данных содержится информация о 13 580 объектах недвижимости, и их описывают 23 признака.

In [None]:
# ПОЛУЧЕНИЕ ИНФОРМАЦИИ О СТОЛБЦАХ

# Для того чтобы получить более детальную информацию о столбцах таблицы, можно использовать метод DataFrame info():
melb_data.info()

# Данный метод выводит:

# информацию об индексах;
# информацию об общем количестве столбцов;
# таблицу, в которой содержится информация об именах столбцов (Column), количестве непустых значений (Non-Null Count) 
# в каждом столбце и типе данных столбца (Dtype), количестве столбцов, в которых используется определённый тип данных;
# количество оперативной памяти в мегабайтах, которое тратится на хранение данных.
# Из вывода метода info() становится понятно, что в нашей таблице есть столбец CouncilArea с пропущенными 
# значениями — количество непустых значений в столбце меньше, чем количество строк в таблице (12211 < 13580).

# Пустыми, или пропущенными, значениями называются значения в ячейках таблицы, которые не заполнены по какой-либо причине, 
# то есть на их месте стоит пустое место. В Pandas такие значения обозначаются символом NaN (Not-a-Number).

# Мы будем говорить о работе с пропусками в отдельном модуле, посвящённом очистке данных, а пока что не будем обращать на них внимания.

In [None]:
# ИЗМЕНЕНИЕ ТИПА ДАННЫХ В СТОЛБЦЕ

# Если присмотреться внимательнее к выводу метода info(), а конкретнее — к типам данных столбцов, становится понятно, 
# что некоторые признаки кодируются не совсем корректными типами данных. 

# Например, данные в столбцах, которые отражают количество, должны, по идее, выражаться целым числом 
# (Car, Bedroom, Bathroom и Propertyсount), однако кодируются float64 — числом с плавающей запятой размером 64 бита.

# Наконец, данные в столбце с годом постройки (YearBuilt) также представлены в формате чисел с плавающей точкой.

# Чтобы исправить это, можно воспользоваться методом astype(), который позволяет преобразовать тип данных столбца:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

In [None]:
# ПОЛУЧЕНИЕ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ

# Часто при работе с таблицей нужно быстро посмотреть на основные статистические свойства её столбцов. 
# Для этого можно воспользоваться методом DataFrame describe().

# По умолчанию метод работает с числовыми (int64 и float64) столбцами и показывает число непустых значений (count), 
# среднее (mean), стандартное отклонение (std), минимальное значение (min),  
# квантили уровней 0.25, 0.5 (медиана) и 0.75 (25%, 50%, 75%) и максимальное значение (max) для каждого столбца исходной таблицы.

# ДОПОЛНИТЕЛЬНО

# Мы ещё будем подробнее говорить о статистических параметрах в разделе по математике, но советуем вам ознакомиться с данными терминами:

# стандартное отклонение;
# квантили.
# Чтобы не увязнуть в обилии информации, выведем на экран значение статистических параметров только 
# для столбцов Distance (расстояние от объекта недвижимости до центра Мельбурна), BuildingArea (площадь здания) и Price (цена объекта):
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

In [None]:
# На самом деле метод describe() можно применять не только к числовым признакам. 
# С помощью параметра include можно указать тип данных, для которого нужно вывести описательную информацию.

# Например, для типа данных object метод describe() возвращает DataFrame, в котором указаны:

# количество непустых строк (count);
# количество уникальных значений (unique);
# самое частое значение — мода —  (top);
# частота — объём использования — этого значения (freq) для каждого столбца типа object исходной таблицы.
melb_data.describe(include=['object'])

# Также приведём несколько выводов, которые можно сделать из полученной таблицы:

# Столбец Suburb (пригород)

# Наибольшее количество проданных объектов (359) находилось в пригороде Reservoir.
# Столбец Type (тип здания)

# Самый популярный тип дома — h (дом, вилла, коттедж).
# Столбец SellerG (риелтор)

# В наших данных нам известно о 268 различных риэлторских компаниях, однако самой главной «акулой» 
# в этом бизнесе является компания Nelson — они продали 1 565 различных домов.
# Столбец Date (дата продажи)

# В нашей таблице содержится информация за 58 дней, при этом наибольшее число продаж (473) пришлось на 27 мая 2017 года.

In [None]:
# ПОЛУЧЕНИЕ ЧАСТОТЫ УНИКАЛЬНЫХ ЗНАЧЕНИЙ В СТОЛБЦЕ

# Для того чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений 
# (т.е. найти частоту для каждого уникального знания), используется метод value_counts().

# Данный метод возвращает объект Series, в котором в качестве индексов выступают уникальные категории столбца, 
# а значениями — соответствующая им частота.

# Рассмотрим работу value_counts() на примере столбца с названиями районов:
melb_data['Regionname'].value_counts()

In [None]:
# Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром normalize. 
# При установке значения этого параметра на True результат будет представляться в виде доли (относительной частоты):
melb_data['Regionname'].value_counts(normalize=True)

In [None]:
# ЗАДАНИЕ 6.8

# Сколько процентов от общего количества домов составляют таунхаусы (тип объекта — t)?
melb_data.describe(include=['object'])

# ЗАДАНИЕ 6.9

# Сколько процентов от общего количества домов составляют таунхаусы (тип объекта — t)?
#melb_data['Type'].value_counts(normalize=True)

In [None]:
# 7. Статистические методы
# Добавить страницу в мои закладки
# АГРЕГИРУЮЩИЕ МЕТОДЫ

# Мы научились выводить информацию о статистических показателях с помощью метода describe(). 
# Однако этот метод становится не очень удобным, когда необходимо найти только один статистический параметр, 
# например только среднюю цену,  и использовать их в дальнейшем коде. Поэтому в Pandas предусмотрены инструменты 
# быстрого вычисления показателей с помощью агрегирующих методов. 

# Агрегирующим в Pandas называется метод, который для каждого столбца возвращает 
# только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

# Ниже приведена таблица основных агрегирующих методов:

# МЕТОД	СТАТИСТИЧЕСКИЙ ПАРАМЕТР
# .count()	Количество непустых значений
# .mean()	Среднее значение
# .min()	Минимальное значение
# .max()	Максимальное значение
# .deviance()	Дисперсия
# .std()	Стандартное отклонение
# .sum()	Сумма
# .quantile(x)	Квантиль уровня x
# .nunique()	Число уникальных значений
# Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, 
# в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. 
# В случае применения метода к отдельному столбцу результатом вычислений станет число.

# В каждый метод можно передать некоторые параметры, среди которых:

# axis  — определяет, подсчитывать параметр по строкам или по столбцам;
# numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).
# Разберём агрегирующие функции на примерах.

# Вычислим среднюю цену на объекты недвижимости:

print(melb_data['Price'].mean())
# 1075684.079455081

# Найдём максимальное количество парковочных мест:
print(melb_data['Car'].max())
# 10

# А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. 
# Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))
# Total income of real estate agencies: 1752934775.88

# Найдём, насколько медианная площадь территории отличается от её среднего значения. 
# Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)
# 0.21205713983546193

# В результате получаем долю отклонения медианы от среднего значения. 
# Умножив результат на 100, получим его в процентах. Отклонение медианы от среднего значения на 21% является довольно большим, 
# и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. 

In [None]:
# МОДАЛЬНОЕ ЗНАЧЕНИЕ

# Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. 
# Он вычисляется с помощью метода mode().

# Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. 
# Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

# Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:
print(melb_data['Rooms'].mode())
# 0    3
# dtype: int64

# Примечание. Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. 
# Так, например, с помощью следующего кода можно найти наиболее распространённое название района:
melb_data['Regionname'].mode()

In [None]:
# Задание  7.2
print(melb_data['Propertycount'].max())

# Задание 7.3

# Чему равно стандартное отклонение (разброс) расстояния от центра города до объекта недвижимости?
print(round(melb_data['Distance'].std()))

# Задание 7.4

# Чему равно отклонение (в процентах) медианного значения площади здания от его среднего значения?
building_median = melb_data['BuildingArea'].median() 
building_mean =  melb_data['BuildingArea'].mean()
deviance = abs(building_median - building_mean)/building_mean
print(round(deviance * 100, 2))

# Задание 7.5

# Задан ряд чисел [1, 2, 4, 2, 3, 2, 1, 5, 6]. Чему равна мода в данном ряду?
num_list = [1, 2, 4, 2, 3, 2, 1, 5, 6]
num_df = pd.DataFrame(data=num_list)
print(f'mode ряда: {num_df.mode()}')

# Задание 7.6

# Сколько спален чаще всего встречается в домах в Мельбурне?
print(melb_data['Bedroom'].mode())

In [None]:
# 8. Фильтрация данных в DataFrame
# Добавить страницу в мои закладки
# Часто возникает необходимость исследовать определённую группу объектов по какому-то условию, 
# например найти здания с ценой меньше 1 миллиона или выделить из всей таблицы помещения с двумя комнатами.

# Такие задачи называются задачами фильтрации.

# Под фильтрацией в DataFrame подразумевается получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 

# Разберём классический способ фильтрации в DataFrame — фильтрацию с помощью масок.

# Маской называется Series, которая состоит из булевых значений, при этом значения True соответствуют тем индексам, 
# для которых заданное условие выполняется, в противном случае ставится значение False (например, цена > 2 млн).

# Создадим маску и положим её в переменную с именем mask. Синтаксис очень прост:
mask = melb_data['Price'] > 2000000
print(mask)

# Для фильтрации нужно просто подставить переменную mask в индексацию DataFrame. Маска показывает, 
# какие строки нужно оставлять в результирующем наборе, 
# а какие — убирать (выведем первые пять строк отфильтрованной таблицы):
print(melb_data[mask].head())

# Примечание. В результате выполнения фильтрации возвращается новый DataFrame, 
# полученный из исходного, при этом исходная таблица melb_data остаётся без изменений.

In [None]:

# Также вовсе не обязательно заносить маску в отдельную переменную — можно сразу вставлять условие в операцию индексации DataFrame,
# например:
melb_data[melb_data['Price'] > 2000000]

# Найдём количество зданий с тремя комнатами. Для этого отфильтруем таблицу по условию: обратимся к результирующей 
# таблице по столбцу Rooms и найдём число строк в ней с помощью атрибута shape:
melb_data[melb_data['Rooms'] == 3].shape[0]
# 5881

# Условия можно комбинировать, используя операторы & (логическое И) и | (логическое ИЛИ). Условия при этом заключаются в скобки.
# Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]
# 3

# Таких зданий оказалось всего три. Немного «ослабим» условие: теперь нас будут интересовать дома с ценой менее 300 тысяч, 
# у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]
# 68

# Примечание. Обратите внимание, что использование привычных операторов and и or будет неверным и приведёт к ошибке, 
# так как они выполняют логические операции между двумя булевыми числами. В нашем случае слева и справа от оператора стоят маски 
# (объекты Series), для которых логическую операцию надо совершить поэлементно, а операторы and и or для такого не предназначены.

# Фильтрацию часто сочетают со статистическими методами. Давайте найдём максимальное количество комнат в таунхаусах. 
# Так как в результате фильтрации получается DataFrame, то обратимся к нему по столбцу Rooms и найдём максимальное значение:
melb_data[melb_data['Type'] == 't']['Rooms'].max()
# 5

# А теперь более сложный трюк: найдём медианную площадь здания у объектов, чья цена выше средней. 
# Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()
# 126.0

# Фильтрация находит применение в очистке данных.
# Под очисткой данных понимается удаление из данных аномальных значений (выбросов), пропусков и данных, которые не несут информацию.
# Причин появления таких дефектов в данных множество: неправильная передача по сети, неверная выгрузка из базы, 
# человеческий фактор и т. д.
# Проблема аномальных значений состоит в том, что если мы обучаем модель на данных, содержащих выбросы, т
# о мы имеем немалый шанс получить менее верный прогноз, чего нам, конечно же, не хотелось бы.

In [None]:
# Задание 8.1

# У скольких объектов недвижимости из таблицы melb_data отсутствуют ванные комнаты?
melb_data[melb_data['Bathroom'] == 0].shape[0]
 
# Задание 8.2

# Сколько в таблице melb_data объектов недвижимости, которые были проданы риелторской компанией Nelson 
# и стоимость которых составила больше 3 миллионов?
melb_data[(melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3e6)].shape[0]

# Задание 8.3

# Какова минимальная стоимость участка без здания (площадь здания равна 0) в таблице melb_data?
# Запишите ответ в виде целого числа.
melb_data[(melb_data['BuildingArea'] == 0)]['Price'].min()

# Задание 8.4

# Какова средняя цена объектов недвижимости в таблице melb_data с ценой менее одного миллиона, 
# в которых либо количество комнат больше пяти, либо здание моложе 2015 года?
# Округлите ответ до целого числа.
round(melb_data[(melb_data['Price']<1e6) & ((melb_data['Rooms']>5) | (melb_data['YearBuilt'] > 2015))]['Price'].mean())

# Задание 8.5

# В каком районе Мельбурна чаще всего продаются виллы и коттеджи (тип здания — h) с ценой меньше трёх миллионов?
melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)]['Regionname'].mode()

In [37]:
student_data = pd.read_csv('data/students_performance.csv', sep=',')
student_data.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [None]:
# Задание 9.1

# Данные о скольких студентах содержатся в таблице?
student_data.shape[0]

# Задание 9.2

# Каков балл по письму у студента под индексом 155?
student_data.loc[155, 'writing score']

# Задание 9.3

# Сколько суммарно пропущенных значений в таблице?
student_data.info()

# Задание 9.4

# Сколько столбцов в таблице имеет тип данных object?
student_data.info()

# Задание 9.5

# Какой объём памяти (в килобайтах) занимает таблица?
student_data.info()

# Задание 9.6

# Каков у студентов средний балл по математике?
int(student_data['math score'].mean())

# Задание 9.7

# Какая расовая группа является самой крупной в учебном заведении?
# В качестве ответа введите идентификатор группы (A, B, C, D, F).
student_data['race/ethnicity'].mode()

# Задание 9.8

# Каков средний балл по чтению у студентов, которые посещали курсы подготовки к экзаменам?
# Округлите ответ до целого числа.
round(student_data[student_data['test preparation course'] == 'completed']['reading score'].mean())

# Задание 9.9

# Сколько студентов получили 0 баллов по математике?
student_data[student_data['math score'] == 0].shape[0]

# Задание 9.10

# Проверьте гипотезу: у студентов с оплачиваемым питанием средний балл по математике выше, чем у студентов с льготным питанием.
# В качестве ответа напишите наибольший средний балл по математике среди этих групп студентов.
# Округлите ответ до целого числа.
student_data[student_data['lunch'] == 'standard']['math score'].mean()
student_data[student_data['lunch'] == 'free/reduced']['math score'].mean()

# Задание 9.11

# Каков процент студентов, родители которых имеют высшее образование уровня бакалавриата (bachelor's degree)?
# Округлите ответ до целого числа.
student_data["parental level of education"].value_counts(normalize=True)

# Задание 9.12

# Насколько медианный балл по письму у студентов в расовой группе А отличается от среднего балла 
# по письму у студентов в расовой группе C?
# Округлите ответ до целого и запишите модуль этого числа.
a = student_data[student_data['race/ethnicity'] == 'group A']['writing score'].median()
b = student_data[student_data['race/ethnicity'] == 'group C']['writing score'].mean()
print(round(abs(a - b)))