##### Проверяем версию Pandas:

In [None]:
import pandas as pd
pd.__version__

##### Способы создания Series:

* Первый способ - из списка с использованием параметров функции Series():

In [None]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

* Второй способ - из словаря, где метки - это ключи словаря, а значения - это значения по ключам в словаре, а также с использованием параметра name функции Series():

In [None]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

##### Доступ к данным объекта Series. Используем .loc и .iloc

In [None]:
# В качестве метки можно использовать индекс
print(countries.loc['US'])
# США (возвращается строка!)

In [None]:
# В качестве метки можно использовать список
print(countries.loc[['US', 'RU', 'UK']])
'''
US       США
RU    Россия
UK    Англия
Name: countries, dtype: object'''

In [None]:
# В качестве метки порядковый номер объекта
print(countries.iloc[6])

In [None]:
# В качестве метки диапазон порядковых номеров, при этом последний не включительно!
print(countries.iloc[1:4])

Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь давайте сохраним наш DataFrame с информацией о странах в csv-файл countries.csv и положим файл в папку data. При этом укажем, что разделителем в нашем файле будет являться символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк:

In [None]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('data/countries.csv', index=False, sep=';')

Убедимся, что сохранённый нами ранее файл создался верно. Для этого прочитаем его в переменную countries_data и выведем её на экран. Не забудем также о том, что мы использовали в качестве разделителя ';':

In [None]:
countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

 #### Знакомимся с данными: недвижимость

Обратите внимание, что в учебных целях мы изменили исходный датасет с Kaggle. При решении задач пользуйтесь изменённой таблицей (csv-файл находится в zip-архиве — распакуйте архив, прежде чем продолжать работу!).

Исходный датасет и более детальное описание к нему находятся здесь.https://www.kaggle.com/datasets/dansbecker/melbourne-housing-snapshot

Важно! Для того чтобы ваш код совпадал с нашим, положите файл в ту самую папку data, которую мы создали ранее.

Данные представляют собой таблицу, в которой содержится 23 столбца:

* index — номер строки
* Suburb — наименование пригорода
* Address — адрес
* Rooms — количество комнат в помещении
* Type — тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
* Price — цена помещения
* Method — метод продажи 
* SellerG — риэлторская компания
* Date — дата продажи (в формате день/месяц/год)
* Distance — расстояния до объекта от центра Мельбурна 
* Postcode — почтовый индекс
* Bedroom — количество спален
* Bathroom — количество ванных комнат
* Car — количество парковочных мест
* Landsize — площадь прилегающей территории
* BuildingArea — площадь здания
* YearBuilt — год постройки
* CouncilArea — региональное управление
* Lattitude — географическая широта
* Longitude — географическая долгота
* Regionname — наименование района Мельбурна
* Propertycount — количество объектов недвижимости в районе
* Coordinates — широта и долгота, объединённые в кортеж

In [None]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

Задание 5.1. Какова цена объекта недвижимости под индексом 15?

In [None]:
display(melb_data.loc[15,['Price']])

Задание 5.2. Когда был продан объект под индексом 90?

In [None]:
display(melb_data.loc[90,['Date']])

Задание 5.3. Во сколько раз площадь прилегающей территории, на которой находится здание с индексом 3521, больше площади участка, на котором находится здание с индексом 1690? Ответ округлите до целого числа.

In [None]:
display(round(float(melb_data.loc[3521,['Landsize']]/melb_data.loc[1690,['Landsize']])))

В большинстве случаев для того, чтобы понять структуру DataFrame и удостовериться, что таблица подгрузилась верно, достаточно вывести несколько первых или последних строк. Для этого у DataFrame есть методы head() и tail(), которые возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5).

In [None]:
display(melb_data.head())

In [None]:
melb_data.tail(7) #display seven last rows

Узнать размер таблицы — количество строк и количество столбцов. Это можно сделать с помощью атрибута shape, который возвращает кортеж с количеством строк и столбцов:

In [None]:
display(melb_data.shape)

Для того чтобы получить более детальную информацию о столбцах таблицы, можно использовать метод DataFrame info():

In [None]:
melb_data.info()

Чтобы исправить это, можно воспользоваться методом astype(), который позволяет преобразовать тип данных столбца:

In [None]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

Чтобы не увязнуть в обилии информации, выведем на экран значение статистических параметров только для столбцов Distance (расстояние от объекта недвижимости до центра Мельбурна), BuildingArea (площадь здания) и Price (цена объекта):

In [None]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

In [None]:
melb_data.describe(include=['object'])

Для того чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания), используется метод value_counts().
Рассмотрим работу value_counts() на примере столбца с названиями районов:

In [None]:
melb_data['Regionname'].value_counts()

Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром normalize. При установке значения этого параметра на True результат будет представляться в виде доли (относительной частоты):

In [None]:
melb_data['Regionname'].value_counts(normalize=True)

In [None]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

In [None]:
melb_data['Type'].value_counts()
print((1114/(9449+3017+1114))*100)

Вычислим среднюю цену на объекты недвижимости:

In [None]:
print(melb_data['Price'].mean())

Найдём максимальное количество парковочных мест:

In [None]:
print(melb_data['Car'].max())

А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

In [None]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Найдём, насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

In [None]:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

В результате получаем долю отклонения медианы от среднего значения. Умножив результат на 100, получим его в процентах. Отклонение медианы от среднего значения на 21% является довольно большим, и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. 

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [None]:
print(melb_data['Rooms'].mode())

In [None]:
melb_data['Regionname'].mode()

In [None]:
melb_data['Propertycount'].max()

Создадим маску и положим её в переменную с именем mask. Синтаксис очень прост:

In [None]:
mask = melb_data['Price'] > 2000000
display(mask)

Для фильтрации нужно просто подставить переменную mask в индексацию DataFrame. Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие — убирать (выведем первые пять строк отфильтрованной таблицы):

In [None]:
display(melb_data[mask].head())

In [None]:
melb_data[melb_data['Price'] > 2000000]

Найдём количество зданий с тремя комнатами. Для этого отфильтруем таблицу по условию: обратимся к результирующей таблице по столбцу Rooms и найдём число строк в ней с помощью атрибута shape:

In [None]:
melb_data[melb_data['Rooms'] == 3].shape[0]

Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:

In [None]:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

Таких зданий оказалось всего три. Немного «ослабим» условие: теперь нас будут интересовать дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:

In [None]:
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

Фильтрацию часто сочетают со статистическими методами. Давайте найдём максимальное количество комнат в таунхаусах. Так как в результате фильтрации получается DataFrame, то обратимся к нему по столбцу Rooms и найдём максимальное значение:

In [None]:
melb_data[melb_data['Type'] == 't']['Rooms'].max()

А теперь более сложный трюк: найдём медианную площадь здания у объектов, чья цена выше средней. Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:

In [None]:
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()
