In [2]:
import pandas as pd

# Создание Series

In [3]:

countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

# loc and iloc

In [4]:

print(countries.loc['US'])
print(countries.loc[['US', 'RU', 'UK']])

print(countries.iloc[6])
print(countries.iloc[1:4])


США
US       США
RU    Россия
UK    Англия
Name: countries, dtype: object
Казахстан
CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


# Создание DataFrame
## Способ 1

Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов

In [6]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


In [None]:
# создание индекса
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

## Способ 2
Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы

In [None]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

# Ось движения по таблице
Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

In [None]:
# среднее по колонкам
countries_df.mean(axis=0)

# среднее по строкам
countries_df.mean(axis=1)


# Доступ к данным
## доступ к столбцу

In [8]:
countries_df.population # если имя столбца указано без пробелов

# или

countries_df['population']


0     56.29
1     38.05
2    322.28
3    146.24
4     45.50
5      9.50
6     17.04
Name: population, dtype: float64

In [17]:
countries_df.loc[1, 'population']

38.05

## Доступ к ячейке
первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца

In [7]:
countries_df.loc['UK', 'square']

countries_df.loc['RU', ['population', 'square']]

countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]

countries_df.iloc[4:8, 1:3]


KeyError: 'UK'

# Запись в CSV
DataFrame to_csv()

In [18]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

# Сохраняем файл в папке data
# разделитель - символ ';', дополнительный столбец с индексами строк не нужен
countries_df.to_csv('data/countries.csv', index=False, sep=';') 

# Чтение CSV
read_csv

Параметры:
- filepath_or_buffer — путь до файла, который мы читаем;
- sep — разделитель данных (по умолчанию ',');
- decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
- names — список с названиями столбцов для чтения;
- skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).

In [19]:
countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


# Чтение CSV по ссылке

read_csv() + ссылка на файл

In [20]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


# Запись и чтение в других форматах

Запись:
- to_excel() — запись DataFrame в формат Excel-таблицы (.xslx);
- to_json() — запись DataFrame в формат JSON (.json);
- to_xml() — запись DataFrame в формат XML-документа (.xml);
- to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).

Чтение:
- read_excel() — чтение из формата Excel-таблицы(.xslx) в DataFrame;
- read_json() — чтение из формата JSON (.json) в DataFrame;
- read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
- read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

# Выводы строк
методы head() и tail()
возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5)

In [22]:
display(data.head())


Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


## Количество строк и колонок
data.shape

## Информация о колонках
data.info()

- информация об индексах;
- информация об общем количестве колонок;
- таблица, в которой содержится информация об именах колонок (Column), количестве непустых значений (Non-Null Count) в каждой колонке и типе данных колонки (Dtype), количестве колонок, в которых используется определённый тип данных;
- количество оперативной памяти в мегабайтах, которое тратится на хранение данных.

# Изменение типа данных в колонке
astype()

In [26]:
data1 = data.head(5)
display(data1.info)

<bound method DataFrame.info of    Unnamed: 0      Suburb           Address  Rooms Type      Price Method  \
0           1  Abbotsford      85 Turner St      2    h  1480000.0      S   
1           2  Abbotsford   25 Bloomburg St      2    h  1035000.0      S   
2           4  Abbotsford      5 Charles St      3    h  1465000.0     SP   
3           5  Abbotsford  40 Federation La      3    h   850000.0     PI   
4           6  Abbotsford       55a Park St      4    h  1600000.0     VB   

  SellerG       Date  Distance  ...  Bathroom  Car  Landsize  BuildingArea  \
0  Biggin  3/12/2016       2.5  ...       1.0  1.0     202.0           NaN   
1  Biggin  4/02/2016       2.5  ...       1.0  0.0     156.0          79.0   
2  Biggin  4/03/2017       2.5  ...       2.0  0.0     134.0         150.0   
3  Biggin  4/03/2017       2.5  ...       2.0  1.0      94.0           NaN   
4  Nelson  4/06/2016       2.5  ...       1.0  2.0     120.0         142.0   

   YearBuilt  CouncilArea  Lattitude

In [27]:
data1['Car'] = data1['Car'].astype('int64')
data1['Bedroom'] = data1['Bedroom'].astype('int64')
data1['Bathroom'] = data1['Bathroom'].astype('int64')
data1['Propertycount'] = data1['Propertycount'].astype('int64')
data1['YearBuilt'] = data1['YearBuilt'].astype('int64')
data1.info()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data1['Car'] = data1['Car'].astype('int64')


KeyError: 'Bedroom'

# Описательная статистика данных
describe()

По умолчанию метод работает с числовыми (int64 и float64) столбцами и показывает число непустых значений (count), среднее (mean), стандартное отклонение (std), минимальное значение (min),  квартили уровней 0.25, 0.5 (медиана) и 0.75 (25%, 50%, 75%) и максимальное значение (max) для каждого столбца исходной таблицы.

describe() можно применять не только к числовым признакам. С помощью параметра include можно указать тип данных, для которого нужно вывести описательную информацию.

Например, для типа данных object метод describe() возвращает DataFrame, в котором указаны:
- количество непустых строк (count);
- количество уникальных значений (unique);
- самое частое значение — мода —  (top);
- частота — объём использования — этого значения (freq) для каждого столбца типа object исходной таблицы.

In [98]:
data.describe().loc['Distance', 'BuildingArea' , 'Price']


KeyError: 'Distance'

In [29]:
data.describe(include=['object'])


Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname
count,18396,18396,18396,18396,18396,18396,12233,18395
unique,330,18134,3,5,305,58,33,8
top,Reservoir,14 Rose St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan
freq,541,3,12095,12034,2002,610,1163,6343


# Частота уникальных значений
value_counts()

Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром *normalize*. При установке значения этого параметра на True результат будет представляться в виде доли (относительной частоты)

In [37]:
data['Type'].value_counts()


h    12095
u     4296
t     2005
Name: Type, dtype: int64

In [41]:
data['Type'].value_counts(normalize=True)


h    0.657480
u    0.233529
t    0.108991
Name: Type, dtype: float64

# Аггрегирующие методы
метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее

- .count()	Количество непустых значений
- .mean()	Среднее значение
- .min()	Минимальное значение
- .max()	Максимальное значение
- .deviance()	Дисперсия
- .std()	Стандартное отклонение
- .sum()	Сумма
- .quantile(x)	Квантиль уровня x
- .nunique()	Число уникальных значений


В каждый метод можно передать некоторые параметры, среди которых:
- axis  — определяет, подсчитывать параметр по строкам или по столбцам;
- numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).


### самое распространенное значение в колонке
mode()

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию

In [42]:
data['Rooms'].mode()

0    3
dtype: int64

In [43]:
data['Regionname'].mode()


0    Southern Metropolitan
dtype: object

# Фильтрация
Маской называется Series, которая состоит из булевых значений, при этом значения True соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение False (например, цена > 2 млн).



In [45]:
mask = data['Price'] > 2000000

# накладываем маску на датасет
display(data[mask].head()) # здесь используются только первые 5 строк


Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
119,135,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,2.0,0.0,211.0,198.0,1890.0,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280.0
124,142,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,2.0,1.0,153.0,180.0,1880.0,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280.0
127,146,Albert Park,114 Victoria Av,3,h,2485000.0,S,Cayzer,8/10/2016,3.3,...,,,,,,,,,Southern Metropolitan,3280.0
128,147,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1.0,1.0,199.0,107.0,1900.0,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280.0
132,152,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,2.0,1.0,177.0,181.0,1880.0,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280.0


В результате возвращается новый DataFrame, исходная таблица остаётся без изменений.

Также вовсе не обязательно заносить маску в отдельную переменную — можно сразу вставлять условие в операцию индексации DataFrame, например:

melb_data[melb_data['Price'] > 2000000]

In [None]:
# найдем количество зданий с тремя комнатами
data[data['Rooms'] == 3].shape[0]


In [46]:
# можно использовать логические операторы
data[(data['Rooms'] == 3) & (data['Price'] < 300000)].shape[0]


5

In [47]:
#дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров
data[((data['Rooms'] == 3) | (data['BuildingArea'] > 100)) & (data['Price'] < 300000)].shape[0]


10

In [48]:
# максимальное количество комнат в таунхаусах
data[data['Type'] == 't']['Rooms'].max()


5

In [49]:
# найдём медианную площадь здания у объектов, чья цена выше средней
# для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой

mean_price = data['Price'].mean()
data[data['Price'] > mean_price]['BuildingArea'].median()

169.0

# Формат DATETIME
Записывается как YYYY-MM-DD HH: MM: SS, то есть составляющие времени указываются в следующем порядке: год, месяц, день, час, минута, секунда.

to_datetime(). 
параметр dayfirst=True будет обозначать, что в первоначальном признаке первым идет день

## формат datetime64
в этом формате при помощи аксессора **dt** можно выделять составляющие времени из каждой колонки:
- date — дата;
- year, month, day — год, месяц, день;
- time — время;
- hour, minute, second — час, минута, секунда;
- dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
- day_name — название дня недели;
- dayofyear — порядковый день года;
- quarter — квартал (интервал в три месяца).


In [52]:
data['Date'] = pd.to_datetime(data['Date'], dayfirst=True)
display(data['Date'])

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
18391   2017-08-26
18392   2017-08-26
18393   2017-08-26
18394   2017-08-26
18395   2017-08-26
Name: Date, Length: 18396, dtype: datetime64[ns]

In [54]:
# выделим год из колонки со временем
years_sold = data['Date'].dt.year
years_sold

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
18391    2017
18392    2017
18393    2017
18394    2017
18395    2017
Name: Date, Length: 18396, dtype: int64

In [55]:
# Примечание. Так как модальных значений в столбце может быть несколько, метод mode() возвращает объект Series, 
# даже если мода в данных только одна. 
# Чтобы сохранить стилистику вывода информации о годе продажи и выводить только число, 
# а не Series, мы обращаемся к результату работы метода mode() по индексу 0.

print('Mode year sold:', years_sold.mode()[0])


Mode year sold: 2017


# Вычисление интервалов между датами
Например, сколько дней прошло с 1 января 2016 года до момента продажи объекта. 
Для этого можно просто найти разницу между датами продаж и заявленной датой, представленной в формате datetime


In [56]:
delta_days = data['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
18391   603 days
18392   603 days
18393   603 days
18394   603 days
18395   603 days
Name: Date, Length: 18396, dtype: timedelta64[ns]

In [58]:
# Чтобы превратить количество дней из формата интервала (т.е. объекта Series) в формат целого числа дней, 
# можно воспользоваться аксессором dt для формата timedelta и извлечь из него атрибут days

display(delta_days.dt.days)

0        337
1         34
2        428
3        428
4        155
        ... 
18391    603
18392    603
18393    603
18394    603
18395    603
Name: Date, Length: 18396, dtype: int64

# Количество уникальных значений
метод nunique()

In [60]:
print(data['Address'].nunique())


18134


## Метод для уменьшения большого количества уникальных категорий

выделяем n подтипов, которые встречаются чаще всего, а остальные обозначаем как 'other' (другие)

Для этого к результату метода value_counts применим метод nlargest(), который возвращает n наибольших значений из Series. Зададим n=10, т. е. мы хотим отобрать десять наиболее популярных подтипов. Извлечём их названия с помощью атрибута index.


# Тип данных Category

метод astype(), в параметры передаем строку 'category'

У типа данных category есть свой специальный аксесcор cat, который позволяет получать информацию о своих значениях и преобразовывать их. 

In [65]:
data['Regionname'] = data['Regionname'].astype("category")
print(data['Regionname'].cat.categories)


Index(['Eastern Metropolitan', 'Eastern Victoria', 'Northern Metropolitan',
       'Northern Victoria', 'South-Eastern Metropolitan',
       'Southern Metropolitan', 'Western Metropolitan', 'Western Victoria'],
      dtype='object')


## Переименовывание категорий
С помощью метода аксессора rename_categories() можно легко переименовать текущие значения категорий. Для этого в данный метод нужно передать словарь, ключи которого — старые имена категорий, а значения — новые.

In [66]:
data['Type'] = data['Type'].astype("category")
data['Type'] = data['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
display(data['Type'])

0            house
1            house
2            house
3            house
4            house
           ...    
18391    townhouse
18392        house
18393        house
18394        house
18395        house
Name: Type, Length: 18396, dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

# Сортировка
sort_values()

- by — имя или список имён столбцов, по значениям которых производится сортировка.
- axis — ось, по которой производится сортировка (0 — строки, 1 — столбцы). По умолчанию сортировка производится по строкам.
- ascending — сортировка по возрастанию (от меньшего к большему). По умолчанию параметр выставлен на True, для сортировки по убыванию (от большего к меньшему) необходимо выставить его на False.
- ignore_index — создаются ли новые индексы в таблице. По умолчанию выставлен на False и сохраняет индексы изначальной таблицы.
- inplace — производится ли замена исходной таблицы на отсортированную. По умолчанию параметр выставлен на False, то есть замены не производится. Чтобы переопределить исходную таблицу на отсортированную, необходимо выставить этот параметр на True.

Для сортировки по значениям нескольких столбцов необходимо передать названия этих столбцов в параметр by в виде списка. При этом важно обращать внимание на порядок следования столбцов.

In [68]:
data.sort_values(by='Price').head(10)
data.sort_values(by='Date', ascending=False)

In [69]:
# Отсортируем таблицу сначала по возрастанию расстояния от центра города (Distance),
# а затем — по возрастанию цены объекта (Price). Для того чтобы вывод был более наглядным, 
# выделим каждую десятую строку из столбцов Distance и Price результирующей таблицы

data.sort_values(by=['Distance', 'Price']).loc[::10, ['Distance', 'Price']]



Unnamed: 0,Distance,Price
14510,0.0,387000.0
15245,0.0,565000.0
11754,0.0,850000.0
11899,0.7,590000.0
7309,1.2,415000.0
...,...,...
13164,38.0,1400000.0
14133,41.0,482000.0
16807,44.2,366000.0
16509,45.9,700000.0


# Комбинирование фильтрации с сортировкой

Найдём информацию о таунхаусах (Type), проданных компанией (SellerG) McGrath, у которых коэффициент соотношения площадей здания и участка (AreaRatio) меньше -0.8. Результат отсортируем по дате продажи (Date) в порядке возрастания, а после проведём сортировку по убыванию коэффициента соотношения площадей. Также обновим старые индексы на новые, установив параметр ignore_index на True. Для наглядности результата выберем из таблицы только столбцы Data и AreaRatio:

In [None]:
mask1 = data['AreaRatio'] < -0.8
mask2 = data['Type'] == 'townhouse'
mask3 = data['SellerG'] == 'McGrath'
data[mask1 & mask2 & mask3].sort_values(
    by=['Date', 'AreaRatio'],
    ascending=[True, False],
    ignore_index=True
).loc[:, ['Date', 'AreaRatio']]

# Создание групп
метод groupby()

- by — имя или список имён столбцов, по которым производится группировка.
- axis — ось, по которой производится группировка (0 — строки, 1 — столбцы). По умолчанию группировка производится по строкам.
- as_index — добавляется ли дополнительный индекс к таблице. По умолчанию установлен на True.

Метод groupby() возвращает объект DataFrameGroupBy, к которому можно применять агрегирующие методы (mean, median, sum и т. д.), чтобы рассчитывать показатели внутри каждой группы.

In [72]:
# получаем таблицу, на пересечении строк и столбцов которой находятся средние значения каждого числового признака
# вместо индексов - значения колонки Type

data.groupby(by='Type').mean()

Unnamed: 0_level_0,Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
Type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
house,12136.213973,3.280116,1234251.0,11.324936,3107.417197,3.23817,1.623146,1.783371,616.906468,176.609503,1955.330981,-37.804024,144.995623,7272.688549
townhouse,11260.754613,2.869327,924060.1,10.197406,3099.116708,2.812107,1.804878,1.560976,280.368186,138.353339,1998.474943,-37.816318,144.998335,7296.779551
unit,11219.798417,1.994181,618715.4,7.847008,3110.105471,1.972402,1.184381,1.134491,476.888154,81.037422,1980.272687,-37.824742,144.997721,8311.977648


In [71]:
# Если параметр as_index на False

data.groupby(by='Type', as_index=False).mean()

Unnamed: 0.1,Type,Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
0,house,12136.213973,3.280116,1234251.0,11.324936,3107.417197,3.23817,1.623146,1.783371,616.906468,176.609503,1955.330981,-37.804024,144.995623,7272.688549
1,townhouse,11260.754613,2.869327,924060.1,10.197406,3099.116708,2.812107,1.804878,1.560976,280.368186,138.353339,1998.474943,-37.816318,144.998335,7296.779551
2,unit,11219.798417,1.994181,618715.4,7.847008,3110.105471,1.972402,1.184381,1.134491,476.888154,81.037422,1980.272687,-37.824742,144.997721,8311.977648


In [73]:
# агрегирующие методы можно применять только к одному столбцу
# пример: сравним средние цены на объекты в зависимости от их типа

data.groupby('Type')['Price'].mean()

Type
house        1.234251e+06
townhouse    9.240601e+05
unit         6.187154e+05
Name: Price, dtype: float64

In [74]:
# минимальное значение расстояния от центра города до объекта в зависимости от его региона.
# Результат отсортируем по убыванию расстояния:
data.groupby('Regionname')['Distance'].min().sort_values(ascending=False)

Regionname
Western Victoria              29.8
Eastern Victoria              25.2
Northern Victoria             20.1
South-Eastern Metropolitan    14.7
Eastern Metropolitan           7.8
Western Metropolitan           4.3
Southern Metropolitan          0.7
Northern Metropolitan          0.0
Name: Distance, dtype: float64

# Групировка с несколькими агрегациями
**метод agg()**

принимает список строк с названиями агрегаций

In [81]:
melb_data = pd.read_csv('data/melb_data_fe.csv')
# Давайте построим таблицу для анализа продаж по месяцам. 
# Для этого найдём количество продаж, среднее и максимальное значения цен объектов недвижимости (Price), 
# сгруппированных по номеру месяца продажи (MonthSale). Результат отсортируем по количеству продаж в порядке убывания:
melb_data.groupby('MonthSale')['Price'].agg(
    ['count', 'mean', 'max']
).sort_values(by='count', ascending=False)

Unnamed: 0_level_0,count,mean,max
MonthSale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
8,1850,1056371.0,6500000.0
7,1835,931469.8,9000000.0
5,1644,1097807.0,8000000.0
6,1469,1068981.0,7650000.0
3,1408,1146762.0,5600000.0
4,1246,1050479.0,5500000.0
9,1188,1126349.0,6400000.0
10,854,1135970.0,6250000.0
11,750,1142503.0,5050000.0
12,725,1144737.0,5700000.0


In [83]:
# Если нужна полная информация обо всех основных статистических характеристиках внутри каждой группы, 
# можно воспользоваться методом agg(), передав в качестве его параметра строку 'describe':

melb_data.groupby('MonthSale')['Price'].agg('describe')

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
MonthSale,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,278.0,939792.1,577668.924214,170000.0,570500.0,795000.0,1111250.0,5200000.0
2,333.0,1169051.0,671564.357417,131000.0,710000.0,1020000.0,1478000.0,4735000.0
3,1408.0,1146762.0,709573.596867,85000.0,680000.0,945000.0,1400000.0,5600000.0
4,1246.0,1050479.0,591892.902979,145000.0,655000.0,905500.0,1298750.0,5500000.0
5,1644.0,1097807.0,668492.867996,145000.0,650000.0,905000.0,1371250.0,8000000.0
6,1469.0,1068981.0,606010.069052,222000.0,660000.0,900000.0,1325000.0,7650000.0
7,1835.0,931469.8,537390.803161,190000.0,586750.0,800000.0,1150000.0,9000000.0
8,1850.0,1056371.0,619617.476541,160000.0,635000.0,892000.0,1310000.0,6500000.0
9,1188.0,1126349.0,608734.690742,170000.0,725000.0,980000.0,1360000.0,6400000.0
10,854.0,1135970.0,692950.251627,250000.0,652625.0,950000.0,1416500.0,6250000.0


In [84]:
# метод agg() поддерживает использование и других функций. 
# Например, передадим дополнительно встроенную функцию set, 
# чтобы получить множество из агентств недвижимости, которые работают в каждом из регионов:

melb_data.groupby('Regionname')['SellerG'].agg(
    		['nunique', set]
)

Unnamed: 0_level_0,nunique,set
Regionname,Unnamed: 1_level_1,Unnamed: 2_level_1
Eastern Metropolitan,26,"{Buckingham, Buxton, Ray, RT, other, Nelson, C..."
Eastern Victoria,11,"{C21, McGrath, hockingstuart, Fletchers, HAR, ..."
Northern Metropolitan,40,"{Buckingham, Ray, RT, other, Raine, Nelson, C2..."
Northern Victoria,11,"{Buckingham, McGrath, hockingstuart, HAR, Ray,..."
South-Eastern Metropolitan,25,"{Buxton, Ray, other, Nelson, C21, RW, Stockdal..."
Southern Metropolitan,38,"{Buckingham, Buxton, Ray, RT, other, Raine, Ne..."
Western Metropolitan,34,"{Ray, RT, other, Bells, Raine, Nelson, C21, RW..."
Western Victoria,6,"{hockingstuart, HAR, Ray, other, YPA, Raine}"


# Сводные таблицы

In [86]:
# с помощью метода groupby
melb_data.groupby('Rooms')[['Price', 'BuildingArea']].median()


Unnamed: 0_level_0,Price,BuildingArea
Rooms,Unnamed: 1_level_1,Unnamed: 2_level_1
1,385000.0,107.0
2,690000.0,126.0
3,950000.0,126.0
4,1285000.0,142.0
5,1660000.0,176.0
6,1800000.0,126.0
7,1496000.0,216.5
8,1515000.0,126.0
10,900000.0,126.0


In [87]:
# Также можно построить таблицу, в которой мы будем учитывать не только число комнат, но и тип здания (Type). 
# Для этого в параметрах метода groupby() укажем список из нескольких интересующих нас столбцов.

melb_data.groupby(['Rooms', 'Type'])['Price'].mean()

# Такая организация индексов называется иерархической. 
# Вычисление параметра (средней цены) происходит во всех возможных комбинациях признаков.

Rooms  Type     
1      house        8.668655e+05
       townhouse    5.927045e+05
       unit         3.899289e+05
2      house        1.017238e+06
       townhouse    7.101585e+05
       unit         6.104905e+05
3      house        1.109233e+06
       townhouse    9.847087e+05
       unit         8.505963e+05
4      house        1.462283e+06
       townhouse    1.217092e+06
       unit         1.037476e+06
5      house        1.877327e+06
       townhouse    1.035000e+06
6      house        1.869508e+06
       unit         5.200000e+05
7      house        1.920700e+06
8      house        1.510286e+06
       unit         2.250000e+06
10     house        9.000000e+05
Name: Price, dtype: float64

In [88]:
# Для того, чтобы финальный результат был представлен в виде сводной таблицы 
# (первый группировочный признак по строкам, а второй — по столбцам), а не в виде Series с иерархическими индексами, 
# к результату чаще всего применяют метод unstack(), который позволяет переопределить вложенный индекс в виде столбцов таблицы:

melb_data.groupby(['Rooms', 'Type'])['Price'].mean().unstack()


Type,house,townhouse,unit
Rooms,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,866865.5,592704.5,389928.9
2,1017238.0,710158.5,610490.5
3,1109233.0,984708.7,850596.3
4,1462283.0,1217092.0,1037476.0
5,1877327.0,1035000.0,
6,1869508.0,,520000.0
7,1920700.0,,
8,1510286.0,,2250000.0
10,900000.0,,


# специальный и более простой метод — pivot_table()

- values — имя столбца, по которому необходимо получить сводные данные, применяя агрегирующую функцию;
- index — имя столбца, значения которого станут строками сводной таблицы;
- columns — имя столбца, значения которого станут столбцами сводной таблицы;
- aggfunc — имя или список имён агрегирующих функций (по умолчанию — подсчёт среднего, 'mean');
- fill_value — значение, которым необходимо заполнить пропуски (по умолчанию пропуски не заполняются).



Давайте построим ту же самую таблицу, но уже с использованием метода pivot_table. В качестве параметра values укажем столбец Price, в качестве индексов сводной таблицы возьмём Rooms, а в качестве столбцов — Type. Агрегирующую функцию оставим по умолчанию (среднее). Дополнительно заменим пропуски в таблице на значение 0. Финальный результат для наглядности вывода округлим с помощью метода round() до целых.

In [89]:
melb_data.pivot_table(
    values='Price',
    index='Rooms',
    columns='Type',
    fill_value=0
).round()

Type,house,townhouse,unit
Rooms,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,866866.0,592705.0,389929.0
2,1017238.0,710158.0,610491.0
3,1109233.0,984709.0,850596.0
4,1462283.0,1217092.0,1037476.0
5,1877327.0,1035000.0,0.0
6,1869508.0,0.0,520000.0
7,1920700.0,0.0,0.0
8,1510286.0,0.0,2250000.0
10,900000.0,0.0,0.0


Найдём, как зависит средняя и медианная площадь участка (Landsize) от типа объекта (Type) и его региона (Regionname). Чтобы посмотреть несколько статистических параметров, нужно передать в аргумент aggfunc список из агрегирующих функций. Построим такую сводную таблицу, где пропущенные значения заменим на 0:

In [90]:
melb_data.pivot_table(
    values='Landsize',
    index='Regionname',
    columns='Type',
    aggfunc=['median', 'mean'],
    fill_value=0
)

Unnamed: 0_level_0,median,median,median,mean,mean,mean
Type,house,townhouse,unit,house,townhouse,unit
Regionname,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Eastern Metropolitan,674.0,233.5,203,717.422847,269.440678,330.444444
Eastern Victoria,843.0,0.0,230,3108.96,0.0,295.333333
Northern Metropolitan,459.5,134.0,0,619.249092,317.325733,495.026538
Northern Victoria,724.0,0.0,0,3355.463415,0.0,0.0
South-Eastern Metropolitan,630.5,240.0,199,664.306701,212.16,357.864865
Southern Metropolitan,586.0,246.0,0,569.643881,278.858824,466.380245
Western Metropolitan,531.0,198.0,62,507.883406,244.560669,557.637232
Western Victoria,599.5,0.0,0,655.5,0.0,0.0


# Многомерные сводные таблицы

Для того чтобы исследовать зависимость от большего числа признаков, можно передать список признаков в параметр index или параметр columns.

Давайте построим таблицу, в которой по индексам будут располагаться признаки метода продажи (Method) и типа объекта (Type), по столбцам — наименование региона (Regionname), а на пересечении строк и столбцов будет стоять медианная цена объекта (Price):

In [91]:
melb_data.pivot_table(
    values='Price',
    index=['Method','Type'],
    columns='Regionname',
    aggfunc='median',
    fill_value=0
)

Unnamed: 0_level_0,Regionname,Eastern Metropolitan,Eastern Victoria,Northern Metropolitan,Northern Victoria,South-Eastern Metropolitan,Southern Metropolitan,Western Metropolitan,Western Victoria
Method,Type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
PI,house,1244000,780000,900000,500000,865000,1725000,870000,630000
PI,townhouse,760000,0,632500,0,1190000,1055000,670000,0
PI,unit,650000,0,410000,0,525000,571250,360000,0
S,house,1127000,675000,920000,555000,883300,1611000,870000,397500
S,townhouse,828000,0,750000,0,875000,1135000,729000,0
S,unit,645750,492000,525500,0,606000,655000,489000,0
SA,house,932500,950000,817500,540000,880000,1390000,772500,0
SA,townhouse,807500,0,425000,0,0,1141000,467500,0
SA,unit,0,0,616000,0,0,580000,571000,0
SP,house,1050000,672500,900000,521000,770000,1521750,865000,360000


# Данные в сводной таблице

In [93]:
# Давайте рассмотрим, что собой представляют столбцы сложной сводной таблицы.
pivot = melb_data.pivot_table(
    values='Landsize',
    index='Regionname',
    columns='Type',
    aggfunc=['median', 'mean'],
    fill_value=0
)

# Выведем её столбцы с помощью атрибута columns:
pivot.columns

# В результате мы получаем объект MultiIndex.
# Мультииндексы раскрываются подобно вложенным словарям — по очереди, как матрёшка. 
# Чтобы получить доступ к определённому столбцу, вы должны сначала обратиться к столбцу, который находится уровнем выше.

# Из таблицы pivot мы можем получить средние значения площадей участков для типа здания unit, 
# просто последовательно обратившись по имени столбцов:

display(pivot['mean']['unit'])

Regionname
Eastern Metropolitan          330.444444
Eastern Victoria              295.333333
Northern Metropolitan         495.026538
Northern Victoria               0.000000
South-Eastern Metropolitan    357.864865
Southern Metropolitan         466.380245
Western Metropolitan          557.637232
Western Victoria                0.000000
Name: unit, dtype: float64

In [94]:
# Если нам нужны регионы, в которых средняя площадь здания для домов типа house меньше их медианной площади, 
# то мы можем найти их следующим образом:

mask = pivot['mean']['house'] < pivot['median']['house']
filtered_pivot = pivot[mask]
display(filtered_pivot)



Unnamed: 0_level_0,median,median,median,mean,mean,mean
Type,house,townhouse,unit,house,townhouse,unit
Regionname,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Southern Metropolitan,586.0,246.0,0,569.643881,278.858824,466.380245
Western Metropolitan,531.0,198.0,62,507.883406,244.560669,557.637232


In [95]:
# Чтобы получить индексы отфильтрованной таблицы, 
# можно воспользоваться атрибутом index и обернуть результат в список:

print(list(filtered_pivot.index))

['Southern Metropolitan', 'Western Metropolitan']


# Обьединение таблиц

 **concat()**

 позволяет склеивать (конкатенировать) таблицы как по строкам, так и по столбцам

- bjs — список объектов DataFrame ([df1, df2,…]), которые должны быть сконкатенированы;
- axis — ось определяет направление конкатенации: 0 — конкатенация по строкам (по умолчанию), 1 — конкатенация по столбцам;
- join — либо inner (пересечение), либо outer (объединение); рассмотрим этот момент немного позже;
- ignore_index — по умолчанию установлено значение False, которое позволяет значениям индекса оставаться такими, какими они были в исходных данных. Если установлено значение True, параметр будет игнорировать исходные значения и повторно назначать значения индекса в последовательном порядке.

Для корректной конкатенации по строкам объединяемые таблицы должны иметь одинаковую структуру — идентичное число и имена столбцов.

*concat является функцией библиотеки, а не методом DataFrame. Поэтому её вызов осуществляется как pd.concat(...)*

In [99]:
dates = pd.read_csv('data/movies_data/dates.csv')
movies = pd.read_csv('data/movies_data/movies.csv')
ratings1 = pd.read_csv('data/movies_data/ratings1.csv')
ratings2 = pd.read_csv('data/movies_data/ratings2.csv')

In [104]:
ratings = pd.concat([ratings1, ratings2])
#display(ratings)
#ratings.info()

# В результате мы увеличили первую таблицу, добавив снизу строки второй таблицы.
# По умолчанию concat сохраняет первоначальные индексы объединяемых таблиц, а обе наши таблицы индексировались, начиная от 0. 
# Чтобы создать новые индексы, нужно выставить параметр ignore_index на True

ratings = pd.concat(
    [ratings1, ratings2],
    ignore_index=True
)
#display(ratings)

# Очистка от дублированных строк
 
 **drop_duplicates()**

 Не забываем обновить индексы после удаления дублей, выставив параметр ignore_index в методе drop_duplicates() на значение True

In [105]:
ratings = ratings.drop_duplicates(ignore_index=True)
print('Число строк в таблице ratings: ', ratings.shape[0])

Число строк в таблице ratings:  100836


# Объединение DataFrame: join, merge

Объединения такого рода часто называют объединением по ключевому столбцу

**Два основных типа объединения таблиц:**
1. inner
    - остаются только те записи, которые есть в обеих таблицах
    - строки, для которых совпадение не было найдено, удаляются
2. outer
    - **full**
        используется как outer по умолчанию, объединяет все варианты в обеих таблицах
    - **left**
        для всех записей из «левой» таблицы (например, ratings) ведётся поиск соответствий в «правой» (например, movies). В результирующей таблице останутся только те значения, которым были найдены соответствия, то есть только значения из ratings
    - **right**
        аналогично предыдущему, но остаются значения только из «правой» таблицы

Во всех трёх случаях, если совпадений между таблицами не найдено, на этом месте ставится пропуск (NaN).

In [107]:
ratings_dates = pd.concat([ratings, dates], axis=1)
#display(ratings_dates.tail(7))

# JOIN

объединение по индексам или ключевой колонке

- other — таблица, которую мы присоединяем. При объединении она является «правой», а исходная таблица, от имени которой вызывается метод, является «левой».

- how — параметр типа объединения. Он может принимать значения 'inner', 'left' (left outer), 'right' (right outer), и 'outer' (full outer). По умолчанию параметр установлен на 'left'.

- on — параметр, который определяет, по какому столбцу в «левой» таблице происходит объединение по индексам из «правой».

- lsuffix и rsuffix — дополнения (суффиксы) к названиям одноимённых столбцов в «левой» и «правой» таблицах.


### Использование ключевой колонки

 с помощью метода set_index()
 <p>название ключа в параметре on</p>

In [109]:
joined = ratings_dates.join(
    movies.set_index('movieId'),
    on='movieId',
    how='left'
)
#display(joined.head())

# MERGE

 по ключевым столбцам или по индексам
 
 более гибкий способ управления объединением

- right — присоединяемая таблица. По умолчанию она является «правой».
- how — параметр типа объединения. По умолчанию принимает значение 'inner'.
- on — параметр, который определяет, по какому столбцу происходит объединение. Определяется автоматически, но рекомендуется указывать вручную.
- left_on — если названия столбцов в «левой» и «правой» таблицах не совпадают, то данный параметр отвечает за наименования ключевого столбца исходной таблицы.
- right_on — аналогично предыдущему, параметр отвечает за наименование ключевого столбца присоединяемой таблицы.
- lsuffix и rsuffix — дополнения (суффиксы) к названиям одноимённых столбцов в «левой» и «правой» таблицах.

Метод merge() в первую очередь предназначен для слияния таблиц по заданным ключам, поэтому он не требует установки ключевых столбцов в качестве индекса присоединяемой таблицы. Кроме того, данный метод позволяет объединять даже таблицы с разноимёнными ключами. Таким образом, merge() проще в использовании и более многофункционален, чем схожие методы.

In [112]:
merged = ratings_dates.merge(
    movies,
    on='movieId',
    how='left'
)
#display(merged.head())

Метод merge() с внешним (outer) типом объединения может использоваться как аналог метода concat() при объединении таблиц с одинаковой структурой (одинаковые количество и названия столбцов) по строкам. В таком случае все одноимённые столбцы таблиц будут считаться ключевыми.

особенность метода merge() — **автоматическое удаление дублей**