
# 1. Введение

ЧТО УМЕЕТ PANDAS?

Среди основных возможностей библиотеки, необходимых специалисту в Data Science, можно выделить следующие:

* Работа с различными форматами данных (csv, excel, json, sql и т. д.).

* Фильтрация данных (извлечение данных по условиям).

*  Быстрые математические операции с таблицами и их столбцами.

*  Использование методов статистического анализа.

*  Группировка данных и построение сводных таблиц.

*  Объединение нескольких таблиц.

*  Встроенная визуализация (возможность построения графиков по данным).

ИМПОРТ БИБЛИОТЕКИ PANDAS

В общепринятой практике Pandas импортируется и используется под псевдонимом pd:

Если библиотека импортирована под псевдонимом, то в дальнейшем, обращаясь к методам и классам из этой библиотеки, необходимо использовать заданный псевдоним, например pd.get_dummies().

In [1]:
#командная строка - установка
#pip install pandas

#подключение
import pandas as pd

#проверки версии библиотеки
pd.__version__
#'1.0.5'


'1.5.0'

In [2]:
pd.__name__

'pandas'

# 2. Pandas.Series

#### SERIES КАК СТРУКТУРА ДАННЫХ

Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 

индексами могут быть не только порядковые номера — фактически что угодно, например названия компаний, даты, идентификаторы, наименования продуктов.

Также для каждой Series присваивается тип данных её элементов (например int64) и может быть определено имя всего массива. В итоге мы получаем некоторый гибрид списка и словаря.

→ Series в какой-то степени является единицей хранения информации в Pandas. Её можно рассматривать как именованный столбец таблицы с индексами строк.

#### СОЗДАНИЕ SERIES

→ Для создания объекта Series используется команда pd.Series().

Рассмотрим несколько способов создания Series на примере со списком названий стран.

Способ 1 — из списка с использованием параметров функции pd.Series():

In [3]:

countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

> Примечание. Функция display() является аналогом функции print() в файлах формата .ipynb (ноутбуках/блокнотах), но чаще используется для вывода табличных данных. 
>
> Здесь и в дальнейшем функция display() используется для более красивого вывода таблиц в файлах формата .ipynb.
>
> Обратите внимание, что если вы пишете код в файлах с расширением .py, функция display() не будет вам доступна.

Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно:

In [4]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

#### ДОСТУП К ДАННЫМ В SERIES

Доступ к элементам осуществляется с использованием loc или iloc.

.loc вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, так и список, чтобы получилось несколько элементов. 


In [5]:
display(countries.loc['US'])
# США

'США'

Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список.
> Примечание. Обратите внимание, что в случае обращения по одному индексу возвращается строка. Если же обратиться по нескольким элементам, возвращается объект Series.

In [6]:
countries.loc[['US', 'RU', 'UK']]

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object

.iloc также вызывается с квадратными скобками и принимает на вход порядковые номера элементов Series (нумерация начинаются с 0). В него можно так же передавать как один индекс, так и диапазон чисел. 

In [7]:
display(countries.iloc[6])
# Казахстан
display(countries.iloc[1:4])

'Казахстан'

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object

> На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[‘UK’, 'US', ‘UA’] или countries[0, 2, 4]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.

# 3. Pandas.DataFrame

#### DATAFRAME КАК СТРУКТУРА ДАННЫХ

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.


№   | ФИО |	ВОЗРАСТ    |   ДОХОД | РАЗМЕР КРЕДИТА
----|--------------|---------|--------|---------
0	|Иванов И. И.|	32   |	120	  |250
1	|Авербух А. В. |	28	 | 44	  |320
2	|Вестяк А. В.  |	86   |	250   |	500

.

> Примечание. В дальнейшем слова DataFrame и таблица будут употребляться как синонимы. Также синонимами в Data Science являются слова столбец таблицы и признак.

#### СОЗДАНИЕ DATAFRAME

DataFrame создаётся с помощью функции pd.DataFrame(). Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

##### СПОСОБ 1

Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов:

In [9]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
display(countries_df)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. Исправим это, задав индексы вручную:

In [10]:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


##### СПОСОБ 2

Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [11]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


#### AXIS В DATAFRAME

Мы можем удалять как строки, так и столбцы таблицы, вычислять среднее значение как по столбцам, так и по строкам таблицы.

При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие axis (ось, координата). **Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.**

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

Схема ниже демонстрирует направления axis в DataFrame:

![axes](./img/dst3-u1-md10_3_4.png)

Рассмотрим разницу в результатах работы методов в зависимости от параметра axis на примере использования метода DataFrame mean() — вычисление среднего по таблице.

In [13]:
# Считаем среднее по строкам (axis = 0) в каждом столбце:
countries_df.mean(axis=0, numeric_only=True)

# В данном случае среднее было рассчитано по строкам для столбцов population и square.

population    9.070000e+01
square        5.800860e+06
dtype: float64

In [16]:

#Считаем среднее по столбцам (axis = 1) в каждой строке:
countries_df.mean(axis=1, numeric_only=True)

#Здесь среднее было рассчитано по числовым столбцам для каждой строки в таблице.

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

#### ДОСТУП К ДАННЫМ В DATAFRAME

Доступ к столбцу можно получить разными способами:

##### СПОСОБ 1

In [17]:
#Можно обратиться к DataFrame по имени столбца через точку:
countries_df.population

#Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

##### СПОСОБ 2

In [18]:
#Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:
countries_df['population']


UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

> **Примечание.** Обратите внимание, что, как и ожидалось, при обращении к столбцу DataFrame мы получаем объект Series с именем, соответствующим имени столбца. Удостовериться в этом можно с помощью функции type()

-----------------

Для того чтобы получить доступ к ячейкам таблицы, используются loc и iloc.

При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам с помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

In [22]:
#Получим площадь Великобритании:
display(countries_df.loc['UK', 'square'])

#Получим население и площадь, соответствующие России:
display(countries_df.loc['RU', ['population', 'square']])

#Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:
display(countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']])
#или
display(countries_df.iloc[4:8, 1:3])

133396

population      146.24
square        17125191
Name: RU, dtype: object

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


# 4. Работа с различными источниками данных в Pandas

#### ЗАПИСЬ В CSV-ФАЙЛ

Предположим, что мы захотели сохранить созданный нами ранее DataFrame. Самым простым и распространённым источником табличных данных является формат csv (comma-separated values). В данном формате ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.

Экспорт данных в формат csv осуществляется с помощью метода DataFrame to_csv().  

> **Основные параметры метода DataFrame to_csv()** 
> * path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
> * sep — разделитель данных в выходном файле (по умолчанию ',');
> * decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
> * columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
> * index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь давайте сохраним наш DataFrame с информацией о странах в csv-файл countries.csv и положим файл в папку data. При этом укажем, что разделителем в нашем файле будет являться символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк:

In [23]:
countries_df.to_csv('./data/countries.csv', index=False, sep=';')

При успешном выполнении кода в вашей директории data должен появиться файл countries.csv, который даже можно открыть в редакторе и посмотреть его содержимое.

**ДОПОЛНИТЕЛЬНО**. Чтобы более подробно ознакомиться с методом to_csv(), предлагаем вам обратиться к [документации](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html).

#### ЧТЕНИЕ CSV-ФАЙЛА

Для чтения таблицы из csv-файла используется функция модуля Pandas read_csv. Функция возвращает DataFrame и имеет несколько важных параметров.

> **Основные параметры функции read_csv()** 
> * filepath_or_buffer — путь до файла, который мы читаем;
> * sep — разделитель данных (по умолчанию ',');
> * decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
> * names — список с названиями столбцов для чтения;
> * skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).

Убедимся, что сохранённый нами ранее файл создался верно. Для этого прочитаем его в переменную countries_data и выведем её на экран. Не забудем также о том, что мы использовали в качестве разделителя ';'.
**ДОПОЛНИТЕЛЬНО**. Чтобы более подробно ознакомиться с функцией read_csv(), предлагаем вам обратиться к [документации](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

In [24]:
countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


#### ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ

На самом деле файл с данными не обязательно должен храниться у вас на компьютере. Если он находится в открытом доступе по ссылке (например, на Google Диске или GitHub), его можно прочитать и из интернета — для этого достаточно в функции read_csv() вместо пути до файла указать ссылку на файл. Например:

In [25]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


#### ЗАПИСЬ И ЧТЕНИЕ В ДРУГИХ ФОРМАТАХ

Как уже говорилось ранее, Pandas способен работать со многими распространёнными форматами данных.

Методы для записи таблиц в файлы отличных от csv форматов:

* to_excel() — запись DataFrame в формат Excel-таблицы (.xslx);
* to_json() — запись DataFrame в формат JSON (.json);
* to_xml() — запись DataFrame в формат XML-документа (.xml);
* to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).

Методы для чтения таблиц из файлов в отличных от csv форматах:

* read_excel() — чтение из формата Excel-таблицы(.xslx) в DataFrame;
* read_json() — чтение из формата JSON (.json) в DataFrame;
* read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
* read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

# 5. Знакомимся с данными: недвижимость
 
✍ Дальнейший разбор инструментария Pandas мы будем проводить на наборе данных с учебного соревнования по анализу данных на Kaggle.

Данные, с которыми мы будем работать — это обработанный датасет об объектах недвижимости в Мельбурне (Австралия) и его пригородах.

> Исходный датасет и более детальное описание к нему находятся [здесь](https://www.kaggle.com/dansbecker/melbourne-housing-snapshot).
> 
> Обратите внимание, что в учебных целях мы изменили исходный датасет с Kaggle. При решении задач пользуйтесь [изменённой таблицей](https://lms.skillfactory.ru/assets/courseware/v1/a37d26d144a33e5bc8a1ac9aa5679cf8/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/melb_data.zip) (csv-файл находится в zip-архиве — распакуйте архив, прежде чем продолжать работу!).
> 
> Важно! Для того чтобы ваш код совпадал с нашим, положите файл в ту самую папку data, которую мы создали ранее.

Данные представляют собой таблицу, в которой содержится 23 столбца:

* index — номер строки
* Suburb — наименование пригорода
* Address — адрес
* Rooms — количество комнат в помещении
* Type — тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
* Price — цена помещения
* Method — метод продажи 
* SellerG — риэлторская компания
* Date — дата продажи (в формате день/месяц/год)
* Distance — расстояния до объекта от центра Мельбурна 
* Postcode — почтовый индекс
* Bedroom — количество спален
* Bathroom — количество ванных комнат
* Car — количество парковочных мест
* Landsize — площадь прилегающей территории
* BuildingArea — площадь здания
* YearBuilt — год постройки
* CouncilArea — региональное управление
* Lattitude — географическая широта
* Longitude — географическая долгота
* Regionname — наименование района Мельбурна
* Propertycount — количество объектов недвижимости в районе
* Coordinates — широта и долгота, объединённые в кортеж

Прочитаем наши данные о недвижимости из csv-файла и запишем результирующий DataFrame в переменную melb_data:

In [35]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')
#display(melb_data)

In [37]:
melb_data.Price[15]

1310000.0

In [36]:
melb_data.Date[90]

'10/09/2016'

In [39]:
round(melb_data.Landsize[3521]/melb_data.Landsize[1690])

2

# 6. Исследование структуры DataFrame
 
#### ВЫВОД ПЕРВЫХ И ПОСЛЕДНИХ СТРОК

→ Часто бывает такое, что вывести на экран все строки таблицы является ресурсозатратной операцией, а иногда и вовсе не представляется возможным. В большинстве случаев для того, чтобы понять структуру DataFrame и удостовериться, что таблица подгрузилась верно, достаточно вывести несколько первых или последних строк.

Для этого у DataFrame есть методы head() и tail(), которые возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5). Выведем первые пять строк нашей таблицы:

In [None]:
display(melb_data.head())

In [None]:
display(melb_data.tail(7))

In [43]:
#размер таблицы — количество строк и количество столбцов
display(melb_data.shape)

(13580, 23)

In [55]:
#более детальная информацию о столбцах таблицы
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

Пустыми, или пропущенными, значениями называются значения в ячейках таблицы, которые не заполнены по какой-либо причине, то есть на их месте стоит пустое место. В Pandas такие значения обозначаются символом NaN (Not-a-Number). Посмотреть информацию можно [здесь](https://pythonru.com/biblioteki/not-a-number-vse-o-nan-pd-5).

#### ИЗМЕНЕНИЕ ТИПА ДАННЫХ В СТОЛБЦЕ


In [None]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

**ДОПОЛНИТЕЛЬНО** Подробнее о типах данных в Pandas можно прочитать [здесь](https://dfedorov.spb.ru/pandas/%D0%9E%D0%B1%D0%B7%D0%BE%D1%80%20%D1%82%D0%B8%D0%BF%D0%BE%D0%B2%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85%20pandas.html).

#### ПОЛУЧЕНИЕ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ

In [68]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


Метод describe() можно применять не только к числовым признакам. С помощью параметра include можно указать тип данных, для которого нужно вывести описательную информацию.

Например, для типа данных object метод describe() возвращает DataFrame, в котором указаны:

* количество непустых строк (count);
* количество уникальных значений (unique);
* самое частое значение — мода —  (top);
* частота — объём использования — этого значения (freq) для каждого столбца типа object исходной таблицы.

In [47]:
melb_data.describe(include=['object'])

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


#### ПОЛУЧЕНИЕ ЧАСТОТЫ УНИКАЛЬНЫХ ЗНАЧЕНИЙ В СТОЛБЦЕ

чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания), используется метод [value_counts()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html). Данный метод возвращает объект Series, в котором в качестве индексов выступают уникальные категории столбца, а значениями — соответствующая им частота.

In [69]:
melb_data['Regionname'].value_counts()

Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: Regionname, dtype: int64

Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром normalize. При установке значения этого параметра на True результат будет представляться в виде доли (относительной частоты):

In [None]:
melb_data['Regionname'].value_counts(normalize=True)*100

In [66]:
13580 - 12211

1369

In [67]:
melb_data.describe(include=['int'])

Unnamed: 0,index,Rooms,Postcode,Bedroom,Bathroom,Car,YearBuilt,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0
mean,6789.5,2.937997,3105.301915,2.914728,1.534242,1.611856,1966.788218,7454.417378
std,3920.352663,0.955748,90.676964,0.965921,0.691712,0.960793,29.088642,4378.581772
min,0.0,1.0,3000.0,0.0,0.0,0.0,1196.0,249.0
25%,3394.75,2.0,3044.0,2.0,1.0,1.0,1960.0,4380.0
50%,6789.5,3.0,3084.0,3.0,1.0,2.0,1970.0,6555.0
75%,10184.25,3.0,3148.0,3.0,2.0,2.0,1975.0,10331.0
max,13579.0,10.0,3977.0,20.0,8.0,10.0,2018.0,21650.0


In [70]:
melb_data['Type'].value_counts(normalize=True)*100

h    69.580265
u    22.216495
t     8.203240
Name: Type, dtype: float64

# 7. Статистические методы
 
#### АГРЕГИРУЮЩИЕ МЕТОДЫ

Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

МЕТОД |	СТАТИСТИЧЕСКИЙ ПАРАМЕТР
------|---------------
.count()|	Количество непустых значений
.mean()|	Среднее значение
.min()|	Минимальное значение
.max()|	Максимальное значение
.deviance()|	Дисперсия
.std()|	Стандартное отклонение
.sum()|	Сумма
.quantile(x)|	Квантиль уровня x
.nunique()|	Число уникальных значений

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

* axis  — определяет, подсчитывать параметр по строкам или по столбцам;
* numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

----------------

In [71]:
#Вычислим среднюю цену на объекты недвижимости:

print(melb_data['Price'].mean())
# 1075684.079455081

1075684.079455081


In [72]:
#Найдём максимальное количество парковочных мест:

print(melb_data['Car'].max())
# 10

10


Представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

In [73]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))
# Total income of real estate agencies: 1752934775.88

Total income of real estate agencies: 1752934775.88


насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:    

In [75]:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)
# 0.21205713983546193

0.21205713983546193


#### МОДАЛЬНОЕ ЗНАЧЕНИЕ

Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [76]:
print(melb_data['Rooms'].mode())
# 0    3
# dtype: int64

0    3
Name: Rooms, dtype: int64


Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

In [77]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

In [79]:
melb_data['Propertycount'].max()

21650

In [81]:
round(melb_data['Distance'].std())

6

In [83]:
landsize_median = melb_data['BuildingArea'].median() 
landsize_mean =  melb_data['BuildingArea'].mean()
print(round(abs(landsize_median - landsize_mean)/landsize_mean*100))

10


In [84]:
print(melb_data['Bedroom'].mode())

0    3
Name: Bedroom, dtype: int64


# 8. Фильтрация данных в DataFrame

✍ Часто возникает необходимость исследовать определённую группу объектов по какому-то условию, например найти здания с ценой меньше 1 миллиона или выделить из всей таблицы помещения с двумя комнатами.

Под фильтрацией в DataFrame подразумевается получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 

классический способ фильтрации в DataFrame — фильтрацию с помощью масок.

Маской называется Series, которая состоит из булевых значений, при этом значения True соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение False (например, цена > 2 млн).

Создадим маску и положим её в переменную с именем mask. Синтаксис очень прост:

Для фильтрации нужно просто подставить переменную mask в индексацию DataFrame. Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие — убирать (выведем первые пять строк отфильтрованной таблицы):

In [None]:
mask = melb_data['Price'] > 2000000
display(mask)
display(melb_data[mask].head())

Примечание. В результате выполнения фильтрации возвращается новый DataFrame, полученный из исходного, при этом исходная таблица melb_data остаётся без изменений.

Также вовсе не обязательно заносить маску в отдельную переменную — можно сразу вставлять условие в операцию индексации DataFrame, например:

In [None]:
melb_data[melb_data['Price'] > 2000000]

Найдём количество зданий с тремя комнатами. Для этого отфильтруем таблицу по условию: обратимся к результирующей таблице по столбцу Rooms и найдём число строк в ней с помощью атрибута shape:

In [89]:
melb_data[melb_data['Rooms'] == 3].shape[0]

5881

Условия можно комбинировать, используя операторы & (логическое И) и | (логическое ИЛИ). Условия при этом заключаются в скобки.

Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:

In [90]:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

3

Таких зданий оказалось всего три. Немного «ослабим» условие: теперь нас будут интересовать дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:

In [91]:
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

68

Примечание. Обратите внимание, что использование привычных операторов and и or будет неверным и приведёт к ошибке, так как они выполняют логические операции между двумя булевыми числами. В нашем случае слева и справа от оператора стоят маски (объекты Series), для которых логическую операцию надо совершить поэлементно, а операторы and и or для такого не предназначены.

Фильтрацию часто сочетают со статистическими методами. Давайте найдём максимальное количество комнат в таунхаусах. Так как в результате фильтрации получается DataFrame, то обратимся к нему по столбцу Rooms и найдём максимальное значение:

In [92]:
melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

А теперь более сложный трюк: найдём медианную площадь здания у объектов, чья цена выше средней. Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:

In [93]:
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

126.0

Фильтрация находит применение в очистке данных.

Под очисткой данных понимается удаление из данных аномальных значений (выбросов), пропусков и данных, которые не несут информацию.

Причин появления таких дефектов в данных множество: неправильная передача по сети, неверная выгрузка из базы, человеческий фактор и т. д.

→ Проблема аномальных значений состоит в том, что если мы обучаем модель на данных, содержащих выбросы, то мы имеем немалый шанс получить менее верный прогноз, чего нам, конечно же, не хотелось бы.

In [97]:
melb_data[melb_data['Bathroom'] == 0].shape[0]

34

In [106]:
melb_data[(melb_data['SellerG'] == 'Nelson')  & (melb_data['Price'] > 3000000)].shape[0]


5

In [110]:
melb_data[melb_data['BuildingArea'] == 0]['Price'].min()

412500.0

In [113]:
round(melb_data[(melb_data['Price'] < 1000000) & ((melb_data['Rooms'] > 5) | (melb_data['YearBuilt'] > 2015))]['Price'].mean())

769239

In [114]:
melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)]['Regionname'].mode()

0    Northern Metropolitan
Name: Regionname, dtype: object