Установить пакет pandas:

`pip install pandas`

В общепринятой практике Pandas импортируется и используется под псевдонимом pd:
`import pandas as pd`

Чтобы удостовериться, что импорт прошёл успешно, можно воспользоваться командой для проверки версии библиотеки:
`pd.__version__`

Если библиотека импортирована под псевдонимом, то в дальнейшем, обращаясь к методам и классам из этой библиотеки, необходимо использовать заданный псевдоним, например `pd.get_dummies().`

**Pandas.Series**

**Series** — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы).

Также для каждой `Series` присваивается тип данных её элементов (например `int64`) и может быть определено имя всего массива. В итоге мы получаем некоторый гибрид списка и словаря.

Для создания объекта Series используется команда `pd.Series()`.

Способы создания Series:

Способ 1 — из списка с использованием параметров функции `pd.Series()`:

In [59]:
import pandas as pd
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    казахстан
Name: countries, dtype: object

**Примечание**. Функция `display() `является аналогом функции `print()` в файлах формата .`ipynb` (ноутбуках/блокнотах), но чаще используется для вывода табличных данных. 

Здесь и в дальнейшем функция `display()` используется для более красивого вывода таблиц в файлах формата .`ipynb`.

Обратите внимание, что если вы пишете код в файлах с расширением .`py`, функция `display()` не будет вам доступна.

Также стоит отметить, что в файлах формата .`ipynb` результат работы последней строки в ячейке автоматически выводится на экран. 

В результате выполнения кода выше мы получаем объект `Series`. При его выводе на экран можно увидеть заданные в параметре `index` метки — коды стран, соответствующие им значения (названия стран), которые мы задали в параметре `data`. Также с помощью аргумента `name` мы явно задали имя для `Series`.

Внизу, под выводом содержимого, можно увидеть тип данных объектов, хранимых в `Series`. Типом данных `object` в Pandas обозначаются строки и смешанные типы данных (кортежи, списки, текст, смешанный с числами, и т. д.).

**Примечание**. Если оставить параметр `index` пустым, то метки будут присвоены автоматически в виде порядковых номеров элементов.

**Способ 2** - из словаря, в котором ключами являются будущие метки, а значениями - будущие значения *Series*, при этом использование параметра `name` так же возможно:

In [61]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US': 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан',
},
                      name = 'countries')

display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

**ДОСТУП К ДАННЫМ В SERIES**

Доступ к элементам осуществляется с использованием `loc` или `iloc`.

`.loc` вызывается с квадратными скобками, в которые передаются метки. Можно передать как один индекс, так и список, чтобы получить несколько элементов.

In [62]:
print(countries.loc['US'])

США


In [63]:
print(countries.loc[['US', 'RU', 'BY']])

US         США
RU      Россия
BY    Беларусь
Name: countries, dtype: object


**Примечание.** В случае обращения по одному индексу возвращается строка. Если обратиться по нескольким элементам, возвращается объект Series.

.iloc также вызывается с квадратными скобками и принимает на вход порядковые номера элементов Series (нумерация начинается с 0). В него можно так же передавать как один индекс, так и диапазон чисел.


In [64]:
print(countries.iloc[6])

Казахстан


Получим срез с первого по третий элемент

In [65]:
print(countries.iloc[1:4])

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[['UK', 'US', 'UA']] или countries[[0, 2, 4]]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.

**DATAFRAME КАК СТРУКТУРА ДАННЫХ**

DataFrame объект для работы с табличными данными.

Является двумерной структурой и представляется в виде таблицы. Столбцы - объекты Series, строки - их элементы. Тажке есть метки (индексы), которые сообтветствую каждой строке таблицы.

**Примечание.** будем употреблять значения "DataFrame" и "таблица" как синонимы. Так же как и слова "столбец" таблицы и "признак"

**СОЗДАНИЕ DATAFRAME**

DataFrame сoздается с помощью функции pd.DataFrame()

**1 способ**
Создние из словаря, где *ключи* - *имена столбцов* будущей таблицы, а *значения* - *списки*, в которых хранится *содержимое этих столбцов*

In [66]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

display(countries_df)

Unnamed: 0,country,population,area
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


Индексы были сгенерированы автоматически. Теперь зададим их вручную:

In [67]:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']

display(countries_df)

Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


**2 способ**

Создание из *вложенного списка*, *внутренние списки* которого будут *строками* новой таблицы

In [68]:
countries_df1 = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'area'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)

display(countries_df1)

Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


В данном варианте создания *DataFrame* мы задаём имена столбцов в списке с помощью параметра `columns`, а также инициализируем параметр `index` для задания меток стран

**AXIS B DATAFRAME**

**Axis** - ось, координата.
Движение по строкам в таблице обозначается *axis* с индексом 0, а движение по столбцам - *axis* с индексом 1.

По умолчанию axis=0, то есть методы выполняют операции со строками, если не задавать axis вручную

Рассмотрим разницу в результатах работы методов в зависимости от параметра `axis` на примере использования метода DataFrame `mean()` — вычисление среднего по таблице.

Считаем **среднее по строкам** (`axis=0`) в каждом столбце:

In [69]:
countries_df.mean(axis=0, numeric_only=True)


population    9.070000e+01
area          5.800860e+06
dtype: float64

В данном случае среднее было рассчитано по строкам для столбцов `population` и `area`.

Параметр `numeric_only` в значении True необходим, чтобы учитывались только *числовые* столбцы, чтобы не получать предупреждений (`warnings`)

Считаем **среднее по столбцам** (axis=1) в каждой строке:


In [70]:
countries_df.mean(axis=1, numeric_only=True)

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

Для доступа к ячейкам таблицы также используются `.loc` и `.iloc`.

При этом, в соответствии с механизмом работы `axis`, при обращении к DataFrame по индексам с помощью `loc` (`iloc`) первым индексом указывается *индекс* (порядковый номер), соответствующий *строкам*, а вторым — *имя* (порядковый номер) *столбца*.

In [71]:
# Получим площадь Великобритании
countries_df.loc['UK', 'area']

133396

In [72]:
# Получим начеление и площадь России
countries_df.loc['RU', ['population', 'area']]

population      146.24
area          17125191
Name: RU, dtype: object

In [73]:
# Получим информацию о населении и площади Украины, Беларуси и Казахстана
countries_df.loc[['UA', 'BY', 'KZ'], ['population', 'area']]

Unnamed: 0,population,area
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [74]:
# Или
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,area
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


**РАБОТА С РАЗЛИЧНЫМИ ИСТОЧНИКАМИ ДАННЫХ**

**Запись в CSV-файл**
*(comma-separated values - значения, разделенные запятыми)*

Экспорт данных в формат csv осуществляется с помощью метода `DataFrame to_csv()`.

Основные параметры этого метода:

- path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);

- sep — разделитель данных в выходном файле (по умолчанию ',');

- decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');

- columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);

- index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

Cохраним наш DataFrame с информацией о странах в csv-файл `countries.csv` и положим файл в папку `data`. При этом укажем, что разделителем в нашем файле будет являться символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк:

In [75]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('data/countries.csv', index=False, sep=';')

**ЧТЕНИЕ CSV-ФАЙЛА**

Для этого используется функция модуля Pandas raed_csv. Функция возвращает DataFrame и имеет несколько важных параметров:

- filepath_or_buffer — путь до файла, который мы читаем;

- sep — разделитель данных (по умолчанию ',');

- decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');

- names — список с названиями столбцов для чтения;

- skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).

In [76]:
# Прочитаем ранее созданный файл в переменную countries_data
# и выведем ее на экран
countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,area
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


**ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ**

Чтобы прочитать файл, не обязательно, чтобы он был на компьютере. ДЛя этого достаточно в функции `read_csv()` вместо пути до файла указать ссылку на файл:

In [77]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


**ЗАПИСЬ И ЧТЕНИЕ В ДРУГИХ ФОРМАТАХ**

**Методы для записи таблиц в файлы отличных от csv форматов:**

- to_exel() — запись DataFrame в формат Excel-таблицы (.xlsx);

- to_json() — запись DataFrame в формат JSON (.json);

- to_xml() — запись DataFrame в формат XML-документа (.xml);

- to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).


**Методы для чтения таблиц из файлов в отличных от csv форматах:**

- read_excel() — чтение из формата Excel-таблицы (.xlsx) в DataFrame;

- read_json() — чтение из формата JSON (.json) в DataFrame;

- read_xml() — чтение из формата XML-документа (.xml) в DataFrame;

- read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

**Исследование структуры DataFrame**

ВЫВОД ПЕРВЫХ И ПОСЛЕДНИХ СТРОК

У DataFrame есть методы head() и tail(), которые возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5).

РАЗМЕРНОСТЬ ТАБЛИЦЫ

Далее хотелось бы узнать размер таблицы — количество строк и количество столбцов. Это можно сделать с помощью атрибута `shape`, который возвращает кортеж с количеством строк и столбцов:

In [78]:
import pandas as pd

# Прочитать документ
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

melb_data.shape

(13580, 23)

ПОЛУЧЕНИЕ ИНФОРМАЦИИ О СТОЛБЦАХ

Для того чтобы получить более детальную информацию о столбцах таблицы, можно использовать метод DataFrame `info()`:

In [79]:
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  float64
 12  Bathroom       13580 non-null  float64
 13  Car            13580 non-null  float64
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  float64
 17  CouncilArea    12211 non-null  object 
 18  Lattit

Данный метод выводит:

- информацию об индексах;
- информацию об общем количестве столбцов;
- таблицу, в которой содержится информация об именах столбцов (*Column*), количестве непустых значений (*Non-Null Count*) в каждом столбце и типе данных столбца (*Dtype*), количестве столбцов, в которых используется определённый тип данных;
- количество оперативной памяти в мегабайтах, которое тратится на хранение данных.

Из вывода метода `info()` становится понятно, что в нашей таблице есть столбец `CouncilArea` с пропущенными значениями — количество непустых значений в столбце меньше, чем количество строк в таблице (12211 < 13580).

**Пустыми, или пропущенными значениями** называются значения в ячейках таблицы, которые не заполнены по какой-либо причине, то есть на их месте стоит пустое место. В Pandas такие значения обозначаются символом *NaN (Not-a-Number)*.

ИЗМЕНЕНИЕ ТИПА ДАННЫХ В СТОЛБЦЕ

→ Если присмотреться внимательнее к выводу метода `info()`, а конкретнее — к типам данных столбцов, становится понятно, что некоторые признаки кодируются не совсем корректными типами данных. 

Чтобы исправить это, можно воспользоваться методом `astype()`, который позволяет преобразовать тип данных столбца:

In [80]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

В данном коде мы при помощи метода `astype()` последовательно переопределяем столбцы на них же самих, только с изменённым типом данных: `int64` — целочисленное число размером 64 бита.

ПОЛУЧЕНИЕ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ

→ Часто при работе с таблицей нужно быстро посмотреть на основные статистические свойства её столбцов. Для этого можно воспользоваться методом DataFrame `describe()`.

Метод работает с числовыми столбцами и показывает число непустых значений(*count*), среднее (*mean*), стандартное отклонение (*std*), минимальное значение (*min*),  квантили уровней 0.25, 0.5 (*медиана*) и 0.75 (25%, 50%, 75%) и максимальное значение (*max*) для каждого столбца исходной таблицы.

In [81]:
# Вывести на экранзначение статистических параметров только для 
# столбцов Distance, BuildingArea и Price:
melb_data.describe().loc[:, ['Distance', 'BuildingArea', 'Price']]

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


**Примечание**. Числа с *e*+*n* означают 10 в *n*-ой степени. То есть 9.0*e*+06=9*10**6


→ На самом деле метод `describe()` можно применять не только к числовым признакам. С помощью параметра `include` можно указать тип данных, для которого нужно вывести описательную информацию.

Например, для типа данных *object* метод `describe()` возвращает DataFrame, в котором указаны:

- количество непустых строк (*count*);
- количество уникальных значений (*unique*);
- самое частое значение — мода —  (*top*);
- частота — объём использования — этого значения (*freq*) для каждого столбца типа *object* исходной таблицы.

In [82]:
melb_data.describe(include=['object'])

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


*Столбец Suburb (пригород)*

*Наибольшее количество проданных объектов (359) находилось в пригороде `Reservoir`.*


*Столбец `Type` (тип здания)*

*Самый популярный тип дома — `h` (дом, вилла, коттедж).*


*Столбец `SellerG` (риелтор)*

*В наших данных нам известно о 268 различных риэлторских компаниях, однако самой главной «акулой» в этом бизнесе является компания `Nelson` — они продали 1 565 различных домов.*


*Столбец `Date` (дата продажи)*

*В нашей таблице содержится информация за 58 дней, при этом наибольшее `число продаж` (473) пришлось на `27 мая 2017 `года.*

ПОЛУЧЕНИЕ ЧАСТОТЫ УНИКАЛЬНЫХ ЗНАЧЕНИЙ В СТОЛБЦЕ

Для того чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания), используется метод value_counts().

In [83]:
melb_data['Regionname'].value_counts()

Regionname
Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: count, dtype: int64

Для того, чтобы представить значения в виде доли (относительной частоты), используется параметр normalize=True


In [84]:
melb_data['Regionname'].value_counts(normalize=True)

Regionname
Southern Metropolitan         0.345729
Northern Metropolitan         0.286451
Western Metropolitan          0.217084
Eastern Metropolitan          0.108321
South-Eastern Metropolitan    0.033137
Eastern Victoria              0.003903
Northern Victoria             0.003019
Western Victoria              0.002356
Name: proportion, dtype: float64

In [85]:
melb_data['Coordinates'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 13580 entries, 0 to 13579
Series name: Coordinates
Non-Null Count  Dtype 
--------------  ----- 
13580 non-null  object
dtypes: object(1)
memory usage: 106.2+ KB


In [86]:
melb_data['CouncilArea'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 13580 entries, 0 to 13579
Series name: CouncilArea
Non-Null Count  Dtype 
--------------  ----- 
12211 non-null  object
dtypes: object(1)
memory usage: 106.2+ KB


In [87]:
melb_data.describe().loc[:, 'Price']

count    1.358000e+04
mean     1.075684e+06
std      6.393107e+05
min      8.500000e+04
25%      6.500000e+05
50%      9.030000e+05
75%      1.330000e+06
max      9.000000e+06
Name: Price, dtype: float64

In [88]:
melb_data.describe()

Unnamed: 0,index,Rooms,Price,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0
mean,6789.5,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.611856,558.416127,139.633972,1966.788218,-37.809203,144.995216,7454.417378
std,3920.352663,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.960793,3990.669241,392.217403,29.088642,0.07926,0.103916,4378.581772
min,0.0,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,3394.75,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,122.0,1960.0,-37.856822,144.9296,4380.0
50%,6789.5,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,10184.25,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,129.94,1975.0,-37.7564,145.058305,10331.0
max,13579.0,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


In [89]:
melb_data.describe(include=['object'])

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


In [90]:
melb_data['Type'].value_counts(normalize=True)

Type
h    0.695803
u    0.222165
t    0.082032
Name: proportion, dtype: float64

АГРЕГИРУЮЩИЕ МЕТОДЫ

Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

Ниже приведены основные статистические параметры:

`.count()` - Количество непустых значений

`.mean()` - Среднее значение

`.min()` - Минимальное значение

`.max()` - Максимальное значение

`.var()` - Дисперсия

`.std()` - Стандартное отклонение

`.sum()` - Сумма

`. quantile(x)` - Квантиль уровня х

`.nunique()` - Число уникальных значений


В результате применения этих методов к датафрейму будет получен объект типа Series (индексы - наименования столбцов, значения - статистический показатель)

В случае применения метода к отдельному столбцу, результат - число

В каждый метод можно передать некоторые параметры, среди которых:

- `axis`  — определяет, подсчитывать параметр по строкам или по столбцам;

- `numeric_only` — определяет, вычислять параметры только по числовым столбцам/строкам или нет (`True`/`False`).

In [91]:
# Вычислить среднюю цену на объекты недвижимости
print(melb_data['Price'].mean())

1075684.079455081


In [92]:
# Найти максимальное количество парковочных мест:
print(melb_data['Car'].max())

10


In [93]:
# Найти максимальное количество домов на продажу в районе Propertycount
print(melb_data['Propertycount'].max())

21650


In [94]:
# Найти общую прибыльность риелторского
# бизнеса в Мельбурне
# Процентная ставка для всех компаний = 12%
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 1752934775.88


In [95]:
# НА сколько медианная площадь территории
# отличается от ее среднего значения
# вычислить модуль разницы между медианой и средним и разделим результат на среднее,
# чтобы получить отклонение в долях
landsize_median = melb_data['Landsize'].median()
landsize_mean = melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


**МОДАЛЬНОЕ ЗНАЧЕНИЕ**

Мода вычисляется с помощью метода `mode()`

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод `mode()`, в отличие от агрегирующих методов, возвращает не одно число, а серию.

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости

In [96]:
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


In [97]:
# Сколько спален чаще всего встречается в домах в Мельбурне?
melb_data['Bedroom'].mode()

0    3
Name: Bedroom, dtype: int64

Найти наиболее распространенное название района

In [98]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

In [99]:
# Вывести на экранзначение статистических параметров только для 
melb_data.describe().loc[:]

Unnamed: 0,index,Rooms,Price,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0
mean,6789.5,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.611856,558.416127,139.633972,1966.788218,-37.809203,144.995216,7454.417378
std,3920.352663,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.960793,3990.669241,392.217403,29.088642,0.07926,0.103916,4378.581772
min,0.0,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,3394.75,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,122.0,1960.0,-37.856822,144.9296,4380.0
50%,6789.5,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,10184.25,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,129.94,1975.0,-37.7564,145.058305,10331.0
max,13579.0,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


440
558.416127

In [100]:
# НА сколько медианная площадь территории
# отличается от ее среднего значения
# вычислить модуль разницы между медианой и средним и разделим результат на среднее,
# чтобы получить отклонение в долях
landsize_median = melb_data['Landsize'].median()
landsize_mean = melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


**ФИЛЬТРАЦИЯ ДАННЫХ В DATAFRAME**

Под **фильтрацией** в DataFrame подразумевается получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 

Классический вариант фильтрации - фильтрация с помощью *масок*

**Маской** называется Series, которая состоит из булевых значений, при этом значения True соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение False

Создадим маску и положим ее в переменную с именем mask

In [101]:
mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

Для фильтрации  нужно подставить переменную `mask` в индексацию `DataFrame`.

Маска показывает, какие строки нужно оставлять, а какие - убирать (выведем первые 5 строк отфильтрованной таблицы)

In [102]:
display(melb_data[mask].head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280,"-37.8436, 144.9557"


**Примечание**. В результате выполнения фильтрации возвращается новый *DataFrame*, полученный из исходного, при этом исходная таблица `melb_data` остаётся без изменений.

Не обязательно заносить маску в отдельную переменную — можно сразу вставлять условие в операцию индексации DataFrame, например:

`melb_data[melb_data['Price'] > 2000000]`

Найти количество зданий с тремя комнатами

In [103]:
# Обратимся к результирующей таблице 
# по столбцу Rooms и найдем число сторк 
# с помощью атрибута `shape`
melb_data[melb_data['Rooms'] == 3].shape[0]

5881

*Условия можно комбинировать, используя операторы `&` (логическое И) и `|` (логическое ИЛИ). Условия при этом заключаются в скобки.*

Найти число трехкомнатных домов с ценой менее 300 тысяч

In [104]:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

3

Найти дома с ценой менее 300 тысяч, у которых либо число комнат равно 3, лтбо площадь домов более 100 кв метров

In [105]:
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

68

**Примечание.** Использование привычных операторов `and` и `or` будет неверным и приведёт к ошибке, так как они выполняют логические операции между двумя булевыми числами.

Фильтрацию часто сочетают со статистическими методами

Найти максимальное количество комнат в таунхаусах. Т.к.в результате фильтрации получается *DataFrame*, то обратимся к нему по столбцу *Rooms* и найдем максимальное значение

In [106]:
melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

In [107]:
# В скольких объектах отсутствуют ванные комнаты?
melb_data[melb_data['Bathroom'] == 0].shape[0]

34

Найти медианную площадь здания у объектов, чья цена выше средней

In [108]:
# Создадим переменную со средней ценой
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()


126.0

In [109]:
# Объекты недвижимости, проданные компанией
# Nelson И стоимость которых более 3 млн
melb_data[(melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3000000)].shape[0]

5

In [110]:
# Минимальная стоимость участка без здания
melb_data[melb_data['BuildingArea'] == 0]['Price'].min()

412500.0

In [111]:
# Средняя цена недвижимости с ценой < 1000000
# в которых ЛИБО количество комнат > 5,
# ЛИБО здание моложе 2015 года

In [114]:
# Средняя цена недвижимости с ценой < 1000000
# в которых ЛИБО количество комнат > 5,
# ЛИБО здание моложе 2015 года
mask = ((melb_data['Rooms'] > 5) | (melb_data['YearBuilt'] < 2015)) & (melb_data['Price'] < 1000000)

display(round(melb_data[mask]['Price'].mean(), 0))
 # Правильный ответ 769239. ЗДАНИЕ МОЛОЖЕ 2015 ГОДА, А НЕ НА СТОРОНЕ 2015

673888.0

In [119]:
# В каком районе Мельбурна чаще всего 
# продаются виллы и коттеджи (тип здания - 
# h) с ценой меньше трех миллионов
melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)]['Regionname'].max()

# Правильный ответ Northern Metropolitan

'Western Victoria'