**1. Введение**

Одним из передовых инструментов для работы с данными, представленными в виде таблиц, в Python на сегодняшний день является **библиотека Pandas**.

***ЧТО УМЕЕТ PANDAS?***

Среди основных возможностей библиотеки, необходимых специалисту в Data Science, можно выделить следующие:

→ Работа с различными форматами данных (csv, excel, json, sql и т.д.).

→ Фильтрация данных (извлечение данных по условиям).

→ Быстрые математические операции с таблицами и их столбцами.

→ Использование методов статистического анализа.

→ Группировка данных и построение сводных таблиц.

→ Объединение нескольких таблиц.

→ Встроенная визуализация (возможность построения графиков по данным).

***Целями данного модуля являются:***

→ изучить основные структуры данных в Pandas;

→ получить навыки работы с данными, представленными в различных форматах, с помощью Pandas;

→ научиться получать информацию о структуре данных;

→ освоить фильтрацию данных.

**ИМПОРТ БИБЛИОТЕКИ PANDAS**

In [1]:
import pandas as pd
pd.__version__

'2.0.3'

**2. Pandas.Series**



Начнём наше знакомство с библиотекой Pandas со структуры данных **pandas.Series** (серия, ряд). 

**SERIES КАК СТРУКТУРА ДАННЫХ**

**Series** - это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 

**СОЗДАНИЕ SERIES**

Для создания объекта ***Series*** используется команда **pd.Series()**.

***Способ 1*** - *из списка с использованием параметров функции ***pd.Series()***:*

In [5]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

***Способ 2*** - *из словаря, в котором ключами являются будущие метки, а значениями - будущие значения ***Series***:*

In [6]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

**ДОСТУП К ДАННЫМ В SERIES**

*Доступ к элементам осуществляется с использованием ***loc*** или ***iloc***.*

***1)*** ***.loc*** *вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, так и список, чтобы получилось несколько элементов.*

***Например,*** *для получения названия страны по коду ***"US"*** можно выполнить следующий код:*

In [7]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
print(countries.loc['US'])

США


*Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список:*

In [8]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
print(countries.loc[['US', 'RU', 'UK']])

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object


***Примечание.*** *Обратите внимание, что в случае обращения по одному индексу возвращается строка. Если же обратиться по нескольким элементам, возвращается объект ***Series.****

***2)*** ***.iloc*** *также вызывается с квадратными скобками и принимает на вход порядковые номера элементов ***Series*** (нумерация начинаются с 0). 

*В него можно так же передавать как один индекс, так и диапазон чисел.*

***Например,*** *для получения элемента по индексу ***"KZ"*** нужно обратиться через ***.iloc*** по номеру ***6***:*

In [9]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
print(countries.iloc[6])

Казахстан


*Получим срез из исходной ***Series*** с первого по третий элемент:*

In [10]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
print(countries.iloc[1:4])

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


***Примечание.*** *Важно, что в последнем примере конечное значение диапазона не включается в результат (берутся элементы с порядковыми номерами от 1 до 4, не включая последний).*

На самом деле **loc** и **iloc** можно опустить и обращаться к элементам **Series** напрямую по индексам, например **countries[['UK', 'US', 'UA']]** или **countries[[0, 2, 4]]**. Оба варианта являются равноправными для **Series**, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре - **DataFrame**, а в контексте этой структуры эти варианты уже неравноправны.

**3. Pandas.DataFrame**

**DATAFRAME КАК СТРУКТУРА ДАННЫХ**

Наиболее популярным и понятным является табличное представление данных. Для работы с такими данными в Pandas существует объект **DataFrame**.

**DataFrame** является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в **DataFrame** выступают объекты **Series**, а строки формируются из их элементов. Также в **DataFrame** есть метки (индексы), которые соответствуют каждой строке таблицы.

**СОЗДАНИЕ DATAFRAME**

*DataFrame создаётся с помощью функции ***pd.DataFrame()***. Так же, как и для ***Series***, для создания объектов ***DataFrame*** есть несколько способов:*

**СПОСОБ 1**

*Самый простой способ создания ***DataFrame*** - из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями - списки, в которых хранится содержимое этих столбцов:*

In [11]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
display(countries_df)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


*Обратите внимание, что, так как мы не задали метки (индексы) ***DataFrame***, они были сгенерированы автоматически. Исправим это, задав индексы вручную:*

In [12]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


**СПОСОБ 2**

*Также ***DataFrame*** можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:*

In [13]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


*В данном варианте создания ***DataFrame*** мы задаём имена столбцов в списке с помощью параметра ***columns***, а также инициализируем параметр ***index*** для задания меток стран.*

****AXIS В DATAFRAME****

*Рассмотрим разницу в результатах работы методов в зависимости от параметра ***axis*** на примере использования метода ***DataFrame mean()*** - вычисление среднего по таблице.*

***1)*** *Считаем среднее по строкам ***(axis = 0)*** в каждом столбце:*

In [14]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
countries_df.mean(axis=0, numeric_only=True)

population    9.070000e+01
square        5.800860e+06
dtype: float64

*В данном случае среднее было рассчитано по строкам для столбцов ***population*** и ***square***.*

*Обратите внимание на то, что так как не все столбцы в нашей таблице являются числовыми, то нам необходимо установить параметр ***numeric_only*** в значение ***True*** (вести расчёт только по числовым столбцам). Это делается для того, чтобы не получать предупреждений ***(warnings)***.*

***2)*** *Считаем среднее по столбцам ***(axis = 1)*** в каждой строке:*

In [15]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
countries_df.mean(axis=1, numeric_only=True)

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

*Здесь среднее было рассчитано по числовым столбцам для каждой строки в таблице.*

****ДОСТУП К ДАННЫМ В DATAFRAME****

*Доступ к столбцу можно получить разными способами:*

***1.*** *Можно обратиться к ***DataFrame*** по имени столбца через точку:*

In [3]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

*Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.*

***2.*** *Другой вариант - обратиться к **DataFrame** по индексу и указать имя столбца:*

In [17]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

*Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам **loc** и **iloc**.*

*При этом, в соответствии с механизмом работы ***axis***, при обращении к ***DataFrame*** по индексам с помощью ***loc (iloc)*** первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым - имя (порядковый номер) столбца.*

**Рассмотрим на примерах:**

***1)*** *Получим площадь Великобритании:*

In [18]:
countries_df.loc['UK', 'square']

133396

***2)*** *Получим население и площадь, соответствующие России:*

In [19]:
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

***3)*** *Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:*

In [20]:
countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


****или****

In [21]:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


**4. Работа с различными источниками данных в Pandas**

**ЗАПИСЬ В CSV-ФАЙЛ**

Экспорт данных в формат **csv** осуществляется с помощью **метода DataFrame to_csv()**.  

***Основные параметры метода DataFrame to_csv():***

→ **path_or_buf** - путь до файла, в который будет записан **DataFrame** (например, data/my_data.csv);

→ **sep** - разделитель данных в выходном файле (по умолчанию **','**);

→ **decimal** - разделитель чисел на целую и дробную части в выходном файле (по умолчанию **'.'**);

→ **columns** - список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);

→ **index** - параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию **True**).

**ЧТЕНИЕ CSV-ФАЙЛА**

Для чтения таблицы из csv-файла используется функция модуля Pandas **read_csv**. Функция возвращает DataFrame и имеет несколько важных параметров.

***Основные параметры функции read_csv():***

→ **filepath_or_buffer** - путь до файла, который мы читаем;

→ **sep** - разделитель данных (по умолчанию **','**);

→ **decimal** - разделитель чисел на целую и дробную часть в выходном файле (по умолчанию **'.'**);

→ **names** - список с названиями столбцов для чтения;

→ **skiprows** - количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).

**ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ**

**data** = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')

display(**data**)

**5. Знакомимся с данными: недвижимость**

**melb_data** *= pd.read_csv('data/melb_data.csv', sep=',')*

**6. Исследование структуры DataFrame**

**ВЫВОД ПЕРВЫХ И ПОСЛЕДНИХ СТРОК**

*Для этого у **DataFrame** есть ***методы head()*** и ***tail()***, которые возвращают **n первых** и **n последних** строк таблицы соответственно **(по умолчанию n = 5)**.*

In [7]:
import pandas as pd
melb_data = pd.read_csv('data/melb_data.csv', sep=',')
display(melb_data)

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0,"-37.8072, 144.9941"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13575,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2.0,652.0,126.0,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0,"-37.90562, 145.16761"
13576,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0,"-37.85927, 144.87904"
13577,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4.0,436.0,126.0,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0,"-37.85274, 144.88738"
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,"-37.85908, 144.89299"


**Выведем первые пять строк нашей таблицы:**

In [8]:
display(melb_data.head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"


**Следующий код выведет семь последних строк нашей таблицы:**

In [19]:
melb_data.tail(7)

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
13573,13573,Werribee,5 Nuragi Ct,4,h,635000.0,S,hockingstuart,26/08/2017,14.7,...,1,662.0,172.0,1980,,-37.89327,144.64789,Western Metropolitan,16166,"-37.89327, 144.64789"
13574,13574,Westmeadows,9 Black St,3,h,582000.0,S,Red,26/08/2017,16.5,...,2,256.0,126.0,1970,,-37.67917,144.8939,Northern Metropolitan,2474,"-37.67917, 144.8939"
13575,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2,652.0,126.0,1981,,-37.90562,145.16761,South-Eastern Metropolitan,7392,"-37.90562, 145.16761"
13576,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2,333.0,133.0,1995,,-37.85927,144.87904,Western Metropolitan,6380,"-37.85927, 144.87904"
13577,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4,436.0,126.0,1997,,-37.85274,144.88738,Western Metropolitan,6380,"-37.85274, 144.88738"
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5,866.0,157.0,1920,,-37.85908,144.89299,Western Metropolitan,6380,"-37.85908, 144.89299"
13579,13579,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1,362.0,112.0,1920,,-37.81188,144.88449,Western Metropolitan,6543,"-37.81188, 144.88449"


**РАЗМЕРНОСТЬ ТАБЛИЦЫ**

*Далее хотелось бы узнать размер таблицы - количество строк и количество столбцов. Это можно сделать с помощью ***атрибута shape***, который возвращает кортеж с количеством строк и столбцов:*

In [18]:
melb_data.shape

(13580, 23)

Таким образом, в наших данных содержится информация о **13 580** объектах недвижимости, и их описывают **23** признака.

**ПОЛУЧЕНИЕ ИНФОРМАЦИИ О СТОЛБЦАХ**

Для того чтобы получить более детальную информацию о столбцах таблицы, можно использовать ***метод DataFrame info()***:

In [11]:
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  float64
 12  Bathroom       13580 non-null  float64
 13  Car            13580 non-null  float64
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  float64
 17  CouncilArea    12211 non-null  object 
 18  Lattit

**Данный метод выводит:**

→ информацию об индексах;

→ информацию об общем количестве столбцов;

→ таблицу, в которой содержится информация об именах столбцов **(Column)**, количестве непустых значений **(Non-Null Count)** в каждом столбце и типе данных столбца **(Dtype)**, количестве столбцов, в которых используется определённый тип данных;

→ количество оперативной памяти в мегабайтах, которое тратится на хранение данных.

**ИЗМЕНЕНИЕ ТИПА ДАННЫХ В СТОЛБЦЕ**

*Если присмотреться внимательнее к выводу ***метода info()***, а конкретнее - к типам данных столбцов, становится понятно, что некоторые признаки кодируются не совсем корректными типами данных.*

*Чтобы исправить это, можно воспользоваться ***методом astype()***, который позволяет преобразовать тип данных столбца:*

In [12]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

*В данном коде мы при помощи ***метода astype()*** последовательно переопределяем столбцы на них же самих, только с изменённым типом данных: ***int64*** - целочисленное число размером ***64 бита***.*

**ПОЛУЧЕНИЕ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ**

*Часто при работе с таблицей нужно быстро посмотреть на основные статистические свойства её столбцов. Для этого можно воспользоваться ***методом DataFrame describe()***.*

*По умолчанию метод работает с числовыми ***(int64 и float64)*** столбцами и показывает ***число непустых значений (count)***, ***среднее (mean)***, ***стандартное отклонение (std)***, ***минимальное значение (min)***,  ***квантили уровней 0.25***, ***0.5 (медиана)*** и ***0.75 (25%, 50%, 75%)*** и ***максимальное значение (max)*** для каждого столбца исходной таблицы.*

*Чтобы не увязнуть в обилии информации, выведем на экран значение статистических параметров только для столбцов Distance (расстояние от объекта недвижимости до центра Мельбурна), BuildingArea (площадь здания) и Price (цена объекта):*

In [14]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


**Примечание:** Числа с  означают 10 в n-ой степени. **(Т.е. 9.0е + 06 = 9 * 10 в 6 степени)**.

На самом деле **метод describe()** можно применять не только к числовым признакам. С помощью **параметра include** можно указать тип данных, для которого нужно вывести описательную информацию.

**Например, для типа данных object метод describe() возвращает DataFrame, в котором указаны:**

→ количество непустых строк **(count)**;

→ количество уникальных значений **(unique)**;

→ самое частое значение - **мода** - **(top)**;

→ частота - объём использования - этого значения **(freq)** для каждого столбца типа object исходной таблицы.

In [15]:
melb_data.describe(include=['object'])

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


**ПОЛУЧЕНИЕ ЧАСТОТЫ УНИКАЛЬНЫХ ЗНАЧЕНИЙ В СТОЛБЦЕ**

Для того чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания), используется **метод value_counts()**.

Данный метод возвращает объект Series, в котором в качестве индексов выступают уникальные категории столбца, а значениями - соответствующая им частота.

Рассмотрим работу **value_counts()** на примере столбца с названиями районов:

In [16]:
melb_data['Regionname'].value_counts()

Regionname
Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: count, dtype: int64

Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром **normalize**. При установке значения этого параметра на **True** результат будет представляться в виде доли (относительной частоты):

In [17]:
melb_data['Regionname'].value_counts(normalize=True)

Regionname
Southern Metropolitan         0.345729
Northern Metropolitan         0.286451
Western Metropolitan          0.217084
Eastern Metropolitan          0.108321
South-Eastern Metropolitan    0.033137
Eastern Victoria              0.003903
Northern Victoria             0.003019
Western Victoria              0.002356
Name: proportion, dtype: float64

***Из результатов мы можем сделать вывод, что наименьшее количество объектов (менее 1%) было продано в районах Victoria, а наибольшее - в районах Metropolitan.***

**7. Статистические методы**

**АГРЕГИРУЮЩИЕ МЕТОДЫ**

**Агрегирующим в Pandas** называется метод, который для каждого столбца возвращает только одно значение - показатель (например, вычисление медианы, максимума, среднего и так далее).

→ **.count()** - Количество непустых значений

→ **.mean()** - Среднее значение

→ **.min()** - Минимальное значение

→ **.max()** - Максимальное значение

→ **.var()** - Дисперсия

→ **.std()** - Стандартное отклонение

→ **.sum()** - Сумма

→ **.quantile(x)** - Квантиль уровня x

→ **.nunique()** - Число уникальных значений

**В каждый метод можно передать некоторые параметры, среди которых:**

**axis** - определяет, подсчитывать параметр по строкам или по столбцам.

**numeric_only** - определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

Разберём агрегирующие функции на примерах.

***1)*** *Вычислим среднюю цену на объекты недвижимости:*

In [20]:
print(melb_data['Price'].mean())

1075684.079455081


***2)*** *Найдём максимальное количество парковочных мест:*

In [21]:
print(melb_data['Car'].max())

10


***3)*** *А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:*

In [22]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Total income of real estate agencies: 1752934775.88


***4)*** *Найдём, насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:*

In [23]:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.21205713983546193


**МОДАЛЬНОЕ ЗНАЧЕНИЕ**

Отдельный интерес представляет статический показатель **моды** - самого распространённого значения в столбце. Он вычисляется с помощью **метода mode()**.

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому **метод mode()**, в отличие от агрегирующих методов, возвращает не одно число, а серию.

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [24]:
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


**Примечание.**

**Метод mode()** может быть использован не только с числовыми столбцами, но и со столбцами **типа object.** Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

In [25]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

**8. Фильтрация данных в DataFrame**

*Под* ***фильтрацией в DataFrame*** *подразумевается получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию.*

*Разберём классический способ фильтрации в DataFrame* - ***фильтрацию с помощью масок.***

***Маской*** *называется Series, которая состоит из булевых значений, при этом значения ***True*** соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение ***False*** (например, цена > 2 млн).*

*Создадим маску и положим её в переменную с именем ***mask.*** Синтаксис очень прост:*

In [26]:
mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

*Для фильтрации нужно просто подставить переменную ***mask*** в индексацию ***DataFrame***. Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие - убирать (выведем первые пять строк отфильтрованной таблицы):*

In [27]:
display(melb_data[mask].head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280,"-37.8436, 144.9557"


In [28]:
melb_data[melb_data['Price'] > 2000000]

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.84810,144.94990,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.84470,144.95230,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.84220,144.95540,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.84150,144.95850,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.84360,144.95570,Southern Metropolitan,3280,"-37.8436, 144.9557"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13521,13521,Port Melbourne,44 Garton St,4,t,2455000.0,SP,Marshall,26/08/2017,3.5,...,2,123.0,0.0,2010,,-37.83349,144.94840,Southern Metropolitan,8648,"-37.83349, 144.9484"
13523,13523,Prahran,69 Greville St,4,h,2668000.0,S,Biggin,26/08/2017,4.6,...,2,383.0,126.0,1970,,-37.84879,144.98882,Southern Metropolitan,7717,"-37.84879, 144.98882"
13553,13553,Surrey Hills,20 Albert Cr,4,h,2720000.0,S,Kay,26/08/2017,10.2,...,2,1005.0,126.0,1920,,-37.82421,145.10352,Southern Metropolitan,5457,"-37.82421, 145.10352"
13555,13555,Surrey Hills,3 Oak St,4,h,3100000.0,VB,Marshall,26/08/2017,10.2,...,3,832.0,126.0,1970,,-37.83564,145.10919,Southern Metropolitan,5457,"-37.83564, 145.10919"


Найдём количество зданий с тремя комнатами. Для этого отфильтруем таблицу по условию: обратимся к результирующей таблице по столбцу **Rooms** и найдём число строк в ней с помощью атрибута **shape**:

In [29]:
melb_data[melb_data['Rooms'] == 3].shape[0]

5881

Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:

In [30]:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

3

Таких зданий оказалось всего три. Немного «ослабим» условие: теперь нас будут интересовать дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:

In [31]:
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

68

Фильтрацию часто сочетают со статистическими методами. Давайте найдём максимальное количество комнат в таунхаусах. Так как в результате фильтрации получается **DataFrame**, то обратимся к нему по столбцу ***Rooms*** и найдём максимальное значение:

In [32]:
melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

А теперь более сложный трюк: найдём медианную площадь здания у объектов, чья цена выше средней. Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:

In [33]:
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

126.0

Фильтрация находит применение в очистке данных.

Под **очисткой данных** понимается удаление из данных аномальных значений (выбросов), пропусков и данных, которые не несут информацию.

Причин появления таких дефектов в данных множество: неправильная передача по сети, неверная выгрузка из базы, человеческий фактор и т. д.

Проблема аномальных значений состоит в том, что если мы обучаем модель на данных, содержащих выбросы, то мы имеем немалый шанс получить менее верный прогноз, чего нам, конечно же, не хотелось бы.