# Pandas
- является наиболее продвинутой и быстроразвивающейся библиотекой для анализа данных и их предобработки
- Подробная документация [Pandas](https://pandas.pydata.org/pandas-docs/stable/index.html) с детальным описанием всех функций и примерами их использования

# Что умее Pandas
- Среди основных возможностей библиотеки, необходимых специалисту в Data Science, можно выделить следующие:

1. Работа с различными форматами данных (csv, excel, json, sql и т. д.).

1. Фильтрация данных (извлечение данных по условиям).

1. Быстрые математические операции с таблицами и их столбцами.

1. Использование методов статистического анализа.

1. Группировка данных и построение сводных таблиц.

1. Объединение нескольких таблиц.

1. Встроенная визуализация (возможность построения графиков по данным).

In [18]:
# Импорт Pandas
import pandas as pd
print(pd.__version__)
print(pd.__name__)

1.5.2
pandas


# Series как структура данных
- Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы) (Единица хранения информации в Pandas). Грубо говоря это гибрид списка и словаря. 
- В отличии от списка, индексами могут быть не только порядковые номера, а фактически что угодно, например компаний, даты, идентификаторы, наименование продуктов.

In [19]:
# для создания Series используется команда 
pd.Series()

  pd.Series()


Series([], dtype: float64)

In [20]:
# Рассмотрим два способа создания Series
# Функция display() является аналогом функции print() в файлах формата.ipynb
print('Способ 1 - из списка с использованием параметров функции pd.Series():')
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)
print('Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно')
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)


Способ 1 - из списка с использованием параметров функции pd.Series():


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

- Типом данных object в Pandas обозначаются строки и смешанные типы данных(котежи, списки, текст, смешанный с числами и т.д.)

# Доступ к данным в Series
Доступ к элементам осуществляется с использованием [loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.loc.html) или [iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.iloc.html).
- .loc - передаются как один индекс, так и списоки, чтобы получить несколько элементов
- .iloc - передаются как один индекс, так и диапозны чисел.

In [21]:
print('Пример .loc')
print(countries.loc['US'])  # Один индекс
print()
print(countries.loc[['US', 'RU', 'UK']])  # Список
print()
print('Пример .iloc')
print(countries.iloc[6])  # Один индекс
print()
print(countries.iloc[1:4])  # Диапазон

Пример .loc
США

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object

Пример .iloc
Казахстан

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


- На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[[‘UK’, 'US', ‘UA’]] или countries[[0, 2, 4]]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.

# DataFrame как структура данных
- DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.
##### Терминалогия
- DataFrame и таблица - это синонимы. 
- Столбец таблицы и признак - это синонимы.

#### Создание DataFrame

In [22]:
pd.DataFrame() # создание функции DataFrame

In [23]:
print('Способ 1.') 
print('Cоздания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов')
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)
print()
print('Способ 2.')
print('Создание DataFrame - из вложенного списка, внутренние списки которого будут являться строками новой таблицы')
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)
 

Способ 1.
Cоздания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов


Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902



Способ 2.
Создание DataFrame - из вложенного списка, внутренние списки которого будут являться строками новой таблицы


Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


# AXIS В DataFrame
- DataFrame является двумерной структурой данных, что означает наличие двух возможных направлений движения в ней: вдоль строк и вдоль столбцов. (т.е. мы можем редактировать, как строки, так и столбцы. Например удалять их)

- axis - ось, координата. Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.
Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

##### демонстрация направления axis в DataFrame:
![Image of Yaktocat](https://i.stack.imgur.com/dcoE3.jpg)

In [24]:
display('Считаем среднее по строкам(axis = 0) в каждом столбце:')
display(countries_df.mean(axis=0))
display()
display('Считаем среднее по столбцам(axis = 1) в каждой строке')
display(countries_df.mean(axis=1))
display()
display('Обращаемся к DataFrame по имени столбца через точку:')
display(countries_df.population)

'Считаем среднее по строкам(axis = 0) в каждом столбце:'

  display(countries_df.mean(axis=0))


population    9.070000e+01
square        5.800860e+06
dtype: float64

'Считаем среднее по столбцам(axis = 1) в каждой строке'

  display(countries_df.mean(axis=1))


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

'Обращаемся к DataFrame по имени столбца через точку:'

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

#

In [25]:
print('Обращаемся к DataFrame по индексу и указанием имени столбца:')
print(countries_df['population'])
print()
print('Несколько примеров использования loc и iloc:')
display(countries_df.loc['UK', 'square'])
print()
display(countries_df.loc['RU', ['population', 'square']])
print()
display(countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']])
print()
display(countries_df.iloc[4:8, 1:3])

Обращаемся к DataFrame по индексу и указанием имени столбца:
UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Несколько примеров использования loc и iloc:


133396




population      146.24
square        17125191
Name: RU, dtype: object




Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902





Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


# Работа с различными источниками данных в Pandas
- В работе Data Scientist чаще всего сталкивается с уже собранными данными, хранящимися в виде файлов и других источников, таких как базы данных и web-источники. Проблема заключается в том, что каждый источник данных представляет разный формат: например, если данные приходят к вам из отдела бухгалтерии, то это, скорее всего, будет формат Excel-таблицы, результаты web-запросов чаще всего представлены в формате JSON или XML и так далее.

### ЗАПИСЬ В CSV-ФАЙЛ
Предположим, что мы захотели сохранить созданный нами ранее DataFrame. Самым простым и распространённым источником табличных данных является формат [csv](https://freesoft.ru/blog/fayl-formata-csv-chem-otkryt-opisanie-osobennosti) (comma-separated values). В данном формате ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.
Экспорт данных в формат csv осуществляется с помощью метода **DataFrame to_csv()**.  



#### Основные параметры метода DataFrame [to_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html)
- path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
- sep — разделитель данных в выходном файле (по умолчанию ',');
- decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
- columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
- index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь давайте сохраним наш DataFrame с информацией о странах в csv-файл countries.csv и положим файл в папку data. При этом укажем, что разделителем в нашем файле будет являться символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк:



In [2]:
import pandas as pd

countries_df = pd.DataFrame({
    'country': ['England', 'Canada', 'USA', 'Russia', 'Ukrain', 'Belarus', 'Kazahstan'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('C:\\Users\\admin\\Desktop\\SF DS118\\data\\countries.csv', index=False, sep=';')

### Чтение CSV-Фала
- для этого используется функция модуля Pandas **read_csv**. Функция возвращает DataFrame И имеет несколько важных параметров.
#### Основные параметры функции [read_csv()](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

- filepath_or_buffer — путь до файла, который мы читаем;
- sep — разделитель данных (по умолчанию ',');
- decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
- names — список с названиями столбцов для чтения;
- skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).


In [34]:
# проверяем, что ранее сохраненный нами файл был создан верно
countries_data = pd.read_csv('C:\\Users\\admin\\Desktop\\SF DS118\\data\\countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,square
0,England,56.29,133396
1,Canada,38.05,9984670
2,USA,322.28,9826630
3,Russia,146.24,17125191
4,Ukrain,45.5,603628
5,Belarus,9.5,207600
6,Kazahstan,17.04,2724902


# ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ
На самом деле файл с данными не обязательно должен храниться у вас на компьютере. Если он находится в открытом доступе по ссылке (например, на Google Диске или GitHub), его можно прочитать и из интернета — для этого достаточно в функции read_csv() вместо пути до файла указать ссылку на файл. Например:

In [35]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


#### ЗАПИСЬ И ЧТЕНИЕ В ДРУГИХ ФОРМАТАХ
##### Методы для записи таблиц **в файлы отличных** от csv форматов:

- to_excel() — запись DataFrame в формат Excel-таблицы (.xlsx);
- to_json() — запись DataFrame в формат JSON (.json);
- to_xml() — запись DataFrame в формат XML-документа (.xml);
- to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).

##### Методы для чтения таблиц **из файлов в отличных** от csv форматах:

- read_excel() — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
- read_json() — чтение из формата JSON (.json) в DataFrame;
- read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
- read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

# Исследование структуры DataFrame
- Для вывода первых и последних строк у DataFrame есть методы head() и tail(), которые возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5).


In [43]:
# Выведем 5 строк нашей таблицы
display(melb_data.head())
print()
# Выведем 7 последних строк нашей таблицы
melb_data.tail(7)

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"





Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
13573,13573,Werribee,5 Nuragi Ct,4,h,635000.0,S,hockingstuart,26/08/2017,14.7,...,1.0,662.0,172.0,1980.0,,-37.89327,144.64789,Western Metropolitan,16166.0,"-37.89327, 144.64789"
13574,13574,Westmeadows,9 Black St,3,h,582000.0,S,Red,26/08/2017,16.5,...,2.0,256.0,126.0,1970.0,,-37.67917,144.8939,Northern Metropolitan,2474.0,"-37.67917, 144.8939"
13575,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2.0,652.0,126.0,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0,"-37.90562, 145.16761"
13576,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0,"-37.85927, 144.87904"
13577,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4.0,436.0,126.0,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0,"-37.85274, 144.88738"
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,"-37.85908, 144.89299"
13579,13579,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0,"-37.81188, 144.88449"


- Чтобы узнать размерность таблицы, можно воспользоваться атрибутой shape, который возвращает кортеж с количеством строк и столбцов:

In [45]:
melb_data.shape
# Таким образом, в наших данных содержится информация о 13 580 объектах недвижимости, и их описывают 23 признака.

(13580, 23)

##### Для более детальной информации о столбцах аблицы, используется метод DataFrame **info()**
- Данный метод выводит:

1. Информацию об индексах;
1. Информацию об общем количестве столбцов;
1. Таблицу, в которой содержится информация об именах столбцов (Column), количестве непустых значений (Non-Null Count) в каждом столбце и типе данных столбца (Dtype), количестве столбцов, в которых используется определённый тип данных;
1. Количество оперативной памяти в мегабайтах, которое тратится на хранение данных.

In [46]:
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  float64
 12  Bathroom       13580 non-null  float64
 13  Car            13580 non-null  float64
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  float64
 17  CouncilArea    12211 non-null  object 
 18  Lattit

Из вывода метода info() становится понятно, что в нашей таблице есть столбец CouncilArea с пропущенными значениями — количество непустых значений в столбце меньше, чем количество строк в таблице (12211 < 13580).

**Пустыми, или пропущенными, значениями называются значения в ячейках таблицы, которые не заполнены по какой-либо причине, то есть на их месте стоит пустое место. В Pandas такие значения обозначаются символом [NaN (Not-a-Number)](https://pythonru.com/biblioteki/not-a-number-vse-o-nan-pd-5)**

# Изменение типа данных в столбце

Если присмотреться внимательнее к выводу метода info(), а конкретнее — к типам данных столбцов, становится понятно, что некоторые признаки кодируются не совсем корректными типами данных. 
Например, данные в столбцах, которые отражают количество, должны, по идее, выражаться целым числом (Car, Bedroom, Bathroom и Propertyсount), однако кодируются float64 — числом с плавающей запятой размером 64 бита.

Наконец, данные в столбце с годом постройки (YearBuilt) также представлены в формате чисел с плавающей точкой.

Чтобы исправить это, можно воспользоваться методом **astype()**, который позволяет преобразовать тип данных столбца:



In [47]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

В данном коде мы при помощи метода [astype()](https://dfedorov.spb.ru/pandas/Обзор%20типов%20данных%20pandas.html) последовательно переопределяем столбцы на них же самих, только с изменённым типом данных: int64 — целочисленное число размером 64 бита.

**Примечание. При работе с очень большими объёмами данных такая перекодировка может сыграть большую роль, позволяя сэкономить объём занимаемой таблицей памяти.**

# Получение описательной статистики

-  Часто при работе с таблицей нужно быстро посмотреть на основные статистические свойства её столбцов. Для этого можно воспользоваться методом DataFrame describe().

- По умолчанию метод работает с числовыми (int64 и float64) столбцами и показывает число непустых значений (count), среднее (mean), стандартное отклонение (std), минимальное значение (min),  квартили уровней 0.25, 0.5 (медиана) и 0.75 (25%, 50%, 75%) и максимальное значение (max) для каждого столбца исходной таблицы.

- Термины для ознакомления: [Стандартное отклонение](https://ru.wikipedia.org/wiki/Среднеквадратическое_отклонение) и [Квартили](https://rus.financedjournal.com/quartile)

В качестве примера выведем на экран значение статистических параметров только для столбцов Distance (расстояние от объекта недвижимости до центра Мельбурна), BuildingArea (площадь здания) и Price (цена объекта):

In [48]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


Выводы которые мы можем сделать из полученной таблицы:

1. Столбец Distance (расстояние до центра города)

- В нашем наборе данных представлены объекты, удалённые от центра города на расстояние до 48 километров

1. Столбец BuildingArea (площадь здания)

- В нашей таблице представлены участки, на которых отсутствует само здание (его площадь равна 0), то есть владельцы продавали участок земли без строений на нём.
- Большая часть объектов (75%) имеет площадь здания до 130 квадратных метров, однако в нашей таблице есть настоящий дворец (судя по его размерам) с площадью в 44 515 квадратных метров.

1. Столбец Price (цена)

- Диапазон цен на недвижимость в Мельбурне варьируется от 85 тысяч до 9 миллионов австралийских долларов.

#### Метод **describe()** можно применять не только к числовым признакам. С помощью параметра include можно указать тип данных, для которого нужно вывести описательную информацию:
Например, для типа данных object метод describe() возвращает DataFrame, в котором указаны:

- количество непустых строк (count);
- количество уникальных значений (unique);
- самое частое значение — мода —  (top);
- частота — объём использования — этого значения (freq) для каждого столбца типа object исходной таблицы.

In [49]:
melb_data.describe(include=['object'])

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


Выводы которые мы можем сделать из полученной таблицы:

- **Столбец Suburb (пригород)**.
Наибольшее количество проданных объектов (359) находилось в пригороде Reservoir.
- **Столбец Type (тип здания)**.
Самый популярный тип дома — h (дом, вилла, коттедж).
- **Столбец SellerG (риелтор)**.
В наших данных нам известно о 268 различных риэлторских компаниях, однако самой главной «акулой» в этом бизнесе является компания - - Nelson — они продали 1 565 различных домов.
- **Столбец Date (дата продажи)**.
В нашей таблице содержится информация за 58 дней, при этом наибольшее число продаж (473) пришлось на 27 мая 2017 года.

#### Получение частоты уникальных значений в столбце
- Для определения сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания), используется метод **value_counts()**.
- **value_counts()** - возвращает объект Series, в котором в качестве индексов выступают уникальные категории столбца, а значениями — соответствующая им частота.

In [50]:
melb_data['Regionname'].value_counts()

Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: Regionname, dtype: int64

Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром normalize. При установке значения этого параметра на True результат будет представляться в виде доли (относительной частоты):

In [54]:
melb_data['Regionname'].value_counts(normalize=True)

Southern Metropolitan         0.345729
Northern Metropolitan         0.286451
Western Metropolitan          0.217084
Eastern Metropolitan          0.108321
South-Eastern Metropolitan    0.033137
Eastern Victoria              0.003903
Northern Victoria             0.003019
Western Victoria              0.002356
Name: Regionname, dtype: float64

Вывод по таблице будет следующим - наименьшее количество объектов (менее 1%) было продано в районах Victoria, а наибольшее — в районах Metropolitan.

# Агрегирующие методы

Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).
##### Статистические параметры:
- .count()	Количество непустых значений
- .mean()	Среднее значение
- .min()	Минимальное значение
- .max()	Максимальное значение
- .var()	Дисперсия
- .std()	Стандартное отклонение
- .sum()	Сумма
- .quantile(x)	Квантиль уровня x
- .nunique()	Число уникальных значений
- ..median  Медиана

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

- axis  — определяет, подсчитывать параметр по строкам или по столбцам;
- numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

In [58]:
# Вычислим среднюю цена на объекты недвижимости
print(melb_data['Price'].mean())
# Найдем максимальное количество парковочных мест:
print(melb_data['Car'].max())
# А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. 
# Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))
#Найдём, насколько медианная площадь территории отличается от её среднего значения. 
# Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

1075684.079455081
10
Total income of real estate agencies: 1752934775.88
0.21205713983546193


# Модальное значение 
В статистике значение, которое чаще встречается в предоставленном наборе значений данных, известно как mode. Другими словами, число или значение, которое имеет высокую частоту или появляется повторно, известно как режим или модальное значение. Модальное значение является одним из трех показателей Центральной тенденции.

- Статический показатель моды вычисляется с помощью метода **mode().**
- Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.
- Метод mode() может быть использован не только с числовыми столбцами, но и со столбцами типа object. 

In [60]:
# Вычислим какое число комнат чаще всего представленно на рынке недвижимости
print(melb_data['Rooms'].mode())
# Найдем наиболее распространенное назваание района:
melb_data['Regionname'].mode()

0    3
Name: Rooms, dtype: int64


0    Southern Metropolitan
Name: Regionname, dtype: object

# Фильтрация данных в DataFrame
- Под фильтрацией в DataFrame подразумевается получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 
Классической фильтрацией в DataFrame является фильтрация с помощью масок
- Маской называется Series, которая состоит из булевых значений, при этом значения True соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение False (например, цена > 2 млн).


In [71]:
# Создадим маску и положим её в переменную с именем mask. Синтаксис очень прост:
mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

Для фильтрации нужно просто подставить переменную mask в индексацию DataFrame. Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие — убирать. Выведем первые пять строк отфильтрованной таблицы:

In [72]:
display(melb_data[mask].head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280,"-37.8436, 144.9557"


В результате выполнения фильтрации возвращается новый DataFrame, полученный из исходного, при этом исходная таблица melb_data остаётся без изменений.

Также вовсе не обязательно заносить маску в отдельную переменную — можно сразу вставлять условие в операцию индексации DataFrame, например:
- melb_data[melb_data['Price'] > 2000000]

##### Решим несколько примеров:

In [75]:
# Найдем количество зданий с тремя комнатами.
melb_data[melb_data['Rooms'] == 3].shape[0]  # обратимся к результирующей таблице по столбцу Rooms и найдём число строк в ней с помощью атрибута shape

5881

#### Условия можно комбинировать, используя операторы & (логическое И) и | (логическое ИЛИ). Условия при этом заключаются в скобки.

In [81]:
# Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

3

In [82]:
# Теперь нас будут интересовать дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

68

#####  Обратите внимание, что использование привычных операторов and и or будет неверным и приведёт к ошибке, так как они выполняют логические операции между двумя булевыми числами. В нашем случае слева и справа от оператора стоят маски (объекты Series), для которых логическую операцию надо совершить поэлементно, а операторы and и or для такого не предназначены.

- Фильтрацию часто сочетают со статистическими методами. Найдём максимальное количество комнат в таунхаусах. Так как в результате фильтрации получается DataFrame, то обратимся к нему по столбцу Rooms и найдём максимальное значение:

In [83]:
melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

In [84]:
# Найдём медианную площадь здания у объектов, чья цена выше средней.
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

126.0

##### Фильтрация находит применение в очистке данных.
- Под очисткой данных понимается удаление из данных аномальных значений (выбросов), пропусков и данных, которые не несут информацию.

- Причин появления таких дефектов в данных множество: неправильная передача по сети, неверная выгрузка из базы, человеческий фактор и т. д.

- Проблема аномальных значений состоит в том, что если мы обучаем модель на данных, содержащих выбросы, то мы имеем немалый шанс получить менее верный прогноз, чего нам, конечно же, не хотелось бы.