## СОЗДАНИЕ SERIES
Среди параметров функции pd.Series() за инициализацию меток отвечает именно параметр index.

In [2]:
import pandas as pd

countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

In [29]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

## Доступ к элементам осуществляется с использованием loc или iloc.
На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[['UK', 'US', 'UA']] или countries[[0, 2, 4]].

In [31]:
print(countries.loc[['US', 'RU', 'UK']])
print("")
print(countries.iloc[6])
print("")
# Берутся элементы с порядковыми номерами от 1 до 4, не включая последний.
print(countries.iloc[1:4]) 

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object

Казахстан

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


# DATAFRAME КАК СТРУКТУРА ДАННЫХ

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

Cлова DataFrame и таблица будут употребляться как синонимы. Также синонимами в Data Science являются слова столбец таблицы и признак.

## СОЗДАНИЕ DATAFRAME

In [32]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)


Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


In [58]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'area'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


# AXIS В DATAFRAME

При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие axis (ось, координата). Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.


In [34]:
# Считаем среднее по строкам (axis = 0) в каждом столбце:
countries_df.mean(axis=0, numeric_only=True)

population    9.070000e+01
area          5.800860e+06
dtype: float64

In [55]:
#Считаем среднее по столбцам (axis = 1) в каждой строке:
countries_df.mean(axis=1, numeric_only=True)

0      66726.145
1    4992354.025
2    4913476.140
3    8562668.620
4     301836.750
5     103804.750
6    1362459.520
dtype: float64

# ДОСТУП К ДАННЫМ В DATAFRAME
Можно обратиться к DataFrame по имени столбца через точку.
Другой вариант — обратиться к DataFrame по индексу и указать имя столбца.

In [36]:
countries_df.population
# только тогда, когда имя столбца указано без пробелов.

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [37]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

### Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.

In [63]:
#Получим площадь Великобритании:
countries_df.loc['UK', 'area']

#Получим население и площадь, соответствующие России:
countries_df.loc['RU', ['population', 'area']]

#Сделаем вырезку из таблицы и получим информацию о населении и площади.

countries_df.loc[['UA', 'BY', 'KZ'],['population', 'area']]

countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,area
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


#  4. Работа с различными источниками данных в Pandas

В работе Data Scientist чаще всего сталкивается с уже собранными данными, хранящимися в виде файлов и других источников, таких как базы данных и web-источники. Проблема заключается в том, что каждый источник данных представляет разный формат: например, если данные приходят к вам из отдела бухгалтерии, то это, скорее всего, будет формат Excel-таблицы, результаты web-запросов чаще всего представлены в формате JSON или XML и так далее.

### ЗАПИСЬ В CSV-ФАЙЛ
Экспорт данных в формат csv осуществляется с помощью метода DataFrame to_csv().  

Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь давайте сохраним наш DataFrame с информацией о странах в csv-файл countries.csv и положим файл в папку data. При этом укажем, что разделителем в нашем файле будет являться символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк:

In [49]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('data/countries.csv', index=False, sep=';')

# ЧТЕНИЕ CSV-ФАЙЛА

 - Для чтения таблицы из csv-файла используется функция модуля Pandas read_csv. Функция возвращает DataFrame и имеет несколько важных параметров.
 - Основные параметры функции read_csv()

- filepath_or_buffer — путь до файла, который мы читаем;
- sep — разделитель данных (по умолчанию ',');
- decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
- names — список с названиями столбцов для чтения;
- skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).

In [39]:
countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,area
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


# ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

# ЗАПИСЬ И ЧТЕНИЕ В ДРУГИХ ФОРМАТАХ

Методы для записи таблиц в файлы отличных от csv форматов:

- to_excel() — запись DataFrame в формат Excel-таблицы (.xlsx);
- to_json() — запись DataFrame в формат JSON (.json);
- to_xml() — запись DataFrame в формат XML-документа (.xml);
- to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).

. Методы для чтения таблиц из файлов в отличных от csv форматах:
- read_excel() — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
- read_json() — чтение из формата JSON (.json) в DataFrame;
- read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
- read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

# 5. Знакомимся с данными: недвижимость

- index — номер строки
- Suburb — наименование пригорода
- Address — адрес
- Rooms — количество комнат в помещении
- Type — тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
- Price — цена помещения
- Method — метод продажи 
- SellerG — риэлторская компания
- Date — дата продажи (в формате день/месяц/год)
- Distance — расстояния до объекта от центра Мельбурна 
- Postcode — почтовый индекс
- Bedroom — количество спален
- Bathroom — количество ванных комнат
- Car — количество парковочных мест
- Landsize — площадь прилегающей территории
- BuildingArea — площадь здания
- YearBuilt — год постройки
- CouncilArea — региональное управление
- Lattitude — географическая широта
- Longitude — географическая долгота
- Regionname — наименование района Мельбурна
- Propertycount — количество объектов недвижимости в районе, выставленных на продажу
- Coordinates — широта и долгота, объединённые в кортеж

In [37]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')
display(melb_data)

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0,"-37.8072, 144.9941"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13575,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2.0,652.0,126.0,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0,"-37.90562, 145.16761"
13576,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0,"-37.85927, 144.87904"
13577,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4.0,436.0,126.0,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0,"-37.85274, 144.88738"
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,"-37.85908, 144.89299"


# 6. Исследование структуры DataFrame
ВЫВОД ПЕРВЫХ И ПОСЛЕДНИХ СТРОК
- Для этого у DataFrame есть методы head() и tail(), которые возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5)

In [9]:
# Первые 5 строк
display(melb_data.head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"


In [None]:
# Последни 7 строк
melb_data.tail(7)

### РАЗМЕРНОСТЬ ТАБЛИЦЫ

In [11]:
melb_data.shape
# (13580, 23)

(13580, 23)

### ПОЛУЧЕНИЕ ИНФОРМАЦИИ О СТОЛБЦАХ

In [88]:
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  float64
 12  Bathroom       13580 non-null  float64
 13  Car            13580 non-null  float64
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  float64
 17  CouncilArea    12211 non-null  object 
 18  Lattit

### ИЗМЕНЕНИЕ ТИПА ДАННЫХ В СТОЛБЦЕ

→ Если присмотреться внимательнее к выводу метода info(), а конкретнее — к типам данных столбцов, становится понятно, что некоторые признаки кодируются не совсем корректными типами данных. 
- Например, данные в столбцах, которые отражают количество, должны, по идее, выражаться целым числом (Car, Bedroom, Bathroom и Propertyсount), однако кодируются float64 — числом с плавающей запятой размером 64 бита.

Наконец, данные в столбце с годом постройки (YearBuilt) также представлены в формате чисел с плавающей точкой.

Чтобы исправить это, можно воспользоваться методом astype(), который позволяет преобразовать тип данных столбца:

In [None]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

### ПОЛУЧЕНИЕ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ

→ Часто при работе с таблицей нужно быстро посмотреть на основные статистические свойства её столбцов. Для этого можно воспользоваться методом DataFrame describe().

По умолчанию метод работает с числовыми (int64 и float64) столбцами и показывает число непустых значений (count), среднее (mean), стандартное отклонение (std), минимальное значение (min),  квантили уровней 0.25, 0.5 (медиана) и 0.75 (25%, 50%, 75%) и максимальное значение (max) для каждого столбца исходной таблицы.

### Примечание. Числа с e+n означают 10 в n-ой степени. То есть 9.0e+06 = 9*10**6

In [14]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


### Какие интересные выводы мы можем сделать, исходя из построенной таблицы?

- Столбец Distance (расстояние до центра города)
В нашем наборе данных представлены объекты, удалённые от центра города на расстояние до 48 километров.

- Столбец BuildingArea (площадь здания)
В нашей таблице представлены участки, на которых отсутствует само здание (его площадь равна 0), то есть владельцы продавали участок земли без строений на нём.
Большая часть объектов (75%) имеет площадь здания до 130 квадратных метров, однако в нашей таблице есть настоящий дворец (судя по его размерам) с площадью в 44 515 квадратных метров.

- Столбец Price (цена)
Диапазон цен на недвижимость в Мельбурне варьируется от 85 тысяч до 9 миллионов австралийских долларов.

# Вывод описательной информации методом discribe()
- количество непустых строк (count);
- количество уникальных значений (unique);
- самое частое значение — мода —  (top);
- частота — объём использования — этого значения (freq) для каждого столбца типа object исходной таблицы.

In [22]:
melb_data.describe(include=['object'])


Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


In [23]:
# Найдем разницу по максимальному и минимальному значению count по столбцам
description = melb_data.describe(include=['object'])
count_diff = description.loc['count'].max() - description.loc['count'].min()
print(count_diff)

1369


In [25]:
# найдем среднее и медианное значение
# Вычисляем среднее значение для столбца
mean_value = melb_data['Price'].mean()

# Вычисляем медианное значение для столбца
median_value = melb_data['Price'].median()
print(mean_value/median_value)

1.1912337535493698


In [28]:
# Фильтруем DataFrame по расстоянию от центра
filtered_data = melb_data[(melb_data['Distance'] >= 6.1) & (melb_data['Distance'] <= 13.0)]

# Подсчитываем количество зданий в отфильтрованных данных
print(len(filtered_data)/len(melb_data))

0.5204712812960236


In [31]:
# средняя площадь зданий
average_building_area = melb_data['BuildingArea'].mean()
print(average_building_area)

139.63397229013256


In [None]:
# есть ли здания с нулевым расстоянием от центра города
filtered_data = melb_data[(melb_data['Distance'] == 0)]
print(filtered_data)

In [38]:
region_counts = melb_data['Regionname'].value_counts()
print(region_counts)

Regionname
Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: count, dtype: int64


In [39]:
# Подсчитываем количество таунхаусов (тип 't')
count_townhouses = melb_data['Type'].value_counts().get('t', 0)

# Подсчитываем общее количество домов
total_houses = melb_data.shape[0]

# Вычисляем процент таунхаусов от общего числа домов
percentage_townhouses = (count_townhouses / total_houses) * 100

print("Процент таунхаусов от общего количества домов:", percentage_townhouses, "%")

Процент таунхаусов от общего количества домов: 8.203240058910161 %


- Столбец Suburb (пригород)

Наибольшее количество проданных объектов (359) находилось в пригороде Reservoir.
- Столбец Type (тип здания)

Самый популярный тип дома — h (дом, вилла, коттедж).
- Столбец SellerG (риелтор)

В наших данных нам известно о 268 различных риэлторских компаниях, однако самой главной «акулой» в этом бизнесе является компания Nelson — они продали 1 565 различных домов.
- Столбец Date (дата продажи)

В нашей таблице содержится информация за 58 дней, при этом наибольшее число продаж (473) пришлось на 27 мая 2017 года.

# ПОЛУЧЕНИЕ ЧАСТОТЫ УНИКАЛЬНЫХ ЗНАЧЕНИЙ В СТОЛБЦЕ

→  метод value_counts().

Данный метод возвращает объект Series, в котором в качестве индексов выступают уникальные категории столбца, а значениями — соответствующая им частота.

Рассмотрим работу value_counts() на примере столбца с названиями районов:

In [16]:
melb_data['Regionname'].value_counts()

Regionname
Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: count, dtype: int64

Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром normalize. При установке значения этого параметра на True результат будет представляться в виде доли (относительной частоты):

In [17]:
melb_data['Regionname'].value_counts(normalize=True)

Regionname
Southern Metropolitan         0.345729
Northern Metropolitan         0.286451
Western Metropolitan          0.217084
Eastern Metropolitan          0.108321
South-Eastern Metropolitan    0.033137
Eastern Victoria              0.003903
Northern Victoria             0.003019
Western Victoria              0.002356
Name: proportion, dtype: float64

Из результатов мы можем сделать вывод, что наименьшее количество объектов (менее 1%) было продано в районах Victoria, а наибольшее — в районах Metropolitan.

# АГРЕГИРУЮЩИЕ МЕТОДЫ
Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).
- МЕТОД	СТАТИСТИЧЕСКИЙ ПАРАМЕТР
- .count()	Количество непустых значений
- .mean()	Среднее значение
- .min()	Минимальное значение
- .max()	Максимальное значение
- .var()	Дисперсия
- .std()	Стандартное отклонение(только числовые значения)
- .sum()	Сумма
- .quantile(x)	Квантиль уровня x
- .nunique()	Число уникальных значений

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

axis  — определяет, подсчитывать параметр по строкам или по столбцам;
numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

In [40]:
# Вычислим среднюю цену на объекты недвижимости:

print(melb_data['Price'].mean())
# 1075684.079455081

1075684.079455081


In [41]:
# Найдём максимальное количество парковочных мест:

print(melb_data['Car'].max())
# 10

10.0


In [42]:
# А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))
# Total income of real estate agencies: 1752934775.88

Total income of real estate agencies: 1752934775.88


In [43]:
# Найдём, насколько медианная площадь территории отличается от её среднего значения. 
# Вычислим модуль разницы между медианой и средним и разделим результат на среднее, 
# чтобы получить отклонение в долях:

landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)
# 0.21205713983546193
# В результате получаем долю отклонения медианы от среднего значения. Умножив результат на 100,
# получим его в процентах. Отклонение медианы от среднего значения на 21% является довольно большим,
# и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. 

0.21205713983546193


# МОДАЛЬНОЕ ЗНАЧЕНИЕ

→ Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода mode().

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в отличие от агрегирующих методов, возвращает не одно число, а серию.

In [44]:
# Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

print(melb_data['Rooms'].mode())
# 0    3
# dtype: int64

0    3
Name: Rooms, dtype: int64


In [45]:
# самый распространенный район
print(melb_data['Regionname'].mode())

0    Southern Metropolitan
Name: Regionname, dtype: object


In [51]:
max_propertycount = melb_data['Propertycount'].max()

print("Максимальное количество домов на продажу в районе:", max_propertycount)

Максимальное количество домов на продажу в районе: 21650.0


In [86]:
std_distance = melb_data['Distance'].std()

print("Стандартное отклонение расстояния от центра города:", std_distance)

Стандартное отклонение расстояния от центра города: 5.868724943071711


In [53]:
# Находим среднее и медианное значения площади здания
mean_building_area = melb_data['BuildingArea'].mean()
median_building_area = melb_data['BuildingArea'].median()

# Вычисляем абсолютное отклонение медианного значения от среднего значения
absolute_deviation = abs(median_building_area - mean_building_area)

# Рассчитываем отклонение в процентах
percentage_deviation = (absolute_deviation / mean_building_area) * 100

print("Отклонение медианного значения от среднего значения в процентах:", percentage_deviation, "%")

Отклонение медианного значения от среднего значения в процентах: 9.764079662364534 %


In [57]:
from statistics import mode
data = [1, 2, 4, 2, 3, 2, 1, 5, 6]

print(mode(data))

2


In [59]:
print(melb_data['Bedroom'].mode())

0    3.0
Name: Bedroom, dtype: float64


# 8. Фильтрация данных в DataFrame
Фильтрация - получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 

- классический способ фильтрации: с помощью масок.

Маской называется Series, которая состоит из булевых значений, при этом значения True соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение False (например, цена > 2 млн).
- Для чистоты и читабельности кода МАСКИ лучше разносить по переменным, если их много.

In [89]:
# Создадим маску и положим её в переменную с именем mask. Синтаксис очень прост:

mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

In [None]:
# Для фильтрации нужно просто подставить переменную mask в индексацию DataFrame. 
# Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие — убирать 
# (выведем первые пять строк отфильтрованной таблицы):
# исходная таблица melb_data остаётся без изменений
display(melb_data[mask].head())

In [None]:
melb_data[melb_data['Price'] > 2000000]

In [63]:
# Найдём количество зданий с тремя комнатами. 

melb_data[melb_data['Rooms'] == 3].shape[0]
# 5881

5881

In [68]:
# Найдем отсутствие ванных

melb_data[melb_data['Bathroom'] == 0].shape[0]

34

In [70]:
# Сколько в таблице melb_data объектов недвижимости, которые были проданы 
# риелторской компанией Nelson и стоимость которых составила больше 3 миллионов?
melb_data[(melb_data['SellerG'] == "Nelson") & (melb_data['Price'] > 3000000)].shape[0]


5

In [74]:
# Какова минимальная стоимость участка без здания (площадь здания равна 0) в таблице melb_data?
# Фильтруем DataFrame для участков без здания (площадь здания равна 0)
zero_building_area = melb_data[melb_data['BuildingArea'] == 0]

# Находим минимальную стоимость участка без здания
min_price_zero_building_area = zero_building_area['Price'].min()
print(min_price_zero_building_area)

412500.0


In [81]:
# Какова средняя цена объектов недвижимости в таблице melb_data с ценой менее одного миллиона,
# в которых либо количество комнат больше пяти, либо здание моложе 2015 года?
# Задаем условия для фильтрации
round(melb_data[(melb_data['Price']<1e6) & ((melb_data['Rooms']>5) | (melb_data['YearBuilt'] > 2015))]['Price'].mean())


769239

In [85]:
# В каком районе Мельбурна чаще всего продаются виллы и коттеджи (тип здания — h) с ценой меньше трёх миллионов?
melb_data[(melb_data["Price"]<3e6) & (melb_data['Type']=="h")]['Regionname'].mode()

0    Northern Metropolitan
Name: Regionname, dtype: object

In [64]:
# Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:

melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]
# 3

3

In [65]:
#«ослабим» условие: ищем дома с ценой менее 300 тысяч,
# у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:
# & = and, | = or
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]
# 68

68

In [66]:
# Фильтрацию часто сочетают со статистическими методами. Давайте найдём максимальное 
# количество комнат в таунхаусах. Так как в результате фильтрации получается DataFrame, 
# то обратимся к нему по столбцу Rooms 
# и найдём максимальное значение:
melb_data[melb_data['Type'] == 't']['Rooms'].max()
# 5

5

In [67]:
# А теперь более сложный трюк: найдём медианную площадь здания у объектов, чья цена
# выше средней. Для того чтобы оградить наш код от нагромождений, предварительно создадим 
# переменную со средней ценой:
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

# 126.0

126.0

In [None]:
# 