## 1. Pandas
##### Документация - https://pandas.pydata.org/pandas-docs/stable/index.html
<a class="anchor" id="0"></a>
<a class="anchor" id="1"></a>

### Содержание:
>* [1. Документация `Pandas`](#1)
>* [2. `Series`](#2)
>* [3. `DataFrame` как сруктура данных](#3)
>* [4. Работа с различными источниками данных в `Pandas`](#4)
>* [5. Практика. Данные. Недвижимость](#5)
>* [6. Исследование структуры `DataFrame`](#6)
>* [7. Агрегирующие методы](#7)
>* [8. Фильтрация данных в `DataFrame`](#8)
>* [9. Практика "Студенты"](#9)

<a class="anchor" id="2"></a>
[К содержанию](#0)
## 2. Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 

[К содержанию](#0)

Эту структуру можно сравнить со списком: каждому элементу ставится в соответствие индекс, однако, в отличие от списка, индексами могут быть не только порядковые номера — фактически что угодно, например названия компаний, даты, идентификаторы, наименования продуктов.

Также для каждой Series присваивается тип данных её элементов (например int64) и может быть определено имя всего массива. В итоге мы получаем некоторый гибрид списка и словаря
#### Для создания объекта Series используется команда `pd.Series()`.

In [1]:
import pandas as pd

In [2]:
# Способ 1 — из списка с использованием параметров функции pd.Series():
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

In [3]:
# Способ 2 — из словаря, в котором ключами являются будущие метки, 
# а значениями — будущие значения Series, при этом использование параметра name также возможно:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

#### Доступ к элементам осуществляется с использованием loc или iloc.
`.loc` вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, так и список, чтобы получилось несколько элементов. 

In [4]:
display(countries.loc['US']) # вернет строку
display(countries.loc[['US','RU','KZ']]) # вернет объект Series

'США'

US          США
RU       Россия
KZ    Казахстан
Name: countries, dtype: object

In [5]:
display(countries.iloc[0]) # обращение к индексу (вернет строку)
display(countries.iloc[1:100]) # обращение к срезу (вернет объект Series)

'Англия'

CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

## 3. DATAFRAME КАК СТРУКТУРА ДАННЫХ <a class="anchor" id="3"></a>

[К содержанию](#0)

DataFrame создаётся с помощью функции `pd.DataFrame()`. Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

In [6]:
# СПОСОБ 1
# Самый простой способ создания DataFrame — из словаря, 
# ключами которого являются имена столбцов будущей таблицы, а значениями — списки, 
# в которых хранится содержимое этих столбцов:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
    
})
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
countries_df

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


In [7]:
# СПОСОБ 2
# Также DataFrame можно создать из вложенного списка, 
# внутренние списки которого будут являться строками новой таблицы:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


### AXIS В DATAFRAME
При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие axis (ось, координата). Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

In [8]:
# Считаем среднее по строкам (axis = 0) в каждом столбце:
countries_df.mean(axis=0)

  countries_df.mean(axis=0)


population    9.070000e+01
square        5.800860e+06
dtype: float64

In [9]:
# Считаем среднее по столбцам (axis = 1) в каждой строке:
countries_df.mean(axis=1)

  countries_df.mean(axis=1)


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

### ДОСТУП К ДАННЫМ В DATAFRAME

In [10]:
# Способ 1 - Обращаемся к DataFrame по имени столбца через точку:
print(type(countries_df['population']))
countries_df.population # имя столбца без пробелов!

<class 'pandas.core.series.Series'>


UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [11]:
# Способ 2 - Обращаемся к DataFrame по индексу и указать имя столбца:
print(type(countries_df['population']))
countries_df['population']

<class 'pandas.core.series.Series'>


UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

### Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.
При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам с помощью `loc (iloc)` первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

In [12]:
display(countries_df)
print('Площадь Великобритании', countries_df.loc['UK', 'square'])
print('Население и площадь, соответствующие России',countries_df.loc['RU', ['population', 'square']])
countries_df.loc['RU', ['population', 'square']]

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


Площадь Великобритании 133396
Население и площадь, соответствующие России population      146.24
square        17125191
Name: RU, dtype: object


population      146.24
square        17125191
Name: RU, dtype: object

## 4. Работа с различными источниками данных в Pandas <a class="anchor" id="4"></a>

[К содержанию](#0)

#### ЗАПИСЬ В CSV-ФАЙЛ
Формат csv (comma-separated values), ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.
#### Экспорт данных в формат csv осуществляется с помощью метода DataFrame to_csv().  
 - path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
 - sep — разделитель данных в выходном файле (по умолчанию ',');
 - decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
 - columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
 - index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

In [15]:
# Сохраним df из примера в папку data
# разделителем в нашем файле будет являться символ ';' 
# а также то, что нам не нужен дополнительный столбец с индексами строк:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('countries.csv', index=False, sep=';')

#### ЧТЕНИЕ CSV-ФАЙЛА
Для чтения таблицы из csv-файла используется функция модуля Pandas read_csv. Функция возвращает DataFrame и имеет несколько важных параметров.
- filepath_or_buffer — путь до файла, который мы читаем;
- sep — разделитель данных (по умолчанию ',');
- decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
- names — список с названиями столбцов для чтения;
- skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).
Убедимся, что сохранённый нами ранее файл создался верно. Для этого прочитаем его в переменную countries_data и выведем её на экран. Не забудем также о том, что мы использовали в качестве разделителя ';':

In [16]:
countries_data = pd.read_csv('countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


### ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ


In [17]:
data = pd.read_csv('countries.csv', sep=';') # Путь до файла
display(data)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


### Методы для записи таблиц в файлы отличных от csv форматов:
- `to_excel()` — запись DataFrame в формат Excel-таблицы (.xslx);
- `to_json()` — запись DataFrame в формат JSON (.json);
- `to_xml()` — запись DataFrame в формат XML-документа (.xml);
- `to_sql()` — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).
### Методы для чтения таблиц из файлов в отличных от csv форматах:
- `read_excel()` — чтение из формата Excel-таблицы(.xslx) в DataFrame;
- `read_json()` — чтение из формата JSON (.json) в DataFrame;
- `read_xml()` — чтение из формата XML-документа (.xml) в DataFrame;
- `read_sql()` — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

## 5. Практика. Данные. Недвижимость <a class="anchor" id="5"></a>

[К содержанию](#0)

Прочитаем [наши данные](https://www.kaggle.com/datasets/dansbecker/melbourne-housing-snapshot) о недвижимости из csv-файла и запишем результирующий DataFrame в переменную melb_data:
>`melb_data = pd.read_csv('data/melb_data.csv', sep=',')`
- index — номер строки
- Suburb — наименование пригорода
- Address — адрес
- Rooms — количество комнат в помещении
- Type — тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
- Price — цена помещения
- Method — метод продажи 
- SellerG — риэлторская компания
- Date — дата продажи (в формате день/месяц/год)
- Distance — расстояния до объекта от центра Мельбурна 
- Postcode — почтовый индекс
- Bedroom — количество спален
- Bathroom — количество ванных комнат
- Car — количество парковочных мест
- Landsize — площадь прилегающей территории
- BuildingArea — площадь здания
- YearBuilt — год постройки
- CouncilArea — региональное управление
- Lattitude — географическая широта
- Longitude — географическая долгота
- Regionname — наименование района Мельбурна
- Propertycount — количество объектов недвижимости в районе
- Coordinates — широта и долгота, объединённые в кортеж


In [24]:

melb_data = pd.read_csv('melb_data.csv', sep=',')
melb_data.loc[15,'Price'] #Какова цена объекта недвижимости под индексом 15?
melb_data.loc[90,'Date'] #Когда был продан объект под индексом 90?
melb_data.loc[3521,'Landsize'] / melb_data.loc[1690,'Landsize'] #Во сколько раз площадь участка, 
#на котором находится здание с индексом 3521, больше площади участка, на котором находится здание с индексом 1690

2.7857142857142856

## 6. Исследование структуры DataFrame <a class="anchor" id="6"></a>

[К содержанию](#0)

Чтобы проверить, что таблица подгрузилась правильно достаточно выгрузить первые и последние строки.

Для этого у DataFrame есть методы `head()` и `tail()`, которые возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5).

In [None]:
.head(<'количество_строк'=5) # строки с начала
.tail(<'количество_строк'=5) # строик с конца
.info() # информация о столбцах
.shape # размерность таблицы

In [19]:
# Выведем первые пять строк нашей таблицы:
display(melb_data.head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1.0,94.0,126.0,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,"-37.8072, 144.9941"


In [20]:
# Последние 7 строк
melb_data.tail(7)

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
13573,13573,Werribee,5 Nuragi Ct,4,h,635000.0,S,hockingstuart,26/08/2017,14.7,...,1.0,662.0,172.0,1980.0,,-37.89327,144.64789,Western Metropolitan,16166.0,"-37.89327, 144.64789"
13574,13574,Westmeadows,9 Black St,3,h,582000.0,S,Red,26/08/2017,16.5,...,2.0,256.0,126.0,1970.0,,-37.67917,144.8939,Northern Metropolitan,2474.0,"-37.67917, 144.8939"
13575,13575,Wheelers Hill,12 Strada Cr,4,h,1245000.0,S,Barry,26/08/2017,16.7,...,2.0,652.0,126.0,1981.0,,-37.90562,145.16761,South-Eastern Metropolitan,7392.0,"-37.90562, 145.16761"
13576,13576,Williamstown,77 Merrett Dr,3,h,1031000.0,SP,Williams,26/08/2017,6.8,...,2.0,333.0,133.0,1995.0,,-37.85927,144.87904,Western Metropolitan,6380.0,"-37.85927, 144.87904"
13577,13577,Williamstown,83 Power St,3,h,1170000.0,S,Raine,26/08/2017,6.8,...,4.0,436.0,126.0,1997.0,,-37.85274,144.88738,Western Metropolitan,6380.0,"-37.85274, 144.88738"
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,"-37.85908, 144.89299"
13579,13579,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0,"-37.81188, 144.88449"


In [21]:
# Размерность таблицы
melb_data.shape

(13580, 23)

In [22]:
# Получение информации о столбцах
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  float64
 12  Bathroom       13580 non-null  float64
 13  Car            13580 non-null  float64
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  float64
 17  CouncilArea    12211 non-null  object 
 18  Lattit

Данный метод выводит:
- информацию об индексах;
- информацию об общем количестве столбцов;
- таблицу, в которой содержится информация об именах столбцов (Column), количестве непустых значений (Non-Null Count) в каждом столбце и типе данных столбца (Dtype), 
количестве столбцов, в которых используется определённый тип данных;
- количество оперативной памяти в мегабайтах, которое тратится на хранение данных.

Из вывода метода `info()` становится понятно, что в нашей таблице есть столбец CouncilArea с пропущенными значениями — количество непустых значений в столбце меньше, чем количество строк в таблице (12211 < 13580).

Пустыми, или пропущенными, значениями называются значения в ячейках таблицы, которые не заполнены по какой-либо причине, то есть на их месте стоит пустое место. В Pandas такие значения обозначаются символом NaN (Not-a-Number).

→ Мы будем говорить о работе с пропусками в отдельном модуле, посвящённом очистке данных, а пока что не будем обращать на них внимания.

#### ИЗМЕНЕНИЕ ТИПА ДАННЫХ В СТОЛБЦЕ
Если присмотреться внимательнее к выводу метода `info()`, а конкретнее — к типам данных столбцов, становится понятно, что некоторые признаки кодируются не совсем корректными типами данных:
- Например, данные в столбцах, которые отражают количество, должны, по идее, выражаться целым числом (Car, Bedroom, Bathroom и Propertyсount), однако кодируются float64 — числом с плавающей запятой размером 64 бита.
- Наконец, данные в столбце с годом постройки (YearBuilt) также представлены в формате чисел с плавающей точкой.

#### Чтобы исправить это, можно воспользоваться методом astype(), который позволяет преобразовать тип данных столбца:

In [82]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

#### Подробнее о типах данных Pandas
https://dfedorov.spb.ru/pandas/Обзор%20типов%20данных%20pandas.html

#### Часто при работе с таблицей нужно быстро посмотреть на основные статистические свойства её столбцов. Для этого можно воспользоваться методом DataFrame describe().
По умолчанию метод работает с числовыми (int64 и float64) столбцами и показывает число непустых значений (count), среднее (mean), стандартное отклонение (std), минимальное значение (min),  квартили уровней 0.25, 0.5 (медиана) и 0.75 (25%, 50%, 75%) и максимальное значение (max) для каждого столбца исходной таблицы.

In [83]:
# Чтобы не увязнуть в обилии информации, выведем на экран значение статистических параметров 
# только для столбцов Distance (расстояние от объекта недвижимости до центра Мельбурна), 
# BuildingArea (площадь здания) и Price (цена объекта):
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


#### Столбец Distance (расстояние до центра города)
- В нашем наборе данных представлены объекты, удалённые от центра города на расстояние до 48 километров
#### Столбец BuildingArea (площадь здания)
- В нашей таблице представлены участки, на которых отсутствует само здание (его площадь равна 0), то есть владельцы продавали участок земли без строений на нём.
- Большая часть объектов (75%) имеет площадь здания до 130 квадратных метров, однако в нашей таблице есть настоящий дворец (судя по его размерам) с площадью в 44 515 квадратных метров.
#### Столбец Price (цена)
- Диапазон цен на недвижимость в Мельбурне варьируется от 85 тысяч до 9 миллионов австралийских долларов.

>На самом деле метод describe() можно применять не только к числовым признакам. С помощью параметра include можно указать тип данных, для которого нужно вывести описательную информацию.

Например, для типа данных object метод ``` describe() ``` возвращает DataFrame, в котором указаны:

- количество непустых строк (count);
- количество уникальных значений (unique);
- самое частое значение — мода —  (top);
- частота — объём использования — этого значения (freq) для каждого столбца типа object исходной таблицы.

In [84]:
melb_data.describe(include=['object'])

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


>Столбец Suburb (пригород)
- Наибольшее количество проданных объектов (359) находилось в пригороде Reservoir.
>Столбец Type (тип здания)
- Самый популярный тип дома — h (дом, вилла, коттедж).
>Столбец SellerG (риелтор)
- В наших данных нам известно о 268 различных риэлторских компаниях, однако самой главной «акулой» в этом бизнесе является компания Nelson — они продали 1 565 различных домов.
>Столбец Date (дата продажи)
- В нашей таблице содержится информация за 58 дней, при этом наибольшее число продаж (473) пришлось на 27 мая 2017 года.

#### ПОЛУЧЕНИЕ ЧАСТОТЫ УНИКАЛЬНЫХ ЗНАЧЕНИЙ В СТОЛБЦЕ
Для того чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания), используется метод `value_counts()`.
>Данный метод возвращает объект Series, в котором в качестве индексов выступают уникальные категории столбца, а значениями — соответствующая им частота.

In [85]:
melb_data['Regionname'].value_counts()

Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: Regionname, dtype: int64

Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром normalize. При установке значения этого параметра на *True* результат будет представляться в виде доли (относительной частоты):

In [86]:
melb_data['Regionname'].value_counts(normalize=True)

Southern Metropolitan         0.345729
Northern Metropolitan         0.286451
Western Metropolitan          0.217084
Eastern Metropolitan          0.108321
South-Eastern Metropolitan    0.033137
Eastern Victoria              0.003903
Northern Victoria             0.003019
Western Victoria              0.002356
Name: Regionname, dtype: float64

## 7. АГРЕГИРУЮЩИЕ МЕТОДЫ <a class="anchor" id="7"></a>

[К содержанию](#0)

#### Агрегирующим в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).
>МЕТОД	-   СТАТИСТИЧЕСКИЙ ПАРАМЕТР
>- `.count()`	    Количество непустых значений
>- `.mean()`	        Среднее значение
>- `.min()`	        Минимальное значение
>- `.max()`	        Максимальное значение
>- `.deviance()`	    Дисперсия
>- `.std()`	        Стандартное отклонение
>- `.sum()`	        Сумма
>- `.quantile(x)`	Квантиль уровня x
>- `.nunique()`	    Число уникальных значений

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

- *axis*  — определяет, подсчитывать параметр по строкам или по столбцам;
- *numeric_only* — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

In [100]:
# Вычислим среднюю цену на объекты недвижимости:
print('Mean price -', round(melb_data['Price'].mean(), 3))
# Найдём максимальное количество парковочных мест:
print('Max parking place -', melb_data['Car'].max())
#А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости 
# составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. 
# Результат округлим до сотых:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))

Mean price - 1075684.079
Max parking place - 10
Total income of real estate agencies: 1752934775.88


In [104]:
# Найдём, насколько медианная площадь территории отличается от её среднего значения. 
# Вычислим модуль разницы между медианой и средним и разделим результат на среднее, 
# чтобы получить отклонение в долях:
(melb_data['Landsize'].quantile(0.5) - melb_data['Landsize'].mean()) / melb_data['Landsize'].mean()

-0.21205713983546193

#### МОДАЛЬНОЕ ЗНАЧЕНИЕ
Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода `mode()`.
>Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод `mode()`, в отличие от агрегирующих методов, возвращает **не одно число, а серию**.

In [105]:
# Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:
print(melb_data['Rooms'].mode())

0    3
Name: Rooms, dtype: int64


In [106]:
melb_data['Regionname'].mode()

0    Southern Metropolitan
Name: Regionname, dtype: object

## 8. Фильтрация данных в DataFrame <a class="anchor" id="8"></a>

[К содержанию](#0)

Под фильтрацией в *DataFrame* подразумевается получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 

>Разберём классический способ фильтрации в *DataFrame* — фильтрацию с помощью масок.

Маской называется *Series*, которая состоит из булевых значений, при этом значения *True* соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение *False* (например, цена > 2 млн).

In [107]:
# Создадим маску и положим её в переменную с именем mask. Синтаксис очень прост:
mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

Для фильтрации нужно просто подставить переменную `mask` в индексацию *DataFrame*. Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие — убирать (выведем первые пять строк отфильтрованной таблицы):

In [108]:
display(melb_data[mask].head())

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280,"-37.8436, 144.9557"


>Примечание. В результате выполнения фильтрации возвращается новый *DataFrame*, полученный из исходного, при этом исходная таблица `melb_data` остаётся без изменений.
Также вовсе не обязательно заносить маску в отдельную переменную — можно сразу вставлять условие в операцию индексации *DataFrame*, например:
`melb_data[melb_data['Price'] > 2000000]`

Найдём количество зданий с тремя комнатами. Для этого отфильтруем таблицу по условию: обратимся к результирующей таблице по столбцу *Rooms* и найдём число строк в ней с помощью атрибута `shape`:

In [112]:
melb_data[melb_data['Rooms'] == 3].shape[0]

5881

>Условия можно комбинировать, используя операторы & (логическое И) и | (логическое ИЛИ). Условия при этом заключаются в скобки.

Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:

In [117]:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

3

Таких зданий оказалось всего три. Немного «ослабим» условие: теперь нас будут интересовать дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:

In [122]:
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

68

Фильтрацию часто сочетают со статистическими методами. Давайте найдём максимальное количество комнат в таунхаусах. Так как в результате фильтрации получается *DataFrame*, то обратимся к нему по столбцу Rooms и найдём максимальное значение:

In [125]:
melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

А теперь более сложный трюк: найдём медианную площадь здания у объектов, чья цена выше средней. Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:

In [130]:
mean_price = melb_data['Price'].mean()
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].quantile(0.5)

126.0

## 9. Практика Студенты <a class="anchor" id="9"></a>

[К содержанию](#0)

- ]Качаем файл *.csv*](https://lms.skillfactory.ru/assets/courseware/v1/8a7b3b3f18edf7a3772760221c97139b/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/students_performance.zip)
- Читаем его в переменную

In [23]:
student_data = pd.read_csv('students_performance.csv', sep=',')
student_data.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


Информация о столбцах таблицы:
- gender — пол;
- race/ethnicity — раса/этническая принадлежность;
- parental level of education — уровень образования родителей;
- lunch — какие обеды получал студент во время обучения (standard — платный, free/reduced — бесплатный);
- test preparation course — посещал ли студент курсы подготовки к экзаменам (none — не посещал, completed — посещал);
- math score, reading score, writing score — баллы по математике, чтению и письму по сто балльной шкале.

In [136]:
# Cколько строк
student_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 8 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   math score                   1000 non-null   int64 
 6   reading score                1000 non-null   int64 
 7   writing score                1000 non-null   int64 
dtypes: int64(3), object(5)
memory usage: 62.6+ KB


In [138]:
# Данные по студенту под индексом 155
student_data.iloc[155]

gender                               female
race/ethnicity                      group C
parental level of education    some college
lunch                              standard
test preparation course           completed
math score                               70
reading score                            89
writing score                            88
Name: 155, dtype: object

In [140]:
# Какая расовая группа является самой крупной в учебном заведении?
student_data.describe(include=['object'])

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course
count,1000,1000,1000,1000,1000
unique,2,5,6,2,2
top,female,group C,some college,standard,none
freq,518,319,226,645,642


In [141]:
#Каков у студентов средний балл по математике?
student_data['math score'].mean()

66.089

In [142]:
# Каков средний балл по чтению у студентов, которые посещали курсы подготовки к экзаменам?
student_data[student_data['test preparation course'] == 'completed']['reading score'].mean()

73.89385474860335

In [None]:
# Сколько студентов получили 0 баллов по математике?
student_data[student_data['math score'] == 0].shape[0]

In [150]:
# Проверьте гипотезу: у студентов с оплачиваемым питанием средний балл по математике выше, 
# чем у студентов с льготным питанием.
# Ответом напишите наибольший средний балл по математике среди этих групп студентов.
print('кушали за деньги', student_data[student_data['lunch'] == 'standard']['math score'].mean())
print('кушали бесплатно', student_data[student_data['lunch'] != 'standard']['math score'].mean())


кушали за деньги 70.03410852713178
кушали бесплатно 58.92112676056338


In [151]:
# Каков процент студентов, родители которых имеют высшее образование уровня бакалавриата 
# (bachelor's degree)?
student_data[student_data['parental level of education'] == "bachelor's degree"].shape[0] / student_data.shape[0] *100

11.799999999999999

In [153]:
# Насколько медианный балл по письму у студентов в расовой группе А 
# отличается от среднего балла по письму у студентов в расовой группе C
student_data[student_data['race/ethnicity'] == 'group A']['writing score'].quantile(0.5) - student_data[student_data['race/ethnicity'] == 'group C']['writing score'].mean()

-5.827586206896555

### Ccылки:
- *Обзор типов данных* https://dfedorov.spb.ru/pandas/Обзор%20типов%20данных%20pandas.html
- *Pandas* https://pandas.pydata.org/docs/user_guide/index.html
- *Pandas. DataFrame* https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html

[К содержанию](#0)
