# **6. Исследование структуры DataFrame**

✍ Ранее мы прочитали файл melb_data.csv в DataFrame. Теперь настало время исследовать структуру данных и их основные характеристики.


ВЫВОД ПЕРВЫХ И ПОСЛЕДНИХ СТРОК

→ Часто бывает такое, что вывести на экран все строки таблицы является ресурсозатратной операцией, а иногда и вовсе не представляется возможным. В большинстве случаев для того, чтобы понять структуру DataFrame и удостовериться, что таблица подгрузилась верно, достаточно вывести несколько первых или последних строк.
Для этого у DataFrame есть методы head() и tail(), которые возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5).
Выведем первые пять строк нашей таблицы:


In [None]:
display(melb_data.head())

Следующий код выведет семь последних строк нашей таблицы:


In [None]:
melb_data.tail(7)

РАЗМЕРНОСТЬ ТАБЛИЦЫ

Далее хотелось бы узнать размер таблицы — количество строк и количество столбцов. Это можно сделать с помощью атрибута shape, который возвращает кортеж с количеством строк и столбцов:
 melb_data.shape
# (13580, 23)

Таким образом, в наших данных содержится информация о 13 580 объектах недвижимости, и их описывают 23 признака.



ПОЛУЧЕНИЕ ИНФОРМАЦИИ О СТОЛБЦАХ

Для того чтобы получить более детальную информацию о столбцах таблицы, можно использовать метод DataFrame info()

In [None]:
melb_data.info()

Данный метод выводит:

o	информацию об индексах;
o	информацию об общем количестве столбцов;
o	таблицу, в которой содержится информация об именах столбцов (Column), количестве непустых значений (Non-Null Count) в каждом столбце и типе данных столбца (Dtype), количестве столбцов, в которых используется определённый тип данных;
o	количество оперативной памяти в мегабайтах, которое тратится на хранение данных.

Из вывода метода info() становится понятно, что в нашей таблице есть столбец CouncilArea с пропущенными значениями — количество непустых значений в столбце меньше, чем количество строк в таблице (12211 < 13580).

Пустыми, или пропущенными, значениями называются значения в ячейках таблицы, которые не заполнены по какой-либо причине, то есть на их месте стоит пустое место. В Pandas такие значения обозначаются символом NaN (Not-a-Number).

→ Мы будем говорить о работе с пропусками в отдельном модуле, посвящённом очистке данных, а пока что не будем обращать на них внимания.
Если вам всё же любопытно, как можно работать с такими значениями в Pandas, то вы можете посмотреть информацию здесь.



ИЗМЕНЕНИЕ ТИПА ДАННЫХ В СТОЛБЦЕ

→ Если присмотреться внимательнее к выводу метода info(), а конкретнее — к типам данных столбцов, становится понятно, что некоторые признаки кодируются не совсем корректными типами данных. 
Например, данные в столбцах, которые отражают количество, должны, по идее, выражаться целым числом (Car, Bedroom, Bathroom и Propertyсount), однако кодируются float64 — числом с плавающей запятой размером 64 бита.
Наконец, данные в столбце с годом постройки (YearBuilt) также представлены в формате чисел с плавающей точкой.
Чтобы исправить это, можно воспользоваться методом astype(), который позволяет преобразовать тип данных столбца:


In [None]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

В данном коде мы при помощи метода astype() последовательно переопределяем столбцы на них же самих, только с изменённым типом данных: int64 — целочисленное число размером 64 бита.

*Примечание*. При работе с очень большими объёмами данных такая перекодировка может сыграть большую роль, позволяя сэкономить объём занимаемой таблицей памяти.

ДОПОЛНИТЕЛЬНО
Подробнее о типах данных в Pandas можно прочитать здесь.


ПОЛУЧЕНИЕ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ

→ Часто при работе с таблицей нужно быстро посмотреть на основные статистические свойства её столбцов. Для этого можно воспользоваться методом DataFrame describe().
По умолчанию метод работает с числовыми (int64 и float64) столбцами и показывает число непустых значений (count), среднее (mean), стандартное отклонение (std), минимальное значение (min),  квантили уровней 0.25, 0.5 (медиана) и 0.75 (25%, 50%, 75%) и максимальное значение (max) для каждого столбца исходной таблицы.
ДОПОЛНИТЕЛЬНО
Мы ещё будем подробнее говорить о статистических параметрах в разделе по математике, но советуем вам ознакомиться с данными терминами:
o	стандартное отклонение;
o	квантили.
Чтобы не увязнуть в обилии информации, выведем на экран значение статистических параметров только для столбцов Distance (расстояние от объекта недвижимости до центра Мельбурна), BuildingArea (площадь здания) и Price (цена объекта):

In [None]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

*Примечание*. Числа с  означают 10 в -ой степени. То есть 
Какие интересные выводы мы можем сделать, исходя из построенной таблицы?
Столбец Distance (расстояние до центра города)

•	В нашем наборе данных представлены объекты, удалённые от центра города на расстояние до 48 километров.
Столбец BuildingArea (площадь здания)

•	В нашей таблице представлены участки, на которых отсутствует само здание (его площадь равна 0), то есть владельцы продавали участок земли без строений на нём.

•	Большая часть объектов (75%) имеет площадь здания до 130 квадратных метров, однако в нашей таблице есть настоящий дворец (судя по его размерам) с площадью в 44 515 квадратных метров.
Столбец Price (цена)

•	Диапазон цен на недвижимость в Мельбурне варьируется от 85 тысяч до 9 миллионов австралийских долларов.

→ На самом деле метод describe() можно применять не только к числовым признакам. С помощью параметра include можно указать тип данных, для которого нужно вывести описательную информацию.
Например, для типа данных object метод describe() возвращает DataFrame, в котором указаны:
o	количество непустых строк (count);

o	количество уникальных значений (unique);

o	самое частое значение — мода —  (top);

o	частота — объём использования — этого значения (freq) для каждого столбца типа object исходной таблицы.



In [None]:
melb_data.describe(include=['object'])


 
Также приведём несколько выводов, которые можно сделать из полученной таблицы:

Столбец Suburb (пригород)
•	Наибольшее количество проданных объектов (359) находилось в пригороде Reservoir.

Столбец Type (тип здания)
•	Самый популярный тип дома — h (дом, вилла, коттедж).

Столбец SellerG (риелтор)
•	В наших данных нам известно о 268 различных риэлторских компаниях, однако самой главной «акулой» в этом бизнесе является компания Nelson — они продали 1 565 различных домов.

Столбец Date (дата продажи)
•	В нашей таблице содержится информация за 58 дней, при этом наибольшее число продаж (473) пришлось на 27 мая 2017 года.

Внимательно присмотритесь к полученным с помощью describe() таблицам и попробуйте сами сделать интересные выводы по ним.


ПОЛУЧЕНИЕ ЧАСТОТЫ УНИКАЛЬНЫХ ЗНАЧЕНИЙ В СТОЛБЦЕ

→ Для того чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания), используется метод value_counts().

Данный метод возвращает объект Series, в котором в качестве индексов выступают уникальные категории столбца, а значениями — соответствующая им частота.

Рассмотрим работу value_counts() на примере столбца с названиями районов:

In [None]:
melb_data['Regionname'].value_counts()


 
Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром normalize. При установке значения этого параметра на True результат будет представляться в виде доли (относительной частоты):
melb_data['Regionname'].value_counts(normalize=True)
 
Из результатов мы можем сделать вывод, что наименьшее количество объектов (менее 1%) было продано в районах Victoria, а наибольшее — в районах Metropolitan.
✍ Мы рассмотрели основные методы для получения информации о DataFrame, которые часто помогают понять структуру и природу исследуемых данных с помощью буквально нескольких строк кода. Давайте немного потренируемся, решив несколько задач ↓

**Задание 6.1**

Дана таблица data = pd.DataFrame([[0,1], [1, 0], [1, 1]], columns=['А', 'B']). Что выведет код print(data.shape)?


In [7]:
data = pd.DataFrame([[0,1], [1, 0], [1, 1]], columns=['А', 'B'])
print(data.shape)

(3, 2)


**Задание 6.2**

Какой из нижеперечисленных вариантов кода позволяет получить последние 15 строк DataFrame melb_data?
melb_data.head()
melb_data.tail(15)
melb_data.head(15)
melb_data.tail()
нет ответа


In [8]:
melb_data = pd.read_csv('data/melb_data.csv')
melb_data.tail(15)

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
13565,13565,Vermont,73 Nurlendi Rd,4,h,1263500.0,S,Barry,26/08/2017,17.2,...,2.0,791.0,126.0,1970.0,,-37.84467,145.19276,Eastern Metropolitan,4181.0,"-37.84467, 145.19276"
13566,13566,Vermont South,9 Winswood Cl,4,h,1250000.0,PI,Philip,26/08/2017,17.2,...,2.0,986.0,126.0,1970.0,,-37.84679,145.20051,Eastern Metropolitan,4280.0,"-37.84679, 145.20051"
13567,13567,Viewbank,149 Graham Rd,5,h,1316000.0,SP,Nelson,26/08/2017,8.9,...,3.0,696.0,126.0,1970.0,,-37.73501,145.08341,Eastern Metropolitan,2698.0,"-37.73501, 145.08341"
13568,13568,Wantirna,16 chesterfield Ct,4,h,951000.0,S,Ray,26/08/2017,14.7,...,2.0,704.0,200.0,1981.0,,-37.85639,145.23536,Eastern Metropolitan,5424.0,"-37.85639, 145.23536"
13569,13569,Wantirna South,12 Armagh Cr,4,h,1323000.0,S,Barry,26/08/2017,14.7,...,2.0,551.0,126.0,1970.0,,-37.87608,145.2239,Eastern Metropolitan,7082.0,"-37.87608, 145.2239"
13570,13570,Wantirna South,34 Fewster Dr,3,h,970000.0,S,Barry,26/08/2017,14.7,...,2.0,674.0,126.0,1970.0,,-37.8836,145.22805,Eastern Metropolitan,7082.0,"-37.8836, 145.22805"
13571,13571,Wantirna South,15 Mara Cl,4,h,1330000.0,S,Barry,26/08/2017,14.7,...,2.0,717.0,191.0,1980.0,,-37.86887,145.22116,Eastern Metropolitan,7082.0,"-37.86887, 145.22116"
13572,13572,Watsonia,76 Kenmare St,2,h,650000.0,PI,Morrison,26/08/2017,14.5,...,1.0,210.0,79.0,2006.0,,-37.70657,145.07878,Northern Metropolitan,2329.0,"-37.70657, 145.07878"
13573,13573,Werribee,5 Nuragi Ct,4,h,635000.0,S,hockingstuart,26/08/2017,14.7,...,1.0,662.0,172.0,1980.0,,-37.89327,144.64789,Western Metropolitan,16166.0,"-37.89327, 144.64789"
13574,13574,Westmeadows,9 Black St,3,h,582000.0,S,Red,26/08/2017,16.5,...,2.0,256.0,126.0,1970.0,,-37.67917,144.8939,Northern Metropolitan,2474.0,"-37.67917, 144.8939"


**Задание 6.3**

Какой тип данных имеет столбец Coordinates? (object)


In [14]:
melb_data = pd.read_csv('data/melb_data.csv')
print(melb_data['Coordinates'].info())

<class 'pandas.core.series.Series'>
RangeIndex: 13580 entries, 0 to 13579
Series name: Coordinates
Non-Null Count  Dtype 
--------------  ----- 
13580 non-null  object
dtypes: object(1)
memory usage: 106.2+ KB
None


**Задание 6.4**

Какое утверждение о типе данных object верно?

Это тип данных, которым в Pandas кодируются текстовые или другие нечисловые значения (кортежи, списки и т. д.)


**Задание 6.5**

Сколько пропущенных значений в столбце CouncilArea?  ? (1369) 
(Для вывода количества непустых значений используется метод info())
CouncilAre

In [18]:
melb_data = pd.read_csv('data/melb_data.csv')
print(melb_data['CouncilArea'].isnull())

0        False
1        False
2        False
3        False
4        False
         ...  
13575     True
13576     True
13577     True
13578     True
13579     True
Name: CouncilArea, Length: 13580, dtype: bool


**Задание 6.8**

Выберите верные утверждения в отношении таблицы melb_data:

In [2]:
import numpy as np

In [3]:
import pandas as pd

In [5]:
melb_data = pd.read_csv('data/melb_data.csv')
melb_data.describe(include=['object'])

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


**Задание 6.9**

Сколько процентов от общего количества домов составляют таунхаусы (тип объекта — t)?
Ответ округлите до целого числа. Не указывайте знак %.


In [6]:
melb_data['Type'].value_counts(normalize=True)

Type
h    0.695803
u    0.222165
t    0.082032
Name: proportion, dtype: float64