In [1]:
# imports
import sys
import os
from pathlib import Path
import pandas as pd
import numpy as np

# settings view dataframes
pd.set_option('display.max_columns', 50)
pd.set_option('display.width', 120)


# find dataset
data_melb = [
    Path('data') / 'melb_data_ps.csv',
    Path('..') / 'data' / 'melb_data_ps.csv',
    Path('../..') / 'data' / 'melb_data_ps.csv',
]
for p in data_melb:
    if p.is_file():
        DATA_PATH = p
        break
else:
    raise FileNotFoundError('Не найден melb_data_ps.csv')

print('Использую файл:', DATA_PATH.resolve())

# load dataset
melb_data = pd.read_csv(DATA_PATH)

# fast sanity-check
print('Форма набора данных (кол-во строк и столбцов):', melb_data.shape)
print('Первые 5 столбцов:', list(melb_data.columns[:23]))

Использую файл: /Users/kirilltishchenko/lessonsPandas/data/melb_data_ps.csv
Форма набора данных (кол-во строк и столбцов): (13580, 23)
Первые 5 столбцов: ['index', 'Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG', 'Date', 'Distance', 'Postcode', 'Bedroom', 'Bathroom', 'Car', 'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude', 'Longtitude', 'Regionname', 'Propertycount', 'Coordinates']


In [2]:
# preview data first 5 rows
melb_data.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,2,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,2,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,3,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,3,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,3,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


In [3]:
# copy dataset / создание копии нашего датасета
melb_df = melb_data.copy()
melb_df.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,2,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,2,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,3,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,3,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,3,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


##  Метод Drop
labels — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;

axis — ось совершения операции, axis=0 — удаляются строки, axis=1 — удаляются столбцы;

inplace — если параметр выставлен на True, происходит замена изначального DataFrame на новый, при этом метод ничего не возвращает; если на False — возвращается копия DataFrame, из которой удалены указанные строки (столбцы), при этом первоначальный DataFrame не изменяется; по умолчанию параметр равен False.

In [4]:
# drop columns - 'index', 'Coordinates'
melb_df = melb_df.drop(['index', 'Coordinates'], axis=1)
melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,2,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,2,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,3,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,3,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,3,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019


In [5]:
# создадим переменную total_rooms, в которой будем хранить общее количество 
# комнат в здании. Для этого выполним сложение столбцов с количеством комнат, 
# ванн и спален:
total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom']
display(total_rooms)

0         5
1         5
2         8
3         8
4         8
         ..
13575    10
13576     8
13577     8
13578     9
13579     9
Length: 13580, dtype: int64

In [6]:
#введём признак MeanRoomsArea, который соответствует средней площади одной 
# комнаты для каждого объекта. Для этого разделим площадь здания на полученное 
# ранее общее количество комнат:
melb_df['MeanRoomsArea'] = melb_df['BuildingArea'] / total_rooms
display(melb_df['MeanRoomsArea'])

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsArea, Length: 13580, dtype: float64

In [7]:
# ввести ещё один интересный признак — AreaRatio, 
# коэффициент соотношения площади здания (BuildingArea) 
# и площади участка (Landsize). Для этого разницу двух площадей поделим на их сумму:

diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area
display(melb_df['AreaRatio'])

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

Для того чтобы преобразовывать столбцы с датами, записанными в распространённых форматах, в формат datetime, можно воспользоваться функцией pandas.to_datetime(). В нашем случае в функции нужно указать параметр dayfirst=True, который будет обозначать, что день должен идти первым, потом ММ и ГГ

## Выделение атрибутов datetime

Тип данных datetime позволяет с помощью специального аксессора dt выделять составляющие времени из каждого элемента столбца, такие как:

date — дата;

year, month, day — год, месяц, день;

time — время;

hour, minute, second — час, минута, секунда;

dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;

day_name — название дня недели;

dayofyear — порядковый день года;

quarter — квартал (интервал в три месяца).

In [8]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
display(melb_df['Date'])

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

In [9]:
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int32
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


Теперь попробуем понять, на какие месяцы приходится пик продаж объектов недвижимости. Для этого выделим атрибут dt.month и на этот раз занесём результат в столбец MonthSale, а затем найдём относительную частоту продаж для каждого месяца от общего количества продаж — для этого используем метод value_counts() с параметром normalize (вывод в долях):

In [10]:
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

MonthSale
5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: proportion, dtype: float64

Из результатов становится ясно, что наибольшее количество продаж недвижимости приходится на май, июль и сентябрь (пятый, седьмой и девятый месяцы соответственно). Месяцами застоя при этом являются месяцы — октябрь, февраль и январь (десятый, второй и первый месяцы соответственно).

In [11]:
# Вычислим сколько дней прошло с 1 января 2016 года до момента продажи объекта. 
# Для этого можно просто найти разницу между датами продаж и заявленной датой, 
# представленной в формате datetime:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

В результате мы получаем Series, элементами которой является количество дней, которое прошло с 1 января 2016 года. Обратите внимание, что данные такого формата относятся к типу timedelta.

Чтобы превратить количество дней из формата интервала в формат целого числа дней, можно воспользоваться аксессором dt для формата timedelta и извлечь из него атрибут days:

In [12]:
# Рассмотрим другой пример. Давайте создадим признак возраста объекта 
# недвижимости в годах на момент продажи. Для этого выделим из столбца с 
# датой продажи год и вычтем из него год постройки здания. Результат оформим 
# в виде столбца AgeBuilding:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

0         46
1        116
2        117
3         47
4          2
        ... 
13575     36
13576     22
13577     20
13578     97
13579     97
Name: AgeBuilding, Length: 13580, dtype: int64

Примечание. Обратите внимание, что, так как года кодируются целым числом, в результате мы тоже получаем целочисленный столбец — тип int64 (а не timedelta).



In [13]:
# На самом деле столбец AgeBuilding дублирует информацию столбца YearBuilt, 
# так как, зная год постройки здания, мы автоматически знаем его возраст. 
# Такие признаки не стоит оставлять вместе, поэтому оставим возраст здания, 
# так как он является более наглядным, а год постройки удалим из таблицы:


melb_df = melb_df.drop('YearBuilt', axis=1)

In [14]:
# Создайте в таблице melb_df признак WeekdaySale (день недели). Найдите, сколько объектов недвижимости 
# было продано в выходные (суббота и воскресенье), результат занесите в переменную weekend_count. 
# В качестве ответа введите результат вывода переменной weekend_count.

melb_df['WeekdaySale'] = melb_df['Date'].dt.dayofweek
weekend_count = melb_df[melb_df['WeekdaySale'].isin([5, 6])].shape[0]
display(weekend_count)

12822

In [15]:
# Напишите функцию get_weekend(weekday), которая принимает на вход элемент столбца WeekdaySale 
# и возвращает 1, если день является выходным, и 0 — в противном случае, и создайте столбец Weekend 
# в таблице melb_df с помощью неё.

# Примените эту функцию к столбцу и вычислите среднюю цену объекта недвижимости, проданного в выходные дни. 
# Результат округлите до целых.

def get_weekend(weekday):
    return 1 if weekday in (5, 6) else 0

melb_df['Weekend'] = melb_df['WeekdaySale'].apply(get_weekend)

# средняя цена по выходным (округляем до целых)
mean_weekend_price = round(melb_df.loc[melb_df['Weekend'] == 1, 'Price'].mean())
mean_weekend_price

1081199

In [16]:
# 1) Оставляем топ-49 компаний, остальные -> 'other'
# Считает частоты значений в столбце SellerG, берёт 49 самых частых 
# и получает их имена (Index) — это список “топ‑49” компаний.
popular_49 = melb_df['SellerG'].value_counts().nlargest(49).index 

# Заменяет значения SellerG, не входящие в топ‑49, на строку 'other'; остальные оставляет как есть.
melb_df['SellerG'] = melb_df['SellerG'].where(melb_df['SellerG'].isin(popular_49), 'other')

# 2) Во сколько раз min цена у 'Nelson' больше min цены у 'other'
# Фильтрует строки, где SellerG == 'Nelson', берёт столбец Price и считает минимальную цену.
min_nelson = melb_df.loc[melb_df['SellerG'] == 'Nelson', 'Price'].min()

# Аналогично считает минимальную цену среди объектов, где SellerG == 'other'.
min_other  = melb_df.loc[melb_df['SellerG'] == 'other',  'Price'].min()

# Делит минимальную цену Nelson на минимальную цену 'other' и округляет результат до одной десятичной.
ratio = round(min_nelson / min_other, 1)
ratio



np.float64(1.3)

## Функции

Библиотека Pandas предоставляет большое количество возможностей для преобразований данных, однако иногда необходимо совершать более сложные манипуляции над столбцами. Например, из столбцов, содержащих в себе некоторый текст, необходимо специальным образом извлечь определённые слова, даты или числа.

→ Для таких случаев Pandas не имеет специальных методов, однако позволяет расширить свою функциональность за счёт использования пользовательских функций. 

Мы можем написать некоторую функцию, которая принимает на вход один элемент столбца, каким-то образом его обрабатывает и возвращает результат, после чего применить эту функцию к каждому элементу в столбце с помощью специального метода apply(). В результате применения этой функции будет возвращён объект Series, элементы которого будут представлять результат работы этой функции.

In [17]:
# У нас есть много уникальных значений, из-за чего сложно выводить статистику.
# Если мы прогнозируем цену объекта, то такое большое количество возможных категорий может плохо 
# сказаться на модели, которую мы бы хотели в дальнейшем построить на наших данных. 
# Говорят, что такой признак, скорее всего, не имеет статистической значимости, потому что 
# не позволяет разделить данные на группы, которые можно сравнить по целевому признаку.

print(melb_df['Address'].nunique())

13378


In [18]:
# Но мы можем проанализировать адрес по-другому и понять что есть общего и как это выделить
# На основе анализа мы можем выделить район объекта недвижимости - N, Rd, St и т.д.
print(melb_df['Address'].loc[177])
print(melb_df['Address'].loc[1812])
print(melb_df['Address'].loc[9001])

2/119 Railway St N
9/400 Dandenong Rd
172 Danks St


In [19]:
# Для того чтобы выделить подтип улицы, на которой находится объект, можно использовать следующую функцию:

# На вход данной функции поступает строка с адресом.
def get_street_type(address):
# Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
# Метод split() разбивает строку на слова по пробелу.
# В результате получаем список слов в строке и заносим его в переменную address_list.
    address_list = address.split(' ')
# Обрезаем список, оставляя в нём только последний элемент,
# потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = address_list[-1]
# Делаем проверку на то, что полученный подтип является географической пометкой.
# Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
# Если переменная street_type является географической пометкой,
# переопределяем её на второй элемент с конца списка address_list.
        street_type = address_list[-2]
# Возвращаем переменную street_type, в которой хранится подтип улицы.
    return street_type


In [20]:
# Теперь применим эту функцию к столбцу c адресом. Для этого передадим функцию get_street_type 
# в аргумент метода столбца apply(). В результате получим объект Series, 
# который положим в переменную street_types:
street_types = melb_df['Address'].apply(get_street_type)
display(street_types)

0        St
1        St
2        St
3        La
4        St
         ..
13575    Cr
13576    Dr
13577    St
13578    St
13579    St
Name: Address, Length: 13580, dtype: object

Обратите внимание, что функция пишется для одного элемента столбца, а метод apply() применяется к каждому его элементу. Используемая функция обязательно должна иметь возвращаемое значение.

In [21]:
# Итак, мы смогли выделить подтип улицы. Посмотрим, сколько уникальных значений у нас получилось:
print(street_types.nunique())

56


Из данного вывода можно увидеть, что есть группа наиболее популярных подтипов улиц, а дальше частота подтипов быстро падает.

В таком случае давайте применим очень распространённый метод уменьшения количества уникальных категорий — выделим n подтипов, которые встречаются чаще всего, а остальные обозначим как 'other' (другие).

Для этого к результату метода value_counts применим метод nlargest(), который возвращает n наибольших значений из Series. Зададим n=10, т. е. мы хотим отобрать десять наиболее популярных подтипов. Извлечём их названия с помощью атрибута index, а результат занесём в переменную popular_stypes:

In [22]:
popular_stypes =street_types.value_counts().nlargest(10).index
print(popular_stypes)

Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object', name='Address')


Теперь, когда у нас есть список наиболее популярных подтипов улиц, введём lambda-функцию, которая будет проверять, есть ли строка x в этом перечне, и, если это так, lambda-функция будет возвращать x, в противном случае она будет возвращать строку 'other'. Наконец, применим такую функцию к Series street_types, полученной ранее, а результат определим в новый столбец таблицы StreetType:

In [23]:
melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
display(melb_df['StreetType'])

0           St
1           St
2           St
3        other
4           St
         ...  
13575       Cr
13576       Dr
13577       St
13578       St
13579       St
Name: StreetType, Length: 13580, dtype: object

In [24]:
# Посмотрим на результирующее число уникальных подтипов:
print(melb_df['StreetType'].nunique())

11


Теперь, у нас нет потребности хранить признак Address, так как, если конкретное местоположение объекта всё же и влияет на его стоимость, то оно определяется столбцами Longitude и Lattitude. Удалим его из нашей таблицы:

In [25]:
melb_df = melb_df.drop('Address', axis=1)

Таким образом, с помощью написания собственных функций и их комбинирования с методом apply() из библиотеки Pandas мы смогли извлечь информацию из признака с адресом и заменить на признак подтипа улицы.

In [None]:
# melb_df.info() # начальный объем памяти 2.6 мб

# Преобразуем типы данных в категориальные там,
# где это возможно, чтобы уменьшить объём занимаемой памяти. 
# Стало 1.9 мб

cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] # список столбцов, которые мы не берём во внимание
max_unique_count = 150 # задаём максимальное число уникальных категорий
for col in melb_df.columns: # цикл по именам столбцов
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude: # проверяем условие
        melb_df[col] = melb_df[col].astype('category') # преобразуем тип столбца
display(melb_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 26 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Suburb         13580 non-null  object        
 1   Rooms          13580 non-null  int64         
 2   Type           13580 non-null  category      
 3   Price          13580 non-null  float64       
 4   Method         13580 non-null  category      
 5   SellerG        13580 non-null  category      
 6   Date           13580 non-null  datetime64[ns]
 7   Distance       13580 non-null  float64       
 8   Postcode       13580 non-null  int64         
 9   Bedroom        13580 non-null  int64         
 10  Bathroom       13580 non-null  int64         
 11  Car            13580 non-null  int64         
 12  Landsize       13580 non-null  float64       
 13  BuildingArea   13580 non-null  float64       
 14  CouncilArea    12211 non-null  category      
 15  Lattitude      1358

None

In [None]:
# Преименуем категории в столбце Type
melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
display(melb_df['Type'])

0        house
1        house
2        house
3        house
4        house
         ...  
13575    house
13576    house
13577    house
13578    house
13579    house
Name: Type, Length: 13580, dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

In [31]:
# Добавим категорию 'flat' в столбец Type, чтобы преобразовать тип данных в 'Category' 
melb_df['Type'] = melb_df['Type'].cat.add_categories('flat')
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2     flat
3     flat
4    house
dtype: category
Categories (4, object): ['house', 'townhouse', 'unit', 'flat']

## Работа с URL

### Выгрузка таблицы CSV из интернета

In [None]:
import requests, io
import pandas as pd
# Задачи
# Вам представлены данные (в формате csv) об отчётах очевидцев НЛО в США 
# за период с 1930 по 2020 год.
url_nlo = "https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv"
df_nlo = pd.read_csv(io.StringIO(requests.get(url_nlo, timeout=30).text), parse_dates=['Time'])
df_nlo.head(5)

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,1930-06-01 22:00:00
1,Willingboro,,OTHER,NJ,1930-06-30 20:00:00
2,Holyoke,,OVAL,CO,1931-02-15 14:00:00
3,Abilene,,DISK,KS,1931-06-01 13:00:00
4,New York Worlds Fair,,LIGHT,NY,1933-04-18 19:00:00


In [136]:
# В каком году отмечается наибольшее количество случаев наблюдения НЛО в США?
df_nlo['Time'].dt.year.value_counts()

Time
1999    2774
2000    2635
1998    1743
1995    1344
1997    1237
        ... 
1936       2
1930       2
1935       1
1934       1
1933       1
Name: count, Length: 68, dtype: int64

In [137]:
# Найдите средний интервал времени (в днях) между двумя последовательными 
# случаями наблюдения НЛО в штате Невада (NV).
# Чтобы выделить дату из столбца Time, можно воспользоваться атрибутом datetime date.
# Чтобы вычислить разницу между двумя соседними датами в столбце, примените к нему метод diff().
# Чтобы перевести интервал времени в дни, воспользуйтесь атрибутом timedelta days.
filter_nv = df_nlo[df_nlo['State'] == 'NV']
mean_last_count_nlo = filter_nv['Time'].dt.date.diff().dt.days.mean()
display(mean_last_count_nlo)

np.float64(68.92932862190813)

In [None]:
# создаём пустой список
unique_list = []
# пробегаемся по именам столбцов в таблице
for col in melb_df.columns:
    # создаём кортеж (имя столбца, число уникальных значений)
    item = (col, melb_df[col].nunique(),melb_df[col].dtypes) 
    # добавляем кортеж в список
    unique_list.append(item) 
# создаём вспомогательную таблицу и сортируем её
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique',  ignore_index=True)
# выводим её на экран
display(unique_counts)

: 