# Изучение функционала pandas.DataFrame

In [41]:
import pandas as pd

In [42]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')
fs = {x: x for x in [
                    "index", # номер строки
                    "Suburb", # наименование пригорода
                    "Address", # адрес
                    "Rooms", # количество комнат в помещении
                    "Type", # тип здания (h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
                    "Price", # цена помещения
                    "Method", # метод продажи 
                    "SellerG", # риэлторская компания
                    "Date", # дата продажи (в формате день/месяц/год)
                    "Distance", # расстояния до объекта от центра Мельбурна 
                    "Postcode", # почтовый индекс
                    "Bedroom", # количество спален
                    "Bathroom", # количество ванных комнат
                    "Car", # количество парковочных мест
                    "Landsize", # площадь прилегающей территории
                    "BuildingArea", # площадь здания
                    "YearBuilt", # год постройки
                    "CouncilArea", # региональное управление
                    "Lattitude", # географическая широта
                    "Longitude", # географическая долгота
                    "Regionname", # наименование района Мельбурна
                    "Propertycount", # количество объектов недвижимости в районе
                    "Coordinates" # широта и долгота, объединённые в кортеж 
                    ]
}

## Ответы на вопросы тестов Python-10

### Блок 5

In [43]:
# 5.1
# #  Какова цена объекта недвижимости под индексом 15?
melb_data.loc[15, fs['Price']]

1310000.0

In [44]:
# 5.2
# Когда был продан объект под индексом 90?
melb_data.loc[90, fs['Date']]

'10/09/2016'

In [45]:
# 5.3
# Во сколько раз площадь прилегающей территории, на которой находится здание с индексом 3521, 
# больше площади участка, на котором находится здание с индексом 1690? 
# Ответ округлите до целого числа.
round(melb_data.loc[3521, fs['Landsize']] / melb_data.loc[1690, fs['Landsize']], 0)

3.0

### Блок 6

In [46]:
# 6.5
# Сколько пропущенных значений в столбце CouncilArea?
melb_data.CouncilArea.isna().sum()


1369

In [47]:
# 6.6
# Сколько столбцов после преобразования типов имеет целочисленный тип данных?
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()
# 7
# стоит заметить, что если вывод не содержит всех столбцов, то нужно посмотреть расширенный текстовый вывод

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

In [48]:
# 6.7
# Выберите верные утверждения в отношении таблицы melb_data:
# A. Среднее и медианное значения цены дома в таблице отличаются более чем в 10 раз
melb_data.Price.mean() / melb_data.Price.median() # - 1.19

# B. Половина проданных зданий находится на расстоянии от 6.1 до 13 километров от центра города
melb_data.Distance.quantile(0.25), melb_data.Distance.quantile(0.5), melb_data.Distance.quantile(0.75) # (6.1, 9.2, 13.0) +

# C. Средняя площадь здания составляет более 180 квадратных метров
melb_data.BuildingArea.mean() # 139.63 -

# D. В данных есть как минимум одно жилое помещение, которое находится ровно в той точке, которая считается центром
melb_data.Distance.min() # 0.0 + 

0.0

In [49]:
# 6.8
#Задание 6.8
#Выберите верные утверждения в отношении таблицы melb_data:
#A. Наименьшее число объектов расположено в районе Southern Metropolitan - (потому что наибольшее)
melb_data.Regionname.value_counts()
'''
Southern Metropolitan         4695  v 
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
'''

#B. Мельбурн и его пригороды разделены как минимум на восемь районов +


#C. У некоторых различных адресов в таблице совпадают географические координаты +
melb_data.Coordinates.describe()
'''
count                  13580
unique                 13097
top       -37.8361, 144.9966
freq                      12 +
'''

#D. В пригороде Reservoir расположено наибольшее число проданных объектов - 359 +
melb_data.Suburb.value_counts()

Reservoir         359
Richmond          260
Bentleigh East    249
Preston           239
Brunswick         222
                 ... 
Sandhurst           1
Bullengarook        1
Croydon South       1
Montrose            1
Monbulk             1
Name: Suburb, Length: 314, dtype: int64

In [50]:
# 6.9
# Сколько процентов от общего количества домов составляют таунхаусы (тип объекта — t)?
melb_data.Type.value_counts(normalize=True) # 0.082032

h    0.695803
u    0.222165
t    0.082032
Name: Type, dtype: float64

### Блок 7

In [51]:
# 7.2
# Чему равно максимальное количество домов на продажу в районе (Propertycount)?
melb_data.Propertycount.max()

21650

In [52]:
# 7.3
# Чему равно стандартное отклонение (разброс) расстояния от центра города до объекта недвижимости?
round(melb_data.Distance.std(), 0)

6.0

In [53]:
# 7.4
# Чему равно отклонение (в процентах) медианного значения площади здания от его среднего значения?
int(round( 100*abs(melb_data.BuildingArea.median() - melb_data.BuildingArea.mean()) / melb_data.BuildingArea.mean() , 0))

10

In [54]:
# 7.5
# Задан ряд чисел [1, 2, 4, 2, 3, 2, 1, 5, 6]. Чему равна мода в данном ряду?
row = pd.Series([1, 2, 4, 2, 3, 2, 1, 5, 6])
row.mode()


0    2
dtype: int64

In [55]:
# 7.6
# Сколько спален чаще всего встречается в домах в Мельбурне?
melb_data.Bedroom.mode()

0    3
Name: Bedroom, dtype: int64

### Блок 8

In [56]:
# 8.1
# У скольких объектов недвижимости из таблицы melb_data отсутствуют ванные комнаты?
melb_data[melb_data['Bathroom'] == 0].shape[0], melb_data[melb_data['Bathroom'] == 0].Bathroom.size

(34, 34)

In [57]:
# 8.2
# Сколько в таблице melb_data объектов недвижимости, которые были проданы риелторской компанией Nelson и стоимость которых составила больше 3 миллионов?
melb_data[(melb_data['SellerG'] == 'Nelson') & (melb_data['Price'] > 3_000_000)].shape[0]

5

In [58]:
# 8.3
# Какова минимальная стоимость участка без здания (площадь здания равна 0) в таблице melb_data?
melb_data[melb_data.BuildingArea == 0].Price.min()

412500.0

In [59]:
# 8.4
# Какова средняя цена объектов недвижимости в таблице melb_data с ценой менее одного миллиона, 
# в которых либо количество комнат больше пяти, либо здание моложе 2015 года?
melb_data[(melb_data.Price < 1_000_000) & 
          (((melb_data.Rooms > 5) & (melb_data.YearBuilt >= 2015)) | ((melb_data.Rooms <= 5) & (melb_data.YearBuilt > 2015)))]\
          .Price.mean()
#melb_data[(melb_data.Price < 1_000_000) & 
#          ((melb_data.Rooms > 5) | (melb_data.YearBuilt > 2015))].Price.mean()


764155.1724137932

In [60]:
# 8.5
#В каком районе Мельбурна чаще всего продаются виллы и коттеджи (тип здания — h) с ценой меньше трёх миллионов?
# - Northern Metropolitan +
# - Southern Metropolitan
# - Eastern Victoria
# - Northern Victoria
melb_data.Regionname[(melb_data.Price < 3_000_000) & (melb_data.Type == 'h')].value_counts()

Northern Metropolitan         2737
Southern Metropolitan         2520
Western Metropolitan          2286
Eastern Metropolitan          1167
South-Eastern Metropolitan     387
Eastern Victoria                50
Northern Victoria               41
Western Victoria                32
Name: Regionname, dtype: int64

## Модуль Python-11

Подготовка данных.

- Загрузка обновлений


In [61]:
import pandas as pd
u_melb_data = pd.read_csv('./data/melb_data_ps.csv', sep=',')

Копируем dataframe в новый объект, чтобы не потерять данные из ориинала и не подгружать их лишний раз

In [62]:
melb_df = u_melb_data.copy()

Удаляем столбцы *index* и *coordinates*, так как первый не несет информативной нагрузки, второй - дублирует столбцы Широта и Высота.

In [63]:
melb_df.drop(['index', 'Coordinates'], inplace=True, axis=1)
melb_df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067,...,1,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067,...,1,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067,...,2,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067,...,2,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067,...,1,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019


In [64]:
# 2.4
# Задан DataFrame countries_df, содержащий следующие столбцы: 
# - название страны, 
# - население (population) в миллионах человек и площадь страны (square) в квадратных километрах.
# Рассчитайте среднюю плотность населения представленных стран (количество человек на квадратный километр). 
# Ответ округлите до сотых.
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
# round((countries_df.population * 1_000_000).sum() / countries_df.square.sum(), 2)
round(((countries_df.population * 1_000_000) / countries_df.square).mean(), 2)

84.93

Форматируем столбец с датой в формат дат

In [65]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)

In [66]:
#  3.3
# Создайте в таблице melb_df признак WeekdaySale (день недели). 
# Найдите, сколько объектов недвижимости было продано в выходные (суббота и воскресенье), 
# результат занесите в переменную weekend_count. В качестве ответа введите результат вывода переменной weekend_count.
melb_df['WeekdaySale'] = melb_df.Date.dt.dayofweek
weekend_count = melb_df[melb_df.WeekdaySale > 4].shape[0]
weekend_count

12822

ВВОДНЫЕ ДАННЫЕ ДЛЯ ВЫПОЛНЕНИЯ ЗАДАНИЙ 3.4-3.5

Вам представлены данные (в формате csv) об отчётах очевидцев НЛО в США за период с 1930 по 2020 год.

В данных есть следующие признаки:

- "City" — город, где был замечен НЛО;
- "Colors Reported" — цвет объекта;
- "Shape Reported" — форма объекта;
- "State" — обозначение штата;
- "Time" — время, когда был замечен НЛО (данные отсортированы от старых наблюдений к новым). 

Прочитайте данные, сделайте преобразование времени к формату datetime и выполните задания ниже.

In [67]:
ufo_data = pd.read_csv('./data/ufo.csv')

In [68]:
# 3.4
# В каком году отмечается наибольшее количество случаев наблюдения НЛО в США?
ufo_df = ufo_data.copy()
ufo_df.Time = pd.to_datetime(ufo_df.Time)
years = ufo_df['Time'].dt.year
years.value_counts()

1999    2774
2000    2635
1998    1743
1995    1344
1997    1237
        ... 
1936       2
1930       2
1935       1
1934       1
1933       1
Name: Time, Length: 68, dtype: int64

In [69]:
# 3.5
# Найдите средний интервал времени (в днях) между двумя последовательными случаями наблюдения НЛО в штате Невада (NV).
nv_ufos = ufo_df[ufo_df.State == 'NV'].Time.dt.date
nv_ufos.diff()[1:].dt.days.mean() # 68.929...

68.92932862190813

In [70]:
# 4.2
# Ранее, в задании 3.3, мы создали признак WeekdaySale в таблице melb_df — день недели продажи. 
# Из полученных в задании результатов можно сделать вывод, что объекты недвижимости в Мельбурне 
# продаются преимущественно по выходным (суббота и воскресенье).
#Напишите функцию get_weekend(weekday), которая принимает на вход элемент столбца WeekdaySale и 
# возвращает 1, если день является выходным, и 0 — в противном случае, и создайте столбец Weekend в таблице melb_df с помощью неё.
#Примените эту функцию к столбцу и вычислите среднюю цену объекта недвижимости, проданного в выходные дни. Результат округлите до целых.
def get_weekend(weekday):
    return weekday > 4
melb_df['Weekend'] = melb_df['WeekdaySale'].apply(get_weekend)
int(round(melb_df[melb_df['Weekend']].Price.mean(), 0))

1081199

In [71]:
# 4.3
# Преобразуйте столбец SellerG с наименованиями риелторских компаний в таблице melb_df следующим образом: 
# оставьте в столбце только 49 самых популярных компаний, а остальные обозначьте как 'other'.
# Найдите, во сколько раз минимальная цена объектов недвижимости, проданных компанией 'Nelson', 
# больше минимальной цены объектов, проданных компаниями, обозначенными как 'other'. Ответ округлите до десятых.
most_popular = melb_df.SellerG.value_counts().nlargest(49).index
def other_or_not(seller):
    return 'other' if seller not in most_popular else seller
melb_df.SellerG = melb_df.SellerG.apply(other_or_not)
round(melb_df[melb_df.SellerG == 'Nelson'].Price.min() / melb_df[melb_df.SellerG == 'other'].Price.min(), 1)

1.3

### КАТЕГОРИИ В ДАННЫХ О НЕДВИЖИМОСТИ

Давайте определим число уникальных категорий в каждом столбце нашей таблицы melb_df. Для этого создадим вспомогательную таблицу unique_counts:

In [72]:
# создаём пустой список
unique_list = []
# пробегаемся по именам столбцов в таблице
for col in melb_df.columns:
    # создаём кортеж (имя столбца, число уникальных значений)
    item = (col, melb_df[col].nunique(),melb_df[col].dtype) 
    # добавляем кортеж в список
    unique_list.append(item) 
# создаём вспомогательную таблицу и сортируем её
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique',  ignore_index=True)
# выводим её на экран
display(unique_counts)

Unnamed: 0,Column_Name,Num_Unique,Type
0,Weekend,2,bool
1,Type,3,object
2,WeekdaySale,5,int64
3,Method,5,object
4,Regionname,8,object
5,Bathroom,9,int64
6,Rooms,9,int64
7,Car,11,int64
8,Bedroom,12,int64
9,CouncilArea,33,object


In [73]:
# Сделаем преобразование столбцов к типу данных category:

cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] # список столбцов, которые мы не берём во внимание
max_unique_count = 150 # задаём максимальное число уникальных категорий
for col in melb_df.columns: # цикл по именам столбцов
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude: # проверяем условие
        melb_df[col] = melb_df[col].astype('category') # преобразуем тип столбца
display(melb_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Suburb         13580 non-null  object        
 1   Address        13580 non-null  object        
 2   Rooms          13580 non-null  int64         
 3   Type           13580 non-null  category      
 4   Price          13580 non-null  float64       
 5   Method         13580 non-null  category      
 6   SellerG        13580 non-null  category      
 7   Date           13580 non-null  datetime64[ns]
 8   Distance       13580 non-null  float64       
 9   Postcode       13580 non-null  int64         
 10  Bedroom        13580 non-null  int64         
 11  Bathroom       13580 non-null  int64         
 12  Car            13580 non-null  int64         
 13  Landsize       13580 non-null  float64       
 14  BuildingArea   13580 non-null  float64       
 15  YearBuilt      1358

None

In [74]:
# Список уникальных категорий
melb_df['Regionname'].cat.categories

Index(['Eastern Metropolitan', 'Eastern Victoria', 'Northern Metropolitan',
       'Northern Victoria', 'South-Eastern Metropolitan',
       'Southern Metropolitan', 'Western Metropolitan', 'Western Victoria'],
      dtype='object')

In [75]:
# Перечень кодов категории
display(melb_df['Regionname'].cat.codes)

0        2
1        2
2        2
3        2
4        2
        ..
13575    4
13576    6
13577    6
13578    6
13579    6
Length: 13580, dtype: int8

In [76]:
# Переименование категорий
melb_df['Type'] = melb_df['Type'].cat.rename_categories({
    'u': 'unit',
    't': 'townhouse',
    'h': 'house'
})
display(melb_df['Type'])

0        house
1        house
2        house
3        house
4        house
         ...  
13575    house
13576    house
13577    house
13578    house
13579    house
Name: Type, Length: 13580, dtype: category
Categories (3, object): ['house', 'townhouse', 'unit']

In [77]:
# добавление новой категории
melb_df['Type'] = melb_df['Type'].cat.add_categories('flat')
new_houses_types = pd.Series(['unit', 'house', 'flat', 'flat', 'house'])
new_houses_types = new_houses_types.astype(melb_df['Type'].dtype)
display(new_houses_types)

0     unit
1    house
2     flat
3     flat
4    house
dtype: category
Categories (4, object): ['house', 'townhouse', 'unit', 'flat']

In [79]:
# 5.2
# С помощью метода info() узнайте, сколько памяти занимает таблица melb_df.
# Преобразуйте признак Suburb следующим образом: оставьте в столбце только 119 наиболее популярных пригородов, остальные замените на 'other'.
# Приведите данные в столбце Suburb к категориальному типу.
# В качестве ответа запишите разницу между объёмом занимаемой памяти до преобразования (который мы получили ранее в модуле) 
# и после него в Мб. Ответ округлите до десятых.
melb_df.info() # 1.7+ MB
most_popular = melb_df.Suburb.value_counts().nlargest(119).index
def other_or_not_SU(suburb):
    return 'other' if suburb not in most_popular else suburb
melb_df.Suburb = melb_df.Suburb.apply(other_or_not_SU)
melb_df.Suburb = melb_df.Suburb.astype('category')
melb_df.info() #1.6+ MB

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Suburb         13580 non-null  category      
 1   Address        13580 non-null  object        
 2   Rooms          13580 non-null  int64         
 3   Type           13580 non-null  category      
 4   Price          13580 non-null  float64       
 5   Method         13580 non-null  category      
 6   SellerG        13580 non-null  category      
 7   Date           13580 non-null  datetime64[ns]
 8   Distance       13580 non-null  float64       
 9   Postcode       13580 non-null  int64         
 10  Bedroom        13580 non-null  int64         
 11  Bathroom       13580 non-null  int64         
 12  Car            13580 non-null  int64         
 13  Landsize       13580 non-null  float64       
 14  BuildingArea   13580 non-null  float64       
 15  YearBuilt      1358