In [1]:
import pandas as pd

melb_df = pd.read_csv('data/melb_data.csv', sep=',')
melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  float64
 12  Bathroom       13580 non-null  float64
 13  Car            13580 non-null  float64
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  float64
 17  CouncilArea    12211 non-null  object 
 18  Lattit

In [None]:
# удаляем лишние столбцы (axis = 1)
melb_df = melb_df.drop(["index","Coordinates"], axis = 1)
melb_df.head()

In [None]:
# складываем столбцы и получае общее количество комнат для каждого объекта в ДФ
total_rooms = melb_df["Rooms"]+melb_df["Bedroom"]+melb_df["Bathroom"]
display(total_rooms)

In [None]:
# считаем среднюю площадь для каждой комнаты для каждого объекта, при этом создается новый столбец?
melb_df["MeanRoomsSquare"] = melb_df["BuildingArea"]/total_rooms
display(melb_df["MeanRoomsSquare"])

In [8]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

# Рассчитываем плотность населения для каждой страны
countries_df['population_density'] = countries_df['population'] / countries_df['square'] * 1e6  # умножаем на 1e6, чтобы перевести в человек на кв. км

# Рассчитываем среднюю плотность населения
average_density = countries_df['population_density'].mean()

# Ответ
print(round(average_density, 2))

84.93


In [38]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
display(melb_df['Date'])

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

In [39]:
# можем «достать» год продажи и понять, за какой интервал времени (в годах)
# представлены наши данные, а также на какой год приходится наибольшее число продаж
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int32
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


In [40]:
# в каких месяцах пик продаж, а в каких застой
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

MonthSale
5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: proportion, dtype: float64

In [41]:
# сколько дней прошло с 1 января 2016 года до момента продажи объекта
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)
display(delta_days.dt.days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

0        337
1         34
2        428
3        428
4        155
        ... 
13575    603
13576    603
13577    603
13578    603
13579    603
Name: Date, Length: 13580, dtype: int64

In [None]:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

In [44]:
# Создайте в таблице melb_df признак WeekdaySale (день недели). Найдите, сколько объектов недвижимости было продано в 
# выходные (суббота и воскресенье), результат занесите в переменную weekend_count. В качестве ответа введите результат 
# вывода переменной weekend_count.
melb_df['Date'] = pd.to_datetime(melb_df['Date'])  # Преобразуем столбец 'Date' к типу datetime
melb_df['WeekdaySale'] = melb_df['Date'].dt.day_name()  # Добавляем столбец 'WeekdaySale' с названиями дней недели
# Подсчитываем количество объектов недвижимости, проданных в выходные
weekend_count = melb_df['WeekdaySale'].value_counts().loc[['Saturday', 'Sunday']].sum()
# Выводим результат
print(weekend_count)

12822


In [14]:
ufo_df = pd.read_csv('data/ufo.csv', sep=',')
display(ufo_df.head())

Unnamed: 0,City,Colors Reported,Shape Reported,State,Time
0,Ithaca,,TRIANGLE,NY,6/1/1930 22:00
1,Willingboro,,OTHER,NJ,6/30/1930 20:00
2,Holyoke,,OVAL,CO,2/15/1931 14:00
3,Abilene,,DISK,KS,6/1/1931 13:00
4,New York Worlds Fair,,LIGHT,NY,4/18/1933 19:00


In [None]:
# В каком году отмечается наибольшее количество случаев наблюдения НЛО в США?
ufo_df["Time"] = pd.to_datetime(ufo_df["Time"])
years_most_ufo = ufo_df["Time"].dt.year
print(years_most_ufo.value_counts())

In [22]:
ufo_nv_df = ufo_df[ufo_df['State'] == 'NV']

# Вычислим разницу во времени между последовательными случаями наблюдения НЛО в штате Невада
time_diff_nv = ufo_nv_df['Time'].diff()

# Вычислим средний интервал времени (в днях) между наблюдениями НЛО в штате Невада
average_time_diff_nv = time_diff_nv.mean().days

# Выведем результат
print(average_time_diff_nv)

68


In [24]:
# Чистим ячейки с адресами
# На вход данной функции поступает строка с адресом.
def get_street_type(address):
# Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
# Метод split() разбивает строку на слова по пробелу.
# В результате получаем список слов в строке и заносим его в переменную address_list.
    address_list = address.split(' ')
# Обрезаем список, оставляя в нём только последний элемент,
# потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = address_list[-1]
# Делаем проверку на то, что полученный подтип является географической пометкой.
# Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
# Если переменная street_type является географической пометкой,
# переопределяем её на второй элемент с конца списка address_list.
        street_type = address_list[-2]
# Возвращаем переменную street_type, в которой хранится подтип улицы.
    return street_type

In [None]:
# Теперь применим эту функцию к столбцу c адресом.
street_types = melb_df['Address'].apply(get_street_type)
display(street_types)

In [26]:
# Посмотрим, сколько уникальных значений у нас получилось:
print(street_types.nunique())

56


In [None]:
# наш результат можно улучшить. 
# давайте для начала посмотрим на частоту каждого подтипа улицы с помощью метода value_counts:
display(street_types.value_counts())

In [None]:
# выведем наиболее популярные подтипы и занесем их в переменную
popular_stypes =street_types.value_counts().nlargest(10).index
print(popular_stypes)

In [29]:
melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
display(melb_df['StreetType'])

0           St
1           St
2           St
3        other
4           St
         ...  
13575       Cr
13576       Dr
13577       St
13578       St
13579       St
Name: StreetType, Length: 13580, dtype: object

In [30]:
# результирующее число уникальных подтипов
print(melb_df['StreetType'].nunique())

11


In [6]:
# Напишите функцию get_weekend(weekday), которая принимает на вход элемент столбца WeekdaySale и возвращает 1, 
# если день является выходным, и 0 — в противном случае, и создайте столбец Weekend в таблице melb_df с помощью неё. 
# Примените эту функцию к столбцу и вычислите среднюю цену объекта недвижимости, проданного в выходные дни. 
# Результат округлите до целых.
import calendar
# Определение функции для создания столбца 'Weekend'
def get_weekend(weekday):
    # Преобразование строки с днем недели в числовой формат (понедельник - 0, воскресенье - 6)
    weekday_num = list(calendar.day_name).index(weekday)
    # Возвращение 1, если день является выходным (суббота или воскресенье), и 0 в противном случае
    return 1 if weekday_num >= 5 else 0

# Применение функции к столбцу 'WeekdaySale' и создание столбца 'Weekend'
melb_df['Weekend'] = melb_df['WeekdaySale'].apply(get_weekend)

# Вычисление средней цены объекта недвижимости, проданного в выходные дни
average_price_weekend = melb_df[melb_df['Weekend'] == 1]['Price'].mean()

# Округление средней цены до целых
average_price_weekend_rounded = round(average_price_weekend)
print(average_price_weekend_rounded)

KeyError: 'WeekdaySale'

In [5]:
# Определение 49 самых популярных компаний и замена остальных на 'other'
top_sellers = melb_df['SellerG'].value_counts().nlargest(49).index
melb_df['SellerG'] = melb_df['SellerG'].apply(lambda x: x if x in top_sellers else 'other')

# Находим минимальные цены для объектов недвижимости, проданных компанией 'Nelson' и компаниями, обозначенными как 'other'
min_price_nelson = melb_df[melb_df['SellerG'] == 'Nelson']['Price'].min()
min_price_other = melb_df[melb_df['SellerG'] == 'other']['Price'].min()

# Вычисление отношения минимальной цены 'Nelson' к минимальной цене 'other'
ratio = min_price_nelson / min_price_other

# Округление ответа до десятых
rounded_ratio = round(ratio, 1)
print(rounded_ratio)

1.3


In [4]:
# определим число уникальных категорий в каждом столбце нашей таблицы melb_df
# создаём пустой список
unique_list = []
# пробегаемся по именам столбцов в таблице
for col in melb_df.columns:
    # создаём кортеж (имя столбца, число уникальных значений)
    item = (col, melb_df[col].nunique(),melb_df[col].dtypes)     # добавляем кортеж в список
    unique_list.append(item) 
# создаём вспомогательную таблицу и сортируем её
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique',  ignore_index=True)
# выводим её на экран
display(unique_counts)

Unnamed: 0,Column_Name,Num_Unique,Type
0,Type,3,object
1,Method,5,object
2,Regionname,8,object
3,Rooms,9,int64
4,Bathroom,9,float64
5,Car,11,float64
6,Bedroom,12,float64
7,CouncilArea,33,object
8,Date,58,object
9,Suburb,119,category


In [9]:
# Преобразуем столбец Suburb
top_suburbs = melb_df['Suburb'].value_counts().nlargest(119).index
melb_df['Suburb'] = melb_df['Suburb'].apply(lambda x: x if x in top_suburbs else 'other')

# Приведем столбец Suburb к категориальному типу
melb_df['Suburb'] = melb_df['Suburb'].astype('category')

melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   index          13580 non-null  int64   
 1   Suburb         13580 non-null  category
 2   Address        13580 non-null  object  
 3   Rooms          13580 non-null  int64   
 4   Type           13580 non-null  object  
 5   Price          13580 non-null  float64 
 6   Method         13580 non-null  object  
 7   SellerG        13580 non-null  object  
 8   Date           13580 non-null  object  
 9   Distance       13580 non-null  float64 
 10  Postcode       13580 non-null  int64   
 11  Bedroom        13580 non-null  float64 
 12  Bathroom       13580 non-null  float64 
 13  Car            13580 non-null  float64 
 14  Landsize       13580 non-null  float64 
 15  BuildingArea   13580 non-null  float64 
 16  YearBuilt      13580 non-null  float64 
 17  CouncilArea    12211 non-null  