In [0]:
%fs ls 's3://realty-datalake/'

path,name,size,modificationTime
s3://realty-datalake/realty_data_2025-10-31.csv,realty_data_2025-10-31.csv,34106,1764241393000
s3://realty-datalake/realty_data_2025-11-01.csv,realty_data_2025-11-01.csv,37087,1764241150000
s3://realty-datalake/realty_data_2025-11-02.csv,realty_data_2025-11-02.csv,27836,1764240819000
s3://realty-datalake/realty_data_2025-11-03.csv,realty_data_2025-11-03.csv,53019,1764242335000
s3://realty-datalake/realty_data_2025-11-04.csv,realty_data_2025-11-04.csv,57158,1764243900000
s3://realty-datalake/realty_data_2025-11-05.csv,realty_data_2025-11-05.csv,52778,1764243980000
s3://realty-datalake/realty_data_2025-11-06.csv,realty_data_2025-11-06.csv,52408,1764244746000
s3://realty-datalake/realty_data_2025-11-07.csv,realty_data_2025-11-07.csv,50985,1764245384000
s3://realty-datalake/realty_data_2025-11-08.csv,realty_data_2025-11-08.csv,37956,1764246052000
s3://realty-datalake/realty_data_2025-11-09.csv,realty_data_2025-11-09.csv,26697,1764245834000


In [0]:
from pyspark.sql.types import *

In [0]:
data_schema = StructType([
    StructField('id', LongType(), True), 
    StructField('price', IntegerType(), True), 
    StructField('location', StringType(), True), 
    StructField('count_of_rooms', IntegerType(), True), 
    StructField('realty_floor', IntegerType(), True), 
    StructField('realty_max_floors', IntegerType(), True), 
    StructField('main_room_square', IntegerType(), True), 
    StructField('kitchen_square', IntegerType(), True), 
    StructField('bathroom_square', IntegerType(), True), 
    StructField('discovery_date', DateType(), True), 
    StructField('property_list', StringType(), True),   
    StructField('furniture_list', StringType(), True)   
])

In [0]:
df = spark.read.csv('s3://realty-datalake/realty_data_2025*', header=True, schema=data_schema)

In [0]:
display(df.head(5))

id,price,location,count_of_rooms,realty_floor,realty_max_floors,main_room_square,kitchen_square,bathroom_square,discovery_date,property_list,furniture_list
3963091377,55314,Київ - Печерський - Нова забудова - ЖК Tetris Hall - Ділова вулиця - 1/2,2,7,25,60,20.0,25,2025-11-24,"['спец. проєкт', 'індивідуальне Опалення', '2016 Рік будівництва', 'монолітно-каркасна']","['Телевізор', 'Кабельне ТБ', 'Шафа', 'Ліжко', 'Кондиціонер', 'Пральна машина', 'Душова кабіна', 'Холодильник', 'Мікрохвильовка', 'Посудомийна машина', 'Посуд', 'Лічильники']"
3961963663,38295,Київ - Дарницький - Позняки - Урлівська вулиця - 23-Б,2,25,25,75,,30,2025-11-24,"['спец. проєкт', 'централізоване Опалення', '2013 Рік будівництва', 'монолітно-каркасна']","['Кабельне ТБ', 'Пральна машина', 'Холодильник', 'Телевізор', 'Ліжко', 'Посудомийна машина', 'Сигналізація', 'Кондиціонер', 'Душ', 'Шафа', 'Лічильники']"
3962651579,20000,Чайки - ЖК Чайка - вулиця Валерія Лобановського - 13,2,15,16,77,,30,2025-11-24,"['спец. проєкт', 'централізоване Опалення', '2016 Рік будівництва', 'цегляна']","['Пральна машина', 'Холодильник', 'Телевізор', 'Праска', 'Посудомийна машина', 'Кондиціонер', 'Мікрохвильовка']"
3963891008,11500,Київ - Святошинський - Біличі - Чорнобильська вулиця - 14,1,10,12,36,,8,2025-11-24,"['серія Т', 'централізоване Опалення', '1989 Рік будівництва', 'утеплена панель']","['Пральна машина', 'Холодильник']"
3963352292,148924,Київ - Печерський - Нова забудова - ЖК Tetris Hall - Ділова вулиця - 1/2,3,15,26,130,70.0,20,2025-11-24,"['спец. проєкт', 'індивідуальне Опалення', '2016 Рік будівництва', 'монолітно-каркасна']",[]


In [0]:
display(df.count())

5675

In [0]:
df = df.dropDuplicates(['id'])

In [0]:
display(df.count())

5608

In [0]:
from pyspark.sql import functions as F


In [0]:

df_transformed = (
    df
    .withColumn("property_list",
                F.from_json(
                    F.regexp_replace("property_list", "'", '"'),
                    ArrayType(StringType())
                )
    )
    .withColumn("furniture_list",
                F.from_json(
                    F.regexp_replace("furniture_list", "'", '"'),
                    ArrayType(StringType())
                )
    )
)

In [0]:
df_transformed.printSchema()

root
 |-- id: long (nullable = true)
 |-- price: integer (nullable = true)
 |-- location: string (nullable = true)
 |-- count_of_rooms: integer (nullable = true)
 |-- realty_floor: integer (nullable = true)
 |-- realty_max_floors: integer (nullable = true)
 |-- main_room_square: integer (nullable = true)
 |-- kitchen_square: integer (nullable = true)
 |-- bathroom_square: integer (nullable = true)
 |-- discovery_date: date (nullable = true)
 |-- property_list: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- furniture_list: array (nullable = true)
 |    |-- element: string (containsNull = true)



In [0]:
display(df_transformed.head(5))


id,price,location,count_of_rooms,realty_floor,realty_max_floors,main_room_square,kitchen_square,bathroom_square,discovery_date,property_list,furniture_list
3970854134,19999,Київ - Солом’янський - Караваєві Дачі - вулиця Вадима Гетьмана - 46-А/1,2,1,16,56,29.0,9,2025-11-26,List(),"List(Телевізор, Кабельне ТБ, Праска, Шафа, Підігрів підлоги, Кондиціонер, Пральна машина, Душова кабіна, Холодильник, Мікрохвильовка, Посуд, Лічильники)"
3963294089,17975,Київ - Подільський - Виноградар - проспект Європейського Союзу - 92,3,3,9,70,,8,2025-11-24,"List(чеський проєкт, централізоване Опалення, 1977 Рік будівництва, панельна)",List(Кондиціонер)
3964717615,10500,Київ - Святошинський - Борщагівка - вулиця Гната Юри - 1,1,6,9,29,,6,2025-11-24,"List(гостинка, централізоване Опалення, 1983 Рік будівництва, цегляна)","List(Пральна машина, Холодильник)"
3967164509,16000,Київ - Солом’янський - вулиця Миколи Шепелєва,1,4,12,46,,12,2025-11-25,"List(централізоване Опалення, цегляна)","List(Пральна машина, Холодильник, Посудомийна машина)"
3963744140,27990,Київ - Солом’янський - Відрадний - ЖК Микитська Слобода - вулиця Академіка Шалімова - 35-А,2,6,24,70,18.0,14,2025-11-24,"List(спец. проєкт, централізоване Опалення, 2016 Рік будівництва, монолітно-каркасна)",List()


In [0]:
from pyspark.sql.functions import udf

In [0]:
@udf(returnType=StringType())
def get_kyiv_region_from_location(location):
    region_list = [
        'Голосіївський', 'Дарницький', 
        'Деснянський', 'Дніпровський', 
        'Оболонський', 'Печерський', 
        'Подільський', 'Святошинський', 
        'Солом’янський','Шевченківський']
    for region in region_list:
        if region.lower() in location.lower():
            return region
    return None

In [0]:
df_realty_data = df_transformed.withColumn("region", get_kyiv_region_from_location("location")).filter(F.col('region').isNotNull())


In [0]:
display(df_realty_data.head(5))

id,price,location,count_of_rooms,realty_floor,realty_max_floors,main_room_square,kitchen_square,bathroom_square,discovery_date,property_list,furniture_list,region
3970854134,19999,Київ - Солом’янський - Караваєві Дачі - вулиця Вадима Гетьмана - 46-А/1,2,1,16,56,29.0,9,2025-11-26,List(),"List(Телевізор, Кабельне ТБ, Праска, Шафа, Підігрів підлоги, Кондиціонер, Пральна машина, Душова кабіна, Холодильник, Мікрохвильовка, Посуд, Лічильники)",Солом’янський
3963294089,17975,Київ - Подільський - Виноградар - проспект Європейського Союзу - 92,3,3,9,70,,8,2025-11-24,"List(чеський проєкт, централізоване Опалення, 1977 Рік будівництва, панельна)",List(Кондиціонер),Подільський
3964717615,10500,Київ - Святошинський - Борщагівка - вулиця Гната Юри - 1,1,6,9,29,,6,2025-11-24,"List(гостинка, централізоване Опалення, 1983 Рік будівництва, цегляна)","List(Пральна машина, Холодильник)",Святошинський
3967164509,16000,Київ - Солом’янський - вулиця Миколи Шепелєва,1,4,12,46,,12,2025-11-25,"List(централізоване Опалення, цегляна)","List(Пральна машина, Холодильник, Посудомийна машина)",Солом’янський
3963744140,27990,Київ - Солом’янський - Відрадний - ЖК Микитська Слобода - вулиця Академіка Шалімова - 35-А,2,6,24,70,18.0,14,2025-11-24,"List(спец. проєкт, централізоване Опалення, 2016 Рік будівництва, монолітно-каркасна)",List(),Солом’янський


In [0]:
#df_realty_data.cache()

In [0]:
df_grouped_by_region_count_of_rooms = df_realty_data\
                                        .groupBy('region','count_of_rooms') \
                                        .agg(F.avg('price').alias('avg_price'),\
                                             F.avg('main_room_square').alias('avg_main_room_square'))\
                                        .withColumn('avg_main_room_square', F.col('avg_main_room_square').cast('integer') )\
                                        .withColumn('avg_price', F.col('avg_price').cast('integer') )\
                                        .orderBy('avg_price','count_of_rooms')
                                        
display(df_grouped_by_region_count_of_rooms)

region,count_of_rooms,avg_price,avg_main_room_square
Деснянський,1,9943,35
Деснянський,2,12944,55
Святошинський,1,13726,34
Дніпровський,1,14409,36
Оболонський,1,15168,37
Деснянський,3,15803,77
Дарницький,1,16578,40
Солом’янський,1,17004,38
Святошинський,2,17508,55
Дніпровський,2,18238,53


Databricks visualization. Run in Databricks to view.

In [0]:
df_grouped_by_floor = df_realty_data\
                        .groupBy('realty_floor') \
                        .agg(F.avg('price').alias('avg_price'))\
                        .withColumn('avg_price', F.col('avg_price').cast('integer') )\
                        .orderBy('realty_floor','avg_price')
                                        
display(df_grouped_by_floor)

realty_floor,avg_price
1,15205
2,27799
3,26881
4,27248
5,25594
6,28679
7,28545
8,25524
9,26643
10,32292


Databricks visualization. Run in Databricks to view.