## Ponieważ do zaimplementowania danych do tabeli w SQL potrzebuje stworzyć przed faktem tabelę i zdefiniować kolumny oraz ich typ, aby umożliwić sobie zadanie implementacji danych do takiej tabeli, przeprowadzam wstępne czyszczenie danych - poprawiam typ danych oraz usuwam zbędne kolumny. Dodatkowo zmieniam nazwy kolumn z automatycznie pozyskanych na docelowe ułatwiające dalszą pracę.

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.read_csv('C:/Users/Maciej/Documents/projekt_studia/real_estate/final_result.csv')

### Wstępne zapoznanie się z podstawowymi danymi

In [3]:
df.head()

Unnamed: 0.1,Unnamed: 0,id,Cena,Cena/metr,Pokoje,Miasto,Dzielnica,Ulica,Inwestycja,Stan nieruchomości,...,Liczba pięter,Liczba sypialni,Balkon,Rodzaj umowy,Ogrzewanie,Stolarka okienna,Dostępne od,Wysokość wnętrza,Pow. balkonu,Stan budynku
0,0,0.0,360 185 zł,4 002 zł/m²,4,Gdańsk,Łostowice,Kryształowa,Domm 90M2 Z Ogrodem,Do wykończenia,...,2,,,,,,,,,
1,1,1.0,2 850 000 zł,22 266 zł/m²,4,Sopot,Dolny,Grunwaldzka,,,...,3,5.0,Nie,Na wyłączność,Co Własne,,,,,
2,2,2.0,669 000 zł,16 405 zł/m²,2,Gdynia,Redłowo,Bohaterów Starówki Warszawskiej,,,...,9,,Tak,,Co Miejskie,,,,,
3,3,3.0,414 000 zł,11 948 zł/m²,2,Gdańsk,Jasień,,,Do wykończenia,...,4,,Tak,,Miejskie,PCV,,,,
4,4,4.0,537 365 zł,8 550 zł/m²,4,Gdańsk,Ujeścisko - Łostowice,,,Do wykończenia,...,3,,Tak,,Miejskie,PCV,,,,


In [4]:
df.columns

Index(['Unnamed: 0', 'id', 'Cena', 'Cena/metr', 'Pokoje', 'Miasto',
       'Dzielnica', 'Ulica', 'Inwestycja', 'Stan nieruchomości',
       'Pow. całkowita', 'Liczba poziomów mieszkania', 'Typ kuchni',
       'Liczba łazienek', 'łazienka razem z WC', 'Taras', 'Pow. ogródka',
       'Rynek', 'Forma własności', 'Typ budynku', 'Materiał budowlany',
       'Rok budowy', 'Data dodania', 'Aktualizacja', 'Numer ogłoszenia',
       'Liczba odsłon', 'Liczba Punktów Podbić', 'Piętro', 'Liczba pięter',
       'Liczba sypialni', 'Balkon', 'Rodzaj umowy', 'Ogrzewanie',
       'Stolarka okienna', 'Dostępne od', 'Wysokość wnętrza', 'Pow. balkonu',
       'Stan budynku'],
      dtype='object')

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2238 entries, 0 to 2237
Data columns (total 38 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Unnamed: 0                  2238 non-null   int64  
 1   id                          2238 non-null   float64
 2   Cena                        2238 non-null   object 
 3   Cena/metr                   2227 non-null   object 
 4   Pokoje                      2238 non-null   int64  
 5   Miasto                      2238 non-null   object 
 6   Dzielnica                   2238 non-null   object 
 7   Ulica                       1860 non-null   object 
 8   Inwestycja                  931 non-null    object 
 9   Stan nieruchomości          559 non-null    object 
 10  Pow. całkowita              2238 non-null   object 
 11  Liczba poziomów mieszkania  896 non-null    float64
 12  Typ kuchni                  189 non-null    object 
 13  Liczba łazienek             361 n

#### Sprawdzenie % wartości np.nan dla każdej z kolumn

In [6]:
df.isna().sum() / len(df) * 100


Unnamed: 0                     0.000000
id                             0.000000
Cena                           0.000000
Cena/metr                      0.491510
Pokoje                         0.000000
Miasto                         0.000000
Dzielnica                      0.000000
Ulica                         16.890080
Inwestycja                    58.400357
Stan nieruchomości            75.022341
Pow. całkowita                 0.000000
Liczba poziomów mieszkania    59.964254
Typ kuchni                    91.554960
Liczba łazienek               83.869526
łazienka razem z WC           91.912422
Taras                         84.137623
Pow. ogródka                  92.135836
Rynek                          0.000000
Forma własności               75.201072
Typ budynku                   34.852547
Materiał budowlany            42.716711
Rok budowy                     0.000000
Data dodania                   0.000000
Aktualizacja                   0.000000
Numer ogłoszenia               0.000000


### Dokładniejsze zapoznanie się z wartościami kolumn oraz usunięcie kolumn uznanych za zbędne do dalszej analizy

In [7]:
to_drop = []

In [8]:
for i in df.columns:
    if df[i].isna().sum() / len(df) * 100 > 95:
        to_drop.append(i)

Automatycznie usuwam wszystkie kolumny mające powyżej 95% brakujących informacji w celu redukcji potencjalnych outlierów

In [9]:
to_drop.append('Unnamed: 0')

kolumna Unnamed:0 została wygenerowana automatycznie i jest zbędna

In [10]:
df['Rodzaj umowy'].unique()

array([nan, 'Na wyłączność'], dtype=object)

#ponieważ wszystkie umowy są albo na wyłączność, albo brak informacji - zakładam, że wszystkie są na wyłączność i w późniejszym etapie usunę kolumnę

#### Późniejsze kolumny będę analizować pod względem ceny (np. jeśli jakaś kolumna ma 80% brakujących wartości, ale 10% ofert, które posiadają dane udogodnienie ma znacząco wyższą średnią cenę, zostawię kolumnę, jeśli udogodnienie raczej nie wpłwa na cenę - usunę kolumnę)
#### W tym celu aktualizuję typ kolumn cena i cena/metr na int

In [11]:
df[df['Cena'] == 'Zarezerwowano'] = np.nan
df.dropna(subset='Cena', inplace=True)
df['Cena'] = df['Cena'].str.replace('zł', '')
df['Cena'] = df['Cena'].str.replace(' ', '').astype(int)

In [12]:
df['Cena/metr'] = df['Cena/metr'].str.replace('zł/m²', '')
df['Cena/metr'] = df['Cena/metr'].str.replace(' ', '').astype(int)

In [13]:
to_drop.append('Inwestycja')
df['Inwestycja'].unique()

array(['Domm 90M2 Z Ogrodem', nan, 'Koncept', 'KAMIENNA 28', 'ZBOŻOWA'],
      dtype=object)

In [14]:
print(df['Forma własności'].unique())
print('średnia cena mieszkania dla zbioru:',df[df['Forma własności'] == 'Własność']['Cena'].mean())
print('średnia cena (forma własnpści = "spóldzielcze..."', df[df['Forma własności'] == 'Spółdzielcze własnościowe']['Cena'].mean())
to_drop.append('Forma własności')

['Własność' nan 'Spółdzielcze własnościowe']
średnia cena mieszkania dla zbioru: 452719.7363636364
średnia cena (forma własnpści = "spóldzielcze..." 549000.0


In [15]:
df['Liczba poziomów mieszkania'].unique()

array([ 2.,  1., nan])

In [16]:
print(df['Typ kuchni'].unique())
for i in df['Typ kuchni'].unique():
    print('średnia cena dla:',i, df[df['Typ kuchni'] == i]['Cena'].mean())
print(len(df[df['Typ kuchni'] == 'Brak']))
to_drop.append('Typ kuchni')

['Aneks' nan 'Widna' 'Brak']
średnia cena dla: Aneks 360185.0
średnia cena dla: nan nan
średnia cena dla: Widna 524490.0
średnia cena dla: Brak 2487730.0
3


In [17]:
print(df['Liczba łazienek'].unique())

print(df[df['Liczba łazienek'] > 1]['Cena'].mean())
print(len(df[df['Liczba łazienek'] > 1]))

[ 2. nan  1.]
449025.9631728045
353


In [18]:
print(df['łazienka razem z WC'].unique())
to_drop.append('łazienka razem z WC')

['Tak' nan]


In [19]:
print(df['Taras'].unique()) 

['Tak' 'Nie' nan]


In [20]:
df['Stan nieruchomości'].unique()

array(['Do wykończenia', nan, 'DO WYKOŃCZENIA', 'Do zamieszkania'],
      dtype=object)

In [21]:
print(df['Typ budynku'].unique())

['Dom wielorodzinny' 'Kamienica' 'Blok Mieszkalny' 'Blok'
 'Apartamentowiec' nan 'APARTAMENTOWIEC' 'Inny' 'Wieżowiec']


In [22]:
print(df['Materiał budowlany'].unique())

['Pustak' 'Cegła' 'Wielka płyta' nan 'PUSTAK' 'Konstrukcja mieszana'
 'Zróżnicowany' 'Konstrukcja żelbetowa' 'Silikat']


In [23]:
print(df['Aktualizacja'].unique())
to_drop.append('Aktualizacja')

['17.04.2024' '10.06.2024' '06.06.2024' '12.06.2024' '08.06.2024'
 '05.06.2024' '11.06.2024' '12.04.2024' '27.03.2024' '03.06.2024'
 '31.05.2024' '15.04.2024' '22.05.2024' '23.05.2024' '17.05.2024']


In [24]:
print(df['Numer ogłoszenia'].unique())
to_drop.append('Numer ogłoszenia')

['morizon-Mieszkanie' 'morizon-WH690813' 'morizon-WH138189' 'morizon-1279'
 'morizon-1262' 'morizon-MA586882207' 'morizon-F-F.1.4.5'
 'morizon-F-F.1.4.6' 'morizon-MG913245' 'morizon-4-4.22' 'morizon-4-4.4'
 'morizon-TC107841' 'morizon-67-67.28' 'morizon-380081'
 'morizon-418/8114/OMS' 'morizon-528591' 'morizon-AS789598'
 'morizon-67-67.41' 'morizon-67-67.70' 'morizon-EC123456623615'
 'morizon-67-67.71' 'morizon-28-28.1' 'morizon-1041' 'morizon-1260'
 'morizon-GH819305' 'morizon-181597' 'morizon-28-28.11' 'morizon-67-67.18'
 'morizon-2956' 'morizon-221793593' 'morizon-1268' 'morizon-183767'
 'morizon-IT01303' 'morizon-28-28.7' 'morizon-1269' 'morizon-67-67.13']


In [25]:
print(df['Liczba Punktów Podbić'].unique())

[766. 383. 309. 233. 230. 217. 216. 203. 202.  10.   1.   0.  25.  36.
  61.  76.  31. 151.  29. 126.  20.]


In [26]:
print(df['Liczba pięter'].unique())

['2' '3' '9' '4' '8' nan '6' '5' '/' '1']


In [27]:
print(df['Liczba sypialni'].unique())

[nan  5.  1.  2.  3.]


In [28]:
print(df['Balkon'].unique())

[nan 'Nie' 'Tak']


In [29]:
print(df['Rodzaj umowy'].unique())
to_drop.append('Rodzaj umowy')

[nan 'Na wyłączność']


#### Jeśli w kolumnie występuje tylko jedna wartość, a reszta to np.nan mogę zakładać, że w reszcie ogłoszeń powinna się znależć taka sama wartość, po prostu nie została dodana do ogłoszenia innymi słowy jeśli jest tylko jedna unikalna wartość (nie licząc np.nan - kolumna nie może mieć wpływu na cenę i ją usuwam)

In [30]:
df['Ogrzewanie'].unique()

array([nan, 'Co Własne', 'Co Miejskie', 'Miejskie',
       'C.O. Z SIECI MIEJSKIEJ', 'Gazowe', 'Kotłownia lokalna'],
      dtype=object)

In [31]:
print(df['Stolarka okienna'].unique())
to_drop.append('Stolarka okienna')

[nan 'PCV']


In [32]:
print(df['Dostępne od'].unique())
to_drop.append('Dostępne od')

[nan '04.04.2024' '30.12.2024' '31.12.2024' '01.04.2024' '30.04.2024']


In [33]:
to_drop.append('Pow. ogródka')

In [34]:
to_drop.append('Liczba odsłon')
to_drop.append('Ogrzewanie')

In [35]:
to_drop

['Wysokość wnętrza',
 'Pow. balkonu',
 'Stan budynku',
 'Unnamed: 0',
 'Inwestycja',
 'Forma własności',
 'Typ kuchni',
 'łazienka razem z WC',
 'Aktualizacja',
 'Numer ogłoszenia',
 'Rodzaj umowy',
 'Stolarka okienna',
 'Dostępne od',
 'Pow. ogródka',
 'Liczba odsłon',
 'Ogrzewanie']

#### Lista wszystkich kolumn do wyrzucenia ze zbioru danych

In [36]:
df.drop(columns=to_drop, inplace=True)
df.columns

Index(['id', 'Cena', 'Cena/metr', 'Pokoje', 'Miasto', 'Dzielnica', 'Ulica',
       'Stan nieruchomości', 'Pow. całkowita', 'Liczba poziomów mieszkania',
       'Liczba łazienek', 'Taras', 'Rynek', 'Typ budynku',
       'Materiał budowlany', 'Rok budowy', 'Data dodania',
       'Liczba Punktów Podbić', 'Piętro', 'Liczba pięter', 'Liczba sypialni',
       'Balkon'],
      dtype='object')

#### Sprawdzenie kolumn, które zostały w zbiorze

In [37]:
len(df.columns)

22

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2227 entries, 0 to 2237
Data columns (total 22 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   id                          2227 non-null   float64
 1   Cena                        2227 non-null   int32  
 2   Cena/metr                   2227 non-null   int32  
 3   Pokoje                      2227 non-null   float64
 4   Miasto                      2227 non-null   object 
 5   Dzielnica                   2227 non-null   object 
 6   Ulica                       1849 non-null   object 
 7   Stan nieruchomości          559 non-null    object 
 8   Pow. całkowita              2227 non-null   object 
 9   Liczba poziomów mieszkania  896 non-null    float64
 10  Liczba łazienek             361 non-null    float64
 11  Taras                       355 non-null    object 
 12  Rynek                       2227 non-null   object 
 13  Typ budynku                 1458 

### W dalszej części zmieniam typ danych oraz uzupełniam wartości brakujące jeśli jest taka potrzeba, podzieliłem zbiór danych na 3 partycję, dzięki czemu w wygodny sposób mogę patrzeć na wartości pierwszych 5 wierszy każdej kolumny

In [39]:
df.iloc[:5, :9]

Unnamed: 0,id,Cena,Cena/metr,Pokoje,Miasto,Dzielnica,Ulica,Stan nieruchomości,Pow. całkowita
0,0.0,360185,4002,4.0,Gdańsk,Łostowice,Kryształowa,Do wykończenia,90 m²
1,1.0,2850000,22266,4.0,Sopot,Dolny,Grunwaldzka,,128 m²
2,2.0,669000,16405,2.0,Gdynia,Redłowo,Bohaterów Starówki Warszawskiej,,"40,78 m²"
3,3.0,414000,11948,2.0,Gdańsk,Jasień,,Do wykończenia,"34,65 m²"
4,4.0,537365,8550,4.0,Gdańsk,Ujeścisko - Łostowice,,Do wykończenia,"62,85 m²"


In [40]:
df.iloc[:5, 9:18]

Unnamed: 0,Liczba poziomów mieszkania,Liczba łazienek,Taras,Rynek,Typ budynku,Materiał budowlany,Rok budowy,Data dodania,Liczba Punktów Podbić
0,2.0,2.0,Tak,Pierwotny,Dom wielorodzinny,Pustak,2025.0,21.03.2024,766.0
1,1.0,,Nie,Wtórny,Kamienica,Cegła,1920.0,18.09.2023,383.0
2,1.0,,,Wtórny,Blok Mieszkalny,Wielka płyta,1970.0,27.02.2024,309.0
3,,,,Pierwotny,Blok,Wielka płyta,2023.0,12.06.2024,233.0
4,,2.0,,Pierwotny,Blok,Cegła,2024.0,03.06.2024,230.0


In [41]:
df.iloc[:5, 18:]

Unnamed: 0,Piętro,Liczba pięter,Liczba sypialni,Balkon
0,2.0,2,,
1,1.0,3,5.0,Nie
2,3.0,9,,Tak
3,1.0,4,,Tak
4,1.0,3,,Tak


In [42]:
most_frequent_building = df['Typ budynku'].value_counts().keys()[0]
most_frequent_material = df['Materiał budowlany'].value_counts().keys()[0]
most_frequent_floors = df['Liczba pięter'].value_counts().keys()[0]

Przygotowanie zmiennych zawierające najczęściej występujące wartości dla kolumn, w których zdecydowałem się na uzupełnienie wartości brakujących taką metodą

In [43]:
df['Pow. całkowita'] = df['Pow. całkowita'].str.replace(' m²', '')
df['Pow. całkowita'] = df['Pow. całkowita'].str.replace(',', '.')
df['Data dodania'] = df['Data dodania'].str.replace('.', '-')
df['Liczba pięter'] = df['Liczba pięter'].str.replace('/', most_frequent_floors)

  df['Data dodania'] = df['Data dodania'].str.replace('.', '-')


Poprawki w sposobie przechowywania wartości w kolumnach, aby nie kolidował z planowanym typem danych

In [44]:
df.loc[df['Stan nieruchomości'] == 'DO WYKOŃCZENIA', 'Stan nieruchomości'] = 'Do wykończenia'

In [45]:
df['Liczba poziomów mieszkania'].fillna(1, inplace=True)
df['Liczba łazienek'].fillna(1, inplace=True)
df['Taras'].fillna('Nie', inplace=True)
df['Typ budynku'].fillna(most_frequent_building, inplace=True)
df['Materiał budowlany'].fillna(most_frequent_material, inplace=True)
df['Liczba pięter'].fillna(most_frequent_floors, inplace=True)
df['Liczba sypialni'].fillna(1, inplace=True)
df['Balkon'].fillna('Nie', inplace=True)

Uzupełnianie wartości brakujących wartościami najczęściej występującymi lub wartościami domyślnymi dla większości mieszkań (np. liczba sypialni - 1)

In [46]:
df.isna().sum() / len(df)

id                            0.000000
Cena                          0.000000
Cena/metr                     0.000000
Pokoje                        0.000000
Miasto                        0.000000
Dzielnica                     0.000000
Ulica                         0.169735
Stan nieruchomości            0.748990
Pow. całkowita                0.000000
Liczba poziomów mieszkania    0.000000
Liczba łazienek               0.000000
Taras                         0.000000
Rynek                         0.000000
Typ budynku                   0.000000
Materiał budowlany            0.000000
Rok budowy                    0.000000
Data dodania                  0.000000
Liczba Punktów Podbić         0.000000
Piętro                        0.000000
Liczba pięter                 0.000000
Liczba sypialni               0.000000
Balkon                        0.000000
dtype: float64

Po uzupełnieniu wartości brakujących jedyne kolumny zawierające wartości np.nan to odpowiednio: ulica oraz stan nieruchomości

In [47]:
df['id'] = df['id'].astype('int')
df['Pokoje'] = df['Pokoje'].astype('int')
df['Pow. całkowita'] = df['Pow. całkowita'].astype('float')
df['Liczba poziomów mieszkania'] = df['Liczba poziomów mieszkania'].astype('int')
df['Liczba łazienek'] = df['Liczba łazienek'].astype('int')
df['Rok budowy'] = df['Rok budowy'].astype('int')
df['Data dodania'] = pd.to_datetime(df['Data dodania'], format='%d-%m-%Y')
df['Data dodania'] = df['Data dodania'].dt.strftime('%Y-%m-%d')
df['Data dodania'] = pd.to_datetime(df['Data dodania'], format='%Y-%m-%d')
df['Liczba Punktów Podbić'] = df['Liczba Punktów Podbić'].astype('int')
df['Piętro'] = df['Piętro'].astype('int')
df['Liczba pięter'] = df['Liczba pięter'].astype('int')
df['Liczba sypialni'] = df['Liczba sypialni'].astype('int')

zmiana typu danych do dalszej analizy

In [48]:
rename_dict = {'Cena' : 'price',
              'Cena/metr' : 'price/m',
              'Pokoje' : 'rooms',
              'Miasto' : 'city',
              'Dzielnica' : 'district',
              'Ulica' : 'street',
              'Stan nieruchomości' : 'status',
              'Pow. całkowita' : 'meters',
              'Liczba poziomów mieszkania' : 'apartment_floors',
              'Liczba łazienek' : 'bathroom',
              'Taras' : 'terrace',
              'Rynek' : 'market',
              'Typ budynku' : 'building',
              'Materiał budowlany' : 'material',
              'Rok budowy' : 'year',
              'Data dodania' : 'adv_date',
              'Liczba Punktów Podbić' : 'upvotes',
              'Piętro' : 'floor',
              'Liczba pięter' : 'building_floors',
              'Liczba sypialni' : 'bedroom',
              'Balkon' : 'balcony'}

In [49]:
df.rename(columns=rename_dict, inplace=True)

zmiana nazw zmiennych do ułatwienia dalszej pracy
zmiana według podstawowych kryteriów - nazwa zmiennej zaczyna się z małej litery, nie zawiera polskich znaków, nie zawiera spacji

In [50]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2227 entries, 0 to 2237
Data columns (total 22 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   id                2227 non-null   int32         
 1   price             2227 non-null   int32         
 2   price/m           2227 non-null   int32         
 3   rooms             2227 non-null   int32         
 4   city              2227 non-null   object        
 5   district          2227 non-null   object        
 6   street            1849 non-null   object        
 7   status            559 non-null    object        
 8   meters            2227 non-null   float64       
 9   apartment_floors  2227 non-null   int32         
 10  bathroom          2227 non-null   int32         
 11  terrace           2227 non-null   object        
 12  market            2227 non-null   object        
 13  building          2227 non-null   object        
 14  material          2227 n

### Zapisanie rezultatów do pliku csv, który następnie zostanie wgrany do tabeli postgreSQL

In [51]:
df.to_csv('final_result_updated.csv')