In [1]:
import pandas as pd
import numpy as np
import re
from tests import *

In [24]:
dict_of_announcements = pd.read_pickle(r'parsed_announcements.pkl')
df = pd.DataFrame(dict_of_announcements)

## Creating the dependant variabile
- removing listings meant as rentals
- standardizing the prices (using the same currency & adding the VAT where necessary)

In [25]:
df = df.drop(df[df['price'].apply(lambda x: '/ lună' in x)].index).reset_index(drop=True)

In [26]:
def get_eur_price(input_string):
    if '€' in input_string:
        final_string = input_string[:input_string.find('€')]
    if 'EUR' in input_string:
        final_string = input_string[:input_string.find('EUR')]
    return int(re.findall(r'\d+\.\d+\.?[0-9]*', final_string)[-1].replace('.', ''))

df['eur_price'] = df['price'].apply(lambda x: get_eur_price(x))
df['eur_price'] = np.where(
    (df['eur_price'] <= 140000) & (df['price'].apply(lambda x: 'TVA' in x)),
    df['eur_price'] * 1.05,
    np.where(
        (df['eur_price'] > 140000) & (df['price'].apply(lambda x: 'TVA' in x)),
        df['eur_price'] * 1.19,
        df['eur_price']
    )
)

In [27]:
test_rent_removed(df)
test_price_values(df)

Tests passed!
Tests passed!


# Creating independent variables

In [31]:
# renaming columns
original_cols = ['Nr. camere', 'Suprafaţă utilă', 'Compartimentare', 'Confort', 'Etaj', 'Nr. bucătării', 'Nr. băi', 'An construcţie', 'Structură rezistenţă', 'Tip imobil', 'Nr. balcoane', 'Nr. locuri parcare', 'Nr. garaje']
new_cols = ['rooms', 'surface_area', 'partitioning_type', 'comfort_type', 'floors', 'kitchens', 'bathrooms', 'building_year', 'building_structure', 'building_type', 'balconies', 'parking_spots', 'garages']
df.rename(columns={original_cols[i]: new_cols[i] for i in range(len(original_cols))}, inplace=True)

### Droping null values for critical columns

In [22]:
df.drop(df[(df['rooms'].isnull()) | (df['surface_area'].isnull())].index, inplace=True)

In [23]:
df[['rooms', 'surface_area']].isnull().sum()

rooms           0
surface_area    0
dtype: int64

In [8]:
# change "compartimentare" to is_decomandat
# change "confort" to confort_1, lux, other

### Transforming apartment floor intro dummies. Final values: first_floor, last_floor, other
1. dropping entries without propper labeling (x/y) format
2. transforming the x/y values by comparing x to y and getting the final values
3. creating dummies

In [29]:
df.drop(df[(df['floors'].apply(lambda x: '/' not in x))].index, inplace=True)
floor_series = df['floors'].apply(lambda x: x.split('/')[0]).reset_index(drop=True)
max_height_series = df['floors'].apply(lambda x: x.split('/')[-1].strip()).astype(int).reset_index(drop=True)
floor_series = pd.Series(
        np.where(
        floor_series.apply(lambda x: any([val in x.lower() for val in ['parter', 'demi']])),
        '0',
        np.where(
            floor_series.apply(lambda x: any([val in x.lower() for val in ['ultim', 'mansard']])),
            '99',
            floor_series
        )
    )
).apply(lambda x: re.findall(r'\d+', x)[0]).astype(int)
df['floor'] = np.where(
    floor_series == 0,
    'first_floor',
    np.where(
        floor_series >= max_height_series,
        'last_floor',
        'other'
    )
)
df = pd.concat([df, pd.get_dummies(df['floor'])], axis=1)

In [None]:
###

In [36]:
df['bathrooms'].

1      1509
2       846
3       179
NaN      42
4        33
5         3
7         1
11        1
Name: bathrooms, dtype: int64

In [32]:
df.columns

Index(['rooms', 'surface_area', 'Suprafaţă construită', 'partitioning_type',
       'comfort_type', 'floors', 'kitchens', 'bathrooms', 'building_year',
       'building_structure', 'building_type', 'Regim înălţime', 'url',
       'specifications', 'price', 'balconies', 'parking_spots', 'garages',
       'Suprafaţă utilă totală', 'eur_price', 'floor', 'first_floor',
       'last_floor', 'other'],
      dtype='object')

# TODO creeaza TESTE pentru: 
- valori nule
- valori acceptate in coloane

In [22]:
df['Confort'].value_counts(dropna=False)

1      1790
lux     705
NaN     125
2        25
3         6
Name: Confort, dtype: int64

In [26]:
df[df['Confort'] == 'lux'].groupby('Nr. camere')['eur_price'].mean()

Nr. camere
1     96482.545455
2    152445.772024
3    283327.581265
4    551931.228154
5    997450.205526
6    750952.500000
7    980000.000000
9    405000.000000
Name: eur_price, dtype: float64

In [32]:
['Nr. camere', 'Suprafaţă utilă', 'Suprafaţă construită', 'Compartimentare', 'Confort', 'Etaj', 'Nr. bucătării', 'Nr. băi', 'An construcţie', 'Structură rezistenţă', 'Tip imobil', 'Regim înălţime', 
'Nr. balcoane', 'Nr. locuri parcare', 'Nr. garaje', 'Suprafaţă utilă totală']
['rooms', 'Suprafaţă utilă', 'Suprafaţă construită', 'Compartimentare', 'Confort', 'Etaj', 'Nr. bucătării', 'Nr. băi', 'An construcţie', 'Structură rezistenţă', 'Tip imobil', 'Regim înălţime', 
'Nr. balcoane', 'Nr. locuri parcare', 'Nr. garaje', 'Suprafaţă utilă totală']

['Nr. camere',
 'Suprafaţă utilă',
 'Suprafaţă construită',
 'Compartimentare',
 'Confort',
 'Etaj',
 'Nr. bucătării',
 'Nr. băi',
 'An construcţie',
 'Structură rezistenţă',
 'Tip imobil',
 'Regim înălţime',
 'Nr. balcoane',
 'Nr. locuri parcare',
 'Nr. garaje',
 'Suprafaţă utilă totală']

In [34]:
df['Nr. camere'].unique()

array(['4', '3', '2', '5', '6', '1', '7', '9', '8'], dtype=object)

In [31]:
df.columns

Index(['Nr. camere', 'Suprafaţă utilă', 'Suprafaţă construită',
       'Compartimentare', 'Confort', 'Etaj', 'Nr. bucătării', 'Nr. băi',
       'An construcţie', 'Structură rezistenţă', 'Tip imobil',
       'Regim înălţime', 'url', 'specifications', 'price', 'Nr. balcoane',
       'Nr. locuri parcare', 'Nr. garaje', 'Suprafaţă utilă totală',
       'eur_price'],
      dtype='object')

In [11]:
df[df['eur_price'] == df['eur_price'].max()]

Unnamed: 0,Nr. camere,Suprafaţă utilă,Suprafaţă construită,Compartimentare,Confort,Etaj,Nr. bucătării,Nr. băi,An construcţie,Structură rezistenţă,Tip imobil,Regim înălţime,url,specifications,price,Nr. balcoane,Nr. locuri parcare,Nr. garaje,Suprafaţă utilă totală,eur_price
1557,5,521 mp,,decomandat,lux,Etaj 11 / 11,1,3,2021 (in constructie),beton,bloc de apartamente,P+11E,https://www.imobiliare.ro/vanzare-apartamente/...,"[Utilitati generale: Curent, Apa, Canalizare, ...",19.794.795 RON4.503.218 USD3.999.999 EUR + TVA,3,,1,,4759998.81


In [27]:
min([re.findall(r'\d+\.\d+', listing['price'])[-1] for listing in dict_of_announcements if len(re.findall(r'\d+\.\d+', listing['price'])) == 3])

'1.000'

In [68]:
'4.949.100 RON1.128 USD1.00.000 EUR + TVA'[:'4.949.100 RON1.128 USD1.00.000 EUR + TVA'.find('EUR')]

'4.949.100 RON1.128 USD1.00.000 '

In [65]:
df[df['price'].apply(lambda x: test(x)) == False]['price']

619    145.539 EUR164.213 USD720.286 RON
Name: price, dtype: object

In [29]:
[listing['price'] for listing in dict_of_announcements if re.findall(r'\d+\.\d+', listing['price'])[-1] == '1.000']

['4.949.100 RON1.128.309 USD1.000.000 EUR + TVA',
 '4.949.100 RON1.128.309 USD1.000.000 EUR + TVA',
 '4.949.100 RON1.128.309 $1.000.000 € + TVA',
 '4.949.100 RON1.128.309 USD1.000.000 EUR + TVA',
 '4.949.100 RON1.128.309 USD1.000.000 EUR + TVA',
 '4.948.700 RON1.125.805 USD1.000.000 EUR + TVA']

In [57]:
re.findall(r'\d+\.\d+\.?[0-9]*', '4.949.100 RON1.128 USD1.00.000 EUR + TVA')

['4.949.100', '1.128', '1.00.000']

In [11]:
[listing['price'] for listing in dict_of_announcements if len(re.findall(r'\d+\.\d+', listing['price'])) == 1]

['1.979 RON450 USD400 EUR / lună',
 '1.435 RON326 USD290 EUR / lună',
 '1.979 RON450 USD400 EUR / lună',
 '2.969 RON675 USD600 EUR / lună',
 '1.975 RON449 USD399 EUR / lună']

In [3]:
set([len(re.findall(r'\d+\.\d+', listing['price'])) for listing in dict_of_announcements])

{1, 3}

In [15]:
min([re.findall(r'\d+\.\d+', listing['price'])[-1] for listing in dict_of_announcements if len(re.findall(r'\d+\.\d+', listing['price'])) == 3])

'1.000'

In [93]:
[listing for listing in dict_of_announcements if re.findall(r'\d+\.\d+', listing['price'])[-1] == '1.000']

[{'Nr. camere': '5',
  'Suprafaţă utilă': '206 mp',
  'Suprafaţă utilă totală': '245 mp',
  'Suprafaţă construită': '300 mp',
  'Compartimentare': 'decomandat',
  'Confort': 'lux',
  'Etaj': 'Ultimele 2 etaje / 12',
  'Nr. bucătării': '1',
  'Nr. băi': '3',
  'An construcţie': '2020',
  'Structură rezistenţă': 'beton',
  'Tip imobil': 'bloc de apartamente',
  'Regim înălţime': 'P+12E',
  'Nr. locuri parcare': '2',
  'Nr. balcoane': '2',
  'url': 'https://www.imobiliare.ro/vanzare-apartamente/bucuresti/1-mai/penthouse-de-vanzare-5-camere-X9TB00024',
  'specifications': ['Utilitati generale: Curent, Apa, Canalizare, CATV, Telefon international',
   'Sistem incalzire: Centrala imobil, Calorifere, Incalzire prin pardoseala',
   'Acces internet: Wireless',
   'Ferestre cu geam termopan: Aluminiu',
   'Stare interior: Buna',
   'Usi interior: Celulare',
   'Usa intrare: Metal',
   'Izolatii termice: Exterior',
   'Podele: Marmura, Parchet',
   'Pereti: Vopsea lavabila',
   'Alte spatii utile