In [50]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
import numpy as np

alldata = pd.read_csv('flats.tsv', sep='\t')


In [51]:
print(pd.unique(alldata['Miejsce parkingowe']))

[' brak miejsca parkingowego' ' w garażu' ' przynależne na ulicy'
 ' parking strzeżony' ' pod wiatą']


In [52]:
print(pd.unique(alldata['Piętro']))

[' parter' ' 2' ' 5' ' 12' ' 1' ' 3' nan ' 8' ' 4' ' 16' ' 7' ' 6'
 ' poddasze' ' 9' ' 11' ' 13' ' 14' ' 10' ' 15' ' niski parter']


In [53]:
print(pd.unique(alldata['Typ zabudowy']))

[' apartamentowiec' ' kamienica' ' blok' ' dom wielorodzinny/szeregowiec'
 nan ' plomba']


In [54]:
print(pd.unique(alldata['Materiał budynku']))

[' cegła' ' płyta' nan ' silikat' ' pustak' ' inne' ' beton' ' drewno'
 ' kamień']


In [55]:
print(pd.unique(alldata['Rok budowy']))

[2017. 1902. 1990. 2009.   nan 1992. 1963. 1993. 1930. 1960. 2000. 2008.
 2015. 1980. 2018. 1997. 1975. 1995. 2006. 1964. 2011. 1920. 2004. 1970.
 1965. 1985. 1908. 1910. 2007. 1966. 1938. 1928. 1887. 2005. 1987. 1955.
 1972. 1905. 1934. 2002. 2010. 1950. 1900. 1940. 1956. 1967. 1909. 2014.
 2016. 1998. 2013. 1915. 1991. 1981. 1936. 2001. 2003. 1996. 1999. 1984.
 1968. 1989. 2012. 1978. 1973. 1926. 1961. 1929. 1994. 1894. 1979. 1927.
 1935. 1906. 1969. 1988. 1937. 1986. 1976. 1939. 1903. 1924. 1952. 1977.
 1862. 1962. 1983. 1912. 1982. 1907. 1974. 1904. 1941. 1925. 1933. 1944.
 1947. 1896. 1971. 1948. 1945. 1954. 1949. 1943. 1914.]


In [56]:
print(pd.unique(alldata['Forma kuchni']))

[' w aneksie' nan ' odzielna' ' prześwit']


In [57]:
print(pd.unique(alldata['Stan']))

[' stan deweloperski' nan ' wykończony' ' dobry' ' do remontu'
 ' do rozbiórki' ' świeżo po remoncie' ' wysoki standard'
 ' do odświeżenia' ' do wykończenia' ' stan surowy zamknięty' ' w budowie']


In [58]:
print(pd.unique(alldata['Stan instalacji']))

[' nowa' nan ' po wymianie' ' częściowo wymieniona' ' do wymiany']


In [59]:
print(pd.unique(alldata['Droga dojazdowa']))

[nan ' asfaltowa' ' utwardzana' ' kostka brukowa' ' polna']


In [60]:
print(pd.unique(alldata['Stan łazienki']))

[nan ' bardzo dobry' ' dobry' ' do odnowienia' ' do remontu']


In [61]:
data = pd.read_csv(
    'flats.tsv', sep='\t',
     usecols=['cena', 'Powierzchnia w m2', 'Liczba pokoi', 'Miejsce parkingowe', 'Liczba pięter w budynku', 'Piętro', 'Typ zabudowy', 'Materiał budynku', 'Rok budowy', 'Forma kuchni', 'Stan', 'Stan instalacji', 'Droga dojazdowa', 'Stan łazienki'])

print(data)

        cena  Powierzchnia w m2  Liczba pokoi          Miejsce parkingowe  \
0     290386                 46             2   brak miejsca parkingowego   
1     450000                 59             2   brak miejsca parkingowego   
2     375000                 79             3   brak miejsca parkingowego   
3     400000                 63             3                    w garażu   
4     389285                 59             3   brak miejsca parkingowego   
...      ...                ...           ...                         ...   
4933  329900                 97             4   brak miejsca parkingowego   
4934  695303                 48             2                    w garażu   
4935  344152                 67             3                    w garażu   
4936  650000                161             5                    w garażu   
4937  127900                 36             2   brak miejsca parkingowego   

      Liczba pięter w budynku   Piętro                    Typ zabudowy  \
0

In [62]:
data.isna().sum()

cena                          0
Powierzchnia w m2             0
Liczba pokoi                  0
Miejsce parkingowe            0
Liczba pięter w budynku     150
Piętro                      579
Typ zabudowy                957
Materiał budynku           2871
Rok budowy                 2983
Forma kuchni               3314
Stan                       3745
Stan instalacji            3908
Droga dojazdowa            4519
Stan łazienki              4147
dtype: int64

In [63]:
len(data)

4938

In [64]:
data = pd.read_csv(
    'flats.tsv', sep='\t',
     usecols=['cena', 'Powierzchnia w m2', 'Liczba pokoi', 'Miejsce parkingowe', 'Liczba pięter w budynku', 'Piętro', 'Typ zabudowy', 'Rok budowy'])

data.isna().sum()

cena                          0
Powierzchnia w m2             0
Liczba pokoi                  0
Miejsce parkingowe            0
Liczba pięter w budynku     150
Piętro                      579
Typ zabudowy                957
Rok budowy                 2983
dtype: int64

In [65]:
len(data)

4938

In [66]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='median')
data["Rok budowy"] = imputer.fit_transform(data["Rok budowy"].values.reshape(-1, 1))
data.isna().sum()

cena                         0
Powierzchnia w m2            0
Liczba pokoi                 0
Miejsce parkingowe           0
Liczba pięter w budynku    150
Piętro                     579
Typ zabudowy               957
Rok budowy                   0
dtype: int64

In [67]:
print(data)

        cena  Powierzchnia w m2  Liczba pokoi          Miejsce parkingowe  \
0     290386                 46             2   brak miejsca parkingowego   
1     450000                 59             2   brak miejsca parkingowego   
2     375000                 79             3   brak miejsca parkingowego   
3     400000                 63             3                    w garażu   
4     389285                 59             3   brak miejsca parkingowego   
...      ...                ...           ...                         ...   
4933  329900                 97             4   brak miejsca parkingowego   
4934  695303                 48             2                    w garażu   
4935  344152                 67             3                    w garażu   
4936  650000                161             5                    w garażu   
4937  127900                 36             2   brak miejsca parkingowego   

      Liczba pięter w budynku   Piętro                    Typ zabudowy  \
0

In [71]:
data = data.dropna(subset = ['Liczba pięter w budynku'])
print(len(data))
data.isna().sum()

4788


cena                         0
Powierzchnia w m2            0
Liczba pokoi                 0
Miejsce parkingowe           0
Liczba pięter w budynku      0
Piętro                     540
Typ zabudowy               882
Rok budowy                   0
dtype: int64

In [72]:
print(data)

        cena  Powierzchnia w m2  Liczba pokoi          Miejsce parkingowe  \
0     290386                 46             2   brak miejsca parkingowego   
1     450000                 59             2   brak miejsca parkingowego   
2     375000                 79             3   brak miejsca parkingowego   
3     400000                 63             3                    w garażu   
4     389285                 59             3   brak miejsca parkingowego   
...      ...                ...           ...                         ...   
4933  329900                 97             4   brak miejsca parkingowego   
4934  695303                 48             2                    w garażu   
4935  344152                 67             3                    w garażu   
4936  650000                161             5                    w garażu   
4937  127900                 36             2   brak miejsca parkingowego   

      Liczba pięter w budynku   Piętro                    Typ zabudowy  \
0