# Projeto de Análise Exploratória de Dados

---

A Análise Exploratória de Dados (do inglês Exploratory Data Analysis - *EDA*) refere-se ao processo crítico de realizar investigações iniciais em dados para descobrir padrões, detectar anomalias, testar hipóteses e verificar suposições com a ajuda de estatísticas resumidas e representações gráficas. [[1]](https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15)


Neste projeto é realizado o processo de *EDA* com o intuito de treinar o olhar crítico em dados de problemas reais e aprimorar meus conhecimentos. São realizadas operações de tratamento dos dados, filtragem dos dados importantes para cada suposição investigada, dentre outras. Para apresentar as soluções encontradas, são apresentadas representações gráficas de forma a melhorar a visualização da solução

O *dataset* utilizado é o *Apartment Rental Offers in Germany*, que contêm dados a respeito dos imóveis disponíveis para alugar na Alemannha. Ele conta com informações como preço do aluguel, caracteristicas dos apartamentos, localização do imóvel, dentre outras. Para mais informações sobre o *dataset*, acessar [aqui](https://www.kaggle.com/corrieaar/apartment-rental-offers-in-germany).

# Apartment rental offers in Germany



In [62]:
#@title Import Data
#@markdown Esta célula contém a importação do *dataset* e do pacote *pandas* e *plotly*.
 
#@markdown >*Execute esta célula (`ctrl+enter` ou clicando no botão ao lado) para que o ambiente seja carregado.*

import pandas as pd
import plotly.express as px

path = '/content/drive/MyDrive/Data Science/Dados/Germany Rent Apartments/immo_data.csv'

dataframe = pd.read_csv(path)

## Data Preparation & Cleaning

In [4]:
dataframe.head()

Unnamed: 0,regio1,serviceCharge,heatingType,telekomTvOffer,telekomHybridUploadSpeed,newlyConst,balcony,picturecount,pricetrend,telekomUploadSpeed,totalRent,yearConstructed,scoutId,noParkSpaces,firingTypes,hasKitchen,geo_bln,cellar,yearConstructedRange,baseRent,houseNumber,livingSpace,geo_krs,condition,interiorQual,petsAllowed,street,streetPlain,lift,baseRentRange,typeOfFlat,geo_plz,noRooms,thermalChar,floor,numberOfFloors,noRoomsRange,garden,livingSpaceRange,regio2,regio3,description,facilities,heatingCosts,energyEfficiencyClass,lastRefurbish,electricityBasePrice,electricityKwhPrice,date
0,Nordrhein_Westfalen,245.0,central_heating,ONE_YEAR_FREE,,False,False,6,4.62,10.0,840.0,1965.0,96107057,1.0,oil,False,Nordrhein_Westfalen,True,2.0,595.0,244.0,86.0,Dortmund,well_kept,normal,,Sch&uuml;ruferstra&szlig;e,Schüruferstraße,False,4,ground_floor,44269,4.0,181.4,1.0,3.0,4,True,4,Dortmund,Schüren,Die ebenerdig zu erreichende Erdgeschosswohnun...,Die Wohnung ist mit Laminat ausgelegt. Das Bad...,,,,,,May19
1,Rheinland_Pfalz,134.0,self_contained_central_heating,ONE_YEAR_FREE,,False,True,8,3.47,10.0,,1871.0,111378734,2.0,gas,False,Rheinland_Pfalz,False,1.0,800.0,,89.0,Rhein_Pfalz_Kreis,refurbished,normal,no,no_information,,False,5,ground_floor,67459,3.0,,,,3,False,4,Rhein_Pfalz_Kreis,Böhl_Iggelheim,Alles neu macht der Mai – so kann es auch für ...,,,,2019.0,,,May19
2,Sachsen,255.0,floor_heating,ONE_YEAR_FREE,10.0,True,True,8,2.72,2.4,1300.0,2019.0,113147523,1.0,,False,Sachsen,True,9.0,965.0,4.0,83.8,Dresden,first_time_use,sophisticated,,Turnerweg,Turnerweg,True,6,apartment,1097,3.0,,3.0,4.0,3,False,4,Dresden,Äußere_Neustadt_Antonstadt,Der Neubau entsteht im Herzen der Dresdner Neu...,"* 9 m² Balkon\n* Bad mit bodengleicher Dusche,...",,,,,,Oct19
3,Sachsen,58.15,district_heating,ONE_YEAR_FREE,,False,True,9,1.53,40.0,,1964.0,108890903,,district_heating,False,Sachsen,False,2.0,343.0,35.0,58.15,Mittelsachsen_Kreis,,,,Gl&uuml;ck-Auf-Stra&szlig;e,Glück-Auf-Straße,False,2,other,9599,3.0,86.0,3.0,,3,False,2,Mittelsachsen_Kreis,Freiberg,Abseits von Lärm und Abgasen in Ihre neue Wohn...,,87.23,,,,,May19
4,Bremen,138.0,self_contained_central_heating,,,False,True,19,2.46,,903.0,1950.0,114751222,,gas,False,Bremen,False,1.0,765.0,10.0,84.97,Bremen,refurbished,,,Hermann-Henrich-Meier-Allee,Hermann-Henrich-Meier-Allee,False,5,apartment,28213,3.0,188.9,1.0,,3,False,4,Bremen,Neu_Schwachhausen,Es handelt sich hier um ein saniertes Mehrfami...,Diese Wohnung wurde neu saniert und ist wie fo...,,,,,,Feb20


In [5]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 268850 entries, 0 to 268849
Data columns (total 49 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   regio1                    268850 non-null  object 
 1   serviceCharge             261941 non-null  float64
 2   heatingType               223994 non-null  object 
 3   telekomTvOffer            236231 non-null  object 
 4   telekomHybridUploadSpeed  45020 non-null   float64
 5   newlyConst                268850 non-null  bool   
 6   balcony                   268850 non-null  bool   
 7   picturecount              268850 non-null  int64  
 8   pricetrend                267018 non-null  float64
 9   telekomUploadSpeed        235492 non-null  float64
 10  totalRent                 228333 non-null  float64
 11  yearConstructed           211805 non-null  float64
 12  scoutId                   268850 non-null  int64  
 13  noParkSpaces              93052 non-null   f

In [6]:
dataframe.describe()

Unnamed: 0,serviceCharge,telekomHybridUploadSpeed,picturecount,pricetrend,telekomUploadSpeed,totalRent,yearConstructed,scoutId,noParkSpaces,yearConstructedRange,baseRent,livingSpace,baseRentRange,geo_plz,noRooms,thermalChar,floor,numberOfFloors,noRoomsRange,livingSpaceRange,heatingCosts,lastRefurbish,electricityBasePrice,electricityKwhPrice
count,261941.0,45020.0,268850.0,267018.0,235492.0,228333.0,211805.0,268850.0,93052.0,211805.0,268850.0,268850.0,268850.0,268850.0,268850.0,162344.0,217541.0,171118.0,268850.0,268850.0,85518.0,80711.0,46846.0,46846.0
mean,151.206113,10.0,9.791958,3.389001,28.804928,901.3315,1966.40059,106969700.0,1.327634,3.714544,694.1294,74.355548,3.765256,37283.022235,2.641261,114.749533,2.122405,3.572319,2.571542,3.07079,76.990866,2013.904536,89.113612,0.199769
std,308.29579,0.0,6.408399,1.964874,16.337151,33238.33,46.992207,12500930.0,8.361403,2.738134,19536.02,254.759208,2.214357,27798.037296,2.63344,61.653663,3.634934,6.375496,0.937594,1.407127,147.716278,10.963125,5.395805,0.009667
min,0.0,10.0,0.0,-12.33,1.0,0.0,1000.0,28871740.0,0.0,1.0,0.0,0.0,1.0,852.0,1.0,0.1,-1.0,0.0,1.0,1.0,0.0,1015.0,71.43,0.1705
25%,95.0,10.0,6.0,2.0,10.0,469.8,1950.0,106691000.0,1.0,1.0,338.0,54.0,2.0,9128.0,2.0,79.0,1.0,2.0,2.0,2.0,54.0,2012.0,90.76,0.1915
50%,135.0,10.0,9.0,3.39,40.0,650.0,1973.0,111158400.0,1.0,3.0,490.0,67.32,3.0,38667.0,3.0,107.0,2.0,3.0,3.0,3.0,70.0,2017.0,90.76,0.1985
75%,190.0,10.0,13.0,4.57,40.0,985.0,1996.0,113768800.0,1.0,5.0,799.0,87.0,5.0,57072.0,3.0,140.3,3.0,4.0,3.0,4.0,90.0,2019.0,90.76,0.2055
max,146118.0,10.0,121.0,14.92,100.0,15751540.0,2090.0,115711700.0,2241.0,9.0,9999999.0,111111.0,9.0,99998.0,999.99,1996.0,999.0,999.0,5.0,7.0,12613.0,2919.0,90.76,0.2276


In [7]:
# Verificando as colunas que possuem muitos valores faltantes
dataframe.isna().sum().sort_values(ascending=False)

telekomHybridUploadSpeed    223830
electricityKwhPrice         222004
electricityBasePrice        222004
energyEfficiencyClass       191063
lastRefurbish               188139
heatingCosts                183332
noParkSpaces                175798
petsAllowed                 114573
interiorQual                112665
thermalChar                 106506
numberOfFloors               97732
houseNumber                  71018
streetPlain                  71013
condition                    68489
yearConstructed              57045
yearConstructedRange         57045
firingTypes                  56964
facilities                   52924
floor                        51309
heatingType                  44856
totalRent                    40517
typeOfFlat                   36614
telekomUploadSpeed           33358
telekomTvOffer               32619
description                  19747
serviceCharge                 6909
pricetrend                    1832
regio3                           0
regio2              

## Exploratory Analysis & Visualization


### Regions Analysis

1. Análise dos estados com a maior quantidade de imóveis disponíveis para aliugar
2. Análise dos estados com maior quantidade de imóveis para alugar com aluguel abaixo da média (baseado no valor total do aluguel)
3. Análise dos estados com maior quantidade de imóveis para alugar com aluguel abaixo da média (baseado no valor do aluguel sem as taxas extras)


A partir dessas análises é possível identificar quais os estados que possuem uma maior quantidade de imóveis para alugar, assim como os que tem o valor do aluguel abaixo/acima da média. 



---



In [8]:
dataframe.regio1.unique()

array(['Nordrhein_Westfalen', 'Rheinland_Pfalz', 'Sachsen', 'Bremen',
       'Schleswig_Holstein', 'Baden_Württemberg', 'Thüringen', 'Hessen',
       'Niedersachsen', 'Bayern', 'Hamburg', 'Sachsen_Anhalt',
       'Mecklenburg_Vorpommern', 'Berlin', 'Brandenburg', 'Saarland'],
      dtype=object)

In [9]:
cheaper_region = dataframe[['regio1', 'totalRent', 'baseRent']]
cheaper_region.head()

Unnamed: 0,regio1,totalRent,baseRent
0,Nordrhein_Westfalen,840.0,595.0
1,Rheinland_Pfalz,,800.0
2,Sachsen,1300.0,965.0
3,Sachsen,,343.0
4,Bremen,903.0,765.0


In [10]:
cheaper_region = cheaper_region.dropna()

In [11]:
cheaper_region.describe()

Unnamed: 0,totalRent,baseRent
count,228333.0,228333.0
mean,901.3315,653.8326
std,33238.33,3361.44
min,0.0,0.0
25%,469.8,335.0
50%,650.0,490.0
75%,985.0,795.0
max,15751540.0,1234567.0


In [12]:
cheaper_region.regio1.value_counts().sort_values(ascending=False)

Sachsen                   52170
Nordrhein_Westfalen       50759
Bayern                    18521
Sachsen_Anhalt            17747
Hessen                    14647
Baden_Württemberg         13380
Niedersachsen             12281
Berlin                     9744
Thüringen                  7337
Rheinland_Pfalz            6586
Brandenburg                6415
Mecklenburg_Vorpommern     5959
Schleswig_Holstein         5854
Hamburg                    3395
Bremen                     2517
Saarland                   1021
Name: regio1, dtype: int64

In [71]:
px.histogram(cheaper_region, 
             x=list(cheaper_region.regio1.value_counts().sort_values(ascending=False).index),
             y= list(cheaper_region.regio1.value_counts().sort_values(ascending=False)),
             title='Total of apartments available to rent per region',
             orientation='v',)

As regiões de *Sachsen, Nord Rhein WestFalen, Bayern, Sachsen Anhalt e Hessen* compõe o TOP 5 estados com maior quantidade de imóveis para alugar.

---

**Estados com maior quantidade de imóveis disponíveis para alugar, baseado no valor total do aluguel.**

In [14]:
# Foi selecionado a média do valores dos alugueis para identificar as regiões mais baratas e caras

region_lower_price = cheaper_region[cheaper_region.totalRent < 900]
region_bigger_price = cheaper_region[cheaper_region.totalRent >= 900] 

In [15]:
region_lower_price.regio1.value_counts().sort_values(ascending=False)
# region_lower_price.regio1.value_counts().sort_values(ascending=False) / len(cheaper_region)

Sachsen                   45980
Nordrhein_Westfalen       37888
Sachsen_Anhalt            16864
Niedersachsen              8988
Bayern                     7179
Thüringen                  6835
Hessen                     5655
Mecklenburg_Vorpommern     5347
Brandenburg                5111
Baden_Württemberg          5100
Rheinland_Pfalz            4167
Schleswig_Holstein         3925
Berlin                     3380
Bremen                     1834
Hamburg                     874
Saarland                    806
Name: regio1, dtype: int64

In [64]:
px.histogram(region_lower_price, 
             x=list(region_lower_price.regio1.value_counts().sort_values(ascending=False).index),
             y= list(region_lower_price.regio1.value_counts().sort_values(ascending=False)),
             title='Total of apartments available to rent in a region with a price under 900',
             orientation='v')

As regiões de *Sachsen, Nord Rhein WestFalen, Sachsen Anhalt e Niedersachsen e Thüringen* compõe o TOP 5 estados com maior quantidade de imóveis para alugar com valor total abaixo da média. 

---

In [17]:
region_bigger_price.regio1.value_counts().sort_values(ascending=False)

Nordrhein_Westfalen       12871
Bayern                    11342
Hessen                     8992
Baden_Württemberg          8280
Berlin                     6364
Sachsen                    6190
Niedersachsen              3293
Hamburg                    2521
Rheinland_Pfalz            2419
Schleswig_Holstein         1929
Brandenburg                1304
Sachsen_Anhalt              883
Bremen                      683
Mecklenburg_Vorpommern      612
Thüringen                   502
Saarland                    215
Name: regio1, dtype: int64

In [65]:
px.histogram(region_bigger_price, 
             x=list(region_bigger_price.regio1.value_counts().sort_values(ascending=False).index),
             y= list(region_bigger_price.regio1.value_counts().sort_values(ascending=False)),
             title='Total of apartments available to rent in a region with a price over 900',
             orientation='v')

As regiões de *Nord Rhein WestFalen, Bayern, Hessen, Baden Württemberg e Sachsen* compõe o TOP 5 estados com maior quantidade de imóveis para alugar com valor total acima da média. 

---

**Estados com maior quantidade de imóveis disponíveis para alugar, baseado no valor do aluguel sem acréscimo de taxas.**

In [19]:
# Foi selecionado a média do valores dos alugueis para identificar as regiões mais baratas e caras

region_lower_price = cheaper_region[cheaper_region.baseRent < 650]
region_bigger_price = cheaper_region[cheaper_region.baseRent >= 650] 

In [20]:
region_lower_price.regio1.value_counts().sort_values(ascending=False)

Sachsen                   44963
Nordrhein_Westfalen       35229
Sachsen_Anhalt            16733
Niedersachsen              8001
Thüringen                  6708
Bayern                     5320
Mecklenburg_Vorpommern     5204
Brandenburg                4878
Hessen                     4392
Baden_Württemberg          3701
Schleswig_Holstein         3458
Rheinland_Pfalz            3429
Berlin                     2652
Bremen                     1710
Saarland                    735
Hamburg                     607
Name: regio1, dtype: int64

In [66]:
px.histogram(region_lower_price, 
             x=list(region_lower_price.regio1.value_counts().sort_values(ascending=False).index),
             y= list(region_lower_price.regio1.value_counts().sort_values(ascending=False)),
             title='Total of apartments available to rent in a region with a price under 650 based on base rent',
             orientation='v')

As regiões de *Nord Rhein WestFalen, Bayern, Hessen, Baden Württemberg e Sachsen* compõe o TOP 5 estados com maior quantidade de imóveis para alugar com valor (sem taxas) abaixo da média. 

---

In [22]:
region_bigger_price.regio1.value_counts().sort_values(ascending=False)

Nordrhein_Westfalen       15530
Bayern                    13201
Hessen                    10255
Baden_Württemberg          9679
Sachsen                    7207
Berlin                     7092
Niedersachsen              4280
Rheinland_Pfalz            3157
Hamburg                    2788
Schleswig_Holstein         2396
Brandenburg                1537
Sachsen_Anhalt             1014
Bremen                      807
Mecklenburg_Vorpommern      755
Thüringen                   629
Saarland                    286
Name: regio1, dtype: int64

In [67]:
px.histogram(region_bigger_price, 
             x=list(region_bigger_price.regio1.value_counts().sort_values(ascending=False).index),
             y= list(region_bigger_price.regio1.value_counts().sort_values(ascending=False)),
             title='Total of apartments available to rent in a region with a price over 650 based on base rent', 
             orientation='v')

As regiões de *Nord Rhein WestFalen, Bayern, Hessen, Baden Württemberg e Sachsen* compõe o TOP 5 estados com maior quantidade de imóveis para alugar com valor (sem taxas) acima da média. 

---

### Flat type and condition analysis


1. Identificação das condições dos imóveis disponíveis para alugar baseado no tipo de imóvel.

In [24]:
dataframe.typeOfFlat.unique()   # Tipos de imóveis

array(['ground_floor', 'apartment', 'other', nan, 'roof_storey',
       'raised_ground_floor', 'terraced_flat', 'half_basement',
       'maisonette', 'penthouse', 'loft'], dtype=object)

In [25]:
dataframe.condition.unique()    # Labels da condição dos imóveis

array(['well_kept', 'refurbished', 'first_time_use', nan,
       'fully_renovated', 'mint_condition',
       'first_time_use_after_refurbishment', 'modernized', 'negotiable',
       'need_of_renovation', 'ripe_for_demolition'], dtype=object)

In [26]:
dataframe.typeOfFlat.isna().sum()

36614

In [27]:
dataframe.condition.isna().sum()

68489

In [28]:
flat_types = dataframe[['condition', 'typeOfFlat']].dropna()

In [29]:
flat_types.typeOfFlat.value_counts().sort_values(ascending=False)

apartment              100057
roof_storey             27556
ground_floor            23878
maisonette               7866
other                    6789
raised_ground_floor      4799
penthouse                3162
terraced_flat            2994
half_basement            1614
loft                      836
Name: typeOfFlat, dtype: int64

In [30]:
flat_types.condition.value_counts().sort_values(ascending=False)

well_kept                             60733
fully_renovated                       23839
refurbished                           21704
first_time_use                        20268
mint_condition                        20254
modernized                            15359
first_time_use_after_refurbishment    14201
negotiable                             1920
need_of_renovation                     1270
ripe_for_demolition                       3
Name: condition, dtype: int64

In [72]:
px.histogram(flat_types, 
             x='typeOfFlat', 
             color='condition',
             title='Type of flat and their conditions',
             orientation='v').update_xaxes(categoryorder='total descending')

Através do gráfico é possível afirmar que a maioria dos imóveis disponíveis para alugar são **apartamentos**, ***roof storey*** (andar adicional) e ***ground floor*** (térreo). Também é possível afirmar que a maioria deles estão em boas condições (*well kept*), completamente renovado (*fully_renovated*) e reformado (*refurbished*).

---

### Flat Characteristics

1. O preço de apartamento com varanda está abaixou ou acima da média?


In [32]:
flat_info = dataframe[['balcony', 'cellar', 'livingSpace', 'noRooms', 'totalRent']]
flat_info

Unnamed: 0,balcony,cellar,livingSpace,noRooms,totalRent
0,False,True,86.00,4.0,840.0
1,True,False,89.00,3.0,
2,True,True,83.80,3.0,1300.0
3,True,False,58.15,3.0,
4,True,False,84.97,3.0,903.0
...,...,...,...,...,...
268845,True,True,90.00,3.0,910.0
268846,True,False,115.00,3.5,1150.0
268847,True,True,95.00,4.0,930.0
268848,True,True,70.00,2.0,1015.0


In [33]:
flat_info = flat_info.dropna()

In [34]:
flat_info.isna().sum()

balcony        0
cellar         0
livingSpace    0
noRooms        0
totalRent      0
dtype: int64

In [35]:
flat_info.totalRent = flat_info.totalRent.astype(int)
flat_info.noRooms = flat_info.noRooms.astype(int)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [36]:
# Divisão utilizado a média do valor total do aluguel

price_flat_with_balcony = flat_info[flat_info.totalRent >= 900]
price_flat_no_balcony = flat_info[flat_info.totalRent < 900]

In [37]:
price_flat_no_balcony.balcony.value_counts()

True     85600
False    74333
Name: balcony, dtype: int64

In [38]:
px.histogram(price_flat_no_balcony, 
             x= list(price_flat_no_balcony.balcony.value_counts().index),
             y=list(price_flat_no_balcony.balcony.value_counts()),
             title='Apartments rent under 900 that have a balcony')

A partir do gráfico temos que a quantidade de imóveis com varanda que tem valor do alguel abaixo da média, supera a quantidade dos que não tem varanda. No entanto, a quantidade de apartamentos com aluguel abaixo da média e que não tem varanda se mantém próximo dos que tem. Desta forma, é possível afirmar que aproximadamente 48% dos apartamentos sem varanda tem o valor do aluguel abaixo da média. 

---

In [39]:
price_flat_with_balcony.balcony.value_counts()

True     55601
False    12799
Name: balcony, dtype: int64

In [40]:
px.histogram(price_flat_with_balcony, 
             x= list(price_flat_with_balcony.balcony.value_counts().index),
             y=list(price_flat_with_balcony.balcony.value_counts()),
             title='Apartments rent over 900 that have a balcony')

Já nesta análise temos que a quantidade de imóveis com varanda e que possui valor do aluguel acima da média é consideravelmente superior em relação aos que não tem varanda.

---

Portanto, temos que o preço dos alugueis dos imóveis com varanda é, geralmente, acima da média.

### Rent price per room

Análise do preço do aluguel divido pela quantidade de quartos

In [41]:
flat_info['price_per_room'] = flat_info.totalRent / flat_info.noRooms



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [42]:
flat_info.price_per_room.describe(percentiles=[.25, .5, .75, .9, .99])

count    2.283330e+05
mean     3.632376e+02
std      1.122183e+04
min      0.000000e+00
25%      2.033333e+02
50%      2.800000e+02
75%      4.000000e+02
90%      5.575000e+02
99%      1.050000e+03
max      5.250512e+06
Name: price_per_room, dtype: float64

In [43]:
flat_info.noRooms.describe(percentiles=[.25, .5, .75, .9, .99])

count    228333.000000
mean          2.574065
std           1.724371
min           1.000000
25%           2.000000
50%           3.000000
75%           3.000000
90%           4.000000
99%           5.000000
max         560.000000
Name: noRooms, dtype: float64

In [44]:
flat_price_room = flat_info.loc[flat_info['noRooms'] <= 5]
flat_price_room

Unnamed: 0,balcony,cellar,livingSpace,noRooms,totalRent,price_per_room
0,False,True,86.00,4,840,210.000000
2,True,True,83.80,3,1300,433.333333
4,True,False,84.97,3,903,301.000000
6,False,True,62.00,2,380,190.000000
7,True,True,60.30,3,584,194.666667
...,...,...,...,...,...,...
268844,False,False,85.00,3,670,223.333333
268845,True,True,90.00,3,910,303.333333
268846,True,False,115.00,3,1150,383.333333
268847,True,True,95.00,4,930,232.500000


In [45]:
flat_price_room.price_per_room = flat_price_room.price_per_room.astype(int)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [46]:
px.scatter(flat_price_room[:100], 
           x='noRooms', 
           y='price_per_room',
           title='Rent price per room')

A partir dessa análise é possível descobir a faixa de preço pago por quarto em um imóvel. No gráfico é apresentado que a maioria dos imóveis o valor pago por quarto está abaixo de € 500.

### Apartments heating systems

1. Qual tipo de aquecimento mais comum em cada região?
2. *Qual o tipo de aquecimento mais caro?*

*obs: 'heating_cost' tem muitos valors Nan*

In [47]:
firing_types = dataframe[['firingTypes', 'regio1']].dropna()

In [48]:
firing_types['firingTypes'] = firing_types['firingTypes'].str.split(':').str.get(0)
list(firing_types['firingTypes'].unique())

['oil',
 'gas',
 'district_heating',
 'electricity',
 'pellet_heating',
 'natural_gas_light',
 'combined_heat_and_power_fossil_fuels',
 'steam_district_heating',
 'natural_gas_heavy',
 'solar_heating',
 'environmental_thermal_energy',
 'local_heating',
 'geothermal',
 'combined_heat_and_power_regenerative_energy',
 'heat_supply',
 'liquid_gas',
 'wood',
 'hydro_energy',
 'combined_heat_and_power_renewable_energy',
 'coal',
 'bio_energy',
 'wood_chips',
 'combined_heat_and_power_bio_energy',
 'wind_energy',
 'coal_coke']

In [50]:
list(firing_types.regio1.value_counts().sort_values(ascending=False).index)

['Nordrhein_Westfalen',
 'Sachsen',
 'Bayern',
 'Sachsen_Anhalt',
 'Hessen',
 'Niedersachsen',
 'Baden_Württemberg',
 'Berlin',
 'Thüringen',
 'Rheinland_Pfalz',
 'Schleswig_Holstein',
 'Brandenburg',
 'Mecklenburg_Vorpommern',
 'Hamburg',
 'Bremen',
 'Saarland']

In [49]:
firing_types['firingTypes'].value_counts()

gas                                            112712
district_heating                                50044
oil                                             18285
natural_gas_light                               10087
electricity                                      4933
natural_gas_heavy                                4543
pellet_heating                                   2548
geothermal                                       2538
solar_heating                                     967
local_heating                                     933
environmental_thermal_energy                      900
combined_heat_and_power_fossil_fuels              863
steam_district_heating                            787
liquid_gas                                        452
heat_supply                                       392
wood_chips                                        191
combined_heat_and_power_renewable_energy          180
wood                                              165
bio_energy                  

In [73]:
px.histogram(firing_types,
             x='regio1',
             color='firingTypes',
             title='Common types of heating in apartments available for rent by region',
             orientation='v')

No gráfico é apresentado todos os tipos de aquecimento e a quantidade de imóveis que usam ele em cada região. A forma de aquecimento mais utilizada é o aquecimento a gás, *district_heating* e óleo.

### The density of apartments available per city

1. Quantidade de imóveis disponíveis em cada cidade

In [52]:
city_region = dataframe[['geo_krs']].dropna()
city_region

Unnamed: 0,geo_krs
0,Dortmund
1,Rhein_Pfalz_Kreis
2,Dresden
3,Mittelsachsen_Kreis
4,Bremen
...,...
268845,Weilheim_Schongau_Kreis
268846,Bergstraße_Kreis
268847,Limburg_Weilburg_Kreis
268848,Köln


In [53]:
len(city_region['geo_krs'].unique())

419

In [54]:
from  geopy.geocoders import Nominatim
geolocator = Nominatim()


Using Nominatim with the default "geopy/1.17.0" `user_agent` is strongly discouraged, as it violates Nominatim's ToS https://operations.osmfoundation.org/policies/nominatim/ and may possibly cause 403 and 429 HTTP errors. Please specify a custom `user_agent` with `Nominatim(user_agent="my-application")` or by overriding the default `user_agent`: `geopy.geocoders.options.default_user_agent = "my-application"`. In geopy 2.0 this will become an exception.



In [55]:
heatmap = pd.DataFrame()

In [56]:
heatmap['city'] = city_region['geo_krs'].unique()
heatmap['count_value'] = list(city_region['geo_krs'].value_counts())

In [None]:
country ="Deutschland"
heatmap['lat'] = ''
heatmap['long'] = ''

for index, cord in enumerate(heatmap['city']):
  cord = cord.split("_")
  city = ' '.join(cord)
  
  loc = geolocator.geocode(city+','+ country, timeout=10)

  if loc == None:
    heatmap['lat'][index] = None
    heatmap['long'][index] = None
  elif str(loc.latitude) != None and str(loc.longitude) != None:
    heatmap['lat'][index] = float(loc.latitude)
    heatmap['long'][index] = float(loc.longitude)

In [58]:
heatmap = heatmap.dropna()

In [59]:
heatmap

Unnamed: 0,city,count_value,lat,long
0,Dortmund,13723,51.514227,7.465279
1,Rhein_Pfalz_Kreis,12575,49.429456,8.314053
2,Dresden,10406,51.049329,13.738144
3,Mittelsachsen_Kreis,7522,50.904725,13.367116
4,Bremen,4860,53.07582,8.807165
...,...,...,...,...
410,Saale_Orla_Kreis,39,50.586455,11.776174
413,Schwabach,35,49.329554,11.019513
414,Wittmund_Kreis,31,52.250899,7.126828
415,Haßberge_Kreis,30,50.160255,10.488699


In [60]:
fig = px.density_mapbox(heatmap, lat='lat', lon='long', z='count_value', radius=10,
                        center=dict(lat=0, lon=180), zoom=0,
                        mapbox_style="stamen-terrain")
fig.show()

Acima é apresentado o mapa da alemanha, destacando as cidades com maior concentração de imóveis para alugar. O TOP 3 cidades com maior quantidade de imóveis são *Dortmund*, *Rhein Pfalz Kreis* e *Dresden*.