#  Airbnb a Berlino
### *Data processing e exploratory data analytics sulle attività di Airbnb a Berlino.*
Airbnb è un portale online che mette in contatto persone in cerca di un alloggio o di una camera per brevi periodi,
con persone che dispongono di uno spazio extra da affittare, generalmente privati.

Ad oggi Airbnb offre alloggi in oltre **26.000 città** in **192 paesi** con più di **10 milioni di notti prenotate**
in tutto il mondo. <br>
Gli annunci includono sistemazioni quali stanze private, interi appartamenti, castelli e ville,
ma anche barche, baite, case sugli alberi, igloo, isole private e qualsiasi altro tipo di alloggio.
<br>
Per questa esercitazione di Big Data analizzeremo come Airbnb si sia insediato nel settore dell'ospitalità e in
particolare a __Berlino__, uno dei mercati più caldi per Airbnb in Europa, con oltre 22.552 annunci a novembre 2018.
<br>
I dati utilizzati per questa esercitazione sono stati estratti nel __2018__ e contengono dati su:
- __listing__: dati su gli annunci a Berlino;
- __listing_summary__: dati aggiuntive riguardo gli annunci;
- __calendar_summary__: dati dettagliati del calendario per le inserzioni a Berlino.

<br>
Il dataset è disponibile al seguente sito: https://www.kaggle.com/brittabettendorf/berlin-airbnb-data

## Importiamo i pacchetti necessari per questa esercitazione.

In [1]:
import pandas as pd
pd.__version__

'1.2.0'

## 1 Il dataset

Il dataset è composto da 7 file.<br>
L'identificatore univoco nel set di dati è l'__id__ di __*listing*__,
che sostanzialmente è l'id relativo all'annuncio.

In [2]:
import os
print(os.listdir('airbnbDataset'))

['reviews.csv', 'neighbourhoods.csv', 'listings.csv', 'calendar_summary.csv', 'reviews_summary.csv', 'listings_summary.csv']


In [9]:
listing = pd.read_csv('airbnbDataset/listings.csv', index_col='id')
listing_summary = pd.read_csv('airbnbDataset/listings_summary.csv', index_col='id')
calendar = pd.read_csv('airbnbDataset/calendar_summary.csv', index_col=['listing_id'])
reviews_summary = pd.read_csv('airbnbDataset/reviews_summary.csv', index_col=['date'])

### 1.2 Verifichiamo le dimensioni del dataframe listing

In [10]:
print(listing.shape)

(22552, 15)


### 1.3 Verifichiamo le colonne che compongono il dataframe listing

In [11]:
print(listing.columns)

Index(['name', 'host_id', 'host_name', 'neighbourhood_group', 'neighbourhood',
       'latitude', 'longitude', 'room_type', 'price', 'minimum_nights',
       'number_of_reviews', 'last_review', 'reviews_per_month',
       'calculated_host_listings_count', 'availability_365'],
      dtype='object')


### 1.4 Verifichiamo le dimensioni del dataframe listing_summary

In [13]:
print(listing_summary.shape)
print(listing_summary.columns)

(22552, 95)
Index(['listing_url', 'scrape_id', 'last_scraped', 'name', 'summary', 'space',
       'description', 'experiences_offered', 'neighborhood_overview', 'notes',
       'transit', 'access', 'interaction', 'house_rules', 'thumbnail_url',
       'medium_url', 'picture_url', 'xl_picture_url', 'host_id', 'host_url',
       'host_name', 'host_since', 'host_location', 'host_about',
       'host_response_time', 'host_response_rate', 'host_acceptance_rate',
       'host_is_superhost', 'host_thumbnail_url', 'host_picture_url',
       'host_neighbourhood', 'host_listings_count',
       'host_total_listings_count', 'host_verifications',
       'host_has_profile_pic', 'host_identity_verified', 'street',
       'neighbourhood', 'neighbourhood_cleansed',
       'neighbourhood_group_cleansed', 'city', 'state', 'zipcode', 'market',
       'smart_location', 'country_code', 'country', 'latitude', 'longitude',
       'is_location_exact', 'property_type', 'room_type', 'accommodates',
       'bathr

Il dataframe *listing_summary* contiene 95 variabili. Per questa esercitazione terrò solo le variabili che ho ritenuto
utili alla fase successiva di exploratory data analysis.

In [None]:
target_columns = ["property_type", "accommodates", "first_review", "review_scores_value", "review_scores_cleanliness", "review_scores_location", "review_scores_accuracy", "review_scores_communication", "review_scores_checkin", "review_scores_rating", "maximum_nights", "listing_url", "host_is_superhost", "street",  "market"]
listing = pd.merge(listing, listing_summary[target_columns], on='id', how='left')
listing.info()

Possiamo notare come il dataframe possega la quasi totatilà delle informazioni.<br>
Non è quindi necessaria una fase di "pulizia" del dataframe dalle colonne inutili. <br>
Procediamo con le fasi successive.
