# Ispezione Dataset Airbnb Napoli
Questo notebook analizza il file `raw_Airbnb_Napoli.csv` concentrandosi sulla qualità dei dati e sulle caratteristiche principali det dataset.


In [57]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Caricamento del Dataset


In [58]:
try:
    df = pd.read_csv('csv/raw_Airbnb_Napoli.csv')
    print('Dataset caricato con successo!')
    pd.set_option('display.max_columns', None)
    pd.set_option('display.max_rows', None)
except FileNotFoundError:
    print('Errore: Il file raw_Airbnb_Napoli.csv non è stato trovato.')


Dataset caricato con successo!


## Panoramica Strutturale
Verifichiamo i tipi di dato e le dimensioni del dataframe.


In [59]:
df.info()


<class 'pandas.DataFrame'>
RangeIndex: 10972 entries, 0 to 10971
Data columns (total 79 columns):
 #   Column                                        Non-Null Count  Dtype  
---  ------                                        --------------  -----  
 0   id                                            10972 non-null  int64  
 1   listing_url                                   10972 non-null  str    
 2   scrape_id                                     10972 non-null  int64  
 3   last_scraped                                  10972 non-null  str    
 4   source                                        10972 non-null  str    
 5   name                                          10972 non-null  str    
 6   description                                   10759 non-null  str    
 7   neighborhood_overview                         4596 non-null   str    
 8   picture_url                                   10972 non-null  str    
 9   host_id                                       10972 non-null  int64  
 1

## Analisi dei Dati Mancanti
Calcolo il numero totale e la percentuale di valori nulli per ogni colonna.


In [None]:
missing = df.isnull().sum()
missing_percent = (df.isnull().sum() / len(df)) * 100

missing_df = pd.DataFrame({
    'Missing Values': missing,
    'Percentage': missing_percent
})

missing_df = missing_df[missing_df['Missing Values'] > 0].sort_values(by='Percentage', ascending=False)
display(missing_df)


Unnamed: 0,Missing Values,Percentage
neighbourhood_group_cleansed,10972,100.0
calendar_updated,10972,100.0
host_neighbourhood,10799,98.423259
host_about,6913,63.005833
neighborhood_overview,6376,58.111557
neighbourhood,6376,58.111557
host_location,3806,34.688297
host_response_time,2679,24.416697
host_response_rate,2679,24.416697
review_scores_checkin,2521,22.976668


## Conteggio valori unici
Per le variabili categoriche, vado a vedere quali sono le diverse categorie e quanti record sono presenti per categoria

In [61]:
if 'host_response_time' in df.columns:
    print('Conteggio valori unici per Host Response Time:')
    print(df['host_response_time'].value_counts(dropna=False))
    
else:
    print('La colonna host_response_time non è presente nel dataset.')


Conteggio valori unici per Host Response Time:
host_response_time
within an hour        7109
NaN                   2679
within a few hours     635
within a day           367
a few days or more     182
Name: count, dtype: int64


In [62]:
if 'room_type' in df.columns:
    print('Conteggio valori unici per Room Type:')
    print(df['room_type'].value_counts(dropna=False))
    
else:
    print('La colonna room_type non è presente nel dataset.')

Conteggio valori unici per Room Type:
room_type
Entire home/apt    6784
Private room       4028
Hotel room          113
Shared room          47
Name: count, dtype: int64


In [None]:
if 'neighbourhood_cleansed' in df.columns:
    print('Conteggio valori unici per Neighbourhood Cleansed:')
    print(df['neighbourhood_cleansed'].value_counts(dropna=False))
    
else:
    print('La colonna neighbourhood_cleansed non è presente nel dataset.')

Conteggio valori unici per Room Type:
neighbourhood_cleansed
San Lorenzo                2038
Pendino                    1049
San Ferdinando              994
Montecalvario               850
Chiaia                      837
Avvocata                    685
San Giuseppe                635
Porto                       628
Stella                      554
San Carlo all'Arena         477
Vomero                      436
Vicaria                     359
Fuorigrotta                 221
Zona Industriale            211
Arenella                    210
Mercato                     203
Posillipo                   163
Poggioreale                  92
Bagnoli                      78
Secondigliano                56
San Giovanni a Teduccio      44
Ponticelli                   31
San Pietro a Patierno        29
Chiaiano                     19
Piscinola                    19
Barra                        18
Soccavo                      17
Pianura                      10
Miano                         6
Scampia    

## Valori massimi
Calcolo il numero di record con prezzo maggiore

In [None]:
df['price_numeric'] = df['price'].replace(r'[^\d.]', '', regex=True).astype(float)

outliers_estremi = df[df['price_numeric'] > 1000] # Prezzo maggiore di x (in questo caso 1000)

count = len(outliers_estremi)
print(f"Numero di record con prezzo superiore a 1000€: {count}")

Numero di record con prezzo superiore a 1000€: 77
