# Data Cleaning

### Libraries

In [None]:
import pandas as pd
import numpy as np
import re

### Data import

In [None]:
r = pd.read_csv('ristoranti_comuni.csv')

In [None]:
r = r.drop('Unnamed: 0', axis=1)

### Data understanding

In [None]:
r.head()

Unnamed: 0,name,url,rating,price,address,contact
0,Bar Pasticceria Marika,https://www.tripadvisor.it/Restaurant_Review-g...,35,€€-€€€,"Corso Milano, 17, 24020 Selvino Italia",+39 393 250 5982
1,Ristorante Sorriso,https://www.tripadvisor.it/Restaurant_Review-g...,45,€€€€,"Via Talpino 79, 24020 Selvino Italia",+39 035 763104
2,Pizzeria Birreria Roma,https://www.tripadvisor.it/Restaurant_Review-g...,35,€€-€€€,"Via Monte Alben, 13, 24020 Selvino Italia",+39 035 763012
3,Ca' di Bore,https://www.tripadvisor.it/Restaurant_Review-g...,40,€€-€€€,"Via Cantul 38, 24020 Aviatico Italia",+39 035 779167
4,A Casa del Contadino,https://www.tripadvisor.it/Restaurant_Review-g...,40,€,"Corso Milano, 91, 24020 Selvino Italia",+39 035 764202


In [None]:
r.shape

(1003, 6)

In [None]:
r.dtypes

name       object
url        object
rating     object
price      object
address    object
contact    object
dtype: object

### Cleaning

Remove duplicated rows

In [None]:
# count duplicates
r.duplicated().sum()

104

In [None]:
# remove duplicates
r = r.loc[~r.duplicated()]

In [None]:
r = r.reset_index(drop=True)

Look for null values (note that the scraping code placed the string 'sconosciuto' inplace of missing values).

In [None]:
r.eq('sconosciuto').sum()

name       0
url        0
rating     0
price      0
address    0
contact    0
dtype: int64

#### Address

Create new columns 'comune', 'via' and 'CAP' by splitting the 'address' column.

In [None]:
r['address']=r['address'].str.replace(',','')

In [None]:
r[['via', 'CAP', 'comune']] = r['address'].apply(lambda x: pd.Series(re.split(r'(\b\d{5}\b)', x)[0:3]))


In [None]:
r = r.drop('address', axis=1)

In [None]:
r.head()

Unnamed: 0,name,url,rating,price,contact,via,CAP,comune
0,Bar Pasticceria Marika,https://www.tripadvisor.it/Restaurant_Review-g...,35,€€-€€€,+39 393 250 5982,Corso Milano 17,24020,Selvino Italia
1,Ristorante Sorriso,https://www.tripadvisor.it/Restaurant_Review-g...,45,€€€€,+39 035 763104,Via Talpino 79,24020,Selvino Italia
2,Pizzeria Birreria Roma,https://www.tripadvisor.it/Restaurant_Review-g...,35,€€-€€€,+39 035 763012,Via Monte Alben 13,24020,Selvino Italia
3,Ca' di Bore,https://www.tripadvisor.it/Restaurant_Review-g...,40,€€-€€€,+39 035 779167,Via Cantul 38,24020,Aviatico Italia
4,A Casa del Contadino,https://www.tripadvisor.it/Restaurant_Review-g...,40,€,+39 035 764202,Corso Milano 91,24020,Selvino Italia


In [None]:
# delete 'Italia' from the city name
r['comune']=r['comune'].str.replace(' Italia', '')

In [None]:
# remove the restaurants in Switzerland
r = r[~r['via'].str.contains('Svizzera')]

In [None]:
# sottoinsieme delle righe per cui non è presente il CAP nell'indirizzo
righe_cap_nullo = r[r['CAP'].isna()]

In [None]:
len(righe_cap_nullo['via'].unique())

66

In [None]:
comuni_distinct = r['comune'].unique().tolist()

In [None]:
comuni_distinct = list(filter(lambda x: not pd.isna(x), comuni_distinct))


In [None]:
comuni_distinct = list(filter(lambda x: x != "", comuni_distinct))


In [None]:
comuni_distinct = list(filter(lambda x: x != " ", comuni_distinct))

In [None]:
comuni_distinct

[' Selvino',
 ' Aviatico',
 ' Bergamo',
 ' Zogno',
 ' Foresto Sparso',
 ' Costa di Serina',
 ' Algua',
 ' Nembro',
 ' Gazzaniga',
 ' Ponte di Legno',
 ' Temù',
 ' Villa Dalegno Temù',
 ' Piazzatorre',
 ' Santa Brigida',
 ' Olmo al Brembo',
 ' Mezzoldo',
 ' Branzi',
 ' Piazza Brembana',
 ' Morbegno',
 ' Pian delle Betulle Margno',
 ' Crandola Valsassina',
 ' Casargo',
 ' Livigno',
 ' Margno',
 ' Breno',
 ' Niardo',
 ' Clusone',
 ' Sellero',
 ' Pisogne',
 ' Piancogno',
 ' Moggio',
 ' Cassina Valsassina',
 ' Barzio',
 ' Piani di Artavaggio',
 " Monticelli d'Ongina",
 ' Foppolo',
 ' San Pellegrino Terme',
 ' Valleve',
 ' Isola di Fondra',
 ' Bracca',
 " Moio de' Calvi",
 ' Valnegra',
 ' Camerata Cornello',
 ' Lenna',
 ' Edolo',
 ' Passo del Tonale',
 ' Sonico',
 ' Vione',
 ' Bagolino',
 ' Ponte Caffaro Bagolino',
 ' Anfo',
 ' Trento',
 ' Bardolino',
 ' Vestone',
 ' Parona Verona',
 ' Salò',
 ' Ospitaletto',
 ' Orzinuovi',
 ' Lovere',
 ' Cologne',
 ' Chiesa In Valmalenco',
 ' San Giuseppe C

In [None]:
for index, riga in righe_cap_nullo.iterrows():
    via = riga['via']

    # Verifica se 'via' contiene uno dei comuni
    for comune in comuni_distinct:
        if comune in via:
            # Splitta 'via' in corrispondenza del nome del comune cercando la corrispondenza da destra
            corrispondenze = re.findall(r'^(.*?)(\b{}\b.*)$'.format(re.escape(comune)), via)

            if corrispondenze:
                parte_con_comune = corrispondenze[0][1].strip()
                parte_senza_comune = corrispondenze[0][0].strip()

                # Aggiorna i valori nella colonna 'comune' e 'via' del DataFrame 'r'
                r.at[index, 'comune'] = parte_con_comune
                r.at[index, 'via'] = parte_senza_comune

In [None]:
r.loc[r['CAP'].isna(), 'comune'].unique()

array(['Ponte di Legno Italia', 'Piazzatorre Italia', 'Margno Italia',
       'Moggio Italia', 'Cremeno Italia', 'Cassina Valsassina Italia',
       'Carona Italia', 'Valleve Italia', 'Lenna Italia', 'Branzi Italia',
       'Temù Italia', 'Bagolino Italia', 'Chiesa In Valmalenco Italia',
       'Caspoggio Italia', 'Pisogne Italia', 'Lovere Italia',
       'Lanzada Italia', 'Campodolcino Italia', nan, 'Brescia Italia',
       'Montecampione Artogne Italia', 'Artogne Italia', 'Aprica Italia',
       'Valfurva Italia', 'San Pellegrino Terme Italia', 'Barzio Italia',
       'San Giovanni Bianco Italia', 'Valdisotto Italia',
       'San Colombano Tel 3289145398 Valdisotto Italia', 'Lecco Italia',
       'Bormio Italia', 'Capriano del Colle Italia',
       'Oltre il Colle Italia', 'Madesimo Italia', 'Songavazzo Italia',
       'Corteno Golgi Italia', 'Valdidentro Italia', 'Valbondione Italia',
       'Collio Italia', 'Mapello Italia',
       'Castione della Presolana Italia'], dtype=object)

In [None]:
for index, riga in righe_cap_nullo.iterrows():
    comune = riga['comune']

    # Cerca il CAP nelle righe con lo stesso comune
    righe_stesso_comune = r[r['comune'] == comune]
    cap_stesso_comune = righe_stesso_comune['CAP'].dropna()

    if not cap_stesso_comune.empty:
        # Copia il CAP dalla prima riga con lo stesso comune
        cap_copiato = cap_stesso_comune.iloc[0]

        # Aggiorna il valore nella colonna 'CAP' del DataFrame 'r'
        r.at[index, 'CAP'] = cap_copiato

In [None]:
r['comune']=r['comune'].str.replace(' Italia', '')

__contact__

In [None]:
# delete spaces from tel. numbers and replace non-numerical strings with empty string
r['contact']=r['contact'].str.replace(' ','')
r['contact'] = r['contact'].apply(lambda x: np.nan if not re.search(r'\d',x) else x)

__rating__

Per controllo diretto, risulta che i ristoranti con rating = -1,0 sono quelli con zero recensioni.

In [None]:
r['rating'].unique()

array(['3,5', '4,5', '4,0', '3,0', '-1,0', '2,5', '5,0', '2,0', '1,5',
       '1,0'], dtype=object)

In [None]:
r.loc[r['rating']=='-1,0']

Unnamed: 0,name,url,rating,price,contact,via,CAP,comune
23,Bar Station Selvino,https://www.tripadvisor.it/Restaurant_Review-g...,-10,€,3903519837293.0,Via Enea Talpino 20 Ip Benzinaio,24020.0,Selvino
77,Pizzeria La Barbolena,https://www.tripadvisor.it/Restaurant_Review-g...,-10,Italiana,,Localita Pian delle Betulle,,Margno
95,I Portici Griglieria Pizzeria,https://www.tripadvisor.it/Restaurant_Review-g...,-10,Pizza,390364088059.0,Via Canevali 14,25043.0,Breno
330,Carona (val Carisole),https://www.tripadvisor.it/Restaurant_Review-g...,-10,Italiana,393288142888.0,Val Carisole,,Carona
554,GiboGel,https://www.tripadvisor.it/Restaurant_Review-g...,-10,€,393407865285.0,Via Vittorio Veneto 20 Presso centro commercia...,24060.0,Rogno


In [None]:
# replace -1,0 ratings with NaN
r['rating']=r['rating'].replace('-1,0', np.nan)

# replace ',' with '.' and convert str to float. empty str are set to NaN
r['rating']=r['rating'].str.replace(',','.')
r['rating'] = pd.to_numeric(r['rating'], errors='coerce')

__price__

In [None]:
r['price'].unique()

array(['€€-€€€', '€€€€', '€', 'Pizza', 'Pasticcerie e gelaterie',
       'Italiana', 'Pub', 'Lombarda', 'Italiana (nord)', 'Bar', 'Forni'],
      dtype=object)

In [None]:
# replace wrong istances with NaN
r['price'] = np.where(r['price'].str.contains('€'), r['price'], np.nan)

In [None]:
r['price']

0      €€-€€€
1        €€€€
2      €€-€€€
3      €€-€€€
4           €
        ...  
894      €€€€
895       NaN
896    €€-€€€
897         €
898    €€-€€€
Name: price, Length: 884, dtype: object

Possible outcomes of 'price' variable are: € = 'cibo economico', €€-€€€ = 'fascia media',
                                           €€€€ = 'cucina raffinata'

In [None]:
# change the values of 'price' variable with coresponding description
r['price'] = r['price'].replace({'€': 'cibo economico',
                                  '€€-€€€': 'fascia media',
                                  '€€€€': 'cucina raffinata'})

## Data Export

In [None]:
r.to_csv('ristoranti_tripadvisor.csv', index = False)

In [None]:
r.to_excel('ristoranti_tripadvisor.xlsx', index = False)