In [1]:
import pandas as pd
from data_cleaning_util import *

# Dataset itineraries-Caserta

In [2]:
itineraries_caserta_df = pd.read_csv('../Dataset/itineraries-Caserta.csv')

In [3]:
itineraries_caserta_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 16 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Nome                          31 non-null     object
 1   Comune                        31 non-null     object
 2   Località                      31 non-null     object
 3   Via                           30 non-null     object
 4   Tipologia                     31 non-null     object
 5   Secolo di costruzione         30 non-null     object
 6   Anno prima attestazione       27 non-null     object
 7   Itinerario (periodo)          31 non-null     object
 8   Stile                         28 non-null     object
 9   Informazioni                  31 non-null     object
 10  Geolocalizzazione             31 non-null     object
 11  URL Immagine                  31 non-null     object
 12  Bibliografia                  31 non-null     object
 13  Sitografia            

In [4]:
itineraries_caserta_df.head(5)

Unnamed: 0,Nome,Comune,Località,Via,Tipologia,Secolo di costruzione,Anno prima attestazione,Itinerario (periodo),Stile,Informazioni,Geolocalizzazione,URL Immagine,Bibliografia,Sitografia,Rifunzionalizzato,Tipo di Rifunzionalizzazione
0,Monumento ai caduti Caserta,Caserta,Monumento,Corso Trieste,Monumento commemorativo,XX,1936,Contemporaneo,,è un arco di trionfo in marmo bianco fatto cos...,"41.071628, 14.341678",Non disponibile,Non disponibile,http://www.pietredellamemoria.it/pietre/monume...,No,Nessuno
1,Monumento Luigi Vanvitelli,Caserta,Statua,Piazza Vanvitelli,Statua commemorativa,XX,1973,Contemporaneo,Contemporaneo,"Si erge in piazza vanvitelli, con un'incisione...",Longitudine:,https://upload.wikimedia.org/wikipedia/commons...,Non disponibile,http://www.campaniailoveyou.com/it/citta/caser...,No,Nessuno
2,Cattedrale San Michele Arcangelo,Caserta,Cattedrale,Piazza Duomo,Edificio religioso,XIX,1842,Contemporaneo,Vanvitelliano,La facciata principale è caratterizzata da un'...,14.34165359,Non disponibile,Non disponibile,https://it.wikipedia.org/wiki/Cattedrale_di_Sa...,No,Nessuno
3,Parrocchia Buon Pastore,Caserta,Chiesa,Piazza Pitesti,Edificio Religioso,XXI,Non disponibile,Contemporaneo,Contemporaneo,Chiesa evangelica che sorge nel cuore di Piazz...,"41.080138149999996,14.34258052057184",Non disponibile,Non disponibile,http://www.buonpastorecaserta.it/orari.htm,No,Nessuno
4,Monumento ai Garibaldini,Santa Maria Capua Vetere,Monumento,Villa Comunale,Monumento Commemorativo,XIX,1889,Contemporaneo,Contemporaneo,Pochi giorni dopo la liberazione di Capua dai ...,"41.08502085000001,14.25675610539424",Non disponibile,Non disponibile,https://it.wikipedia.org/wiki/Monumento_ai_Gar...,No,Nessuno


In [5]:
print(f"Number of columns {len(itineraries_caserta_df.columns)}\n{itineraries_caserta_df.columns})")

Number of columns 16
Index(['Nome', 'Comune', 'Località', 'Via', 'Tipologia',
       'Secolo di costruzione', 'Anno prima attestazione',
       'Itinerario (periodo)', 'Stile', 'Informazioni', 'Geolocalizzazione',
       'URL Immagine', 'Bibliografia', 'Sitografia', 'Rifunzionalizzato',
       'Tipo di Rifunzionalizzazione'],
      dtype='object'))


## Correction to do:

1. Name - Nome - keep it as String. Extra spaces might be removed in the data cleansing phase
2. Municipality - Comune - align it with official municipality names (e.g., https://www.istat.it/storage/codici-unita-amministrative/Elenco-comuni-italiani.xls)
3. Location/Building type - Località - check value consistency
4. Address - Via - split it on multiple columns reporting (zip code, street, municipality, country, etc.)
5. Building category/type - Tipologia - check value consistency
6. Building century - Secolo di costruzione - replace empty values with NULL
7. First year certification - Anno prima attestazione - replace NON DISPONIBILE/empty values with NULL
8. Itinerary period - Itinerario (periodo) - check value consistency
9. Style - Stile - check value consistency + replace empty values with NULL
10. Details - Informazioni - replace NON DISPONIBILE/empty values with NULL + clean values (e.g., numbers)
11. Localization - Geolocalizzazione - consider the possibility to split it in longitude and latitude + replace NON DISPONIBILE/empty values with NULL + check suspicious values
12. Image - URL Immagine -  replace NON DISPONIBILE/empty values with NULL 
13. Bibliography - Bibliography -  replace NON DISPONIBILE/empty values with NULL 
14. Site - Sitografia -  replace NON DISPONIBILE/empty values with NULL 
15. Novel usage - Rifunzionalizzato -  check value consistency + replace empty values with NULL
16. Usage type - Tipo di Rifunzionalizzazione -  replace NESSUNO/empty values with NULL

### Fill Na with NULL

In [6]:
itineraries_caserta_df = itineraries_caserta_df.fillna(NULL_VALUE)

### 1. Name - Nome - keep it as String. Extra spaces might be removed in the data cleansing phase


In [7]:
itineraries_caserta_df['Nome'] = itineraries_caserta_df['Nome'].apply(lambda x: remove_extra_spaces(x))
itineraries_caserta_df['Nome'] = itineraries_caserta_df['Nome'].replace(to_replace=["Statua dell' Agricoltura"], value="Statua dell'Agricoltura")
itineraries_caserta_df['Nome'].value_counts().sort_index()

Basilica Del Corpus Domini             1
Cappella di San Rocco                  1
Casa del fascio                        1
Cattedrale San Michele Arcangelo       1
Chiesa Santa Maria Dell'Agnana         1
Chiesa di San Ferdinando Re            1
Chiesa di San Luca Evangelista         1
Chiesa di Sant'Antonio di Padova       1
Complesso monumentale di San Leucio    1
Convitto Nazione Giordano Bruno        1
Le Madonelle                           1
Mausoleo dei 54 Martiri                1
Monumento Luigi Vanvitelli             1
Monumento a Domenico Cimarosa          1
Monumento a Pietro Rosano              1
Monumento ai Caduti In Guerra          1
Monumento ai Caduti di Capua           1
Monumento ai Garibaldini               1
Monumento ai caduti Caserta            1
Monumento ai fratelli De Simone        1
Monumento al milite Ignoto             1
Parrocchia Buon Pastore                1
Real Convitto Borbonico                1
Reale Tenuta Carditello                1
Santuario di San

### 2. Municipality - Comune - align it with official municipality names

In [8]:
itineraries_caserta_df['Comune'] = itineraries_caserta_df['Comune'].str.replace("San Leucio", "Caserta", regex=False)
itineraries_caserta_df['Comune'] = itineraries_caserta_df['Comune'].apply(lambda x: municipality_alignment(comune=x,\
                                                                                comuni_istat_ita_list=comuni_istat_ita_list,\
                                                                                comuni_istat_altra_lingua_list=comuni_istat_altra_lingua_list,\
                                                                                comuni_istat_ita_e_straniero_list=comuni_istat_ita_e_straniero_list,\
                                                                                null_value=NULL_VALUE, \
                                                                                max_levenshtein_distance=2))

itineraries_caserta_df['Comune'].value_counts().sort_index()

Corrected comune San Nicola La Strada to San Nicola la Strada
Corrected comune San Nicola La Strada to San Nicola la Strada


Aversa                      3
Bellona                     1
Capua                       2
Casapulla                   1
Caserta                     9
Castel Volturno             1
Maddaloni                   3
Marcianise                  2
Orta di Atella              1
San Nicola la Strada        2
San Prisco                  1
San Tammaro                 1
Santa Maria Capua Vetere    3
Vitulazio                   1
Name: Comune, dtype: int64

### 3. Location/Building type - Località - check value consistency

In [9]:
itineraries_caserta_df['Località'] = itineraries_caserta_df['Località'].str.replace("Monumenti", "Monumento", regex=False)
itineraries_caserta_df['Località'] = itineraries_caserta_df['Località'].str.replace("/", " / ", regex=False)
itineraries_caserta_df['Località'] = itineraries_caserta_df['Località'].apply(lambda x: remove_extra_spaces(x))
itineraries_caserta_df['Località'] = itineraries_caserta_df['Località'].str.title()
itineraries_caserta_df['Località'].value_counts().sort_index()

Basilica                    1
Cattedrale                  1
Chiesa                      6
Monumento                  13
Orfanotrofio / Convento     1
Sala Conferenze             1
Santuario                   1
Scuola                      1
Statua                      3
Teatro                      2
Torre                       1
Name: Località, dtype: int64

### 4. Address - Via - split it on multiple columns reporting (zip code, street, municipality, country, etc.)

In [10]:
itineraries_caserta_df['Via'] = itineraries_caserta_df['Via'].str.replace(".", ". ", regex=False)
itineraries_caserta_df['Via'] = itineraries_caserta_df['Via'].apply(lambda x: remove_extra_spaces(x))
itineraries_caserta_df['Via'] = itineraries_caserta_df['Via'].str.title()
itineraries_caserta_df['Via'] = itineraries_caserta_df['Via'].str.replace(NULL_VALUE.title(), NULL_VALUE, regex=False)
itineraries_caserta_df['Via'].value_counts().sort_index()

Belvedere Di San Leucio                            1
Corso Garibaldi                                    1
Corso Giannone                                     1
Corso Trieste                                      1
Incrocio Tra Via Giuseppe Sirtori E Via Uccella    1
Largo Porta Napoli                                 1
NULL                                               1
Piazza Carità                                      2
Piazza De Sivo                                     1
Piazza Della Vittoria                              1
Piazza Duomo                                       1
Piazza Matteotti                                   1
Piazza Mazzini                                     1
Piazza Municipio                                   1
Piazza Pitesti                                     1
Piazza Vanvitelli                                  1
Sp229                                              1
Via 54 Martiri                                     1
Via Appia                                     

In [11]:
temp_separator = ";;"
itineraries_caserta_df['Temp'] = itineraries_caserta_df['Comune'].apply(lambda x: temp_separator.join(getAddressInfo(comune=map_comune_to_elenco_comuni_cap(x), elenco_comuni_cap=elenco_comuni_cap)))
itineraries_caserta_df[['Cap','Provincia','Regione']] = itineraries_caserta_df.Temp.str.split(temp_separator, expand=True)
itineraries_caserta_df = itineraries_caserta_df.drop(['Temp'], axis=1)

itineraries_caserta_df.drop_duplicates(subset = ['Via', 'Cap','Provincia','Regione'])[['Via', 'Cap','Provincia','Regione']]


Unnamed: 0,Via,Cap,Provincia,Regione
0,Corso Trieste,81100,CE,Campania
1,Piazza Vanvitelli,81100,CE,Campania
2,Piazza Duomo,81100,CE,Campania
3,Piazza Pitesti,81100,CE,Campania
4,Villa Comunale,81055,CE,Campania
5,Via Appia,81020,CE,Campania
6,Corso Giannone,81100,CE,Campania
7,Belvedere Di San Leucio,81100,CE,Campania
8,Sp229,81050,CE,Campania
9,Via Atrio Superiore,81100,CE,Campania


### 5. Building category/type - Tipologia - check value consistency

In [12]:
itineraries_caserta_df['Tipologia'] = itineraries_caserta_df['Tipologia'].str.title()
itineraries_caserta_df['Tipologia'] = itineraries_caserta_df['Tipologia'].str.replace("Statua Commemorativo", "Statua Commemorativa", regex=False)

itineraries_caserta_df['Tipologia'].value_counts().sort_index()

Complesso Monumentale       1
Edificio Cittadino          4
Edificio Religioso         11
Ex Edificio Cittadino       1
Monumento                   1
Monumento Commemorativo     2
Statua                      3
Statua Commemorativa        8
Name: Tipologia, dtype: int64

### 6. Building century - Secolo di costruzione - replace empty values with NULL

In [13]:
itineraries_caserta_df['Secolo di costruzione'].value_counts().sort_index()

NULL      1
XIX       8
XVII      1
XVIII     7
XX       12
XXI       2
Name: Secolo di costruzione, dtype: int64

### 7. First year certification - Anno prima attestazione - replace NON DISPONIBILE/empty values with NULL

In [14]:
itineraries_caserta_df['Anno prima attestazione'] = itineraries_caserta_df['Anno prima attestazione'].replace(to_replace=["anni 2000", "Non disponibile"], value=NULL_VALUE)
itineraries_caserta_df['Anno prima attestazione'].value_counts().sort_index()

1766    1
1774    1
1776    1
1778    1
1779    1
1781    1
1807    1
1837    1
1842    1
1877    2
1889    1
1890    1
1907    1
1925    1
1929    2
1933    1
1936    2
1937    1
1943    1
1957    1
1973    1
1977    1
NULL    6
Name: Anno prima attestazione, dtype: int64

### 8. Itinerary period - Itinerario (periodo) - check value consistency

In [15]:
itineraries_caserta_df['Itinerario (periodo)'] = itineraries_caserta_df['Itinerario (periodo)'].str.replace("Contemporanea", "Contemporaneo", regex=False)
itineraries_caserta_df['Itinerario (periodo)'].value_counts().sort_index()

Contemporaneo    31
Name: Itinerario (periodo), dtype: int64

### 9. Style - Stile - check value consistency + replace empty values with NULL

In [16]:
itineraries_caserta_df['Stile'] = itineraries_caserta_df['Stile'].str.replace("Post- Vanvitelliano", "Post-Vanvitelliano", regex=False)
itineraries_caserta_df['Stile'].value_counts().sort_index()

Contemporaneo            21
Fascista                  1
Moderno                   1
NULL                      3
Post-Vanvitelliano        2
Vanvitelliana/Barocca     1
Vanvitelliano             2
Name: Stile, dtype: int64

### 10. Details - Informazioni - replace NON DISPONIBILE/empty values with NULL + clean values (e.g., numbers)

In [17]:
itineraries_caserta_df['Informazioni'] = itineraries_caserta_df['Informazioni'].str.capitalize()
itineraries_caserta_df['Informazioni'] = itineraries_caserta_df['Informazioni'].replace(to_replace=["Non disponibile", "0", NULL_VALUE.capitalize()], value=NULL_VALUE)
itineraries_caserta_df['Informazioni'].value_counts().sort_index()

A san nicola la strada,precisamente a via appia,si trovano delle nicchiette incastonate nel muro con all'interno 2 statue raffiguranti la madonna di lourdes e santa bernadette.fu realizzata dai padri passionistiin occasione della loro visita missionaria a san nicola la strada.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   

### 11. Localization - Geolocalizzazione - consider the possibility to split it in longitude and latitude + replace NON DISPONIBILE/empty values with NULL + check suspicious values

In [18]:
temp_separator = ";;"
itineraries_caserta_df['Temp'] = itineraries_caserta_df['Geolocalizzazione'].apply(lambda x: temp_separator.join(float_tuple_to_string_list(get_latitude_longitude(string=x, null_value=NULL_VALUE))))
itineraries_caserta_df[['Latitude', 'Longitude']] = itineraries_caserta_df.Temp.str.split(temp_separator, expand=True)
itineraries_caserta_df = itineraries_caserta_df.drop(['Temp'], axis=1)

itineraries_caserta_df.drop_duplicates(subset = ['Latitude', 'Longitude'])[['Latitude', 'Longitude']]

<class 'float'>


Unnamed: 0,Latitude,Longitude
0,41.071628,14.341678
1,,
3,41.08013815,14.34258052057184
4,41.08502085000001,14.25675610539424
6,41.078009,14.331391
7,41.100979,14.316991
8,41.061723,14.190023
9,41.1117444,14.3055103
10,41.053558588027954,14.331983216106892
11,41.0759235,14.335545242500494


### 12. Image - URL Immagine -  replace NON DISPONIBILE/empty values with NULL 

In [19]:
itineraries_caserta_df['URL Immagine'] = itineraries_caserta_df['URL Immagine'].replace(to_replace=["Non disponibile"], value=NULL_VALUE)
itineraries_caserta_df['URL Immagine'].value_counts().sort_index()

NULL                                                                                     28
https://commons.wikimedia.org/wiki/File:Monumento_Cimarosa.png                            1
https://commons.wikimedia.org/wiki/File:Teatro_Garibaldi_SMCV.jpg                         1
https://upload.wikimedia.org/wikipedia/commons/b/b1/Statua_Vanvitelli_Caserta_f01.jpg     1
Name: URL Immagine, dtype: int64

### 13. Bibliography - Bibliography -  replace NON DISPONIBILE/empty values with NULL 

In [20]:
itineraries_caserta_df['Bibliografia'] = itineraries_caserta_df['Bibliografia'].replace(to_replace=["Non dispnibile", "Non disponbile", "Non disponibile"], value=NULL_VALUE)
itineraries_caserta_df['Bibliografia'].value_counts().sort_index()

* Alberto Cogoni. San Salvatore da Horta. La grandezza dei piccoli. Cagliari, Edizioni della Torre, 2002. ISBN 8873433561     1
NULL                                                                                                                         30
Name: Bibliografia, dtype: int64

### 14. Site - Sitografia -  replace NON DISPONIBILE/empty values with NULL

In [21]:
itineraries_caserta_df['Sitografia'].value_counts().sort_index()

NULL                                                                                                                                        2
http://digilander.libero.it/ofsortadiatella/il_santuario_di_san_salvatore_da_horta.html                                                     1
http://www.buonpastorecaserta.it/orari.htm                                                                                                  1
http://www.campaniailoveyou.com/it/citta/caserta/architettura-casertana/monumento-a-luigi-vanvitelli-167.html                               1
http://www.comune.castelvolturno.ce.it/index.php?option=com_content&view=article&id=41:cappella-di-san-rocco&catid=25&Itemid=170            1
http://www.comunedipignataro.it/?p=26874                                                                                                    1
http://www.corrieredisannicola.it/arte-cultura-e-spettacoli/notizie/arte-cultura-e-spettacoli/la-lourdes-di-via-appia                       1
http:/

### 15. Novel usage - Rifunzionalizzato -  check value consistency + replace empty values with NULL

In [22]:
itineraries_caserta_df['Rifunzionalizzato'].value_counts().sort_index()

NULL     1
No      27
Si       3
Name: Rifunzionalizzato, dtype: int64

### 16. Usage type - Tipo di Rifunzionalizzazione -  replace NESSUNO/empty values with NULL

In [23]:
itineraries_caserta_df['Tipo di Rifunzionalizzazione'] = itineraries_caserta_df['Tipo di Rifunzionalizzazione'].replace(to_replace=["Nessuno"], value=NULL_VALUE)
itineraries_caserta_df['Tipo di Rifunzionalizzazione'].value_counts().sort_index()

Luogo di visita turistica                             1
Luogo turistico                                       1
NULL                                                 28
Sede dell'Associazione "Storia locale San prisco"     1
Name: Tipo di Rifunzionalizzazione, dtype: int64

## Define type of itinerary

In [24]:
itineraries_caserta_df["Categoria itinerario"] = "culturale"

## Save to csv and pickle

In [25]:
itineraries_caserta_df = itineraries_caserta_df[['Categoria itinerario', 'Nome', 'Comune', 'Località', 'Via', 'Cap', 'Provincia', 'Regione', 'Tipologia',
       'Secolo di costruzione', 'Anno prima attestazione',
       'Itinerario (periodo)', 'Stile', 'Informazioni',
       'URL Immagine', 'Bibliografia', 'Sitografia', 'Rifunzionalizzato',
       'Tipo di Rifunzionalizzazione', 
       'Latitude', 'Longitude']]
itineraries_caserta_df.to_csv('../Dataset_clean/itineraries-Caserta.csv', index=False)
itineraries_caserta_df.to_pickle('../Dataset_clean/itineraries-Caserta.pkl')