In [1]:
import pandas as pd
from data_cleaning_util import *

# Dataset itineraries-NoceraInferiore

In [2]:
itineraries_nocera_inferiore_df = pd.read_csv('../Dataset/itineraries-NoceraInferiore.csv')

In [3]:
itineraries_nocera_inferiore_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Città                         22 non-null     object 
 1   Località                      21 non-null     object 
 2   Via                           22 non-null     object 
 3   Sito/definizione manufatto    22 non-null     object 
 4   Epoca prima attestazione      22 non-null     object 
 5   Itinerario (periodo)          22 non-null     object 
 6   Infomrazioni                  22 non-null     object 
 7   geolocalizzazione             22 non-null     object 
 8   URL immagine                  11 non-null     object 
 9   Bibliografia                  22 non-null     object 
 10  Sitografia                    0 non-null      float64
 11  Tipologia edificio            22 non-null     object 
 12  Rifunzionalizzato             22 non-null     object 
 13  Tipo di

In [4]:
itineraries_nocera_inferiore_df.head(5)

Unnamed: 0,Città,Località,Via,Sito/definizione manufatto,Epoca prima attestazione,Itinerario (periodo),Infomrazioni,geolocalizzazione,URL immagine,Bibliografia,Sitografia,Tipologia edificio,Rifunzionalizzato,Tipo di rifunzionalizzazione
0,Nocera Inferiore,Collina del parco,via del Parco,Castello del Parco,994,Medievale,Il castello fu molto importante sin dalla sua ...,"40.74970319867134,14.642455279827118",https://upload.wikimedia.org/wikipedia/commons...,"Corolla A, Fiorillo R. (eds.), Nocera. Il cast...",,"Rudere, residenza signorile",Si,Nessuno
1,Nocera Inferiore,Vescovado,Via S.Prisco,Chiesa Cattedrale,955 d.C,Medievale,Dalle pergamene cavesi si ha testimonianza del...,"40.73801815509796,14.65237408876419",https://upload.wikimedia.org/wikipedia/commons...,"Ruggiero G.,L'Abbazia di San Prisco di Nocera:...",,Edificio religioso,No,Nessuno
2,Nocera Inferiore,Collina del Parco,Via S.Anna,Convento,1282,Medievale,Appartenuti da sempre alle suore Domenicane la...,"40.749696493148804,14.639217853546144",https://upload.wikimedia.org/wikipedia/commons...,fonti estratte dalla brochure di Monumenti por...,,Edificio religioso,No,Nessuno
3,Nocera Inferiore,Centro,Corso Vittorio Emanuele II,Area archeologica,II a. C. - V d. C.,Antico,Il sito di Piazza del Corso è stato oggetto di...,"40.74289977550507,14.63829517364502",https://upload.wikimedia.org/wikipedia/commons...,Fonti estratte dalla brochure di Monumenti por...,,Area archeologica,No,Nessuno
4,Nocera Inferiore,Centro,Corso Vittorio Emanuele II,Edicola funeraria di Fructus,Fonti sconosciute,Antico,Edicola funeraria di epoca romana appartenuta ...,"40.742673128843315,14.639877676963808",http://spod.databenc.it:8001/images/5d2e753f-c...,"Fortunato M., Kajava M., Magalhaes M.M.. Su un...",,Stele funeraria,si,Museo cittadino


In [5]:
print(f"Number of columns {len(itineraries_nocera_inferiore_df.columns)}\n{itineraries_nocera_inferiore_df.columns})")

Number of columns 14
Index(['Città', 'Località', 'Via', 'Sito/definizione manufatto',
       'Epoca prima attestazione', 'Itinerario (periodo)', 'Infomrazioni',
       'geolocalizzazione', 'URL immagine', 'Bibliografia', 'Sitografia',
       'Tipologia edificio', 'Rifunzionalizzato',
       'Tipo di rifunzionalizzazione'],
      dtype='object'))


## Correction to do:

1. Municipality - Città - align it with official municipality names (e.g., https://www.istat.it/storage/codici-unita-amministrative/Elenco-comuni-italiani.xls)
2. Location - Località - remove extra spaces,  remove abbreviations, deal with empty values as NULL
3. Address - Via - split it on multiple columns reporting (zip code, street, municipality, country, etc.) 
4. Site type - Sito/definizione manufatto - check value consistency
5. Epoch of first certification - Epoca prima attestazione - deal with empty values
6. Itinerary period - Itinerario (periodo) - check consistency
7. Details - Infomrazioni - replace NON DISPONIBILE/empty values with NULL + clean values (e.g., numbers) correct label to Informazioni
8. Localization - Geolocalizzazione - consider the possibility to split it in longitude and latitude + replace NON DISPONIBILE/empty values with NULL + check suspicious values
9. Image - URL Immagine -  replace NON DISPONIBILE/empty values with NULL 
10. Bibliography - Bibliography -  replace NON DISPONIBILE/empty values with NULL 
11. Site - Sitografia -  replace NON DISPONIBILE/empty values with NULL 
12. Building type - Tipologia edificio - check value consistency
13. Novel usage - Rifunzionalizzato -  check value consistency + replace empty values with NULL
14. Usage type - Tipo di rifunzionalizzazione -  replace NESSUNO/empty values with NULL

### Fill Na with NULL

In [6]:
itineraries_nocera_inferiore_df = itineraries_nocera_inferiore_df.fillna(NULL_VALUE)

### 1. Municipality - Città - align it with official municipality names


In [7]:
itineraries_nocera_inferiore_df['Città'] = itineraries_nocera_inferiore_df['Città'].apply(lambda x: municipality_alignment(comune=x,\
                                                                                comuni_istat_ita_list=comuni_istat_ita_list,\
                                                                                comuni_istat_altra_lingua_list=comuni_istat_altra_lingua_list,\
                                                                                comuni_istat_ita_e_straniero_list=comuni_istat_ita_e_straniero_list,\
                                                                                null_value=NULL_VALUE, \
                                                                                max_levenshtein_distance=2))

itineraries_nocera_inferiore_df['Città'].value_counts().sort_index()

Corbara                          1
Nocera Inferiore                12
Nocera Superiore                 3
Pagani                           5
Sant'Egidio del Monte Albino     1
Name: Città, dtype: int64

### 2. Location - Località - remove extra spaces,  remove abbreviations, deal with empty values as NULL

In [8]:
itineraries_nocera_inferiore_df['Località'] = itineraries_nocera_inferiore_df['Località'].str.replace("/", " / ", regex=False)
itineraries_nocera_inferiore_df['Località'] = itineraries_nocera_inferiore_df['Località'].apply(lambda x: remove_extra_spaces(x))
itineraries_nocera_inferiore_df['Località'] = itineraries_nocera_inferiore_df['Località'].str.title()
itineraries_nocera_inferiore_df['Località'] = itineraries_nocera_inferiore_df['Località'].str.replace(NULL_VALUE.title(), NULL_VALUE, regex=False)
itineraries_nocera_inferiore_df['Località'].value_counts().sort_index()

Area Periferica Tra Pagani E Nocera Inferiore    1
Borgo                                            3
Borgo Sola                                       1
Casolla                                          1
Centro                                           2
Collina Del Parco                                3
Mercato                                          1
NULL                                             1
Pagani Centro Città                              4
Pizzone                                          1
S. Chiara                                        1
Sant'Egidio Del Monte Albino                     1
Santa Maria Maggiore                             1
Vescovado                                        1
Name: Località, dtype: int64

### 3. Address - Via - split it on multiple columns reporting (zip code, street, municipality, country, etc.) 


In [9]:
itineraries_nocera_inferiore_df['Via'] = itineraries_nocera_inferiore_df['Via'].str.replace(".", ". ", regex=False)
itineraries_nocera_inferiore_df['Via'] = itineraries_nocera_inferiore_df['Via'].apply(lambda x: remove_extra_spaces(x))
itineraries_nocera_inferiore_df['Via'] = itineraries_nocera_inferiore_df['Via'].str.title()
itineraries_nocera_inferiore_df['Via'] = itineraries_nocera_inferiore_df['Via'].str.replace(NULL_VALUE.title(), NULL_VALUE, regex=False)
itineraries_nocera_inferiore_df['Via'].value_counts().sort_index()

Corso Ettore Padovano            1
Corso Vittorio Emanuele Ii       2
Piazza Corpo Di Cristo           1
Piazza S. Alfonso                1
Piazza Zonardelli                1
Santa Maria Maggiore             1
Stradale 18                      1
Via Carmine                      1
Via Casolla                      1
Via Del Parco                    2
Via F. Solimena                  1
Via Francesco Ferraioli          1
Via Francesco Solimena           1
Via Franceso Robuffo Giordano    1
Via Piazza S. Antonio            1
Via Raffaele Libroia             1
Via S. Anna                      1
Via S. Prisco                    1
Via Striano                      1
Viale Del Santuario              1
Name: Via, dtype: int64

In [10]:
temp_separator = ";;"
itineraries_nocera_inferiore_df['Temp'] = itineraries_nocera_inferiore_df['Città'].apply(lambda x: temp_separator.join(getAddressInfo(comune=map_comune_to_elenco_comuni_cap(x), elenco_comuni_cap=elenco_comuni_cap)))
itineraries_nocera_inferiore_df[['Cap','Provincia','Regione']] = itineraries_nocera_inferiore_df.Temp.str.split(temp_separator, expand=True)
itineraries_nocera_inferiore_df = itineraries_nocera_inferiore_df.drop(['Temp'], axis=1)

itineraries_nocera_inferiore_df.drop_duplicates(subset = ['Via', 'Cap','Provincia','Regione'])[['Via', 'Cap','Provincia','Regione']]


Unnamed: 0,Via,Cap,Provincia,Regione
0,Via Del Parco,84014,SA,Campania
1,Via S. Prisco,84014,SA,Campania
2,Via S. Anna,84014,SA,Campania
3,Corso Vittorio Emanuele Ii,84014,SA,Campania
5,Via F. Solimena,84014,SA,Campania
7,Via Piazza S. Antonio,84014,SA,Campania
8,Via Raffaele Libroia,84014,SA,Campania
9,Via Franceso Robuffo Giordano,84010,SA,Campania
10,Piazza Corpo Di Cristo,84016,SA,Campania
11,Via Carmine,84016,SA,Campania


### 4. Site type - Sito/definizione manufatto - check value consistency

In [11]:
itineraries_nocera_inferiore_df['Sito/definizione manufatto'] = itineraries_nocera_inferiore_df['Sito/definizione manufatto'].str.replace("Chiesa\ Santuario", "Chiesa\Santuario", regex=False)
itineraries_nocera_inferiore_df['Sito/definizione manufatto'] = itineraries_nocera_inferiore_df['Sito/definizione manufatto'].str.replace("Chiesa Cattedrale", "Chiesa\Cattedrale", regex=False)
itineraries_nocera_inferiore_df['Sito/definizione manufatto'].value_counts().sort_index()

Area archeologica               1
Basilica                        1
Battistero paleocristiano       1
Cappella                        1
Castello del Parco              1
Chiesa                          6
Chiesa\Cappella                 1
Chiesa\Cattedrale               1
Chiesa\Convento                 2
Chiesa\Santuario                1
Convento                        3
Edicola funeraria di Fructus    1
Edificio militare               1
Museo archeologico              1
Name: Sito/definizione manufatto, dtype: int64

### 5. Epoch of first certification - Epoca prima attestazione - deal with empty values

In [12]:
itineraries_nocera_inferiore_df['Epoca prima attestazione'].value_counts().sort_index()

1000                  1
1256-1290             1
1282                  1
1283                  1
1515                  1
1563                  1
90 a.C.               1
955 d.C               1
994                   1
Fonti sconosciute     1
II a. C. - V d. C.    1
XI secolo             1
XIX secolo            2
XV-XVI secolo         1
XVI secolo            3
XVII secolo           2
XVIII secolo          1
fine V - inizi VI     1
Name: Epoca prima attestazione, dtype: int64

### 6. Itinerary period - Itinerario (periodo) - check consistency

In [13]:
itineraries_nocera_inferiore_df['Itinerario (periodo)'].value_counts().sort_index()

Antico           3
Medievale        7
Moderno         11
Tardo antico     1
Name: Itinerario (periodo), dtype: int64

### 7. Details - Infomrazioni - replace NON DISPONIBILE/empty values with NULL + clean values (e.g., numbers) correct label to Informazioni

In [14]:
itineraries_nocera_inferiore_df['Infomrazioni'] = itineraries_nocera_inferiore_df['Infomrazioni'].str.capitalize()
itineraries_nocera_inferiore_df['Infomrazioni'] = itineraries_nocera_inferiore_df['Infomrazioni'].replace(to_replace=[NULL_VALUE.capitalize()], value=NULL_VALUE)
itineraries_nocera_inferiore_df['Informazioni'] = itineraries_nocera_inferiore_df['Infomrazioni']
itineraries_nocera_inferiore_df['Informazioni'].value_counts().sort_index()

Appartenuti da sempre alle suore domenicane la chiesa e il convento di s.anna furono costruiti nel 1282,su commissione del vescovo di capaccio pietro nonchè consigliere del re angioino carlo ii. le sue imponenti dimensioni mostrano le tracce di una serie di trasformazioni,la più importante delle quali è quella del 1685-1686,dovuta alle conseguenze di un disastroso terremoto. infatti delle originarie forme gotiche restano tracce nelle mura esterne,in alcuni settori del convento e un bel portale d'ingresso alla chiesa. inoltre ci rimangono alcuni affreschi del tardo '300 e primo '400.    1
Costruita nel 1803, la basilica di s.alfonso  è adornata da vari dipinti del '700 e '800. la struttura segue lo stile neoclassico.                                                                                                                                                                                                                                                                                   

### 8. Localization - Geolocalizzazione - consider the possibility to split it in longitude and latitude + replace NON DISPONIBILE/empty values with NULL + check suspicious values

In [15]:
temp_separator = ";;"
itineraries_nocera_inferiore_df['Temp'] = itineraries_nocera_inferiore_df['geolocalizzazione'].apply(lambda x: temp_separator.join(float_tuple_to_string_list(get_latitude_longitude(string=x, null_value=NULL_VALUE))))
itineraries_nocera_inferiore_df[['Latitude','Longitude']] = itineraries_nocera_inferiore_df.Temp.str.split(temp_separator, expand=True)
itineraries_nocera_inferiore_df = itineraries_nocera_inferiore_df.drop(['Temp'], axis=1)
#itineraries_nocera_inferiore_df = itineraries_nocera_inferiore_df.drop(['geolocalizzazione'], axis=1)

itineraries_nocera_inferiore_df.drop_duplicates(subset = ['Latitude','Longitude'])[['Latitude','Longitude']]

Unnamed: 0,Latitude,Longitude
0,40.74970319867134,14.642455279827118
1,40.73801815509796,14.65237408876419
2,40.7496964931488,14.639217853546144
3,40.74289977550507,14.63829517364502
4,40.74267312884332,14.639877676963808
5,40.74831783771515,14.639450199902058
6,40.7472133,14.6433202
7,40.747153759002686,14.645808041095734
8,40.74285686016084,14.62901271879673
9,40.72027886286378,14.595392941846512


### 9. Image - URL Immagine -  replace NON DISPONIBILE/empty values with NULL 

In [16]:
itineraries_nocera_inferiore_df['URL immagine'].value_counts().sort_index()

NULL                                                                                                                                                    11
http://spod.databenc.it:44588/images/5d2e753f-cd0a-4928-a53d-442549a18173/260px-SantaChiaraNocera2.jpg                                                   1
http://spod.databenc.it:44588/images/5d2e753f-cd0a-4928-a53d-442549a18173/Nocera-Inf.-S.Bartolomeo-Ap..jpg                                               1
http://spod.databenc.it:45014/images/5d2e753f-cd0a-4928-a53d-442549a18173/luoghi-di-interesse-pagani-chiesa-parrocchiale-del-corpo-di-cristo (1).JPG     1
http://spod.databenc.it:8001/images/5d2e753f-cd0a-4928-a53d-442549a18173/fructus.JPG                                                                     1
https://upload.wikimedia.org/wikipedia/commons/5/56/ChiesaSanna.jpg                                                                                      1
https://upload.wikimedia.org/wikipedia/commons/5/59/Nocera1.jpg       

### 10. Bibliography - Bibliography -  replace NON DISPONIBILE/empty values with NULL 

In [17]:
itineraries_nocera_inferiore_df['Bibliografia'] = itineraries_nocera_inferiore_df['Bibliografia'].str.capitalize()
itineraries_nocera_inferiore_df['Bibliografia'] = itineraries_nocera_inferiore_df['Bibliografia'].replace(to_replace=[NULL_VALUE.capitalize()], value=NULL_VALUE)
itineraries_nocera_inferiore_df['Bibliografia'] = itineraries_nocera_inferiore_df['Bibliografia'].apply(lambda x: remove_extra_spaces(x))
to_replace = ['Fonti estratte dalla brochure di monumenti a porte aperte 2000 a cura di " archeoclub nuceria alfaterna "',
'Fonti estratte dalla brochure di monumenti a porte aperte 2000 a cura di "archeoclub nuceria alfaterna"',
'Fonti estratte dalla brochure di monumenti porte aperte 2000 a cura di " archeoclub nuceria alfaterna"',
'Fonti estratte dalla brochure di monumenti porte aperte 2000 a cura di "archeoclub nuceria alfaterna "',
'Fonti estratte dalla brochure di monumenti porte aperte 2000 a cura di "archeoclub nuceria alfaterna"',
'Fonti estratte dalla brochure di monumenti porte aperte a cura di "archeoclub nuceria alfaterna"',
'Fonti stratte dalla brochure di monumenti porte aperte 2000 a cura di "archeoclub nuceria alfaterna"']
itineraries_nocera_inferiore_df['Bibliografia'] = itineraries_nocera_inferiore_df['Bibliografia'].replace(to_replace=to_replace, value='Fonti estratte dalla brochure di monumenti a porte aperte 2000 a cura di "archeoclub nuceria alfaterna"')
itineraries_nocera_inferiore_df['Bibliografia'].value_counts().sort_index()

Corolla a, fiorillo r. (eds.), nocera. il castello dello scisma d'occidente, firenze 2010.                                                                                                 1
Fonti estratte dalla brochure di monumenti a porte aperte 2000 a cura di "archeoclub nuceria alfaterna"                                                                                   18
Fortunato m., kajava m., magalhaes m.m.. su un edicola con iscrizione inedita di nuceria costantia, in oebalus : studi sulla campania nell'antichità.. 1, pp. 144-155, fig. 2 p. 147 .     1
P.a. pergamo, il monastero di santa chiara in noceria dei pagani, nocera inferiore, 1961.                                                                                                  1
Ruggiero g.,l'abbazia di san prisco di nocera: ipotesi interpretative e prospettive di ricerca,in rassegna storica salernitana,n.52,n.s.26/2,p.p. 11/56.                                   1
Name: Bibliografia, dtype: int64

### 11. Site - Sitografia -  replace NON DISPONIBILE/empty values with NULL 

In [18]:
itineraries_nocera_inferiore_df['Sitografia'].value_counts().sort_index()

NULL    22
Name: Sitografia, dtype: int64

### 12. Building type - Tipologia edificio - check value consistency

In [19]:
itineraries_nocera_inferiore_df['Tipologia edificio'].value_counts().sort_index()

Area archeologica               1
Edificio militare               1
Edificio pubblico               1
Edificio religioso             15
Ex edificio religioso           1
Rudere, residenza signorile     1
Stele funeraria                 1
Struttura religiosa             1
Name: Tipologia edificio, dtype: int64

### 13. Novel usage - Rifunzionalizzato -  check value consistency + replace empty values with NULL

In [20]:
itineraries_nocera_inferiore_df['Rifunzionalizzato'] = itineraries_nocera_inferiore_df['Rifunzionalizzato'].str.capitalize()
itineraries_nocera_inferiore_df['Rifunzionalizzato'].value_counts().sort_index()

No    17
Si     5
Name: Rifunzionalizzato, dtype: int64

### 14. Usage type - Tipo di rifunzionalizzazione -  replace NESSUNO/empty values with NULL

In [21]:
itineraries_nocera_inferiore_df['Tipo di rifunzionalizzazione'] = itineraries_nocera_inferiore_df['Tipo di rifunzionalizzazione'].replace(to_replace=["Nessuno", "No"], value=NULL_VALUE)
itineraries_nocera_inferiore_df['Tipo di rifunzionalizzazione'].value_counts().sort_index()

Abbandonato del tutto                                        1
Edificio per civili abitazioni (post 1806)                   1
Museo cittadino                                              1
Museo cittadino all'aperto                                   1
NULL                                                        16
Parte della chiesa è sede di molto eventi religiosi          1
Parte della struttura divenne un manicomio oggi dismesso     1
Name: Tipo di rifunzionalizzazione, dtype: int64

## Define type of itinerary

In [22]:
itineraries_nocera_inferiore_df["Categoria itinerario"] = "culturale"

## Save to csv and pickle

In [23]:
itineraries_nocera_inferiore_df = itineraries_nocera_inferiore_df[['Categoria itinerario', 'Città', 'Località', 'Via', 'Cap', 'Provincia', 'Regione', 'Sito/definizione manufatto',
       'Epoca prima attestazione', 'Itinerario (periodo)', 'Informazioni',
       'URL immagine', 'Bibliografia', 'Sitografia',
       'Tipologia edificio', 'Rifunzionalizzato',
       'Tipo di rifunzionalizzazione', 
       'Latitude', 'Longitude']]

itineraries_nocera_inferiore_df.to_csv('../Dataset_clean/itineraries-NoceraInferiore.csv', index=False)
itineraries_nocera_inferiore_df.to_pickle("../Dataset_clean/itineraries-NoceraInferiore.pkl")  