# Import the repository from GitHub

First of all we start by importing the repository that we stored in the github project.

In [1]:
from kaggle_secrets import UserSecretsClient
user_secrets = UserSecretsClient()
secret_value_1 = user_secrets.get_secret("NEW_GITHUB_TOKEN")

In [2]:
token = UserSecretsClient().get_secret("NEW_GITHUB_TOKEN")
! git clone https://{token}@github.com/madratak/DIQ_Project2024.git

Cloning into 'DIQ_Project2024'...
remote: Enumerating objects: 114, done.[K
remote: Counting objects: 100% (114/114), done.[K
remote: Compressing objects: 100% (98/98), done.[K
Receiving objects: 100% (114/114), 789.20 KiB | 8.97 MiB/s, done.
remote: Total 114 (delta 46), reused 28 (delta 5), pack-reused 0 (from 0)[K
Resolving deltas: 100% (46/46), done.


In [3]:
%cd /kaggle/working/DIQ_Project2024

/kaggle/working/DIQ_Project2024


# Set up the dataset

At this point we can proceed by importing the correct libraries and then importing the data itself inside our notebook.

In [4]:
import pandas as pd
import numpy as np
from datetime import datetime
import os

# Set max column width to None to display full content
pd.set_option('display.max_colwidth', None)

In [5]:
SERVICES = pd.read_csv('/kaggle/working/DIQ_Project2024/data/raw/Comune-di-Milano-Servizi-alla-persona-parrucchieri-estetisti.csv',sep=';',encoding='unicode_escape')
SERVICES.head()

Unnamed: 0,Tipo esercizio pa,Ubicazione,Tipo via,Via,Civico,Codice via,ZD,Prevalente,Superficie altri usi,Superficie lavorativa
0,,LGO DEI GELSOMINI N. 10 (z.d. 6),LGO,DEI GELSOMINI,10,5394.0,6,,,55.0
1,,PZA FIDIA N. 3 (z.d. 9),PZA,FIDIA,3,1144.0,9,CENTRO MASSAGGI RILASSANTI NON ESTETICI,2.0,28.0
2,,VIA ADIGE N. 10 (z.d. 5),VIA,ADIGE,10,4216.0,5,CENTRO BENESSERE,2.0,27.0
3,,VIA BARACCHINI FLAVIO N. 9 (z.d. 1),VIA,BARACCHINI FLAVIO,9,356.0,1,TRUCCO SEMIPERMANENTE,,
4,,VIA BERGAMO N. 12 (z.d. 4),VIA,BERGAMO,12,3189.0,4,,,50.0


# Wrangling

In [6]:
SERVICES = SERVICES.rename(columns={
    'Tipo esercizio pa': 't_es',
    'Ubicazione': 'ubic',
    'Tipo via': 't_via',
    'Via': 'via',
    'Civico': 'civ',
    'Codice via': 'cod_via',
    'ZD': 'zd',
    'Prevalente': 'main',
    'Superficie altri usi': 'sup_alt',
    'Superficie lavorativa': 'sup_lav'
})

new_SERVICES = SERVICES.copy()

new_SERVICES.head()

Unnamed: 0,t_es,ubic,t_via,via,civ,cod_via,zd,main,sup_alt,sup_lav
0,,LGO DEI GELSOMINI N. 10 (z.d. 6),LGO,DEI GELSOMINI,10,5394.0,6,,,55.0
1,,PZA FIDIA N. 3 (z.d. 9),PZA,FIDIA,3,1144.0,9,CENTRO MASSAGGI RILASSANTI NON ESTETICI,2.0,28.0
2,,VIA ADIGE N. 10 (z.d. 5),VIA,ADIGE,10,4216.0,5,CENTRO BENESSERE,2.0,27.0
3,,VIA BARACCHINI FLAVIO N. 9 (z.d. 1),VIA,BARACCHINI FLAVIO,9,356.0,1,TRUCCO SEMIPERMANENTE,,
4,,VIA BERGAMO N. 12 (z.d. 4),VIA,BERGAMO,12,3189.0,4,,,50.0


## ZD

In [7]:
new_SERVICES.zd.unique()

array(['6', '9', '5', '1', '4', '2', '8', '3', nan, 'ACCONCIATORE', '7'],
      dtype=object)

In [8]:
new_SERVICES.loc[32:33].head()

Unnamed: 0,t_es,ubic,t_via,via,civ,cod_via,zd,main,sup_alt,sup_lav
32,Acconciatore,CSO COMO N. 15 interno club f. conti,,,,,,,,
33,(z.d. 9),CSO,COMO,15.0,1111.0,9.0,ACCONCIATORE,,195.0,


Dropped the rows and added a new one.

In [9]:
# New merged row
merged_row = {
    "t_es": "Acconciatore",
    "ubic": "CSO COMO N. 15 (z.d. 9)",
    "t_via": "CSO",
    "via": "CSO COMO",
    "civ": "15",
    "cod_via": 1111.0,
    "zd": "9",
    "main": "ACCONCIATORE",
    "sup_alt": np.nan,
    "sup_lav": 195.0,
}

# Remove row at index 33 and replace row at index 32
new_SERVICES = new_SERVICES.drop(index=33, errors='ignore')  # Drop row 33
new_SERVICES.loc[32] = merged_row  # Add the merged row at index 32

# Ensure correct row order and reset index if necessary
new_SERVICES = new_SERVICES.sort_index().reset_index(drop=True)

new_SERVICES.loc[32:33].head()

Unnamed: 0,t_es,ubic,t_via,via,civ,cod_via,zd,main,sup_alt,sup_lav
32,Acconciatore,CSO COMO N. 15 (z.d. 9),CSO,CSO COMO,15,1111.0,9,ACCONCIATORE,,195.0
33,Acconciatore,CSO DI PORTA NUOVA N. 46 ; (z.d. 1),CSO,DI PORTA NUOVA,46,1044.0,1,,,34.0


In [10]:
new_SERVICES.zd = new_SERVICES.zd.astype(int)
np.sort(new_SERVICES['zd'].unique())

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

## T_ES

In [11]:
new_SERVICES.t_es.unique()

array([nan, 'Acconciatore', 'ACCONCIATORE',
       'ACCONCIATORE;TIPO A ESTETICA MANUALE',
       'ACCONCIATORE;TIPO A ESTETICA MANUALE;TIPO B CENTRO DI ABBRONZATURA',
       'Acconciatore;TIPO A - REG.2003', 'ACCONCIATORE;TIPO A - REG.2003',
       'Acconciatore;TIPO A - REG.2003;TIPO B CENTRO DI ABBRONZATURA',
       'ACCONCIATORE;TIPO A - REG.2003;TIPO B CENTRO DI ABBRONZATURA',
       'BARBIERE', 'Centro abbronzatura', 'Centro benessere',
       'Centro benessere;TIPO A - REG.2003', 'Centro massaggi',
       'Centro massaggi;Centro benessere',
       'esecuzione di tatuaggi e piercing',
       'Esecuzione di tatuaggi e piercing', 'Estetista',
       'Estetista in profumeria;TIPO A ESTETICA MANUALE;TIPO D ESTET.APPAR.ELETTROMECC;TIPO C TRATT.ESTETICI DIMAGRIM',
       'Estetista;Manicure;Pedicure estetico',
       'Estetista;Parrucchiere per signora',
       'Estetista;Pedicure estetico', 'Manicure;Parrucchiere per signora',
       'Parrucchiere misto', 'Parrucchiere misto;TIPO A ES

In [12]:
# Ensure 't_es' column does not have NaN values and is treated as strings
new_SERVICES["t_es"] = new_SERVICES["t_es"].fillna("").astype(str)

# Split the 't_es' column by ';' and flatten the resulting lists
flattened_labels = [label.strip() for item in new_SERVICES["t_es"] for label in item.split(";")]

# Get the unique labels and sort them
unique_labels = sorted(set(flattened_labels))

# Initialize a dictionary to store counts
label_counts = {label: 0 for label in unique_labels}

# Loop through each row in the "t_es" column and count the occurrences of each label
for entry in new_SERVICES['t_es'].dropna():  # Drop NaN values to avoid errors
    for label in unique_labels:
        if label in entry:
            label_counts[label] += 1

# Print the counts
for label, count in label_counts.items():
    if label != "":
        print(f"{label}: {count}")

ACCONCIATORE: 717
Acconciatore: 190
BARBIERE: 2
Centro abbronzatura: 2
Centro benessere: 29
Centro massaggi: 139
Esecuzione di tatuaggi e piercing: 5
Estetista: 31
Estetista in profumeria: 2
Manicure: 3
Parrucchiere misto: 105
Parrucchiere per signora: 1213
Parrucchiere per uomo: 518
Pedicure estetico: 22
TIPO A - REG.2003: 865
TIPO A ESTETICA MANUALE: 263
TIPO A-B-C-D: 88
TIPO B CENTRO DI ABBRONZATURA: 603
TIPO C TRATT.ESTETICI DIMAGRIM: 138
TIPO D ESTET.APPAR.ELETTROMECC: 74
Truccatore: 1
esecuzione di tatuaggi e piercing: 19


In [13]:
# Mapping of original values to new values
label_mapping = {
    "ACCONCIATORE": "Acconciatore",
    "Acconciatore": "Acconciatore",
    "BARBIERE": "Parrucchiere per Uomo",
    "Centro abbronzatura": "Tipo B - Centro di Abbronzatura",
    "Centro benessere": "Centro Benessere",
    "Centro massaggi": "Centro Massaggi",
    "Esecuzione di tatuaggi e piercing": "Esecuzione di Tatuaggi e Piercing",
    "esecuzione di tatuaggi e piercing": "Esecuzione di Tatuaggi e Piercing",
    "Estetista": "Tipo A - Estetica Manuale",
    "Estetista in profumeria": "Tipo A - Estetica Manuale",
    "Manicure": "Tipo A - Estetica Manuale", # Assuming merge because there are just 4 'Manicure' values
    "Pedicure estetico": "Tipo A - Estetica Manuale",
    "Parrucchiere per signora": "Parrucchiere per Donna",
    "Parrucchiere per uomo": "Parrucchiere per Uomo",
    "Truccatore": "Truccatore",
    "TIPO A ESTETICA MANUALE": "Tipo A - Estetica Manuale",
    "TIPO A - REG.2003": "Tipo A - Estetica Manuale",
    "TIPO B CENTRO DI ABBRONZATURA": "Tipo B - Centro di Abbronzatura",
    "TIPO C TRATT.ESTETICI DIMAGRIM": "Tipo C - Trattamenti Estetici Dimagrimento",
    "TIPO D ESTET.APPAR.ELETTROMECC": "Tipo D - Estetica Apparati Elettromeccanici",
}

# Define a function for handling composite labels within a cell
def handle_composite_labels(value):
    # If "TIPO A-B-C-D" exists, split and expand into individual components
    if "TIPO A-B-C-D" in value:
        value = value.replace("TIPO A-B-C-D", "; ".join([
            "Tipo A - Estetica Manuale", 
            "Tipo B - Centro di Abbronzatura",
            "Tipo C - Trattamenti Estetici Dimagrimento", 
            "Tipo D - Estetica Apparati Elettromeccanici"
        ]))
    if "Parrucchiere misto" in value:
        value = value.replace("Parrucchiere misto", "; ".join([
            "Parrucchiere per Uomo",
            "Parrucchiere per Donna"
        ]))
    
    return value

# Apply composite label handling first
new_SERVICES["t_es"] = new_SERVICES["t_es"].apply(handle_composite_labels)

# Define a function to replace labels using the mapping
def replace_multiple_labels(cell_value, label_mapping):
    # Split the cell value by a delimiter (semicolon)
    labels = cell_value.split(';')  # Adjust delimiter as necessary
    # Strip whitespace and replace each label using the mapping
    labels = [label_mapping.get(label.strip(), label.strip()) for label in labels]
    
    # Remove duplicates by converting to a set and then back to a list
    labels = list(set(labels))  # Set ensures uniqueness, list keeps order
    # Rejoin the labels with the same delimiter
    return '; '.join(labels)

# Now apply the mapping for individual labels
new_SERVICES["t_es"] = new_SERVICES["t_es"].apply(lambda x: replace_multiple_labels(x, label_mapping))

# Check the updated column
# prova["t_es"].unique()

In [14]:
# Ensure 't_es' column does not have NaN values and is treated as strings
new_SERVICES["t_es"] = new_SERVICES["t_es"].fillna("").astype(str)

# Split the 't_es' column by ';' and flatten the resulting lists
flattened_labels = [label.strip() for item in new_SERVICES["t_es"] for label in item.split(";")]

# Get the unique labels and sort them
unique_labels = sorted(set(flattened_labels))

# Print the unique labels
print("Unique Labels:")
for label in unique_labels:
    print(label)

Unique Labels:

Acconciatore
Centro Benessere
Centro Massaggi
Esecuzione di Tatuaggi e Piercing
Parrucchiere per Donna
Parrucchiere per Uomo
Tipo A - Estetica Manuale
Tipo B - Centro di Abbronzatura
Tipo C - Trattamenti Estetici Dimagrimento
Tipo D - Estetica Apparati Elettromeccanici
Truccatore


In [15]:
# Initialize a dictionary to store counts
label_counts = {label: 0 for label in unique_labels}

# Loop through each row in the "t_es" column and count the occurrences of each label
for entry in new_SERVICES['t_es'].dropna():  # Drop NaN values to avoid errors
    for label in unique_labels:
        if label in entry:
            label_counts[label] += 1

# Print the counts
for label, count in label_counts.items():
    if label != "":
        print(f"{label}: {count}")

Acconciatore: 907
Centro Benessere: 29
Centro Massaggi: 139
Esecuzione di Tatuaggi e Piercing: 24
Parrucchiere per Donna: 1294
Parrucchiere per Uomo: 601
Tipo A - Estetica Manuale: 1266
Tipo B - Centro di Abbronzatura: 693
Tipo C - Trattamenti Estetici Dimagrimento: 226
Tipo D - Estetica Apparati Elettromeccanici: 162
Truccatore: 1


Fix values of "main" column.

In [16]:
new_SERVICES["main"].unique()

array([nan, 'CENTRO MASSAGGI RILASSANTI NON ESTETICI', 'CENTRO BENESSERE',
       'TRUCCO SEMIPERMANENTE', 'ESTETICA TIPO A', 'CENTRO MASSAGGI',
       'TATUAGGI E PIERCING', 'SERVIZI DI CENTRI PER IL BENESSERE FISICO',
       'ESTETICA A', 'acconciatore', 'ACCONCIATORE',
       'SERVIZI DEI SALONI DI BARBIERE E PARRUCCHIERE', 'Acconciatore',
       'PARRUCCHIERE UOMO DONNA BARBIERE', 'PARRUCCHIERE', 'ACONCIATORE',
       'ACCONCIATORE UOMO DONNA', 'acconciatore.',
       'ACCONCIATORE E ESTETICA',
       'CENTRO BENESSERE RILASSANTE NON ESTETICO',
       'CENTRO PER IL BENESSERE FISICO',
       'CENTTRO BENESSERE (ESCLUSI GLI STABILIMENTI TERMALI)',
       'SERVIZI DEI CENTRI E STABIL. PER IL BENESSERE FISICO',
       'STUDIO OLISTICO', 'CENTRO OLISTICO', 'centro massaggi',
       'MASSAGGI RILASSANTI', 'CENTRO MASSAGI RILASSANTI NON ESTETICI',
       'CENTRO MASSAGGI TUINA', 'CENTRO MASSAGGI RILASSANTI',
       'SERVIZI DI CENTRI PER IL BENESSERE',
       "ATTIVITA' DI MASSAGGI RILAS

In [17]:
# Ensure 't_es' column does not have NaN values and is treated as strings
new_SERVICES["main"] = new_SERVICES["main"].fillna("").astype(str)

mapping = {
    'CENTRO MASSAGGI RILASSANTI NON ESTETICI': 'Centro Massaggi',
    'CENTRO MASSAGGI': 'Centro Massaggi',
    'MASSAGGI RILASSANTI': 'Centro Massaggi',
    'CENTRO MASSAGGI TUINA': 'Centro Massaggi',
    'CENTRO MASSAGGI RILASSANTI': 'Centro Massaggi',
    'CENTRO MASSAGI RILASSANTI NON ESTETICI': 'Centro Massaggi', 
    "ATTIVITA' DI MASSAGGI RILASSANTI": 'Centro Massaggi',
    'MASSAGGI': 'Centro Massaggi',
    'centro massaggi': 'Centro Massaggi',
    'CENTRO MASSAGGI THAI RILASSANTI NON CURATIVI': 'Centro Massaggi',
    'CENTRO MASSAGGI RILASSANTI ESTETICI': 'Tipo A - Estetica Manuale; Centro Massaggi',
    'CENTRO BENESSERE': 'Centro Benessere',
    'centro benessere': 'Centro Benessere',
    'CENTRO PER IL BENESSERE FISICO': 'Centro Benessere',
    'CENTTRO BENESSERE (ESCLUSI GLI STABILIMENTI TERMALI)': 'Centro Benessere',
    'CENTRO BENESSERE RILASSANTE NON ESTETICO': 'Centro Benessere',
    'SERVIZI DI CENTRI PER IL BENESSERE FISICO': 'Centro Benessere',
    'SERVIZI DI CENTRI PER IL BENESSERE': 'Centro Benessere',
    'SERVIZI DEI CENTRI E STABIL. PER IL BENESSERE FISICO': 'Centro Benessere',
    'STUDIO OLISTICO': 'Centro Massaggi',
    'CENTRO OLISTICO': 'Centro Massaggi',
    'SERVIZI ORGANIZZATI CON SERVIZI DI SEGRETERIA': 'Tipo A - Estetica Manuale; Centro Massaggi',
    'TRUCCO SEMIPERMANENTE': 'Truccatore',
    'TRUCCATORE': 'Truccatore',
    'TATUAGGI E PIERCING': 'Esecuzione di Tatuaggi e Piercing',
    'ESECUZIONE DI TATUAGGI E PIERCING': 'Esecuzione di Tatuaggi e Piercing',
    'TATUAGGIO': 'Esecuzione di Tatuaggi e Piercing',
    'TATUAGGIO E PIERCING': 'Esecuzione di Tatuaggi e Piercing',
    'ESECUZIONE DI TATUAGGI': 'Esecuzione di Tatuaggi e Piercing',
    'ESECUZIONE TATUAGGI': 'Esecuzione di Tatuaggi e Piercing',
    'tatuaggi e piercing': 'Esecuzione di Tatuaggi e Piercing',
    'ACCONCIATORE': 'Acconciatore',
    'acconciatore': 'Acconciatore',
    'acconciatore.': 'Acconciatore',
    'ACONCIATORE': 'Acconciatore',
    'ACCONCIATORE UOMO DONNA': 'Acconciatore',
    'ACCONCIATORE E ESTETICA': 'Acconciatore; Tipo A - Estetica Manuale',
    'SERVIZI DEI SALONI DI BARBIERE E PARRUCCHIERE': 'Acconciatore',
    'PARRUCCHIERE UOMO DONNA BARBIERE': 'Acconciatore',
    'PARRUCCHIERE': 'Acconciatore',
    'ESTETISTA': 'Tipo A - Estetica Manuale',
    'ESTETICA': 'Tipo A - Estetica Manuale',
    'ESTETICA TIPO A': 'Tipo A - Estetica Manuale',
    'estetica tipo A': 'Tipo A - Estetica Manuale',
    'ESTETISTA MANICURE PEDICURE': 'Tipo A - Estetica Manuale',
    'estetista': 'Tipo A - Estetica Manuale',
    'estetica': 'Tipo A - Estetica Manuale',
    'APPLICAZIONE E DECORAZIONE UNGHIE ARTIFICIALE': 'Tipo A - Estetica Manuale',
    'RICOSTRUZIONE UNGHIE': 'Tipo A - Estetica Manuale',
    'ESTETICA - CENTRO BENESSERE': 'Tipo A - Estetica Manuale; Centro Benessere',
    'ESTETICA A': 'Tipo A - Estetica Manuale',
    'estetica A': 'Tipo A - Estetica Manuale',
    'ESTETICA a': 'Tipo A - Estetica Manuale',
    'ESTETICA A E SOLARIUM': 'Tipo A - Estetica Manuale; Tipo B - Centro di Abbronzatura',
    'solarium': 'Tipo B - Centro di Abbronzatura', 
    'ESTETICA A CON TATUAGGI': 'Tipo A - Estetica Manuale; Esecuzione di Tatuaggi e Piercing',
    'ESTETICA A e B': 'Tipo A - Estetica Manuale; Tipo B - Centro di Abbronzatura',
    'ESTETICA A B': 'Tipo A - Estetica Manuale; Tipo B - Centro di Abbronzatura',
    'ESTETICA A E B': 'Tipo A - Estetica Manuale; Tipo B - Centro di Abbronzatura',
    'estetica A e solarium': 'Tipo A - Estetica Manuale; Tipo B - Centro di Abbronzatura',
    'SOLARIUM': 'Tipo B - Centro di Abbronzatura',
    'SOLARIUM E ESTETICA DI TIPO A': 'Tipo A - Estetica Manuale; Tipo B - Centro di Abbronzatura',
    'ESTETICA TIPO A - B': 'Tipo A - Estetica Manuale; Tipo B - Centro di Abbronzatura',
    'CENTRO ESTETICO - SOLARIUN': 'Tipo A - Estetica Manuale; Tipo B - Centro di Abbronzatura'
}

def replace_multiple_labels(cell_value, label_mapping):
    # Split the cell value by a delimiter (semicolon)
    labels = cell_value.split(';')  # Adjust delimiter as necessary
    # Strip whitespace and replace each label using the mapping
    labels = [label_mapping.get(label.strip(), label.strip()) for label in labels]
    # Join the labels back with the same delimiter
    return ';'.join(labels)

# Now apply the mapping for individual labels
new_SERVICES["main"] = new_SERVICES["main"].apply(lambda x: replace_multiple_labels(x, mapping))

In [18]:
new_SERVICES["main"].unique()

array(['', 'Centro Massaggi', 'Centro Benessere', 'Truccatore',
       'Tipo A - Estetica Manuale', 'Esecuzione di Tatuaggi e Piercing',
       'Acconciatore', 'Acconciatore; Tipo A - Estetica Manuale',
       'Tipo A - Estetica Manuale; Centro Benessere',
       'Tipo A - Estetica Manuale; Centro Massaggi',
       'Tipo A - Estetica Manuale; Esecuzione di Tatuaggi e Piercing',
       'Tipo A - Estetica Manuale; Tipo B - Centro di Abbronzatura',
       'Tipo B - Centro di Abbronzatura'], dtype=object)

In [19]:
# Initialize a dictionary to store counts
flattened_labels = [label.strip() for item in new_SERVICES["main"] for label in item.split(";")]
# Get the unique labels and sort them
unique_main_labels = sorted(set(flattened_labels))

label_counts = {label: 0 for label in unique_main_labels}

# Loop through each row in the "t_es" column and count the occurrences of each label
for entry in new_SERVICES['main'].dropna():  # Drop NaN values to avoid errors
    for label in unique_main_labels:
        if label in entry:
            label_counts[label] += 1

# Print the counts
for label, count in label_counts.items():
    if label != "":
        print(f"{label}: {count}")

Acconciatore: 100
Centro Benessere: 13
Centro Massaggi: 98
Esecuzione di Tatuaggi e Piercing: 19
Tipo A - Estetica Manuale: 66
Tipo B - Centro di Abbronzatura: 20
Truccatore: 1


## MAIN
Move "main" values to "t_es" column in order to reduce the number of null values in "t_es" column. **(To add that we don't consider it very informative and it has too many values)**

In [20]:
# Ensure both columns are strings and handle NaN values
new_SERVICES['main'] = new_SERVICES['main'].fillna("").astype(str)
new_SERVICES['t_es'] = new_SERVICES['t_es'].fillna("").astype(str)

def update_t_es(row):
    main_values = row['main'].split(";") if row['main'] else []
    t_es_values = row['t_es'].split(";") if row['t_es'] else []
    
    # Remove extra whitespace around the labels
    main_values = [value.strip() for value in main_values]
    t_es_values = [value.strip() for value in t_es_values]
    
    # If t_es is empty, copy main values
    if not t_es_values:
        return ";".join(main_values)
    
    # Add main labels that are not already in t_es
    for main_value in main_values:
        # Add the condition: If main is "Acconciatore" and t_es contains "Parrucchiere per Uomo" or "Parrucchiere per Donna", don't add
        if main_value == "Acconciatore" and any(x in t_es_values for x in ["Parrucchiere per Uomo", "Parrucchiere per Donna"]):
            continue
        if main_value not in t_es_values:
            t_es_values.append(main_value)
    
    # Return the updated t_es column as a semicolon-separated string
    return ";".join(t_es_values)

# Apply the function row-wise
new_SERVICES['t_es'] = new_SERVICES.apply(update_t_es, axis=1)

In [21]:
new_SERVICES['t_es'] = new_SERVICES['t_es'].replace("", float("nan"))
print("The number of Nan in 't_es' column is {}.".format(sum(new_SERVICES["t_es"].isnull())))

The number of Nan in 't_es' column is 16.


Since "Main" info is incorporated in "t_es" column, we drop it.

In [22]:
new_SERVICES = new_SERVICES.drop('main', axis=1)

In [23]:
new_SERVICES.head()

Unnamed: 0,t_es,ubic,t_via,via,civ,cod_via,zd,sup_alt,sup_lav
0,,LGO DEI GELSOMINI N. 10 (z.d. 6),LGO,DEI GELSOMINI,10,5394.0,6,,55.0
1,Centro Massaggi,PZA FIDIA N. 3 (z.d. 9),PZA,FIDIA,3,1144.0,9,2.0,28.0
2,Centro Benessere,VIA ADIGE N. 10 (z.d. 5),VIA,ADIGE,10,4216.0,5,2.0,27.0
3,Truccatore,VIA BARACCHINI FLAVIO N. 9 (z.d. 1),VIA,BARACCHINI FLAVIO,9,356.0,1,,
4,,VIA BERGAMO N. 12 (z.d. 4),VIA,BERGAMO,12,3189.0,4,,50.0


Drop rows labeled as "Truccatore" in "t_es", since the class is under-represented.

In [24]:
new_SERVICES = new_SERVICES[new_SERVICES["t_es"] != "Truccatore"]

## T_VIA

In [25]:
SERVICES.t_via.unique()

array(['LGO', 'PZA', 'VIA', 'VLE', 'CSO', nan, 'COMO', 'PAS', 'PLE',
       'ALZ', 'BST', 'FOR', 'VIE', 'VLO', 'GLL', 'RIP', 'PTA', 'SIT'],
      dtype=object)

In [26]:
new_SERVICES.t_via.unique()

array(['LGO', 'PZA', 'VIA', 'VLE', 'CSO', 'PAS', 'PLE', 'ALZ', 'BST',
       'FOR', 'VIE', 'VLO', 'GLL', 'RIP', 'PTA', 'SIT'], dtype=object)

## COD_VIA

In [27]:
# Check if any value in 'cod_via' is not a float
non_float_values = SERVICES['cod_via'].apply(lambda x: not isinstance(x, float))
if non_float_values.any():
    print("There are non-float values in 'cod_via'.")
else:
    print("All values in 'cod_via' are floats.")

new_SERVICES.cod_via = new_SERVICES.cod_via.astype(str) 

All values in 'cod_via' are floats.


## CIV

In [28]:
new_SERVICES.civ.unique()

array(['10', '3', '12', '13', '39', '25', '6', '20', '30', '2', '67',
       '16', '111', '36', '83', '5', '22', '23', '1', '4', '91', '8',
       '19', '38', '15', '46', '54', '65', '103', '40', '29', '9', '32',
       '7', '17', '27', '12A', '48', '61', '47', '232', '234', '57', '75',
       '34', '150', '71', '55', '21', '6A', '163', '90', '14', '53', '70',
       '119F', '26', '24', '40945', '128', '3B', '41', '64', '68', '35',
       '49', '42', '99', '52', '72', '117', '79', '96', '58', '81', '112',
       '93/1', '87', '63', '18', '123', '31', nan, '33', '11', '242',
       '46D', '28', '80', '98', '59', '37', '43', '60', '50', '44', '246',
       '326', '407', '410', '51', '110', '130', '131', '157', '174', '62',
       '107', '73', '139', '147', '168', '213', '255', '279', '45', '77',
       '4A', '187', '89', '207', '227', '244', '56', '100', '104', '74',
       '66', '92', '108', '121', '76', '233', '249', '256', '267', '270',
       '82', '116', '236', '69', '178', '143', '

## UBIC

In [29]:
new_SERVICES['ubic'] = new_SERVICES['ubic'].fillna("").astype(str)

def split_ubicazione(ubicazione):
    parts = ubicazione.split(" ")
    
    # Extract "Tipo Via" (first word)
    tipo_via = parts[0]

    # Determine which keyword is present (checking both "n." and "num." as prefix)
    keyword = None
    for part in parts:
        if part.startswith("N.") or part.startswith("n."):
            keyword = "N."
            break
        elif part.startswith("num."):
            keyword = "num."
            break

    # Extract everything between "Tipo Via" and "N." or "num." for the "Via" (street name)
    via_parts = []
    for part in parts[1:]:
        if part.startswith(keyword):
            break
        via_parts.append(part)
    via = " ".join(via_parts)

    # Extract "Civico" (the number after "N." or "num.") with semicolon handling
    civico = None
    if keyword == "num.":
        # Look for the pattern after "num." or "n." until semicolon or end of string
        for part in parts:
            if part.startswith(keyword):
                civico = part[len(keyword):]  # remove 'n.' or 'num.' part to get the civico
                break
        
        # If civico found but there is a semicolon after, remove everything after the semicolon
        if civico:
            civico = civico.split(";")[0]  # Take everything before the semicolon
        else:
            civico = np.nan
    
    elif keyword == "N.":
        # Handle the case when 'n.' is found in the parts list
        if keyword in parts:
            civico_index = parts.index(keyword) + 1
            if civico_index < len(parts):
                civico = parts[civico_index]
                # If there's a semicolon after the civico, handle it
                civico = civico.split(";")[0]
            else:
                civico = np.nan
        else:
            civico = np.nan
    
    # Extract "ZD" (the last number in the string)
    try:
        zd = parts[-1].strip("(z.d. )")
    except Exception as e:
        zd = np.nan

    civico = str(civico).upper() if civico != np.nan else civico

    return tipo_via, via, civico, zd

# Apply to each row of SERVICES, using apply() correctly on the column (Series)
new_SERVICES[['ubic_t_via', 'ubic_via', 'ubic_civ', 'ubic_zd']] = new_SERVICES['ubic'].apply(lambda x: pd.Series(split_ubicazione(x)))

# Now you have new columns for 'Tipo via', 'Via', 'Civico', and 'ZD'
new_SERVICES.head()

Unnamed: 0,t_es,ubic,t_via,via,civ,cod_via,zd,sup_alt,sup_lav,ubic_t_via,ubic_via,ubic_civ,ubic_zd
0,,LGO DEI GELSOMINI N. 10 (z.d. 6),LGO,DEI GELSOMINI,10,5394.0,6,,55.0,LGO,DEI GELSOMINI,10,6
1,Centro Massaggi,PZA FIDIA N. 3 (z.d. 9),PZA,FIDIA,3,1144.0,9,2.0,28.0,PZA,FIDIA,3,9
2,Centro Benessere,VIA ADIGE N. 10 (z.d. 5),VIA,ADIGE,10,4216.0,5,2.0,27.0,VIA,ADIGE,10,5
4,,VIA BERGAMO N. 12 (z.d. 4),VIA,BERGAMO,12,3189.0,4,,50.0,VIA,BERGAMO,12,4
5,Centro Benessere,VIA BOTTEGO VITTORIO N. 13 (z.d. 2),VIA,BOTTEGO VITTORIO,13,2521.0,2,5.0,90.0,VIA,BOTTEGO VITTORIO,13,2


In [30]:
prova = new_SERVICES.copy()

In [31]:
prova[prova["t_via"] != prova["ubic_t_via"]]

Unnamed: 0,t_es,ubic,t_via,via,civ,cod_via,zd,sup_alt,sup_lav,ubic_t_via,ubic_via,ubic_civ,ubic_zd
209,Acconciatore,codvia 4386 num.008; (z.d. 4),CSO,LODI,72,4068.0,4,,50.0,codvia,4386,008,4
242,Acconciatore,mm1 duomo codvia 9112 num.000; (z.d. 1),CSO,SEMPIONE,10,7137.0,1,,,mm1,duomo codvia 9112,000,1
650,Acconciatore,VIA SOLARI ANDREA num.002a; (z.d. 6),PZA,FRATTINI PIETRO,19,5389.0,6,,,VIA,SOLARI ANDREA,002A,6
743,Acconciatore,VLE FORLANINI ENRICO con ingr. da p.zza artigianato num.0509; (z.d. 4),VIA,MINCIO,3,4157.0,4,,,VLE,FORLANINI ENRICO con ingr. da p.zza artigianato,0509,4
744,Acconciatore,VLE FORLANINI ENRICO num.0505; (z.d. 4),VIA,TAGLIAMENTO,19,4147.0,4,,48.0,VLE,FORLANINI ENRICO,0505,4
807,Tipo A - Estetica Manuale;Acconciatore,CSO GARIBALDI GIUSEPPE num.051a; (z.d. 1),VLE,CRISPI FRANCESCO,9,1063.0,1,1.0,21.0,CSO,GARIBALDI GIUSEPPE,051A,1
1202,Parrucchiere per Donna;Parrucchiere per Uomo,VLE TEODORICO num.0192; (z.d. 8),VIA,RUGGERO DI LAURIA,20,7163.0,8,,54.0,VLE,TEODORICO,0192,8
1632,Parrucchiere per Donna,VIA GIOIA MELCHIORRE num.055a; (z.d. 2),PZA,QUATTRO NOVEMBRE,6,1199.0,2,2.0,16.0,VIA,GIOIA MELCHIORRE,055A,2
1774,Parrucchiere per Donna,VIA MONTE ROSA num.019e; (z.d. 6),PZA,BAZZI GIOVANNI ANTONIO,2,6102.0,6,,,VIA,MONTE ROSA,019E,6
2220,Parrucchiere per Donna,VLE MONZA num.1773; (z.d. 2),VIA,OXILIA NINO,11,2287.0,2,,25.0,VLE,MONZA,1773,2


In [32]:
# Ensure the relevant columns are strings and handle any missing values (if necessary)
prova[['t_via', 'ubic_t_via', 'via', 'ubic_via', 'civ', 'ubic_civ', 'zd', 'ubic_zd']] = prova[['t_via', 'ubic_t_via', 'via', 'ubic_via', 'civ', 'ubic_civ', 'zd', 'ubic_zd']].fillna('').astype(str)

# Create conditions to check if the columns are different
conditions = (
    (prova['t_via'] != prova['ubic_t_via']) |
    (prova['via'] != prova['ubic_via']) |
    (prova['civ'] != prova['ubic_civ']) |
    (prova['zd'] != prova['ubic_zd'])
)

# Count how many rows satisfy any of the conditions
count_differences = conditions.sum()

print(f"Number of rows where any of the specified columns are different: {count_differences}")

Number of rows where any of the specified columns are different: 167


In [33]:
prova[(prova['t_via'] != prova['ubic_t_via']) |
    (prova['via'] != prova['ubic_via']) |
    (prova['civ'] != prova['ubic_civ']) |
    (prova['zd'] != prova['ubic_zd'])].to_csv("prova_1.csv")

In [34]:
new_SERVICES.columns

Index(['t_es', 'ubic', 't_via', 'via', 'civ', 'cod_via', 'zd', 'sup_alt',
       'sup_lav', 'ubic_t_via', 'ubic_via', 'ubic_civ', 'ubic_zd'],
      dtype='object')

In [35]:
SERVICES.civ.unique()

array(['10', '3', '9', '12', '13', '39', '25', '6', '20', '30', '2', '67',
       '16', '111', '36', '83', '5', '22', '23', '1', '4', '91', '8',
       '19', '38', nan, '1111', '46', '54', '65', '103', '40', '29', '32',
       '7', '17', '27', '12A', '48', '61', '47', '15', '232', '234', '57',
       '75', '34', '150', '71', '55', '21', '6A', '163', '90', '14', '53',
       '70', '119F', '26', '24', '40945', '128', '3B', '41', '64', '68',
       '35', '49', '42', '99', '52', '72', '117', '79', '96', '58', '81',
       '112', '93/1', '87', '63', '18', '123', '31', '33', '11', '242',
       '46D', '28', '80', '98', '59', '37', '43', '60', '50', '44', '246',
       '326', '407', '410', '51', '110', '130', '131', '157', '174', '62',
       '107', '73', '139', '147', '168', '213', '255', '279', '45', '77',
       '4A', '187', '89', '207', '227', '244', '56', '100', '104', '74',
       '66', '92', '108', '121', '76', '233', '249', '256', '267', '270',
       '82', '116', '236', '69', '178', 