In [1]:
import pandas as pd

# Load the data
df = pd.read_csv('SANSTRUT001.csv')

In [2]:
# Step 1: Remove duplicates
df = df.drop_duplicates()

In [5]:
# Step 2: Check and convert data types
# Convert 'COD_STRUTTURA_OD' and 'COD_STRUTTURA' to strings as they are identifiers
df['COD_STRUTTURA_OD'] = df['COD_STRUTTURA_OD'].astype(str)
df['COD_STRUTTURA'] = df['COD_STRUTTURA'].astype(str)

# Convert 'CAP' (postal code) and 'PARTITA_IVA' (VAT number) to strings as they are identifiers
df['CAP'] = df['CAP'].astype(str)
df['PARTITA_IVA'] = df['PARTITA_IVA'].astype(str)

In [7]:
# Step 3: Standardize text data
# Convert 'STRUTTURA' (facility name) and 'COMUNE' (city) to uppercase for consistency
df['STRUTTURA'] = df['STRUTTURA'].str.upper()
df['COMUNE'] = df['COMUNE'].str.upper()


In [8]:
# Step 4: Convert coordinates to floats, handling non-numeric values
# Replace commas with periods in 'LATITUDINE_P', 'LONGITUDINE_P', 'LATITUDINE_V', and 'LONGITUDINE_V', then convert to floats
df['LATITUDINE_P'] = pd.to_numeric(df['LATITUDINE_P'].astype(str).str.replace(',', '.'), errors='coerce')
df['LONGITUDINE_P'] = pd.to_numeric(df['LONGITUDINE_P'].astype(str).str.replace(',', '.'), errors='coerce')
df['LATITUDINE_V'] = pd.to_numeric(df['LATITUDINE_V'].astype(str).str.replace(',', '.'), errors='coerce')
df['LONGITUDINE_V'] = pd.to_numeric(df['LONGITUDINE_V'].astype(str).str.replace(',', '.'), errors='coerce')


In [9]:
# Step 5: Handle missing values
# Check for missing values and decide whether to drop or fill them based on importance
print("Missing values per column:\n", df.isnull().sum())

# Optionally, drop rows with NaN in critical columns like coordinates if necessary
# df = df.dropna(subset=['LATITUDINE_P', 'LONGITUDINE_P', 'LATITUDINE_V', 'LONGITUDINE_V'])

Missing values per column:
 COD_STRUTTURA_OD       0
COD_STRUTTURA          0
COD_REGIONE            0
COD_ASL                0
STRUTTURA              0
PARTITA_IVA            0
SITO_WEB               0
E_MAIL                 0
COD_COMUNE             0
COMUNE                 0
INDIRIZZO              0
CAP                    0
TELEFONO               0
FAX                    0
COD_TIPO_ASSISTENZA    0
ASSISTENZA             0
COD_TIPO_RAPPORTO      0
TIPO_RAPPORTO          0
TIPO_STRUTTURA         0
LATITUDINE_P           0
LONGITUDINE_P          0
LATITUDINE_V           0
LONGITUDINE_V          0
dtype: int64


In [None]:
# Drop the specified columns
#columns_to_remove = ['COD_STRUTTURA_OD', 'COD_STRUTTURA', 'COD_REGIONE', 'COD_ASL']
#df = df.drop(columns=columns_to_remove)

In [10]:
# Step 6: Save the cleaned data to a new CSV file
#df.to_csv('SANSTRUT001_cleaned.csv', index=False)

print("Cleaning and standardization for SANSTRUT001.csv is complete!")

Cleaning and standardization for SANSTRUT001.csv is complete!
