In [1]:
import pandas as pd

# Load the data
df = pd.read_csv('RIASTRUT001.csv')


In [2]:
# Step 1: Remove duplicates
df = df.drop_duplicates()


In [3]:
# Step 2: Check and convert data types
# Convert 'COD_RIA_OD' and 'COD_RIA' to strings as they are identifiers
df['COD_RIA_OD'] = df['COD_RIA_OD'].astype(str)
df['COD_RIA'] = df['COD_RIA'].astype(str)


In [4]:
# Step 3: Standardize text data
# Convert 'STRUTTURA' (facility name) and 'COMUNE' (city name) to uppercase
df['STRUTTURA'] = df['STRUTTURA'].str.upper()
df['COMUNE'] = df['COMUNE'].str.upper()


In [5]:
# Step 4: Convert coordinates to floats, handling non-numeric values
# Replace commas with periods in 'LATITUDINE_P', 'LONGITUDINE_P', 'LATITUDINE_V', and 'LONGITUDINE_V', then convert to floats
df['LATITUDINE_P'] = pd.to_numeric(df['LATITUDINE_P'].astype(str).str.replace(',', '.'), errors='coerce')
df['LONGITUDINE_P'] = pd.to_numeric(df['LONGITUDINE_P'].astype(str).str.replace(',', '.'), errors='coerce')
df['LATITUDINE_V'] = pd.to_numeric(df['LATITUDINE_V'].astype(str).str.replace(',', '.'), errors='coerce')
df['LONGITUDINE_V'] = pd.to_numeric(df['LONGITUDINE_V'].astype(str).str.replace(',', '.'), errors='coerce')


In [6]:
# Step 5: Handle missing values
# Check for missing values and decide whether to drop or fill them based on importance
print("Missing values per column:\n", df.isnull().sum())

Missing values per column:
 COD_RIA_OD       0
COD_RIA          0
COD_REGIONE      0
COD_ASL          0
STRUTTURA        0
COD_COMUNE       0
COMUNE           0
TELEFONO         0
LATITUDINE_P     0
LONGITUDINE_P    0
LATITUDINE_V     0
LONGITUDINE_V    0
dtype: int64


In [None]:
# Drop the specified columns
#columns_to_remove = ['COD_RIA_OD', 'COD_RIA', 'COD_REGIONE', 'COD_ASL']
#df = df.drop(columns=columns_to_remove)

In [7]:
# Step 6: Save the cleaned data to a new CSV file
#df.to_csv('RIASTRUT001_cleaned.csv', index=False)

print("Cleaning and standardization for RIASTRUT001.csv is complete!")

Cleaning and standardization for RIASTRUT001.csv is complete!
