In [2]:
import pandas as pd

In [3]:
# Load the data
df = pd.read_csv('OSPEDALI001.csv')

In [4]:
# Step 1: Remove duplicates
df = df.drop_duplicates()

In [5]:
# Step 2: Check and convert data types
# Convert 'COD_OSP', 'CAP' (postal code), and 'PARTITA_IVA' (VAT number) to strings as they are identifiers
df['COD_OSP'] = df['COD_OSP'].astype(str)
df['CAP'] = df['CAP'].astype(str)
df['PARTITA_IVA'] = df['PARTITA_IVA'].astype(str)

In [6]:
# Step 3: Standardize text data for hospital names and addresses
# Convert 'OSPEDALE' (hospital name) and 'COMUNE' (city name) to uppercase for consistency
df['OSPEDALE'] = df['OSPEDALE'].str.upper()
df['COMUNE'] = df['COMUNE'].str.upper()

In [7]:
# Step 4: Convert coordinates to floats, handling non-numeric values
# Convert to strings first, replace commas, then convert to numeric

df['LATITUDINE_P'] = pd.to_numeric(df['LATITUDINE_P'].astype(str).str.replace(',', '.'), errors='coerce')
df['LONGITUDINE_P'] = pd.to_numeric(df['LONGITUDINE_P'].astype(str).str.replace(',', '.'), errors='coerce')
df['LATITUDINE_V'] = pd.to_numeric(df['LATITUDINE_V'].astype(str).str.replace(',', '.'), errors='coerce')
df['LONGITUDINE_V'] = pd.to_numeric(df['LONGITUDINE_V'].astype(str).str.replace(',', '.'), errors='coerce')


In [8]:
# Step 5: Handle missing or NaN values in coordinates
# Optionally, you can drop rows with NaN coordinates or fill them with a default value if needed
#df = df.dropna(subset=['LATITUDINE_P', 'LONGITUDINE_P', 'LATITUDINE_V', 'LONGITUDINE_V'])
print("Missing values per column:\n", df.isnull().sum())


Missing values per column:
 COD_OSP_OD       0
COD_OSP          0
COD_REGIONE      0
COD_ASL          0
OSPEDALE         0
COD_COMUNE       0
COMUNE           0
INDIRIZZO        0
CAP              0
TELEFONO         0
COD_TIPO_OSP     0
TIPO_OSP         0
PARTITA_IVA      0
FAX              0
SITO_WEB         0
E_MAIL           0
LATITUDINE_P     0
LONGITUDINE_P    0
LATITUDINE_V     0
LONGITUDINE_V    0
dtype: int64


In [None]:
# Drop the specified columns
#columns_to_remove = ['COD_OSP', 'COD_TIPO_OSP']
#df = df.drop(columns=columns_to_remove)

In [9]:
# Step 6: Save the cleaned data to a new CSV file
#df.to_csv('OSPEDALI001_cleaned.csv', index=False)

print("Cleaning and standardization for OSPEDALI001.csv is complete!")

Cleaning and standardization for OSPEDALI001.csv is complete!
