In [2]:
import pandas as pd

# Load the data to check column names
df = pd.read_csv('ASSRESIDENZIALE001.csv')

In [3]:
# Step 1: Remove duplicates
df = df.drop_duplicates()

In [6]:
# Step 2: Check and convert data types
# Convert identifier columns to strings since they are codes
df['COD_STRUTTURA_OD'] = df['COD_STRUTTURA_OD'].astype(str)
df['COD_STRUTTURA'] = df['COD_STRUTTURA'].astype(str)
df['COD_TIPO_ASSISTENZA'] = df['COD_TIPO_ASSISTENZA'].astype(str)
df['COD_TIPO_RAPPORTO'] = df['COD_TIPO_RAPPORTO'].astype(str)

# Convert 'ANNO' to integer if it's a year
df['ANNO'] = df['ANNO'].astype(int)

# Ensure 'NUM_UTENTI', 'NUM_POSTI', 'NUM_GG_ASSISTENZA', 'NUM_AMMISSIONI', and 'NUM_DIMISSIONI' are integers
df['NUM_UTENTI'] = df['NUM_UTENTI'].astype(int)
df['NUM_POSTI'] = df['NUM_POSTI'].astype(int)
df['NUM_GG_ASSISTENZA'] = df['NUM_GG_ASSISTENZA'].astype(int)
df['NUM_AMMISSIONI'] = df['NUM_AMMISSIONI'].astype(int)
df['NUM_DIMISSIONI'] = df['NUM_DIMISSIONI'].astype(int)


In [7]:
# Step 3: Standardize text data
# Convert 'STRUTTURA', 'ASSISTENZA', 'TIPO_RAPPORTO', and 'TIPO_STRUTTURA' to uppercase
df['STRUTTURA'] = df['STRUTTURA'].str.upper()
df['ASSISTENZA'] = df['ASSISTENZA'].str.upper()
df['TIPO_RAPPORTO'] = df['TIPO_RAPPORTO'].str.upper()
df['TIPO_STRUTTURA'] = df['TIPO_STRUTTURA'].str.upper()


In [8]:
# Step 4: Handle missing values
# Check for missing values in each column
print("Missing values per column:\n", df.isnull().sum())

# Optionally, drop or fill missing values in key columns if necessary
# For example, drop rows with missing values in critical columns
# df = df.dropna(subset=['ANNO', 'NUM_UTENTI', 'NUM_POSTI', 'NUM_GG_ASSISTENZA', 'NUM_AMMISSIONI', 'NUM_DIMISSIONI'])


Missing values per column:
 COD_STRUTTURA_OD       0
COD_STRUTTURA          0
STRUTTURA              0
COD_TIPO_ASSISTENZA    0
ASSISTENZA             0
COD_TIPO_RAPPORTO      0
TIPO_RAPPORTO          0
TIPO_STRUTTURA         0
ANNO                   0
NUM_UTENTI             0
NUM_POSTI              0
NUM_GG_ASSISTENZA      0
NUM_AMMISSIONI         0
NUM_DIMISSIONI         0
dtype: int64


In [None]:
# Drop the specified columns
#columns_to_remove = ['COD_STRUTTURA_OD', 'COD_STRUTTURA', 'COD_TIPO_ASSISTENZA', 'COD_TIPO_RAPPORTO']
#df = df.drop(columns=columns_to_remove)

In [9]:
# Step 5: Save the cleaned data to a new CSV file
#df.to_csv('ASSRESIDENZIALE001_cleaned.csv', index=False)

print("Cleaning and standardization for ASSRESIDENZIALE001.csv is complete!")

Cleaning and standardization for ASSRESIDENZIALE001.csv is complete!
