In [2]:
import pandas as pd

In [3]:
# Load the data
df = pd.read_csv('FARM001.csv')

# Display the first few rows
df.head()

Unnamed: 0,COD_FARMACIA_OD,COD_FARMACIA,FARMACIA,IVA,CAP,COD_COMUNE,COMUNE,FRAZIONE,COD_PROVINCIA,PROVINCIA,COD_REGIONE,REGIONE,DATA_INIZIO,INDIRIZZO,TIPOLOGIA,LATITUDINE_P,LONGITUDINE_P,LATITUDINE_V,LONGITUDINE_V
0,FAR042101004054,4054,SILVESTRI LUCIANA,673580221,38028,22152,REVO',-,TN,TRENTO,42,PROV. AUTON. TRENTO,2005-01-01,"VIA J. A. MAFFEI, 8",ORDINARIA,46.4123540693265,11.0520541954953,464123540693265,110520541954953
1,FAR042101004162,4162,FARMACIA GMG S.A.S. DEI DOTTORI RAVAGNANI CHIA...,2400290223,38061,22001,ALA,-,TN,TRENTO,42,PROV. AUTON. TRENTO,2017-07-01,"VIA DELLA ROGGIA, 9",ORDINARIA,45.7590051426327,11.0026564100186,457590051426327,110026564100186
2,FAR042101004163,4163,FRANZELLIN VITTORIO E C. SNC,2209460225,38061,22001,ALA,-,TN,TRENTO,42,PROV. AUTON. TRENTO,2011-09-01,"VIA SEGANTINI, 1",ORDINARIA,45.7479086521251,11.0414606774668,457479086521251,110414606774668
3,FAR042101004164,4164,BETTINAZZI - R. & T. PHARMA SNC,2018300224,38062,22006,ARCO,-,TN,TRENTO,42,PROV. AUTON. TRENTO,2009-09-01,"VIA GALAS, 49",ORDINARIA,45.9304227931688,10.9070021739945,459304227931688,109070021739945
4,FAR042101004165,4165,FAMIGLIA COOPERATIVA VALLAGARINA,106510225,38063,22007,AVIO,-,TN,TRENTO,42,PROV. AUTON. TRENTO,2005-01-01,"PIAZZA ROMA, 6",ORDINARIA,45.7321595956525,10.9198632803229,457321595956525,109198632803229


In [4]:
# Check for duplicates
duplicates = df.duplicated()
print("Number of duplicate rows:", duplicates.sum())

# Step 1: Remove duplicates
df = df.drop_duplicates()

Number of duplicate rows: 0


In [5]:
# Step 2: Check and convert data types
# - Check columns with postal codes, VAT numbers, etc., and ensure they are in the right format
df['COD_FARMACIA'] = df['COD_FARMACIA'].astype(str)   # Pharmacy code as string if it's an identifier
df['CAP'] = df['CAP'].astype(str)                     # Postal codes as string
df['IVA'] = df['IVA'].astype(str)                     # VAT numbers as string

In [6]:
# Step 3: Standardize text data for pharmacy names
df['FARMACIA'] = df['FARMACIA'].str.upper()

In [7]:
# Step 4: Convert coordinates to floats, handling non-numeric values
# Replace non-numeric entries like '-' with NaN, then convert to float

# Convert LATITUDINE_P
df['LATITUDINE_P'] = pd.to_numeric(df['LATITUDINE_P'].str.replace(',', '.'), errors='coerce')

# Convert LONGITUDINE_P
df['LONGITUDINE_P'] = pd.to_numeric(df['LONGITUDINE_P'].str.replace(',', '.'), errors='coerce')

# Convert LATITUDINE_V
df['LATITUDINE_V'] = pd.to_numeric(df['LATITUDINE_V'].str.replace(',', '.'), errors='coerce')

# Convert LONGITUDINE_V
df['LONGITUDINE_V'] = pd.to_numeric(df['LONGITUDINE_V'].str.replace(',', '.'), errors='coerce')

In [8]:
print("Missing values per column:\n", df.isnull().sum())

# Option 1: Drop rows with NaN in coordinates
#df = df.dropna(subset=['LATITUDINE_P', 'LONGITUDINE_P', 'LATITUDINE_V', 'LONGITUDINE_V'])

# Option 2: Fill NaN values with a default value (e.g., 0.0)
# df[['LATITUDINE_P', 'LONGITUDINE_P', 'LATITUDINE_V', 'LONGITUDINE_V']] = df[['LATITUDINE_P', 'LONGITUDINE_P', 'LATITUDINE_V', 'LONGITUDINE_V']].fillna(0.0)

Missing values per column:
 COD_FARMACIA_OD    0
COD_FARMACIA       0
FARMACIA           0
IVA                0
CAP                0
COD_COMUNE         0
COMUNE             0
FRAZIONE           0
COD_PROVINCIA      0
PROVINCIA          0
COD_REGIONE        0
REGIONE            0
DATA_INIZIO        0
INDIRIZZO          0
TIPOLOGIA          0
LATITUDINE_P       9
LONGITUDINE_P      9
LATITUDINE_V       9
LONGITUDINE_V      9
dtype: int64


In [9]:
# Step 5: Save the cleaned data to a new CSV file
#df.to_csv('FARM001_cleaned.csv', index=False)

#print("Cleaning and standardization for FARM001.csv is complete!")