In [12]:
import pandas as pd


In [13]:
# Load the data
df = pd.read_csv('PARAFARM001.csv')

df.head()

Unnamed: 0,COD_PARAFARMACIA_OD,COD_PARAFARMACIA,PARAFARMACIA,IVA,CAP,COD_COMUNE,COMUNE,INDIRIZZO,FRAZIONE,COD_PROVINCIA,PROVINCIA,COD_REGIONE,REGIONE,DATA_INIZIO,LATITUDINE_P,LONGITUDINE_P,LATITUDINE_V,LONGITUDINE_V
0,PFA042101002507,2507,COOP SUPERSTORE CENTRO COMM.DIR.TRENTO SUD,1542000227,38100,22205,TRENTO,VIA DE GASPERI 1-11-12-13-17,-,TN,TRENTO,42,PROV. AUTON. TRENTO,2007-01-01,46.14863,11.09504,4614863,110950399
1,PFA042101002508,2508,COOP SUPERSTORE MILLENIUM,1542000227,38068,22161,ROVERETO,VIA DEL GARDA 95,-,TN,TRENTO,42,PROV. AUTON. TRENTO,2007-01-01,45.872599,11.021258,458725985975744,11021257749762
2,PFA042101003394,3394,ERBORISTERIA ANCUSA,1457730222,38057,22139,PERGINE VALSUGANA,VIA REGENSBURGER 43,-,TN,TRENTO,42,PROV. AUTON. TRENTO,2007-06-01,46.070266,11.237677,460702663118121,112376773447364
3,PFA042101003686,3686,ARS MEDICA DI LAURA BALDUCCI & LORENZA VENTURA...,1534610223,38086,22143,PINZOLO,VIA MARCONI 20,-,TN,TRENTO,42,PROV. AUTON. TRENTO,2007-08-01,46.159056,10.763246,461590562564702,107632459687159
4,PFA042101003915,3915,PARAFARMACIA DOTT.SSA SITTONI ANGELA,2037520224,38057,22139,PERGINE VALSUGANA,VIA 3 NOVEMBRE NR. 1,-,TN,TRENTO,42,PROV. AUTON. TRENTO,2007-09-01,46.060829,11.241801,46060829,11241801


In [14]:
# Step 1: Remove duplicates
df = df.drop_duplicates()

In [15]:
# Step 2: Check and convert data types
# Convert 'COD_PARAFARMACIA' and 'CAP' (postal code) to strings since they are identifiers
df['COD_PARAFARMACIA'] = df['COD_PARAFARMACIA'].astype(str)
df['CAP'] = df['CAP'].astype(str)
df['IVA'] = df['IVA'].astype(str)  # VAT number also as string


In [16]:
# Step 3: Standardize text data
# Convert 'PARAFARMACIA' (name) and 'COMUNE' (city) to uppercase for consistency
df['PARAFARMACIA'] = df['PARAFARMACIA'].str.upper()
df['COMUNE'] = df['COMUNE'].str.upper()

In [17]:
# Step 4: Convert coordinates to floats, handling non-numeric values
# Convert LATITUDINE_P, LONGITUDINE_P, LATITUDINE_V, and LONGITUDINE_V columns to float
df['LATITUDINE_P'] = pd.to_numeric(df['LATITUDINE_P'].astype(str).str.replace(',', '.'), errors='coerce')
df['LONGITUDINE_P'] = pd.to_numeric(df['LONGITUDINE_P'].astype(str).str.replace(',', '.'), errors='coerce')
df['LATITUDINE_V'] = pd.to_numeric(df['LATITUDINE_V'].astype(str).str.replace(',', '.'), errors='coerce')
df['LONGITUDINE_V'] = pd.to_numeric(df['LONGITUDINE_V'].astype(str).str.replace(',', '.'), errors='coerce')


In [18]:
# Step 5: Handle missing or NaN values in coordinates
# Optionally, drop rows with NaN in coordinate columns if critical
print("Missing values per column:\n", df.isnull().sum())

#df = df.dropna(subset=['LATITUDINE_P', 'LONGITUDINE_P', 'LATITUDINE_V', 'LONGITUDINE_V'])

Missing values per column:
 COD_PARAFARMACIA_OD    0
COD_PARAFARMACIA       0
PARAFARMACIA           0
IVA                    0
CAP                    0
COD_COMUNE             0
COMUNE                 0
INDIRIZZO              0
FRAZIONE               0
COD_PROVINCIA          0
PROVINCIA              0
COD_REGIONE            0
REGIONE                0
DATA_INIZIO            0
LATITUDINE_P           0
LONGITUDINE_P          0
LATITUDINE_V           0
LONGITUDINE_V          0
dtype: int64


In [None]:
# Drop the specified columns
#columns_to_remove = ['COD_PARAFARMACIA_OD', 'COD_PARAFARMACIA']
#df = df.drop(columns=columns_to_remove)

In [19]:
# Step 6: Save the cleaned data to a new CSV file
#df.to_csv('PARAFARM001_cleaned.csv', index=False)

print("Cleaning and standardization for PARAFARM001.csv is complete!")

Cleaning and standardization for PARAFARM001.csv is complete!
