# Notebook 01: basic data preparation (XLSX >>> cleaning >>> CSV)

Authors: Fabio Morea, Leyla Vesnic @ Area Science Park
 
Description: python scripts to clean and prepare data on regional companies.
This script imports data from 'IMPRESE.xlsx' and produces clean data in the form of .csv files.

License: 
scripts are available under CC-BY-4.0
data is not included in the package

Code is mantained on GitLab: https://gitlab.com/area-science-park-sustainability/imprese-fvg

# comments and instructions for developers
i dati sono contenuti in 2 fogli di lavoro
vengono convertiti in 2 file csv 

per approfondire: trattare i csv è più veloce rispetto a xls e consente condivisione nel data repository) cfr: https://stackoverflow.com/questions/50695778/how-to-increase-process-speed-using-read-excel-in-pandas

* creazione id_sede (corrisponde a CF, ma 
                        è più efficiente 
                        non è "dato personale")

* creazione id_impresa (un'impresa ha più sedi identificate da un numero 0 = SEDE , 1 = UL1...)

directory o file di input e output:
        ....

operazioni preliminari:
    1- spostare il file IMPRESE.xlsx nella directory di lavoro

operazioni eseguite da questo script

In [1]:
# Setup
import sys
import os
from pathlib import Path
import datetime
import pandas as pd
import numpy as np
pd.options.display.max_columns = None

In [2]:
current_path = Path(os.getcwd())
data_subdir = "data"
data_path = current_path.parent / data_subdir
data_dir = str(data_path)
listafile = os.listdir(data_path)
listafile = list(filter(lambda x: 'imprese_fvg_' in x, listafile))  
assert len(listafile) >= 1, f"Errore: non trovo i file dati nella cartella {data_dir}"

In [3]:
file_da_elaborare = '10_2023'   # mese da modificare ad ogni aggiornamento
excel_file  = data_dir + '\\imprese_fvg_' + file_da_elaborare + '.xlsx'
print(f'Carico i dati presenti nel file {excel_file}')

Carico i dati presenti nel file c:\Users\longato\OneDrive - Area Science Park\Data Repository\dataset_imprese_fvg\data\imprese_fvg_10_2023.xlsx


In [4]:
xl = pd.ExcelFile(  excel_file, engine="openpyxl")
xl_sheets = xl.sheet_names  # see all sheet names
assert xl_sheets == ['FRIULI Anagrafica', 'FRIULI codice attività']

  warn("Workbook contains no default style, apply openpyxl's default")


## Primo foglio: FRIULI Anagrafica

In [5]:
df_anagrafica = xl.parse(   'FRIULI Anagrafica', 
                            header = 0, 
                            dtype=str,
                            keep_default_na=False)

  warn(msg)
  warn(msg)


In [6]:
#crea dizionario con i nomi di colonna originali e corretti
cols_df = pd.read_excel('cols_dict.xlsx', sheet_name='anagrafica') 
l1 = cols_df['nomi_colonne_originali']
l2 = cols_df['nomi_colonne_corretti']
cols_dic = dict(zip(l1,l2))
df_anagrafica.rename(columns=cols_dic, inplace=True)

In [7]:
df_anagrafica['fonte'] = 'I'
df_anagrafica['mm_aaaa'] = file_da_elaborare

In [8]:
df_anagrafica['n_sede'] = df_anagrafica['sede_ul'].str[3:] 


In [9]:

df_anagrafica.loc[ df_anagrafica['n_sede'] == 'E', 'n_sede'] = '0'
df_anagrafica['n_sede'].tolist()


['0',
 '0',
 '2',
 '4',
 '1',
 '0',
 '0',
 '0',
 '8',
 '0',
 '6',
 '7',
 '1',
 '2',
 '9',
 '0',
 '1',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '2',
 '3',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '2',
 '3',
 '3',
 '0',
 '1',
 '2',
 '0',
 '0',
 '0',
 '2',
 '0',
 '1',
 '0',
 '0',
 '2',
 '0',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '1',
 '0',
 '2',
 '4',
 '0',
 '0',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '2',
 '0',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '0',
 '3',
 '4',
 '0',
 '0',
 '0',
 '1',
 '0',
 '1',
 '1',
 '0',
 '0',
 '0',
 '2',
 '0',
 '0',
 '0',
 '0',
 '0',
 '2',
 '0',
 '0',
 '0',
 '3',
 '0',
 '0',
 '0',
 '0',
 '1',
 '11',
 '2',
 '0',
 '0',
 '0',
 '7',
 '0',
 '2',
 '8',
 '0',
 '2',
 '1',
 '0',
 '2',
 '0',
 '1',
 '2',
 '0',
 '1',
 '3',
 '0',
 '1',
 '0',
 '0',
 '0',
 '0',
 '0',
 '3',
 '0',
 '1',
 '0',
 '0',
 '1',
 '2',
 '5',
 '0',
 '2',
 '6',
 '0',
 '0',
 '1',
 '4',
 '0',
 '0',
 '2',
 '0',
 '1',
 '1',
 '2',
 '3',
 '0',
 '1

In [10]:
# TODO: aggiungere controlli sui dati mancanti: sostituire con NaN o con "" 
dim = df_anagrafica.shape #numero di righe e colonne del dataset
print(f'dimensioni del dataset (righe,colonne) = {dim}\n')
print(df_anagrafica.info())

dimensioni del dataset (righe,colonne) = (199374, 58)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 199374 entries, 0 to 199373
Data columns (total 58 columns):
 #   Column                 Non-Null Count   Dtype 
---  ------                 --------------   ----- 
 0   cf                     199374 non-null  object
 1   prov                   199374 non-null  object
 2   reg_imp_n              199374 non-null  object
 3   rea                    199374 non-null  object
 4   sede_ul                199374 non-null  object
 5   n-albo_art             199374 non-null  object
 6   reg_imp_sez            199374 non-null  object
 7   ng2                    199374 non-null  object
 8   ng_esteso              199374 non-null  object
 9   tipo_impresa           199374 non-null  object
 10  data_isc_ri            199374 non-null  object
 11  data_isc_rd            199374 non-null  object
 12  data_isc_aa            199374 non-null  object
 13  data_apert_ul          199374 non-null  object
 1

In [11]:
#strip special characters
# TODO da migliorare con re
#chars_to_strip = '\\n\\t\\r|#'
cols_to_strip = [ 'denominazione',  'descrizione_attivita', 'indirizzo']
for ccc in cols_to_strip:
        if isinstance(ccc, str): 
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '\\n',     ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '\\t',     ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '\\r',     ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '"' ,      ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  "'" ,      ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '|' ,      ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '_x000D_', ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '' ,      ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '#' ,      ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '' ,      ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '#' ,      ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '\*+',     ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.replace(  '-' ,      ' ', regex = True)
                df_anagrafica[ccc] = df_anagrafica[ccc].str.strip()
                print(ccc, " ok")

df_anagrafica['reg_imp_n'] = df_anagrafica['reg_imp_n'].str.replace(r'\(', '', regex=True)
df_anagrafica['reg_imp_n'] = df_anagrafica['reg_imp_n'].str.replace(r'\)', '', regex=True)


denominazione  ok
descrizione_attivita  ok
indirizzo  ok


In [12]:
df_anagrafica= df_anagrafica.loc[df_anagrafica['data_cess_att'].isin([''])]
df_anagrafica

Unnamed: 0,cf,prov,reg_imp_n,rea,sede_ul,n-albo_art,reg_imp_sez,ng2,ng_esteso,tipo_impresa,data_isc_ri,data_isc_rd,data_isc_aa,data_apert_ul,data_canc,data_ini_at,data_cess_att,data_fall,data_liquid,denominazione,indirizzo,indirizzo_strad,indirizzo_cap,comune,indirizzo_fraz,indirizzo_altre,addetti_aaaa,addetti_indip,addetti_dip,piva,tel,capitale,descrizione_attivita,capitale_valuta,stato_impresa,tipo_sedeul_1,tipo_sedeul_2,tipo_sedeul_3,tipo_sedeul_4,tipo_sedeul_5,imp_sedi_ee,imp_eefvg,imp_pmi,imp_startup,imp_femmilile,imp_giovanile,imp_straniera,PEC,data_fine_aa,data_cost,tipo_localizzazione,last_update,prov_camera_commercio,REA_camera_commercio,PRO_LOCALIZZAZIONE,fonte,mm_aaaa,n_sede
0,00000470310,GO,GO007-1352,37843,SEDE,,O,SN,SN - SOCIETA' IN NOME COLLETTIVO,SOCIETA' DI PERSONE,4996-02-19 00:00:00,4975-01-14 00:00:00,,,,,,,,P E L L I Z Z A R I S I L V I O D I S E ...,V I A P E S C H E R I A 4,,34071,CORMONS - GO,,,1999,0,0,00000470310,0481/60323,,C O M M E R C I O A L M I N U T O T A B ...,,INATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,,,4974-08-26 00:00:00,SE - SEDE PRINCIPALE,2022-08-01 00:00:00,GO,37843,0,I,10_2023,0
1,00002070324,TS,TS006-7084,65026,SEDE,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,4996-02-19 00:00:00,4969-01-30 00:00:00,,,,4969-01-30 00:00:00,,,,B . F . B . C A S A D I S P E D I Z ...,V I A C O R T I 2,,34123,TRIESTE - TS,,,2023,0,16,00002070324,040/3220798,20000,"S P E D I Z I O N I D O G A N A L I , D A ...",EURO,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CLAUDIO.BROSCH@PEC.BFBTRIESTE.COM,,4969-01-30 00:00:00,SE - SEDE PRINCIPALE,2023-07-28 00:00:00,TS,65026,0,I,10_2023,0
2,00002070324,TS,TS006-7084,65026,UL-2,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,4996-02-19 00:00:00,4969-01-30 00:00:00,,5007-08-01 00:00:00,,,,,,B . F . B . C A S A D I S P E D I Z ...,F E R N E T T I 5,,34016,MONRUPINO - TS,,"AUTOPORTO, MODULO 50",2023,0,16,00002070324,040/3220798,20000,"S P E D I Z I O N I D O G A N A L I , D A ...",EURO,ATTIVA,U - UFFICIO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CLAUDIO.BROSCH@PEC.BFBTRIESTE.COM,,4969-01-30 00:00:00,UL - UNITÀ LOCALE,2023-07-28 00:00:00,TS,65026,2,I,10_2023,2
3,00002070324,TS,TS006-7084,65026,UL-4,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,4996-02-19 00:00:00,4969-01-30 00:00:00,,5015-10-15 00:00:00,,,,,,B . F . B . C A S A D I S P E D I Z ...,P U N T O F R A N C O N U O V O E X ...,,34123,TRIESTE - TS,,,2023,0,16,00002070324,040/3220798,20000,"S P E D I Z I O N I D O G A N A L I , D A ...",EURO,ATTIVA,U - UFFICIO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CLAUDIO.BROSCH@PEC.BFBTRIESTE.COM,,4969-01-30 00:00:00,UL - UNITÀ LOCALE,2023-07-28 00:00:00,TS,65026,4,I,10_2023,4
5,00006350938,PN,PN033-1275,9764,SEDE,,O,AS,AS - SOCIETA' IN ACCOMANDITA SEMPLICE,SOCIETA' DI PERSONE,4996-02-19 00:00:00,4965-11-18 00:00:00,,,,4965-10-30 00:00:00,,,,C A R R O Z Z E R I A A Z Z A N E S E D I ...,V I A F I U M I C I N O 1 4,,33082,AZZANO DECIMO - PN,,,2023,1,0,00006350938,0434/631194,0,D A L 0 9 / 0 7 / 2 0 1 3 C O M M E R C I ...,EURO,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CAR.AZZANESESNC@TICERTIFICA.IT,,4965-10-30 00:00:00,SE - SEDE PRINCIPALE,2023-02-03 00:00:00,PN,9764,0,I,10_2023,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
199369,ZZZNTN78H14L195O,UD,UD-2009-7369,270774,SEDE,UD-87280,A-P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,5009-03-10 00:00:00,5009-03-10 00:00:00,5009-03-10 00:00:00,,,5009-03-10 00:00:00,,,,Z O Z Z O L I A N T O N I O,V I A A O N E S I 4 2,,33027,PAULARO - UD,,,2023,1,0,02564170302,328/8878256,,"A T T I V I T A : C O S T R U Z I O N E , ...",,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,ANTONIO.ZOZZOLI@PEC.IT,,,SE - SEDE PRINCIPALE,2013-07-08 00:00:00,UD,270774,0,I,10_2023,0
199370,ZZZRRT70L67L424I,TS,TS-2008-2532,127748,SEDE,TS-25173,A-P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,5008-02-21 00:00:00,5008-02-19 00:00:00,5008-02-01 00:00:00,,,5008-02-01 00:00:00,,,,E S T E T I C A S A G I T T A R I O D I ...,V I A P A L E S T R I N A 3,,34133,TRIESTE - TS,,,2023,1,0,01139490328,040/635812,,A T T I V I T A : I S T I T U T O D I ...,,ATTIVA,,,,,,,,NO,NO,ESCLUSIVA,NON GIOVANE,ITALIANA,ROBERTAZAZZERON@PEC.IT,,,SE - SEDE PRINCIPALE,2013-06-27 00:00:00,TS,127748,0,I,10_2023,0
199371,ZZZRRT74D06Z700T,PN,PN-1998-2076,70327,SEDE,,P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,4998-01-27 00:00:00,4998-01-15 00:00:00,,,,4998-01-01 00:00:00,,,,Z A Z Z A R I N I R O B E R T O,V I A S A N T A M A R G H E R I T A 2 5,,33098,VALVASONE ARZENE - PN,,ARZENE,1999,0,0,01353640939,340/3434447,,,,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ESCLUSIVA,ROBERTO.ZAZZARINI@PEC.AGRITEL.IT,,,SE - SEDE PRINCIPALE,2015-03-25 00:00:00,PN,70327,0,I,10_2023,0
199372,ZZZSVN46E60G381I,UD,UD-1997-169758,227639,SEDE,,P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,4996-12-02 00:00:00,4996-12-02 00:00:00,,,,4991-03-09 00:00:00,,,,Z O Z Z O L I S I L V A N A,F R A Z I O N E R A V I N I S 1 9 / A,,33027,PAULARO - UD,,,1999,0,0,01721960308,,,,,ATTIVA,,,,,,,,NO,NO,ESCLUSIVA,NON GIOVANE,ITALIANA,ZOZZOLI.SILVANA@CIA.LEGALMAIL.IT,,,SE - SEDE PRINCIPALE,2014-03-13 00:00:00,UD,227639,0,I,10_2023,0


In [13]:
# Le date nel file originale hanno alcuni problemi: (1) sottrarre 3000 all'anno, 
# (2) gestire correttamente errori e "nan", (3)eliminare date antecedenti al 1800 o successive al 2099

def anno_corretto(dstring:str) -> str:
    num =0
    dstring = str(dstring)[:10]
    if len(dstring) < 4:
        result = "NaT"
    else:
        try:
            num = int(dstring[0:2])
            if num >= 48 and num <= 51: #anni fra il 1800 e il 2100
                num = num - 30
                result = str(num) + dstring[2:]
            else:
                result = "NaT"
        except:
            result = "NaT"
    return result   

In [14]:
assert anno_corretto('x')   == 'NaT'
assert anno_corretto('1799-03-01') == 'NaT'
assert anno_corretto('2100-03-01') == 'NaT'
assert anno_corretto('4987-03-01') == '1987-03-01'
assert anno_corretto('5021-03-01') == '2021-03-01'
pass

In [15]:
cols_date = ['data_isc_ri', 'data_isc_aa', 'data_liquid','data_cess_att',  'data_fall', 'data_apert_ul', 'data_fine_aa']
#'data_isc_rd'
#'data_ini_at'
#'data_cost'

# i tre campi data in formato commento non vengono gestiti dalla funzione "anno corretto" in modo da lasciare il +3000 da poter gesitre in excel

#cols_date = [d for d in df_anagrafica.columns if d.startswith('data')]
print(cols_date)
for col in cols_date:
    datestring3000 = df_anagrafica[col].tolist()
    #print(datestring3000)
    datestring = [anno_corretto(item) for item in datestring3000]
    df_anagrafica[col] = pd.to_datetime(datestring)#, errors = 'coerce')
    #print(df_anagrafica[col])

['data_isc_ri', 'data_isc_aa', 'data_liquid', 'data_cess_att', 'data_fall', 'data_apert_ul', 'data_fine_aa']


### id localiz e id impresa

In [16]:
#creo key_clf che servirà per connettere id_localiz al dataset dei codici
df_anagrafica['key_cfl'] = df_anagrafica['cf'] + '_'  + df_anagrafica['n_sede'].apply(str)
df_anagrafica.info()

<class 'pandas.core.frame.DataFrame'>
Index: 195917 entries, 0 to 199373
Data columns (total 59 columns):
 #   Column                 Non-Null Count   Dtype         
---  ------                 --------------   -----         
 0   cf                     195917 non-null  object        
 1   prov                   195917 non-null  object        
 2   reg_imp_n              195917 non-null  object        
 3   rea                    195917 non-null  object        
 4   sede_ul                195917 non-null  object        
 5   n-albo_art             195917 non-null  object        
 6   reg_imp_sez            195917 non-null  object        
 7   ng2                    195917 non-null  object        
 8   ng_esteso              195917 non-null  object        
 9   tipo_impresa           195917 non-null  object        
 10  data_isc_ri            194283 non-null  datetime64[ns]
 11  data_isc_rd            195917 non-null  object        
 12  data_isc_aa            31259 non-null   datetime6

In [17]:
# creo colonna temporanea anni per ordinare gli indici
df_anagrafica['min_date']   = pd.to_datetime( df_anagrafica[cols_date].min(axis=1) )
df_anagrafica['today']      = pd.to_datetime( pd.Timestamp.today().strftime('%Y-%m-%d') ) 
df_anagrafica['anni_timedelta'] =  (df_anagrafica['today']  - df_anagrafica['min_date'])
df_anagrafica['anni'] = df_anagrafica['anni_timedelta'].dt.total_seconds() / (60 * 60 * 24 * 365)
df_anagrafica.drop(columns='today')
df_anagrafica.drop(columns='anni_timedelta')

Unnamed: 0,cf,prov,reg_imp_n,rea,sede_ul,n-albo_art,reg_imp_sez,ng2,ng_esteso,tipo_impresa,data_isc_ri,data_isc_rd,data_isc_aa,data_apert_ul,data_canc,data_ini_at,data_cess_att,data_fall,data_liquid,denominazione,indirizzo,indirizzo_strad,indirizzo_cap,comune,indirizzo_fraz,indirizzo_altre,addetti_aaaa,addetti_indip,addetti_dip,piva,tel,capitale,descrizione_attivita,capitale_valuta,stato_impresa,tipo_sedeul_1,tipo_sedeul_2,tipo_sedeul_3,tipo_sedeul_4,tipo_sedeul_5,imp_sedi_ee,imp_eefvg,imp_pmi,imp_startup,imp_femmilile,imp_giovanile,imp_straniera,PEC,data_fine_aa,data_cost,tipo_localizzazione,last_update,prov_camera_commercio,REA_camera_commercio,PRO_LOCALIZZAZIONE,fonte,mm_aaaa,n_sede,key_cfl,min_date,today,anni
0,00000470310,GO,GO007-1352,37843,SEDE,,O,SN,SN - SOCIETA' IN NOME COLLETTIVO,SOCIETA' DI PERSONE,1996-02-19,4975-01-14 00:00:00,NaT,NaT,,,NaT,NaT,NaT,P E L L I Z Z A R I S I L V I O D I S E ...,V I A P E S C H E R I A 4,,34071,CORMONS - GO,,,1999,0,0,00000470310,0481/60323,,C O M M E R C I O A L M I N U T O T A B ...,,INATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,,NaT,4974-08-26 00:00:00,SE - SEDE PRINCIPALE,2022-08-01 00:00:00,GO,37843,0,I,10_2023,0,00000470310_0,1996-02-19,2023-10-19,27.682192
1,00002070324,TS,TS006-7084,65026,SEDE,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4969-01-30 00:00:00,NaT,NaT,,4969-01-30 00:00:00,NaT,NaT,NaT,B . F . B . C A S A D I S P E D I Z ...,V I A C O R T I 2,,34123,TRIESTE - TS,,,2023,0,16,00002070324,040/3220798,20000,"S P E D I Z I O N I D O G A N A L I , D A ...",EURO,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CLAUDIO.BROSCH@PEC.BFBTRIESTE.COM,NaT,4969-01-30 00:00:00,SE - SEDE PRINCIPALE,2023-07-28 00:00:00,TS,65026,0,I,10_2023,0,00002070324_0,1996-02-19,2023-10-19,27.682192
2,00002070324,TS,TS006-7084,65026,UL-2,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4969-01-30 00:00:00,NaT,2007-08-01,,,NaT,NaT,NaT,B . F . B . C A S A D I S P E D I Z ...,F E R N E T T I 5,,34016,MONRUPINO - TS,,"AUTOPORTO, MODULO 50",2023,0,16,00002070324,040/3220798,20000,"S P E D I Z I O N I D O G A N A L I , D A ...",EURO,ATTIVA,U - UFFICIO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CLAUDIO.BROSCH@PEC.BFBTRIESTE.COM,NaT,4969-01-30 00:00:00,UL - UNITÀ LOCALE,2023-07-28 00:00:00,TS,65026,2,I,10_2023,2,00002070324_2,1996-02-19,2023-10-19,27.682192
3,00002070324,TS,TS006-7084,65026,UL-4,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4969-01-30 00:00:00,NaT,2015-10-15,,,NaT,NaT,NaT,B . F . B . C A S A D I S P E D I Z ...,P U N T O F R A N C O N U O V O E X ...,,34123,TRIESTE - TS,,,2023,0,16,00002070324,040/3220798,20000,"S P E D I Z I O N I D O G A N A L I , D A ...",EURO,ATTIVA,U - UFFICIO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CLAUDIO.BROSCH@PEC.BFBTRIESTE.COM,NaT,4969-01-30 00:00:00,UL - UNITÀ LOCALE,2023-07-28 00:00:00,TS,65026,4,I,10_2023,4,00002070324_4,1996-02-19,2023-10-19,27.682192
5,00006350938,PN,PN033-1275,9764,SEDE,,O,AS,AS - SOCIETA' IN ACCOMANDITA SEMPLICE,SOCIETA' DI PERSONE,1996-02-19,4965-11-18 00:00:00,NaT,NaT,,4965-10-30 00:00:00,NaT,NaT,NaT,C A R R O Z Z E R I A A Z Z A N E S E D I ...,V I A F I U M I C I N O 1 4,,33082,AZZANO DECIMO - PN,,,2023,1,0,00006350938,0434/631194,0,D A L 0 9 / 0 7 / 2 0 1 3 C O M M E R C I ...,EURO,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CAR.AZZANESESNC@TICERTIFICA.IT,NaT,4965-10-30 00:00:00,SE - SEDE PRINCIPALE,2023-02-03 00:00:00,PN,9764,0,I,10_2023,0,00006350938_0,1996-02-19,2023-10-19,27.682192
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
199369,ZZZNTN78H14L195O,UD,UD-2009-7369,270774,SEDE,UD-87280,A-P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,2009-03-10,5009-03-10 00:00:00,2009-03-10,NaT,,5009-03-10 00:00:00,NaT,NaT,NaT,Z O Z Z O L I A N T O N I O,V I A A O N E S I 4 2,,33027,PAULARO - UD,,,2023,1,0,02564170302,328/8878256,,"A T T I V I T A : C O S T R U Z I O N E , ...",,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,ANTONIO.ZOZZOLI@PEC.IT,NaT,,SE - SEDE PRINCIPALE,2013-07-08 00:00:00,UD,270774,0,I,10_2023,0,ZZZNTN78H14L195O_0,2009-03-10,2023-10-19,14.619178
199370,ZZZRRT70L67L424I,TS,TS-2008-2532,127748,SEDE,TS-25173,A-P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,2008-02-21,5008-02-19 00:00:00,2008-02-01,NaT,,5008-02-01 00:00:00,NaT,NaT,NaT,E S T E T I C A S A G I T T A R I O D I ...,V I A P A L E S T R I N A 3,,34133,TRIESTE - TS,,,2023,1,0,01139490328,040/635812,,A T T I V I T A : I S T I T U T O D I ...,,ATTIVA,,,,,,,,NO,NO,ESCLUSIVA,NON GIOVANE,ITALIANA,ROBERTAZAZZERON@PEC.IT,NaT,,SE - SEDE PRINCIPALE,2013-06-27 00:00:00,TS,127748,0,I,10_2023,0,ZZZRRT70L67L424I_0,2008-02-01,2023-10-19,15.723288
199371,ZZZRRT74D06Z700T,PN,PN-1998-2076,70327,SEDE,,P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,1998-01-27,4998-01-15 00:00:00,NaT,NaT,,4998-01-01 00:00:00,NaT,NaT,NaT,Z A Z Z A R I N I R O B E R T O,V I A S A N T A M A R G H E R I T A 2 5,,33098,VALVASONE ARZENE - PN,,ARZENE,1999,0,0,01353640939,340/3434447,,,,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ESCLUSIVA,ROBERTO.ZAZZARINI@PEC.AGRITEL.IT,NaT,,SE - SEDE PRINCIPALE,2015-03-25 00:00:00,PN,70327,0,I,10_2023,0,ZZZRRT74D06Z700T_0,1998-01-27,2023-10-19,25.742466
199372,ZZZSVN46E60G381I,UD,UD-1997-169758,227639,SEDE,,P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,1996-12-02,4996-12-02 00:00:00,NaT,NaT,,4991-03-09 00:00:00,NaT,NaT,NaT,Z O Z Z O L I S I L V A N A,F R A Z I O N E R A V I N I S 1 9 / A,,33027,PAULARO - UD,,,1999,0,0,01721960308,,,,,ATTIVA,,,,,,,,NO,NO,ESCLUSIVA,NON GIOVANE,ITALIANA,ZOZZOLI.SILVANA@CIA.LEGALMAIL.IT,NaT,,SE - SEDE PRINCIPALE,2014-03-13 00:00:00,UD,227639,0,I,10_2023,0,ZZZSVN46E60G381I_0,1996-12-02,2023-10-19,26.895890


In [18]:
df_anagrafica.sort_values(by = ['anni', 'key_cfl'], ascending=False, inplace = True)

In [19]:
df_anagrafica

Unnamed: 0,cf,prov,reg_imp_n,rea,sede_ul,n-albo_art,reg_imp_sez,ng2,ng_esteso,tipo_impresa,data_isc_ri,data_isc_rd,data_isc_aa,data_apert_ul,data_canc,data_ini_at,data_cess_att,data_fall,data_liquid,denominazione,indirizzo,indirizzo_strad,indirizzo_cap,comune,indirizzo_fraz,indirizzo_altre,addetti_aaaa,addetti_indip,addetti_dip,piva,tel,capitale,descrizione_attivita,capitale_valuta,stato_impresa,tipo_sedeul_1,tipo_sedeul_2,tipo_sedeul_3,tipo_sedeul_4,tipo_sedeul_5,imp_sedi_ee,imp_eefvg,imp_pmi,imp_startup,imp_femmilile,imp_giovanile,imp_straniera,PEC,data_fine_aa,data_cost,tipo_localizzazione,last_update,prov_camera_commercio,REA_camera_commercio,PRO_LOCALIZZAZIONE,fonte,mm_aaaa,n_sede,key_cfl,min_date,today,anni_timedelta,anni
10288,00410200026,MC,SI015-3546,93970,UL-99,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4993-02-16 00:00:00,NaT,1898-11-12,,,NaT,NaT,NaT,B O T T E G A V E R D E S . R . L .,V I A V E L L U T I,,62100,MACERATA - MC,PIEDIRIPA,CENTRO COMM.LE VAL DI CHIENTI,2023,0,916,00823350525,0578/748791,120000,C O M M E R C I O A L L I N G R O S S O ...,EURO,ATTIVA,NE - NEGOZIO O PUBBLICO ESERCIZIO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,BOTTEGAVERDE.AMMINISTRAZIONE@LEGALMAIL.IT,NaT,4977-07-27 00:00:00,UL - UNITÀ LOCALE,2023-09-18 00:00:00,SI,93970,99,I,10_2023,99,00410200026_99,1898-11-12,2023-10-19,45631 days,125.016438
1207,00075190934,TN,PN033-1932,15618,UL-2,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4971-08-16 00:00:00,NaT,1907-07-31,,,NaT,1991-12-31,NaT,G A R B A R I S . R . L .,V I A M A N C I G I A N N A N T O N I O ...,00211,38100,TRENTO - TN,,,0,0,0,00075190934,,,,,ATTIVA,NEG - NEGOZIO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,,NaT,4939-02-23 00:00:00,UL - UNITÀ LOCALE,2021-09-16 00:00:00,PN,15618,2,I,10_2023,2,00075190934_2,1907-07-31,2023-10-19,42449 days,116.298630
1206,00075190934,TN,PN033-1932,15618,UL-1,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4971-08-16 00:00:00,NaT,1907-07-31,,,NaT,1991-12-31,NaT,G A R B A R I S . R . L .,V I A M A N C I G I A N N A N T O N I O ...,00211,38122,TRENTO - TN,,,0,0,0,00075190934,,,,,ATTIVA,MVI - MAGAZZINO CON VENDITA INGROSSO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,,NaT,4939-02-23 00:00:00,UL - UNITÀ LOCALE,2021-09-16 00:00:00,PN,15618,1,I,10_2023,1,00075190934_1,1907-07-31,2023-10-19,42449 days,116.298630
45684,01340740156,MI,MI146-46784,87448,UL-2,,O,SP,SP - SOCIETA' PER AZIONI,SOCIETA' DI CAPITALE,1996-02-19,4925-05-25 00:00:00,NaT,1921-03-01,,,NaT,NaT,NaT,D E U T S C H E B A N K S . P . A .,V I A S . P R O S P E R O 0 0 0 2,,20121,MILANO - MI,,,2023,0,3327,01340740156,02/40241,412153993.8,L A S O C I E T A S V O L G E L A T ...,EURO,ATTIVA,SE - SEDE,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,DBSPA3@ACTALISCERTYMAIL.IT,NaT,4917-11-14 00:00:00,UL - UNITÀ LOCALE,2023-09-27 00:00:00,MI,87448,2,I,10_2023,2,01340740156_2,1921-03-01,2023-10-19,37487 days,102.704110
45522,01340740156,BO,MI146-46784,87448,UL-52,,O,SP,SP - SOCIETA' PER AZIONI,SOCIETA' DI CAPITALE,1996-02-19,4925-05-25 00:00:00,NaT,1922-12-11,,,NaT,NaT,NaT,D E U T S C H E B A N K S . P . A .,V I A M A G G I A 5 / A,,40121,BOLOGNA - BO,,,2023,0,3327,01340740156,02/40241,412153993.8,L A S O C I E T A S V O L G E L A T ...,EURO,ATTIVA,FI - FILIALE,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,DBSPA3@ACTALISCERTYMAIL.IT,NaT,4917-11-14 00:00:00,UL - UNITÀ LOCALE,2023-09-27 00:00:00,MI,87448,52,I,10_2023,52,01340740156_52,1922-12-11,2023-10-19,36837 days,100.923288
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
944,00069650315,GO,,17871,SEDE,,,EN,EN - ENTE,ALTRE FORME,NaT,4947-09-16 00:00:00,NaT,NaT,,4938-02-28 00:00:00,NaT,NaT,NaT,A M M I N I S T R A Z I O N E S A N T U A R ...,I S O L A D I B A R B A N A S N C,,34073,GRADO - GO,,,2023,0,2,00069650315,0431/80453,,V E N D I T A A L D E T T A G L I O D I ...,,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,SANTUARIO-DI-BARBANA@PEC.IT,NaT,,SE - SEDE PRINCIPALE,2021-04-28 00:00:00,GO,17871,0,I,10_2023,0,00069650315_0,NaT,2023-10-19,NaT,
685,00055590327,TS,,58665,SEDE,,,EN,EN - ENTE,ALTRE FORME,NaT,4963-12-21 00:00:00,NaT,NaT,,4960-09-17 00:00:00,NaT,NaT,NaT,O G S ( I S T I T U T O N A Z I O N A L E ...,B O R G O G R O T T A G I G A N T E 4 2 / C,,34010,SGONICO-ZGONIK - TS,,,2023,0,63,00055590327,040/21401,,1 . P E R R E A L I Z Z A R E L A P ...,,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,,NaT,4958-02-11 00:00:00,SE - SEDE PRINCIPALE,2023-07-17 00:00:00,TS,58665,0,I,10_2023,0,00055590327_0,NaT,2023-10-19,NaT,
636,00054990320,TS,,117897,SEDE,,,AC,AC - ASSOCIAZIONE,ALTRE FORME,NaT,5001-06-22 00:00:00,NaT,NaT,,4964-05-22 00:00:00,NaT,NaT,NaT,T E A T R O S T A B I L E D E L F R I U ...,L A R G O G I O R G I O G A B E R 1,,34126,TRIESTE - TS,,,2023,0,76,00054990320,,,P R O D U Z I O N E E R A P P R E S E N T ...,,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,ILROSSETTI@CERT.SPIN.IT,NaT,4964-05-22 00:00:00,SE - SEDE PRINCIPALE,2022-08-08 00:00:00,TS,117897,0,I,10_2023,0,00054990320_0,NaT,2023-10-19,NaT,
272,00050860311,GO,,35400,SEDE,,,EN,EN - ENTE,ALTRE FORME,NaT,4972-01-19 00:00:00,NaT,NaT,,4971-12-15 00:00:00,NaT,NaT,NaT,A U T O M O B I L E C L U B G O R I Z I A,V I A T R I E S T E 1 7 1,,34170,GORIZIA - GO,,,2021,0,0,00050860311,0481/522061,,N O L E G G I O A U T O V E T T U R E E ...,,ATTIVA,,,,,,,,NO,NO,ESCLUSIVA,NON GIOVANE,ITALIANA,,NaT,4927-01-01 00:00:00,SE - SEDE PRINCIPALE,2011-07-27 00:00:00,GO,35400,0,I,10_2023,0,00050860311_0,NaT,2023-10-19,NaT,


In [20]:
# creo id_localiz (dall'indice, mi aspetto 205646)
df_anagrafica.reset_index(inplace=True)
df_anagrafica.reset_index(inplace=True)
df_anagrafica['id_localiz'] = df_anagrafica['index'] + 1

df_anagrafica.sort_values(by = 'index', inplace = True)

In [21]:
#creo id impresa univoco collegato a CF
df_cf_univoco = df_anagrafica[['cf', 'denominazione']]
df_cf_univoco.drop_duplicates(subset='cf', inplace = True)
df_cf_univoco.reset_index(inplace = True)
df_cf_univoco.reset_index(inplace = True)
df_cf_univoco['id_impresa'] = df_cf_univoco['level_0'] +1
df_cf_univoco.columns

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cf_univoco.drop_duplicates(subset='cf', inplace = True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cf_univoco['id_impresa'] = df_cf_univoco['level_0'] +1


Index(['level_0', 'index', 'cf', 'denominazione', 'id_impresa'], dtype='object')

In [22]:
df_cf_univoco.drop(columns=['level_0', 'index'], inplace = True)
cols_order = ['id_impresa', 'cf' ]
df_cf_univoco = df_cf_univoco[cols_order]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cf_univoco.drop(columns=['level_0', 'index'], inplace = True)


In [23]:
df_anagrafica.shape[0] #conta righe

195917

In [24]:
df_cf_univoco

Unnamed: 0,id_impresa,cf
0,1,00000470310
1,2,00002070324
2,3,00006350938
3,4,00006500938
4,5,00006550313
...,...,...
103260,103261,ZZZNTN78H14L195O
103261,103262,ZZZRRT70L67L424I
103262,103263,ZZZRRT74D06Z700T
103263,103264,ZZZSVN46E60G381I


In [25]:
df_anagrafica = df_anagrafica.merge(df_cf_univoco, on = 'cf', how = 'inner') 

In [26]:
df_anagrafica 

Unnamed: 0,level_0,index,cf,prov,reg_imp_n,rea,sede_ul,n-albo_art,reg_imp_sez,ng2,ng_esteso,tipo_impresa,data_isc_ri,data_isc_rd,data_isc_aa,data_apert_ul,data_canc,data_ini_at,data_cess_att,data_fall,data_liquid,denominazione,indirizzo,indirizzo_strad,indirizzo_cap,comune,indirizzo_fraz,indirizzo_altre,addetti_aaaa,addetti_indip,addetti_dip,piva,tel,capitale,descrizione_attivita,capitale_valuta,stato_impresa,tipo_sedeul_1,tipo_sedeul_2,tipo_sedeul_3,tipo_sedeul_4,tipo_sedeul_5,imp_sedi_ee,imp_eefvg,imp_pmi,imp_startup,imp_femmilile,imp_giovanile,imp_straniera,PEC,data_fine_aa,data_cost,tipo_localizzazione,last_update,prov_camera_commercio,REA_camera_commercio,PRO_LOCALIZZAZIONE,fonte,mm_aaaa,n_sede,key_cfl,min_date,today,anni_timedelta,anni,id_localiz,id_impresa
0,43269,0,00000470310,GO,GO007-1352,37843,SEDE,,O,SN,SN - SOCIETA' IN NOME COLLETTIVO,SOCIETA' DI PERSONE,1996-02-19,4975-01-14 00:00:00,NaT,NaT,,,NaT,NaT,NaT,P E L L I Z Z A R I S I L V I O D I S E ...,V I A P E S C H E R I A 4,,34071,CORMONS - GO,,,1999,0,0,00000470310,0481/60323,,C O M M E R C I O A L M I N U T O T A B ...,,INATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,,NaT,4974-08-26 00:00:00,SE - SEDE PRINCIPALE,2022-08-01 00:00:00,GO,37843,0,I,10_2023,0,00000470310_0,1996-02-19,2023-10-19,10104 days,27.682192,1,1
1,43268,1,00002070324,TS,TS006-7084,65026,SEDE,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4969-01-30 00:00:00,NaT,NaT,,4969-01-30 00:00:00,NaT,NaT,NaT,B . F . B . C A S A D I S P E D I Z ...,V I A C O R T I 2,,34123,TRIESTE - TS,,,2023,0,16,00002070324,040/3220798,20000,"S P E D I Z I O N I D O G A N A L I , D A ...",EURO,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CLAUDIO.BROSCH@PEC.BFBTRIESTE.COM,NaT,4969-01-30 00:00:00,SE - SEDE PRINCIPALE,2023-07-28 00:00:00,TS,65026,0,I,10_2023,0,00002070324_0,1996-02-19,2023-10-19,10104 days,27.682192,2,2
2,43267,2,00002070324,TS,TS006-7084,65026,UL-2,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4969-01-30 00:00:00,NaT,2007-08-01,,,NaT,NaT,NaT,B . F . B . C A S A D I S P E D I Z ...,F E R N E T T I 5,,34016,MONRUPINO - TS,,"AUTOPORTO, MODULO 50",2023,0,16,00002070324,040/3220798,20000,"S P E D I Z I O N I D O G A N A L I , D A ...",EURO,ATTIVA,U - UFFICIO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CLAUDIO.BROSCH@PEC.BFBTRIESTE.COM,NaT,4969-01-30 00:00:00,UL - UNITÀ LOCALE,2023-07-28 00:00:00,TS,65026,2,I,10_2023,2,00002070324_2,1996-02-19,2023-10-19,10104 days,27.682192,3,2
3,43266,3,00002070324,TS,TS006-7084,65026,UL-4,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4969-01-30 00:00:00,NaT,2015-10-15,,,NaT,NaT,NaT,B . F . B . C A S A D I S P E D I Z ...,P U N T O F R A N C O N U O V O E X ...,,34123,TRIESTE - TS,,,2023,0,16,00002070324,040/3220798,20000,"S P E D I Z I O N I D O G A N A L I , D A ...",EURO,ATTIVA,U - UFFICIO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CLAUDIO.BROSCH@PEC.BFBTRIESTE.COM,NaT,4969-01-30 00:00:00,UL - UNITÀ LOCALE,2023-07-28 00:00:00,TS,65026,4,I,10_2023,4,00002070324_4,1996-02-19,2023-10-19,10104 days,27.682192,4,2
4,43265,5,00006350938,PN,PN033-1275,9764,SEDE,,O,AS,AS - SOCIETA' IN ACCOMANDITA SEMPLICE,SOCIETA' DI PERSONE,1996-02-19,4965-11-18 00:00:00,NaT,NaT,,4965-10-30 00:00:00,NaT,NaT,NaT,C A R R O Z Z E R I A A Z Z A N E S E D I ...,V I A F I U M I C I N O 1 4,,33082,AZZANO DECIMO - PN,,,2023,1,0,00006350938,0434/631194,0,D A L 0 9 / 0 7 / 2 0 1 3 C O M M E R C I ...,EURO,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,CAR.AZZANESESNC@TICERTIFICA.IT,NaT,4965-10-30 00:00:00,SE - SEDE PRINCIPALE,2023-02-03 00:00:00,PN,9764,0,I,10_2023,0,00006350938_0,1996-02-19,2023-10-19,10104 days,27.682192,6,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195912,121213,199369,ZZZNTN78H14L195O,UD,UD-2009-7369,270774,SEDE,UD-87280,A-P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,2009-03-10,5009-03-10 00:00:00,2009-03-10,NaT,,5009-03-10 00:00:00,NaT,NaT,NaT,Z O Z Z O L I A N T O N I O,V I A A O N E S I 4 2,,33027,PAULARO - UD,,,2023,1,0,02564170302,328/8878256,,"A T T I V I T A : C O S T R U Z I O N E , ...",,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,ANTONIO.ZOZZOLI@PEC.IT,NaT,,SE - SEDE PRINCIPALE,2013-07-08 00:00:00,UD,270774,0,I,10_2023,0,ZZZNTN78H14L195O_0,2009-03-10,2023-10-19,5336 days,14.619178,199370,103261
195913,115513,199370,ZZZRRT70L67L424I,TS,TS-2008-2532,127748,SEDE,TS-25173,A-P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,2008-02-21,5008-02-19 00:00:00,2008-02-01,NaT,,5008-02-01 00:00:00,NaT,NaT,NaT,E S T E T I C A S A G I T T A R I O D I ...,V I A P A L E S T R I N A 3,,34133,TRIESTE - TS,,,2023,1,0,01139490328,040/635812,,A T T I V I T A : I S T I T U T O D I ...,,ATTIVA,,,,,,,,NO,NO,ESCLUSIVA,NON GIOVANE,ITALIANA,ROBERTAZAZZERON@PEC.IT,NaT,,SE - SEDE PRINCIPALE,2013-06-27 00:00:00,TS,127748,0,I,10_2023,0,ZZZRRT70L67L424I_0,2008-02-01,2023-10-19,5739 days,15.723288,199371,103262
195914,68603,199371,ZZZRRT74D06Z700T,PN,PN-1998-2076,70327,SEDE,,P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,1998-01-27,4998-01-15 00:00:00,NaT,NaT,,4998-01-01 00:00:00,NaT,NaT,NaT,Z A Z Z A R I N I R O B E R T O,V I A S A N T A M A R G H E R I T A 2 5,,33098,VALVASONE ARZENE - PN,,ARZENE,1999,0,0,01353640939,340/3434447,,,,ATTIVA,,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ESCLUSIVA,ROBERTO.ZAZZARINI@PEC.AGRITEL.IT,NaT,,SE - SEDE PRINCIPALE,2015-03-25 00:00:00,PN,70327,0,I,10_2023,0,ZZZRRT74D06Z700T_0,1998-01-27,2023-10-19,9396 days,25.742466,199372,103263
195915,59622,199372,ZZZSVN46E60G381I,UD,UD-1997-169758,227639,SEDE,,P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,1996-12-02,4996-12-02 00:00:00,NaT,NaT,,4991-03-09 00:00:00,NaT,NaT,NaT,Z O Z Z O L I S I L V A N A,F R A Z I O N E R A V I N I S 1 9 / A,,33027,PAULARO - UD,,,1999,0,0,01721960308,,,,,ATTIVA,,,,,,,,NO,NO,ESCLUSIVA,NON GIOVANE,ITALIANA,ZOZZOLI.SILVANA@CIA.LEGALMAIL.IT,NaT,,SE - SEDE PRINCIPALE,2014-03-13 00:00:00,UD,227639,0,I,10_2023,0,ZZZSVN46E60G381I_0,1996-12-02,2023-10-19,9817 days,26.895890,199373,103264


### Controlli su unità locali senza sedi di riferimento - controllo duplicati - controllo date

In [27]:
# funzione per creare nuova colonna dicotomica
def f(row):
    if row['sede_ul'] == 'SEDE':
        val = 's'
    else:
        val = 'u'
    return val

In [28]:
# nuova colonna 
df_anagrafica['SEDE_UL_num'] = df_anagrafica.apply(f, axis = 1)

In [29]:
# tabella pivot - conteggio sedi/unità locali per cf
pivot_test = df_anagrafica.pivot_table(index = "cf",
                                values = "sede_ul",
                                columns='SEDE_UL_num',
                                aggfunc = lambda x : x.count(),
                                margins = True,
                                fill_value=0)
pivot_test

SEDE_UL_num,s,u,All
cf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
00000470310,1,0,1
00002070324,1,2,3
00006350938,1,0,1
00006500938,1,0,1
00006550313,1,0,1
...,...,...,...
ZZZRRT70L67L424I,1,0,1
ZZZRRT74D06Z700T,1,0,1
ZZZSVN46E60G381I,1,0,1
ZZZTMS74S21L483O,1,0,1


In [30]:
#lista cf senza sede
df_test = pivot_test
cf_no_sede = df_test[ df_test['s']==0 ]
cf_no_sede = cf_no_sede.reset_index()
cf_no_sede = cf_no_sede['cf'].to_list()


In [31]:
df_anagrafica = df_anagrafica[~df_anagrafica['cf'].isin(cf_no_sede)]

In [32]:
df_anagrafica.groupby('stato_impresa').count()

Unnamed: 0_level_0,level_0,index,cf,prov,reg_imp_n,rea,sede_ul,n-albo_art,reg_imp_sez,ng2,ng_esteso,tipo_impresa,data_isc_ri,data_isc_rd,data_isc_aa,data_apert_ul,data_canc,data_ini_at,data_cess_att,data_fall,data_liquid,denominazione,indirizzo,indirizzo_strad,indirizzo_cap,comune,indirizzo_fraz,indirizzo_altre,addetti_aaaa,addetti_indip,addetti_dip,piva,tel,capitale,descrizione_attivita,capitale_valuta,tipo_sedeul_1,tipo_sedeul_2,tipo_sedeul_3,tipo_sedeul_4,tipo_sedeul_5,imp_sedi_ee,imp_eefvg,imp_pmi,imp_startup,imp_femmilile,imp_giovanile,imp_straniera,PEC,data_fine_aa,data_cost,tipo_localizzazione,last_update,prov_camera_commercio,REA_camera_commercio,PRO_LOCALIZZAZIONE,fonte,mm_aaaa,n_sede,key_cfl,min_date,today,anni_timedelta,anni,id_localiz,id_impresa,SEDE_UL_num
stato_impresa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1
ATTIVA,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,178462,180044,31169,86554,180044,180044,0,1593,182,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,0,180044,180044,180044,180044,180044,180044,180044,180044,180044,180044,179027,180044,179027,179027,180044,180044,180044
CN,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,1,1,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
FALLIMENTO,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2577,2578,11,1944,2578,2578,0,2275,360,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,0,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578,2578
INATTIVA,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10396,10442,14,1745,10442,10442,0,3630,1312,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,0,10442,10442,10442,10442,10442,10442,10442,10442,10442,10442,10415,10442,10415,10415,10442,10442,10442
LIQUIDAZIONE,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2406,2409,51,618,2409,2409,0,357,1903,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,0,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409,2409
LT,5,5,5,5,5,5,5,5,5,5,5,5,5,5,2,1,5,5,0,0,2,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,0,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5
LZ,65,65,65,65,65,65,65,65,65,65,65,65,65,65,2,39,65,65,0,0,19,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,0,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65,65
PU,25,25,25,25,25,25,25,25,25,25,25,25,25,25,3,10,25,25,0,0,1,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,0,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25,25
RA,7,7,7,7,7,7,7,7,7,7,7,7,7,7,0,5,7,7,0,1,0,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,0,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7
SO,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,1,1,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1


### Gestione dei duplicati

In [33]:
#df_anagrafica['id_unitàlocale'] = df_anagrafica['cf'] + df_anagrafica['sede_ul'] + df_anagrafica['comune']
#df_anag_dup = df_anagrafica[df_anagrafica[['id_unitàlocale']].duplicated()]
#df_anag_dup = df_anag_dup[~df_anag_dup['stato_impresa'].isin(['ATTIVA'])]
#id_dup = df_anag_dup.index.values.tolist()
#df_anagrafica.drop(id_dup, axis=0, inplace=True)
#df_anag_dup.tail(20)

In [34]:
#df_2 = df_anagrafica[df_anagrafica[['id_unitàlocale']].duplicated(keep='last')]
#id_dup_2 = df_2.index.values.tolist()
#df_anagrafica.drop(id_dup_2, axis=0, inplace=True)

In [35]:
df_dup = df_anagrafica[df_anagrafica.duplicated(subset=['cf','sede_ul'], keep=False)]

In [36]:
df_dup = df_dup[df_dup['prov'] != df_dup['prov_camera_commercio']]
df_dup[df_dup['cf'] == '07381630966']

Unnamed: 0,level_0,index,cf,prov,reg_imp_n,rea,sede_ul,n-albo_art,reg_imp_sez,ng2,ng_esteso,tipo_impresa,data_isc_ri,data_isc_rd,data_isc_aa,data_apert_ul,data_canc,data_ini_at,data_cess_att,data_fall,data_liquid,denominazione,indirizzo,indirizzo_strad,indirizzo_cap,comune,indirizzo_fraz,indirizzo_altre,addetti_aaaa,addetti_indip,addetti_dip,piva,tel,capitale,descrizione_attivita,capitale_valuta,stato_impresa,tipo_sedeul_1,tipo_sedeul_2,tipo_sedeul_3,tipo_sedeul_4,tipo_sedeul_5,imp_sedi_ee,imp_eefvg,imp_pmi,imp_startup,imp_femmilile,imp_giovanile,imp_straniera,PEC,data_fine_aa,data_cost,tipo_localizzazione,last_update,prov_camera_commercio,REA_camera_commercio,PRO_LOCALIZZAZIONE,fonte,mm_aaaa,n_sede,key_cfl,min_date,today,anni_timedelta,anni,id_localiz,id_impresa,SEDE_UL_num
115678,130159,118581,7381630966,UD,MI-2011-59418,1954900,UL-4,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,2011-03-22,5011-03-22 00:00:00,NaT,2014-04-28,,,NaT,NaT,NaT,G I O I A G I O C H I S . R . L .,V I A P A L M A N O V A 8 7,,33100,UDINE - UD,,,2023,0,13,7381630966,,20000,,EURO,ATTIVA,SAD - SALA GIOCHI,,,,,,,NO,NO,FORTE,NON GIOVANE,ITALIANA,GIOIAGIOCHI@CERTAPEC.IT,NaT,5011-03-16 00:00:00,UL - UNITÀ LOCALE,2023-02-18 00:00:00,MI,1954900,4,I,10_2023,4,07381630966_4,2011-03-22,2023-10-19,4594 days,12.586301,118582,48992,u
115680,130157,118583,7381630966,UD,MI-2011-59418,1954900,UL-5,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,2011-03-22,5011-03-22 00:00:00,NaT,2015-10-17,,,NaT,NaT,NaT,G I O I A G I O C H I S . R . L .,V I A L E P A L M A N O V A 8 9,,33100,UDINE - UD,,,2023,0,13,7381630966,,20000,,EURO,ATTIVA,BAR - BAR,,,,,,,NO,NO,FORTE,NON GIOVANE,ITALIANA,GIOIAGIOCHI@CERTAPEC.IT,NaT,5011-03-16 00:00:00,UL - UNITÀ LOCALE,2023-02-18 00:00:00,MI,1954900,5,I,10_2023,5,07381630966_5,2011-03-22,2023-10-19,4594 days,12.586301,118584,48992,u


In [37]:
id_df_dup = df_dup.index.values.tolist()
df_anagrafica.drop(id_df_dup, axis=0, inplace=True)

In [38]:
df_dup_test_final = df_anagrafica[df_anagrafica.duplicated(subset=['cf','sede_ul'], keep=False)]
df_dup_test_final

Unnamed: 0,level_0,index,cf,prov,reg_imp_n,rea,sede_ul,n-albo_art,reg_imp_sez,ng2,ng_esteso,tipo_impresa,data_isc_ri,data_isc_rd,data_isc_aa,data_apert_ul,data_canc,data_ini_at,data_cess_att,data_fall,data_liquid,denominazione,indirizzo,indirizzo_strad,indirizzo_cap,comune,indirizzo_fraz,indirizzo_altre,addetti_aaaa,addetti_indip,addetti_dip,piva,tel,capitale,descrizione_attivita,capitale_valuta,stato_impresa,tipo_sedeul_1,tipo_sedeul_2,tipo_sedeul_3,tipo_sedeul_4,tipo_sedeul_5,imp_sedi_ee,imp_eefvg,imp_pmi,imp_startup,imp_femmilile,imp_giovanile,imp_straniera,PEC,data_fine_aa,data_cost,tipo_localizzazione,last_update,prov_camera_commercio,REA_camera_commercio,PRO_LOCALIZZAZIONE,fonte,mm_aaaa,n_sede,key_cfl,min_date,today,anni_timedelta,anni,id_localiz,id_impresa,SEDE_UL_num
258,1942,268,00050830314,GO,TV-2003-39672,301147,UL-1,,G-O,SN,SN - SOCIETA' IN NOME COLLETTIVO,SOCIETA' DI PERSONE,2003-08-06,5003-08-05 00:00:00,NaT,1980-12-22,,,NaT,NaT,NaT,S O C I E T A A G R I C O L A T U R C O ...,L O C A L I T A D O S S I B O S C A T,,34073,GRADO - GO,,,2023,0,1,01001730306,,0,A T T I V I T A : S V O L T A P R E S S ...,EURO,ATTIVA,AA - AZIENDA AGRICOLA,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,AGRICOLA.TURCO@PEC.IT,NaT,4980-12-22 00:00:00,UL - UNITÀ LOCALE,2021-07-14 00:00:00,GO,61448,1,I,10_2023,1,00050830314_1,1980-12-22,2023-10-19,15641 days,42.852055,269,155,u
261,93311,271,00050830314,UD,TV-2003-39672,301147,UL-1,,G-O,SN,SN - SOCIETA' IN NOME COLLETTIVO,SOCIETA' DI PERSONE,2003-08-06,5003-08-05 00:00:00,NaT,2018-12-17,,,NaT,NaT,NaT,S O C I E T A A G R I C O L A T U R C O ...,V I A T A L M A S S O N S 6,,33061,RIVIGNANO TEOR - UD,,,2023,0,1,01001730306,,0,A T T I V I T A : S V O L T A P R E S S ...,EURO,ATTIVA,AA - AZIENDA AGRICOLA,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,AGRICOLA.TURCO@PEC.IT,NaT,4980-12-22 00:00:00,UL - UNITÀ LOCALE,2021-07-14 00:00:00,UD,350772,1,I,10_2023,1,00050830314_1,2003-08-06,2023-10-19,7379 days,20.216438,272,155,u
786,42827,813,00065030256,TS,BL006-1564,37497,UL-1,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4966-07-06 00:00:00,NaT,2021-05-01,,,NaT,NaT,NaT,P A S S U E L L O F . L L I S . R . L .,V I A C O M B I 2 2 / A,,34143,TRIESTE - TS,,,2023,0,57,00065030256,0435/32441,156000,D A L 0 1 . 0 1 . 1 9 9 9 C O M M E R C I ...,EURO,ATTIVA,U - UFFICIO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,AMMINISTRAZIONE@PEC.PASSUELLOFRATELLI.IT,NaT,4966-06-14 00:00:00,UL - UNITÀ LOCALE,2023-06-07 00:00:00,TS,208312,1,I,10_2023,1,00065030256_1,1996-02-19,2023-10-19,10104 days,27.682192,814,317,u
787,42828,814,00065030256,UD,BL006-1564,37497,UL-1,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4966-07-06 00:00:00,NaT,2023-06-01,,,NaT,NaT,NaT,P A S S U E L L O F . L L I S . R . L .,P I A Z Z A G I U S E P P E M A Z Z I N I 9,,33028,TOLMEZZO - UD,,,2023,0,57,00065030256,0435/32441,156000,D A L 0 1 . 0 1 . 1 9 9 9 C O M M E R C I ...,EURO,ATTIVA,U - UFFICIO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,AMMINISTRAZIONE@PEC.PASSUELLOFRATELLI.IT,NaT,4966-06-14 00:00:00,UL - UNITÀ LOCALE,2023-06-07 00:00:00,UD,368668,1,I,10_2023,1,00065030256_1,1996-02-19,2023-10-19,10104 days,27.682192,815,317,u
1480,42318,1528,00093830792,UD,VV047-955,57593,UL-1,,O,SR,SR - SOCIETA' A RESPONSABILITA' LIMITATA,SOCIETA' DI CAPITALE,1996-02-19,4966-03-22 00:00:00,NaT,2006-11-17,,,NaT,NaT,NaT,D I S T I L L E R I A F . L L I C A F F O ...,V I A S A N D A N I E L E 9 / 1 1,,33037,PASIAN DI PRATO - UD,PASSON,,2023,0,43,00093830792,0963/85025,1000000,"P R O D U Z I O N E D I L I Q U O R I , ...",EURO,ATTIVA,DIS - DISTILLERIA,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,INFO@PEC.CAFFO.COM,NaT,4965-07-15 00:00:00,UL - UNITÀ LOCALE,2023-07-09 00:00:00,UD,262361,1,I,10_2023,1,00093830792_1,1996-02-19,2023-10-19,10104 days,27.682192,1529,651,u
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
168785,77312,172070,MNCFNC63L51C674T,UD,CO-2000-16057,264999,UL-1,,P,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,2000-05-09,5000-05-03 00:00:00,NaT,2003-10-01,,,NaT,NaT,NaT,S T U D I O F . M . D I M A N C U S O ...,P I A Z Z A I M A G G I O 1 6,,33100,UDINE - UD,,,2023,1,0,02124120136,,,O R G A N I Z Z A Z I O N E S P E T T A C O ...,,ATTIVA,U - UFFICIO,,,,,,,NO,NO,ESCLUSIVA,NON GIOVANE,ITALIANA,STUDIOFM@PEC.IT,NaT,,UL - UNITÀ LOCALE,2015-11-12 00:00:00,UD,250984,1,I,10_2023,1,MNCFNC63L51C674T_1,2000-05-09,2023-10-19,8563 days,23.460274,172071,78282,u
172618,149141,175925,MSZGMR68M43Z127O,GO,TV-2015-26849,374951,UL-1,,G,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,2015-06-29,5015-06-26 00:00:00,NaT,2015-02-25,,,NaT,NaT,NaT,M I S Z T A L A G A T A M A R I A,V I A C . B A T T I S T I S N C,,34070,SAN PIER D'ISONZO - GO,,,0,0,0,04723950269,,,A T T I V I T A : C O L T I V A Z I O N I ...,,ATTIVA,AA - AZIENDA AGRICOLA,,,,,,,NO,NO,ESCLUSIVA,NON GIOVANE,ESCLUSIVA,,NaT,,UL - UNITÀ LOCALE,2022-09-26 00:00:00,GO,77651,1,I,10_2023,1,MSZGMR68M43Z127O_1,2015-02-25,2023-10-19,3158 days,8.652055,175926,81808,u
172619,150245,175926,MSZGMR68M43Z127O,PN,TV-2015-26849,374951,UL-1,,G,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,2015-06-29,5015-06-26 00:00:00,NaT,2015-05-10,,,NaT,NaT,NaT,M I S Z T A L A G A T A M A R I A,F O N T A N A F R E D D A 1,,33074,FONTANAFREDDA - PN,,,0,0,0,04723950269,,,A T T I V I T A : C O L T I V A Z I O N I ...,,ATTIVA,AA - AZIENDA AGRICOLA,,,,,,,NO,NO,ESCLUSIVA,NON GIOVANE,ESCLUSIVA,,NaT,,UL - UNITÀ LOCALE,2022-09-26 00:00:00,PN,104375,1,I,10_2023,1,MSZGMR68M43Z127O_1,2015-05-10,2023-10-19,3084 days,8.449315,175927,81808,u
184069,168459,187453,SCLPNT86T25E532V,PN,SR-2018-16711,411202,UL-1,,G,DI,DI - IMPRESA INDIVIDUALE,IMPRESE INDIVIDUALI,2018-09-17,5018-08-20 00:00:00,NaT,2020-01-13,,,NaT,NaT,NaT,S C O L L O P A O L O N A T A L E,V I A F I L I P P O C O R R I D O N I 1 0,,33097,SPILIMBERGO - PN,,,2023,1,8,01849780935,,,,,ATTIVA,NEG - NEGOZIO,,,,,,,NO,NO,NON FEMMINILE,NON GIOVANE,ITALIANA,PAOLONE.SCOLLO@PEC.IT,NaT,,UL - UNITÀ LOCALE,2023-06-19 00:00:00,PN,355447,1,I,10_2023,1,SCLPNT86T25E532V_1,2018-09-17,2023-10-19,1858 days,5.090411,187454,92338,u


In [39]:
# verifico che fra i duplicati rimasti non ci siano le stesse ul nella stessa provincia
df_dup_test_final_2 = df_dup_test_final[df_dup_test_final.duplicated(subset=['cf','sede_ul','prov'], keep=False)]
df_dup_test_final_2

Unnamed: 0,level_0,index,cf,prov,reg_imp_n,rea,sede_ul,n-albo_art,reg_imp_sez,ng2,ng_esteso,tipo_impresa,data_isc_ri,data_isc_rd,data_isc_aa,data_apert_ul,data_canc,data_ini_at,data_cess_att,data_fall,data_liquid,denominazione,indirizzo,indirizzo_strad,indirizzo_cap,comune,indirizzo_fraz,indirizzo_altre,addetti_aaaa,addetti_indip,addetti_dip,piva,tel,capitale,descrizione_attivita,capitale_valuta,stato_impresa,tipo_sedeul_1,tipo_sedeul_2,tipo_sedeul_3,tipo_sedeul_4,tipo_sedeul_5,imp_sedi_ee,imp_eefvg,imp_pmi,imp_startup,imp_femmilile,imp_giovanile,imp_straniera,PEC,data_fine_aa,data_cost,tipo_localizzazione,last_update,prov_camera_commercio,REA_camera_commercio,PRO_LOCALIZZAZIONE,fonte,mm_aaaa,n_sede,key_cfl,min_date,today,anni_timedelta,anni,id_localiz,id_impresa,SEDE_UL_num


In [40]:
#f_3 = df_anagrafica[df_anagrafica.duplicated(subset=['cf','sede_ul'], keep=False)]
#df_3 = df_3[~df_3['stato_impresa'].isin(['ATTIVA'])]
#id_df_3 = df_3.index.values.tolist()
#df_anagrafica.drop(id_df_3, axis=0, inplace=True)

In [41]:
# df_4 = df_anagrafica[df_anagrafica.duplicated(subset=['cf','sede_ul'], keep='last')]
# id_df_4 = df_4.index.values.tolist()
# df_anagrafica.drop(id_df_4, axis=0, inplace=True)

In [42]:
#df_anagrafica = df_anagrafica.drop('id_unitàlocale', axis=1)

In [43]:
df_anagrafica.groupby('stato_impresa').count()

Unnamed: 0_level_0,level_0,index,cf,prov,reg_imp_n,rea,sede_ul,n-albo_art,reg_imp_sez,ng2,ng_esteso,tipo_impresa,data_isc_ri,data_isc_rd,data_isc_aa,data_apert_ul,data_canc,data_ini_at,data_cess_att,data_fall,data_liquid,denominazione,indirizzo,indirizzo_strad,indirizzo_cap,comune,indirizzo_fraz,indirizzo_altre,addetti_aaaa,addetti_indip,addetti_dip,piva,tel,capitale,descrizione_attivita,capitale_valuta,tipo_sedeul_1,tipo_sedeul_2,tipo_sedeul_3,tipo_sedeul_4,tipo_sedeul_5,imp_sedi_ee,imp_eefvg,imp_pmi,imp_startup,imp_femmilile,imp_giovanile,imp_straniera,PEC,data_fine_aa,data_cost,tipo_localizzazione,last_update,prov_camera_commercio,REA_camera_commercio,PRO_LOCALIZZAZIONE,fonte,mm_aaaa,n_sede,key_cfl,min_date,today,anni_timedelta,anni,id_localiz,id_impresa,SEDE_UL_num
stato_impresa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1
ATTIVA,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,176391,177967,31158,84520,177967,177967,0,1471,182,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,0,177967,177967,177967,177967,177967,177967,177967,177967,177967,177967,176950,177967,176950,176950,177967,177967,177967
CN,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,1,1,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
FALLIMENTO,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2419,2420,11,1789,2420,2420,0,2117,351,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,0,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420,2420
INATTIVA,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10296,10342,14,1648,10342,10342,0,3574,1290,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,0,10342,10342,10342,10342,10342,10342,10342,10342,10342,10342,10315,10342,10315,10315,10342,10342,10342
LIQUIDAZIONE,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2353,2356,51,565,2356,2356,0,345,1875,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,0,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356,2356
LT,5,5,5,5,5,5,5,5,5,5,5,5,5,5,2,1,5,5,0,0,2,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,0,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5
LZ,64,64,64,64,64,64,64,64,64,64,64,64,64,64,2,38,64,64,0,0,18,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,0,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64
PU,24,24,24,24,24,24,24,24,24,24,24,24,24,24,3,9,24,24,0,0,1,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,0,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24
RA,7,7,7,7,7,7,7,7,7,7,7,7,7,7,0,5,7,7,0,1,0,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,0,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7
SO,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,1,1,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1


In [44]:
df_anagrafica.shape[0]

193527

## Secondo foglio: FRIULI codici attività

In [45]:
df_codici = xl.parse('FRIULI codice attività',  
                    header = 0,
                    dtype=str,
                    keep_default_na=False) 

In [46]:
df_codici

Unnamed: 0,c fiscale,SIGLA PROVINCIA,rea,loc,imp att,ateco 2007,descrizione ateco 2007
0,00000470310,GO,37843,0,,,
1,00002070324,TS,65026,0,I,52.29.1,Spedizionieri e agenzie di operazioni doganali
2,00002070324,TS,65026,0,P,52.29.1,Spedizionieri e agenzie di operazioni doganali
3,00002070324,TS,65026,0,S,49.41,Trasporto di merci su strada
4,00002070324,TS,65026,2,P,52.29.1,Spedizionieri e agenzie di operazioni doganali
...,...,...,...,...,...,...,...
395520,ZZZRRT70L67L424I,TS,127748,0,P,96.02.02,Servizi degli istituti di bellezza
395521,ZZZRRT74D06Z700T,PN,70327,0,P,01.11.4,"Coltivazioni miste di cereali, legumi da grane..."
395522,ZZZSVN46E60G381I,UD,227639,0,P,01.41,"Allevamento di bovini e bufale da latte, produ..."
395523,ZZZTMS74S21L483O,UD,235833,0,I,01.21,Coltivazione di uva


In [47]:
cols_df

Unnamed: 0,nomi_colonne_originali,nomi_colonne_corretti,nomi_colonne_export,ordine_repo,ordine_iifvg,ordine_INSIEL,ordine_AINDO
0,c fiscale,cf,cf,13.0,1.0,1.0,1.0
1,SIGLA PROVINCIA,prov,prov,34.0,2.0,2.0,2.0
2,N-REG-IMP,reg_imp_n,reg_imp_n,15.0,3.0,3.0,3.0
3,rea,rea,rea,,4.0,4.0,4.0
4,UL-SEDE,sede_ul,sede_ul,31.0,5.0,5.0,5.0
5,N-ALBO-AA,n-albo_art,n-albo_art,16.0,6.0,6.0,6.0
6,SEZ-REG-IMP,reg_imp_sez,reg_imp_sez,18.0,7.0,7.0,7.0
7,NG - Natura Giuridica,ng2,ng2,23.0,8.0,8.0,8.0
8,NG,ng_esteso,ng_esteso,22.0,9.0,9.0,9.0
9,tipo impresa,tipo_impresa,tipo_impresa,21.0,10.0,10.0,10.0


In [48]:
#crea dizionario con i nomi di colonna originali e corretti
cols_df = pd.read_excel('cols_dict.xlsx', sheet_name='codici') 
l1 = cols_df['nomi_colonne_originali']
print(l1)
l2 = cols_df['nomi_colonne_corretti']
print(l2)

cols_dic = dict(zip(l1,l2))

print(cols_dic)

df_codici.rename(columns=cols_dic, inplace=True)

df_codici


0                  c fiscale
1            SIGLA PROVINCIA
2                        rea
3                        loc
4                    imp att
5                 ateco 2007
6     descrizione ateco 2007
7                        NaN
8                        NaN
9                        NaN
10                       NaN
Name: nomi_colonne_originali, dtype: object
0             cf
1           prov
2            rea
3          loc_n
4     ateco_tipo
5          ateco
6     ateco_desc
7          fonte
8        mm_aaaa
9     id_impresa
10    id_localiz
Name: nomi_colonne_corretti, dtype: object
{'c fiscale': 'cf', 'SIGLA PROVINCIA': 'prov', 'rea': 'rea', 'loc': 'loc_n', 'imp att': 'ateco_tipo', 'ateco 2007': 'ateco', 'descrizione ateco 2007': 'ateco_desc', nan: 'id_localiz'}


Unnamed: 0,cf,prov,rea,loc_n,ateco_tipo,ateco,ateco_desc
0,00000470310,GO,37843,0,,,
1,00002070324,TS,65026,0,I,52.29.1,Spedizionieri e agenzie di operazioni doganali
2,00002070324,TS,65026,0,P,52.29.1,Spedizionieri e agenzie di operazioni doganali
3,00002070324,TS,65026,0,S,49.41,Trasporto di merci su strada
4,00002070324,TS,65026,2,P,52.29.1,Spedizionieri e agenzie di operazioni doganali
...,...,...,...,...,...,...,...
395520,ZZZRRT70L67L424I,TS,127748,0,P,96.02.02,Servizi degli istituti di bellezza
395521,ZZZRRT74D06Z700T,PN,70327,0,P,01.11.4,"Coltivazioni miste di cereali, legumi da grane..."
395522,ZZZSVN46E60G381I,UD,227639,0,P,01.41,"Allevamento di bovini e bufale da latte, produ..."
395523,ZZZTMS74S21L483O,UD,235833,0,I,01.21,Coltivazione di uva


In [49]:
df_codici['fonte'] = 'I'
df_codici['mm_aaaa'] = file_da_elaborare




In [50]:
# creo indice key_clf anche nel df_codici per poter collegare id_localiz
df_codici['key_cfl'] = df_codici['cf'] + '_'  + df_codici['loc_n']

df_temp = df_anagrafica[['key_cfl',  'id_impresa', 'id_localiz']]


df_temp


Unnamed: 0,key_cfl,id_impresa,id_localiz
0,00000470310_0,1,1
1,00002070324_0,2,2
2,00002070324_2,2,3
3,00002070324_4,2,4
4,00006350938_0,3,6
...,...,...,...
195912,ZZZNTN78H14L195O_0,103261,199370
195913,ZZZRRT70L67L424I_0,103262,199371
195914,ZZZRRT74D06Z700T_0,103263,199372
195915,ZZZSVN46E60G381I_0,103264,199373


In [51]:
# aggiungo id_localiz in df_codici
df_codici = df_codici.merge(df_temp, on = 'key_cfl', how = 'inner') 


In [52]:
# filtriamo anche il foglio codici eliminando i cf senza sede
df_codici = df_codici[~df_codici['cf'].isin(cf_no_sede)]

In [53]:
df_cod_dup = df_codici[df_codici.duplicated(subset=['cf','prov', 'rea', 'loc_n', 'ateco_tipo','ateco','ateco_desc'], keep=False)]
df_cod_dup

Unnamed: 0,cf,prov,rea,loc_n,ateco_tipo,ateco,ateco_desc,fonte,mm_aaaa,key_cfl,id_impresa,id_localiz
601,00050830314,GO,301147,1,P,01.41,"Allevamento di bovini e bufale da latte, produ...",I,10_2023,00050830314_1,155,269
602,00050830314,GO,301147,1,P,01.41,"Allevamento di bovini e bufale da latte, produ...",I,10_2023,00050830314_1,155,272
603,00050830314,GO,301147,1,S,01.11.4,"Coltivazioni miste di cereali, legumi da grane...",I,10_2023,00050830314_1,155,269
604,00050830314,GO,301147,1,S,01.11.4,"Coltivazioni miste di cereali, legumi da grane...",I,10_2023,00050830314_1,155,272
605,00050830314,UD,301147,1,P,01.21,Coltivazione di uva,I,10_2023,00050830314_1,155,269
...,...,...,...,...,...,...,...,...,...,...,...,...
352420,SCLPNT86T25E532V,PN,411202,1,S,47.29.9,Commercio al dettaglio di altri prodotti alime...,I,10_2023,SCLPNT86T25E532V_1,92338,187458
352421,SCLPNT86T25E532V,UD,411202,1,P,47.21.01,Commercio al dettaglio di frutta e verdura fresca,I,10_2023,SCLPNT86T25E532V_1,92338,187454
352422,SCLPNT86T25E532V,UD,411202,1,P,47.21.01,Commercio al dettaglio di frutta e verdura fresca,I,10_2023,SCLPNT86T25E532V_1,92338,187458
352423,SCLPNT86T25E532V,UD,411202,1,S,47.29,Commercio al dettaglio di altri prodotti alime...,I,10_2023,SCLPNT86T25E532V_1,92338,187454


In [54]:
df_codici.shape[0]

379028

### Salvataggio di file .csv per diverse destinazioni

#### File .csv per Repository

Dovendo fondere i campi relativi a "tipo_sedeul_n", creo una copia del dataframe per poter operare la fusione sulla copia e salvarla nella versione "Repository"

In [55]:
df_anagrafica_repo = df_anagrafica.copy()
# unione dei campi tipo_sedeul
df_anagrafica_repo['tipo_sedeul'] =  df_anagrafica_repo.tipo_sedeul_1+df_anagrafica_repo.tipo_sedeul_2+df_anagrafica_repo.tipo_sedeul_3+df_anagrafica_repo.tipo_sedeul_4+df_anagrafica_repo.tipo_sedeul_5
df_anagrafica_repo.drop(columns=['tipo_sedeul_1', 'tipo_sedeul_2', 'tipo_sedeul_3', 'tipo_sedeul_4',
       'tipo_sedeul_5'], inplace=True)

In [56]:
# Salva il file ANAGRAFICA in versione "repository": 
file_risultati = data_dir + '\\' + 'imprese_anagrafica.csv'
cols_df = pd.read_excel('cols_dict.xlsx', sheet_name='anagrafica',
            usecols = ['nomi_colonne_export','ordine_repo']).dropna() 
cols_df.sort_values('ordine_repo', inplace = True)
cols_to_use = list(cols_df['nomi_colonne_export'])
df_anagrafica_repo[cols_to_use].to_csv(  file_risultati, 
                                    sep ='|',   
                                    encoding='utf-8-sig', 
                                    index=False)

In [None]:
# Salva il file CODICI in versione "repository": 
file_risultati = data_dir + '\\' + 'imprese_codici.csv'
cols_df = pd.read_excel('cols_dict.xlsx', sheet_name='codici',
            usecols = ['nomi_colonne_corretti','ordine_repo']).dropna() 
cols_df.sort_values('ordine_repo', inplace = True)
cols_to_use = list(cols_df['nomi_colonne_corretti'])
df_codici[cols_to_use].to_csv(      file_risultati, 
                                    sep ='|',   
                                    encoding='utf-8-sig', 
                                    index=False)

#### File. csv per Innvoation Intelligence (unità locali anche extra FVG)

In [None]:
# Salva il file ANAGRAFICA file in versione "innovation intelligence": 
file_risultati = data_dir + '\\' + 'iifvg_anagrafica.csv'
cols_df = pd.read_excel('cols_dict.xlsx', sheet_name='anagrafica',
            usecols = ['nomi_colonne_corretti','ordine_iifvg']).dropna() 
cols_df.sort_values('ordine_iifvg', inplace = True)
cols_to_use = list(cols_df['nomi_colonne_corretti'])
df_anagrafica[cols_to_use].to_csv(  file_risultati, 
                                    sep ='|',   
                                    encoding='utf-8-sig', 
                                    index=False)

In [None]:
# Salva il file CODICI in versione "innovation intelligence": 
file_risultati = data_dir + '\\' + 'iifvg_codici.csv'
cols_df = pd.read_excel('cols_dict.xlsx', sheet_name='codici',
            usecols = ['nomi_colonne_corretti','ordine_iifvg']).dropna() 
cols_df.sort_values('ordine_iifvg', inplace = True)
cols_to_use = list(cols_df['nomi_colonne_corretti'])
df_codici[cols_to_use].to_csv(      file_risultati, 
                                    sep ='|',   
                                    encoding='utf-8-sig', 
                                    index=False)

#### File .csv per Innovation Intelligence (solamente unità locali FVG)

In [None]:
local_sede = ["SEDE"]
prov_FVG = ["GO", "PN", "UD", "TS"]
#filtro ed elimino le unità locali extra FVG presenti nell'anagrafica di Insiel
unità_locali_extraFVG_filter = ~df_anagrafica["sede_ul"].isin(local_sede) & ~df_anagrafica["prov"].isin(prov_FVG)
#print(~unità_locali_extraFVG_filter)
#df_anagrafica[unità_locali_extraFVG_filter].drop()
df_anagrafica = df_anagrafica[~unità_locali_extraFVG_filter]

In [None]:
# Salva il file ANAGRAFICA file in versione "innovation intelligence" senza UL extra FVG
file_risultati = data_dir + '\\' + 'iifvg_anagrafica_filtrato.csv'
cols_df = pd.read_excel('cols_dict.xlsx', sheet_name='anagrafica',
            usecols = ['nomi_colonne_corretti','ordine_iifvg']).dropna() 
cols_df.sort_values('ordine_iifvg', inplace = True)
cols_to_use = list(cols_df['nomi_colonne_corretti'])
df_anagrafica[cols_to_use].to_csv(  file_risultati, 
                                    sep ='|',   
                                    encoding='utf-8-sig', 
                                    index=False)

In [None]:
local_sede = ["0"]
prov_FVG = ["GO", "PN", "UD", "TS"]
#filtro ed elimino le unità locali extra FVG presenti nel folgio codici dell'anagrafica Insiel
unità_locali_extraFVG_filter = ~df_codici["loc_n"].isin(local_sede) & ~df_codici["prov"].isin(prov_FVG)
#print(~unità_locali_extraFVG_filter)
#df_codici[unità_locali_extraFVG_filter].drop()
df_codici = df_codici[~unità_locali_extraFVG_filter]

In [None]:
# Salva il file CODICI in versione "innovation intelligence" senza UL extra FVG
file_risultati = data_dir + '\\' + 'iifvg_codici_filtrato.csv'
cols_df = pd.read_excel('cols_dict.xlsx', sheet_name='codici',
            usecols = ['nomi_colonne_corretti','ordine_iifvg']).dropna() 
cols_df.sort_values('ordine_iifvg', inplace = True)
cols_to_use = list(cols_df['nomi_colonne_corretti'])
df_codici[cols_to_use].to_csv(      file_risultati, 
                                    sep ='|',   
                                    encoding='utf-8-sig', 
                                    index=False)

#### File .csv per Innovation Intelligence (SOLO unità locali FVG e SOLO società NON di capitale) - per integrazione nella piattaforma di I2

In [None]:
tipo_società = ["SOCIETA' DI CAPITALE"]
#filtro ed elimino le società di capitale
anagrafica_soc_capitale = df_anagrafica["tipo_impresa"].isin(tipo_società)
df_anagrafica = df_anagrafica[~anagrafica_soc_capitale]

In [None]:
# Salva il file ANAGRAFICA in versione "innovation intelligence" per integrazione dati
file_risultati = data_dir + '\\' + 'iifvg_anagrafica_filtrato_noncap.csv'
cols_df = pd.read_excel('cols_dict.xlsx', sheet_name='anagrafica',
            usecols = ['nomi_colonne_corretti','ordine_iifvg']).dropna() 
cols_df.sort_values('ordine_iifvg', inplace = True)
cols_to_use = list(cols_df['nomi_colonne_corretti'])
df_anagrafica[cols_to_use].to_csv(  file_risultati, 
                                    sep ='|',   
                                    encoding='utf-8-sig', 
                                    index=False)

In [None]:
# filtro del foglio CODICI in base ai cf di df_anagrafica (ultima versione)
filtro_df_anagrafica = df_anagrafica[['cf']].copy()
df_codici = df_codici[df_codici['cf'].isin(filtro_df_anagrafica['cf'].values)]

In [None]:
# Salva il file CODICI in versione "innovation intelligence" per integrazione dati
file_risultati = data_dir + '\\' + 'iifvg_codici_filtrato_noncap.csv'
cols_df = pd.read_excel('cols_dict.xlsx', sheet_name='codici',
            usecols = ['nomi_colonne_corretti','ordine_iifvg']).dropna() 
cols_df.sort_values('ordine_iifvg', inplace = True)
cols_to_use = list(cols_df['nomi_colonne_corretti'])
df_codici[cols_to_use].to_csv(      file_risultati, 
                                    sep ='|',   
                                    encoding='utf-8-sig', 
                                    index=False)