In [2]:
import pandas as pd
import os
#loading and joining the tables based on the first colum "numero_boletim" or"num_boletim"
def load_and_concatenate_csvs(directory_path, delimiter=';'):
    csv_files = [file for file in os.listdir(directory_path) if file.endswith('.csv')]
    dataframes = []
    for file in csv_files:
        file_path = os.path.join(directory_path, file)
        try:
            df = pd.read_csv(file_path, encoding='utf-8', delimiter=delimiter, on_bad_lines='skip')
        except UnicodeDecodeError:
            df = pd.read_csv(file_path, encoding='latin1', delimiter=delimiter, on_bad_lines='skip')
        dataframes.append(df)
    return pd.concat(dataframes, ignore_index=True)


si_bol_path = './si-bol'
si_env_path = './si-env'
si_veic_path = './si-veic'
si_log_path = './si-log'
pd.options.display.max_columns = None

df_si_bol = load_and_concatenate_csvs(si_bol_path)
df_si_env = load_and_concatenate_csvs(si_env_path)
df_si_veic = load_and_concatenate_csvs(si_veic_path)
df_si_log = load_and_concatenate_csvs(si_log_path)



print("si-bol DataFrame shape:", df_si_bol.shape)
print("si-env DataFrame shape:", df_si_env.shape)
print("si-veic DataFrame shape:", df_si_veic.shape)
print("si-log DataFrame shape:", df_si_log.shape)


df_si_env.rename(columns={'num_boletim': 'numero_boletim'}, inplace=True)

joined_df = df_si_bol.merge(df_si_env, on="numero_boletim", how="outer")
joined_df = joined_df.merge(df_si_veic, on="numero_boletim", how="outer" )
joined_df = joined_df.merge(df_si_log, on="numero_boletim", how="outer")

joined_df.drop_duplicates().dropna().head()

si-bol DataFrame shape: (44371, 23)
si-env DataFrame shape: (99485, 16)
si-veic DataFrame shape: (78867, 11)
si-log DataFrame shape: (59955, 16)


Unnamed: 0,numero_boletim,data hora_boletim,data_inclusao,tipo_acidente,desc_tipo_acidente,cod_tempo,desc_tempo,cod_pavimento,pavimento,cod_regional,desc_regional,origem_boletim,local_sinalizado,velocidade_permitida,coordenada_x,coordenada_y,hora_informada,indicador_fatalidade,valor_ups,descricao_ups,data_alteracao_smsa,valor_ups_antiga,descricao_ups_antiga,data_hora_boletim_x,numero_envolvido,condutor,codigo_severidade,desc_severidade,sexo,cinto_seguranca,Embreagues,Idade,nascimento,categoria_habilitacao,descricao_habilitacao,declaracao_obito,cod_severidade_antiga,especie_veiculo,data_hora_boletim_y,sequencial_veiculo,codigo_categoria,descricao_categoria,codigo_especie,descricao_especie,codigo_situacao,descricao_situacao,tipo_socorro,descricao_tipo_socorro,data_boletim,numero_municipio,nome_municipio,sequencia_logradouros,numero_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradoro_anterior,Numero_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,numero_imovel,numero_imovel_proximo
0,90,31/12/2012 21:51,20/08/2013 00:00,H02002,CAPOTAMENTO/TOMBAMENTO COM VITIMA ...,0,NAO INFORMADO,0,NAO INFORMADO,22,NOROESTE,NI,NÃO INFORMADO,0,60599914.0,79978652.0,SIM,NÃO,5,ACIDENTE COM VÍTIMA NÃO FATAL,00/00/0000,0,NÃO INFORMADO,31/12/2012 21:51,1,SIM,1,NAO FATAL,M,SIM,NÃO INFORMADO,49,21/12/1963,C,"VEIC. MOTOR. P/ TRANSP. DE CARGA, C/ PESO MAX....",0,0,AUTOMOVEL,31/12/2012 21:51,1.0,3.0,PARTICULAR,6.0,AUTOMOVEL,1.0,EM MOVIMENTO,3.0,AMBULANCIA,31/12/2012 21:51,1.0,BELO HORIZONTE,1.0,94910.0,RUA,FLOR DO AMENDOIM ...,NI,NÃO INFORMADO ...,1172.0,JARDIM ALVORADA ...,B,BAIRRO,223,0.0
1,90,31/12/2012 21:51,20/08/2013 00:00,H02002,CAPOTAMENTO/TOMBAMENTO COM VITIMA ...,0,NAO INFORMADO,0,NAO INFORMADO,22,NOROESTE,NI,NÃO INFORMADO,0,60599914.0,79978652.0,SIM,NÃO,5,ACIDENTE COM VÍTIMA NÃO FATAL,00/00/0000,0,NÃO INFORMADO,31/12/2012 21:51,2,NÃO,1,NAO FATAL,F,NÃO INFORMADO,NÃO INFORMADO,46,06/07/1966,N,NAO INFORMADO ...,0,0,,31/12/2012 21:51,1.0,3.0,PARTICULAR,6.0,AUTOMOVEL,1.0,EM MOVIMENTO,3.0,AMBULANCIA,31/12/2012 21:51,1.0,BELO HORIZONTE,1.0,94910.0,RUA,FLOR DO AMENDOIM ...,NI,NÃO INFORMADO ...,1172.0,JARDIM ALVORADA ...,B,BAIRRO,223,0.0
2,132,31/12/2014 22:30,11/06/2015 00:00,H08002,CHOQUE MECANICO COM VITIMA ...,0,NAO INFORMADO,0,NAO INFORMADO,24,OESTE,PMMG,NÃO INFORMADO,0,0.0,0.0,SIM,NÃO,5,ACIDENTE COM VÍTIMA NÃO FATAL,00/00/0000,0,NÃO INFORMADO,31/12/2014 22:30,1,SIM,3,SEM FERIMENTOS,M,NÃO INFORMADO,NÃO INFORMADO,51,23/07/1963,B,"VEICULOS MOTOR. COM ATE 8 PASSAGEIROS, PESO MA...",0,0,AUTOMOVEL,31/12/2014 22:30,1.0,3.0,PARTICULAR,6.0,AUTOMOVEL,2.0,PARADO,0.0,NÃO INFORMADO,31/12/2014 22:30,1.0,BELO HORIZONTE,1.0,10320.0,ROD,ANEL RODOVIARIO CELSO MELLO AZEVEDO ...,NI,NÃO INFORMADO ...,717.0,BAIRRO MADRE GERTRUDES ...,B,BAIRRO,KM 536,0.0
3,132,31/12/2014 22:30,11/06/2015 00:00,H08002,CHOQUE MECANICO COM VITIMA ...,0,NAO INFORMADO,0,NAO INFORMADO,24,OESTE,PMMG,NÃO INFORMADO,0,0.0,0.0,SIM,NÃO,5,ACIDENTE COM VÍTIMA NÃO FATAL,00/00/0000,0,NÃO INFORMADO,31/12/2014 22:30,1,SIM,3,SEM FERIMENTOS,M,NÃO INFORMADO,NÃO INFORMADO,51,23/07/1963,B,"VEICULOS MOTOR. COM ATE 8 PASSAGEIROS, PESO MA...",0,0,AUTOMOVEL,31/12/2014 22:30,2.0,3.0,PARTICULAR,4.0,MOTOCICLETA,1.0,EM MOVIMENTO,3.0,AMBULANCIA,31/12/2014 22:30,1.0,BELO HORIZONTE,1.0,10320.0,ROD,ANEL RODOVIARIO CELSO MELLO AZEVEDO ...,NI,NÃO INFORMADO ...,717.0,BAIRRO MADRE GERTRUDES ...,B,BAIRRO,KM 536,0.0
4,132,31/12/2014 22:30,11/06/2015 00:00,H08002,CHOQUE MECANICO COM VITIMA ...,0,NAO INFORMADO,0,NAO INFORMADO,24,OESTE,PMMG,NÃO INFORMADO,0,0.0,0.0,SIM,NÃO,5,ACIDENTE COM VÍTIMA NÃO FATAL,00/00/0000,0,NÃO INFORMADO,31/12/2014 22:30,2,SIM,1,NAO FATAL,M,NÃO INFORMADO,NÃO INFORMADO,24,23/03/1990,AB,HABILITADO NAS CATEGORIAS A e B ...,0,0,MOTOCICLETA,31/12/2014 22:30,1.0,3.0,PARTICULAR,6.0,AUTOMOVEL,2.0,PARADO,0.0,NÃO INFORMADO,31/12/2014 22:30,1.0,BELO HORIZONTE,1.0,10320.0,ROD,ANEL RODOVIARIO CELSO MELLO AZEVEDO ...,NI,NÃO INFORMADO ...,717.0,BAIRRO MADRE GERTRUDES ...,B,BAIRRO,KM 536,0.0


In [3]:
columns_to_be_dropped=["data_inclusao","desc_tipo_acidente",
                       "cod_tempo","pavimento","desc_regional",
                       "velocidade_permitida","origem_boletim",
                       "cod_pavimento","local_sinalizado",
                       "data_alteracao","valor_ups_antiga","cod_severidade_antiga",
                        "valor_ups","descricao_ups","data_alteracao_smsa","descricao_ups_antiga"
                        "desc_severidade","descricao_habilitacao","codigo_situacao",
                        "cod_tipo_socoro", "data_hora_boletim","nome_municipio",
                        "numero_imovel_proximo","numero_imovel","descricao_tipo_bairro",
                        "tipo_bairro","Numero_bairro","sequencia_logradouros","numero_logradouro",
                        "nome_logradouro","tipo_logradouo_anterior","nome_logradoro_anterior"
                        "cod_tipo_socorro","coordenada_x","coordenada_y","descrição_categoria",
                        "cod_especie","tipo_logradouro_anterior"
                        "descricao_ups_antiga","hora_informada","nascimento",
                        "descricao_categoria","numero_municipio","nome_logradoro_anterior","data_boletim",
                        "data_hora_boletim_y","data_hora_boletim_x","descricao_ups_antiga","cod_regional",
                        "tipo_logradouro_anterior","codigo_especie","codigo_categoria","tipo_socorro",
                        "codigo_severidade","declaracao_obito","sequencial_veiculo","numero_envolvido",
                        "desc_tempo","Embreagues","cinto_seguranca","indicador_fatalidade","especie_veiculo"
                       ]
full_df = joined_df
joined_df = joined_df.drop(columns=columns_to_be_dropped, errors='ignore')

joined_df =joined_df.drop_duplicates()
display(joined_df.head())

Unnamed: 0,numero_boletim,data hora_boletim,tipo_acidente,condutor,desc_severidade,sexo,Idade,categoria_habilitacao,descricao_especie,descricao_situacao,descricao_tipo_socorro,tipo_logradouro,nome_bairro
0,90,31/12/2012 21:51,H02002,SIM,NAO FATAL,M,49,C,AUTOMOVEL,EM MOVIMENTO,AMBULANCIA,RUA,JARDIM ALVORADA ...
1,90,31/12/2012 21:51,H02002,NÃO,NAO FATAL,F,46,N,AUTOMOVEL,EM MOVIMENTO,AMBULANCIA,RUA,JARDIM ALVORADA ...
2,132,31/12/2014 22:30,H08002,SIM,SEM FERIMENTOS,M,51,B,AUTOMOVEL,PARADO,NÃO INFORMADO,ROD,BAIRRO MADRE GERTRUDES ...
3,132,31/12/2014 22:30,H08002,SIM,SEM FERIMENTOS,M,51,B,MOTOCICLETA,EM MOVIMENTO,AMBULANCIA,ROD,BAIRRO MADRE GERTRUDES ...
4,132,31/12/2014 22:30,H08002,SIM,NAO FATAL,M,24,AB,AUTOMOVEL,PARADO,NÃO INFORMADO,ROD,BAIRRO MADRE GERTRUDES ...


In [4]:
#binning hour of day and age
itemsetDF = joined_df

itemsetDF['data hora_boletim'] = pd.to_datetime(itemsetDF['data hora_boletim'], format='%d/%m/%Y %H:%M')
itemsetDF['hour'] = itemsetDF['data hora_boletim'].dt.hour

#hour binning
morning_hours = range(6, 12)  
afternoon_hours = range(12, 18)  
night_hours = list(range(0, 6)) + list(range(18, 24)) 


itemsetDF['morning'] = itemsetDF['hour'].apply(lambda x: True if x in morning_hours else False)
itemsetDF['afternoon'] = itemsetDF['hour'].apply(lambda x: True if x in afternoon_hours else False)
itemsetDF['night'] = itemsetDF['hour'].apply(lambda x: True if x in night_hours else False)

itemsetDF.drop(columns=['hour','data hora_boletim'], inplace=True)

In [5]:
#age binning

children = range(0,16)
young_adult = range(17,30)
middle_aged = range(31,45)
old_aged = range(45,200)

itemsetDF['Idade'] =itemsetDF['Idade'].astype('int')
itemsetDF['children'] = itemsetDF['Idade'].apply(lambda x: True if x in children else False)
itemsetDF['young_adult'] = itemsetDF['Idade'].apply(lambda x: True if x in young_adult else False)
itemsetDF['middle_aged'] = itemsetDF['Idade'].apply(lambda x: True if x in middle_aged else False)
itemsetDF['old_aged'] = itemsetDF['Idade'].apply(lambda x: True if x in old_aged else False)

itemsetDF.drop(columns=['Idade'], inplace=True)
itemsetDF.head()



Unnamed: 0,numero_boletim,tipo_acidente,condutor,desc_severidade,sexo,categoria_habilitacao,descricao_especie,descricao_situacao,descricao_tipo_socorro,tipo_logradouro,nome_bairro,morning,afternoon,night,children,young_adult,middle_aged,old_aged
0,90,H02002,SIM,NAO FATAL,M,C,AUTOMOVEL,EM MOVIMENTO,AMBULANCIA,RUA,JARDIM ALVORADA ...,False,False,True,False,False,False,True
1,90,H02002,NÃO,NAO FATAL,F,N,AUTOMOVEL,EM MOVIMENTO,AMBULANCIA,RUA,JARDIM ALVORADA ...,False,False,True,False,False,False,True
2,132,H08002,SIM,SEM FERIMENTOS,M,B,AUTOMOVEL,PARADO,NÃO INFORMADO,ROD,BAIRRO MADRE GERTRUDES ...,False,False,True,False,False,False,True
3,132,H08002,SIM,SEM FERIMENTOS,M,B,MOTOCICLETA,EM MOVIMENTO,AMBULANCIA,ROD,BAIRRO MADRE GERTRUDES ...,False,False,True,False,False,False,True
4,132,H08002,SIM,NAO FATAL,M,AB,AUTOMOVEL,PARADO,NÃO INFORMADO,ROD,BAIRRO MADRE GERTRUDES ...,False,False,True,False,True,False,False


In [6]:
#prepping "descricao_veiculo" for one hot encoding

#grouping "tipos de caminhão"
trucks_to_be_grouped =["CAMINHAO-TRATOR","CAMIONETA","REBOQUE E SEMI-REBOQUE","REBOQUE E SEMI-REBOQUE"]
for i in trucks_to_be_grouped:
    itemsetDF['descricao_especie'] = itemsetDF['descricao_especie'].str.strip().replace(i,"CAMINHAO")

#grouping "microoonibus"
itemsetDF['descricao_especie'] = itemsetDF['descricao_especie'].str.strip().replace("MICROONIBUS","CAMINHAO")

#grouping "motoneta"
itemsetDF['descricao_especie'] = itemsetDF['descricao_especie'].str.strip().replace("MOTONETA","MOTOCICLETA")

#grouping "other vehicles"
other_vehicles =["CARRO DE MAO","CARROCA","CICLOMOTOR","ESPECIAL","MISTO","NAO INFORMADO",
                 "TRACAO","TRATOR DE RODAS","TRATOR MISTO","TREM","TRICICLO","CHARRETE"]
for i in other_vehicles:
    itemsetDF['descricao_especie'] = itemsetDF['descricao_especie'].str.strip().replace(i,"OUTROS TIPOS DE VEICULOS")
#One hot encoding categorical data

vehicles_one_hot = pd.get_dummies(itemsetDF['descricao_especie'])
true_counts = vehicles_one_hot.sum()
print(true_counts)
itemsetDF.drop(columns=['descricao_especie'],inplace=True)

AUTOMOVEL                   91339
BICICLETA                    2748
CAMINHAO                    11157
MOTOCICLETA                 68769
ONIBUS                      18764
OUTROS TIPOS DE VEICULOS     3813
dtype: int64


In [7]:
#prepping "descricao_severidade"
itemsetDF['desc_severidade'] = itemsetDF['desc_severidade'].apply(lambda x: "fatalidade:"+ str(x))
desc_severidade_one_hot = pd.get_dummies(itemsetDF['desc_severidade'])
true_counts = desc_severidade_one_hot.sum()
desc_severidade_one_hot.head()
itemsetDF.drop(columns=['desc_severidade'],inplace=True)
print(true_counts)

fatalidade:FATAL                 823
fatalidade:NAO FATAL          103480
fatalidade:NAO INFORMADO       11651
fatalidade:SEM FERIMENTOS      80641
dtype: int64


In [8]:
#prepping "descricao_situação"
itemsetDF['descricao_situacao'] = itemsetDF['descricao_situacao'].str.strip().replace("NÃO INFORMADO","MOVIMENTO NAO INFORMADO")
itemsetDF['descricao_situacao'] = itemsetDF['descricao_situacao'].str.strip().replace("","MOVIMENTO NAO INFORMADO")
descricao_situacao_one_hot = pd.get_dummies(itemsetDF['descricao_situacao'])
true_counts = descricao_situacao_one_hot.sum()
descricao_situacao_one_hot.head()
print(true_counts)
itemsetDF.drop(columns=['descricao_situacao'],inplace=True)

EM MOVIMENTO               177435
MOVIMENTO NAO INFORMADO      5516
PARADO                      13639
dtype: int64


In [9]:
#prepping "condutor"
itemsetDF['condutor'] = itemsetDF['condutor'].apply(lambda x: "condutor:"+ str(x))
condutor_one_hot = pd.get_dummies(itemsetDF['condutor'])
true_counts = condutor_one_hot.sum()
condutor_one_hot.head()
itemsetDF.drop(columns=['condutor'],inplace=True)
print(true_counts)

condutor:NÃO               34254
condutor:NÃO INFORMADO       244
condutor:SIM              162097
dtype: int64


In [10]:
#prepping "tipo_logradouo"
to_be_replace =["TRV","TUN","VDP","VDT","VIA"
                ,"BEC","ELP","EST","NI","ALA"]
for r in to_be_replace:
    itemsetDF['tipo_logradouro'] = itemsetDF['tipo_logradouro'].str.strip().replace(r,"OUTROS_LOCAIS")
logradouro_one_hot = pd.get_dummies(itemsetDF['tipo_logradouro'])
true_counts = logradouro_one_hot.sum()
logradouro_one_hot.head()
# itemsetDF.drop(columns=['tipo_logradouro'],inplace=True)
print(true_counts)

AVE              87675
OUTROS_LOCAIS     2536
PCA               2064
ROD              14637
RUA              89533
dtype: int64


In [11]:
#prepping "sexo"
itemsetDF['sexo'] = itemsetDF['sexo'].str.strip().replace("0","sexo nao informado")
sexo_one_hot = pd.get_dummies(itemsetDF['sexo'])
true_counts = sexo_one_hot.sum()
sexo_one_hot.head()
print(true_counts)
itemsetDF.drop(columns="sexo",inplace=True)

F                      43226
M                     142391
sexo nao informado     10978
dtype: int64


In [12]:
#encoding "tipo de acidente"
tipo_acidente_one_hot = pd.get_dummies(itemsetDF['tipo_acidente'])
true_counts = tipo_acidente_one_hot.sum()
tipo_acidente_one_hot.head()

print(true_counts)
itemsetDF.drop(columns="tipo_acidente",inplace=True)

H01002    97329
H02002     5154
H03002      940
H04000     7638
H05002       97
H06001      524
H06002    17766
H07002      182
H08002    32017
H09002    32097
H99002     2851
dtype: int64


In [13]:
itemsetDF.drop(columns=["numero_boletim","categoria_habilitacao","tipo_logradouro",'descricao_tipo_socorro'],inplace=True)
concat_dfs= pd.concat([itemsetDF.reset_index(drop=True),condutor_one_hot.reset_index(drop=True)
                       ,descricao_situacao_one_hot.reset_index(drop=True),
                       vehicles_one_hot.reset_index(drop=True),
                        logradouro_one_hot.reset_index(drop=True),
                         sexo_one_hot.reset_index(drop=True),
                         tipo_acidente_one_hot.reset_index(drop=True),
                         desc_severidade_one_hot.reset_index(drop=True  )],axis=1)

concat_dfs = concat_dfs.drop(columns=['nome_bairro',' H01002', ' H02002', ' H03002',
       ' H04000', ' H05002', ' H06001', ' H06002', ' H07002', ' H08002',
       ' H09002', ' H99002','condutor:NÃO INFORMADO','MOVIMENTO NAO INFORMADO','OUTROS TIPOS DE VEICULOS','OUTROS_LOCAIS','fatalidade:NAO INFORMADO  ','sexo nao informado'])

In [14]:
concat_dfs.isnull().values.any()

False

In [15]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, fpmax, fpgrowth,association_rules

In [16]:
FP_itemsets = fpgrowth(concat_dfs, min_support=0.1, use_colnames=True)
rules = association_rules(FP_itemsets,metric="lift", min_threshold=1)
# rules = rules[(rules['confidence'] > 0.8)]
rules.sort_values(by='lift',ascending=False).reset_index(drop=True)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(condutor:NÃO),"(F, fatalidade:NAO FATAL )",0.174236,0.142130,0.101432,0.582151,4.095912,0.076668,2.053063,0.915340
1,"(F, fatalidade:NAO FATAL )",(condutor:NÃO),0.142130,0.174236,0.101432,0.713657,4.095912,0.076668,2.883825,0.881082
2,(F),"(fatalidade:NAO FATAL , condutor:NÃO)",0.219873,0.167502,0.101432,0.461320,2.754118,0.064603,1.545440,0.816415
3,"(fatalidade:NAO FATAL , condutor:NÃO)",(F),0.167502,0.219873,0.101432,0.605557,2.754118,0.064603,1.977794,0.765056
4,(F),(condutor:NÃO),0.219873,0.174236,0.103909,0.472586,2.712327,0.065599,1.565684,0.809244
...,...,...,...,...,...,...,...,...,...,...
2223,(condutor:SIM),"(EM MOVIMENTO, RUA)",0.824522,0.420575,0.346886,0.420711,1.000323,0.000112,1.000234,0.001839
2224,(AVE),"(M, condutor:SIM)",0.445968,0.655693,0.292500,0.655877,1.000280,0.000082,1.000534,0.000505
2225,"(M, condutor:SIM)",(AVE),0.655693,0.445968,0.292500,0.446093,1.000280,0.000082,1.000225,0.000813
2226,(M),"(afternoon, fatalidade:NAO FATAL )",0.724286,0.186256,0.134937,0.186304,1.000257,0.000035,1.000059,0.000933


In [17]:
pd.options.display.max_rows = 10
FP_itemsets

Unnamed: 0,support,itemsets
0,0.902541,(EM MOVIMENTO)
1,0.824522,(condutor:SIM)
2,0.724286,(M)
3,0.526361,(fatalidade:NAO FATAL )
4,0.464605,(AUTOMOVEL)
...,...,...
401,0.134429,"(EM MOVIMENTO, afternoon, fatalidade:SEM FERIM..."
402,0.121422,"(M, afternoon, fatalidade:SEM FERIMENTOS , con..."
403,0.107531,"(M, afternoon, fatalidade:SEM FERIMENTOS , EM ..."
404,0.106936,"(condutor:SIM, M, EM MOVIMENTO, afternoon, fat..."


In [18]:
rules.sort_values(by='leverage',ascending=False).reset_index(drop=True)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(condutor:NÃO),"(F, fatalidade:NAO FATAL )",0.174236,0.142130,0.101432,0.582151,4.095912,0.076668,2.053063,0.915340
1,"(F, fatalidade:NAO FATAL )",(condutor:NÃO),0.142130,0.174236,0.101432,0.713657,4.095912,0.076668,2.883825,0.881082
2,(condutor:NÃO),(fatalidade:NAO FATAL ),0.174236,0.526361,0.167502,0.961348,1.826402,0.075790,12.253792,0.547948
3,(fatalidade:NAO FATAL ),(condutor:NÃO),0.526361,0.174236,0.167502,0.318226,1.826402,0.075790,1.211198,0.955318
4,(fatalidade:NAO FATAL ),"(EM MOVIMENTO, condutor:NÃO)",0.526361,0.158229,0.152079,0.288925,1.825997,0.068794,1.183801,0.955061
...,...,...,...,...,...,...,...,...,...,...
2223,"(afternoon, AVE)",(M),0.155309,0.724286,0.112561,0.724757,1.000650,0.000073,1.001711,0.000769
2224,"(M, condutor:SIM, fatalidade:NAO FATAL )",(night),0.314988,0.328462,0.103517,0.328639,1.000540,0.000056,1.000264,0.000788
2225,(night),"(M, condutor:SIM, fatalidade:NAO FATAL )",0.328462,0.314988,0.103517,0.315158,1.000540,0.000056,1.000248,0.000804
2226,(M),"(afternoon, fatalidade:NAO FATAL )",0.724286,0.186256,0.134937,0.186304,1.000257,0.000035,1.000059,0.000933


In [19]:
aprioriItemsets = apriori(concat_dfs, min_support=0.1, use_colnames=True)
rules = association_rules(aprioriItemsets,metric="lift", min_threshold=1)
# rules = rules[(rules['confidence'] > 0.8)]
rules.sort_values(by='lift',ascending=False).reset_index(drop=True)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,"(F, fatalidade:NAO FATAL )",(condutor:NÃO),0.142130,0.174236,0.101432,0.713657,4.095912,0.076668,2.883825,0.881082
1,(condutor:NÃO),"(F, fatalidade:NAO FATAL )",0.174236,0.142130,0.101432,0.582151,4.095912,0.076668,2.053063,0.915340
2,"(fatalidade:NAO FATAL , condutor:NÃO)",(F),0.167502,0.219873,0.101432,0.605557,2.754118,0.064603,1.977794,0.765056
3,(F),"(fatalidade:NAO FATAL , condutor:NÃO)",0.219873,0.167502,0.101432,0.461320,2.754118,0.064603,1.545440,0.816415
4,(condutor:NÃO),(F),0.174236,0.219873,0.103909,0.596368,2.712327,0.065599,1.932769,0.764520
...,...,...,...,...,...,...,...,...,...,...
2223,"(EM MOVIMENTO, RUA)",(condutor:SIM),0.420575,0.824522,0.346886,0.824789,1.000323,0.000112,1.001519,0.000557
2224,(AVE),"(M, condutor:SIM)",0.445968,0.655693,0.292500,0.655877,1.000280,0.000082,1.000534,0.000505
2225,"(M, condutor:SIM)",(AVE),0.655693,0.445968,0.292500,0.446093,1.000280,0.000082,1.000225,0.000813
2226,"(afternoon, fatalidade:NAO FATAL )",(M),0.186256,0.724286,0.134937,0.724472,1.000257,0.000035,1.000676,0.000316


In [20]:
rules.sort_values(by='confidence',ascending=False).reset_index(drop=True)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,"(M, fatalidade:SEM FERIMENTOS , old_aged)",(condutor:SIM),0.106956,0.824522,0.106412,0.994911,1.206651,0.018224,34.483790,0.191771
1,"(M, fatalidade:SEM FERIMENTOS , middle_aged)",(condutor:SIM),0.126366,0.824522,0.125715,0.994848,1.206574,0.021523,34.057716,0.195971
2,"(M, fatalidade:SEM FERIMENTOS , EM MOVIMENTO, ...",(condutor:SIM),0.111920,0.824522,0.111330,0.994728,1.206429,0.019049,33.284755,0.192671
3,"(M, afternoon, fatalidade:SEM FERIMENTOS )",(condutor:SIM),0.122078,0.824522,0.121422,0.994625,1.206304,0.020766,32.646978,0.194803
4,"(M, afternoon, fatalidade:SEM FERIMENTOS , EM ...",(condutor:SIM),0.107531,0.824522,0.106936,0.994465,1.206111,0.018274,31.705935,0.191479
...,...,...,...,...,...,...,...,...,...,...
2223,(EM MOVIMENTO),"(M, night, RUA)",0.902541,0.109265,0.102037,0.113055,1.034688,0.003421,1.004273,0.343995
2224,(EM MOVIMENTO),"(AUTOMOVEL, RUA, fatalidade:NAO FATAL )",0.902541,0.111824,0.101539,0.112503,1.006075,0.000613,1.000765,0.061961
2225,(EM MOVIMENTO),"(M, fatalidade:SEM FERIMENTOS , MOTOCICLETA)",0.902541,0.105226,0.101513,0.112475,1.068885,0.006542,1.008167,0.661256
2226,(EM MOVIMENTO),"(young_adult, fatalidade:NAO FATAL , MOTO...",0.902541,0.103482,0.100938,0.111838,1.080752,0.007542,1.009409,0.766662


In [29]:
rules.sort_values(by='leverage',ascending=False).reset_index(drop=True)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,"(F, fatalidade:NAO FATAL )",(condutor:NÃO),0.14213,0.174236,0.101432,0.713657,4.095912,0.076668,2.883825,0.881082
1,(condutor:NÃO),"(F, fatalidade:NAO FATAL )",0.174236,0.14213,0.101432,0.582151,4.095912,0.076668,2.053063,0.91534
2,(fatalidade:NAO FATAL ),(condutor:NÃO),0.526361,0.174236,0.167502,0.318226,1.826402,0.07579,1.211198,0.955318
3,(condutor:NÃO),(fatalidade:NAO FATAL ),0.174236,0.526361,0.167502,0.961348,1.826402,0.07579,12.253792,0.547948
4,"(EM MOVIMENTO, condutor:NÃO)",(fatalidade:NAO FATAL ),0.158229,0.526361,0.152079,0.961134,1.825997,0.068794,12.1865,0.537384
5,(fatalidade:NAO FATAL ),"(EM MOVIMENTO, condutor:NÃO)",0.526361,0.158229,0.152079,0.288925,1.825997,0.068794,1.183801,0.955061
6,(condutor:NÃO),"(EM MOVIMENTO, fatalidade:NAO FATAL )",0.174236,0.480577,0.152079,0.872832,1.816218,0.068345,4.084555,0.54423
7,"(EM MOVIMENTO, fatalidade:NAO FATAL )",(condutor:NÃO),0.480577,0.174236,0.152079,0.316451,1.816218,0.068345,1.208054,0.865201
8,(condutor:SIM),(fatalidade:SEM FERIMENTOS ),0.824522,0.410188,0.406419,0.492915,1.201679,0.06821,1.163141,0.956423
9,(fatalidade:SEM FERIMENTOS ),(condutor:SIM),0.410188,0.824522,0.406419,0.990811,1.201679,0.06821,19.096736,0.28455


In [28]:
aprioriItemsets.sort_values(by='support',ascending=False)

Unnamed: 0,support,itemsets
8,0.902541,(EM MOVIMENTO)
7,0.824522,(condutor:SIM)
75,0.743213,"(EM MOVIMENTO, condutor:SIM)"
14,0.724286,(M)
81,0.655693,"(M, condutor:SIM)"
89,0.655597,"(EM MOVIMENTO, M)"
227,0.592177,"(EM MOVIMENTO, M, condutor:SIM)"
15,0.526361,(fatalidade:NAO FATAL )
90,0.480577,"(EM MOVIMENTO, fatalidade:NAO FATAL )"
9,0.464605,(AUTOMOVEL)
