Importação de bibliotecas  
pandas - Análise de dataframes  
numpy - Funções de tipos de variáveis, variável np.nan e funções estatísticas (np.percentile)  
math - Funções matemáticas, como exponencial, logarítimica e outras  
unidecode - Retirada de acentuação de palavras  
get_close_matches - Comparação aproximada entre strings  

In [None]:
import pandas as pd
import numpy as np
import math
from unidecode import unidecode
from difflib import get_close_matches

get_vkt_preliminar  
Função para indicar qual modelo será adotado para calcular o VKT Preliminar. Os modelos tiveram por referência CETESB (2013).

Como parâmetros, são necessários uma parcela do dataframe df_denatran com as colunas ['Ano', 'Combustivel', 'Tipo'], bem como o ano de referência ao qual o VKT deverá ser calculado.

CETESB. Curvas de intensidade de uso por tipo de veículo automotor da frota da cidade de São Paulo. São Paulo, SP, 2013. 67 p. (Série Relatórios). Disponível em: < https://cetesb.sp.gov.br/veicular/wpcontent/uploads/sites/6/2013/12/curvas-intensidade-uso-veiculos-automotorescidade-sao-paulo.pdf >. Acesso em: 18 jun. 2021.


In [None]:
def get_vkt_preliminar (df, ano_base):
    if(df['Tipo'] == 'AUTOMOVEL'):
        if(df['Combustivel'] == 'FLEX'):
            return vkt_flex(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'GASOLINA'):
            return vkt_gasolina(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'ALCOOL'):
            return vkt_alcool(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'DIESEL'):
            return vkt_util_diesel(df['Ano'], ano_base)
    elif(df['Tipo'] in ['UTILITARIO', 'CAMIONETA']):
        if(df['Combustivel'] == 'GASOLINA'):
            return vkt_util_gasolina(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'FLEX'):
            return vkt_util_flex(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'DIESEL'):
            return vkt_util_diesel(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'ALCOOL'):
            return vkt_alcool(df['Ano'], ano_base)
    elif(df['Tipo'] == 'CAMINHAO'):
        return vkt_caminhao(df['Ano'], ano_base)
    elif(df['Tipo'] == 'CAMINHONETE'):
        return vkt_caminhonete(df['Ano'], ano_base)
    elif(df['Tipo'] == 'ONIBUS'):
        return vkt_onibus(df['Ano'], ano_base)
    elif(df['Tipo'] == 'MICROONIBUS'):
        return vkt_microonibus(df['Ano'], ano_base)
    elif(df['Tipo'] == 'CAMINHAO TRATOR'):
        return vkt_caminhao_trator(df['Ano'], ano_base)
    elif(df['Tipo'] in ['MOTOCICLETA', 'CICLOMOTOR', 'TRICICLO', 'QUADRICICLO']):
        return vkt_motociclo(df['Ano'], ano_base)
    elif(df['Tipo'] == 'MOTONETA'):
        return vkt_motoneta(df['Ano'], ano_base)
    else:
        return np.nan

vkt_gasolina  
Modelo ajustado para a intensidade de uso dos automóveis e derivados a gasolina (quilometragem média anual segundo a idade)

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_gasolina (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 40):
        return 6174
    else:
        return (0.6716*(idade**3) - 49.566*(idade**2) + 779.66*idade + 11266)

vkt_alcool  
Modelo ajustado para a intensidade de uso dos automóveis e derivados a etanol (quilometragem média por ano segundo a idade)

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_alcool (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 28):
        return 8275
    else:
        return (-3.292*(idade**3) + 174.31*(idade**2) - 3083.6*idade + 31628)

vkt_flex  
Modelo ajustado para a intensidade de uso dos automóveis e derivados flex (quilometragem média por ano segundo a idade).

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_flex (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if(idade > 10):
        return np.nan
    elif(idade > 8):
        return 15000
    elif(idade == 1):
        return 17220
    else:
        return (-24.288*(idade**3) + 426.19*(idade**2) - 2360.4*idade + 19178)

vkt_util_gasolina  
Modelo ajustado para a intensidade de uso dos utilitários Otto a gasolina (quilometragem média por ano segundo a idade).

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_util_gasolina (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 36):
        return 7862
    else:
        return (0.3623*(idade**3) - 13.828*(idade**2)- 255.77*idade + 18202)

vkt_util_flex  
Modelo ajustado para a intensidade de uso dos utilitários Otto flex (quilometragem média por ano segundo a idade).

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_util_flex (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 36):
        return 7862
    else:
        return (107.39*(idade**3) - 1687.3*(idade**2) + 7200.5*idade + 12599)

vkt_caminhao  
Modelo ajustado para a intensidade de uso dos caminhões diesel (quilometragem média por ano segundo a idade).

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_caminhao (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if(idade > 60):
        return np.nan
    elif(idade > 40):
        return 21804
    else:
        return (0.0774*(idade**4) - 7.3952*(idade**3) + 249.38*(idade**2) - 3664*idade + 44505)

vkt_caminhonete  
Modelo ajustado para a intensidade de uso das Caminhonetes diesel (quilometragem média por ano segundo a idade).

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_caminhonete (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 10):
        return 15950
    else:
        return (-10.399*(idade**3) + 86.398*(idade**2) - 1271.3*idade + 29638)

vkt_onibus  
Modelo ajustado para a intensidade de uso dos ônibus urbanos diesel (quilometragem média por ano segundo a idade).

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_onibus (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 15):
        return 64108*math.exp(-0.046*idade)
    else:
        return (-8.8551*(idade**3) + 263.41*(idade**2) - 4219.4*idade + 66435)

vkt_util_diesel  
Modelo ajustado para a intensidade de uso dos utilitários leves diesel (quilometragem média por ano segundo a idade).

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_util_diesel (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if(idade > 8):
        return 13040
    else:
        return (-64.592*(idade**3) + 720.31*(idade**2) - 2280.8*idade + 19242)

vkt_microonibus  
Modelo ajustado para a intensidade de uso dos micro-ônibus diesel.

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

Como não existe log(0) foi feito um ajuste para o ano 0, considerando log(0)=0 em observação ao gráfico.

In [None]:
def vkt_microonibus (ano_fab, ano_base):
    idade = ano_base - ano_fab
    #Realizado ajuste para idade == 0
    if (idade > 15):
        return 18680
    elif (idade == 0):
        return 35578
    else:
        return (-5661*(math.log(idade)) + 35578)

vkt_caminhao_trator  
Modelo ajustado para a intensidade de uso dos caminhões-trator (quilometragem média por ano segundo a idade).

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_caminhao_trator (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if(idade > 52):
        return np.nan
    else:
        return (-1023.7*idade + 57247)

vkt_motociclo  
Modelo ajustado para a intensidade de uso de motociclos (quilometragem média segundo a idade). Para os fins deste trabalho foram considerados como motociclos os veículos de tipo Motocicleta, Ciclomotor, Triciclo e Quadriciclo.

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_motociclo (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 17):
        return 9050
    else:
        return (1.3392*(idade**3) - 60.492*(idade**2) + 442.92*idade + 12423)

vkt_motoneta  
Modelo ajustado para a intensidade de uso de motonetas (quilometragem média por ano segundo a idade).

Como parâmetros, são necessários o ano de fabricação do veículo e o ano de referência ao qual o VKT deverá ser calculado.

In [None]:
def vkt_motoneta (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 10):
        return (951491.4958*(idade**(-1.9209)))
    else:
        return (-35.147*(idade**3) + 620.87*(idade**2) - 2970.3*idade + 11431)

get_close_model  
Função procura, inicialmente, se há um automóvel da base DENATRAN com nome exatamente igual à base iCarros. Se não há, busca, através da função get_close_matches, o modelo cujo nome mais se aproxima. Ressalta-se que é realizado um processo de segmentação do modelo para aumentar a probabilidade de resultado, mas há resultados não muito adequados. Sugere-se aumentar o cutoff e realizar um aprofundamento na análise entre os resultados encontrados e os nomes originais.

Exemplo de como o algoritimo trabalha
Marca/Modelo 'FIAT/ARGO DRIVE 1.3'

Primeiramente, separa marca do modelo
Marca 'FIAT'
Modelo 'ARGO DRIVE 1.3'

Na sequência, subdivide o modelo em no máximo 3 utilizando o espaço como delimitador
Modelo_A 'ARGO'
Modelo_B 'DRIVE'
Modelo_C '1.3'

Posteriormente, compara individualmente o Modelo_A, Modelo_B e Modelo_C do df_denatran com o Modelo_A a base do iCarros.

In [None]:
def get_close_model (df_denatran):
    model = df_marca_modelo5[df_denatran == df_marca_modelo5['Modelo_A']].head(1)

    if(len(model) > 0):
        return model['Modelo_A'].item()

    model = get_close_matches(df_denatran, df_marca_modelo5['Modelo_A'], n=1, cutoff=0.7)

    if(len(model) > 0):
        return model[0]
    else:
        return np.nan

get_comb  
Função compara os parâmetros de consumo que o algoritmo identificou previamente adotando-se, sempre que existir, na seguinte ordem: Consumo[]_A, Consumo[]_B ou Consumo[]_C

In [None]:
def get_comb (df_denatran):
    gasolina = np.nan
    alcool = np.nan
    diesel = np.nan

    if((np.isnan(df_denatran['Consumo_Cidade_Gasolina_A'])) & (np.isnan(df_denatran['Consumo_Cidade_Gasolina_B'])) & (np.isnan(df_denatran['Consumo_Cidade_Gasolina_C'])) & (np.isnan(df_denatran['Consumo_Cidade_Alcool_A'])) & (np.isnan(df_denatran['Consumo_Cidade_Alcool_B'])) & (np.isnan(df_denatran['Consumo_Cidade_Alcool_C']))):
        return [gasolina, alcool, diesel]

    if((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_A'])) & (df_denatran['Combustivel_Gasolina_A'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Gasolina_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_B'])) & (df_denatran['Combustivel_Gasolina_B'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Gasolina_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_C'])) & (df_denatran['Combustivel_Gasolina_C'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Gasolina_C']

    if((~np.isnan(df_denatran['Consumo_Cidade_Alcool_A'])) & (df_denatran['Combustivel_Alcool_A'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Alcool_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_B'])) & (df_denatran['Combustivel_Alcool_B'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Alcool_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_C'])) & (df_denatran['Combustivel_Alcool_C'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Alcool_C']

    if((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_A'])) & (df_denatran['Combustivel_Gasolina_A'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Gasolina_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_B'])) & (df_denatran['Combustivel_Gasolina_B'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Gasolina_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_C'])) & (df_denatran['Combustivel_Gasolina_C'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Gasolina_C']

    if((~np.isnan(df_denatran['Consumo_Cidade_Alcool_A'])) & (df_denatran['Combustivel_Alcool_A'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Alcool_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_B'])) & (df_denatran['Combustivel_Alcool_B'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Alcool_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_C'])) & (df_denatran['Combustivel_Alcool_C'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Alcool_C']

    if((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_A'])) & (df_denatran['Combustivel_Gasolina_A'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Gasolina_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_B'])) & (df_denatran['Combustivel_Gasolina_B'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Gasolina_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_C'])) & (df_denatran['Combustivel_Gasolina_C'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Gasolina_C']

    if((~np.isnan(df_denatran['Consumo_Cidade_Alcool_A'])) & (df_denatran['Combustivel_Alcool_A'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Alcool_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_B'])) & (df_denatran['Combustivel_Alcool_B'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Alcool_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_C'])) & (df_denatran['Combustivel_Alcool_C'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Alcool_C']

    return [gasolina, alcool, diesel]

get_consumo  
Função procura, para os que não identificou previamente, seus respectivos fatores de consumo conforme base da CETESB (2019) de acordo com tipo de veículo. Caso encontre mais de um fator, realiza média simples e retorna esse valor. CETESB (2019) utiliza o termo "autonomia" para se referir ao aqui utilizado "fator de consumo".

CETESB. Emissões veiculares no estado de São Paulo 2019. São Paulo, SP, 2019. 140 p. (Série Relatórios). Disponível em: < https://cetesb.sp.gov.br/veicular/wp-content/uploads/sites/6/2020/11/Relatorio-Emissoes-Veiculares-no-Estado-de-Sao-Paulo-2019.pdf >. Acesso em: 18 jun. 2021.

In [None]:
def get_consumo(comb, df):
    ano = df['Ano']
    consumo = []

    if((comb not in df['Combustivel']) & (df['Combustivel'] != 'FLEX')):
        return np.nan

    elif((df['Tipo'] in ['AUTOMOVEL', 'UTILITARIO', 'CAMINHONETE', 'CAMIONETA']) & (comb in ['FLEX', 'ALCOOL', 'GASOLINA'])):
        if(ano < 1982):
            ano = 1982

        consumo = df_base_consumo[(df_base_consumo['Tipo'] == 'AUTOMOVEL') & (df_base_consumo['Ano'] == ano) & (df_base_consumo['Combustivel'].str.contains(comb))]['Consumo']

    elif((df['Tipo'] in ['AUTOMOVEL', 'UTILITARIO', 'CAMINHONETE', 'CAMIONETA']) & (comb == 'DIESEL')):
        if(ano < 1999):
            ano = 1999

        consumo = df_base_consumo[(df_base_consumo['Tipo'] == 'CAMINHAO') & (df_base_consumo['Subtipo'] == 'SEMILEVES') & (df_base_consumo['Ano'] == ano) & (df_base_consumo['Combustivel'].str.contains(comb))]['Consumo']

    elif((df['Tipo'] == 'CAMINHAO') | (df['Tipo'] == 'CAMINHAO TRATOR')):
        if(ano < 1999):
            ano = 1999

        consumo = df_base_consumo[(df_base_consumo['Tipo'] == 'CAMINHAO') & (df_base_consumo['Ano'] == ano) & (df_base_consumo['Combustivel'].str.contains(comb))]['Consumo']

    elif(df['Tipo'] == 'CICLOMOTOR'):
        consumo = df_base_consumo[(df_base_consumo['Tipo'] == 'CICLOMOTOR') & (df_base_consumo['Ano'] == ano) & (df_base_consumo['Combustivel'].str.contains(comb))]['Consumo']        

    elif(df['Tipo'] in ['MOTOCICLETA', 'MOTONETA', 'QUADRICICLO', 'TRICICLO']):
        consumo = df_base_consumo[(df_base_consumo['Tipo'] == 'MOTOCICLETA') & (df_base_consumo['Ano'] == ano) & (df_base_consumo['Combustivel'].str.contains(comb))]['Consumo']        

    elif(df['Tipo'] == 'MICROONIBUS'):
        if(ano < 1999):
            ano = 1999

        consumo = df_base_consumo[(df_base_consumo['Subtipo'] == 'MICROONIBUS') & (df_base_consumo['Ano'] == ano) & (df_base_consumo['Combustivel'].str.contains(comb))]['Consumo']        

    elif(df['Tipo'] == 'ONIBUS'):
        if(ano < 1999):
            ano = 1999
            
        consumo = df_base_consumo[(df_base_consumo['Tipo'] == 'ONIBUS') & (df_base_consumo['Subtipo'] != 'MICROONIBUS') & (df_base_consumo['Ano'] == ano) & (df_base_consumo['Combustivel'].str.contains(comb))]['Consumo']        

    if (len(consumo) == 0):
        consumo = np.nan
    else:
        consumo = consumo.mean()

    return consumo

get_vkt  
Função multiplica o VKT Preliminar pelo fator de ajuste com base na relação entre o volume de combustível teórico e o efetivamente vendido.

Como parâmetro, é necessário o df_denatran com as colunas ['VKT_Preliminar', 'Combustivel', 'Fator_Alcool', 'Fator_Gasolina', 'Fator_Diesel', 'Relacao'].

In [None]:
def get_vkt (df):
    if(df['Combustivel'] == 'ALCOOL'):
        vkt = df['VKT_Preliminar']*df['Fator_Alcool']

    elif(df['Combustivel'] == 'GASOLINA'):
        vkt = df['VKT_Preliminar']*df['Fator_Gasolina']
    
    elif(df['Combustivel'] == 'DIESEL'):
        vkt = df['VKT_Preliminar']*df['Fator_Diesel']

    elif(df['Combustivel'] == 'FLEX'):
        vkt = df['VKT_Preliminar']*df['Relacao']*df['Fator_Alcool'] + df['VKT_Preliminar']*(1-df['Relacao'])*df['Fator_Gasolina']

    return vkt

get_sucat  
Função realiza a conversão entre a frota licenciada e a frota circulante, através da aplicação das curvas de sucateamento. Destaque para a curva de sucateamento de motos, que foi adaptada através da leitura do gráfico da publicação por não estar efetivamente descrita.

BRASIL. Ministério do Meio Ambiente (MMA). 1º Inventário nacional de emissões atmosféricas por veículos automotores rodoviários: relatório final. Brasília, 2011. Disponível em: <https://antigo.mma.gov.br/images/arquivo/80060/Inventario_de_Emissoes_por_Veiculos_Rodoviarios_2013.pdf>. Acesso em: 18 jun. 2021.

In [None]:
def get_sucat (df, ano_base):
    idade = ano_base - df['Ano']

    if((df['Tipo'] == 'AUTOMOVEL') & (df['Combustivel'] != 'DIESEL')):
        return ((1-math.exp(-math.exp(1.798+(-0.137*idade))))*df['Quantidade'])
    
    elif((df['Tipo'] in ['UTILITARIO', 'CAMIONETA']) & (df['Combustivel'] != 'DIESEL')):
        return ((1-math.exp(-math.exp(1.618+(-0.141*idade))))*df['Quantidade'])

    elif((df['Tipo'] in ['AUTOMOVEL', 'UTILITARIO', 'CAMIONETA']) & (df['Combustivel'] == 'DIESEL')):
        return (((1/(1+math.exp(0.17*(idade-15.3))))+(1/(1+math.exp(0.17*(idade+15.3)))))*df['Quantidade'])

    elif((df['Tipo'] in ['CAMINHAO', 'CAMINHONETE', 'CAMINHAO TRATOR']) & (df['Combustivel'] == 'DIESEL')):
        return (((1/(1+math.exp(0.10*(idade-17))))+(1/(1+math.exp(0.10*(idade+17)))))*df['Quantidade'])

    elif((df['Tipo'] in ['ONIBUS', 'MICROONIBUS']) & (df['Combustivel'] == 'DIESEL')):
        return (((1/(1+math.exp(0.16*(idade-19.1))))+(1/(1+math.exp(0.16*(idade+19.1)))))*df['Quantidade'])

    elif(df['Tipo'] in ['MOTOCICLETA', 'CICLOMOTOR', 'TRICICLO', 'QUADRICICLO', 'MOTONETA']):
        return (math.exp(-0.085*idade)*df['Quantidade'])

    return np.nan

Por questões relacionadas à ausência de infraestrutura em nuvem para armazenamento e simplificação do processo, optou-se por salvar o resultado do algoritmo em um arquivo CSV. Por uma questão capacidade de armazenamento em memória RAM de informações dos computadores disponíveis, foi necessário subdividir o processo em subprocessos, salvando o dataframe a cada etapa. De qualquer maneira, a partir deste ponto inicia-se o efetivo cálculo do VKT.

vkt_fase1  
Como parâmetros, são necessários ano de referência ao qual o VKT deverá ser calculado, bem como a versão. A versão apenas implicará no nome do arquivo final a ser gerado, já o ano terá implicações nas curvas de sucateamento e de intensidade de uso.

In [None]:
def vkt_fase1 (ano, versao):
    #Dataframe de Regiões Metropolitanas (df_rms)
    df_rms = pd.read_csv('datasets/rms_rev02.csv')

    #Dataframe da base de classificação de veículos do DENATRAN (df_base_class_denatran)
    df_base_class_denatran = pd.read_csv('datasets/base_denatran_classificacao.csv')

    #Dataframe da base de veículos por UF, Município, Marca/Modelo e Ano do DENATRAN (df_denatran)
    df_denatran = pd.read_csv('datasets/{}/I_Frota_por_UF_Municipio_Marca_e_Modelo_Ano_Dezembro_{}.txt'.format(ano, ano), sep=';')
    print(df_denatran)

    #Renomeia as colunas para retirada de acentuação, espaços e caracteres especiais
    df_denatran.rename(columns={'Município': 'Municipio', 'Marca Modelo': 'Marca_Modelo', 'Ano Fabricação Veículo CRV': 'Ano', 'Qtd. Veículos': 'Quantidade'}, inplace = True)

    #Aplicação do filtro no df_denatran para apenas os municípios que compõem as regiões metropolitanas, conforme df_rms
    #Nota: Para as capitais que não compõem nenhuma RM, foi incluída apenas a capital no df_rms
    df_denatran = df_denatran[df_denatran[['UF', 'Municipio']].apply(tuple, axis=1).isin(df_rms[['UF','Municipio']].apply(tuple, axis=1))]

    #Realização do merge do df_denatran com o df_rms, incluindo a RM e a capital correspondente a cada linha
    df_denatran = pd.merge(df_denatran, df_rms[['Municipio', 'UF', 'RM', 'Capital']], on=['Municipio', 'UF'], how='left')

    #Tramento inicial do df_denatran
    #Retira as linhas com a coluna df_denatran['Ano'] que não sejam numéricas (ex.: 'Não informado')
    df_denatran = df_denatran[df_denatran['Ano'].map(lambda x: x.isnumeric())]
    #Converte a coluna df_denatran['Ano'] para números inteiros
    df_denatran['Ano'] = df_denatran['Ano'].astype(np.int64)
    #Converte a coluna df_denatran['Marca_Modelo'] para string
    df_denatran['Marca_Modelo'] = df_denatran['Marca_Modelo'].convert_dtypes()
    df_denatran['Marca_Modelo'] = df_denatran['Marca_Modelo'].astype(str)

    #Tramento inicial do df_base_class_denatran
    #Converte a coluna df_base_class_denatran['Ano'] para números inteiros
    df_base_class_denatran['Ano'] = df_base_class_denatran['Ano'].astype(np.int64)
    #Converte a coluna df_base_class_denatran['Marca_Modelo'] para string
    df_base_class_denatran['Marca_Modelo'] = df_base_class_denatran['Marca_Modelo'].convert_dtypes()
    df_base_class_denatran['Marca_Modelo'] = df_base_class_denatran['Marca_Modelo'].astype(str)
    #Remove df_base_class_denatran['Marca_Modelo', 'Ano'] duplicados
    #Nota: Este dataframe já está organizado em ordem decrescente de quantidade. A função drop_duplicates mantém o primeiro registro (com maior quantidade) e elimina os demais. Pode haver erro na classificação dos veículos, mas sempre é adotado o mais provável (por ter mais veículos) no dataframe. Isso influencia nas curvas de intensidade e no fator de ajuste, em razão do tipo de combustível e o tipo de veículo
    df_base_class_denatran = df_base_class_denatran.drop_duplicates(subset=['Marca_Modelo', 'Ano'])

    #Realização do merge do df_denatran com o df_base_class_denatran, incluindo ['Tipo', 'Combustivel']
    df_denatran = pd.merge(df_denatran, df_base_class_denatran[['Marca_Modelo', 'Ano', 'Tipo', 'Combustivel']], on=['Marca_Modelo', 'Ano'], how='left')
    #Converte a coluna df_denatran['Tipo'] para string
    df_denatran['Tipo'] = df_denatran['Tipo'].astype(str)

    #Retira do df_denatran os veículos que não geram VKT através dos combustíveis utilizados para ajuste. Tipos ['BICICLETA', 	'BONDE', 	'CARRO DE MAO', 	'CARROCA', 	'CHARRETE', 	'CHASSI/PLATAFORMA', 	'MOTOR-CASA', 	'Não Identificado', 	'REBOQUE', 	'SEMI-REBOQUE', 	'SIDE-CAR', 	'Sem Informação', 	'TRATOR DE ESTEIRAS', 	'TRATOR DE RODAS', 	'TRATOR MISTO']
    tipos_exc = ['BICICLETA', 	'BONDE', 	'CARRO DE MAO', 	'CARROCA', 	'CHARRETE', 	'CHASSI/PLATAFORMA', 	'MOTOR-CASA', 	'Não Identificado', 	'REBOQUE', 	'SEMI-REBOQUE', 	'SIDE-CAR', 	'Sem Informação', 	'TRATOR DE ESTEIRAS', 	'TRATOR DE RODAS', 	'TRATOR MISTO']
    df_denatran = df_denatran[~df_denatran['Tipo'].isin(tipos_exc)]

    #Reinicia o index do df_denatran
    df_denatran.reset_index(drop=True, inplace=True)
    #Subdivide Marca e Modelo do campo df_denatran['Marca_Modelo'] utilizando '/' como separador
    df_denatran[['Marca','Modelo']] = df_denatran['Marca_Modelo'].str.split('/', n=1, expand=True)
    #Retira do df_denatran os veículos que não geram VKT, ou não geram VKT relevante, através dos combustíveis utilizados para ajuste. Tipos ['SR', 'REB', 'R', 'MO', 'M.A.', 'MA', 'MR', 'M.AGRICOLA', 'SE', 'CASE', 'SRM', 'REBOQUE', 'F.PROPRIA']
    marcas_exc = ['SR', 'REB', 'R', 'MO', 'M.A.', 'MA', 'MR', 'M.AGRICOLA', 'SE', 'CASE', 'SRM', 'REBOQUE', 'F.PROPRIA']
    df_denatran = df_denatran[~df_denatran['Marca'].isin(marcas_exc)]
    #Subdivide o campo df_denatran['Modelo'] em até 3 utilizando ' ' como separador
    df_denatran[['Modelo_A','Modelo_B','Modelo_C']] = df_denatran['Modelo'].str.split(' ', n=2, expand=True)
    #Retira do df_denatran os veículos sem Modelo_A (veículos que eventualmente só tinha a marca)
    df_denatran = df_denatran[df_denatran['Modelo_A'].notnull()]

    #Salva dataframe
    df_denatran.to_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), index=False)
    return

vkt_fase2  
Como parâmetros, são necessários ano de referência ao qual o VKT deverá ser calculado, bem como a versão. A versão apenas implicará no nome do arquivo final a ser gerado, já o ano terá implicações nas curvas de sucateamento e de intensidade de uso.

In [None]:
def vkt_fase2 (ano, versao):
    #Abre o dataframe salvo na etapa anterior
    df_denatran = pd.read_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), low_memory=False)

    tipos = ['AUTOMOVEL', 'CAMINHONETE', 'CAMIONETA', 'UTILITARIO']

    #Realiza filtro dos veículos de tipo ['AUTOMOVEL', 'CAMINHONETE', 'CAMIONETA', 'UTILITARIO'] para o dataframe df_denatran_modelos_[]
    #Cria um novo dataframe df_denatran_modelos_[]
    df_denatran_modelos_a = df_denatran[df_denatran['Tipo'].isin(tipos)]
    #Agrupa em cada dataframe df_denatran_modelos_[] por Modelo_[] e Tipo
    df_denatran_modelos_a = df_denatran_modelos_a.groupby(['Modelo_A', 'Tipo'])['Quantidade'].sum().sort_values(ascending=False)
    df_denatran_modelos_b = df_denatran[df_denatran['Tipo'].isin(tipos)]
    df_denatran_modelos_b = df_denatran_modelos_b.groupby(['Modelo_B', 'Tipo'])['Quantidade'].sum().sort_values(ascending=False)
    df_denatran_modelos_c = df_denatran[df_denatran['Tipo'].isin(tipos)]
    df_denatran_modelos_c = df_denatran_modelos_c.groupby(['Modelo_C', 'Tipo'])['Quantidade'].sum().sort_values(ascending=False)
    #Filtra nos dataframes df_denatran_modelos_[] os modelos com quantidade acima do 95° Percentil
    #Nota: O 95° percentil foi escolhido arbitrariamente para selecionar os modelos mais significativos da frota e otimizar computacionalmente o algoritimo
    df_denatran_modelos_a = df_denatran_modelos_a[df_denatran_modelos_a > np.percentile(df_denatran_modelos_a,95)]
    df_denatran_modelos_b = df_denatran_modelos_b[df_denatran_modelos_b > np.percentile(df_denatran_modelos_b,95)]
    df_denatran_modelos_c = df_denatran_modelos_c[df_denatran_modelos_c > np.percentile(df_denatran_modelos_c,95)]

    #Reseta index dos dataframes df_denatran_modelos_[]
    #Nota: Depois de agrupados, as informações que foram selecionadas para agrupar ficam no index do dataframe. A função reset_index, redivide em colunas.
    df_denatran_modelos_a = df_denatran_modelos_a.reset_index()
    df_denatran_modelos_b = df_denatran_modelos_b.reset_index()
    df_denatran_modelos_c = df_denatran_modelos_c.reset_index()

    #Aplicação da função get_close_model em cada um dos dataframes df_denatran_modelos_[] no campo Modelo_iCarros_[]
    df_denatran_modelos_a['Modelo_iCarros_A'] = df_denatran_modelos_a['Modelo_A'].map(lambda x: get_close_model(x))
    df_denatran_modelos_b['Modelo_iCarros_B'] = df_denatran_modelos_b['Modelo_B'].map(lambda x: get_close_model(x))
    df_denatran_modelos_c['Modelo_iCarros_C'] = df_denatran_modelos_c['Modelo_C'].map(lambda x: get_close_model(x))
    
    #Realiza merge do campo Modelo_iCarros_[] dos dataframes df_denatran_modelos_[] com o df_denatran
    df_denatran = pd.merge(df_denatran, df_denatran_modelos_a[['Modelo_A', 'Modelo_iCarros_A']], on='Modelo_A', how='left')
    df_denatran = pd.merge(df_denatran, df_denatran_modelos_b[['Modelo_B', 'Modelo_iCarros_B']], on='Modelo_B', how='left')
    df_denatran = pd.merge(df_denatran, df_denatran_modelos_c[['Modelo_C', 'Modelo_iCarros_C']], on='Modelo_C', how='left')

    #Salva dataframe
    df_denatran.to_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), index=False)
    return

vkt_fase3  
Como parâmetros, são necessários ano de referência ao qual o VKT deverá ser calculado, bem como a versão. A versão apenas implicará no nome do arquivo final a ser gerado, já o ano terá implicações nas curvas de sucateamento e de intensidade de uso.

In [None]:
def vkt_fase3 (ano, versao):
    #Abre o dataframe salvo na etapa anterior
    df_denatran = pd.read_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), low_memory=False)

    #Carrega a base de dados do iCarros
    df_marca_modelo5 = pd.read_csv('datasets/marca_modelo_lista5_priority.csv')
    #Renomeia a coluna 'Modelo' para 'Modelo_A'
    #Nota: a alteração faz-se necessárioa para se utilizar
    df_marca_modelo5.rename(columns={'Modelo': 'Modelo_A'}, inplace = True)
    #Transforma a coluna 'Ano' do dataframe df_marca_modelo5 em inteiro
    df_marca_modelo5['Ano'] = df_marca_modelo5['Ano'].astype(np.int64)
    #Transforma os parâmetros 'Consumo_Cidade_Gasolina' e 'Consumo_Cidade_Alcool' do dataframe df_marca_modelo5 em números
    df_marca_modelo5[['Consumo_Cidade_Gasolina', 'Consumo_Cidade_Alcool']] = df_marca_modelo5[['Consumo_Cidade_Gasolina', 'Consumo_Cidade_Alcool']].apply(lambda x: pd.to_numeric(x, errors='coerce'))
    #Retira a acentuação da coluna 'Combustivel_Gasolina' do dataframe df_marca_modelo5, que é o campo que indica precisamente qual o tipo de combustível o veículo utiliza
    df_marca_modelo5['Combustivel_Gasolina'] = df_marca_modelo5['Combustivel_Gasolina'].apply(unidecode)
    #Retira a acentuação da coluna 'Combustivel_Alcool' do dataframe df_marca_modelo5, que é o campo que indica precisamente qual o outro tipo de combustível o veículo utiliza
    df_marca_modelo5['Combustivel_Alcool'] = df_marca_modelo5['Combustivel_Alcool'].apply(unidecode)

    #Renomeia as colunas Modelo_iCarros_[] para Modelo_iCarros_[]_t
    #Nota1: ao renomear, transfere-se os dados originais para a coluna auxiliar Modelo_iCarros_[]_t e, onde está vazio, é preenchido com o Modelo_[] original gerando novamente a coluna Modelo_iCarros_[]
    #Nota2: utilizar a função fillna pode ser computacionalmente vantajosa
    df_denatran = df_denatran.rename(columns={'Modelo_iCarros_A': 'Modelo_iCarros_A_t', 'Modelo_iCarros_B': 'Modelo_iCarros_B_t', 'Modelo_iCarros_C': 'Modelo_iCarros_C_t'})
    df_denatran['Modelo_iCarros_A'] = df_denatran['Modelo_iCarros_A_t'].where(df_denatran['Modelo_iCarros_A_t'].isnull(), df_denatran['Modelo_A'])
    df_denatran['Modelo_iCarros_B'] = df_denatran['Modelo_iCarros_B_t'].where(df_denatran['Modelo_iCarros_B_t'].isnull(), df_denatran['Modelo_B'])
    df_denatran['Modelo_iCarros_C'] = df_denatran['Modelo_iCarros_C_t'].where(df_denatran['Modelo_iCarros_C_t'].isnull(), df_denatran['Modelo_C'])

    #Exclui a coluna auxiliar Modelo_iCarros_[]_t
    df_denatran = df_denatran.drop(['Modelo_iCarros_A_t','Modelo_iCarros_B_t','Modelo_iCarros_C_t'], axis=1)

    #Renomeia a coluna Modelo_A por Modelo_iCarros_[] para ser utilizada como chave na junção da base de dados do iCarros (df_marca_modelo5), inserindo os dados sobre consumo
    df_marca_modelo5 = df_marca_modelo5.rename(columns={'Modelo_A': 'Modelo_iCarros_A'})
    df_denatran = pd.merge(df_denatran, df_marca_modelo5[['Modelo_iCarros_A', 'Ano', 'Combustivel_Gasolina', 'Combustivel_Alcool', 'Consumo_Cidade_Gasolina', 'Consumo_Cidade_Alcool']], on=['Modelo_iCarros_A', 'Ano'], how='left')
    df_marca_modelo5 = df_marca_modelo5.rename(columns={'Modelo_iCarros_A': 'Modelo_iCarros_B'})
    df_denatran = pd.merge(df_denatran, df_marca_modelo5[['Modelo_iCarros_B', 'Ano', 'Combustivel_Gasolina', 'Combustivel_Alcool', 'Consumo_Cidade_Gasolina', 'Consumo_Cidade_Alcool']], on=['Modelo_iCarros_B', 'Ano'], how='left', suffixes=['_A', None])
    df_marca_modelo5 = df_marca_modelo5.rename(columns={'Modelo_iCarros_B': 'Modelo_iCarros_C'})
    df_denatran = pd.merge(df_denatran, df_marca_modelo5[['Modelo_iCarros_C', 'Ano', 'Combustivel_Gasolina', 'Combustivel_Alcool', 'Consumo_Cidade_Gasolina', 'Consumo_Cidade_Alcool']], on=['Modelo_iCarros_C', 'Ano'], how='left', suffixes=['_B', '_C'])

    #Salva dataframe
    df_denatran.to_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), index=False)
    return

vkt_fase4  
Como parâmetros, são necessários ano de referência ao qual o VKT deverá ser calculado, bem como a versão. A versão apenas implicará no nome do arquivo final a ser gerado, já o ano terá implicações nas curvas de sucateamento e de intensidade de uso.

In [None]:
def vkt_fase4 (ano, versao):
    #Abre o dataframe salvo na etapa anterior
    df_denatran = pd.read_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), low_memory=False)

    #Abre o dataframe de conversão de nome de combustível (df_base_conv_comb)
    #Nota: Essa base converte e padroniza os nomes dos combustíveis
    df_base_conv_comb = pd.read_csv('datasets/base_conv_comb_v1.csv')
    #Renomeia a coluna 'Comb_Ant' para 'Combustivel' do df_base_conv_comb
    df_base_conv_comb.rename(columns={'Comb_Ant': 'Combustivel'}, inplace = True)

    #Tratamento da coluna 'Combustivel' e 'Comb_Novo' do df_denatran e do df_base_conv_comb
    df_denatran['Combustivel'] = df_denatran['Combustivel'].convert_dtypes()
    df_base_conv_comb['Combustivel'] = df_base_conv_comb['Combustivel'].convert_dtypes()
    df_base_conv_comb['Comb_Novo'] = df_base_conv_comb['Comb_Novo'].convert_dtypes()

    #Junção do df_denatran com o df_base_conv_comb
    df_denatran = pd.merge(df_denatran, df_base_conv_comb[['Combustivel', 'Comb_Novo']], on='Combustivel', how='left')
    #Renomeia as colunas 'Combustivel' para 'Comb_Ant' e 'Comb_Novo' para 'Combustivel' do df_denatran
    df_denatran.rename(columns={'Combustivel': 'Comb_Ant', 'Comb_Novo': 'Combustivel'}, inplace = True)
    #Tratamento da coluna 'Combustivel' do df_denatran
    df_denatran['Combustivel'] = df_denatran['Combustivel'].astype(str)

    comb_exc = ['GNV', 'ELETRICO', 'GAS METANO', 'GASOGENIO', 'Não Identificado', 'Sem Informação', 'VIDE/CAMPO/OBSERVACAO']
    #df_denatran_comb_exc = df_denatran[df_denatran['Combustivel'].isin(comb_exc)]
    #Exclui os combustíveis do tipo ['GNV', 'ELETRICO', 'GAS METANO', 'GASOGENIO', 'Não Identificado', 'Sem Informação', 'VIDE/CAMPO/OBSERVACAO']
    #Nota 1: Por questões de complexidade na coleta das informações e por ser a maioria da frota, optou-se por utilizar apenas GASOLINA, FLEX e ETANOL/ÁLCOOL como combustíveis para fins deste estudo
    #Nota 2: Como o tipo de combustível advém do dataframe da base de classificação de veículos do DENATRAN (df_base_class_denatran), sendo este já está organizado em ordem decrescente de quantidade, pode haver erro na classificação dos veículos, mas sempre é adotado o mais provável (por ter mais veículos) no dataframe. Nesse sentido, pelos veículos de combustível GASOLINA, FLEX e ETANOL/ÁLCOOL serem maioria da frota, é natural eles serem classificados assim.
    df_denatran = df_denatran[~df_denatran['Combustivel'].isin(comb_exc)]

    #Aplica a função get_comb, selecionando o fator de consumo mais adequado (priorizando o A, B e C na sequência)
    df_denatran[['Consumo_Gasolina', 'Consumo_Alcool', 'Consumo_Diesel']] = df_denatran[['Consumo_Cidade_Gasolina_A', 'Combustivel_Gasolina_A', 'Consumo_Cidade_Gasolina_B', 'Combustivel_Gasolina_B', 'Consumo_Cidade_Gasolina_C', 'Combustivel_Gasolina_C', 'Consumo_Cidade_Alcool_A', 'Combustivel_Alcool_A', 'Consumo_Cidade_Alcool_B', 'Combustivel_Alcool_B', 'Consumo_Cidade_Alcool_C', 'Combustivel_Alcool_C', 'Combustivel', 'Comb_Ant']].apply(lambda x: get_comb(x), axis=1, result_type='expand')

    #Exclui as colunas auxiliares ['Marca', 'Modelo', 'Modelo_A', 'Modelo_B', 'Modelo_C', 'Modelo_iCarros_A', 'Modelo_iCarros_B', 'Modelo_iCarros_C', 'Consumo_Cidade_Gasolina_A', 'Combustivel_Gasolina_A', 'Consumo_Cidade_Gasolina_B', 'Combustivel_Gasolina_B', 'Consumo_Cidade_Gasolina_C', 'Combustivel_Gasolina_C', 'Consumo_Cidade_Alcool_A', 'Combustivel_Alcool_A', 'Consumo_Cidade_Alcool_B', 'Combustivel_Alcool_B', 'Consumo_Cidade_Alcool_C', 'Combustivel_Alcool_C', 'Comb_Ant']
    df_denatran = df_denatran.drop(['Marca', 'Modelo', 'Modelo_A', 'Modelo_B', 'Modelo_C', 'Modelo_iCarros_A', 'Modelo_iCarros_B', 'Modelo_iCarros_C', 'Consumo_Cidade_Gasolina_A', 'Combustivel_Gasolina_A', 'Consumo_Cidade_Gasolina_B', 'Combustivel_Gasolina_B', 'Consumo_Cidade_Gasolina_C', 'Combustivel_Gasolina_C', 'Consumo_Cidade_Alcool_A', 'Combustivel_Alcool_A', 'Consumo_Cidade_Alcool_B', 'Combustivel_Alcool_B', 'Consumo_Cidade_Alcool_C', 'Combustivel_Alcool_C', 'Comb_Ant'], axis=1)

    #Trata as colunas 'Tipo' e 'RM' do df_denatran
    df_denatran['Tipo'] = df_denatran['Tipo'].convert_dtypes()
    df_denatran['RM'] = df_denatran['RM'].convert_dtypes()

    #Salva dataframe
    df_denatran.to_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), index=False)
    return

vkt_fase5  
Como parâmetros, são necessários ano de referência ao qual o VKT deverá ser calculado, bem como a versão. A versão apenas implicará no nome do arquivo final a ser gerado, já o ano terá implicações nas curvas de sucateamento e de intensidade de uso.

In [None]:
def vkt_fase5 (ano, versao):
    #Abre o dataframe salvo na etapa anterior
    df_denatran = pd.read_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), low_memory=False)

    #Tratamento de dados da coluna 'Combustivel'
    df_denatran['Combustivel'] = df_denatran['Combustivel'].convert_dtypes()
    df_denatran['Combustivel'] = df_denatran['Combustivel'].astype(str)

    #Aplicação de fatores de consumo médio para os modelos que não foram previamente identificados nas etapas anteriores a partir da média agrupada pelas colunas ['Combustivel', 'RM', 'Tipo', 'Ano']
    df_denatran['Consumo_Gasolina'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'GASOLINA')]['Consumo_Gasolina'].fillna(df_denatran.groupby(['Combustivel', 'RM', 'Tipo', 'Ano'])['Consumo_Gasolina'].transform('mean'))
    df_denatran['Consumo_Alcool'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'ALCOOL')]['Consumo_Alcool'].fillna(df_denatran.groupby(['Combustivel', 'RM', 'Tipo', 'Ano'])['Consumo_Alcool'].transform('mean'))
    df_denatran['Consumo_Diesel'] = df_denatran[(df_denatran['Combustivel'] == 'DIESEL')]['Consumo_Diesel'].fillna(df_denatran.groupby(['Combustivel', 'RM', 'Tipo', 'Ano'])['Consumo_Diesel'].transform('mean'))

    #Aplicação de fatores de consumo médio para os modelos que não foram previamente identificados nas etapas anteriores a partir da média agrupada pelas colunas ['Combustivel', 'Tipo', 'Ano']
    df_denatran['Consumo_Gasolina'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'GASOLINA')]['Consumo_Gasolina'].fillna(df_denatran.groupby(['Combustivel', 'Tipo', 'Ano'])['Consumo_Gasolina'].transform('mean'))
    df_denatran['Consumo_Alcool'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'ALCOOL')]['Consumo_Alcool'].fillna(df_denatran.groupby(['Combustivel', 'Tipo', 'Ano'])['Consumo_Alcool'].transform('mean'))
    df_denatran['Consumo_Diesel'] = df_denatran[(df_denatran['Combustivel'] == 'DIESEL')]['Consumo_Diesel'].fillna(df_denatran.groupby(['Combustivel', 'Tipo', 'Ano'])['Consumo_Diesel'].transform('mean'))

    #Aplicação de fatores de consumo médio para os modelos que não foram previamente identificados nas etapas anteriores a partir da média agrupada pelas colunas ['Combustivel', 'Tipo']
    df_denatran['Consumo_Gasolina'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'GASOLINA')]['Consumo_Gasolina'].fillna(df_denatran.groupby(['Combustivel', 'Tipo'])['Consumo_Gasolina'].transform('mean'))
    df_denatran['Consumo_Alcool'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'ALCOOL')]['Consumo_Alcool'].fillna(df_denatran.groupby(['Combustivel', 'Tipo'])['Consumo_Alcool'].transform('mean'))
    df_denatran['Consumo_Diesel'] = df_denatran[(df_denatran['Combustivel'] == 'DIESEL')]['Consumo_Diesel'].fillna(df_denatran.groupby(['Combustivel', 'Tipo'])['Consumo_Diesel'].transform('mean'))

    #Aplicação de fatores de consumo para os modelos que não foram previamente identificados nas etapas anteriores a partir da função get_consumo, que utiliza a base da CETESB (2019)
    df_denatran['Consumo_Gasolina'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'GASOLINA')]['Consumo_Gasolina'].fillna(df_denatran[['Combustivel', 'Tipo', 'Ano']].apply(lambda x: get_consumo('GASOLINA', x), axis=1))
    df_denatran['Consumo_Alcool'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'ALCOOL')]['Consumo_Alcool'].fillna(df_denatran[['Combustivel', 'Tipo', 'Ano']].apply(lambda x: get_consumo('ALCOOL', x), axis=1))
    df_denatran['Consumo_Diesel'] = df_denatran[(df_denatran['Combustivel'] == 'DIESEL')]['Consumo_Diesel'].fillna(df_denatran[['Combustivel', 'Tipo', 'Ano']].apply(lambda x: get_consumo('DIESEL', x), axis=1))

    #Aplicação de fatores de consumo médio para os modelos que não foram previamente identificados nas etapas anteriores a partir da média agrupada pelas colunas ['Combustivel', 'RM', 'Tipo', 'Ano']
    df_denatran['Consumo_Gasolina'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'GASOLINA')]['Consumo_Gasolina'].fillna(df_denatran.groupby(['Combustivel', 'RM', 'Tipo', 'Ano'])['Consumo_Gasolina'].transform('mean'))
    df_denatran['Consumo_Alcool'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'ALCOOL')]['Consumo_Alcool'].fillna(df_denatran.groupby(['Combustivel', 'RM', 'Tipo', 'Ano'])['Consumo_Alcool'].transform('mean'))
    df_denatran['Consumo_Diesel'] = df_denatran[(df_denatran['Combustivel'] == 'DIESEL')]['Consumo_Diesel'].fillna(df_denatran.groupby(['Combustivel', 'RM', 'Tipo', 'Ano'])['Consumo_Diesel'].transform('mean'))

    #Aplicação de fatores de consumo médio para os modelos que não foram previamente identificados nas etapas anteriores a partir da média agrupada pelas colunas ['Combustivel', 'Tipo', 'Ano']
    df_denatran['Consumo_Gasolina'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'GASOLINA')]['Consumo_Gasolina'].fillna(df_denatran.groupby(['Combustivel', 'Tipo', 'Ano'])['Consumo_Gasolina'].transform('mean'))
    df_denatran['Consumo_Alcool'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'ALCOOL')]['Consumo_Alcool'].fillna(df_denatran.groupby(['Combustivel', 'Tipo', 'Ano'])['Consumo_Alcool'].transform('mean'))
    df_denatran['Consumo_Diesel'] = df_denatran[(df_denatran['Combustivel'] == 'DIESEL')]['Consumo_Diesel'].fillna(df_denatran.groupby(['Combustivel', 'Tipo', 'Ano'])['Consumo_Diesel'].transform('mean'))

    #Aplicação de fatores de consumo médio para os modelos que não foram previamente identificados nas etapas anteriores a partir da média agrupada pelas colunas ['Combustivel', 'Tipo']
    df_denatran['Consumo_Gasolina'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'GASOLINA')]['Consumo_Gasolina'].fillna(df_denatran.groupby(['Combustivel', 'Tipo'])['Consumo_Gasolina'].transform('mean'))
    df_denatran['Consumo_Alcool'] = df_denatran[(df_denatran['Combustivel'] == 'FLEX') | (df_denatran['Combustivel'] == 'ALCOOL')]['Consumo_Alcool'].fillna(df_denatran.groupby(['Combustivel', 'Tipo'])['Consumo_Alcool'].transform('mean'))
    df_denatran['Consumo_Diesel'] = df_denatran[(df_denatran['Combustivel'] == 'DIESEL')]['Consumo_Diesel'].fillna(df_denatran.groupby(['Combustivel', 'Tipo'])['Consumo_Diesel'].transform('mean'))

    #Salva dataframe
    df_denatran.to_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), index=False)
    return


vkt_fase6  
Como parâmetros, são necessários ano de referência ao qual o VKT deverá ser calculado, bem como a versão. A versão apenas implicará no nome do arquivo final a ser gerado, já o ano terá implicações nas curvas de sucateamento e de intensidade de uso.

In [None]:
def vkt_fase6 (ano, versao):
    #Abre o dataframe salvo na etapa anterior
    df_denatran = pd.read_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), low_memory=False)

    #Realiza o cálculo de VKT Preliminar através da aplicação da função get_vkt_preliminar
    df_denatran['VKT_Preliminar'] = df_denatran[['Ano', 'Combustivel', 'Tipo']].apply(lambda x: get_vkt_preliminar(x, ano), axis=1)
    #Cria dataframe df_denatran_vkt_erro, destacando os erros com cálculo do VKT Preliminar (identificar erros)
    #df_denatran_vkt_erro = df_denatran[df_denatran['VKT_Preliminar'].map(lambda x: np.isnan(x))]
    #Aplica a função get_sucat, transformando a quantidade licenciada em quantidade circulante
    df_denatran['Quantidade'] = df_denatran[['Ano', 'Tipo', 'Combustivel', 'Quantidade']].apply(lambda x: get_sucat(x, ano), axis=1)
    #Multiplica o VKT Preliminar pelas respectivas quantidades de frota circulante
    df_denatran['VKT_Preliminar'] = df_denatran['VKT_Preliminar']*df_denatran['Quantidade']
    #Remove os registos com erro no cálculo no VKT Preliminar
    df_denatran = df_denatran[~df_denatran['VKT_Preliminar'].map(lambda x: np.isnan(x))]
    #Cria df_denatran_vkt_neg com o VKT Preliminar negativo (identificar erros)
    #df_denatran_vkt_neg = df_denatran[df_denatran['VKT_Preliminar'] <= 0]

    #Realiza filtro no df_preco_comb_rm, que possui a base de relação de preços médios de ETANOL e GASOLINA e a relação de utilização dos respectivos combustíveis por Região Metropolitana conforme modelo Brasil de Brasil (2013) apenas para o ano em análise, gerando o df_preco_comb_rm_anual
    #BRASIL. Empresa de Pesquisa Energética - EPE. Ministério de Minas e Energia. Avaliação do Comportamento dos Usuários de Veículos Flex Fuel no Consumo de Combustíveis no Brasil. Brasília: [s.l.], 2013. 48 p. Disponível em: https://www.epe.gov.br/sites-pt/publicacoes-dados-abertos/publicacoes/PublicacoesArquivos/publicacao-250/topico-296/EPE-DPG-SDB-001-2013-r0[1].pdf. Acesso em: 18 jun. 2021.
    df_preco_comb_rm_anual = df_preco_comb_rm[df_preco_comb_rm['Ano'] == ano]
    
    #Realiza junção do df_denatran e df_preco_comb_rm_anual, inserindo a relação de etanol e gasolina em todos os registros (varia conforme Região Metropolitana)
    df_denatran = pd.merge(df_denatran, df_preco_comb_rm_anual[['RM', 'Relacao']], on='RM', how='left')

    #Exclui a coluna 'Relacao' dos veículos que possuem combustível diferente de Flex
    df_denatran.loc[df_denatran['Combustivel'] != 'FLEX', 'Relacao'] = np.nan

    #Estima os volumes teóricos de combustível com base no VKT Preliminar, no tipo de combustível, nos fatores de consumo e na relação de uso dos veículos flex
    df_denatran['Volume_Gasolina'] = df_denatran[df_denatran['Combustivel'] == 'GASOLINA'][['VKT_Preliminar', 'Consumo_Gasolina']].apply(lambda x: x['VKT_Preliminar']/x['Consumo_Gasolina'], axis=1)
    df_denatran.loc[df_denatran['Combustivel'] == 'FLEX', 'Volume_Gasolina'] = df_denatran[df_denatran['Combustivel'] == 'FLEX'][['VKT_Preliminar', 'Consumo_Gasolina', 'Relacao']].apply(lambda x: (x['VKT_Preliminar']*(1-x['Relacao']))/x['Consumo_Gasolina'], axis=1)
    df_denatran['Volume_Alcool'] = df_denatran[df_denatran['Combustivel'] == 'ALCOOL'][['VKT_Preliminar', 'Consumo_Alcool']].apply(lambda x: x['VKT_Preliminar']/x['Consumo_Alcool'], axis=1)
    df_denatran.loc[df_denatran['Combustivel'] == 'FLEX', 'Volume_Alcool'] = df_denatran[df_denatran['Combustivel'] == 'FLEX'][['VKT_Preliminar', 'Consumo_Alcool', 'Relacao']].apply(lambda x: (x['VKT_Preliminar']*x['Relacao'])/x['Consumo_Alcool'], axis=1)
    df_denatran['Volume_Diesel'] = df_denatran[df_denatran['Combustivel'] == 'DIESEL'][['VKT_Preliminar', 'Consumo_Diesel']].apply(lambda x: x['VKT_Preliminar']/x['Consumo_Diesel'], axis=1)

    #Salva dataframe
    df_denatran.to_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), index=False)
    
    return

vkt_fase7
  
Como parâmetros, são necessários ano de referência ao qual o VKT deverá ser calculado, bem como a versão. A versão apenas implicará no nome do arquivo final a ser gerado, já o ano terá implicações nas curvas de sucateamento e de intensidade de uso.

In [None]:
def vkt_fase7 (ano, versao):
    #Abre o dataframe salvo na etapa anterior
    df_denatran = pd.read_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), low_memory=False)
    #Soma, por Região Metropolitana, os volumes de álcool, gasolina e diesel
    df_denatran_rm = df_denatran.groupby(['RM'])[['Volume_Alcool', 'Volume_Gasolina', 'Volume_Diesel']].sum()
    #Reinicia o index, que é agrupado quando utilizada a função groupby
    df_denatran_rm = df_denatran_rm.reset_index()

    #Filtra o dataframe df_base_volume_comb_rm, que possui os volumes vendidos de cada Região Metropolitana (ANP), para o ano em vigência
    df_base_volume_comb_rm_anual = df_base_volume_comb_rm[df_base_volume_comb_rm['Ano'] == ano]
    #Remove a coluna 'Ano'
    df_base_volume_comb_rm_anual = df_base_volume_comb_rm_anual.drop(['Ano'], axis=1)
    #Filtra o dataframe df_base_diesel_rm, que possui os fatores de ajuste dos volumes vendidos de diesel por Região Metropolitana (ANP), para o ano em vigência
    df_base_diesel_rm_anual = df_base_diesel_rm[df_base_diesel_rm['Ano'] == ano]
    #Remove a coluna 'Ano'
    df_base_diesel_rm_anual = df_base_diesel_rm_anual.drop(['Ano'], axis=1)

    #Raliza a pivotação do df_base_volume_comb_rm_anual, transformando os elementos da coluna 'Combustivel' em diferentes colunas
    df_base_volume_comb_rm_anual = df_base_volume_comb_rm_anual.pivot(index='RM', columns='Combustivel', values='Quantidade')
    #Realiza a junção do df_base_volume_comb_rm_anual com o df_base_diesel_rm_anual
    df_base_volume_comb_rm_anual = pd.merge(df_base_volume_comb_rm_anual, df_base_diesel_rm_anual, on='RM', how='left')

    #Para os anos que a coluna 'Volume_Venda_Diesel' do df_base_volume_comb_rm_anual não possuir valores, anula a coluna 'Fator'
    #Nota: Remover após testar (Não faz mais sentido)
    #df_base_volume_comb_rm_anual[df_base_volume_comb_rm_anual['Volume_Venda_Diesel'].map(lambda x: np.isnan(x))]['Fator'] = np.nan

    #Realiza a junção da df_denatran_rm com a df_base_volume_comb_rm_anual
    df_denatran_rm = pd.merge(df_denatran_rm, df_base_volume_comb_rm_anual, on='RM', how='left')

    #Calcula os fatores de expansão de cada um dos combustíveis, por tipo através da comparação entre o volume efetivamente vendido e o teórico previamente calculado
    df_denatran_rm['Fator_Alcool'] = df_denatran_rm['Volume_Venda_Alcool']/df_denatran_rm['Volume_Alcool']
    df_denatran_rm['Fator_Gasolina'] = df_denatran_rm['Volume_Venda_Gasolina']/df_denatran_rm['Volume_Gasolina']
    #No caso do diesel, é aplicado um fator de ajuste considerando o que efetivamente foi consumido pelo transporte rodoviário, conforme informações fornecidas pela ANP
    df_denatran_rm['Fator_Diesel'] = (df_denatran_rm['Volume_Venda_Diesel']*df_denatran_rm['Fator_Ajuste_Diesel'])/df_denatran_rm['Volume_Diesel']

    #Exclui do df_denatran_rm as colunas 'Volume_Alcool', 'Volume_Gasolina', 'Volume_Diesel', 'Volume_Diesel', 'Volume_Venda_Alcool', 'Volume_Venda_Diesel', 'Volume_Venda_GNV', 'Volume_Venda_Gasolina'
    df_denatran_rm = df_denatran_rm.drop(['Volume_Alcool', 'Volume_Gasolina', 'Volume_Diesel', 'Volume_Diesel', 'Volume_Venda_Alcool', 'Volume_Venda_Diesel', 'Volume_Venda_GNV', 'Volume_Venda_Gasolina'], axis=1)

    #Realiza a junção do df_denatran com o df_denatran_rm
    df_denatran = pd.merge(df_denatran, df_denatran_rm, on='RM', how='left')

    #Realiza o cálculo do VKT através da aplicação da função get_vkt
    df_denatran['VKT'] = df_denatran[['VKT_Preliminar', 'Combustivel', 'Fator_Alcool', 'Fator_Gasolina', 'Fator_Diesel', 'Relacao']].apply(lambda x: get_vkt(x), axis=1)
    
    #Salva o dataframe
    df_denatran.to_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), index=False)

    #Soma o VKT, agrupa por Região Metropolitana e salva
    df_denatran_rm = df_denatran.groupby(['RM'])['VKT'].sum()
    df_denatran_rm.to_csv('datasets/{}/vkt_v{}_rm.csv'.format(ano, versao))
    return

Estrutura principal do algoritmo, que irá executar a estrutura de repetição encadeada de todas as fases para diferentes anos

In [None]:
#Carrega o dataframe da lista de veículos e respectivas informações previamente coletadas no iCarros no df_marca_modelo5
df_marca_modelo5 = pd.read_csv('datasets/marca_modelo_lista5_priority.csv')
#Renomeia a df_marca_modelo5 coluna 'Modelo' para 'Modelo_A'
df_marca_modelo5.rename(columns={'Modelo': 'Modelo_A'}, inplace = True)
#Tratamento de dados
#Tratamento da coluna 'Ano', alterando o tipo da coluna para inteiro
df_marca_modelo5['Ano'] = df_marca_modelo5['Ano'].astype(np.int64)
#Tratamento das colunas 'Consumo_Cidade_Gasolina' e 'Consumo_Cidade_Alcool', alterando o tipo da coluna para numérico
df_marca_modelo5[['Consumo_Cidade_Gasolina', 'Consumo_Cidade_Alcool']] = df_marca_modelo5[['Consumo_Cidade_Gasolina', 'Consumo_Cidade_Alcool']].apply(lambda x: pd.to_numeric(x, errors='coerce'))
#Tratamento da coluna 'Combustivel_Gasolina', retirando acentuação
#Nota: a coluna 'Combustivel_Gasolina' não indica, necessariamente, que aquela marca/modelo possui combustível do tipo gasolina, mas indica qual tipo principal que foi apresentado no iCarros (geralmente é gasolina)
df_marca_modelo5['Combustivel_Gasolina'] = df_marca_modelo5['Combustivel_Gasolina'].apply(unidecode)
#Tratamento da coluna 'Combustivel_Alcool', retirando acentuação
#Nota: a coluna 'Combustivel_Alcool' não indica, necessariamente, que aquela marca/modelo possui combustível do tipo álcool, mas indica qual tipo principal que foi apresentado no iCarros (geralmente é álcool)
df_marca_modelo5['Combustivel_Alcool'] = df_marca_modelo5['Combustivel_Alcool'].apply(unidecode)

#Carrega o dataframe com as informações sobre consumo conforme CETESB (2019)
df_base_consumo = pd.read_csv('datasets/base_consumo.csv')
#Tratamento de dados
#Retira os registros com consumo 'nd'
df_base_consumo = df_base_consumo[df_base_consumo['Consumo'] != 'nd']
#Transforma a coluna 'Consumo' em float
df_base_consumo['Consumo'] = df_base_consumo['Consumo'].astype(np.float64)

#Carrega o dataframe df_preco_comb_rm, que possui a base de relação de preços médios de ETANOL e GASOLINA e a relação de utilização dos respectivos combustíveis por Região Metropolitana conforme modelo Brasil de Brasil (2013) apenas para o ano em análise, gerando o df_preco_comb_rm_anual
#BRASIL. Empresa de Pesquisa Energética - EPE. Ministério de Minas e Energia. Avaliação do Comportamento dos Usuários de Veículos Flex Fuel no Consumo de Combustíveis no Brasil. Brasília: [s.l.], 2013. 48 p. Disponível em: https://www.epe.gov.br/sites-pt/publicacoes-dados-abertos/publicacoes/PublicacoesArquivos/publicacao-250/topico-296/EPE-DPG-SDB-001-2013-r0[1].pdf. Acesso em: 18 jun. 2021.
df_preco_comb_rm = pd.read_csv('datasets/base_combustiveis_precos_rel_rm.csv')

#Carrega o dataframe df_base_volume_comb_rm, que possui os volumes vendidos de cada Região Metropolitana (ANP), para o ano em vigência
df_base_volume_comb_rm = pd.read_csv('datasets/base_volume_comb_rm.csv')
#Carrega o dataframe df_base_diesel_rm, que possui os fatores de ajuste dos volumes vendidos de diesel por Região Metropolitana (ANP), para o ano em vigência
df_base_diesel_rm = pd.read_csv('datasets/base_diesel_rm_rev02.csv')

#Parametrizações dos anos e versão de referência
versao = 6
ano_i = 2015
ano_f = 2019
#Inicia estrutura de repetição
for ano in range(ano_i, ano_f+1, 1):
    print(f"Iniciando {ano}...")
    vkt_fase1(ano, versao)
    print('Fase 1 concluída')
    vkt_fase2(ano, versao)
    print('Fase 2 concluída')
    vkt_fase3(ano, versao)
    print('Fase 3 concluída')
    vkt_fase4(ano, versao)
    print('Fase 4 concluída')
    vkt_fase5(ano, versao)
    print('Fase 5 concluída')
    vkt_fase6(ano, versao)
    print('Fase 6 concluída')
    vkt_fase7(ano, versao)
    print('Fase 7 concluída')
    df_denatran = pd.read_csv('datasets/{}/vkt_v{}.csv'.format(ano, versao), low_memory=False)
    print(df_denatran)

Estrutura na sequência para aglutinar todos os anos em um mesmo arquivo. Sugere-se que esse arquivo seja utilizado para carregar os dashboards por ser mais conciso

In [None]:
#Cria array vazio
df_append = []

#Inicia estrutura de repetição, carregando o dataframe do respectivo ano pelo arquivo vkt_v{}_rm.csv
for ano in range(ano_i, ano_f+1, 1):
    df = pd.read_csv('datasets/{}/vkt_v{}_rm.csv'.format(ano, versao), low_memory=False)
    #Cria a coluna 'Ano', com o ano de referência
    df['Ano'] = ano
    #Realiza junção com o dataframe anterior
    df_append.append(df)

#Realiza junção de todos os dataframes anterior analisados
df_rms = pd.concat(df_append)

#Realiza substituição dos nomes das Regiões Metropolitanas pelos respectivos nomes resumidos
df_rms = df_rms.replace(
    {'Região Integrada de Desenvolvimento da Grande Teresina': 'RIDE-Teresina',
    'Região Integrada de Desenvolvimento do Distrito Federal e Entorno': 'RIDE-DF',
    'Região Metropolitana da Capital': 'RM Boa Vista',
    'Região Metropolitana da Grande São Luís': 'RM São Luís',
    'Região Metropolitana da Grande Vitória': 'RM Vitória',
    'Região Metropolitana de Aracaju': 'RM Aracaju',
    'Região Metropolitana de Belo Horizonte': 'RMBH',
    'Região Metropolitana de Belém': 'RM Belém',
    'Região Metropolitana de Curitiba': 'RM Curitiba',
    'Região Metropolitana de Florianópolis': 'RM Florianópolis',
    'Região Metropolitana de Fortaleza': 'RM Fortaleza',
    'Região Metropolitana de Goiânia': 'RM Goiânia',
    'Região Metropolitana de João Pessoa': 'RM João Pessoa',
    'Região Metropolitana de Macapá': 'RM Macapá',
    'Região Metropolitana de Maceió': 'RM Maceió',
    'Região Metropolitana de Manaus': 'RM Manaus',
    'Região Metropolitana de Natal': 'RM Natal',
    'Região Metropolitana de Palmas': 'RM Palmas',
    'Região Metropolitana de Porto Alegre': 'RM Porto Alegre',
    'Região Metropolitana de Porto Velho': 'RM Porto Velho',
    'Região Metropolitana de Recife': 'RM Recife',
    'Região Metropolitana de Salvador': 'RM Salvador',
    'Região Metropolitana de São Paulo': 'RMSP',
    'Região Metropolitana do Rio de Janeiro': 'RMRJ',
    'Região Metropolitana do Vale do Rio Cuiabá': 'RM Cuiabá'})

#Salva o dataframe
df_rms.to_csv('datasets/vkt_geral_v{}_rm.csv'.format(versao), index=False)