Importação de bibliotecas  
pandas - Análise de datasets  
numpy - Funções de tipos de variáveis, variável np.nan e funções estatísticas (np.percentile)  
math - Funções matemáticas, como exponencial, logarítimica e outras  
unidecode - Retirada de acentuação de palavras  
get_close_matches - Comparação aproximada entre strings  

In [None]:
import pandas as pd
import numpy as np
import math
from unidecode import unidecode
from difflib import get_close_matches

get_vkt_preliminar
Função para indicar qual modelo será adotado para calcular o VKT Preliminar. Os modelos tiveram por referência CETESB (2013).

CETESB. Curvas de intensidade de uso por tipo de veículo automotor da frota da cidade de São Paulo. São Paulo, SP, 2013. 67 p. (Série Relatórios). Disponível em: < https://cetesb.sp.gov.br/veicular/wpcontent/uploads/sites/6/2013/12/curvas-intensidade-uso-veiculos-automotorescidade-sao-paulo.pdf >. Acesso em: 18 jun. 2021.


In [None]:
def get_vkt_preliminar (df, ano_base):
    if(df['Tipo'] == 'AUTOMOVEL'):
        if(df['Combustivel'] == 'FLEX'):
            return vkt_flex(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'GASOLINA'):
            return vkt_gasolina(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'ALCOOL'):
            return vkt_alcool(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'DIESEL'):
            return vkt_util_diesel(df['Ano'], ano_base)
    elif(df['Tipo'] in ['UTILITARIO', 'CAMIONETA']):
        if(df['Combustivel'] == 'GASOLINA'):
            return vkt_util_gasolina(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'FLEX'):
            return vkt_util_flex(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'DIESEL'):
            return vkt_util_diesel(df['Ano'], ano_base)
        elif(df['Combustivel'] == 'ALCOOL'):
            return vkt_alcool(df['Ano'], ano_base)
    elif(df['Tipo'] == 'CAMINHAO'):
        return vkt_caminhao(df['Ano'], ano_base)
    elif(df['Tipo'] == 'CAMINHONETE'):
        return vkt_caminhonete(df['Ano'], ano_base)
    elif(df['Tipo'] == 'ONIBUS'):
        return vkt_onibus(df['Ano'], ano_base)
    elif(df['Tipo'] == 'MICROONIBUS'):
        return vkt_microonibus(df['Ano'], ano_base)
    elif(df['Tipo'] == 'CAMINHAO TRATOR'):
        return vkt_caminhao_trator(df['Ano'], ano_base)
    elif(df['Tipo'] in ['MOTOCICLETA', 'CICLOMOTOR', 'TRICICLO', 'QUADRICICLO']):
        return vkt_motociclo(df['Ano'], ano_base)
    elif(df['Tipo'] == 'MOTONETA'):
        return vkt_motoneta(df['Ano'], ano_base)
    else:
        return np.nan

Modelo ajustado para a intensidade de uso dos automóveis e derivados a gasolina (quilometragem média anual segundo a idade)

In [None]:
def vkt_gasolina (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 40):
        return 6174
    else:
        return (0.6716*(idade**3) - 49.566*(idade**2) + 779.66*idade + 11266)

Modelo ajustado para a intensidade de uso dos automóveis e derivados a etanol (quilometragem média por ano segundo a idade)

In [None]:
def vkt_alcool (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 28):
        return 8275
    else:
        return (-3.292*(idade**3) + 174.31*(idade**2) - 3083.6*idade + 31628)

Modelo ajustado para a intensidade de uso dos automóveis e derivados flex (quilometragem média por ano segundo a idade)

In [None]:
def vkt_flex (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if(idade > 10):
        return np.nan
    elif(idade > 8):
        return 15000
    elif(idade == 1):
        return 17220
    else:
        return (-24.288*(idade**3) + 426.19*(idade**2) - 2360.4*idade + 19178)

Modelo ajustado para a intensidade de uso dos utilitários Otto a gasolina (quilometragem média por ano segundo a idade)

In [None]:
def vkt_util_gasolina (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 36):
        return 7862
    else:
        return (0.3623*(idade**3) - 13.828*(idade**2)- 255.77*idade + 18202)

Modelo ajustado para a intensidade de uso dos utilitários Otto flex (quilometragem média por ano segundo a idade)

In [None]:
def vkt_util_flex (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 36):
        return 7862
    else:
        return (107.39*(idade**3) - 1687.3*(idade**2) + 7200.5*idade + 12599)

Modelo ajustado para a intensidade de uso dos caminhões diesel (quilometragem média por ano segundo a idade)

In [None]:
def vkt_caminhao (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if(idade > 60):
        return np.nan
    elif(idade > 40):
        return 21804
    else:
        return (0.0774*(idade**4) - 7.3952*(idade**3) + 249.38*(idade**2) - 3664*idade + 44505)

Modelo ajustado para a intensidade de uso das Caminhonetes diesel (quilometragem média por ano segundo a idade)

In [None]:
def vkt_caminhonete (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 10):
        return 15950
    else:
        return (-10.399*(idade**3) + 86.398*(idade**2) - 1271.3*idade + 29638)

Modelo ajustado para a intensidade de uso dos ônibus urbanos diesel (quilometragem média por ano segundo a idade)

In [None]:
def vkt_onibus (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 15):
        return 64108*math.exp(-0.046*idade)
    else:
        return (-8.8551*(idade**3) + 263.41*(idade**2) - 4219.4*idade + 66435)

Modelo ajustado para a intensidade de uso dos utilitários leves diesel (quilometragem média por ano segundo a idade)

In [None]:
def vkt_util_diesel (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if(idade > 8):
        return 13040
    else:
        return (-64.592*(idade**3) + 720.31*(idade**2) - 2280.8*idade + 19242)

Modelo ajustado para a intensidade de uso dos micro-ônibus diesel

Como não existe log(0) foi feito um ajuste para o ano 0, considerando log(0)=0

In [None]:
def vkt_microonibus (ano_fab, ano_base):
    idade = ano_base - ano_fab
    #Realizado ajuste para idade == 0
    if (idade > 15):
        return 18680
    elif (idade == 0):
        return 35578
    else:
        return (-5661*(math.log(idade)) + 35578)

Modelo ajustado para a intensidade de uso dos caminhões-trator (quilometragem média por ano segundo a idade)

In [None]:
def vkt_caminhao_trator (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if(idade > 52):
        return np.nan
    else:
        return (-1023.7*idade + 57247)

Modelo ajustado para a intensidade de uso de motociclos (quilometragem média segundo a idade)

In [None]:
def vkt_motociclo (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 17):
        return 9050
    else:
        return (1.3392*(idade**3) - 60.492*(idade**2) + 442.92*idade + 12423)

Modelo ajustado para a intensidade de uso de motonetas (quilometragem média por ano segundo a idade)

In [None]:
def vkt_motoneta (ano_fab, ano_base):
    idade = ano_base - ano_fab
    if (idade > 10):
        return (951491.4958*(idade**(-1.9209)))
    else:
        return (-35.147*(idade**3) + 620.87*(idade**2) - 2970.3*idade + 11431)

get_close_model  
Função procura, inicialmente, se há um automóvel da base DENATRAN com nome exatamente igual à base iCarros. Se não há, busca, através da função get_close_matches, o modelo cujo nome mais se aproxima. Ressalta-se que é realizado um processo de segmentação do modelo para aumentar a probabilidade de resultado, mas há resultados não muito adequados. Sugere-se aumentar o cutoff e realizar um aprofundamento na análise entre os resultados encontrados e os nomes originais.

Exemplo de como o algoritimo trabalha
Marca/Modelo 'FIAT/ARGO DRIVE 1.3'

Primeiramente, separa marca do modelo
Marca 'FIAT'
Modelo 'ARGO DRIVE 1.3'

Na sequência, subdivide o modelo em no máximo 3 utilizando o espaço como delimitador
Modelo_A 'ARGO'
Modelo_B 'DRIVE'
Modelo_C '1.3'

Posteriormente, compara individualmente o Modelo_A, Modelo_B e Modelo_C do df_denatran com o Modelo_A a base do iCarros.

In [None]:
def get_close_model (df_denatran):
    model = df_marca_modelo5[df_denatran == df_marca_modelo5['Modelo_A']].head(1)

    if(len(model) > 0):
        return model['Modelo_A'].item()

    model = get_close_matches(df_denatran, df_marca_modelo5['Modelo_A'], n=1, cutoff=0.7)

    if(len(model) > 0):
        return model[0]
    else:
        return np.nan

get_comb
Função de 

In [None]:
def get_comb (df_denatran):
    gasolina = np.nan
    alcool = np.nan
    diesel = np.nan

    if((np.isnan(df_denatran['Consumo_Cidade_Gasolina_A'])) & (np.isnan(df_denatran['Consumo_Cidade_Gasolina_B'])) & (np.isnan(df_denatran['Consumo_Cidade_Gasolina_C'])) & (np.isnan(df_denatran['Consumo_Cidade_Alcool_A'])) & (np.isnan(df_denatran['Consumo_Cidade_Alcool_B'])) & (np.isnan(df_denatran['Consumo_Cidade_Alcool_C']))):
        return [gasolina, alcool, diesel]

    if((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_A'])) & (df_denatran['Combustivel_Gasolina_A'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Gasolina_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_B'])) & (df_denatran['Combustivel_Gasolina_B'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Gasolina_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_C'])) & (df_denatran['Combustivel_Gasolina_C'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Gasolina_C']

    if((~np.isnan(df_denatran['Consumo_Cidade_Alcool_A'])) & (df_denatran['Combustivel_Alcool_A'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Alcool_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_B'])) & (df_denatran['Combustivel_Alcool_B'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Alcool_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_C'])) & (df_denatran['Combustivel_Alcool_C'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Alcool_C']

    if((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_A'])) & (df_denatran['Combustivel_Gasolina_A'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Gasolina_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_B'])) & (df_denatran['Combustivel_Gasolina_B'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Gasolina_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_C'])) & (df_denatran['Combustivel_Gasolina_C'] == 'Alcool')):
        alcool = df_denatran['Consumo_Cidade_Gasolina_C']

    if((~np.isnan(df_denatran['Consumo_Cidade_Alcool_A'])) & (df_denatran['Combustivel_Alcool_A'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Alcool_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_B'])) & (df_denatran['Combustivel_Alcool_B'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Alcool_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_C'])) & (df_denatran['Combustivel_Alcool_C'] == 'Gasolina')):
        gasolina = df_denatran['Consumo_Cidade_Alcool_C']

    if((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_A'])) & (df_denatran['Combustivel_Gasolina_A'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Gasolina_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_B'])) & (df_denatran['Combustivel_Gasolina_B'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Gasolina_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Gasolina_C'])) & (df_denatran['Combustivel_Gasolina_C'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Gasolina_C']

    if((~np.isnan(df_denatran['Consumo_Cidade_Alcool_A'])) & (df_denatran['Combustivel_Alcool_A'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Alcool_A']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_B'])) & (df_denatran['Combustivel_Alcool_B'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Alcool_B']
    elif((~np.isnan(df_denatran['Consumo_Cidade_Alcool_C'])) & (df_denatran['Combustivel_Alcool_C'] == 'Diesel')):
        diesel = df_denatran['Consumo_Cidade_Alcool_C']

    return [gasolina, alcool, diesel]