In [1]:
import pandas as pd
import tabula

# Lets start by exploring the first page

In [2]:
l = tabula.read_pdf('pbe-veicular-2021.pdf', pages=1)

# Ignore first and second tables of the first page, since they do not contain relevant data
df = l[2]

# drop na rows and columns
df = df.dropna(axis=1, how='all').dropna(axis=0, how='all')

# the first four rows are the headers of the table.
# It will be easiear to add them manually.
df = df.iloc[4:, :].reset_index(drop=True)

# After removing the first four rows, we may have additional columns full of NaNs.
# Lets drop them
df = df.dropna(axis=1, how='all').dropna(axis=0, how='all')

# rename columns to match numbers for easier visualization
df.columns = [i for i in range(len(df.columns))]
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,Sub Compacto,FIAT,MOBI,EASY,1.0-8V,M-5,N,M,Combustão,F,...,B,0,91.0,97,107,137,153,147,B,B
1,Sub Compacto,FIAT,MOBI,LIKE,1.0-8V,M-5,S,H,Combustão,F,...,B,0,98.0,89,100,130,141,159,D,B
2,Sub Compacto,FIAT,MOBI,TREKKING,1.0-8V,M-5,S,H,Combustão,F,...,B,0,98.0,89,100,130,141,159,D,B
3,Sub Compacto,FIAT,UNO,DRIVE,1.0-6V,M-5,S,E,Combustão,F,...,B,0,94.0,91,106,132,152,152,C,B
4,Sub Compacto,FIAT,UNO,WAY E,1.0-6V,M-5,S,E,Combustão,F,...,B,0,94.0,91,106,132,152,152,C,B
5,Sub Compacto,FIAT,UNO,ATTRACTIVE,1.0-8V,M-5,S,H,Combustão,F,...,B,0,108.0,80,94,116,134,175,E,C
6,Sub Compacto,Jac,IEV 20,-,Elétrico,A,S,E,Elétrico,E,...,A,\,0.0,\,\,365,333,58,A,A
7,Sub Compacto,VW,FOX,CONNECT (MY22),1.6-8V,M-5,S,E,Combustão,F,...,B,0,106.0,78,97,116,139,174,E,C
8,Sub Compacto,VW,UP! TSI,XTREME 170TSI,1.0-12V,M-5,S,E,Combustão,F,...,B,0,93.0,95,104,137,147,150,B,B
9,Compacto,CHEVROLET,ONIX JOY,JOY,1.0L - 8V,M-6,S,E,Combustão,F,...,B,0,98.0,88,103,128,147,158,A,B


In [3]:
# Note that the dataframe contains 39 rows and 23 columns, which is the same as in the pdf.
# This is evicende that we did not loose any of the rows.

# Lets rename the columns
df.columns = [
    'categoria', 'marca', 'modelo', 'versao', 'motor', 'transmissao_velocidades',
    'ar_cond', 'direcao_assistida', 'propulsao', 'combustivel',
    'poluentes_nmhc_g_km', 'poluentes_co_g_km', 'poluentes_nox_g_km', 'poluentes_reducao_relativa',
    'efeito_estufa_etanol_co2_fossil_g_km', 'efeito_estufa_gasolina_diesel_fossil_co2',
    'km_litro_etanol_cidade', 'km_litro_etanol_estrada',
    'km_litro_gasolina_diesel_eletrico_cidade', 'km_litro_gasolina_diesel_eletrico_estrada',
    'consumo_energetico_mj_km',
    'pbe_classificacao_relativa_categoria', 'pbe_classificacao_absoluta_geral'
]
df.head()

Unnamed: 0,categoria,marca,modelo,versao,motor,transmissao_velocidades,ar_cond,direcao_assistida,propulsao,combustivel,...,poluentes_reducao_relativa,efeito_estufa_etanol_co2_fossil_g_km,efeito_estufa_gasolina_diesel_fossil_co2,km_litro_etanol_cidade,km_litro_etanol_estrada,km_litro_gasolina_diesel_eletrico_cidade,km_litro_gasolina_diesel_eletrico_estrada,consumo_energetico_mj_km,pbe_classificacao_relativa_categoria,pbe_classificacao_absoluta_geral
0,Sub Compacto,FIAT,MOBI,EASY,1.0-8V,M-5,N,M,Combustão,F,...,B,0,91.0,97,107,137,153,147,B,B
1,Sub Compacto,FIAT,MOBI,LIKE,1.0-8V,M-5,S,H,Combustão,F,...,B,0,98.0,89,100,130,141,159,D,B
2,Sub Compacto,FIAT,MOBI,TREKKING,1.0-8V,M-5,S,H,Combustão,F,...,B,0,98.0,89,100,130,141,159,D,B
3,Sub Compacto,FIAT,UNO,DRIVE,1.0-6V,M-5,S,E,Combustão,F,...,B,0,94.0,91,106,132,152,152,C,B
4,Sub Compacto,FIAT,UNO,WAY E,1.0-6V,M-5,S,E,Combustão,F,...,B,0,94.0,91,106,132,152,152,C,B


In [4]:
# We need to replace ',' for '.' in the numerical columns.
# looking at the pdf, these columns are:
to_numeric = [
    'poluentes_nmhc_g_km', 'poluentes_co_g_km', 'poluentes_nox_g_km',
    'efeito_estufa_etanol_co2_fossil_g_km', 'efeito_estufa_gasolina_diesel_fossil_co2',
    'km_litro_etanol_cidade', 'km_litro_etanol_estrada',
    'km_litro_gasolina_diesel_eletrico_cidade', 'km_litro_gasolina_diesel_eletrico_estrada',
    'consumo_energetico_mj_km'
]

# We note that the dataframe contains the string \ mixed with the numbers.
# In this case is is safe to coerce the cast.
for c in to_numeric:
    df[c] = df[c].astype(str).str.replace(',', '.')
    df[c] = pd.to_numeric(df[c], errors='coerce')
    
# The columns efeito_estufa are integers
to_integer = ['efeito_estufa_etanol_co2_fossil_g_km', 'efeito_estufa_gasolina_diesel_fossil_co2',]
for c in to_integer:
    df[c] = df[c].fillna(0)
    df[c] = df[c].astype('int64')
    
display(df.dtypes)
df

categoria                                     object
marca                                         object
modelo                                        object
versao                                        object
motor                                         object
transmissao_velocidades                       object
ar_cond                                       object
direcao_assistida                             object
propulsao                                     object
combustivel                                   object
poluentes_nmhc_g_km                          float64
poluentes_co_g_km                            float64
poluentes_nox_g_km                           float64
poluentes_reducao_relativa                    object
efeito_estufa_etanol_co2_fossil_g_km           int64
efeito_estufa_gasolina_diesel_fossil_co2       int64
km_litro_etanol_cidade                       float64
km_litro_etanol_estrada                      float64
km_litro_gasolina_diesel_eletrico_cidade     f

Unnamed: 0,categoria,marca,modelo,versao,motor,transmissao_velocidades,ar_cond,direcao_assistida,propulsao,combustivel,...,poluentes_reducao_relativa,efeito_estufa_etanol_co2_fossil_g_km,efeito_estufa_gasolina_diesel_fossil_co2,km_litro_etanol_cidade,km_litro_etanol_estrada,km_litro_gasolina_diesel_eletrico_cidade,km_litro_gasolina_diesel_eletrico_estrada,consumo_energetico_mj_km,pbe_classificacao_relativa_categoria,pbe_classificacao_absoluta_geral
0,Sub Compacto,FIAT,MOBI,EASY,1.0-8V,M-5,N,M,Combustão,F,...,B,0,91,9.7,10.7,13.7,15.3,1.47,B,B
1,Sub Compacto,FIAT,MOBI,LIKE,1.0-8V,M-5,S,H,Combustão,F,...,B,0,98,8.9,10.0,13.0,14.1,1.59,D,B
2,Sub Compacto,FIAT,MOBI,TREKKING,1.0-8V,M-5,S,H,Combustão,F,...,B,0,98,8.9,10.0,13.0,14.1,1.59,D,B
3,Sub Compacto,FIAT,UNO,DRIVE,1.0-6V,M-5,S,E,Combustão,F,...,B,0,94,9.1,10.6,13.2,15.2,1.52,C,B
4,Sub Compacto,FIAT,UNO,WAY E,1.0-6V,M-5,S,E,Combustão,F,...,B,0,94,9.1,10.6,13.2,15.2,1.52,C,B
5,Sub Compacto,FIAT,UNO,ATTRACTIVE,1.0-8V,M-5,S,H,Combustão,F,...,B,0,108,8.0,9.4,11.6,13.4,1.75,E,C
6,Sub Compacto,Jac,IEV 20,-,Elétrico,A,S,E,Elétrico,E,...,A,0,0,,,36.5,33.3,0.58,A,A
7,Sub Compacto,VW,FOX,CONNECT (MY22),1.6-8V,M-5,S,E,Combustão,F,...,B,0,106,7.8,9.7,11.6,13.9,1.74,E,C
8,Sub Compacto,VW,UP! TSI,XTREME 170TSI,1.0-12V,M-5,S,E,Combustão,F,...,B,0,93,9.5,10.4,13.7,14.7,1.5,B,B
9,Compacto,CHEVROLET,ONIX JOY,JOY,1.0L - 8V,M-6,S,E,Combustão,F,...,B,0,98,8.8,10.3,12.8,14.7,1.58,A,B


# The first page is done. Now we will process the remaining ones.

In [5]:
# The remaining pages are mostly equal, then I will explore the second page
# and use this exploration to define a function to extract the others.
l = tabula.read_pdf('pbe-veicular-2021.pdf', pages='2', pandas_options={'header': None})
print(len(l))
df2 = l[0]
df2

1


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,Compacto,HYUNDAI,HB20,Vision 21/22,1.0-12V,M-5,S,E,Combustão,F,...,B,0,94,95,105,133,149,151,A,B
1,Compacto,HYUNDAI,HB20,Evolution 21/22,1.0-12V,M-5,S,E,Combustão,F,...,B,0,94,95,105,133,149,151,A,B
2,Compacto,HYUNDAI,HB20,Sense 21/21,1.0-12V,M-5,S,E,Combustão,F,...,B,0,97,91,101,128,146,157,A,B
3,Compacto,HYUNDAI,HB20,Vision 21/21,1.0-12V,M-5,S,E,Combustão,F,...,B,0,97,91,101,128,146,157,A,B
4,Compacto,HYUNDAI,HB20,Evolution 21/21,1.0-12V,M-5,S,E,Combustão,F,...,B,0,97,91,101,128,146,157,A,B
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63,Médio,CHEVROLET,ONIX,5LT,1.0 - 12 V,M-6,S,E,Combustão,F,...,B,0,87,99,117,139,167,140,A,B
64,Médio,CHEVROLET,ONIX,8LT,1.0 - 12 V,M-6,S,E,Combustão,F,...,B,0,87,99,117,139,167,140,A,B
65,Médio,CHEVROLET,ONIX,RS,1.0T - 12 V,A-6,S,E,Combustão,F,...,B,0,103,83,101,120,144,166,B,B
66,Médio,CHEVROLET,ONIX,PR1,1.0T - 12 V,A-6,S,E,Combustão,F,...,B,0,101,83,107,119,151,163,B,B


In [6]:
# looks like the extraction os mostly perfect.
# we just need to cast the data to the appropriate format.
# Since the extraction is very simple, lets define a function to do it.
from typing import List

def data_cleaning(l: List[pd.DataFrame]) -> pd.DataFrame:
    """
    Clean a list of dataframes from the file pbe-veicular-2021.pdf.
    This works from the second up to the final page.
    
    :param l: list of dataframes from tabula.read_pdf
    
    return pd.DataFrame
    """
    
    columns = [
        'categoria', 'marca', 'modelo', 'versao', 'motor', 'transmissao_velocidades',
        'ar_cond', 'direcao_assistida', 'propulsao', 'combustivel',
        'poluentes_nmhc_g_km', 'poluentes_co_g_km', 'poluentes_nox_g_km', 'poluentes_reducao_relativa',
        'efeito_estufa_etanol_co2_fossil_g_km', 'efeito_estufa_gasolina_diesel_fossil_co2',
        'km_litro_etanol_cidade', 'km_litro_etanol_estrada',
        'km_litro_gasolina_diesel_eletrico_cidade', 'km_litro_gasolina_diesel_eletrico_estrada',
        'consumo_energetico_mj_km',
        'pbe_classificacao_relativa_categoria', 'pbe_classificacao_absoluta_geral'
    ]
    to_numeric = [
        'poluentes_nmhc_g_km', 'poluentes_co_g_km', 'poluentes_nox_g_km',
        'efeito_estufa_etanol_co2_fossil_g_km', 'efeito_estufa_gasolina_diesel_fossil_co2',
        'km_litro_etanol_cidade', 'km_litro_etanol_estrada',
        'km_litro_gasolina_diesel_eletrico_cidade', 'km_litro_gasolina_diesel_eletrico_estrada',
        'consumo_energetico_mj_km'
    ]
    to_integer = ['efeito_estufa_etanol_co2_fossil_g_km', 'efeito_estufa_gasolina_diesel_fossil_co2',]
    
    df = pd.concat(l)
    df.columns = columns
        
    # casting to numeric
    for c in to_numeric:
        df[c] = df[c].astype(str).str.replace(',', '.')
        df[c] = pd.to_numeric(df[c], errors='coerce')

    # casting to integer
    for c in to_integer:
        df[c] = df[c].fillna(0)
        df[c] = df[c].astype('int64')
    
    return df

l = tabula.read_pdf('pbe-veicular-2021.pdf', pages='2-20', pandas_options={'header': None})
print(len(l))

df2 = data_cleaning(l)
print(df2.shape)
print(df2.dtypes)
df2

19
(1078, 23)
categoria                                     object
marca                                         object
modelo                                        object
versao                                        object
motor                                         object
transmissao_velocidades                       object
ar_cond                                       object
direcao_assistida                             object
propulsao                                     object
combustivel                                   object
poluentes_nmhc_g_km                          float64
poluentes_co_g_km                            float64
poluentes_nox_g_km                           float64
poluentes_reducao_relativa                    object
efeito_estufa_etanol_co2_fossil_g_km           int64
efeito_estufa_gasolina_diesel_fossil_co2       int64
km_litro_etanol_cidade                       float64
km_litro_etanol_estrada                      float64
km_litro_gasolina_diesel_eletric

Unnamed: 0,categoria,marca,modelo,versao,motor,transmissao_velocidades,ar_cond,direcao_assistida,propulsao,combustivel,...,poluentes_reducao_relativa,efeito_estufa_etanol_co2_fossil_g_km,efeito_estufa_gasolina_diesel_fossil_co2,km_litro_etanol_cidade,km_litro_etanol_estrada,km_litro_gasolina_diesel_eletrico_cidade,km_litro_gasolina_diesel_eletrico_estrada,consumo_energetico_mj_km,pbe_classificacao_relativa_categoria,pbe_classificacao_absoluta_geral
0,Compacto,HYUNDAI,HB20,Vision 21/22,1.0-12V,M-5,S,E,Combustão,F,...,B,0,94,9.5,10.5,13.3,14.9,1.51,A,B
1,Compacto,HYUNDAI,HB20,Evolution 21/22,1.0-12V,M-5,S,E,Combustão,F,...,B,0,94,9.5,10.5,13.3,14.9,1.51,A,B
2,Compacto,HYUNDAI,HB20,Sense 21/21,1.0-12V,M-5,S,E,Combustão,F,...,B,0,97,9.1,10.1,12.8,14.6,1.57,A,B
3,Compacto,HYUNDAI,HB20,Vision 21/21,1.0-12V,M-5,S,E,Combustão,F,...,B,0,97,9.1,10.1,12.8,14.6,1.57,A,B
4,Compacto,HYUNDAI,HB20,Evolution 21/21,1.0-12V,M-5,S,E,Combustão,F,...,B,0,97,9.1,10.1,12.8,14.6,1.57,A,B
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14,Esportivo,PORSCHE,Panamera,4SEHS,2.9-24V,A-8,S,E,Plug-in,G,...,A,0,61,,,18.3,18.7,1.12,A,A
15,Esportivo,PORSCHE,Panamera,4SEHY,2.9-24V,A-8,S,E,Plug-in,G,...,A,0,61,,,18.3,18.7,1.12,A,A
16,Esportivo,PORSCHE,Taycan,4S,Elétrico,--,S,E,Elétrico,E,...,A,0,0,,,23.0,22.7,0.89,A,A
17,Esportivo,PORSCHE,Taycan,Turbo,Elétrico,--,S,E,Elétrico,E,...,A,0,0,,,24.6,23.8,0.84,A,A


In [7]:
# Finally, lets concatenate both dataframes, add the year and write it to a csv file

df_final = pd.concat([df, df2])
df_final['year'] = 2021
df_final.to_csv('pbe_2021.csv', index=False)
print('done')

done


In [8]:
# lets assert the number of brands
# notice that the file says it has 35 brands, however I only manually counted 33
assert len(df_final['marca'].unique()) == 33

In [9]:
# By looking at the file, we still need to do some data treatment.
# Lines 436 and 437, for example, were split into two

df = pd.read_csv('pbe_2021.csv')
df.loc[436:440, :]

Unnamed: 0,categoria,marca,modelo,versao,motor,transmissao_velocidades,ar_cond,direcao_assistida,propulsao,combustivel,...,efeito_estufa_etanol_co2_fossil_g_km,efeito_estufa_gasolina_diesel_fossil_co2,km_litro_etanol_cidade,km_litro_etanol_estrada,km_litro_gasolina_diesel_eletrico_cidade,km_litro_gasolina_diesel_eletrico_estrada,consumo_energetico_mj_km,pbe_classificacao_relativa_categoria,pbe_classificacao_absoluta_geral,year
436,Utilitário Esportivo,,,,,,,,,,...,,,,,,,,,,
437,Compacto,CAOA CHERY,TIGGO 2,EXCLUSIVE,1.5 - 16V,M-5,S,H,Combustão,F,...,0.0,116.0,7.7,8.8,10.9,12.3,1.86,C,C,2021.0
438,Utilitário Esportivo,,,,,,,,,,...,,,,,,,,,,
439,Compacto,CAOA CHERY,TIGGO 2,SPORT,1.5 - 16V,M-5,S,H,Combustão,F,...,0.0,116.0,7.7,8.8,10.9,12.3,1.86,C,C,2021.0
440,Utilitário Esportivo,,,,,,,,,,...,,,,,,,,,,


In [10]:
def concat_lines(df, save='temp.csv'):
    """
    Iterate over each line of the dataframe and concatenate the null lines.
    
    Ex.:
    row  = [a, b, c, d, e, nan, nan, nan]
    row2 = [f, g, h, i, nan, nan, nan, nan]
    
    returns [a, b, c, d, e f, g, h, i]
    """
    
    data = []
    i = 0
    while i < df.index.size:
        
        if i == df.index.size-1:
            print('here', df.index.size, i)
            data.append([r for r in df.iloc[i]])
            break
        
        row = df.iloc[i]
        row2 = df.iloc[i+1]

        if row.isnull().sum() > len(df.columns)/2:
            d = [r for r in row if not pd.isnull(r)]
            d[-1] += ' ' + row2.iloc[0]
            d += [r for r in row2.iloc[1:] if not pd.isnull(r)]
            data.append(d)
            i += 1
        else:
            data.append(row.tolist())
        i += 1

    df2 = pd.DataFrame(data, columns=df.columns)
    df2.to_csv(save, index=False)
    return df2

df2 = concat_lines(df)
df2 = concat_lines(df2)
df2.to_csv('pbe_2021.csv', index=False)

df2

here 1447 1446
here 1120 1119


Unnamed: 0,categoria,marca,modelo,versao,motor,transmissao_velocidades,ar_cond,direcao_assistida,propulsao,combustivel,...,efeito_estufa_etanol_co2_fossil_g_km,efeito_estufa_gasolina_diesel_fossil_co2,km_litro_etanol_cidade,km_litro_etanol_estrada,km_litro_gasolina_diesel_eletrico_cidade,km_litro_gasolina_diesel_eletrico_estrada,consumo_energetico_mj_km,pbe_classificacao_relativa_categoria,pbe_classificacao_absoluta_geral,year
0,Sub Compacto,FIAT,MOBI,EASY,1.0-8V,M-5,N,M,Combustão,F,...,0.0,91.0,9.7,10.7,13.7,15.3,1.47,B,B,2021.0
1,Sub Compacto,FIAT,MOBI,LIKE,1.0-8V,M-5,S,H,Combustão,F,...,0.0,98.0,8.9,10.0,13.0,14.1,1.59,D,B,2021.0
2,Sub Compacto,FIAT,MOBI,TREKKING,1.0-8V,M-5,S,H,Combustão,F,...,0.0,98.0,8.9,10.0,13.0,14.1,1.59,D,B,2021.0
3,Sub Compacto,FIAT,UNO,DRIVE,1.0-6V,M-5,S,E,Combustão,F,...,0.0,94.0,9.1,10.6,13.2,15.2,1.52,C,B,2021.0
4,Sub Compacto,FIAT,UNO,WAY E,1.0-6V,M-5,S,E,Combustão,F,...,0.0,94.0,9.1,10.6,13.2,15.2,1.52,C,B,2021.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1112,Esportivo,PORSCHE,Panamera,4SEHS,2.9-24V,A-8,S,E,Plug-in,G,...,0.0,61.0,,,18.3,18.7,1.12,A,A,2021.0
1113,Esportivo,PORSCHE,Panamera,4SEHY,2.9-24V,A-8,S,E,Plug-in,G,...,0.0,61.0,,,18.3,18.7,1.12,A,A,2021.0
1114,Esportivo,PORSCHE,Taycan,4S,Elétrico,--,S,E,Elétrico,E,...,0.0,0.0,,,23.0,22.7,0.89,A,A,2021.0
1115,Esportivo,PORSCHE,Taycan,Turbo,Elétrico,--,S,E,Elétrico,E,...,0.0,0.0,,,24.6,23.8,0.84,A,A,2021.0
