# Extraindo tabela dos pdfs de Gêneros Alimentícios

### Esse notebook tem o objetivo de:
    - [X] Extrair a tabela nos pdfs
    - [X] Padronizar o formato
    - [X] Fatorar uma função que automatiza isso

### Prerequisitos:
    - [X] Baixar pelo menos um PDF para referencia

In [2]:
PDF = '../data/pdfs/generos-alimenticios/ARQUIVOPARAPORTAL.pdf'

In [3]:
import sys
sys.path.insert(0, '..')
from IPython.display import HTML

In [4]:
HTML(f'''
<iframe
    src="{PDF}#page=0"
    width=100%
    height=400
    >
</iframe>
''')

## Primeiro, tentar extrair a tabela

In [10]:
import pandas as pd
from tabula import read_pdf

In [6]:
pandas_options = {
    'dtype': str,
}

df = read_pdf(
    PDF,
    pages='all',
    pandas_options=pandas_options
)
df.head()

Unnamed: 0,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
0,1.0,8905.01.001-40,"CARNE BOVINA, ALCATRA",Kg,1901.0
1,,,"sem osso, congelada, em embalagem plástica con...",,
2,2.0,8905.01.002-21,"CARNE BOVINA, COXÃO MOLE",Kg,1810.0
3,,,"chã de dentro, sem osso, congelada, em embalag...",,
4,3.0,8905.01.003-02,"CARNE BOVINA, DIANTEIRO",Kg,858.0


Note que a tabela contém alguns problemas, pra começo, a descrição de cada item é colocada em uma nova linha no pdf, portanto, quando extraida, é tratada como uma row

Note também que as headers são repetidas em cada páginas, e são interpretadas como uma row:

In [8]:
df[df.ORD == 'ORD']

Unnamed: 0,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
38,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
81,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
118,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
141,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
164,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
203,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
248,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
292,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
331,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
377,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$


O primeiro passo é remover headers repitidas

In [12]:
def drop_repeated_headers(df : pd.DataFrame) -> pd.DataFrame:
    # for tolerance reasons,
    # at least half of columns must be equal to be considered
    ratio_equal = 0.5
    num_equal = round(len(df.columns) * ratio_equal)

    matches = sum([df[colname] == colname for colname in df.columns])
    
    return df[matches < num_equal].reset_index(drop=True)

In [13]:
df = drop_repeated_headers(df)
df.head()

Unnamed: 0,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$
0,1.0,8905.01.001-40,"CARNE BOVINA, ALCATRA",Kg,1901.0
1,,,"sem osso, congelada, em embalagem plástica con...",,
2,2.0,8905.01.002-21,"CARNE BOVINA, COXÃO MOLE",Kg,1810.0
3,,,"chã de dentro, sem osso, congelada, em embalag...",,
4,3.0,8905.01.003-02,"CARNE BOVINA, DIANTEIRO",Kg,858.0


In [14]:
df[df.ORD == 'ORD']

Unnamed: 0,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$


Sucesso! Agora, o objetivo é acumular as rows de descrição consecutivas para as primeira row válida acima

In [15]:
# Separe items com ord validos dos outros
ords     = df[df.ORD.notnull()]
non_ords = df[df.ORD.isnull()]

# Assuma que os outros são as descrições, shift up por 1 e renomeie
# como uma nova coluna 'DESCRIÇÃO'
descricoes = non_ords
descricoes.index = non_ords.index - 1
descricoes = descricoes['GÊNEROS ALIMENTÍCIOS'].rename('DESCRIÇÃO')

# Alguns rows podem permanecem sem ORD por problema no read_pdf,
# por isso, concatene pra cima os vazios
acc = []
df_isnull = df.ORD.isnull()
for i, desc in descricoes.items():
    if not df_isnull[i]:
        acc.append((i, desc))
    else:
        acc[-1] = (acc[-1][0], acc[-1][1].strip() + ' ' + desc.strip())

# Agora recrie a coluna 'DESCRIÇÃO', dessa vez garantido de não ter um
# sem ORD
ixs, descs = zip(*acc)
new_descricoes = pd.Series(descs, index=ixs, name='DESCRIÇÃO')

df = pd.concat(
    [ords, new_descricoes],
    axis=1,
)

df.head()

Unnamed: 0,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$,DESCRIÇÃO
0,1,8905.01.001-40,"CARNE BOVINA, ALCATRA",Kg,1901,"sem osso, congelada, em embalagem plástica con..."
2,2,8905.01.002-21,"CARNE BOVINA, COXÃO MOLE",Kg,1810,"chã de dentro, sem osso, congelada, em embalag..."
4,3,8905.01.003-02,"CARNE BOVINA, DIANTEIRO",Kg,858,"com osso, resfriada."
6,4,8905.01.005-74,CORAÇÃO BOVINO,Kg,561,"congelado,em embalagem plástica conforme a leg..."
8,5,8905.01.007-36,FÍGADO BOVINO,Kg,914,"congelado,em embalagem plástica conforme a leg..."


In [17]:
from lib.typing import Path

def extrair_df(path : Path) -> pd.DataFrame:
    return format_table(extract_table(path))

def extract_table(path : Path) -> pd.DataFrame:
    pandas_options = {
        'dtype': str,
    }

    return read_pdf(
        path,
        pages='all',
        pandas_options=pandas_options,
    )


def format_table(df : pd.DataFrame) -> pd.DataFrame:
    # em alguns pdf, o cabeçalho é repitido em cada página
    # isso joga eles fora
    df = drop_repeated_headers(df)

    # Separe items com ord validos dos outros
    ords     = df[df.ORD.notnull()]
    non_ords = df[df.ORD.isnull()]

    # Assuma que os outros são as descrições, shift up por 1 e renomeie
    # como uma nova coluna 'DESCRIÇÃO'
    descricoes = non_ords
    descricoes.index = non_ords.index - 1
    descricoes = descricoes['GÊNEROS ALIMENTÍCIOS'].rename('DESCRIÇÃO')

    # Alguns rows podem permanecem sem ORD por problema no read_pdf,
    # por isso, concatene pra cima os vazios
    acc = []
    df_isnull = df.ORD.isnull()
    for i, desc in descricoes.items():
        if not df_isnull[i]:
            acc.append((i, desc))
        else:
            acc[-1] = (acc[-1][0], acc[-1][1].strip() + ' ' + desc.strip())

    # Agora recrie a coluna 'DESCRIÇÃO', dessa vez garantido de não ter um
    # sem ORD
    ixs, descs = zip(*acc)
    new_descricoes = pd.Series(descs, index=ixs, name='DESCRIÇÃO')

    return pd.concat(
        [ords, new_descricoes],
        axis=1,
    )

def drop_repeated_headers(df          : pd.DataFrame,
                          ratio_equal : float = 0.5,
                          ) -> pd.DataFrame:
    # for tolerance reasons, you can set the ratio of
    # columns that need to be considered equal
    num_equal = round(len(df.columns) * ratio_equal)

    matches = sum([df[colname] == colname for colname in df.columns])

    return df[matches < num_equal].reset_index(drop=True)


In [18]:
extrair_df(PDF).head()

Unnamed: 0,ORD,CÓDIGO,GÊNEROS ALIMENTÍCIOS,UNIDADE,VALOR - R$,DESCRIÇÃO
0,1,8905.01.001-40,"CARNE BOVINA, ALCATRA",Kg,1901,"sem osso, congelada, em embalagem plástica con..."
2,2,8905.01.002-21,"CARNE BOVINA, COXÃO MOLE",Kg,1810,"chã de dentro, sem osso, congelada, em embalag..."
4,3,8905.01.003-02,"CARNE BOVINA, DIANTEIRO",Kg,858,"com osso, resfriada."
6,4,8905.01.005-74,CORAÇÃO BOVINO,Kg,561,"congelado,em embalagem plástica conforme a leg..."
8,5,8905.01.007-36,FÍGADO BOVINO,Kg,914,"congelado,em embalagem plástica conforme a leg..."
