In [1]:
import tabula
import pandas as pd

In [26]:
# Função para padronizar os valores do IPI
def converter_ipi(x):
    if x == "NT":
        x = "NT"
    elif x is None:
        x = np.nan
    else:
        x = float(x)
    return x

In [3]:
file = 'TIPI.pdf' 
# fonte: http://receita.economia.gov.br/acesso-rapido/legislacao/documentos-e-arquivos/tipi-1.pdf/view
# acessado em 14/07/2020

dfs = tabula.read_pdf(file, pages = 'all', lattice= True)

Got stderr: jul 15, 2020 6:56:47 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2 <init>
INFORMAÇÕES: OpenType Layout tables used in font ArialMT are not implemented in PDFBox and will be ignored
jul 15, 2020 6:56:51 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2 <init>
INFORMAÇÕES: OpenType Layout tables used in font Arial-BoldMT are not implemented in PDFBox and will be ignored



In [4]:
# Lista o número de colunas de cada DataFrame que o Tabula encontrou
shape_list = []
for df in range(len(dfs)):
    shape_list.append(dfs[df].shape[1])
    
# Altera o nome das colunas de cada DataFrame para uma numeração gernérica (necessário para o append)
for df in range(len(dfs)):
    dfs[df].columns = list(range(shape_list[df]))

In [5]:
# Declara o DataFrame vazio 'tipi' e faz o append de cada DataFrame contido em Dfs
tipi = pd.DataFrame()
for i in range(len(dfs)):
    tipi = tipi.append(dfs[i])

# arruma o indice
tipi = tipi.reset_index(drop=True)

# Deixa somente as primeiras colunas e altera os títulos
tipi = tipi[[0,1,2]]
tipi.columns = ['ncm', 'descricao', 'alq_ipi']

# Temos um único DataFrame com todas as tabelas de dfs
tipi

Unnamed: 0,ncm,descricao,alq_ipi
0,,TABELA DE INCIDÊNCIA DO IMPOSTO SOBRE PRODUTOS...,
1,,,
2,01.01,"Cavalos, asininos e muares, vivos.",
3,0101.2,- Cavalos:,
4,0101.21.00,--Reprodutores de raça pura,NT
...,...,...,...
16519,9704.00.00,"Selos postais, selos fiscais, marcas postais, ...",NT
16520,,,
16521,9705.00.00,"Coleções e espécimes para coleções, de zoologi...",NT
16522,,,


In [6]:
# Separando os Ex-Tarifários
tipi_ex = tipi.fillna(method = 'ffill')
tipi_ex = tipi_ex[tipi['descricao'].str.startswith('Ex ', na=False)]

# Padronizando o valor das alóquotas de ipi em tipi_ex
ipi_ex = tipi_ex['alq_ipi'].apply(converter_ipi)
tipi_ex['alq_ipi'] = ipi_ex

# Tabela dos Ex-Tarifários
tipi_ex

Unnamed: 0,ncm,descricao,alq_ipi
185,0210.91.00,Ex 01 - Miudezas; farinhas e pós dessas miudezas,NT
187,0210.92.00,Ex 01 - Miudezas; farinhas e pós dessas miudezas,NT
189,0210.93.00,Ex 01 - Miudezas; farinhas e pós dessas miudezas,NT
198,0210.99.90,Ex 01 – Farinhas e pós das miudezas do código ...,NT
537,0305.71.00,"Ex 01 - De tubarão seco, mesmo salgado mas não...",5
...,...,...,...
16352,9504.90.90,"Ex 02 - Ficha, marca (escore) ou tento",40
16391,9508.10.00,"Ex 01 - Coleções de animais de zoológicos, de ...",0
16506,9619.00.00,"Ex 01 - Artigos de vestuário, de plástico",5
16507,9619.00.00,Ex 02 - Outros artigos de plástico,15


In [7]:
# Limpeza de valores vazios na coluna de NCM
notna = tipi[['ncm']].notna()
tipi = tipi[notna['ncm']]
tipi

Unnamed: 0,ncm,descricao,alq_ipi
2,01.01,"Cavalos, asininos e muares, vivos.",
3,0101.2,- Cavalos:,
4,0101.21.00,--Reprodutores de raça pura,NT
5,0101.29.00,--Outros,NT
6,0101.30.00,- Asininos,NT
...,...,...,...
16515,9702.00.00,"Gravuras, estampas e litografias, originais.",NT
16517,9703.00.00,Produções originais de arte estatuária ou de e...,NT
16519,9704.00.00,"Selos postais, selos fiscais, marcas postais, ...",NT
16521,9705.00.00,"Coleções e espécimes para coleções, de zoologi...",NT


In [8]:
# Limpeza de textos mais compridos que 10 caracteres (comprimento mínimo do nível mais analítico da NCM)
# e com alíquota vazia
not_ncm = tipi[(tipi['ncm'].str.len() >= 10) & (tipi['alq_ipi'].isna())].index
tipi = tipi.drop(not_ncm)
tipi

Unnamed: 0,ncm,descricao,alq_ipi
2,01.01,"Cavalos, asininos e muares, vivos.",
3,0101.2,- Cavalos:,
4,0101.21.00,--Reprodutores de raça pura,NT
5,0101.29.00,--Outros,NT
6,0101.30.00,- Asininos,NT
...,...,...,...
16515,9702.00.00,"Gravuras, estampas e litografias, originais.",NT
16517,9703.00.00,Produções originais de arte estatuária ou de e...,NT
16519,9704.00.00,"Selos postais, selos fiscais, marcas postais, ...",NT
16521,9705.00.00,"Coleções e espécimes para coleções, de zoologi...",NT


In [9]:
# Limpeza de textos mais compridos que 3 caracteres 
# (menos as últimas três ocorrências, que constatamos ser um problema na leitura das tabelas)
alqt_clean = tipi[tipi['alq_ipi'].str.len() >3][:-3].index
tipi = tipi.drop(alqt_clean)

In [10]:
# Checagem das descrições vazias
tipi[tipi['descricao'].isna()]

Unnamed: 0,ncm,descricao,alq_ipi
1954,8,,
8082,prunóidea,,
16218,9306.21.10,,Que contenham produtos químicos ou oleorresina...
16220,9306.21.30,,"Outros, com um ou mais projéteis de elastômeros"
16221,9306.21.90,,Outro


In [11]:
# Checagem das NCM duplicadas
tipi[tipi['ncm'].duplicated(keep=False)]

Unnamed: 0,ncm,descricao,alq_ipi
12100,8418.2,A,10.0
12416,8418.2,- Refrigeradores do tipo doméstico:,
15050,8703.22,11,
15055,8703.24,18,
15145,8703.22,"--De cilindrada superior a 1.000 cm3, mas não ...",
15153,8703.24,--De cilindrada superior a 3.000 cm3,


In [12]:
# Ajuste fino dos DataFrame
tipi = tipi.drop([8082,12100,15050,15055])
tipi['descricao'][16218] = tipi['alq_ipi'][16218]
tipi['descricao'][16220] = tipi['alq_ipi'][16220]
tipi['descricao'][16221] = tipi['alq_ipi'][16221]
tipi['alq_ipi'][16218] = 20
tipi['alq_ipi'][16220] = 20
tipi['alq_ipi'][16221] = 20

In [13]:
ipi = tipi['alq_ipi'].apply(converter_ipi)
tipi['alq_ipi'] = ipi

In [14]:
group_ipi = tipi.groupby('alq_ipi').count().sort_values('ncm',ascending=False)['ncm']
total = group_ipi.sum()
freq_ipi = group_ipi.apply(lambda x : 100* x/total).round(2)
freq_acum = freq_ipi.cumsum().round(1)
group_ipi = pd.DataFrame({'group_ipi' : group_ipi ,'freq_ipi':freq_ipi, 'freq_acum': freq_acum})
group_ipi

Unnamed: 0_level_0,group_ipi,freq_ipi,freq_acum
alq_ipi,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0.0,5348,51.9,51.9
5.0,1294,12.56,64.5
NT,736,7.14,71.6
15.0,696,6.75,78.4
0,689,6.69,85.0
10.0,654,6.35,91.4
20.0,204,1.98,93.4
8.0,163,1.58,94.9
5,100,0.97,95.9
2.0,72,0.7,96.6


In [29]:
tipi


Unnamed: 0,ncm,descricao,alq_ipi,aliq_ipi
2,01.01,"Cavalos, asininos e muares, vivos.",,
3,0101.2,- Cavalos:,,
4,0101.21.00,--Reprodutores de raça pura,NT,NT
5,0101.29.00,--Outros,NT,NT
6,0101.30.00,- Asininos,NT,NT
...,...,...,...,...
16515,9702.00.00,"Gravuras, estampas e litografias, originais.",NT,NT
16517,9703.00.00,Produções originais de arte estatuária ou de e...,NT,NT
16519,9704.00.00,"Selos postais, selos fiscais, marcas postais, ...",NT,NT
16521,9705.00.00,"Coleções e espécimes para coleções, de zoologi...",NT,NT


In [33]:
# Salvando os DataFrames em arquivos csv
tipi.to_csv('tipi.csv', sep=';')
tipi_ex.to_csv('tipi_ex.csv', sep=';')