# **Colab**

In [None]:
# === 1. Montagem do Google Drive e definição dos caminhos ===
from google.colab import drive
drive.mount('/content/drive')
arquivo_entrada = '/content/drive/My Drive/Colab/cb-classificador/data/item_nfe_rotulo.csv'
arquivo_tratado = '/content/drive/My Drive/Colab/cb-classificador/data/dados_tratados.csv'

Mounted at /content/drive


In [None]:
# === 2. Instalação e importação de bibliotecas ===
!pip install unidecode
from unidecode import unidecode
import pandas as pd
import csv
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stopwords_pt = set(stopwords.words('portuguese'))

Collecting unidecode
  Downloading Unidecode-1.4.0-py3-none-any.whl.metadata (13 kB)
Downloading Unidecode-1.4.0-py3-none-any.whl (235 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/235.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.8/235.8 kB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.4.0


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
# === 3. Função para limpeza e padronização dos campos ===
def limpar_campos_textuais(df):
    # Tratamento de valores nulos
    df['cod_anp'] = df['cod_anp'].fillna('0')
    df['cod_ncm'] = df['cod_ncm'].fillna('0')
    df['des_anp'] = df['des_anp'].fillna('nihil')
    df['des_anp'] = df['des_anp'].replace(['0', 'ANP'], 'nihil')
    df['des_produto'] = df['des_produto'].fillna('nihil')
    df['cod_unidade'] = df['cod_unidade'].fillna('desconhecida')
    # Conversão para inteiros
    df['cod_anp'] = df['cod_anp'].apply(lambda x: int(float(x)) if x != '' else 0)
    df['cod_ncm'] = df['cod_ncm'].apply(lambda x: int(float(x)) if x != '' else 0)
    # Limpeza e padronização de descrições
    for col in ['des_anp', 'des_produto']:
        df[col] = df[col].astype(str)
        df[col] = df[col].str.replace(r'\\', '', regex=True)
        df[col] = df[col].str.replace(',', '-')
        df[col] = df[col].str.lower().apply(unidecode)
    # Padronização de unidades
    df['cod_unidade'] = df['cod_unidade'].astype(str).str.lower().apply(unidecode)
    return df

In [None]:
# === 4. Função para padronizar abreviaturas de códigos de unidade ===
def padronizar_codigos_unidade(df, coluna='cod_unidade'):
    mapa_cod_unidade = {
        'u': 'un',
        'un1': 'un',
        'und': 'un',
        'uni': 'un',
        'unid': 'un',
        'unidad': 'un',
        'l': 'lt',
        'l.': 'lt',
        'lts': 'lt',
        'lit': 'lt',
        'litro': 'lt',
        'h': 'hr',
        'hs': 'hr',
        'pç': 'pc',
        'peca': 'pc'
    }
    df[coluna] = df[coluna].replace(mapa_cod_unidade)
    return df

In [None]:
# === 5. Função para substituir valores com baixa frequência ===
def substituir_valores_raros(df, colunas_limites, valor_substituto=9):
    for coluna, limite in colunas_limites.items():
        frequencias = df[coluna].value_counts()
        raros = frequencias[frequencias < limite].index
        df[coluna] = df[coluna].apply(lambda x: valor_substituto if x in raros else x)
    return df

In [None]:
# === 6. Função para remoção de stopwords dos campos textuais ===
def remover_stopwords(texto, stopwords_lista):
    if pd.isnull(texto):  # Verificar se o valor não é nulo
        return texto
    palavras = texto.split()
    palavras_filtradas = [palavra for palavra in palavras if palavra not in stopwords_lista]
    return ' '.join(palavras_filtradas)

In [None]:
# === 7. Função para remoção linhas duplicadas ===
def remover_duplicatas(df):
    return df.drop_duplicates()

In [None]:
# === 8. Leitura do arquivo de entrada ===
df = pd.read_csv(arquivo_entrada, skiprows=1, header=None, quotechar='"', delimiter=',')
df.columns = ['categoria', 'ano', 'num_chave_nota_fiscal_eletronica', 'num_item_nota_fiscal_eletronica', 'cod_anp', 'cod_ncm', 'cod_unidade', 'des_anp', 'des_produto']
df = df[['categoria', 'cod_anp', 'cod_ncm', 'cod_unidade', 'des_anp', 'des_produto']]

In [None]:
# === 9. Aplicação da função de limpeza ===
df1 = limpar_campos_textuais(df)

In [None]:
len(df1)

3695

In [None]:
df1['categoria'].value_counts()

Unnamed: 0_level_0,count
categoria,Unnamed: 1_level_1
CB,2116
XX,1579


In [None]:
df1['cod_ncm'].value_counts()

Unnamed: 0_level_0,count
cod_ncm,Unnamed: 1_level_1
27101259,1017
27101921,569
27101932,330
31021010,175
84212300,167
...,...
19049000,1
34070010,1
85124010,1
34024200,1


In [None]:
df1['cod_anp'].value_counts()

Unnamed: 0_level_0,count
cod_anp,Unnamed: 1_level_1
0,2158
320102001,503
820101034,258
320102002,233
820101033,119
620505001,118
810101001,97
320101001,27
820101012,20
740101006,20


In [None]:
df1['cod_unidade'].value_counts()

Unnamed: 0_level_0,count
cod_unidade,Unnamed: 1_level_1
un,1411
l,1121
lt,747
pc,122
unid,79
litro,76
und,41
unidad,16
uni,15
peca,15


In [None]:
# === 10. Aplicação da função de padronização de unidade ===
df1 = padronizar_codigos_unidade(df1)

In [None]:
df1['cod_unidade'].value_counts()

Unnamed: 0_level_0,count
cod_unidade,Unnamed: 1_level_1
lt,1949
un,1564
pc,137
hr,17
dl,8
gl,5
cx,3
cj,3
serv,2
m,2


In [None]:
# === 11. Aplicação da função de substituição ===
colunas_e_limites = {
    'cod_ncm': 10,
    'cod_anp': 10,
    'cod_unidade': 5
}
df1 = substituir_valores_raros(df1, colunas_e_limites)

In [None]:
len(df1)

3695

In [None]:
df1['cod_ncm'].value_counts()

Unnamed: 0_level_0,count
cod_ncm,Unnamed: 1_level_1
27101259,1017
27101921,569
9,345
27101932,330
31021010,175
84212300,167
22071090,120
22011000,115
84219999,110
34029039,71


In [None]:
df1['cod_anp'].value_counts()

Unnamed: 0_level_0,count
cod_anp,Unnamed: 1_level_1
0,2158
320102001,503
820101034,258
320102002,233
820101033,119
620505001,118
9,112
810101001,97
320101001,27
820101012,20


In [None]:
# === 12. Aplicação da função de remoção de stopwords ===
df1['des_anp'] = df1['des_anp'].apply(lambda x: remover_stopwords(x, stopwords_pt))
df1['des_produto'] = df1['des_produto'].apply(lambda x: remover_stopwords(x, stopwords_pt))

In [None]:
len(df1)

3695

In [None]:
# === 13. Aplicação da função de remoção de duplicatas ===
df2 = remover_duplicatas(df1)

In [None]:
len(df2)

1914

In [None]:
df2['categoria'].value_counts()

Unnamed: 0_level_0,count
categoria,Unnamed: 1_level_1
XX,1110
CB,804


In [None]:
df2['cod_ncm'].value_counts()

Unnamed: 0_level_0,count
cod_ncm,Unnamed: 1_level_1
9,290
27101932,259
27101921,236
27101259,220
84212300,118
84219999,87
22011000,80
31021010,74
34029039,41
0,41


In [None]:
df2['cod_anp'].value_counts()

Unnamed: 0_level_0,count
cod_anp,Unnamed: 1_level_1
0,1363
820101034,106
620505001,88
320102001,76
9,74
320102002,74
820101033,43
810101001,32
740101006,15
620501001,14


In [None]:
df2['cod_unidade'].value_counts()

Unnamed: 0_level_0,count
cod_unidade,Unnamed: 1_level_1
un,1197
lt,615
pc,73
9,13
hr,10
gl,5
dl,1


In [None]:
# === 14. Armazenar arquivo tratado ===
df2.to_csv(arquivo_tratado, index=False, quoting=csv.QUOTE_NONE, escapechar='\\')