In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('display.max_rows', 1000)
import seaborn as sns
import unidecode

In [2]:
#Lendo dados
drogas_final = pd.read_csv('Dados/GESEG_SBX_DROGA_EXPORT.csv', encoding = 'latin-1', sep = ';', index_col=0)
#Pivotando valor "QUANTIDADE" da coluna "ATRIBUTOS" com o mesmo "NRO_INT_OBJETO"
drogas_final_pivot = drogas_final.pivot(index="NRO_INT_OBJETO", columns="ATRIBUTO", values="QUANTIDADE")
#Agrupando dados com o mesmo "K93_NRO_INT_OBJETO"
#Foi preciso utilizar "agg('min')" pois apenas groupby()...
#retorna um objeto iterável 
dg2_final = drogas_final[['NRO_INT_OBJETO','ANO_OCOR', 'NRO_OCOR','NRO_INT_TIPO_OBJETO','TIPO_OBJETO','ATRIBUTO']].groupby(["NRO_INT_OBJETO"]).min()
#Ordenando por "K93_NRO_INT_OBJETO"
dg2_final_sorted = dg2_final.sort_values(by=['NRO_INT_OBJETO'])
drogas_pivot_final_sorted = drogas_final_pivot.sort_values(by=['NRO_INT_OBJETO'])

In [3]:
#Concatenando as duas tabelas
try_1_final = pd.concat([dg2_final_sorted, drogas_pivot_final_sorted],axis=1)
#Atribuindo a tabela resultado "try_1" com um index numérico
resultado = try_1_final.reset_index()
#Renomeando Coluans
resultado = resultado.rename(columns={"NRO_INT_OBJETO": "CHAVE_OBJETO", "TIPO_OBJETO": "TXT_TIPO_OBJETO"})

In [4]:
def ajusta_texto_numerico(texto):
    return str(texto).replace('.', '').replace(',', '.')

resultado['Peso Unitário'] = resultado['Peso Unitário'].apply(ajusta_texto_numerico)
resultado['Peso Total'] = resultado['Peso Total'].apply(ajusta_texto_numerico)

resultado['Peso Unitário'] = pd.to_numeric(resultado['Peso Unitário'], errors='coerce',downcast="float").fillna(0).astype(float)
resultado['Peso Total'] = pd.to_numeric(resultado['Peso Total'], errors='coerce',downcast="float").fillna(0).astype(float)

In [5]:
#Definindo uma series Drogas
#Como resultado do tipo de objeto de resultado = Drogas
Drogas = resultado.loc[resultado['TXT_TIPO_OBJETO'] == 'Drogas']

Drogas = resultado.loc[resultado['TXT_TIPO_OBJETO'] == 'Drogas']
Outras = resultado.loc[resultado['TXT_TIPO_OBJETO'] != 'Drogas']
Outras = Outras.reset_index(drop= True)

#DF com descrição nula
DrogasNA = Drogas.loc[Drogas['Descrição'].isnull()]
DrogasNA = DrogasNA.reset_index(drop=True)

#Excluindo descrição nula do DF Drogas
Drogas = Drogas.loc[Drogas['Descrição'].notna()]
Drogas = Drogas.reset_index(drop=True)

In [6]:
def changer(txt):
    return unidecode.unidecode(str(txt).replace(',','').replace('.',''))

Drogas['Descrição'] = Drogas['Descrição'].apply(changer)
    
Drogas['Descrição'] = Drogas['Descrição'].str.lower()

In [7]:
#Tratando ajustes de drogas
def analizer(x):
    
    if 'maconha' in x:
        return 'Maconha'
    elif 'canabis' in x:
        return 'Maconha'
    elif 'cannabis' in x:
        return 'Maconha'
    elif 'crack' in x:
        return 'Crack'
    elif 'cocaina' in x:
        return 'Cocaína'
    else:
        return 'Drogas'
    
Drogas['RECLASSIFICAÇÃO'] = Drogas['Descrição'].apply(analizer)

In [8]:
listaDrogas = [Drogas, DrogasNA]
Drogas = pd.concat(listaDrogas)

stores_df = Drogas

In [9]:
#Concatenando DF Drogas com DF outros
resultado_final = pd.concat([Drogas, Outras])

#Tratando NaN de reclassificação
resultado_final['RECLASSIFICAÇÃO'] = resultado_final['RECLASSIFICAÇÃO'].fillna(value=resultado_final.TXT_TIPO_OBJETO)

#Definindo a chave do objeto como indice
resultado_final = resultado_final.set_index('CHAVE_OBJETO')

In [10]:
resultado_final['Unidade de Peso'] = resultado_final['Unidade de Peso'].apply(str)

In [11]:
def refactor(x,y):
    if 'Miligrama' in x:
        return y/1000
    if 'Quilograma' in x:
        return y * 100
    if 'Decigrama' in x:
        return y / 10
    if 'Tonelada' in x:
        return y * 1000000
    else:
        return y
        

#df['newcolumn'] = df.apply(lambda x: fxy(x['A'], x['B']), axis=1)
resultado_final['Peso Unitário Rec'] = resultado_final.apply(lambda x: refactor(x['Unidade de Peso'], x['Peso Unitário']),axis=1)
#resultado_final['Peso Unitário Rec'] = resultado_final[['Unidade de Peso','Peso Unitário']].apply(refactor)



In [16]:
resultado_final.loc[resultado_final["Unidade de Peso"] == "Tonelada"]

Unnamed: 0_level_0,ANO_OCOR,NRO_OCOR,NRO_INT_TIPO_OBJETO,TXT_TIPO_OBJETO,ATRIBUTO,Cor Predominante,Descrição,Peso Total,Peso Unitário,Quantidade de Unidade(s),Tipo de Embalagem,Unidade de Peso,RECLASSIFICAÇÃO,Peso Unitário Rec
CHAVE_OBJETO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
21797108,2019,29702,1025,Drogas,Cor Predominante,Verde,quatro pe sde maconha in natura e com mais de...,0.0,0.0,4,Não soube informar,Tonelada,Maconha,0.0
21614248,2019,763,5,Maconha,Cor Predominante,Marrom,,0.0,0.0,1,Cigarro(s),Tonelada,Maconha,0.0
21642471,2019,10179,5,Maconha,Cor Predominante,Verde,01 SACO CONTENDO PORÇÕES DE VEGETAL SECO SEMEL...,0.0,0.0,1,Porção(es),Tonelada,Maconha,0.0
22224566,2020,70,5,Maconha,Cor Predominante,Verde,"uma tonelada, duzentos e cinquenta e sete quil...",1257980.0,1257980.0,1,Lote(s),Tonelada,Maconha,1257980000000.0
23526068,2021,715,5,Maconha,Cor Predominante,Verde,,7.0,0.0,1,Cigarro(s),Tonelada,Maconha,0.0
