In [1]:
import sys
from pathlib import Path

project_path = Path().resolve().parent
sys.path.append(str(project_path))

In [2]:
import pandas as pd
import plotly.express as px

from datetime import datetime
from statsmodels.tsa.seasonal import seasonal_decompose

from fetch_data import create_denfensivos_agricolas_df

In [3]:
COLUMNS_TO_REMOVE = [
    "valor_fob_usd",
    "valor_frete_usd",
    "valor_frete_usd",
    "valor_cif_usd",
    "qtd_estatistica",
    "valor_seguro_usd",
]

## 1. **Pre-processing**

In [4]:
df_pest = create_denfensivos_agricolas_df()



In [63]:
df_pest_explore = df_pest.drop(columns=COLUMNS_TO_REMOVE).copy()
df_pest_explore.head()

Unnamed: 0,ano,mes,pais,estado,via_de_transporte,unidade_receita_federal,id_ncm,descritor_ncm,unidade_medida,peso_liq_kg,class
0,2024,10,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089329,Outros herbicidas apresentados de outro modo,QUILOGRAMA LIQUIDO,18907628,OTHERS
1,2024,10,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089324,"Herbicida à base de glifosato ou seus sais, de...",QUILOGRAMA LIQUIDO,22475354,OTHERS
2,2024,6,Estados Unidos,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089199,"Outros inseticidas, apresentados de outro modo",QUILOGRAMA LIQUIDO,642837,OTHERS
3,2024,7,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089329,Outros herbicidas apresentados de outro modo,QUILOGRAMA LIQUIDO,12113051,OTHERS
4,2024,8,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089329,Outros herbicidas apresentados de outro modo,QUILOGRAMA LIQUIDO,15503590,OTHERS


In [64]:
df_pest_explore["descritor_ncm"].nunique(), df_pest_explore["id_ncm"].nunique()

(98, 113)

### Lower description strings

In [65]:
df_pest_explore["descritor_ncm"] = df_pest_explore["descritor_ncm"].str.lower()

### Enforce dtypes

In [66]:
df_pest_explore["peso_liq_kg"] = df_pest_explore["peso_liq_kg"].astype(float)

In [67]:
df_pest_explore.dtypes

ano                         object
mes                         object
pais                        object
estado                      object
via_de_transporte           object
unidade_receita_federal     object
id_ncm                      object
descritor_ncm               object
unidade_medida              object
peso_liq_kg                float64
class                       object
dtype: object

### Add dt column

In [68]:
df_pest_explore["dt"] = pd.to_datetime(df_pest_explore['ano'] + '-' + df_pest_explore['mes'] + '-01')


In [69]:
df_pest_explore.loc[:, "extracted_at"] = datetime.today()


In [70]:
date_cols_to_drop = ["ano", "mes"]

In [71]:
df_pest_explore = df_pest_explore.drop(columns=date_cols_to_drop)
df_pest_explore.head()

Unnamed: 0,pais,estado,via_de_transporte,unidade_receita_federal,id_ncm,descritor_ncm,unidade_medida,peso_liq_kg,class,dt,extracted_at
0,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089329,outros herbicidas apresentados de outro modo,QUILOGRAMA LIQUIDO,18907628.0,OTHERS,2024-10-01,2025-01-17 19:11:22.476023
1,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089324,"herbicida à base de glifosato ou seus sais, de...",QUILOGRAMA LIQUIDO,22475354.0,OTHERS,2024-10-01,2025-01-17 19:11:22.476023
2,Estados Unidos,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089199,"outros inseticidas, apresentados de outro modo",QUILOGRAMA LIQUIDO,642837.0,OTHERS,2024-06-01,2025-01-17 19:11:22.476023
3,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089329,outros herbicidas apresentados de outro modo,QUILOGRAMA LIQUIDO,12113051.0,OTHERS,2024-07-01,2025-01-17 19:11:22.476023
4,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089329,outros herbicidas apresentados de outro modo,QUILOGRAMA LIQUIDO,15503590.0,OTHERS,2024-08-01,2025-01-17 19:11:22.476023


### Check duplicates and nans

In [72]:
df_pest_explore.isna().any()

pais                       False
estado                     False
via_de_transporte          False
unidade_receita_federal    False
id_ncm                     False
descritor_ncm              False
unidade_medida             False
peso_liq_kg                False
class                      False
dt                         False
extracted_at               False
dtype: bool

In [73]:
df_pest_explore.duplicated().any()

np.False_

### Create class map

In [74]:
# one hot categories
df_pest_explore["is_domissanitario"] = False
df_pest_explore["is_herbicide"] = False
df_pest_explore["is_inseticide"] = False
df_pest_explore["is_fungicide"] = False
df_pest_explore["is_ddt"] = False
df_pest_explore["is_ddt"] = False

domissanit_cond = df_pest_explore["descritor_ncm"].str.contains("domissanit")
df_pest_explore.loc[domissanit_cond, "is_domissanitario"] = True

herbicide_cond = df_pest_explore["descritor_ncm"].str.contains("herbicida|germina")
df_pest_explore.loc[herbicide_cond, "is_herbicide"] = True

inseticide_cond = df_pest_explore["descritor_ncm"].str.contains("inseticid")
df_pest_explore.loc[inseticide_cond, "is_inseticide"] = True

fungicide_cond = df_pest_explore["descritor_ncm"].str.contains("fungicid")
df_pest_explore.loc[fungicide_cond, "is_fungicide"] = True

ddt_cond = df_pest_explore["descritor_ncm"].str.contains("ddt")
df_pest_explore.loc[ddt_cond, "is_ddt"] = True

In [76]:
df_pest_explore["is_multiple_categories"] = False

pesticide_classes_cols = ["is_herbicide", "is_inseticide", "is_fungicide"]
multiple_cond = df_pest_explore[pesticide_classes_cols].sum(axis=1) > 1
df_pest_explore.loc[multiple_cond, "is_multiple_categories"] = True

In [77]:
df_pest_explore.head()

Unnamed: 0,pais,estado,via_de_transporte,unidade_receita_federal,id_ncm,descritor_ncm,unidade_medida,peso_liq_kg,class,dt,extracted_at,is_domissanitario,is_herbicide,is_inseticide,is_fungicide,is_ddt,is_multiple_categories
0,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089329,outros herbicidas apresentados de outro modo,QUILOGRAMA LIQUIDO,18907628.0,OTHERS,2024-10-01,2025-01-17 19:11:22.476023,False,True,False,False,False,False
1,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089324,"herbicida à base de glifosato ou seus sais, de...",QUILOGRAMA LIQUIDO,22475354.0,OTHERS,2024-10-01,2025-01-17 19:11:22.476023,False,True,False,False,False,False
2,Estados Unidos,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089199,"outros inseticidas, apresentados de outro modo",QUILOGRAMA LIQUIDO,642837.0,OTHERS,2024-06-01,2025-01-17 19:11:22.476023,False,False,True,False,False,False
3,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089329,outros herbicidas apresentados de outro modo,QUILOGRAMA LIQUIDO,12113051.0,OTHERS,2024-07-01,2025-01-17 19:11:22.476023,False,True,False,False,False,False
4,China,São Paulo,MARITIMA,0817800 - PORTO DE SANTOS,38089329,outros herbicidas apresentados de outro modo,QUILOGRAMA LIQUIDO,15503590.0,OTHERS,2024-08-01,2025-01-17 19:11:22.476023,False,True,False,False,False,False


array(['HERBICIDES', 'INSETICIDES', 'FUNGICIDES', 'OTHERS', 'DDT'],
      dtype=object)

In [17]:
df_pest_explore.to_csv("./2025_01_06_processed_export_data.csv")

## 2. **Resampling, Aggregating**

In [16]:
value_keys = ["peso_liq_kg"] 
# resample_key = "dt"
# valid_grouper_keys = ["pais", "estado", "via_de_transporte", "id_ncm", "class"]
grouper_keys = ["dt", "class"]

_df_keys = value_keys + grouper_keys

In [17]:
grouped_df = df_pest_explore[_df_keys].groupby(grouper_keys).sum().reset_index()
grouped_df.head()

Unnamed: 0,dt,class,peso_liq_kg
0,1997-01-01,DESINFETANTES,62556.0
1,1997-01-01,FUNGICIDES,220946.0
2,1997-01-01,HERBICIDES,620160.0
3,1997-01-01,OTHERS,23288.0
4,1997-01-01,PESTICIDES,593550.0


In [18]:
fig = px.bar(
    grouped_df,
    x="dt",
    y="peso_liq_kg",
    color="class"
)

fig.show()

In [19]:
# monthly_ts_df = df_pest_explore[_df_keys].resample("ME", on=resample_key).sum()
# monthly_ts_df

In [None]:
# decomposed_ts = seasonal_decompose(monthly_ts_df)

In [None]:
# decomposed_ts.plot()