In [1]:
import time
i=time.time()

import warnings
warnings.filterwarnings("ignore")

import pandas as pd
import numpy as np
import seaborn as sns
md_c=None
md_r=7

from sklearn.ensemble import RandomForestClassifier as RFC
RFC=RFC(max_depth=md_c)
from sklearn.ensemble import RandomForestRegressor as RFR
RFR=RFR(max_depth=md_r)
from sklearn import metrics

In [2]:
imp_fert=pd.read_csv('~/git/BD/temp/imp_fert_quanti.csv')
imp_fert.shape

(39719, 7)

In [3]:
imp_fert=imp_fert.groupby(by=['CO_ANO','CO_MES','nick','SG_UF_NCM']).KG_LIQUIDO.sum().reset_index()

# Filtra UF e produtos de interesse específico

In [4]:
imp_fert=imp_fert[(imp_fert.SG_UF_NCM=='BA')]
imp_fert=imp_fert[~imp_fert.nick.isin(['NP_k','NPK_k'])]


imp_fert.shape

(903, 5)

# Salva as reais datas de início e fim dos registros

In [5]:
imp_fert.insert(0,'date',pd.to_datetime(imp_fert.CO_ANO.astype(str)+'/'+imp_fert.CO_MES.astype(str)+'/1'))

date_min=imp_fert.date.min()
date_max=imp_fert.date.max()

In [6]:
imp_fert.info()

<class 'pandas.core.frame.DataFrame'>
Index: 903 entries, 24 to 11063
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   date        903 non-null    datetime64[ns]
 1   CO_ANO      903 non-null    int64         
 2   CO_MES      903 non-null    int64         
 3   nick        903 non-null    object        
 4   SG_UF_NCM   903 non-null    object        
 5   KG_LIQUIDO  903 non-null    float64       
dtypes: datetime64[ns](1), float64(1), int64(2), object(2)
memory usage: 49.4+ KB


In [7]:
imp_fert['code']=imp_fert.nick+'-'+imp_fert.SG_UF_NCM

imp_fert.drop(columns=['nick','SG_UF_NCM'],inplace=True)

In [8]:
filtro=imp_fert[imp_fert.CO_ANO>imp_fert.CO_ANO.max()-6][['code']].astype(str).drop_duplicates()

cols_to_sparse=['CO_ANO','CO_MES','code']

imp_fert[cols_to_sparse]=imp_fert[cols_to_sparse].astype('category')

imp_fert=imp_fert.groupby(by=['CO_ANO','CO_MES','code'], observed=False).KG_LIQUIDO.sum()\
.reset_index()
imp_fert.shape

(1344, 4)

In [9]:
imp_fert[['code']]=imp_fert[['code']].astype(str)
imp_fert.shape

(1344, 4)

In [10]:
imp_fert=imp_fert.merge(filtro)

imp_fert.shape

(1344, 4)

# Corrige bordas da matriz esparsa

In [11]:
imp_fert['date']=pd.to_datetime(imp_fert.CO_ANO.astype(str)+'/'+imp_fert.CO_MES.astype(str)+'/1')

imp_fert=imp_fert[(imp_fert.date>=date_min)&(imp_fert.date<=date_max)]

imp_fert.shape

(1304, 5)

# Diferencia ocorrências reais de não ocorrência*
*registradas com quantidades iguais a zero.

In [12]:
imp_fert=imp_fert.assign(oc=0)

imp_fert.loc[imp_fert.KG_LIQUIDO>0,'oc']=1

In [13]:
imp_fert

Unnamed: 0,CO_ANO,CO_MES,code,KG_LIQUIDO,date,oc
8,1997,3,MAP_k-BA,0.0,1997-03-01,0
9,1997,3,MOP_k-BA,0.0,1997-03-01,0
10,1997,3,SAM_k-BA,6004584.0,1997-03-01,1
11,1997,3,UREIA_k-BA,0.0,1997-03-01,0
12,1997,4,MAP_k-BA,3515344.0,1997-04-01,1
...,...,...,...,...,...,...
1307,2024,3,UREIA_k-BA,22546078.0,2024-03-01,1
1308,2024,4,MAP_k-BA,59518787.0,2024-04-01,1
1309,2024,4,MOP_k-BA,71410352.0,2024-04-01,1
1310,2024,4,SAM_k-BA,20700000.0,2024-04-01,1


# Procede os teste

In [14]:
# Cria df para coletar os resultados do loop
q=pd.DataFrame()
r=pd.DataFrame()

# Inicia loop sobre as datas
for date in imp_fert.date.unique():
    
    # Abre contagem de tempo para o loop externo
    i_p=time.time()
    
    # Filtra deixando passar registros menores ou iguais a data do loop
    imp_fert_t=imp_fert[(imp_fert.date<=date)]

    # Se restarem 10 anos de registro:
    if (imp_fert_t.date.max()-imp_fert_t.date.min()).days/365>=10:

        # Adequa formato da data para processamento ML
        imp_fert_t['date']=imp_fert_t.date.astype(int)


        # CLASSIFCAÇÃO

        cols=['CO_MES','code']
        imp_fert_t[cols]=imp_fert_t[cols].astype('category')
        

        # Transforma categoricos em dummies
        imp_fert_dumm=pd.get_dummies(imp_fert_t,prefix_sep='~')
        
        # Identifica registros para treino e teste
        train_dumm=imp_fert_dumm[imp_fert_dumm.date< imp_fert_dumm.date.max()]
        test_dumm =imp_fert_dumm[imp_fert_dumm.date==imp_fert_dumm.date.max()]
        

        # Identifica X e y classifier
        X_train_c=train_dumm.drop(columns=['KG_LIQUIDO','oc'])
        y_train_c=train_dumm.oc
        
        X_test_c =test_dumm.drop(columns=['KG_LIQUIDO','oc'])
        y_test_c =test_dumm.oc
        
        
        # Fit classifier
        RFC.fit(X_train_c,y_train_c)
        # Predict classifier
        test_pred_c=X_test_c.assign(oc_pred=RFC.predict(X_test_c)).assign(oc=y_test_c)

        q=pd.concat([q,test_pred_c])

        
        
        # REGRESSÃO

        imp_fert_t=imp_fert_t[imp_fert_t.oc==1]

        if len(imp_fert_t[imp_fert_t.date.astype('datetime64[ns]')==date])>0:
    
            # Transforma categoricos em dummies
            imp_fert_dumm=pd.get_dummies(imp_fert_t,prefix_sep='~')
            
            # Identifica registros para treino e teste
            train_dumm=imp_fert_dumm[imp_fert_dumm.date< imp_fert_dumm.date.max()]
            test_dumm =imp_fert_dumm[imp_fert_dumm.date==imp_fert_dumm.date.max()]
    
            # Identifica X e y
            X_train_r=train_dumm.drop(columns=['KG_LIQUIDO','oc'])
            y_train_r=train_dumm.KG_LIQUIDO
            
            X_test_r =test_dumm.drop(columns=['KG_LIQUIDO','oc'])
            y_test_r =test_dumm.KG_LIQUIDO
            
            # Fit regressor
            RFR.fit(X_train_r,y_train_r)
            
            # Predict classifier
            test_pred_r=X_test_r.assign(kg_pred=RFR.predict(X_test_r)).assign(KG_LIQUIDO=y_test_r)

            r=pd.concat([r,test_pred_r])
        
        
    
    f_p=time.time()
    print(f"Date {date.date()} : Parcial:{round((f_p-i_p)/60,3)} minutos.")

Date 1997-03-01 : Parcial:0.0 minutos.
Date 1997-04-01 : Parcial:0.0 minutos.
Date 1997-05-01 : Parcial:0.0 minutos.
Date 1997-06-01 : Parcial:0.0 minutos.
Date 1997-07-01 : Parcial:0.0 minutos.
Date 1997-08-01 : Parcial:0.0 minutos.
Date 1997-09-01 : Parcial:0.0 minutos.
Date 1997-10-01 : Parcial:0.0 minutos.
Date 1997-11-01 : Parcial:0.0 minutos.
Date 1997-12-01 : Parcial:0.0 minutos.
Date 1998-01-01 : Parcial:0.0 minutos.
Date 1998-02-01 : Parcial:0.0 minutos.
Date 1998-03-01 : Parcial:0.0 minutos.
Date 1998-04-01 : Parcial:0.0 minutos.
Date 1998-05-01 : Parcial:0.0 minutos.
Date 1998-06-01 : Parcial:0.0 minutos.
Date 1998-07-01 : Parcial:0.0 minutos.
Date 1998-08-01 : Parcial:0.0 minutos.
Date 1998-09-01 : Parcial:0.0 minutos.
Date 1998-10-01 : Parcial:0.0 minutos.
Date 1998-11-01 : Parcial:0.0 minutos.
Date 1998-12-01 : Parcial:0.0 minutos.
Date 1999-01-01 : Parcial:0.0 minutos.
Date 1999-02-01 : Parcial:0.0 minutos.
Date 1999-03-01 : Parcial:0.0 minutos.
Date 1999-04-01 : Parcial

In [15]:
f=time.time()
d=f-i
print(f"Duração de {round(d/60)} minutos.")

Duração de 1 minutos.


In [16]:
def f_dumm(df_dumm):
    a=pd.from_dummies(df_dumm.select_dtypes(include='bool'),sep='~')
    b=df_dumm.select_dtypes(exclude='bool')
    c=pd.concat([a,b],axis=1)
    return c

In [17]:
q=f_dumm(q)

In [18]:
r=f_dumm(r)

In [19]:
q

Unnamed: 0,CO_ANO,CO_MES,code,date,oc_pred,oc
488,2007,3,MAP_k-BA,1172707200000000000,1,0
489,2007,3,MOP_k-BA,1172707200000000000,1,1
490,2007,3,SAM_k-BA,1172707200000000000,1,1
491,2007,3,UREIA_k-BA,1172707200000000000,0,0
492,2007,4,MAP_k-BA,1175385600000000000,1,0
...,...,...,...,...,...,...
1307,2024,3,UREIA_k-BA,1709251200000000000,1,1
1308,2024,4,MAP_k-BA,1711929600000000000,1,1
1309,2024,4,MOP_k-BA,1711929600000000000,1,1
1310,2024,4,SAM_k-BA,1711929600000000000,1,1


In [20]:
q.merge(r,how='outer').to_csv('~/git/BD/temp/q_code_g.csv',index=False)