In [1]:
# importação e possíveis ajustes
import pandas as pd 
import numpy as np
# preparação dos modelos
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler
# testes de modelos

### 1 - Importação e Ajustes iniciais

In [2]:
df = pd.read_csv(r'C:\Users\ednae\OneDrive\Documentos\Repositórios\TCC\data_processed\new\top_20.csv',index_col = [0])
df.reset_index(drop=True,inplace=True)

In [3]:
df['data'] = pd.to_datetime(df['data'])

In [4]:
df.columns

Index(['Código UG_x', 'Código Modalidade Compra_x', 'Código Órgão_x',
       'Descrição', 'Quantidade Item', 'Código Vencedor',
       'Código Órgão Superior', 'Município', 'data', 'Total',
       'valor_individual', 'UF'],
      dtype='object')

In [5]:
df.head(2)

Unnamed: 0,Código UG_x,Código Modalidade Compra_x,Código Órgão_x,Descrição,Quantidade Item,Código Vencedor,Código Órgão Superior,Município,data,Total,valor_individual,UF
0,782801,6,52131,FIO DE SUTURA,5,14683163000120,52000,JUIZ DE FORA,2022-03-23,300.0,64.11,MG
1,782801,6,52131,FIO DE SUTURA,5,14683163000120,52000,RIO DE JANEIRO,2022-05-27,135.0,64.11,RJ


#### 1.1: Divisão dos dados

In [6]:
cat_cols = [
    'Descrição','Município','UF'
]

### 2 - Pré-Processamento
- Correção de tipos
- Correção de faltantes
- Encoding

In [7]:
df.drop(cat_cols,axis=1).dtypes

Código UG_x                            int64
Código Modalidade Compra_x             int64
Código Órgão_x                         int64
Quantidade Item                        int64
Código Vencedor                        int64
Código Órgão Superior                  int64
data                          datetime64[ns]
Total                                float64
valor_individual                     float64
dtype: object

#### 2.1: Arrumando data
- Código responsável pelo encoding
    - Encoding Cíclico
- Incorporação no dataset

In [8]:
def encode(data, col, max_val):
    data[col + '_sin'] = np.sin(2 * np.pi * data[col]/max_val)
    data[col + '_cos'] = np.cos(2 * np.pi * data[col]/max_val)
    return data

In [9]:
df['mes'] = df.data.dt.month
df = encode(df,'mes',12)

df['dia'] = df.data.dt.day
df = encode(df, 'dia', 31)

df['ano'] = df.data.dt.year

df.head()

Unnamed: 0,Código UG_x,Código Modalidade Compra_x,Código Órgão_x,Descrição,Quantidade Item,Código Vencedor,Código Órgão Superior,Município,data,Total,valor_individual,UF,mes,mes_sin,mes_cos,dia,dia_sin,dia_cos,ano
0,782801,6,52131,FIO DE SUTURA,5,14683163000120,52000,JUIZ DE FORA,2022-03-23,300.0,64.11,MG,3,1.0,6.123234000000001e-17,23,-0.998717,-0.050649,2022
1,782801,6,52131,FIO DE SUTURA,5,14683163000120,52000,RIO DE JANEIRO,2022-05-27,135.0,64.11,RJ,5,0.5,-0.8660254,27,-0.724793,0.688967,2022
2,782801,6,52131,FIO DE SUTURA,5,14683163000120,52000,JUIZ DE FORA,2022-03-23,300.0,66.09,MG,3,1.0,6.123234000000001e-17,23,-0.998717,-0.050649,2022
3,782801,6,52131,FIO DE SUTURA,5,14683163000120,52000,RIO DE JANEIRO,2022-05-27,135.0,66.09,RJ,5,0.5,-0.8660254,27,-0.724793,0.688967,2022
4,782801,6,52131,FIO DE SUTURA,1,14683163000120,52000,JUIZ DE FORA,2022-03-23,300.0,51.26,MG,3,1.0,6.123234000000001e-17,23,-0.998717,-0.050649,2022


In [10]:
df.head(2)

Unnamed: 0,Código UG_x,Código Modalidade Compra_x,Código Órgão_x,Descrição,Quantidade Item,Código Vencedor,Código Órgão Superior,Município,data,Total,valor_individual,UF,mes,mes_sin,mes_cos,dia,dia_sin,dia_cos,ano
0,782801,6,52131,FIO DE SUTURA,5,14683163000120,52000,JUIZ DE FORA,2022-03-23,300.0,64.11,MG,3,1.0,6.123234000000001e-17,23,-0.998717,-0.050649,2022
1,782801,6,52131,FIO DE SUTURA,5,14683163000120,52000,RIO DE JANEIRO,2022-05-27,135.0,64.11,RJ,5,0.5,-0.8660254,27,-0.724793,0.688967,2022


#### 2.2 Conferência de faltantes
- Numéricos
- Categóricos

In [11]:
for i in df.drop(cat_cols,axis=1):
    print(i, df[i].isnull().sum())

Código UG_x 0
Código Modalidade Compra_x 0
Código Órgão_x 0
Quantidade Item 0
Código Vencedor 0
Código Órgão Superior 0
data 0
Total 0
valor_individual 0
mes 0
mes_sin 0
mes_cos 0
dia 0
dia_sin 0
dia_cos 0
ano 0


In [12]:
for i in df[cat_cols]:
    print(i, df[i].isnull().sum())

Descrição 0
Município 0
UF 0


#### Encoding

In [13]:
encoder = LabelEncoder()

for i in cat_cols:
    df[i] = encoder.fit_transform(df[i])

In [14]:
df.head(1)

Unnamed: 0,Código UG_x,Código Modalidade Compra_x,Código Órgão_x,Descrição,Quantidade Item,Código Vencedor,Código Órgão Superior,Município,data,Total,valor_individual,UF,mes,mes_sin,mes_cos,dia,dia_sin,dia_cos,ano
0,782801,6,52131,4,5,14683163000120,52000,57,2022-03-23,300.0,64.11,8,3,1.0,6.123234000000001e-17,23,-0.998717,-0.050649,2022


In [15]:
np.array([1,2,3]).reshape(1,-1)

array([[1, 2, 3]])

In [16]:
cat_cols.extend(['mes_sin','mes_cos','dia_sin','dia_cos'])

In [17]:
minmax = MinMaxScaler()
for i in df.drop(cat_cols,axis=1).columns:
    array = np.array(df[i])
    df[i] = minmax.fit_transform(array.reshape(-1,1))

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21373 entries, 0 to 21372
Data columns (total 19 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Código UG_x                 21373 non-null  float64
 1   Código Modalidade Compra_x  21373 non-null  float64
 2   Código Órgão_x              21373 non-null  float64
 3   Descrição                   21373 non-null  int32  
 4   Quantidade Item             21373 non-null  float64
 5   Código Vencedor             21373 non-null  float64
 6   Código Órgão Superior       21373 non-null  float64
 7   Município                   21373 non-null  int32  
 8   data                        21373 non-null  float64
 9   Total                       21373 non-null  float64
 10  valor_individual            21373 non-null  float64
 11  UF                          21373 non-null  int32  
 12  mes                         21373 non-null  float64
 13  mes_sin                     213

In [19]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Código UG_x,21373.0,0.106152,0.175467,0.0,0.05389675,0.062446,0.062953,1.0
Código Modalidade Compra_x,21373.0,0.092432,0.287135,0.0,0.0,0.0,0.0,1.0
Código Órgão_x,21373.0,0.278884,0.175244,0.0,0.08908143,0.226824,0.451113,1.0
Descrição,21373.0,5.864642,3.547553,0.0,3.0,5.0,8.0,13.0
Quantidade Item,21373.0,0.00056,0.011014,0.0,1.357466e-06,9e-06,9.3e-05,1.0
Código Vencedor,21373.0,0.219614,0.186394,0.0,0.07953096,0.176179,0.336659,1.0
Código Órgão Superior,21373.0,0.465278,0.28582,0.0,0.1395349,0.55814,0.744186,1.0
Município,21373.0,68.423431,32.015396,0.0,39.0,87.0,94.0,111.0
data,21373.0,0.577074,0.193636,0.0,0.4985549,0.580925,0.680636,1.0
Total,21373.0,0.006326,0.034023,0.0,6.889732e-05,0.000385,0.002026,1.0


In [21]:
data = df.drop(['data','dia','mes'],axis=1)

In [22]:
data.to_csv('processed_4models.csv')