In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

In [2]:
# Loading dataset
file_path = "../Dados/wfp_food_prices_moz.csv"
dados = pd.read_csv(file_path)

In [3]:
# Creating date column
dados['date'] = pd.to_datetime(dados['year'].astype(str) + '-' + dados['month'].astype(str) + '-01')

In [4]:
# Ordering by date
dados = dados.sort_values('date')

In [5]:
# Removing columns that will not be directly used
colunas_para_manter = [ 'province', 'district', 'market', 'category', 'commodity', 'unit', 
    'pricetype', 'price(MZN)', 'date' ]
dados = dados[colunas_para_manter]

In [6]:
# Remove lines with null price
dados = dados.dropna(subset=['price(MZN)'])

In [7]:
# Encode categorical variables 
label_cols = ['province', 'district', 'market', 'category', 'commodity', 'unit', 'pricetype']
label_encoders = {}

for col in label_cols:
    le = LabelEncoder()
    dados[col] = le.fit_transform(dados[col].astype(str))
    label_encoders[col] = le  # save encoder for future use

In [8]:
# Creating adicional features
# Ex: month, year, time trend

dados['month'] = dados['date'].dt.month
dados['year'] = dados['date'].dt.year

In [9]:
# Feature: number os months since start 
dados['month_id'] = (dados['year'] - dados['year'].min()) * 12 + dados['month']

In [11]:
# Visualize prepared data
print(dados.head())
print("\nColunas disponíveis para modelagem:", dados.columns.tolist())

   province  district  market  category  commodity  unit  pricetype  \
0         5        22      51         0         27     4          0   
1         1        16      21         0         27     4          0   
2         1        16      21         0         27     4          0   
3         5        22      51         0         27     4          0   
4         2        53      57         0         27     4          0   

   price(MZN)       date  month  year  month_id  
0        1.34 1992-11-01     11  1992        11  
1        1.53 1992-12-01     12  1992        12  
2        1.67 1993-01-01      1  1993        13  
3        1.86 1993-01-01      1  1993        13  
4        2.72 1993-02-01      2  1993        14  

Colunas disponíveis para modelagem: ['province', 'district', 'market', 'category', 'commodity', 'unit', 'pricetype', 'price(MZN)', 'date', 'month', 'year', 'month_id']
