In [17]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import plotly.express as px

# Membaca dataset
df = pd.read_csv('Global_Dataset_of_Inflation_2.csv')

# Memilih kolom yang diperlukan untuk prediksi
features = ['2016', '2017', '2018', '2019', '2020', '2021']
target = '2022'

# Menghapus baris yang memiliki nilai kosong
df_clean = df.dropna(subset=features + [target])

# Memisahkan data menjadi data training dan data testing
X = df_clean[features]
y = df_clean[target]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Membuat model Random Forest Regression
model = RandomForestRegressor()

# Melakukan fitting model pada data training
model.fit(X_train, y_train)

# Memprediksi tingkat inflasi untuk tahun berikutnya menggunakan data testing
prediksi = model.predict(X_test)

# Menghitung mean squared error (MSE) sebagai evaluasi model
mse = mean_squared_error(y_test, prediksi)
print(f"Mean Squared Error: {mse}")

# Membuat dataframe untuk hasil prediksi
df_prediksi = pd.DataFrame({'Aktual': y_test.values, 'Prediksi': prediksi})

# Visualisasi hasil prediksi menggunakan Plotly
fig = px.line(df_prediksi, title='Prediksi Tingkat Inflasi')
fig.update_layout(xaxis_title='Index Data', yaxis_title='Tingkat Inflasi')
fig.show()

Mean Squared Error: 44.49102727153843


In [9]:
import pandas as pd
import plotly.express as px
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import SimpleImputer

# Membaca dataset inflasi ke dalam DataFrame
df = pd.read_csv("Global_Dataset_of_Inflation_2.csv")

# Menghapus kolom-kolom yang tidak diperlukan
df = df[['country', 'continent', '2016', '2017', '2018', '2019', '2020', '2021', '2022']]

# Melakukan encoding pada kolom "continent"
encoder = LabelEncoder()
df['continent_encoded'] = encoder.fit_transform(df['continent'])

# Membagi dataset menjadi data training dan data testing
train_data = df[df['2022'].notna()]
test_data = df[df['2022'].isna()]

# Membuat model Random Forest
model = RandomForestRegressor()

# Mengisi nilai yang hilang dengan nilai yang paling sering muncul (mode)
imputer = SimpleImputer(strategy='most_frequent')
train_data_imputed = imputer.fit_transform(train_data)
test_data_imputed = imputer.transform(test_data)

# Mengambil fitur dan target pada data training
train_X = train_data_imputed[:, [2, 3, 4, 5, 6, 7]]
train_y = train_data_imputed[:, 9]

# Melakukan fitting model pada data training
model.fit(train_X, train_y)

# Mengambil fitur pada data testing
test_X = test_data_imputed[:, [2, 3, 4, 5, 6, 7]]

# Memprediksi inflasi untuk tahun berikutnya
predictions = model.predict(test_X)
    
# Menyimpan hasil prediksi inflasi pada DataFrame pred_data
pred_data['Continent'] = pred_data['Continent'].astype(str)


# Melakukan visualisasi menggunakan Plotly
fig = px.line(pred_data, x='Year', y='Predicted_Inflation', color='Continent',
              labels={'Year': 'Year', 'Predicted_Inflation': 'Predicted Inflation'},
              title='Predicted Inflation by Continent for Next Year')
fig.show()


In [15]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
import plotly.express as px

# Membaca dataset
df = pd.read_csv('Global_Dataset_of_Inflation_2.csv')

# Memilih kolom yang diperlukan untuk prediksi
features = ['2016', '2017', '2018', '2019', '2020', '2021']
target = '2022'

# Menghapus baris yang memiliki nilai kosong
df_clean = df.dropna(subset=features + [target])

# Mengkodekan kolom "continent" menggunakan one-hot encoding
categorical_feature = 'continent'
encoder = OneHotEncoder(sparse=False, handle_unknown='ignore')
encoded_countries = encoder.fit_transform(df_clean[[categorical_feature]])

# Membuat nama kolom baru untuk setiap kategori pada kolom "continent"
column_names = [f"{categorical_feature}_{category}" for category in encoder.categories_[0]]

# Membuat dataframe hasil encoding
encoded_df = pd.DataFrame(encoded_countries, columns=column_names)

# Menggabungkan dataframe encoded_df dengan dataframe df_clean
df_encoded = pd.concat([df_clean[features + [target]], encoded_df], axis=1)

# Memisahkan data menjadi data training dan data testing
X = df_encoded.drop(target, axis=1)
y = df_encoded[target]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Mengisi nilai yang hilang dengan median
numeric_features = ['2016', '2017', '2018', '2019', '2020', '2021']
imputer = SimpleImputer(strategy='median')
X_train[numeric_features] = imputer.fit_transform(X_train[numeric_features])
X_test[numeric_features] = imputer.transform(X_test[numeric_features])

# Membuat model Random Forest Regression
model = RandomForestRegressor()

# Melakukan fitting model pada data training
model.fit(X_train, y_train)

# Memprediksi tingkat inflasi untuk tahun berikutnya menggunakan data testing
predictions = model.predict(X_test)

# Menghitung mean squared error (MSE) sebagai evaluasi model
mse = mean_squared_error(y_test, predictions)
print(f"Mean Squared Error: {mse}")

# Membuat dataframe untuk hasil prediksi
df_predictions = pd.DataFrame({'Actual': y_test.values, 'Predicted': predictions})

# Menambahkan kolom "Year" pada dataframe hasil prediksi
df_predictions['Year'] = X_test.index

# Visualisasi hasil prediksi menggunakan Plotly
fig = px.line(df_predictions, x='Year', y=['Actual', 'Predicted'], title='Prediction of Inflation')
fig.show()



`sparse` was renamed to `sparse_output` in version 1.2 and will be removed in 1.4. `sparse_output` is ignored unless you leave `sparse` to its default value.



ValueError: ignored