# <b>A. <span style='color:#3A6D8C'>Introduction</span></b>

Analisis regresi adalah teknik statistik yang digunakan untuk memahami hubungan antara satu atau lebih variabel independen dan satu variabel dependen. Tujuannya adalah untuk memodelkan dan memprediksi nilai variabel dependen berdasarkan nilai variabel independen. Ada beberapa jenis analisis regresi, seperti:

* Regresi Linear Sederhana: Menganalisis hubungan antara satu variabel independen dan satu variabel dependen dengan menggunakan garis lurus.
* Regresi Linear Berganda: Menganalisis hubungan antara beberapa variabel independen dan satu variabel dependen.
* Regresi Non-Linear: Digunakan ketika hubungan antara variabel tidak linier.
* Regresi Logistik: Digunakan ketika variabel dependen bersifat kategorikal, seperti ya/tidak.

Dengan analisis regresi, kita bisa mengidentifikasi faktor-faktor yang mempengaruhi hasil tertentu dan membuat prediksi berdasarkan data yang ada.

# <b>B. <span style='color:#3A6D8C'>Data Digunakan</span></b>

<img src="https://sdgs.uib.ac.id/wp-content/uploads/2023/10/Goal-1.webp" width="60%">

`No Poverty` adalah salah satu tujuan dari Sustainable Development Goals (SDGs) yang dicanangkan oleh PBB. Tujuan ini bertujuan untuk mengakhiri kemiskinan dalam segala bentuk di seluruh dunia pada tahun 2030. Beberapa targetnya meliputi:

* Mengurangi jumlah orang yang hidup dalam kemiskinan ekstrem (yang hidup dengan kurang dari $1,90 per hari).
* Menyediakan akses bagi semua orang terhadap sumber daya ekonomi, termasuk kepemilikan dan kontrol atas tanah, properti, dan sumber daya alam.
* Meningkatkan ketahanan orang yang hidup dalam kemiskinan dengan memperkuat kapasitas mereka untuk menghadapi berbagai risiko.

Indonesia telah membuat kemajuan dalam mengurangi tingkat kemiskinan dalam beberapa tahun terakhir, tetapi masih menghadapi tantangan. Untuk itu perlu dilakukan analisa lebih dalam mengenai apa saja faktor yang mempengaruhi tingkat kemiskinan di Indonesia. Data yang digunakan bersumber dari Badan Pusat Statistik dengan data yang diambil meliputi Angka Harapan Hidup, Pengeluaran Per Kapita dan Rata-Rata Lama Sekolah di tahun 2023.

### <b>B.1. <span style='color:#55679C'>Ekstrak Data</span></b>

In [None]:
import warnings
import numpy as np

warnings.filterwarnings("ignore")

In [None]:
# Import library yang digunakan
import pandas as pd

# Proses ekstraksi data
data_kemiskinan = pd.read_excel('data_kemiskinan.xlsx')

# Tampilkan hasilnya
data_kemiskinan

Unnamed: 0,provinsi,tahun,angka_harapan_hidup,pengeluaran_per_kapita,rataan_lama_sekolah,presentase_penduduk_merokok,presentase_penduduk_miskin
0,ACEH,2023,70.385,10334000,9.55,28.66,14.45
1,SUMATERA UTARA,2023,70.03,11049000,9.82,26.28,8.15
2,SUMATERA BARAT,2023,70.24,11380000,9.28,30.42,5.95
3,RIAU,2023,72.285,11448000,9.32,27.76,6.68
4,JAMBI,2023,71.82,11160000,8.81,28.67,7.58
5,SUMATERA SELATAN,2023,70.71,11472000,8.5,30.91,11.78
6,BENGKULU,2023,69.965,11172000,9.03,31.86,14.04
7,LAMPUNG,2023,71.295,10769000,8.29,34.08,11.11
8,KEP. BANGKA BELITUNG,2023,71.28,13589000,8.25,27.33,4.52
9,KEP. RIAU,2023,70.965,14998000,10.41,25.49,5.69


### <b>B.2. <span style='color:#55679C'>Informasi Umum pada Data</span></b>

In [None]:
# Informasi umum data
data_kemiskinan.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34 entries, 0 to 33
Data columns (total 7 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   provinsi                     34 non-null     object 
 1   tahun                        34 non-null     int64  
 2   angka_harapan_hidup          34 non-null     float64
 3   pengeluaran_per_kapita       34 non-null     int64  
 4   rataan_lama_sekolah          34 non-null     float64
 5   presentase_penduduk_miskin   34 non-null     float64
 6   presentase_penduduk_merokok  34 non-null     float64
dtypes: float64(4), int64(2), object(1)
memory usage: 2.0+ KB


# <b>C. <span style='color:#3A6D8C'>Exploratory Data Analysis</span></b>

### <b>C.1. <span style='color:#55679C'>Statistik Deskriptif</span></b>

In [None]:
# Ambil data angka
number_data = data_kemiskinan.select_dtypes(include = 'number').drop(columns = 'tahun')

# Hitung statistik deskriptif
statistics = pd.DataFrame({
    'mean' : number_data.mean().round(2),
    'median': number_data.median(),
    'modus': number_data.mode().iloc[0],
    'min': number_data.min(),
    'max': number_data.max(),
    'q1' : number_data.quantile(0.25),
    'q2' : number_data.quantile(0.50),
    'q3' : number_data.quantile(0.75),
    'stdev' : number_data.std().round(2)
})

# Tampilkan hasilnya
display(statistics.T)

Unnamed: 0,angka_harapan_hidup,pengeluaran_per_kapita,rataan_lama_sekolah,presentase_penduduk_merokok,presentase_penduduk_miskin
mean,70.75,11470323.53,8.93,27.24,10.09
median,70.8925,11276000.0,8.895,27.285,8.425
modus,66.055,7562000.0,7.15,25.3,4.25
min,66.055,7562000.0,7.15,18.9,4.25
max,75.215,19373000.0,11.45,34.08,26.03
q1,69.2825,10125000.0,8.16,25.3,6.24
q2,70.8925,11276000.0,8.895,27.285,8.425
q3,72.25375,12285250.0,9.4225,28.8275,12.2525
stdev,2.42,2265361.96,0.91,3.38,5.18


### <b>C.2. <span style='color:#55679C'>Korelasi</span></b>

In [None]:
# Import library yang dibutuhkan
import plotly.express as px

# Hitung korelasi
korelasi = number_data.corr('pearson')

# Buat Heat Map
fig = px.imshow(
    korelasi,
    text_auto = True,
    color_continuous_scale = 'Blues'
)

# Jangan tampilkan color axes / legend
fig.update_coloraxes(
    showscale = False
)

# Percantik tampilan
fig.update_layout(
    width = 800,
    height = 800,
    title = dict(
        text = "<b>Korelasi Antar Variable pada Data</b>",
        font = dict(
            size = 30,
            color = '#0E2954'
        ),
        y = 0.94,
        x = 0.5
    )
)

# Tampilkan hasil visualisasi
fig.show(renderer = 'colab')

### <b>C.3. <span style='color:#55679C'>Outlier</span></b>

In [None]:
# Histogram Sales
import plotly.express as px

col_name = number_data.columns
color_name = ['#FF8F00', '#AF47D2', '#FFDB00', '#FFAD60', '#7E60BF']

for column, color in zip(col_name, color_name):
    fig = px.box(
        data_kemiskinan,
        x = column,
        color_discrete_sequence  = [color],
    )

    fig.update_traces(
          marker_line_width = 1,
          marker_line_color = 'white'
    )

    fig.update_layout(
        width = 1000,
        height = 600,
        plot_bgcolor = 'rgba(0, 0, 0, 0)',
        title = dict(
            text = f"<b>Box Plot<br><span style='color:{color}; font-size: 15px;'>{column}</b>",
            font = dict(
                size = 28,
                color = '#757882'
            ),
            y = 0.92,
            x = 0.5
        ),
        yaxis = dict(
            title = '',
            showgrid = False,
            showline = False,
            showticklabels = False,
            zeroline = False,
        ),
        margin = dict(
            t = 80,
            b = 10,
            r = 20
        )
    )

    fig.show(renderer = 'colab')

In [None]:
def replace_outliers_iqr(df):

    # Menghitung Q1 dan Q3
    Q1 = df.quantile(0.25)
    Q3 = df.quantile(0.75)
    IQR = Q3 - Q1

    # Menentukan batas bawah dan atas
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    # Mengganti outlier
    df = np.select(
        [df > upper_bound, df < lower_bound],
        [upper_bound, lower_bound],
        default = df
    )

    return df

In [None]:
for col in number_data.columns :
    number_data[col] = replace_outliers_iqr(number_data[col])

In [None]:
import plotly.express as px

fig = px.box(
    number_data,
    x = 'pengeluaran_per_kapita',
    color_discrete_sequence  = [color],
)

fig.show(renderer = 'colab')

# <b>D. <span style='color:#3A6D8C'>Proses Modelling</span></b>

### <b>D.1. <span style='color:#55679C'>Split Data</span></b>

In [None]:
from sklearn.model_selection import train_test_split

# Definisikan variabel terikat dan bebas
X = number_data.drop('presentase_penduduk_miskin', axis=1)   # Variabel independen
y = number_data['presentase_penduduk_miskin']                # Variabel dependen

# Membagi data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [None]:
print(f'Jumlah data train : {X_train.shape}')
print(f'Jumlah data test  : {X_test.shape}')

Jumlah data train : (27, 4)
Jumlah data test  : (7, 4)


### <b>D.2. <span style='color:#55679C'>Scaling Data</span></b>

In [None]:
from sklearn.preprocessing import MinMaxScaler

# Definisikan objek scaler
scaler = MinMaxScaler()

# Scaling fitur
X_train_scaled = pd.DataFrame(
    scaler.fit_transform(X_train),
    columns = X_train.columns
)

y_train_scaled = pd.DataFrame(
    scaler.fit_transform(y_train.to_frame()),
    columns = ['y_train']
)

X_test_scaled = pd.DataFrame(
    scaler.fit_transform(X_test),
    columns = X_test.columns
)

y_test_scaled = pd.DataFrame(
    scaler.fit_transform(y_test.to_frame()),
    columns = ['y_test']
)

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score

# 4. Buat Model
model = LinearRegression()

# 5. Latih Model
model.fit(X_train_scaled, y_train_scaled)

# 6. Prediksi
y_pred = model.predict(X_test_scaled)

# 7. Evaluasi Model
mse = mean_squared_error(y_test_scaled, y_pred)
r2 = r2_score(y_test_scaled, y_pred)

print(f"Mean Squared Error: {mse}")

Mean Squared Error: 0.17792590662773464


In [None]:
coefficients = model.coef_
intercept = model.intercept_

In [None]:
coefficients

array([[-0.35245875, -0.25094782, -0.42260209, -0.08234139]])

In [None]:
intercept

array([0.90011599])

In [None]:
import statsmodels.api as sm

X = sm.add_constant(X_train_scaled)
model = sm.OLS(y_train_scaled, X)
results = model.fit()

print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                y_train   R-squared:                       0.570
Model:                            OLS   Adj. R-squared:                  0.491
Method:                 Least Squares   F-statistic:                     7.281
Date:                Tue, 15 Oct 2024   Prob (F-statistic):           0.000681
Time:                        12:36:19   Log-Likelihood:                 6.7650
No. Observations:                  27   AIC:                            -3.530
Df Residuals:                      22   BIC:                             2.949
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                                  coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------------------
const             