**DATA MINING - Teguh Ardiansyah (A11.2022.14350)**

In [1]:
from fpdf import FPDF

# Create instance of FPDF class
pdf = FPDF()
pdf.add_page()
pdf.set_auto_page_break(auto=True, margin=15)
pdf.set_font("Arial", size=12)

# Add title
pdf.set_font("Arial", 'B', size=14)
pdf.cell(0, 10, "Draft Eksperimen Tugas Akhir", ln=True, align='C')
pdf.ln(10)

# Add content
content = [
    ("Topik / Judul", "Analisis Tren dan Faktor-Faktor Penyebaran COVID-19 Berdasarkan Data Kasus Harian"),
    
    ("Deskripsi Singkat (Ringkasan BU / DU)", 
     "Pandemi COVID-19 telah berdampak signifikan pada kesehatan masyarakat global, perekonomian, dan kehidupan sosial di berbagai negara. "
     "Untuk memahami penyebaran dan pola kasus COVID-19, eksperimen ini akan menganalisis data terkait jumlah kasus harian, tingkat kematian, "
     "tingkat kesembuhan, dan kebijakan yang diberlakukan di beberapa negara selama pandemi. Dengan pemahaman ini, kita bisa mengidentifikasi "
     "faktor-faktor utama yang memengaruhi peningkatan atau penurunan kasus COVID-19 dan dampak dari kebijakan yang diterapkan."),
    
    ("Masalah dan Tujuan yang Ingin Dicapai", 
     "Tujuan utama dari eksperimen ini adalah untuk:\n"
     "1. Mengidentifikasi pola tren kasus COVID-19 berdasarkan data harian di berbagai negara.\n"
     "2. Menganalisis pengaruh faktor-faktor seperti kebijakan pembatasan, tingkat pengujian, dan tingkat vaksinasi terhadap jumlah kasus aktif "
     "dan tingkat kematian.\n3. Memberikan rekomendasi untuk penanganan pandemi berdasarkan hasil analisis pola data.\n\n"
     "Masalah yang ingin dijawab antara lain:\n"
     "- Apakah ada hubungan signifikan antara tingkat vaksinasi dan penurunan kasus aktif?\n"
     "- Bagaimana pengaruh kebijakan pembatasan pada jumlah kasus aktif dan angka kematian?\n"
     "- Faktor-faktor apa yang paling memengaruhi perbedaan kasus COVID-19 antar negara?"),
    
    ("Alur / Tahapan / Kerangka Eksperimen",
     "1. Pengumpulan dan Pembersihan Data: Mengumpulkan data COVID-19 dari sumber terpercaya atau menggunakan dataset sintesis.\n"
     "2. Eksplorasi Data: Meninjau data untuk melihat pola distribusi, mengidentifikasi anomali atau data yang hilang.\n"
     "3. Analisis Korelasi: Menganalisis hubungan antara variabel seperti tingkat vaksinasi, tingkat pengujian, dan indeks kebijakan.\n"
     "4. Pemodelan Data: Menggunakan model regresi atau analisis time series untuk memahami pola kenaikan atau penurunan kasus.\n"
     "5. Evaluasi Hasil: Menilai efektivitas model dan mengidentifikasi faktor yang memengaruhi penyebaran COVID-19.\n"
     "6. Kesimpulan dan Rekomendasi: Memberikan rekomendasi kebijakan penanganan pandemi berdasarkan hasil eksperimen."),
    
    ("Penjelasan Dataset", 
     "Dataset yang digunakan dalam eksperimen ini adalah dataset COVID-19 harian dengan atribut:\n"
     "- Tanggal: Tanggal pencatatan data harian.\n"
     "- Negara: Nama negara tempat data dikumpulkan.\n"
     "- Provinsi/Negara Bagian: Nama provinsi atau negara bagian (jika tersedia).\n"
     "- Kasus Terkonfirmasi: Total kasus COVID-19 yang telah dikonfirmasi pada tanggal tersebut.\n"
     "- Kematian: Jumlah total kematian yang disebabkan oleh COVID-19 pada tanggal tersebut.\n"
     "- Sembuh: Total kasus yang dilaporkan sembuh pada tanggal tersebut.\n"
     "- Kasus Aktif: Kasus yang masih aktif pada tanggal tersebut.\n"
     "- Kasus Baru: Jumlah kasus baru yang dilaporkan pada tanggal tersebut.\n"
     "- Kematian Baru: Jumlah kematian baru yang dilaporkan pada tanggal tersebut.\n"
     "- Tingkat Pengujian: Jumlah tes per 1.000 orang.\n"
     "- Tingkat Vaksinasi: Persentase populasi yang telah divaksinasi pada tanggal tersebut.\n"
     "- Indeks Ketat Kebijakan: Ukuran kebijakan pembatasan, 0-100.\n"
     "- Populasi: Populasi negara/provinsi tempat data diambil.")
]

# Add sections
pdf.set_font("Arial", size=12)
for title, text in content:
    pdf.set_font("Arial", 'B', size=12)
    pdf.cell(0, 10, title, ln=True)
    pdf.set_font("Arial", size=12)
    pdf.multi_cell(0, 10, text)
    pdf.ln(5)

# Save the PDF file
pdf_output_path = "/mnt/data/Draft_Eksperimen_Tugas_Akhir_COVID19.pdf"
pdf.output(pdf_output_path)

pdf_output_path


Mounted at /content/drive


In [2]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# Tentukan jumlah data
jumlah_data = 100

# Generate data tanggal secara acak
tanggal_awal = datetime.strptime("2021-01-01", "%Y-%m-%d")
tanggal = [tanggal_awal + timedelta(days=int(np.random.randint(0, 365))) for _ in range(jumlah_data)]

# Data negara acak
negara = np.random.choice(['Indonesia', 'Amerika Serikat', 'India', 'Brazil', 'Rusia'], jumlah_data)

# Data provinsi acak
provinsi = np.random.choice(['Jakarta', 'New York', 'Maharashtra', 'São Paulo', 'Moscow'], jumlah_data)

# Kasus COVID-19 acak
kasus_terkonfirmasi = np.random.randint(1000, 500000, jumlah_data)
kematian = np.random.randint(50, 5000, jumlah_data)
sembuh = np.random.randint(100, 300000, jumlah_data)
kasus_aktif = kasus_terkonfirmasi - kematian - sembuh

# Kasus baru dan kematian baru acak
kasus_baru = np.random.randint(10, 500, jumlah_data)
kematian_baru = np.random.randint(1, 100, jumlah_data)

# Tingkat pengujian dan tingkat vaksinasi acak
tingkat_pengujian = np.random.uniform(1, 5, jumlah_data).round(2)
tingkat_vaksinasi = np.random.uniform(10, 90, jumlah_data).round(2)

# Indeks ketat kebijakan acak
indeks_ketat_kebijakan = np.random.randint(0, 100, jumlah_data)

# Populasi negara/provinsi
populasi = np.random.randint(1000000, 50000000, jumlah_data)


In [3]:
print("First of the dataset:")


First of the dataset:


In [4]:
data = pd.read_excel('/content/drive/My Drive/Colab Notebooks/DataKasus-3/dataKasus-3.xlsx')


In [None]:
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 561 entries, 0 to 560
Data columns (total 13 columns):

  #          Nama Kolom	                Deskripsi                   Non-Null Count          Dtype
--------------------------------------------------------------------------------------------------                                                                
  0         Tanggal	                    22/10/28                    561 non-null            int64
  1         Negara	                    Indonesia                   561 non-null            object
  2         Provinsi/Negara Bagian	    DKI Jakarta                 561 non-null            object
  3         Kasus Terkonfirmasi	        1.200.000 positif           561 non-null            int64
  4         Kematian	                300.000 korban jiwa         561 non-null            object
  5         Sembuh	                    1.150.000 sembuh            561 non-null            object
  6         Kasus Aktif	                20.000                      561 non-null            object
  7         Kasus Baru	                150                         561 non-null            object
  8         Kematian Baru	            2                           561 non-null            object
  9         Tingkat Pengujian	        300                         561 non-null            object
  10        Tingkat Vaksinasi	        70%                         561 non-null            object
  11        Indeks Ketat Kebijakan	    50                          561 non-null            object
  12        Populasi	                10.000.000                  11  non-null            object

dtypes: int64(2), object(11)
memory usage: 57.1+ KB

In [None]:
data.tail()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 561 entries, 0 to 560
Data columns (total 13 columns):

  #          Nama Kolom	                Deskripsi                   Non-Null Count          Dtype
--------------------------------------------------------------------------------------------------                                                                
  0         Tanggal	                    22/10/28                    561 non-null            int64
  1         Negara	                    Indonesia                   561 non-null            object
  2         Provinsi/Negara Bagian	    DKI Jakarta                 561 non-null            object
  3         Kasus Terkonfirmasi	        1.200.000 positif           561 non-null            int64
  4         Kematian	                300.000 korban jiwa         561 non-null            object
  5         Sembuh	                    1.150.000 sembuh            561 non-null            object
  6         Kasus Aktif	                20.000                      561 non-null            object
  7         Kasus Baru	                150                         561 non-null            object
  8         Kematian Baru	            2                           561 non-null            object
  9         Tingkat Pengujian	        300                         561 non-null            object
  10        Tingkat Vaksinasi	        70%                         561 non-null            object
  11        Indeks Ketat Kebijakan	    50                          561 non-null            object
  12        Populasi	                10.000.000                  11  non-null            object

dtypes: int64(2), object(11)
memory usage: 57.1+ KB

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 561 entries, 0 to 560
Data columns (total 13 columns):

  #          Nama Kolom	                Deskripsi                   Non-Null Count          Dtype
--------------------------------------------------------------------------------------------------                                                                
  0         Tanggal	                    22/10/28                    561 non-null            int64
  1         Negara	                    Indonesia                   561 non-null            object
  2         Provinsi/Negara Bagian	    DKI Jakarta                 561 non-null            object
  3         Kasus Terkonfirmasi	        1.200.000 positif           561 non-null            int64
  4         Kematian	                300.000 korban jiwa         561 non-null            object
  5         Sembuh	                    1.150.000 sembuh            561 non-null            object
  6         Kasus Aktif	                20.000                      561 non-null            object
  7         Kasus Baru	                150                         561 non-null            object
  8         Kematian Baru	            2                           561 non-null            object
  9         Tingkat Pengujian	        300                         561 non-null            object
  10        Tingkat Vaksinasi	        70%                         561 non-null            object
  11        Indeks Ketat Kebijakan	    50                          561 non-null            object
  12        Populasi	                10.000.000                  11  non-null            object

dtypes: int64(2), object(11)
memory usage: 57.1+ KB

In [8]:
data.columns=[data_covid = pd.DataFrame({
    'Tanggal': tanggal,
    'Negara': negara,
    'Provinsi/Negara Bagian': provinsi,
    'Kasus Terkonfirmasi': kasus_terkonfirmasi,
    'Kematian': kematian,
    'Sembuh': sembuh,
    'Kasus Aktif': kasus_aktif,
    'Kasus Baru': kasus_baru,
    'Kematian Baru': kematian_baru,
    'Tingkat Pengujian': tingkat_pengujian,
    'Tingkat Vaksinasi': tingkat_vaksinasi,
    'Indeks Ketat Kebijakan': indeks_ketat_kebijakan,
    'Populasi': populasi
})

# Simpan dataset sebagai file CSV
data_covid.to_csv('dataset_covid_contoh.csv', index=False)]

In [9]:
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 561 entries, 0 to 560
Data columns (total 13 columns):

  #          Nama Kolom	                Deskripsi                   Non-Null Count          Dtype
--------------------------------------------------------------------------------------------------                                                                
  0         Tanggal	                    22/10/28                    561 non-null            int64
  1         Negara	                    Indonesia                   561 non-null            object
  2         Provinsi/Negara Bagian	    DKI Jakarta                 561 non-null            object
  3         Kasus Terkonfirmasi	        1.200.000 positif           561 non-null            int64
  4         Kematian	                300.000 korban jiwa         561 non-null            object
  5         Sembuh	                    1.150.000 sembuh            561 non-null            object
  6         Kasus Aktif	                20.000                      561 non-null            object
  7         Kasus Baru	                150                         561 non-null            object
  8         Kematian Baru	            2                           561 non-null            object
  9         Tingkat Pengujian	        300                         561 non-null            object
  10        Tingkat Vaksinasi	        70%                         561 non-null            object
  11        Indeks Ketat Kebijakan	    50                          561 non-null            object
  12        Populasi	                10.000.000                  11  non-null            object

dtypes: int64(2), object(11)
memory usage: 57.1+ KB

In [10]:
data = data.drop_duplicates()

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 561 entries, 0 to 560
Data columns (total 13 columns):

  #          Nama Kolom	                Deskripsi                   Non-Null Count          Dtype
--------------------------------------------------------------------------------------------------                                                                
  0         Tanggal	                    22/10/28                    561 non-null            int64
  1         Negara	                    Indonesia                   561 non-null            object
  2         Provinsi/Negara Bagian	    DKI Jakarta                 561 non-null            object
  3         Kasus Terkonfirmasi	        1.200.000 positif           561 non-null            int64
  4         Kematian	                300.000 korban jiwa         561 non-null            object
  5         Sembuh	                    1.150.000 sembuh            561 non-null            object
  6         Kasus Aktif	                20.000                      561 non-null            object
  7         Kasus Baru	                150                         561 non-null            object
  8         Kematian Baru	            2                           561 non-null            object
  9         Tingkat Pengujian	        300                         561 non-null            object
  10        Tingkat Vaksinasi	        70%                         561 non-null            object
  11        Indeks Ketat Kebijakan	    50                          561 non-null            object
  12        Populasi	                10.000.000                  11  non-null            object

dtypes: int64(2), object(11)
memory usage: 57.1+ KB

In [12]:
data.describe()

Unnamed: 0,NO,PARITAS
count,561.0,561.0
mean,281.85918,1.709447
std,162.301009,1.012105
min,1.0,0.0
25%,142.0,1.0
50%,282.0,2.0
75%,422.0,2.0
max,562.0,6.0


In [13]:
import numpy as np


In [14]:
data.replace("?", np.nan, inplace= True)

In [None]:
data.info()

In [16]:
data.loc[:,list(data.loc[:,data.isnull().any()].columns)].isnull().sum()/(len(data))*100

Unnamed: 0,0
USIA,0.534759
JARAK KELAHIRAN,1.247772
Unnamed: 12,98.039216


In [17]:
data = data.loc[:,data.apply(pd.Series.nunique) != 1]

In [None]:
data.info()

In [20]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.subplots(figsize = (20,10))
sns.countplot(x=data['PE/Non PE'],order=data['PE/Non PE'].value_counts().index,hue=data['NAMA'])
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.subplots(figsize = (20,10))
sns.countplot(x=data['OBESITAS'],order=data['OBESITAS'].value_counts().index,hue=data['NAMA'])
plt.show()