In [44]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

from jcopml.pipeline import num_pipe, cat_pipe
from jcopml.utils import save_model, load_model
from jcopml.plot import plot_missing_value
from jcopml.feature_importance import mean_score_decrease

### Import Data

In [46]:
df = pd.read_csv("dataset.csv")
df.head()

Unnamed: 0,tanggal,wilayah,waktu,cuaca,kelembaban_persen,suhu_derajat_celcius
0,2018-12-31,Kepulauan Seribu,Siang,Hujan Lokal,70 - 90,24 - 32
1,2018-12-31,Kepulauan Seribu,Pagi,Hujan Lokal,70 - 90,24 - 32
2,2018-12-31,Kepulauan Seribu,Malam,Hujan Lokal,70 - 90,24 - 32
3,2018-12-31,Kepulauan Seribu,Dini Hari,Hujan Ringan,70 - 90,24 - 32
4,2018-12-31,Jakarta Utara,Siang,Hujan Lokal,70 - 90,24 - 32


### Melihat Missing Value

In [47]:
df.isnull().sum()

tanggal                 135
wilayah                 135
waktu                   135
cuaca                   135
kelembaban_persen       135
suhu_derajat_celcius    135
dtype: int64

### Membuang Data yang Kosong

In [49]:
df.dropna(inplace=True)
df.isnull().sum()

tanggal                 0
wilayah                 0
waktu                   0
cuaca                   0
kelembaban_persen       0
suhu_derajat_celcius    0
dtype: int64

In [51]:
df['cuaca'].unique()

array(['Hujan Lokal', 'Hujan Ringan', 'Berawan', 'Cerah Berawan', 'Cerah',
       'Berawan Tebal', 'Hujan Sedang', 'Cerah Berawn', 'Cerang Berawan',
       'Beawan', 'Berawan ', 'Hujan Petir', 'Hujan Lokal ',
       'Cerah Berawan ', 'Cerah ', 'Cerah Berawah', 'Cerah  ', ' Berawan',
       'Hujan', 'Hujan Petir ', 'Hujan Sedang ', 'Cerah berawan',
       'Hujan Ringanl', 'Berawa', 'Hujang Sedang', 'Hujan Loka',
       'Hujan Ringan '], dtype=object)

In [57]:
import re
data = df['cuaca'].values

cerah = 'Cerah Berawan Cerah Cerah'
re.findall('\w+Cerah+\w+', cerah)

# def classifySch(text):  
#     cerah = ['Cerah Berawan','Cerah', 'Cerah Berawan ']
#     hujan = ['Hujan Ringan','Hujan Lokal','Hujan Petir','Hujan Ringan ', 'Hujan Lokal ', 'Hujan Sedang', 'Hujan Loka']
#     berawan = ['Berawan','Berawan Tebal',' Berawan','Berawan ']
    
#     try:
#         result = re.search(df['cuaca'].values, text).groups()
#         if result in cerah:
#             df['cuaca'].replace(text, 'Cerah')
#         if text in hujan:
#             return 'hujan'
#         if text in berawan:
#             return 'berawan'
#         else:
#             return "gamasok"
#     except:
#         return 'ulang lagi'

# classifySch("Cerah Berawan")

[]

In [75]:
df['cuaca'].replace(df[df['cuaca'].str.contains('^Cerah.*')==True], 'Cerah', inplace=True)

ValueError: Series.replace cannot use dict-like to_replace and non-None value

In [77]:
df["kelembapan_min"] = df.kelembaban_persen.apply(lambda x: x.split("-")[0])
df.kelembapan_min.head()
df.kelembapan_min.value_counts()

70      912
65      720
 70     720
 60     696
 55     648
55      624
75      624
 45     504
60      408
 65     360
50      312
 50     288
80      288
 40     192
65      192
80      144
45      120
75      120
60      120
70       96
 75      96
 35      72
 80      48
85       48
55       24
35       24
Name: kelembapan_min, dtype: int64

In [80]:
df["kelembapan_min"] = [x.strip(' ') for x in df["kelembapan_min"]]
df.kelembapan_min.value_counts()

70    1728
55    1296
65    1272
60    1224
75     840
45     624
50     600
80     480
40     192
35      96
85      48
Name: kelembapan_min, dtype: int64

In [None]:
data = df['cuaca'].values

array(['Cerah Berawan', 'Cerah', 'Cerah Berawan', 'Cerah', 'Cerah',
       'Cerah', 'Hujan Ringan', 'Hujan Lokal', 'Hujan Ringan', 'Berawan',
       'Hujan Lokal', 'Hujan Lokal', 'Hujan Lokal', 'Berawan',
       'Hujan Lokal', 'Berawan', 'Berawan', 'Berawan', 'Berawan Tebal',
       'Berawan Tebal', 'Berawan Tebal', 'Berawan Tebal', 'Berawan Tebal',
       'Berawan Tebal', 'Cerah Berawan', 'Cerah Berawan', 'Cerah Berawan',
       'Cerah Berawan', 'Cerah Berawan', 'Cerah Berawan ', 'Hujan Petir',
       'Berawan', 'Hujan Petir', 'Cerah Berawan', 'Hujan Lokal',
       'Hujan Lokal', 'Hujan Lokal', 'Berawan', 'Hujan Lokal',
       'Cerah Berawan', 'Hujan Lokal', 'Hujan Lokal', 'Berawan',
       'Cerah Berawan', 'Cerah Berawan', 'Hujan Lokal', 'Berawan',
       'Berawan', 'Cerah Berawan', 'Cerah Berawan', 'Cerah Berawan',
       'Cerah Berawan', 'Cerah Berawan', 'Cerah Berawan ', 'Hujan Lokal',
       'Hujan Ringan', 'Hujan Petir', 'Berawan', 'Hujan Ringan',
       'Hujan Ringan', 'Berawan

In [None]:
df['cuaca']

0      Cerah Berawan
1              Cerah
2      Cerah Berawan
3              Cerah
4              Cerah
           ...      
715     Hujan Ringan
716     Hujan Ringan
717     Hujan Sedang
718     Hujan Ringan
719     Hujan Ringan
Name: cuaca, Length: 720, dtype: object

In [None]:
X = df.drop(columns=["cuaca"])
y = df["cuaca"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

ValueError: The least populated class in y has only 1 member, which is too few. The minimum number of groups for any class cannot be less than 2.