## การเตรียมชุดข้อมูลตัวอย่างของแอปเปิ้ลสายพันธุ๋ Envi ใน UK

- ทำการอ่านไฟล์ Apple462.csv 
- คัดกรองชุดข้อมูลตัวอย่างเฉพาะประเทศ UK

In [1]:
import pandas as pd
import numpy as np
df = pd.read_csv('../Apple462.csv')
df = df.drop(df[df["region"] != "UK"].index)
df = df.drop(columns=["Unnamed: 0"])
df

Unnamed: 0,Date,Envi,Fuji,Gala,region
156,27/12/2015,30482,2972,5894,UK
157,20/12/2015,25628,2546,7394,UK
158,13/12/2015,27149,2986,6458,UK
159,6/12/2015,35591,12527,4086,UK
160,29/11/2015,24190,2790,6031,UK
...,...,...,...,...,...
3340,4/2/2018,,8511,22490,UK
3341,28/1/2018,66654,1972,6962,UK
3342,21/1/2018,49711,2157,6343,UK
3343,14/1/2018,49335,7415,8299,UK


- นำ features ของวันที่และสายพันธุ์ Envi แล้วสร้าง
ชุดข้อมูลตัวอย่างใหม่

In [2]:
df_envi = df.drop(columns=["Fuji", "Gala", "region"])
df_envi.head(10)

Unnamed: 0,Date,Envi
156,27/12/2015,30482.0
157,20/12/2015,25628.0
158,13/12/2015,27149.0
159,6/12/2015,35591.0
160,29/11/2015,24190.0
161,22/11/2015,
162,15/11/2015,24425.0
163,8/11/2015,31910.0
164,1/11/2015,30435.0
165,25/10/2015,29522.0


- เปลี่ยนชนิดข้อมูลของวันที่จาก object เป็น date
- นำชุดข้อมูลตัวอย่างมาเรียงชุดข้อมูลตัวอย่างใหม่ตามวันที่จากเก่าไปใหม่

In [3]:
df_envi["Date"] = pd.to_datetime(df_envi["Date"], format="%d/%m/%Y")
df_envi.info()

<class 'pandas.core.frame.DataFrame'>
Index: 169 entries, 156 to 3344
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   Date    169 non-null    datetime64[ns]
 1   Envi    169 non-null    object        
dtypes: datetime64[ns](1), object(1)
memory usage: 4.0+ KB


In [4]:
df_envi.sort_values(by="Date", inplace=True)
df_envi["Date"] = df_envi["Date"].dt.strftime("%d/%m/%Y")
df_envi.head(10)

Unnamed: 0,Date,Envi
207,04/01/2015,44562.0
206,11/01/2015,38112.0
205,18/01/2015,50355.0
204,25/01/2015,51922.0
203,01/02/2015,67496.0
202,08/02/2015,54229.0
201,15/02/2015,41548.0
200,22/02/2015,50872.0
199,01/03/2015,40578.0
198,08/03/2015,


- ตรวจสอลชุดข้อมูลตัวอย่างว่ามี miss value ในวันที่ใดบ้าง

In [5]:
result = df_envi[df_envi['Envi'] == ' ']
result

Unnamed: 0,Date,Envi
198,08/03/2015,
182,28/06/2015,
161,22/11/2015,
1250,11/12/2016,
2387,26/02/2017,
2345,17/12/2017,
3340,04/02/2018,


- แก้ไข miss value โดยหาค่าเฉลี่ยของ 2 วันก่อนหน้า
- หลังจากแก้ไขแล้วให้เปลี่ยนชนิดข้อมูลของชุดข้อมูลตัวอย่างของ Envi ให้เป็นจำนวนเต็ม ( Integer ) เนื่องจากค่าเฉลี่ยทีได้อาจได้ค่าเป็นทศนิยม ( Float )

In [6]:
for x in df_envi.index:
    if df_envi.loc[x, "Envi"] == " ":
        df_envi.loc[x, "Envi"] = np.nan
df_envi.info()

<class 'pandas.core.frame.DataFrame'>
Index: 169 entries, 207 to 3333
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    169 non-null    object
 1   Envi    162 non-null    object
dtypes: object(2)
memory usage: 8.0+ KB


In [7]:
df_envi["Envi"] = pd.to_numeric(df_envi["Envi"])
df_envi.info()

<class 'pandas.core.frame.DataFrame'>
Index: 169 entries, 207 to 3333
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Date    169 non-null    object 
 1   Envi    162 non-null    float64
dtypes: float64(1), object(1)
memory usage: 8.0+ KB


In [8]:
df_envi = df_envi.interpolate()
df_envi["Envi"] = df_envi["Envi"].astype("int64")
df_envi.head(10)

Unnamed: 0,Date,Envi
207,04/01/2015,44562
206,11/01/2015,38112
205,18/01/2015,50355
204,25/01/2015,51922
203,01/02/2015,67496
202,08/02/2015,54229
201,15/02/2015,41548
200,22/02/2015,50872
199,01/03/2015,40578
198,08/03/2015,46025


- บันทึกไฟล์ csv ของแอปเปิ้ลสายพันธ์ุ Envi เพื่อใช้สำหรับสร้างโมเดลต่อไป

In [9]:
df_envi.to_csv("envi.csv", sep=",", encoding="utf-8", index=False)